Pemetaan Profesi Data Scientist

Big Data

Saking seringnya ngobrol tentang Big Data dengan beberapa kalangan, lama lama saya mulai bisa memetakan kebingungan, kegalauan, dan pemahaman masyarakat mengenai topik ini. Kebanyakan masyarakat yang awam dengan Big Data, sering tidak bisa mendefinisikan dengan tepat apa itu Big Data. Mereka hanya tahu bagian input dan output saja ..  proses di tengahnya gelap seperti blackbox. Bahkan beberapa rekan dosen yang masih awam bilang, coba selesaikan masalah penelitian dengan Big Data (maksudnya sih mengambil data dari media sosial), sementara yang lain menggangap bahwa Big Data itu metode pengganti statistik yang lebih canggih. Tentu saja anggapan anggapan tersebut tidak benar, kita semua mengenal istilah Big Data ini, karena ada peluang tersedianya data dalam jumlah besar, sehingga muncul peluang untuk memanfaatkannya. Perkara apakah hasil riset menggunakan Big Data akan lebih baik dari hasil metode konvensional (statistik), yah belum tentu juga.

Jadi Big Data itu apa ?, metode, alat, media atau yang hal lainnya yang kompleks,  tidak masuk dalam kategori yang bisa dipahami (rumit), maka dimasukkan ke dalam Big Data. Lucunya ini kenyataan lho, bahkan misalkan proses optimasi, simulasi, dan model matematika yang sudah ada sejak dulu, sering dianggap sebagai bagian Big Data juga, hanya karena metode itu saat ini sering digunakan (untuk menyelesaikan masalah kompleks) karena ketersediaan data yang semakin mudah. Sisi bagusnya adalah metode metode seperti artificial neural network, simulasi monte carlo, simulated annealing, dan lain lainnya semakin sering dipergunakan dan semakin dikenal.

Data Science

Supaya tidak terjebak istilah Big Data yang ambigu, maka saya sarankan kita bicaranya dari sisi Data Science saja. Data Science adalah suatu ilmu yang berpusat pada data sebagai komoditi utamanya. Beberapa metode dan kepentingan dari latar belakang kelimuan yang berbeda digunakan. Ilmu ilmu tersebut antara lain adalah ilmu komputer, matematika / statistika, bisnis, dan domain / konteks permasalahan.  Orang / talentanya disebut sebagai Data Scientist, dalam bahasa Indonesia adalah Ilmuwan Data. Kebetulan saya dan beberapa rekan ilmuwan serta praktisi membuat wadah Asosiasi Ilmuwan Data Indonesia (AIDI) (silahkan dicek,  boleh kok bergabung). Masih ingat postingan saya beberapa tahun yang lalu tentang tulisan Davenport dan DJ Patil di HBR bahwa “Data Scientist is the most sexiest job in 21th century” pada tahun 2012. Ternyata 5 – 6  tahun kemudian tetap sexy lho, cek disini dan disini.

Karena begitu sexy nya profesi ini, maka saya mulai melakukan riset kecil kecilan, kenapa profesi ini begitu dicari. Industri begitu kesulitan, dan bahkan putus asa mencari talenta yang bisa melakukan analisa, menceritakan pola dari data, dan membuat prediksi. Karena latar belakang pendidikan lulusan universitas pada umumnya sering terkotak kotak pada kelompok keilmuan tertentu, dan belum bisa berkomunikasi dengan bidang lain. Sebagai gambaran, daripada memberi gaji 1x ke programmer, 1x ke modeler, dan 1x ke orang bisnis (total 3x gaji), lebih baik perusahaan memberikan gaji 5x ke 1 orang yang menguasai ketiga domain tersebut. Nah talenta / orang ini yang disebut sebagai Data Scientist.

Pemetaan Data Scientist

Data Analytics Body of Knowledge

Data Science Knowledge Area

 

Data Engineering Body of Knowledge

 

Hasil baca sana sini, diperolah bahwa seorang Data Scientist itu harus mempunyai Knowledge Area (area pengetahuan) di bidang Data Analytics, Data Engineering, Data Management, Research Methodology, Project Management, Business Analytics, dan Domain Knowledge. Masing masing dari area pengetahuan diatas dibagi lagi menjadi keilmuan keilmuan kecil yang disebut sebagai Body of Knowledge (BoK) yang diselaraskan dengan cabang keilmuan, sehingga kita bisa identifikasi keilmuan besarnya masuk ke dalam ilmu apa. Peta sementara dari 3 gambar diatas, menunjukkan betapa kompleksnya keilmuan data tersebut, tidak salah kalo memang pekerjaan ini disebut pekerjaan sexy.

Oh ya sebagai penutup blog singkat ini.  Dari segitu banyak “maunya” industri mencari talenta Data Scientist yang canggih, sampai saat ini belum terlihat adanya daftar / framework kompetensi dari seorang Data Scientist yang diinginkan oleh industri, atau bahkan kompetensi secara global. Ini menjadi PR penting dalam rangka mengurangi gap antara lulusan universitas dan industri.

Advertisements

Konferensi Big Data 2016 (KBI2016)

Komunitas IDBigData kembali menyelenggarakan konferensi Big Data (KBI) 2016 di gedung BPPT Jakarta, pada tanggal 7-8 desember 2016. Konferensi ini adalah lanjutan dari KBI KBI sebelumnya contohnya pada tahun 2015 ( link blog saya, link blog saya, link website resmi). KBI 2016 adalah KBI ke 3 yang diselenggarakan oleh komunitas IDBigData. Tema besar konferensi ini adalah adalah “Leveraging National Capacities and Capabilities”.

Saya sendiri ikut berpartisipasi di acara KBI sejak KBI ke 2 tahun kemarin di Bandung dengan menjadi salah satu narasumber untuk topik “Social Network Analysis” (video).  sebelumnya saya juga pernah ikut berpartisipasi di IDBigData #4 (video). Untuk tahun ini saya akan berpartisipasi di talkshow / panel, dengan topik “Tantangan dan Daya Saing Big Data Indonesia”. Saya akan mewakili Asosiasi Ilmuwan Data Indonesia (AIDI). Mengenai Asosiasi akan saya tuliskan di blog terpisah ya…

Topik KBI tahun ini menurut saya akan sangat menarik, selama beberapa tahun terakhir ini industri, pemerintahan, dan akademisi sibuk dengan solusi solusi untuk menyelesaikan problem problem Big Data, akan tetapi gambaran besar, visi, misi pembangunan yang bertumpu akan kemampuan menganalisa Big Data masih kurang banyak dibicarakan. Nah melalui konferensi ini diharapkan kita bisa mengumpulkan berbagai macam ide yang pada akhirnya membawa kesamaan tujuan.

Indonesia adalah negara yang sangat besar potensi alam dan rakyatnya. Kemampuan menjinakkan Big Data bisa menjadi solusi yang efektif dan efisien dalam mendukung daya saing bangsa, perekonomian, dan pemerataan pembangunan. Kesadaran akan data collection, open data, open audit akan membuat pemerintahan lebih transparan, akuntabel, dan pro keadilan sosial bagi seluruh rakyat Indonesia

Come and join this conference

PS : my schedule is on the first day, first talk show at 13:00 WIB

IMG 2016 11 30 07 52 03

Screen Shot 2016 11 30 at 7 49 43 AM  2

Screen Shot 2016 11 30 at 7 50 04 AM  2

Pengelompokkan Kemajuan Kota Dengan Clustering Data

Karena kesibukan yang ga ada abisnya akhir akhir ini, maka sudah lama saya tidak sempat mencari dan melihat perkembangan dataset yang tersedia bebas di Internet. Berawal dari keluhan beberapa mahasiswa bimbingan dan penghuni labo tentang kesulitan mencari data, maka saya kemarin mencoba browsing browsing, dan akhirnya saya menemukan gudang dataset Indonesia yang lumayan ok di data.go.id . Tempat ini menurut saya cukup bagus, walaupun saya belum mengecek kelengkapannya. Saya langsung menuju ke sektor ekonomi dan keuangan dan menemukan dataset INDODAPOER

INDODAPOER adalah dataset Indonesia Dataset for Policy and Economic Research yang dimiliki oleh Bank Dunia, yang kemudian di buka bebas untuk diakses masyarakat luas. Data ini sesuai untuk penelitian tentang kemajuan perkembangan pembangunan ekonomi dari tahun ke tahun di Indonesia. Terdapat 200 indikator pengukuran untuk setiap kota / kabupaten dan provinsi di Indonesia, yang dikelompokkan menjadi indikator fiskal, indikator ekonomi, indikator sosial dan demografi, indikator infrastruktur. Contoh indikator indikator bisa dilihat pada gambar dibawah.

Setelah mendapatkan data, maka saya mulai iseng bermain main dengan data dan mengambil sembarang dua indikator (atribut) yang menyatakan kemajuan kota. Saya pilih atribut HDI (Human Development Index) atau indeks pengembangan manusia dan GDP (Gross Domestic Product) atau jumlah uang yang diperoleh dari pendapatan atas barang dan jasa dari suatu kota / kabupaten. HDI semakin besar nilainya semakin baik kualitas sumber daya manusianya, demikian juga dengan GDP, semakin besar GDP, semakin besar pendapatannya. Dua atribut HDI dan GDP ini akan mengelompokkan kota / kabupaten di indonesia menjadi  beberapa kelompok seperti yang terlihat di gambar di bawah ini. GDP yang saya ambil adalah nilai GDP diluar industri minyak dan gas bumi.

Graphcluster2

Pengelompokan kota berdasarkan HDI dan GDP

 

Pada gambar tersebut terlihat ada kelompok kota / kabupaten dengan indeks HDI rendah dan nilai  GDP rendah yang ditandai dengan titik warna biru, ada juga kelompok kota / kabupaten dengan indeks HDI tinggi tapi GDP rendah yang ditandai dengan titik warna merah, terakhir kelompok kota / kabupaten yang indeks HDI tinggi dan nilai GDP yang tinggi ditandai dengan titik warna hijau. Pengelompokan ini secara kasar bisa mengambarkan kota mana saja yang sudah maju tinggal kesejahterannya berdasarkan rasio HDI dan GDPnya. Ada kelompok kota yang sudah memaksimalkan sumber daya manusianya dan ada kelompok kota yang kurang bisa memaksimalkan potensi sumber data manusianya (kelompok merah). Kesimpulan ini adalah kesimpulan singkat dan cepat, perlu analisa lebih dalam dan komprehensif yang melibatkan indikator indikator lainnya dan pada tahun tahun yang berbeda untuk memantau perkembangan suatu kota / kabupaten.

Metodologi yang saya gunakan adalah Clustering Data menggunakan metode k-means, setelah mencoba coba pemilihan acak jumlah kelompok, akhirnya terbentuk jumlah yang optimal adalah 3 kelompok. Data yang diambil hanyalah data pada tahun 2012, karena pada tahun tersebut datanya paling lengkap, baik data HDI maupun data GDP.  Ada 3 kota yang terpaksa saya hilangkan dari proses, karena mereka outliers (pencilan) di kelompok hijau untuk membuat grafik terbaca dengan lebih mudah, jadi sebetulnya 3 kota itu adalah kota kota tertinggi dalam rasio HDI/GDP nya, kota kota itu adalah Kota Surabaya, Kab. Bekasi dan Kab. Bogor. Kesimpulan akhir adalah kita bisa menggunakan teknik teknik data mining untuk membuat analisa dan menemukan informasi yang tidak terduga sebelumnya. Semoga entry blog ini bermanfaat

Cluster1

Sebagian dari 200 indikator yang terlihat dari data mentah INDODAPOER 

Cluster

Sebagian hasil proses clustering data

Wisuda Mahasiswa Bimbingan (Nov 2015)

Hari ini adalah hari wisuda 4 mahasiswa bimbingan saya di data analytics. 3 dari 4 mahasiswa tersebut memang sudah berteman akrab sejak sebelum bimbingan skripsi dengan saya, sehingga selama masa pengerjaan skripsi terlihat mereka saling membantu dan memberikan motivasi satu sama lainnya. Akhirnya doktrin “data analytics” cukup melekat di benak mereka, sehingga mereka lah yang menjadi supporter dan buzzer untuk implementasi data analytics di berbagai bidang termasuk bisnis. Sering kalo ada mahasiswa lain bertanya tanya tentang hal teknis, mereka lah yang membantu saya menjadi asisten untuk mengajari mahasiswa lainnya. Bahkan pada saat memberikan workshop untuk dosen dosen pun mereka yang menjadi asisten saya mengajari dosen dosen yang lain

Sebelum wisuda 2 orang tersebut sudah bekerja sebagai data scientist di perusahaan masing masing. 1  orang masih belum, menurut saya karena terlalu banyak pilihan pekerjaan jadi membuat dia bingung. Pasar buat talent mereka sangat besar, i wish them very good luck. Anyway selamat buat bimbingan saya yang lulus bulan november 2015 ini, maaf saya tidak bisa menghadiri acara wisuda.  By the way,  memang saya biasanya juga tidak pernah hadir di acara seremonial wisuda, tapi yang penting adalah pembekalan ilmu untuk mereka di dunia kerja / dunia sesudah kuliah. lets rock the world

 

Diterima Bekerja Sebagai data Scientist (Part 2)

Pada entry saya terdahulu tentang Diterima Bekerja Sebagai Data Scientist,  saya bercerita tentang mahasiswa saya (Rio), yang diterima bekerja sebagai seorang Data Scientist. Kurang lebih dua minggu kemudian,  saya mendapatkan kabar gembira lainnya, yaitu mahasiswi saya yang lain (Aul) juga sudah diterima bekerja sebagai seorang Data Scientist di perusahaan grup telkom yang menangani digital media.  Aul dan Rio selesai sidang pada periode yang bersamaan, mereka berdua belum di wisuda. Dua kejadian yang hampir bersamaan dan dalam waktu cepat menggambarkan dimana industri dengan cepat menyerap talent talent dibidang Data Science ini. Hal ini semakin mengkonfirmasi hipotesa saya selama ini bahwa pergeseran teknologi membuat industri membutuhkan talent dengan skill set yang baru.

Saya pernah mentraining beberapa manager di perusahaan group telkom mengenai Big Data setahun yang lalu. Dan dari hasil training tersebut, beberapa manager mengeluhkan kekurangan talent bidang Data Science di pasar, dan bagaimana susahnya mencari talent yang sesuai harapan. Setelah itu saya ceritakan bahwa di kampus saya mengajar (MBTI, Telkom University), saya mengajarkan mahasiswa skill set seorang Data Scientist. Wah .. mendengar hal tersebut, maka mereka ceritanya langsung pesan mahasiswa … dan selalu menagih ke saya di beberapa kesempatan.

Kembali ke cerita Aul, sebenarnya, perusahaan tersebut membutuhkan paling sedikit 3 Data Scientist, dan saya baru bisa menyediakan satu mahasiswa. Karena Rio sudah diterima sebagai Data Scientist di perusahaan lain. Selamat buat Rio dan Aul … have fun playing with data .. 

Datascientist

skill set seorang data scientis modern

sumber gambar : google.com

Diterima Bekerja Sebagai Data Scientist

Saya baru dapat kabar gembira dari satu mahasiswa bimbingan saya, yaitu bahwa dia baru saja diterima sebagai Data Scientist di salah satu perusahaan digital advertising. Mahasiswa saya ini baru saja menyelesaikan sidang skripsi di bulan agustus 2015, belum melalui sidang kelulusan dan tentu saja belum diwisuda. Tapi awal september 2015 sudah diterima bekerja. Saya pikir ini  karena obyek skripsi dia yang menarik dan pengetahuan dia yang cukup luas mengenai keilmuan data, dan tentu saja skill yang dipunyainya, maka dia pun dengan cepat diterima bekerja. Disaat kompetisi lapangan kerja yang sangat tinggi, dia dengan mudah bisa diterima karena keunikan skill dan ilmu yang dia punyai.

Bagi saya pribadi ini adalah kabar yang sangat mengembirakan, sejak berkutat secara serius dari tahun 2013 di riset dan pengajaran dalam keilmuan data, baru kali ini mahasiswa bimbingan saya bekerja di bagian data. Apalagi sebagai Data Scientist, ilmu yang tidak mudah. Sungguh prestasi sendiri bagi mahasiswa manajemen bisnis yang secara tradisional tidak fokus ke keilmuan data, modelling, statistik dan komputasi. Beberapa tahun yang lalu tidak terbayangkan kebutuhan Data Scientist di Indonesia, tetapi sekarang dengan banyaknya perusahaan startup bidang ICT, maka adopsi ilmu dan profesi yang ada di industri global sudah banyak terjadi di Indonesia.

Saya tanya ke yang bersangkutan, pada saat wawancara, selain skill yang dia punya sekarang, skill apa lagi yang harus dilengkap ? .. jawabnya adalah “Python … ” ..wah tampaknya saya harus genjot mahasiswa untuk bermain main dengan Python, untungnya di mata kuliah ‘logic dan algoritma for business’ , Python sudah mulai diperkenalkan sebagai alat untuk merepresentasikan logika ..

Kabar ini semakin melecut semangat saya untuk fokus di bidang data ini, sambil melihat bimbingan saya berhasil masuk ke industri, dan kedepannya bisa menjadi partner saya untuk semakin memahami keilmuan dan industri data .. Sekali lagi Selamat #jempol #jempol #jempol …

 

PicsArt