National Data Days 2017

kegiatan tahunan data days diluncurkan pertama kali bulan november tahun lalu oleh fakultas eknomi dan bisnis (FEB), universitas telkom. tahun 2017 ini, data days 2017 diberi nama lengkap sebagai national data days 2017 (NDD17). NDD17 terdiri dari kegiatan seminar, workshop, kompetisi, dan eksibisi. tema NDD17 ini adalah “data for better indonesia”.

seminar akan menghadirkan pembicara seperti pak gadang ramantoko (ekonomi digital), pak setia pramana (data di bidang kesehatan), pak mahmoud syaltout (data bidang politik dan bisnis), dan mas kamal hasan (praktisi data). workshop menghadirkan pemateri pemateri handal dari akademisi seperti pak taufik sutanto, dari industri data seperti midtrans, i-811, mediawave, presentasi beberapa hasil riset mhs FEB dan mahasiswa sekolah tinggi ilmu statistika.

silahkan datang tanggal 21-22 november 2017

Advertisements

Sharing KickScraper (KickStarter Scrap using Ruby) sebagai Pemahaman Proses Pengumpulan Data

Lab Social Computing & Big Data mulai semester ganjil 2017/2018 ini diisi dengan personil personil baru mahasiswa angkatan 2014. Mereka akan mengadakan kegiatan riset, melayani pelatihan / asistensi mata kuliah Big Data dan Data Analytics, serta mengadakan acara sharing ilmu / akademik setiap minggu. Untuk minggu pertama ini kegiatan sharing diisi topik mengenai KickScraper, yaitu bagaimana melakukan web scrapping terhadap website Kickstarter dengan menggunakan script bahasa Ruby. Pemateri acara kali ini adalah Tri Buono, mahasiswa angkatan 2013. Teknik yang disharing oleh dia berkaitan dengan risetnya mengenai pengenalan pola pola investasi pada perusahaan startup. Acara ini dihadiri mahasiswa lab dan juga dosen dosen KK dan pengajar matkul Big Data & Data Analytics

Terdapat dua problem mendasar pada kegiatan data analytics yaitu yang pertama data collection dan yang kedua aktivitas data analytics sendiri. Kegiatan data collection sendiri merupakan masalah besar di Indonesia pada umumnya, dimana jarang sekali individu / organisasi yang memahami pentingnya semangat Open Data, sehingga data masing masing instansi / organisasi berdiri sendiri sendiri dan tidak teintegrasi, akibatnya banyak pekerjaan atau kebijaksanaan yang saling tumpang tindih, tidak konvergen mencapai tujuan bersama. Saya pernah punya pengalaman buruk mengenai open data dengan pemkot, dimana walikota klaim bahwa data pemkot terbuka untuk umum, tapi begitu mahasiswa saya mempelajari polanya, ternyata data tersebut tidak ‘berbunyi’ sehingga tidak bisa dicari polanya, tidak bisa didapat informasi atau pengetahuan. Pernyataan bahwa data sudah terbukapun  perlu diperiksa lagi, karena kita belum tahu seberapa lengkap data yang dimiliki.

Pada sharing kali ini, tujuan utama yang ingin dicapai bukanlah mengajarkan teknik mengambil datanya, tapi pemahaman bagaimana proses perolehan data. Kickscraper mengambil data web Kickstarter menggunakan API. Berbeda dengan teknik klasik web scrapping menggunakan layanan seperti import.io ataupun parsehub, maka pengambilan data menggunakan API lebih fleksibel, lebih powerful dan bisa mengambil hidden data kalau penyedia layanan mengijinkan. Kerugiannya adalah kita tidak tahu sampai kapan API tersebut tersedia (secara gratis). Jadi proses data collection merupakan proses yang dinamis, apa yang kita ketahui hari ini belum tentu besok masih bisa dilakukan. Oleh karenanya pesan yang saya sampaikan adalah yang paling penting memahami proses, klasifikasi jenis / teknik pengamnilan data, serta membiasakan mahasiswa mahasiswa manajemen bisnis ini untuk ngoding …. yah bahasa koding ini bahasa yang paling penting dipelajari selain bahasa inggris. Beberapa mahasiswa memang tidak biasa dengan pengoperasian terminal di mac atau  windows shell, bahkan belum tahu bagaimana menjalankan ruby (ataupun python dan sejenisnya), sehingga acara sharing ini merupakan sarana bagus untuk memperkenalkan hal hal tersebut. 

 

IMG 8452

IMG 1082

IMG 0102

IMG 8369

IMG 5349

IMG 3885

Sharing Big Data ke ITERA

Pada tanggal 31 Januari 2017, Saya memberikan materi tentang Data Science Business Perspective pada acara meetup komunitas idBigData dan Asosiasi Ilmuwan Data Indonesia (AIDI) di Institut Teknologi Sumatra (ITERA) – Lampung. Kesempatan ini adalah pertama kalinya saya mengunjungi ITERA. Saya sudah mendengar mengenai kampus ini sejak 2-3 tahun yang lalu, yang mana pada saat itu mereka sedang gencar gencarnya membuka lowongan dosen. Acara di ITERA ini adalah juga acara Big Data pertama kali yang saya ikuti di luar jawa. Hal ini sangat menarik karena kita juga perlu memeratakan pengetahuan mengenai Big Data di kampus kampus di luar pulau jawa.

Acara idBigData meetup ini sudah diadakan 12 kali, setiap bulan rutin diadakan dengan bersafari ke kampus kampus di seluruh Indonesia. Kali ini acara cukup istimewa karena AIDI yang baru dibentuk bulan november 2016 ikut berperan serta. Sebagai info idBigData berkonsentrasi kepada metodologi komputasi Big Data sedangkan AIDI berkonsetrasi kepada aktivitas analytics Big Data.

Selain saya yang mewakili AIDI, pemateri lainnya adalah Ibu Masayu (ITB / ITERA) yang membawakan materi peringkasan text bahasa indonesia, Pak Beno (Solusi247) mengenai kedaulatan data Indonesia, Pak Sigit (idBigData) mengenai engine Big Data Yava. Peserta yang hadir adalah mahasiswa dan dosen ITERA, dan juga industri, pemerintah, dan mahasiswa lampung di luar ITERA. Ini sangat menarik melihat keragaman peserta yang ikut hadir pada acara ini.

Streaming video materi saya dan foto fotonya bisa dilihat berikut ini :

FullSizeRender 3

IMG 0777

Partisipasi di Bandung ICT Expo 2016

Pada kesempatan kali ini Lab. Data Analytics FEB Telkom University ikut berpartisipasi dalam acara Bandung ICT Expo & Anja 2016 pada tanggal 19-21 oktober 2016 di Telkom University. Event ini adalah berisi Exhibition, Seminar, Contest dan lain lain. Informasi detail tentang acara ini bisa dilihat di tautan website diatas. Beberapa bidang perusahaan yang berpartisipasi di dalam expo ini adalah perusahaan Content (animation, visual production), Telco (broadband, internet services, wireless), Cloud, Mobile, Power, Security, dll

Booth Lab. Data Analytics ada di dalam booth FEB Telkom University, karena Lab. Data Analytics berada dalam salah satu kelompok keahlian di FEB. Dari Lab, kami menampilkan poster yang berkaitan dengan riset riset yang sudah kami lakukan, serta kami juga menyediakan demo data crawling di website maupun media sosial sebagai aktivitas krusial sumber data riset Lab. kami. Sebetulnya banyak sekali riset yang ingin kami tampilkan dalam bentuk poster atau demo / presentasi, akan tetapi karena keterbatasan ruang dan personil, maka kami hanya memilih 3 poster,  walaupun milihnya juga sulit. Bukan berarti 3 yang ditampilkan adalah yang terbaik, akan tetapi lebih karena faktor kepraktisan saja. 

Saya sendiri tidak bisa menghadiri acara ini karena ada kesibukan dengan pekerjaan lainnya. Mia dan Caca adalah dua personil lab yang akan standby di booth untuk memberikan informasi tentang aktivitas riset dan mendemokan proses data crawling. Please visit us !! 

IMG 2016 10 19 09 31 58

Mia dan Caca di Booth FEB Telkom University

Untitled 1

Poster riset Lab. Data Analytics

Generate Data Penghasilan Menggunakan Metode Monte Carlo

Berawal dari kesulitan salah satu mahasiswa bimbingan saya untuk melengkapi datanya, maka saya mencoba mencari metode yang mengatasi hal tersebut. Ceritanya penelitian mahasiswa bimbingan saya membuat pengelompokan data pelanggan Telkom berdasarkan jumlah tagihan bulanan dan penghasilan. Tentu saja data penghasilan  tidak akan dipunyai Telkom, dan juga sulit ditemukan dari sumber lain,  maka untuk itu perlu suatu usaha untuk membuat / generate data menggunakan suatu generator tertentu.

Ide awal dari Statistical Inference yang intinya membuat prediksi data populasi dari data sample dan asumsi yang kita punyai, maka kemudian muncul pertanyaan bagaimana kita men generate data penghasilan berdasarkan data dan asumsi yang kita punyai, sehingga data penghasilan yang dihasilkan oleh generator tidak akan berbeda jauh (tingkat error yang rendah) jika dibandingkan dengan penghasilan sebenarnya yang tidak kita ketahui. Asumsi yang kita punyai adalah beberapa wilayah dalam suatu kota akan mempunyai tingkat kesejahteraan yang berbeda. Sebagai contoh seseorang di wilayah A meskipun mempunyai tagihan telkom sama dengan seseorang di wilayah B, belum tentu tingkat penghasilan mereka sama. Besarnya wilayah dalam satu kota tergantung pada definisi yang kita tentukan, apakah setingkat kelurahan, kecamatan, atau berdasarkan nama jalan jalan yang memang terkenal sebagai daerah “kaya”. Sedangkan data yang kita punyai adalah hasil wawancara ke pihak berwenang (pemkot, BPS, dll) untuk menentukan rata rata penghasilan dari suatu wilayah.

Metode Monte Carlo adalah metode untuk men generate data acak berdasarkan input berupa mean, standard deviation dan distribution. Dari ketiga input tersebut, kita sudah mempuyai data mean (rata rata) penghasilan suatu wilayah. Untuk standard deviasi kita tentukan nilai antara 1 sampai 5 yang kita atur berdasarkan kewajaran distribusi penghasilan di satu wilayah tertentu. Untuk distribusi kita tentukan distribusi normal, karena seperti asumsi statistik pada umumnya distribusi yang digunakan adalah distribusi normal. Pertanyaan kemudian muncul, kenapa kita tidak mengambil bilangan acak antara bilangan (penghasilan) minimum dan maksimum ?, jawabannya karena sebaran data penghasilan yang kita peroleh akan menjadi sangat acak (lihat uniform random sampling ) dan terlihat tidak wajar / tidak representatif terhadap penghasilan asli. Video ilustrasi metode Monte Carlo bisa dilihat dibawah ini

Ada banyak software menyediakan simulasi metode Monte Carlo, seperti Mathlab, Wolfram Mathematica, Python, R, dan bahkan Excel. Tapi saya baru mencoba menggunakan Wolfram Mathematica dan Excel.

Perintah di Wolfram Mathematica adalah

rnorms1 = RandomVariate[NormalDistribution[mean, standard deviation], iteration]

Perintah di Excel adalah

=NORMINV(RAND(),mean,standard deviation)

Hasilnya bisa dilihat digambar berikut ini. Dengan nilai mean 3 dan standard deviasi 1, kita peroleh nilai acak tersebut. Sekarang kita bisa bayangkan jika nilai nilai tersebut dikalikan satu juta, maka kita peroleh interval penghasilan disekitar nilai rata rata gaji 3 juta. Cukup sederhana dan masuk akal bukan data penghasilan yang kita peroleh ? ..

Screen Shot 2016 10 01 at 8 54 38 PM

hasil dengan Wolfram Mathematica

Screen Shot 2016 10 01 at 8 57 09 PM

hasil dengan Microsoft Excel

Pengelompokan Top 1000 Universitas Dunia #Clustering #DataMining

Sabtu pagi ini iseng iseng browsing dataset dan menemukan dataset yang cukup menarik, yaitu World University Ranking dari Kaggle. Dataset ini menggambarkan peringkat 1000 universitas di dunia berdasarkan yang dibuat oleh Times Higher Education University Ranking. Dari 1000 daftar universitas dunia, 229 diantaranya berada di USA, dan sisanya di negara negara lain di dunia, sayangnya Universitas di Indonesia tidak ada satupun yang masuk dalam daftar tersebut. Pengelompokan universitas menggunakan metode Clustering / Klaster k-means yang mana merupakan metoda yang paling sederhana, akan tetapi cukup intuitif untuk menjelaskan bagaimana nilai fitur satu entitas (dalam hal ini universitas) berdekatan dengan entitas lainnya sehingga mereka dianggap mempunyai satu kesamaan / satu kelompok. 

Data yang saya gunakan adalah data peringkat universitas pada tahun 2015. Saya menggunakan RStudio untuk perhitungan proses cluster dan Orange untuk visualisasi cluster tersebut dalam berbagai aspek fitur yang berbeda. Fitur yang ada pada dataset tersebut antara lain adalah : world rank (peringkat universitas di dunia), university name (nama universitas), country (asal negara), national rank (peringkat nasional), quality of education (peringkat kualitas pendidikan), alumni employment (peringkat alumni yang sudah bekerja), quality of faculty (kualitas fakultas), publications (peringkat publikasi), influence (peringkat pengaruh), citations (peringkat sitasi), broad impact (peringkat untuk impact dalam skala luas), patents (peringkat paten), score (total nilai dalam penentuan peringkat dunia).

Semua atribut fitur merupakan data kontinu, kecuali nama universitas dan negara merupakan data diskrit. Berdasarkan analisa awal untuk algoritma k-means dengan inisialisasi awal kmeans++ dengan jumlah kelompok antara 3-8, diperoleh yang paling tinggi scorenya adalah jumlah 3 kelompok. Oleh karena itu pengelompokan Top 1000 universitas menggunakan tiga kelompok. Hasil perhitungan bisa diunduh di table excel berikut ini 

Secara umum dapat kita simpulkan terjadi hubungan linear semakin tinggi peringkat suatu universitas maka semakin tinggi pula jumlah publikasi, jumlah sitasi, jumlah alumni employment, jumlah patent dan lain lainnya, seperti yang terlihat pada gambar dibawah ini. Warna yang berbeda menunjukkan kelompok yang berbeda. Semakin besar ukuran point (silang, segitiga, lingkaran) maka semakin besar pula nilai influence dari satu universitas. 

Sekian share pagi ini, monggo dimain mainkan dataset diatas untuk algoritma lain ataupun untuk keperluan lainnya … salam ..

 

InfluenceVsWorldRankPublicationsvsWorldRankPublicationsVsCitationsWorldRankvsAlumniEmploymentWorldRankvsCitationWorldRankvsPatent

pengelompok antar beberapa fitur data (lihat sumbu x dan sumbu y)

 

Screen Shot 2016 09 17 at 10 37 23 AM  2

Hasil pengelompokan Top 1000 Universitas dalam 3 kelompok besar

 

Konferensi 4th InteliSys dan Jurnal Scopus

Konferensi 4th InteliSys yang kami ikuti sudah selesai dilaksanakan pada tanggal 20-12 Agustus 201. InteliSys adalah singkatan dari Interational Conference on Advances in Intelligent Systems in BioInformatics, Chem-Informatics, Business Intelligence, Social Media and Cybernetics. Jadi topik utama konferensi ini adalahpada sistem cerdas untuk bidang bidang yang disebutkan diatas. Output dari konferensi ini adalah ARPN Journal of Engineering and Applied Sciences yang terindeks SCOPUS (Q3). Konferensi ini diadakan bersamaan (waktu dan tempatnya) dengan konferensi international Internet Economics and Psycho Informatics. Terdapat sekitar 100an paper yang mendaftar, dan hanya sekitar 16 paper yang diterima untuk InteliSys. Kami cukup berbangga karena 2 paper kami termasuk kedalam 16 paper yang terpilih pada konferensi tersebut.

Paper pertama yang kami ikut sertakan berjudul “Social Network and Sentiment Analysis for Social Customer Relationship Management in Indonesia Banking Sector” . Paper ini adalah hasil riset saya bersama Aulia, mantan mahasiswa saya yang sekarang sudah lulus dan menjadi Data Scientist di anak perusahaan Telkom Indonesia. Paper kedua berjudul “Top Brand Alternative Measurement Based on Consumer Network Activity” . Paper kedua ini adalah kerja kolaborasi dengan dua mahasiswa saya (yang sudah lulus juga) Viva dan Bebyta. Paper ini adalah hasil riset hibah sekama penelitian dana internal Universitas Telkom 2016. 

Oh yah ada satu hal menarik dari materi yang dibawakan oleh salah satu keynote speaker yaitu Prof. Rudy Setiono dari National University of Singapore (NUS) yang berbicara mengenai Neural Network for Business Intelligence application. materi yang sangat menarik dan membuat saya belajar banyak. Bravo Prof …

 

Image2

 

Image1Image3

Fungsi, Aplikasi, dan Algoritma pada Data Analytics

Data Analytics yaitu proses menemukan pola data untuk kemudian dipergunakan menjadi informasi atau model yang berguna. Proses memerlukan suatu keilmuan data yang disebut sebagai Data Science. Di dalam data science ini terdapat banyak metode yang dipergunakan seperti metode Data Mining, Statistik, Ekonometrik, Matematika, Modelling dan lain lain. Karena itu istilah Data Analiycs, Data Science, Data Mining sering dipergunakan secara tumpang tindih, apalagi ketika framework / problem Big Data muncul. 

Untuk itu untuk memahami Data Analitycs kita mulai dari 2 dasar ilmu data yaitu Data Mining dan Statistics. Dalam Data Mining terdapat berbagai macam fungsi untuk pencarian pola, yang kemudian dijabarkan menjadi berbagaimacam algoritma. Masing masing fungsi juga mempunyai bidang aplikasi sendiri. Berikut ini saya peroleh tabel yang cukup komprehensif mengenai Fungsi, Aplikasi (Contoh) dan Algoritma yang sering digunakan pada proses Data Analytics. Tabel tersebut sebenarnya adalah untuk Data Mining dan saya peroleh dari buku Predictive Analytics: Concept and Practice with Rapid Miner. Seperti yang saya jelaskan sebelumnya table Data Mining ini juga bisa dipakai sebagai dasar aktivitas Data Analytics, terutama jika ditambahkan dengan tabel mengenai Social Network Analysis dan Text Mining.

Screen Shot 2016 08 21 at 12 52 13 PM

Masa Depan Sekolah Bisnis dengan Data Analytics

Pada saat saya “memaksa” memasukkan materi data analytics ke kurikulum sekolah bisnis seperti di tempat saya (FEB Telkom University) sebetulnya saya sedikit ragu, walaupun secara intuisi saya merasa hal itu benar. Lihat entri entri blog saya yang lalu mengenai pembelajaran data analytcs / skill programming untuk sekolah bisnis / manajemen di sini , sini, sini, sini, sini, sini dan sini .

Kebetulan kemarin FEB kedatangan tamu, seorang profesor marketing dari universitas Southampton (UK) Prof Teck Y. Eng, beliau adalah Director of the Department of Digital and Data-Driven Marketing di Universitas Southampton. Kita berdiskusi (tepatnya bertanya kepada) Profesor tentang bagaimana pendapat beliau mengenai kurikulum sekolah bisnis kami. Prof mempunyai kompetensi tepat untuk berpendapat tentang hal tersebut. Beliau berpendapat tentang arah yang ingin kami tuju dimana industri sendiri sudah meminta lulusan sekolah bisnis yang dilengkapi dengan kemampuan berpikir dan menggunakan alat untuk menunjang pekerjaan data analytics, Contoh course yang ditawarkan untuk undergraduate business analytics menunjukkan bahwa penggunaan kentalnya penggunaan data analytics hampir di semua course yang ada. Bahkan mahasiswa bisnis di sana sudah paham menggunakan bahasa R atau python untuk mendukung pekerjaan mereka

Kami menanyakan bagaimana membuat mahasiswa bisnis bisa paham tools (bahkan mengerti programming), menurut profesor memang hal tersebut memang tidak mudah, akan tetapi bisa diatas dengan  memberikan latar belakang teori yang kuat pada ilmu dasar seperti management strategy, operations, marketing dan lain lain, sehingga nantinya mahasiswa bisa implementasikan teori teori tersebut dalam bentuk simulasi atau pengolahan data menggunakan tools data mining, statistic, econometric, dll. 

Profesor memberikan perhatian khusus terhadap bahasa R dan python, beliau menyarankan kita untuk total adopsi kedua tools ini. Saya setuju karena selama ini kami terlalu banyak berkutat  dengan mana tools terbaik tanpa sempat eksplorasi lebih mendalam terhadap tools tersebut. Alangkah baiknya mulai sekarang fokus kepada dua tools tersebut dan eksplorasi semua model yang ada untuk mendukung proses analytics.

Kedatangan prof adalah saat yang tepat, karena di FEB mata kuliah “Big Data dan Data Analytics” mulai digulirkan semester ini, sejak mulai direncakan dan disusun dua tahun yang lalu. Hal ini membuat kami (saya dan team) semakin mantap untuk mengiring mahasiswa ke arah data-driven decision untuk bisnis. 

 

Screen Shot 2016 08 19 at 7 44 19 AM

 

 

Presentasi Paper di Konferensi 7th SCBTII

Tanggal 15-16 Agustus 2016, Fakultas Ekonomi dan Bisnis, Universitas Telkom punya gawe konferensi internasional yang dinamakan SCBTII – Smart Collaboration for Business in Technology and Information Industry. Gelaran konferensi ini adalah gelaran ke 7 dan dilaksanakan di hotel Grand Tjokro Bandung. Konferensi ini diisi oleh seminar pada hari pertama dan presentasi call for paper pada hari kedua. Tim dari lab Social Computing dan Big Data, mengirimkan 3 paper pada acara ini. Keikutsertaan tim kami di event SCBTII ini adalah kedua kali nya setelah tahun lalu tim kami juga mengirimkan satu paper mengenai Model prediksi penjualan di ecommerce Tokopedia, paper tahun lalu tersebut bisa diunduh di link ini 

Paper pertama kami di 7th SCBTII ini berjudul “Prediction Models Based on Flight Tickets and Hotel Room Data Sales for Recommendation System in Online Travel Agent Business”. Pada paper ini kami mengusulkan pembuatan model rekomendasi pembelian tiket pesawat dan biaya hotel yang optimal / murah berdasarkan budget perjalanan yang dimiliki oleh konsumen. Konsumen hanya perlu memilih untuk bepergian pada bulan tertentu, maka nanti akan diberikan harga tiket pesawat dan kamar hotel yang idak melebihi budget yang dimiliki. Model ini berdasarkan classification / decision tree. Paper ini dipresentasikan oleh Dito.

Paper kedua berjudul “The Small World Phenomenon and Network Analysis of ICT Startup Investment in Indonesia and Singapore”. Paper ini membandingkan jejaring investor dan startup di Indonesia dan Singapore. Perbandingan berdasarkan properti jejaring investor-startup. Setiap properti yang dibandingkan menjelaskan perbedaan signifikan jaringan yang terbentuk dan memberikan alasan kenapa jaringan di Indonesia lebih mendekati sifat Small-World Network . Paper ini dipresentasikan oleh Farid

Paper terakhir berjudul “Measuring Marketing Communications Mix Effort using Magnitude of Influence and Influence Rank Metric”. Pada paper ini, kami memformulasikan / mengkonstruksi suatu alat ukur untuk mengukur efektivitas dan potensi akun akun brand di media sosial, dimana akun akun tersebut digunakan untuk mendukung aktivitas marketing communications. Efek lain dari alat ukur yang kami usulkan adalah membantu proses seleksi buzzer / brand ambassador, yang mana biasanya hanya bergantung kepada jumlah followers aja, padahal kita tahu jumlah followers banyak belum tentu menjamin pesan informasi / advetorial yang kita kirimkan bisa diserap dengan efektif.  Paper ini saya presentasikan sendiri. 

3 paper sudah dipublikasikan, tinggal menunggu publikasi paper paper lain yang sedang dalam proses pembuatan maupun dalam proses penelitian …  

FullSizeRender 11

 saya bersama Dito dan Farid


FullSizeRender 10

Paper pertama dipresentasikan oleh Dito

 

FullSizeRender 8

Paper kedua dipresentasikan oleh Farid

 

FullSizeRender 9

Paper terakhir saya presentasikan sendiri