Menembus Kemacetan Bandung (Acara sharing BPS dan Konferensi ICoDIS)

Kemarin saya mendapatkan undangan untuk mengisi dua buah acara di bandung yang lokasinya berjauhan. Satu lokasi di ujung utara , di hotel grand mercure, jalan setiabudhi (di sekitaran area rumah sosis) dan satu lagi di ujung selatan, di kampus universitas telkom, jalan terusan buah batu. Acara di grand mercure adalah menjadi narasumber materi “Big Data Analytics Implementation” untuk Badan Pusat Statistik jam 8 pagi, sedangkan di universitas telkom adalah menjadi moderator plenary session pada International Conference on Data and Information Science (ICoDIS) jam 13 siang.

Bagi yang tinggal di Bandung tentu bisa membayangkan perjuangan menembus kemacetan yang makin hari makin tidak bisa diprediksi. Terutama dengan ada perbaikan jalan layang pasupati, kondisi pintu masuk GT pasteur yang menyempit, kemacetan luar biasa daerah terusan buah batu, belum lagi kemacetan daerah lain yang tidak terduga.

Akhirnya saya membujuk panitia acara BPS untuk memperbolehkan saya selesai jam 11 (dari rencana jam 12). Alhamdulilah perjalanan turun dari setiabudhi sampai GT pasteur lumayan lancar, hanya memakan waktu 30 menit, dari GT pasteur ke GT buah batu juga memakan waktu 30 menit. Tapi dari GT buah batu ke kampus telkom siang kemarin macetnya melebihi ekspektasi. Saya menghabiskan waktu 50 menit sampai ke gedung acara konferensi. Untungnya acaranya yang jam 13 dimulai agak telat, sehingga saya masih sempat sholat dan makan siang dulu. Total waktu dari setiabudi ke kampus univ telkom adalah 1 jam 50 menit.

Kesimpulannya jangan lagi lagi memenuhi undangan acara dalam sehari dalam jarak yang berjauhan seperti yang saya lakukan. kemarin saya termasuk beruntung karena hanya menemui satu titik kemacetan saja. Next time it could be worse

berikut foto acara sharing BPS dan konferensi ICoDIS

Advertisements

National Data Days 2017

kegiatan tahunan data days diluncurkan pertama kali bulan november tahun lalu oleh fakultas eknomi dan bisnis (FEB), universitas telkom. tahun 2017 ini, data days 2017 diberi nama lengkap sebagai national data days 2017 (NDD17). NDD17 terdiri dari kegiatan seminar, workshop, kompetisi, dan eksibisi. tema NDD17 ini adalah “data for better indonesia”.

seminar akan menghadirkan pembicara seperti pak gadang ramantoko (ekonomi digital), pak setia pramana (data di bidang kesehatan), pak mahmoud syaltout (data bidang politik dan bisnis), dan mas kamal hasan (praktisi data). workshop menghadirkan pemateri pemateri handal dari akademisi seperti pak taufik sutanto, dari industri data seperti midtrans, i-811, mediawave, presentasi beberapa hasil riset mhs FEB dan mahasiswa sekolah tinggi ilmu statistika.

silahkan datang tanggal 21-22 november 2017

Dinamika Pilkada DKI 2017 menggunakan Jejaring Sosial

Pilkada DKI 2017 merupakan event yang menjadi magnet bagi bangsa Indonesia, bukan hanya ekslusif untuk warga DKI saja. Event ini sangat menarik untuk dianalisa, terutama buat saya yang selama ini mendalami keilmuan jejaring sosial, dimana konsentrasi pergerakan sosial atas isu isu tertentu bisa menjadi bahan untuk memahami perilaku sosial bangsa kita. Perilaku pada media sosial menunjukkan bagaimana opini nyata tiap individu, pembentukan kelompok sosial, dan juga rekayasa opini (termasuk hoax dan lain lainnya). Pada entri kali ini saya melihat dinamika percakapan masyarakat Indonesia di media sosial membahas berbagai topik berkaitan dengan Pilgub DKI 2017. Sebagai disclaimer saya tegaskan politik bukan merupakan domain yang saya pahami sepenuhnya. Pada entri blog ini tidak ada tendensi untuk mendukung calon manapun, dan lagian saya bukan warga DKI juga 😛

 

Saya mengambil data di Twitter sebagai sample, karena di media sosial ini perilaku sosial terkait pilkada terlihat jelas. Facebook juga menunjukkan kecenderungan serupa dengan Twitter, tetapi karena di Facebook tidak mungkin bagi kita untuk mengambil semesta data, dan hanya mungkin mengambil data dari lingkungan pertemanan kita, maka Twitter merupakan media yang tepat dari sisi pencapaian pengambilan data dan keterwakilan sample.

 

Profil Data :

Data percakapan di Twitter diambil mulai dari tanggal 8-11 februari 2017, tepat selama 60 jam. Durasi ini melewati acara debatcagub ke 3 yang diadakan pada tanggal 10 februari malam.  Sebelum acara debat yang dilaksanakan tweet yang terkumpul adalah sebanyak 18077 tweet (nomer1), 23656 tweet (nomer2), dan 41053 tweet(nomer3). Setelah acara debat terlihat lonjakan jumlah tweet menjadi 35380 tweet (nomer1), 49028 tweet(nomer2), dan 82185 tweet(nomer3). Total keseluruhan tweet yang diambil adalah sebanyak 166593 tweet dengan total data space mendekati 1 GB. Keyword / Hashtag disesuaikan untuk tiap tiap paslon, sesuai dengan hashtag yang paling banyak diadopsi oleh publik dan pendukungnya. Hashtag hashtag tersebut antara lain 

 

nomer 1 : #jakartauntukrakyat #ahyfordki1 #MuslimberSatupilihno1 #AgusSylviKonsisten #SATUkanjakarta #JakartaForAll

nomer 2 : #perjuanganbelumselesai #coblosbadjanomor2 #FreeAhok #BadjaMelaju #SekuatBadja #Gue2 #Badjajuara #salamduajari

nomer 3 : #salambersama #TerbuktiOkOce #majubersama #CoblosPecinya #AniesSandiCintaUlama

 

Nomer1


Dari paslon nomer 1 saya memperoleh 35380 tweet, dimana didalamnya terdapat 8505 aktor yang terlibat percakapan, dengan sejumlah 29836 percakapan antar aktor tersebut. Pola percakapan dari gambar dibawah memperlihatkan bahwa terdapat 3 kelompok besar  (ungu, hijau, biru) yang mendominasi 60% percakapan. Aktor aktor utama jaringan ini adalah @AgusYudhoyono @Abaaah @SBYudhoyono. Terdapat beberapa situs berita yang dominan yaitu @Metro_TV @kompscom @detikcom dll. keseluruhan top 50 aktor bisa dilihat di gambar dibawah. Kelompok terbesar adalah kelompok berwarna ungu dengan ukuran 27% (cukup besar) dari keseluruhan jaringan.  Kelompok terbesar ini berisi tokoh tokoh utama dari paslon 1, kelompok kedua sebesar 13% berisi akun akun pendukung utama seperi @AhyCenter @agusylviDKI @ZaraZettiraZZ @Umar_Hasibuan @panca66. 

 

 

1

 

1detail

 

1top

 

11

Nomer2

 

Dari paslon nomer 2 diperoleh 49028 tweet, dimana percakapan tersebut melibatkan 15745 aktor dan 44834 percakapan antar aktor aktor tersebut. DI jejaring nomer 2 ini kelompok terlihat lebih menyebar dengan kelompok terbesar berwarna ungu mempunyai ukuran hanya 10,9%, dilanjutkan dengan kelompok warna hijau tua (9,5%), dan disusul warna biru (8,39%). Aktor aktor utama nya bisa dilihat pada gambar dibawah (top-50), terlihat bahwa aktor aktor dominan tersebut berada pada kelompok yang berbeda (terlihat dari warna node yang berbeda). 

 

 

2

 

2detail

 

2top

 

21

 

 Nomer3

 

Paslon 3 mempunyai data tweet yang paling banyak dibandingkan paslon lainnya. 82185 tweet terambil dalam periode pengambilan, yang melibatkan 12744 aktor dan 22565 interaksi percakapan. Dengan sejumlah 22565 tweet interaksi dibandingkan dengan total 82185 tweet yang terambil, maka rasio percakapan / diskusi dalam jaringan ini sangat kecil dibandingkan paslon lain. Sebagian besar tweet adalah indivdual tweet atau tweet yang tidak mengenerate percakapan.Seperti paslon 1, kelompok di jaringan ini didominasi oleh 3 kelompok utama yaitu kelompok ungu (26,76%), hijau (23,67%), dan biru (18,51%). Total tiga kelompok tersebut sudah sangat mendominasi dengan mencakup 69% percakapan. 

 

 

3

 

3detail

 

3top

 

31

Analisa

 

Dari pengukuran average degree (rata rata koneksi dari seorang aktor) dan network diameter (besar jaringan)  ketiga jejaring sosial tidak mempunyai perbedaan yang signifikan. Pada pengukuran .graph density (kepadatan percakapan), Nomor 1 dan 2 lebih baik dari Nomor 3, kepadatan yang baik lebih disukai, ini mengindikasikan bagaimana banyaknya interaksi dalam suatu jejaring sosial. Perbedaan yang signifikan terlihat dari dinamika terbentuknya kelompok dan pengukuran kecenderungan pengelompokan dengan menggunakan metric modularity. Nomer 1 dan nomer 3 mempunyai nilai modularity yang lebih tinggi dari Nomer 2, yang artinya kelompok yang terbentuk benar benar terpisah dengan jelas. Kelompok kelompok pada paslon nomor  2, masih berhubungan erat dengan keompok lain dalam jejaring sosialnya.  Bisa disimpulkan bahwa percakapan paslon nomor 2 lebih di generate oleh massa, sehingga kelompok percakapan yang terbentuk terlihat lebih natural, sedangkan kelompok pada nomor 1 dan nomor 3 dikendalikan secara sistematik oleh aktor aktor utama.

 

Analisa jejaring sosial adalah analisa cepat untuk melihat dinamika struktur jaringan. Untuk supaya bisa memodelkan dan membuat prediksi siapa pemenang pilkada, tentunya butuh analisa faktor lain, contohnya seperti analisa konten tweet (sentiment analysis atau opinion mining). Saya pernah mengusulkan analsia konten dengan cara cepat menggunakan network text analysis seperti yang saya tulis di paper saya ini dan paper saya yang ini. Untuk analisa konten tersebut, dibutuhkan data raw twitter, berhubung data tersebut berukuran sangat besar 1 GB dan berada di komputer lab., plus  sayanya sedang mobile (weekendan), maka saya hanya mengambil ekstrak data jejaring sosial yang hasilnya saya jabarkan dalam blog ini.

 

Bila ada yang tertarik untuk menganalisa topik ini lebih mendalam, terutama yang ahli dibidang politik, silahkan kontak saya untuk berdiskusi atau bahkan mungkin mendapatkan datanya. 

 

 

 

Fenomena #SayaBertanya

Hashtag #SayaBertanya muncul pertama kali pada 6 Februari 2017 setelah mantan presiden SBY memposting tweet yang ditujukan kepada Presiden dan Kapolri. Saya tidak menyoal tweet pak SBY tersebut, tapi saya lebih tertarik viralitas hashtag ini yang ternyata sangat populer. Viralitas tersebut disebabkan kreativitas warga twitter sendiri yang membuat guyonan menggunakan hashtag tersebut, terlepas itu sindiran atau hanya sekedar guyonan. Meme dan variasi kata pendek ini diaplikasikan ke dalam permasalahan pacaran, gebetan, harga bahan pokok, kemacetan, dan hal hal keseharian masing masing orang. Viralitas ini juga menyebar sampai ke facebook, instagram, dan path.

Sayangnya saya baru sempat ambil data sejak tanggal 7 Februari, jadi lumayan telat sehari dari puncak masa populer hashtag tersebut. Akan tetapi walaupun telat, dimana saya mengambil tweets antara tanggal 7-9 februari (selama kurang lebih 50 jam). Saya mendapatkan 25 ribu tweet yang memuat hashtag #SayaBertanya. Menurut saya termasuk lumayanlah, sebenarnya proses crawling sampai saat ini masih tetap berjalan, tapi saya sudah ga sabar untuk segera analisa dan nunggu hasilnya :P. Dari 25 ribu tweet tersebut, saya memperoleh 8613 aktor dan 15898 relasi, cukup lumayan ramai / padat percakapan yang terjadi disana baik dalam bentuk retweet maupun reply / mention.  

Viralitas hashtag ini menunjukan bagaimana dinamisnya bangsa kita di media sosial. Bagaimana kreativitas merubah hal hal yang biasa menjadi suatu hiburan dan menjadi topik pembicaraan serius maupun santai. Fenomena yang asyik untuk diteliti dan dijadikan percobaan perilaku manusia di internet.

Berikut ini pola interaksi hashtag #SayaBertanya

Sayabertanya1

Sayabertanya2

Berikut ini ini adalah aktor aktor dominan dalam percakapan tersebut. @SBYudhoyono paling banyak dimention, diteruskan oleh @jokowi dan @basuki_btp. 3 kelompok terbesar adalah kelompok (modularity class) no 11, 544, dan 540. @jokowi @basuki_btp tidak termasuk ke dalam kelompok dominan. 

Screen Shot 2017 02 09 at 9 14 00 PM  2

Berikut ini contoh contoh tweet tweet dari hashtag ini yang lucu lucu (menurut saya lho)

Screen Shot 2017 02 09 at 8 43 47 PM

Screen Shot 2017 02 09 at 8 43 52 PMScreen Shot 2017 02 09 at 8 44 10 PM

Contoh contoh lain bisa dilihat di artikel (di detik) berikut ini : 

https://inet.detik.com/cyberlife/d-3415131/netizen-heboh-sayabertanya-kepada-presiden

Terpaksa Ngoding, Tapi Seneng …

Beberapa saat yang lalu saya diajak riset bersama oleh peneliti dari Inggris. Topik riset sendiri meneliti bisnis otomotif dengan mengambil data dari media sosial. Karena kesibukan saya yang “super” saat itu, maka saya serahkan proses data collection dan pre-processing ke asisten (mahasiswa). ekspektasi saya proses ini akan berjalan dalam waktu seminggu. Seminggu, dua minggu saya tunggu ternyata belum beres juga. Saya selidiki ternyata ada permasalahan dalam langkah pre-process data yang  saya baru tahu masih menggunakan beberapa langkah manual  … :(. Makanya asisten saya seperti kewalahan mengurusi data ratusan ribu tweet, kalau dibiarkan bisa bisa dia stress, plus saya sendiri udah tidak sabar nungguin hasil crawl dan analisa

Jadinya saya otak atik python supaya proses transformasi data mentah dari twitter ke format social network menjadi lebih cepat dan otomatis. Setelah setengah hari ngoding akhirnya problem pre-process yang berlangsung lama bisa diselesaikan dengan koding saya tersebut. Senengnya dari data twitter sebesar 500mb (200 ribu tweets) bisa saya konvert dalam kurun waktu kurang dari 10 menit. Wah tahu gini proses yang seminggu kemarin bisa diselesaikan dalam 10 menit. Memang kalo ga kepentok problem, sepertinya saya juga ga akan turun tangan ngoding sendiri …:D

Seneng juga kalo koding yang kita bikin bener bener menyelesaikan masalah .. nah akhirnya karena lagi seneng, maka saya teruskan menggambar visualisasi jejaring sosial 3 merk mobil dari data 200 ribu tweet yang saya sebutkan diatas … 

Merk A

merk A

Merk B

merk B

Merk C

merk C

Sharing Big Data ke ITERA

Pada tanggal 31 Januari 2017, Saya memberikan materi tentang Data Science Business Perspective pada acara meetup komunitas idBigData dan Asosiasi Ilmuwan Data Indonesia (AIDI) di Institut Teknologi Sumatra (ITERA) – Lampung. Kesempatan ini adalah pertama kalinya saya mengunjungi ITERA. Saya sudah mendengar mengenai kampus ini sejak 2-3 tahun yang lalu, yang mana pada saat itu mereka sedang gencar gencarnya membuka lowongan dosen. Acara di ITERA ini adalah juga acara Big Data pertama kali yang saya ikuti di luar jawa. Hal ini sangat menarik karena kita juga perlu memeratakan pengetahuan mengenai Big Data di kampus kampus di luar pulau jawa.

Acara idBigData meetup ini sudah diadakan 12 kali, setiap bulan rutin diadakan dengan bersafari ke kampus kampus di seluruh Indonesia. Kali ini acara cukup istimewa karena AIDI yang baru dibentuk bulan november 2016 ikut berperan serta. Sebagai info idBigData berkonsentrasi kepada metodologi komputasi Big Data sedangkan AIDI berkonsetrasi kepada aktivitas analytics Big Data.

Selain saya yang mewakili AIDI, pemateri lainnya adalah Ibu Masayu (ITB / ITERA) yang membawakan materi peringkasan text bahasa indonesia, Pak Beno (Solusi247) mengenai kedaulatan data Indonesia, Pak Sigit (idBigData) mengenai engine Big Data Yava. Peserta yang hadir adalah mahasiswa dan dosen ITERA, dan juga industri, pemerintah, dan mahasiswa lampung di luar ITERA. Ini sangat menarik melihat keragaman peserta yang ikut hadir pada acara ini.

Streaming video materi saya dan foto fotonya bisa dilihat berikut ini :

FullSizeRender 3

IMG 0777

Asosiasi Ilmuwan Data Indonesia (AIDI)

Pada acara Data Science Days bulan November 2016 yang diselenggarakan oleh Fakultas Ekonomi dan Bisnis, Universitas Telkom, telah dideklarasikan terbentuknya Asosiasi Ilmuwan Data Indonesia (disingkat AIDI). Latar belakang pembentukan AIDI adalah perlunya membangun suatu ekosistem Data Science (+Big Data) yang aman, bermanfaat sejahtera, berdaya saing, berkelanjutan untuk mendukung pembangunan bangsa dan kedaulatan data Indonesia. Perlunya perkumpulan / gerakan ini, kami rasakan sejak bermunculannya layanan berbasis internet (dari luar negeri) yang mengumpulkan data data dari pengguna internet Indonesia. Kita mengenal penyedia layanan tersebut dengan sebutan Over The Top content (OTT), contohnya yah penyedia layanan jejaring sosial yang populer di Indonesia (Facebook, Twitter, Instagram, Path, dll), layanan terintegrasi seperti Google (email, maps, search engine..), layanan pengetahuan (wikipedia, imdb), layanan berita, layanan perjodohan, layanan chatting, dan lain lain

Kurang mampu bersaingnya aplikasi nasional / OTT lokal (atau mungkin kurang populernya) membuat data data yang diproduksi dari aktivitas online terkirim ke penyedia layanan di luar negeri. Walaupun saat ini sudah mulai banyak penyedia layanan seperti forum diskusi (kaskus), ecommerce (tokopedia, bukalapak, blibli, dll), akan tetapi sebagian besar pengguna internet indonesia masih menggunakan aplikasi buatan luar dalam mendukung aktivitas sehari hari. Kondisi ini mendorong pentingnya suatu asosiasi yang turut berperan aktif dalam memberikan edukasi baik dari sisi pengembang maupun pengguna sehingga data data yang dihasilkan bisa digunakan untuk mendukung perekonomian dan pembangunan bangsa.

Inisiator dari AIDI terdiri dari para akademisi, pelaku industri, pemerintahan, dan komunitas. Tercatat dari akademisi adalah wakil dari Universitas Telkom, ITB, UNPAD, UNS, UGM, STIS. Dari Industri ada beberapa perusahaan seperti Solusi 247, Mediawave, NoLimit, Bahasa Kita, Zamrud Technology, PasarLaut. Dari pemerintahan diwakili oleh Kemenkominfo dan BPPT. Dari komunitas adalah dua komunitas besar di bidang Data Science + Big Data yaitu Komunitas Data Science Indonesia dan Komunitas IdBigData.

Banyak sekali permasalahan data-related yang membutuhkan aturan dan kebijaksanaan yang terintegrasi, contohnya Open Data dan Smart City. AIDI diharapkan akan berperan aktif dalam pembuatan draft regulasi yang berkaitan dengan data sebagai komoditas strategis. Dorongan perkembangan ICT dan keilmuan Data Mining, Machine Learning, dan Keseluruhan aktivitas Data Analytics membuat data menjadi komoditas yang sangat penting. Produksi data melimpah seiring dengan masifnya pengguna internet Indonesia membuat aktivitas disekitar data harus segera diatur dan dibuatkan roadmapnya.

Saat ini AIDI sedang melakukan konsolidasi organisasi dan menyusun program kerja, diharapkan dalam waktu tidak terlalu lama AIDI akan segera aktif berkontribusi untuk perkembangan Data Science + Big Data di Indonesia. Untuk informasi lebih lanjut dan update terkini bisa akses website AIDI yaitu www.aidi.id

IMG 2017 01 12 00 20 30

Para inisiator AIDI berfoto bersama, setelah penandatanganan deklarasi

Konferensi Big Data 2016 (KBI2016)

Komunitas IDBigData kembali menyelenggarakan konferensi Big Data (KBI) 2016 di gedung BPPT Jakarta, pada tanggal 7-8 desember 2016. Konferensi ini adalah lanjutan dari KBI KBI sebelumnya contohnya pada tahun 2015 ( link blog saya, link blog saya, link website resmi). KBI 2016 adalah KBI ke 3 yang diselenggarakan oleh komunitas IDBigData. Tema besar konferensi ini adalah adalah “Leveraging National Capacities and Capabilities”.

Saya sendiri ikut berpartisipasi di acara KBI sejak KBI ke 2 tahun kemarin di Bandung dengan menjadi salah satu narasumber untuk topik “Social Network Analysis” (video).  sebelumnya saya juga pernah ikut berpartisipasi di IDBigData #4 (video). Untuk tahun ini saya akan berpartisipasi di talkshow / panel, dengan topik “Tantangan dan Daya Saing Big Data Indonesia”. Saya akan mewakili Asosiasi Ilmuwan Data Indonesia (AIDI). Mengenai Asosiasi akan saya tuliskan di blog terpisah ya…

Topik KBI tahun ini menurut saya akan sangat menarik, selama beberapa tahun terakhir ini industri, pemerintahan, dan akademisi sibuk dengan solusi solusi untuk menyelesaikan problem problem Big Data, akan tetapi gambaran besar, visi, misi pembangunan yang bertumpu akan kemampuan menganalisa Big Data masih kurang banyak dibicarakan. Nah melalui konferensi ini diharapkan kita bisa mengumpulkan berbagai macam ide yang pada akhirnya membawa kesamaan tujuan.

Indonesia adalah negara yang sangat besar potensi alam dan rakyatnya. Kemampuan menjinakkan Big Data bisa menjadi solusi yang efektif dan efisien dalam mendukung daya saing bangsa, perekonomian, dan pemerataan pembangunan. Kesadaran akan data collection, open data, open audit akan membuat pemerintahan lebih transparan, akuntabel, dan pro keadilan sosial bagi seluruh rakyat Indonesia

Come and join this conference

PS : my schedule is on the first day, first talk show at 13:00 WIB

IMG 2016 11 30 07 52 03

Screen Shot 2016 11 30 at 7 49 43 AM  2

Screen Shot 2016 11 30 at 7 50 04 AM  2

Generate Data Penghasilan Menggunakan Metode Monte Carlo

Berawal dari kesulitan salah satu mahasiswa bimbingan saya untuk melengkapi datanya, maka saya mencoba mencari metode yang mengatasi hal tersebut. Ceritanya penelitian mahasiswa bimbingan saya membuat pengelompokan data pelanggan Telkom berdasarkan jumlah tagihan bulanan dan penghasilan. Tentu saja data penghasilan  tidak akan dipunyai Telkom, dan juga sulit ditemukan dari sumber lain,  maka untuk itu perlu suatu usaha untuk membuat / generate data menggunakan suatu generator tertentu.

Ide awal dari Statistical Inference yang intinya membuat prediksi data populasi dari data sample dan asumsi yang kita punyai, maka kemudian muncul pertanyaan bagaimana kita men generate data penghasilan berdasarkan data dan asumsi yang kita punyai, sehingga data penghasilan yang dihasilkan oleh generator tidak akan berbeda jauh (tingkat error yang rendah) jika dibandingkan dengan penghasilan sebenarnya yang tidak kita ketahui. Asumsi yang kita punyai adalah beberapa wilayah dalam suatu kota akan mempunyai tingkat kesejahteraan yang berbeda. Sebagai contoh seseorang di wilayah A meskipun mempunyai tagihan telkom sama dengan seseorang di wilayah B, belum tentu tingkat penghasilan mereka sama. Besarnya wilayah dalam satu kota tergantung pada definisi yang kita tentukan, apakah setingkat kelurahan, kecamatan, atau berdasarkan nama jalan jalan yang memang terkenal sebagai daerah “kaya”. Sedangkan data yang kita punyai adalah hasil wawancara ke pihak berwenang (pemkot, BPS, dll) untuk menentukan rata rata penghasilan dari suatu wilayah.

Metode Monte Carlo adalah metode untuk men generate data acak berdasarkan input berupa mean, standard deviation dan distribution. Dari ketiga input tersebut, kita sudah mempuyai data mean (rata rata) penghasilan suatu wilayah. Untuk standard deviasi kita tentukan nilai antara 1 sampai 5 yang kita atur berdasarkan kewajaran distribusi penghasilan di satu wilayah tertentu. Untuk distribusi kita tentukan distribusi normal, karena seperti asumsi statistik pada umumnya distribusi yang digunakan adalah distribusi normal. Pertanyaan kemudian muncul, kenapa kita tidak mengambil bilangan acak antara bilangan (penghasilan) minimum dan maksimum ?, jawabannya karena sebaran data penghasilan yang kita peroleh akan menjadi sangat acak (lihat uniform random sampling ) dan terlihat tidak wajar / tidak representatif terhadap penghasilan asli. Video ilustrasi metode Monte Carlo bisa dilihat dibawah ini

Ada banyak software menyediakan simulasi metode Monte Carlo, seperti Mathlab, Wolfram Mathematica, Python, R, dan bahkan Excel. Tapi saya baru mencoba menggunakan Wolfram Mathematica dan Excel.

Perintah di Wolfram Mathematica adalah

rnorms1 = RandomVariate[NormalDistribution[mean, standard deviation], iteration]

Perintah di Excel adalah

=NORMINV(RAND(),mean,standard deviation)

Hasilnya bisa dilihat digambar berikut ini. Dengan nilai mean 3 dan standard deviasi 1, kita peroleh nilai acak tersebut. Sekarang kita bisa bayangkan jika nilai nilai tersebut dikalikan satu juta, maka kita peroleh interval penghasilan disekitar nilai rata rata gaji 3 juta. Cukup sederhana dan masuk akal bukan data penghasilan yang kita peroleh ? ..

Screen Shot 2016 10 01 at 8 54 38 PM

hasil dengan Wolfram Mathematica

Screen Shot 2016 10 01 at 8 57 09 PM

hasil dengan Microsoft Excel

Pengelompokan Top 1000 Universitas Dunia #Clustering #DataMining

Sabtu pagi ini iseng iseng browsing dataset dan menemukan dataset yang cukup menarik, yaitu World University Ranking dari Kaggle. Dataset ini menggambarkan peringkat 1000 universitas di dunia berdasarkan yang dibuat oleh Times Higher Education University Ranking. Dari 1000 daftar universitas dunia, 229 diantaranya berada di USA, dan sisanya di negara negara lain di dunia, sayangnya Universitas di Indonesia tidak ada satupun yang masuk dalam daftar tersebut. Pengelompokan universitas menggunakan metode Clustering / Klaster k-means yang mana merupakan metoda yang paling sederhana, akan tetapi cukup intuitif untuk menjelaskan bagaimana nilai fitur satu entitas (dalam hal ini universitas) berdekatan dengan entitas lainnya sehingga mereka dianggap mempunyai satu kesamaan / satu kelompok. 

Data yang saya gunakan adalah data peringkat universitas pada tahun 2015. Saya menggunakan RStudio untuk perhitungan proses cluster dan Orange untuk visualisasi cluster tersebut dalam berbagai aspek fitur yang berbeda. Fitur yang ada pada dataset tersebut antara lain adalah : world rank (peringkat universitas di dunia), university name (nama universitas), country (asal negara), national rank (peringkat nasional), quality of education (peringkat kualitas pendidikan), alumni employment (peringkat alumni yang sudah bekerja), quality of faculty (kualitas fakultas), publications (peringkat publikasi), influence (peringkat pengaruh), citations (peringkat sitasi), broad impact (peringkat untuk impact dalam skala luas), patents (peringkat paten), score (total nilai dalam penentuan peringkat dunia).

Semua atribut fitur merupakan data kontinu, kecuali nama universitas dan negara merupakan data diskrit. Berdasarkan analisa awal untuk algoritma k-means dengan inisialisasi awal kmeans++ dengan jumlah kelompok antara 3-8, diperoleh yang paling tinggi scorenya adalah jumlah 3 kelompok. Oleh karena itu pengelompokan Top 1000 universitas menggunakan tiga kelompok. Hasil perhitungan bisa diunduh di table excel berikut ini 

Secara umum dapat kita simpulkan terjadi hubungan linear semakin tinggi peringkat suatu universitas maka semakin tinggi pula jumlah publikasi, jumlah sitasi, jumlah alumni employment, jumlah patent dan lain lainnya, seperti yang terlihat pada gambar dibawah ini. Warna yang berbeda menunjukkan kelompok yang berbeda. Semakin besar ukuran point (silang, segitiga, lingkaran) maka semakin besar pula nilai influence dari satu universitas. 

Sekian share pagi ini, monggo dimain mainkan dataset diatas untuk algoritma lain ataupun untuk keperluan lainnya … salam ..

 

InfluenceVsWorldRankPublicationsvsWorldRankPublicationsVsCitationsWorldRankvsAlumniEmploymentWorldRankvsCitationWorldRankvsPatent

pengelompok antar beberapa fitur data (lihat sumbu x dan sumbu y)

 

Screen Shot 2016 09 17 at 10 37 23 AM  2

Hasil pengelompokan Top 1000 Universitas dalam 3 kelompok besar