Tentang Pilkada 2015 : Studi Evolusi dan Dinamika Percakapan Online

Pada akhir tahun 2015 diselenggarakan Pemilihan Umum Daerah (Pilkada) untuk memilih kepala daerah tingkat 1 dan 2 secara serentak di berbagai wilayah di Indonesia. Komunitas DSI (Data Science Indonesia) dan Perludem (Perkumpulan untuk Pemilu dan Demokrasi) mengadakan beberapa studi/riset mengenai Pilkada tersebut. Partner riset saya (Jaka dan Adib) mengajak untuk membuat penelitian mengenai penyebaran informasi Pilkada di media sosial, tujuannya adalah melihat gaung pesta demokrasi ini di kalangan masyarakat Indonesia. Twitter adalah pilihan yang masuk akal, karena pada saat itu ramai sekali tweet tweet mengenai Pilkada.

Blog entry ini sebenarnya sangat terlambat, hal ini dikarenakan saya sendiri lupa pernah mengadakan penelitian ini, karena hasil penelitian waktu itu disampaikan di suatu acara di forum terbuka (dipresentasikan oleh Jaka dan Adib) dan tidak ditulis dalam bentuk jurnal, sehingga saya tidak mempunyai bukti pernah melakukan riset ini. Maka dari itu, blog entry ini akan menjadi pengingat mengenai riset pilkada yang pernah saya lakukan.

Data tweet diambil selama 6 hari (3-9 desember 2015) dengan jumlah tweet mencapai 900 ribu tweets. Jaringan percakapan dibagi menjadi masa selama kampanye, masa tenang, dan hari pelaksanaan pilkada. 

Penelitian kami membahas apa yang mengenerate percakapan di media sosial, bagaimana berita pilkada menyebar, dan bagaimana mengukur penyebaran berita tersebut. Presentasi lengkap dari Jaka bisa dilihat di Link ini (slideshare)

 

 

Screen Shot 2016 06 25 at 12 38 56 AM

 

NewImage

NewImage

 

 

 

Advertisements

Ide Jejaring Teks Untuk Meringkas Percakapan Online (Telkomsel vs XL vs Indosat)

Ide kami dari lab. Social Computing dan Big Data (SCBD) berasal dari pertanyaan sederhana yaitu, “bagaimana membuat ringkasan dokumen / percakapan yang jumlah/skalanya sangat besar?”. Saat ini dengan mudah kita mendapatkan data jutaan tweet tentang suatu produk (lihat cara ini untuk mengambil tweet). Kemudian  bisnis / perusahaan berkeinginan untuk membaca apa yang pelanggan bicarakan tentang produk mereka. Tentu saja membaca jutaan tweet tidaklah mudah dan mungkin membutuhkan waktu lama. Oleh karena itu perlu suatu metodologi baru untuk membuat ringkasan mengenai dokumen yang jumlahnya sangat banyak tersebut.

Saat ini praktek yang sering dilakukan untuk meringkas dokumen adalah dengan menggunakan wordcloud, yaitu daftar kemunculan kata kata berdasarkan seberapa sering kata itu muncul, semakin sering suatu kata muncul maka ukuran kata tersebut menjadi besar / dominan. Contoh wordcloud bisa googling disini. Problem dari wordcloud adalah sulitnya membuat kesimpulan, karena tidak adanya hubungan antara kata kata tersebut, sehingga konteks atau rasa kalimat tidak tertangkap. Pendekatan lain adalah menggunakan usaha usaha seperti sentiment analysis untuk menilai sentiment / rasa / opini orang terhadap suatu produk. Hasil sentiment analysis akan jauh lebih akurat, akan tetapi prosesnya lama, sehingga tidak mungkin untuk menganalisa jutaan tweet (Big Data).

Minggu lalu hasil riset kami tersebut dipresentasikan di konferensi ICOICT2016. Ada dua paper yang kami tampilkan satu mengenai studi kasus di bidang telekomunikasi (bisnis), dan satu lagi tentang pilkada (politik). Judul paper kami adalah “Network Text Analysis to Summarize Online Conversations for Marketing Intelligence Efforts” dan “Word Association Network Approach for Summarizing Twitter Conversation about Public Election” . Saya akan bahas yang studi kasus bidang bisnis saja di entry blog ini. Hasil jejaring teks untuk masing masing operator seluler bisa dilihat di gambar dibawah ini.

 

Telkomsel

Telkomsel

Xl

XL

Indosat

Indosat

Oh yah sebelum membahas hasil riset ini, kami tidak berasosiasi atau meminta ijin kepada provider provider seluler yang disebutkan diatas. Penggunaan brand diatas semata mata karena ketiga brand tersebut yang terbesar di Indonesia (bisa cek Top Brand Awards 2016 kategori Telekomunikasi/IT) . Dan dalam penelitian ini tidak fokus membahas kelebihan dan kekurangan masing masing provider. Yang kami lakukan adalah bereksperimen dengan metode menggunakan data data yang tersedia bebas di Internet (Twitter) dan kemudian menceritakannya kembali (secara garis besar). Jumlah tweet yang kami ambil juga belum mencapai skala jutaan, baru dalam jumlah 75ribu tweet per masing masing provider.

Cerita dari Telkomsel adalah konsumer melihat produk Paket Internet Tau sebagai produk yang murah dan valuable, beberapa keluhan muncul tentang koneksi internet yang lambat, dan secara keseluruhan sentimen positif masih lebih besar dari sentimen negatif. XL mempunyai dua kelompok utama kata kata, yaitu kelompok pertama mengenai informasi produk paket internet dengan kata kata “internet”, “hotrod”, “kartu”, “paket” dan grup kedua mengenai keluhan keluhan yang muncul melalui kata kata “kecewa, “penipuan”, “keluhan”,” lambat”, “mahal”. Indosat mempunyai kata kata dominan “sinyal”, “internet”, “gangguan” yang menceritakan bagaimana sentimen negatif konsumen tentang layanan mereka.

Kesimpulan sementara kami adalah metode ini cukup cepat dan efisien untuk meringkas data data (yang tidak terstruktur) dan berukuran besar (Big Data). Untuk melihat detail papernya, tunggu publish paper lengkapnya nanti di IEEE, Academia.edu atau di Researchgate

 

 

Network dan Sentimen #SaveGojek

Kemarin selama beberapa jam layanan ojek online dilarang beroperasi oleh Kemenhub. Tagar #SaveGojek langsung merajai media twitter. Sambil nungguin Sarah ujian balet pagi ini, saya iseng crawl twitter tentang fenomena kemarin. Bagaimana network dan sentimen dari tweet tweet tersebut, bisa dilihat pada gambar dibawah ini. Network diperoleh dari percakapan yang terjadi. Crawling dengan library twitteR di R diperoleh 10 ribu tweet dalam rentang dari pukul 8:30 pagi sampai dengan pukul 14:00 siang tanggal 18 desember 2015. Saya berhentikan crawling data sampai 14:00 karena saat itu pelarangan ojek online di tunda, yang artinya ojek online sudah diperbolehan lagi.

Setelah melakukan penyaringan tweet saya memperoleh sekitar 2000 percakapan. Banyak sekali ditemukan tweet sampah, tampaknya ada orang / kelompok yang berusaha mengaburkan isu #SaveGojek dengan isu isu lain yang tidak berkaitan (sampah). Konstruksi interaksi di twitter membentuk network percakapan dengan visualisasi sebagai pada gambar dibawah ini. Seperti karakteristik cuitan pada twitter, mayoritas diwarna oleh opini pribadi, dan mayoritas akhirnya tidak membentuk percakapan yang memadai. 

Savegojek

Peringkat akun akun populer (me-mention + di-mention) adalah berturut turut @jokowi, @kurawa, @pramonoanung dan seterusnya. lengkapnya ada pada tabel dibawah ini, semakin besar nilai degreenya maka semakin populer akun itu di twitter.

 

Rankingsavegojek

Adapun sentimen dari tagar #SaveGojek dapat dilihat pada wordcloud berikut ini. Terlihat bahwa sentimen yang terjadi mayoritas adalah sentimen negatif terkait pelarangan ojek online, terutama berkaitan dengan kata kata dilarang, dukung, rakyat, inovasi, membantu, Jonan dan lain lain.  

Savegojekwordcloud

Penentuan Kelompok Berdasarkan Proporsi Pertemanan di Akun Twitter

Entry blog kali ini saya ingin berbagi hasil otak atik (baca: bermain main) dengan akun twitter pribadi saya (@andrybrew) berkaitan dengan pertanyaan saya bagaimana mengelompokkan jejaring sosial twitter berdasarkan proporsi Friends / Followers ?. Friends adalah orang yang kita follow. Followers adalah orang yang mem-follow kita di twitter. Alat yang saya gunakan dalam eksperimen ini  adalah platform bahasa R, yaitu R studio. Saya melakukan crawl semua Friends dan Followers dari akun saya menggunakan metode yang pernah saya tulis di entry blog ini.  Jumlah Friends saya adalah 900an dan jumlah Followers saya adalah 1400an. Karena Friends dan Followers adalah jejaring sosial terdekat saya di twitter maka saya jumlahkan keduanya menjadi total data sejumlah 2300 Friends dan Followers (akun di twitter).

Metodologinya dari 2300 data akun twitter  diatas, saya ambil masing masing jumlah Friends dan Followersnya, kemudian saya plotkan menggunakan chart interaktif dari paket rChart . Selain itu dengan meminjam metode clustering data dengan kmeans pada data mining saya membuat 4 kelompok dan 6 kelompok pertemanan jejaring sosial twitter saya berdasarkan proporsi Friends / Followers . Hasilnya bisa dilihat di gambar gambar berikut ini.

Bermain main dengan data (Data Analytics) seperti bermain game, karena dengan seringnya latihan akan membuat kita makin paham dengan alat dan jenis jenis model yang bisa kita produksi. Sering juga pembuatan model hanya untuk senang senang aja, dan tidak menghasilkan kesimpulan apa apa. Tapi di eksperimen saya ini berarti sesuatu khan ?, saya sudah bisa lho mengelompokkan temen temen twitter saya. Lets Have fun with Data Analytics

 

6cluster

chart 6 cluster (kelompok), warna yang berbeda menandakan kelompok yang berbeda 

4cluster

chart 4 cluster (kelompok), warna yang berbeda menandakan kelompok yang berbeda 

Infobandung

lokasi akun @infobandung dengan followers = 765194 dan friends = 42134

Instagram

lokasi akun @instagram dengan followers = 40375299 dan Friends = 3

Tmcpolda

lokasi akun @TMCPoldaMetro dengan followers = 4427785 dan Friends = 1

Network of #HBDJokowi

Data hashtag #HBDJokowi dalam rangka ulang tahun presiden Jokowi diambil pada tanggal 21 Juni 2015 selama 8 jam dari pukul 6 pagi sampai dengan pukul 2 siang. Diperoleh 8741 tweet  melibatkan 7781 akun twitter. Summary dari konten percakapan bisa dilihat di entry blog ini.  Jejaring percakapan di visualisasikan dengan melakukan filter hanya kepada akun akun yang melakukan posting lebih dari 15 tweet. Dari visualisasi bisa dilihat akun akun yang terlibat aktif pada percakapan topik #HBDJokowi ..

HBDJokowi

Crawling – Mining Twitter Data menggunakan R

Dalam aktivitas content mining, data mining, social network analysis dan sebagai bagian dari pekerjaan data science, maka melakukan mining terhadap media sosial merupakan hal yang ‘wajib’. Dalam entri blog kali ini saya akan menuliskan mengenai crawling percakapan dan konten dari media sosial Twitter menggunakan bahasa R. Penjelasan mengenai R ada di halaman wikipedia ini. R dibangun secara crowdsourcing dimana banyak saintis dan programmer membuat modul modul khusus untuk meningkatkan fungsi fungsi dari bahasa R.

Salah satu package / library / modul yang menarik adalah twitteR, modul ini dibuat untuk mengakses API dari Twitter, sehingga kita bisa melakukan operasi operasi seperti melihat profile, melihat daftar teman, daftar followers, pencarian kata kunci dan lain lainnya. Operasi yang sering saya lakukan adalah pencarian kata kunci untuk kemudian saya lakukan data mining, sentiment analysis atau social network analysis.

Langkah langkah yang perlu dilakukan adalah yang pertama kali membuat aplikasi di Twitter, setelah membuat aplikasi kita akan memperoleh 4 jenis kunci (consumer key, consumer secret, access token dan access token secret). 4 kunci tersebut kita gunakan pada modul twitteR untuk terhubung dengan API Twitter. Setelah terhubung baru kita bisa ikutin dokumentasi twitteR ini untuk melakukan operasi yang kita inginkan.

Pada contoh gambar di bawah, saya perlihatkan pencarian kata kunci “Telkom University” sebanyak 100 tweet, pada lokasi bandung (geocode=longitude dan latitude, dengan radius 20 mil). Hasil yang diperoleh adalah table csv dengan total 16 variabel seperti teks, tanggal tweet, penulis  tweet, dan yang lain lainnya  yang bisa dilihat pada gambar di bawah.

Selain modul twitteR, banyak sekali cara lain untuk crawling data Twitter, diantaranya adalah modul streamR untuk akses stream data pada Twitter (forward search). Di luar R, ada juga cara lain menggunakan Java, .ASP C/C++, Perl, PHP Javascript, Python, Ruby dan lain lainnya. Klik untuk daftar lengkap aplikasi untuk crawling twitter – Twitter Libraries

Selamat Mencoba !!

Screen Shot 2015-03-01 at 8.06.03 PM (2)

tampilan R pada pencarian tweet dengan kata kunci “Telkom University”. Hasil bisa dilihat pada kanan atas dan beberapa perintah ada di kanan bawah

Screen Shot 2015-03-01 at 8.12.23 PM (2)

data hasil crawling dengan perintah search keyword ‘Telkom University”, terdiri dari 16 variabel.

konten lokal

pernahkah anda merasa susahnya mencari konten indonesia ( dalam artian berbahasa indonesia, produk/jasa yang dibuat atau ada di indonesia ). konten lokal memang sesuatu hal yang kita rasakan sangat penting, selain sebagai pemberdayaan akses internet biar tidak banyak akses situs situs luar negeri (hemat biaya dan lebih cepat aksesnya) dan juga supaya informasi yang kita dapatkan relevan dengan apa yang ada disekitar kita.

sebagai contoh saya ketik kata kunci “review suzuki apv” di google.co.id kita akan mendapatkan hasil pencarian yang tidak banyak membantu kita untuk mendapatkan review yang berkualitas dan akurat tentang produk ini. padahal mobil ini adalah salah satu mobil yang populer dan banyak kita temui di jalanan, bagaimana bisa kita tidak menemukan hasil yang komprehensif dan memuaskan dari hasil pencarian kita ?

disini kita mulai merasakan kurangnya konten lokal, dari hasil pencarian diatas kita hampir semua hasil adalah review dari situs jual beli mobil, yang notabene bukan merupakan review obyektif dari pengguna dan lebih banyak menulis ulang spek mobil dari brosur. hal seperti ini yang sering membuat saya dan beberapa rekan frustasi dalam mencari informasi lokal di web. beberapa contoh yang lainnya adalah pencarian info sekolah, tempat pariwisata, sejarah indonesia, transportasi, dan lain lainnya.

“but things get any better” — situasi konten lokal bertambah baik akhir akhir ini, twitter dengan zillions practical information seperti @infobdg @TMCPoldaMetro @AdaDiskon maupun hashtag #lalulintas dan yang lainnya. review produk baik peorangan maupun komunitas, games lokal, geotagging commerce (jualan berdasarkan lokasi pembeli/market), blog dan juga komunitas komunitas baru lainnya (terutama komunitas hobi) yang terbentuk dari internet.

situasi yang sangat menyenangkan tentunya jika semua informasi apapun tentang sekitar kita bisa kita cari dengan mudah, mari ngeblog, mari perkaya wikipedia, mari kita isi twitter dengan info info yang berguna. dalam hal konten more is much better than less . tentunya yang saya tuliskan diatas adalah konten positif bukan konten negatif apalagi konten konten kreatif-curang yang sempet heboh beberapa saat yang lalu diprotes oleh banyak pengguna mobile phone.