Pengelompokan Top 1000 Universitas Dunia #Clustering #DataMining

Sabtu pagi ini iseng iseng browsing dataset dan menemukan dataset yang cukup menarik, yaitu World University Ranking dari Kaggle. Dataset ini menggambarkan peringkat 1000 universitas di dunia berdasarkan yang dibuat oleh Times Higher Education University Ranking. Dari 1000 daftar universitas dunia, 229 diantaranya berada di USA, dan sisanya di negara negara lain di dunia, sayangnya Universitas di Indonesia tidak ada satupun yang masuk dalam daftar tersebut. Pengelompokan universitas menggunakan metode Clustering / Klaster k-means yang mana merupakan metoda yang paling sederhana, akan tetapi cukup intuitif untuk menjelaskan bagaimana nilai fitur satu entitas (dalam hal ini universitas) berdekatan dengan entitas lainnya sehingga mereka dianggap mempunyai satu kesamaan / satu kelompok. 

Data yang saya gunakan adalah data peringkat universitas pada tahun 2015. Saya menggunakan RStudio untuk perhitungan proses cluster dan Orange untuk visualisasi cluster tersebut dalam berbagai aspek fitur yang berbeda. Fitur yang ada pada dataset tersebut antara lain adalah : world rank (peringkat universitas di dunia), university name (nama universitas), country (asal negara), national rank (peringkat nasional), quality of education (peringkat kualitas pendidikan), alumni employment (peringkat alumni yang sudah bekerja), quality of faculty (kualitas fakultas), publications (peringkat publikasi), influence (peringkat pengaruh), citations (peringkat sitasi), broad impact (peringkat untuk impact dalam skala luas), patents (peringkat paten), score (total nilai dalam penentuan peringkat dunia).

Semua atribut fitur merupakan data kontinu, kecuali nama universitas dan negara merupakan data diskrit. Berdasarkan analisa awal untuk algoritma k-means dengan inisialisasi awal kmeans++ dengan jumlah kelompok antara 3-8, diperoleh yang paling tinggi scorenya adalah jumlah 3 kelompok. Oleh karena itu pengelompokan Top 1000 universitas menggunakan tiga kelompok. Hasil perhitungan bisa diunduh di table excel berikut ini 

Secara umum dapat kita simpulkan terjadi hubungan linear semakin tinggi peringkat suatu universitas maka semakin tinggi pula jumlah publikasi, jumlah sitasi, jumlah alumni employment, jumlah patent dan lain lainnya, seperti yang terlihat pada gambar dibawah ini. Warna yang berbeda menunjukkan kelompok yang berbeda. Semakin besar ukuran point (silang, segitiga, lingkaran) maka semakin besar pula nilai influence dari satu universitas. 

Sekian share pagi ini, monggo dimain mainkan dataset diatas untuk algoritma lain ataupun untuk keperluan lainnya … salam ..

 

InfluenceVsWorldRankPublicationsvsWorldRankPublicationsVsCitationsWorldRankvsAlumniEmploymentWorldRankvsCitationWorldRankvsPatent

pengelompok antar beberapa fitur data (lihat sumbu x dan sumbu y)

 

Screen Shot 2016 09 17 at 10 37 23 AM  2

Hasil pengelompokan Top 1000 Universitas dalam 3 kelompok besar

 

Advertisements

2 thoughts on “Pengelompokan Top 1000 Universitas Dunia #Clustering #DataMining

  1. manteeeebb.. saya lagi tesis mengenai text prossecing untuk pemeringkatan, namun berdasarkan sosial media. boleh nanya email buat nanya nanya ilmu dan diskusi gan ? hehe. makasih

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s