Andry Alamsyah Blog

Pengelompokkan Kemajuan Kota Dengan Clustering Data

Karena kesibukan yang ga ada abisnya akhir akhir ini, maka sudah lama saya tidak sempat mencari dan melihat perkembangan dataset yang tersedia bebas di Internet. Berawal dari keluhan beberapa mahasiswa bimbingan dan penghuni labo tentang kesulitan mencari data, maka saya kemarin mencoba browsing browsing, dan akhirnya saya menemukan gudang dataset Indonesia yang lumayan ok di data.go.id . Tempat ini menurut saya cukup bagus, walaupun saya belum mengecek kelengkapannya. Saya langsung menuju ke sektor ekonomi dan keuangan dan menemukan dataset INDODAPOER

INDODAPOER adalah dataset Indonesia Dataset for Policy and Economic Research yang dimiliki oleh Bank Dunia, yang kemudian di buka bebas untuk diakses masyarakat luas. Data ini sesuai untuk penelitian tentang kemajuan perkembangan pembangunan ekonomi dari tahun ke tahun di Indonesia. Terdapat 200 indikator pengukuran untuk setiap kota / kabupaten dan provinsi di Indonesia, yang dikelompokkan menjadi indikator fiskal, indikator ekonomi, indikator sosial dan demografi, indikator infrastruktur. Contoh indikator indikator bisa dilihat pada gambar dibawah.

Setelah mendapatkan data, maka saya mulai iseng bermain main dengan data dan mengambil sembarang dua indikator (atribut) yang menyatakan kemajuan kota. Saya pilih atribut HDI (Human Development Index) atau indeks pengembangan manusia dan GDP (Gross Domestic Product) atau jumlah uang yang diperoleh dari pendapatan atas barang dan jasa dari suatu kota / kabupaten. HDI semakin besar nilainya semakin baik kualitas sumber daya manusianya, demikian juga dengan GDP, semakin besar GDP, semakin besar pendapatannya. Dua atribut HDI dan GDP ini akan mengelompokkan kota / kabupaten di indonesia menjadi  beberapa kelompok seperti yang terlihat di gambar di bawah ini. GDP yang saya ambil adalah nilai GDP diluar industri minyak dan gas bumi.

Graphcluster2

Pengelompokan kota berdasarkan HDI dan GDP

 

Pada gambar tersebut terlihat ada kelompok kota / kabupaten dengan indeks HDI rendah dan nilai  GDP rendah yang ditandai dengan titik warna biru, ada juga kelompok kota / kabupaten dengan indeks HDI tinggi tapi GDP rendah yang ditandai dengan titik warna merah, terakhir kelompok kota / kabupaten yang indeks HDI tinggi dan nilai GDP yang tinggi ditandai dengan titik warna hijau. Pengelompokan ini secara kasar bisa mengambarkan kota mana saja yang sudah maju tinggal kesejahterannya berdasarkan rasio HDI dan GDPnya. Ada kelompok kota yang sudah memaksimalkan sumber daya manusianya dan ada kelompok kota yang kurang bisa memaksimalkan potensi sumber data manusianya (kelompok merah). Kesimpulan ini adalah kesimpulan singkat dan cepat, perlu analisa lebih dalam dan komprehensif yang melibatkan indikator indikator lainnya dan pada tahun tahun yang berbeda untuk memantau perkembangan suatu kota / kabupaten.

Metodologi yang saya gunakan adalah Clustering Data menggunakan metode k-means, setelah mencoba coba pemilihan acak jumlah kelompok, akhirnya terbentuk jumlah yang optimal adalah 3 kelompok. Data yang diambil hanyalah data pada tahun 2012, karena pada tahun tersebut datanya paling lengkap, baik data HDI maupun data GDP.  Ada 3 kota yang terpaksa saya hilangkan dari proses, karena mereka outliers (pencilan) di kelompok hijau untuk membuat grafik terbaca dengan lebih mudah, jadi sebetulnya 3 kota itu adalah kota kota tertinggi dalam rasio HDI/GDP nya, kota kota itu adalah Kota Surabaya, Kab. Bekasi dan Kab. Bogor. Kesimpulan akhir adalah kita bisa menggunakan teknik teknik data mining untuk membuat analisa dan menemukan informasi yang tidak terduga sebelumnya. Semoga entry blog ini bermanfaat

Cluster1

Sebagian dari 200 indikator yang terlihat dari data mentah INDODAPOER 

Cluster

Sebagian hasil proses clustering data

Leave a Reply

%d bloggers like this: