Andry Alamsyah Blog

Sharing KickScraper (KickStarter Scrap using Ruby) sebagai Pemahaman Proses Pengumpulan Data

Lab Social Computing & Big Data mulai semester ganjil 2017/2018 ini diisi dengan personil personil baru mahasiswa angkatan 2014. Mereka akan mengadakan kegiatan riset, melayani pelatihan / asistensi mata kuliah Big Data dan Data Analytics, serta mengadakan acara sharing ilmu / akademik setiap minggu. Untuk minggu pertama ini kegiatan sharing diisi topik mengenai KickScraper, yaitu bagaimana melakukan web scrapping terhadap website Kickstarter dengan menggunakan script bahasa Ruby. Pemateri acara kali ini adalah Tri Buono, mahasiswa angkatan 2013. Teknik yang disharing oleh dia berkaitan dengan risetnya mengenai pengenalan pola pola investasi pada perusahaan startup. Acara ini dihadiri mahasiswa lab dan juga dosen dosen KK dan pengajar matkul Big Data & Data Analytics

Terdapat dua problem mendasar pada kegiatan data analytics yaitu yang pertama data collection dan yang kedua aktivitas data analytics sendiri. Kegiatan data collection sendiri merupakan masalah besar di Indonesia pada umumnya, dimana jarang sekali individu / organisasi yang memahami pentingnya semangat Open Data, sehingga data masing masing instansi / organisasi berdiri sendiri sendiri dan tidak teintegrasi, akibatnya banyak pekerjaan atau kebijaksanaan yang saling tumpang tindih, tidak konvergen mencapai tujuan bersama. Saya pernah punya pengalaman buruk mengenai open data dengan pemkot, dimana walikota klaim bahwa data pemkot terbuka untuk umum, tapi begitu mahasiswa saya mempelajari polanya, ternyata data tersebut tidak ‘berbunyi’ sehingga tidak bisa dicari polanya, tidak bisa didapat informasi atau pengetahuan. Pernyataan bahwa data sudah terbukapun  perlu diperiksa lagi, karena kita belum tahu seberapa lengkap data yang dimiliki.

Pada sharing kali ini, tujuan utama yang ingin dicapai bukanlah mengajarkan teknik mengambil datanya, tapi pemahaman bagaimana proses perolehan data. Kickscraper mengambil data web Kickstarter menggunakan API. Berbeda dengan teknik klasik web scrapping menggunakan layanan seperti import.io ataupun parsehub, maka pengambilan data menggunakan API lebih fleksibel, lebih powerful dan bisa mengambil hidden data kalau penyedia layanan mengijinkan. Kerugiannya adalah kita tidak tahu sampai kapan API tersebut tersedia (secara gratis). Jadi proses data collection merupakan proses yang dinamis, apa yang kita ketahui hari ini belum tentu besok masih bisa dilakukan. Oleh karenanya pesan yang saya sampaikan adalah yang paling penting memahami proses, klasifikasi jenis / teknik pengamnilan data, serta membiasakan mahasiswa mahasiswa manajemen bisnis ini untuk ngoding …. yah bahasa koding ini bahasa yang paling penting dipelajari selain bahasa inggris. Beberapa mahasiswa memang tidak biasa dengan pengoperasian terminal di mac atau  windows shell, bahkan belum tahu bagaimana menjalankan ruby (ataupun python dan sejenisnya), sehingga acara sharing ini merupakan sarana bagus untuk memperkenalkan hal hal tersebut. 

 

IMG 8452

IMG 1082

IMG 0102

IMG 8369

IMG 5349

IMG 3885

Leave a Reply

%d bloggers like this: