Workshop Big Data Text Mining untuk Kominfo


Melanjutkan workshop sebelumnya Big Data : Social Network pada bulan maret 2016, kali ini saya bersama team Lab Big Data dan Social Computing (FEB Universitas Telkom) membawakan materi workshop Big Data Text Mining atau Text Analytics untuk para peneliti di Kominfo. Sebelumnya materi workshop kedua ini kami rencanakan mengenai Big Data Hadoop, akan tetapi pada kenyataannya materi tersebut kurang aplikatif dalam menunjang pekerjaan sehari hari para peneliti kominfo tersebut, sehingga kami rubah ke materinya ke Big Data Text Mining / Text Analytics

Workshop ini berawal dari kebutuhan kominfo untuk mempercepat proses monitoring kebijakan publik melalui berita yang ada di mass media, terutama koran nasional. Selama ini proses tersebut dilaksanakan secara manual dan bergantung kepada keahlian beberapa orang untuk melakukan kategorisasi / klasifikasi berita. Permasalahan timbul pada saat proses konvensional tersebut tidak mampu memproses berita dalam jumlah yang besar, untuk itu perlu dilakukan otomatisasi kategorisasi berita ataupun analisa sentimen. Dengan otomatisasi proses maka, kapakaran para ahli kategorisasi berita bisa ditiru oleh komputer melalui metode machine learning.  Sebagai info Big Data sendiri didominasi oleh data data “unstructured” yang salah satunya berupa text.  Tantangannya adalah bagaimana data kualitatif berupa text ini bisa kita kuantifikasi, sehingga bisa kita buat suatu model, atau peroleh pattern.

Jika kita mampu melakukan pengelolaan terhadap text (text analytics), maka sebagian besar permasalahan modelling Big Data bisa kita pecahkan. Text Mining / Analytics adalah proses yang penting pada bidang Big Data, proses yang rumit dan terus berkembang.

Pada workshop kali ini, kami mengenalkan dasar dasar text mining, praktek sentiment analysis berbasis lexicon menggunakan aplikasi R dan praktek sentiment analysis berbasis naive bayes menggunakan RapidMiner. Sepanjang workshop, peserta mencoba membuat corpus (bahasa indonesia) dan melakukan tuning terhadap model sehingga diperoleh model dengan akurasi yang bisa diterima. Tantangan untuk kominfo dalam study monitor kebijakasanaan pemerintah dalah membangun corpus yang sesuai dengan domain aplikasi ini.

Screen Shot 2016 07 22 at 10 46 48 PM  2

slide materi

IMG 1351

suasana workshop di pustiknas kominfo ciputat

IMG 1347

peserta dan fasilitator berfoto bersama di akhir acara workshop

 


Leave a Reply

Your email address will not be published. Required fields are marked *