Implementasi Naive Bayes Classifier untuk Klasifikasi Emosi Tweet Berbahasa Indonesia pada Spark
Kata Kunci:
naïve bayes classifier, emosi, tweet, klasifikasi, sparkAbstrak
Emosi merupakan hal alami yang dimiliki setiap manusia karena merupakan respon atas suatu kejadian. Karena emosi dimiliki oleh setiap manusia maka melakukan klasifikasi pada emosi memiliki banyak manfaat seperti contohnya untuk identifikasi keluhan pelanggan. Emosi bisa terdapat pada sumber tekstual seperti tweet. Data tweet pada Twitter sendiri memiliki ukuran yang semakin berkembang setiap tahunnya dan dibutuhkan sistem yang melakukan klasifikasi emosi pada tweet yang dapat menangani data yang semakin berkembang dengan cepat dan akurat. Pada penelitian ini klasifikasi dilakukan dengan menggunakan algoritme Naive Bayes Classifier dan juga framework Spark dengan prosesnya dimulai dari preprocessing, pelatihan untuk mencari nilai prior dan likelihood, lalu pengujian untuk mencari nilai posterior dan melakukan klasifikasi, dan terakhir melakukan perhitungan akurasi. Framework Spark sendiri digunakan untuk melakukan pekerjaan secara paralel untuk waktu komputasi yang lebih cepat. Berdasarkan hasil pengujian dari data tweet pada 1 Juni 2018 hingga pada 14 Juni 2018 didapatkan akurasi dari metode Naive Bayes Classifier untuk klasifikasi emosi tweet berbahasa Indonesia pada Spark memiliki nilai rata-rata tertinggi sebesar 0,892 saat persentase 90% data latih dan 10% data uji. Selanjutnya nilai rata-rata tertinggi sebesar 0,880 saat menggunakan smoothing. Dan terakhir nilai rata-rata tertinggi sebesar 0,888 saat menggunakan prior konstan. Perbandingan waktu eksekusi dari penggunaan Spark dan secara sequential memiliki selisih yang sangat jauh hingga mencapai hampir 165 kali lebih cepat pada Spark. Pada Spark waktu eksekusi membutuhkan waktu rata-rata 0,525 detik sedangkan pada cara sequential rata-rata membutuhkan waktu 86,564 detik.