Klasifikasi Ujaran Kebencian pada Twitter Menggunakan Metode Naive Bayes Berbasis N-Gram Dengan Seleksi Fitur Information Gain
Kata Kunci:
ujaran kebencian, Twitter, Naive Bayes, N-Gram, Information GainAbstrak
Ujaran kebencian atau hate speech adalah salah satu topik yang sering dibahas di bidang teknologi informasi. Ujaran kebencian banyak digunakan oleh orang-orang yang tidak suka atau benci terhadap seseorang maupun suatu kelompok. Orang menyatakan sebuah ujaran kebencian biasanya dilakukan dengan cara menulisnya di sosial media. Salah satu sosial media yang sering digunakan seseorang untuk menyebarkan ujaran kebencian adalah Twitter. Dibutuhkan klasifikasi ujaran kebencian agar dapat mengurangi penyebaran ujaran kebencian. Metode yang digunakan dalam penelitian ini adalah Naive Bayes berbasis N-gram dan seleksi fitur Information Gain. Fitur n-gram yang digunakan pada penelitian ini adalah fitur Unigram, Bigram, dan kombinasi unigram-bigram. Data yang digunakan pada penelitian ini berjumlah 250 data berlabel ujaran kebencian dan 250 data berlabel bukan ujaran kebencian dengan perbandingan 80% untuk data latih dan 20% untuk data uji. Hasil akurasi terbaik yang didapat pada penelitian ini adalah dengan menggunakan fitur Unigram dan tanpa menggunakan seleksi fitur Information Gain. Hasil akurasi terbaik yang didapat adalah 84%, nilai precision 92%, nilai recall 79,31%, dan nilai f-measure 85,18%. Berdasarkan hasil yang didapat tersebut dapat diambil kesimpulan bahwa untuk melakukan klasifikasi ujaran kebencian pada Twitter menggunakan Naive Bayes mendapat hasil paling bagus dengan fitur Unigram dan tanpa melakukan seleksi fitur Information Gain.