Klasifikasi Spam Pada Twitter Menggunakan Metode Improved K-Nearest Neighbor
Kata Kunci:
text mining, klasifikasi, spam, twitter, improved k-nearest neighborAbstrak
Twitter merupakan salah satu layanan aplikasi yang populer karena dapat digunakan untuk berinteraksi dan berkomunikasi dalam kehidupan sehari-hari. Untuk dapat menyebarkan informasi secara cepat maka banyak bermunculan berbagai macam perangkat lunak otomasi. Karena Twitter tidak memeriksa secara ketat mengenai otomasi pada tweet, maka tidak ada pencegahan pemakaian bot secara teratur. Keterbukaan penggunaan layanan otomasi atau automation tweet pada Twitter inilah yang menyebabkan munculnya pasar Spam-as-a-Service yang terdiri dari program pemalsuan, layanan pemendek berbasis iklan dan penjualan akun. Masing-masing layanan ini memungkinkan spammer untuk melakukan proses penyebaran spam dengan menggunakan layanan automation tweet. Sehingga dibutuhkan suatu penelitian untuk melakukan klasifikasi pada tweet untuk mengetahui jenis kategorinya termasuk ke dalam kategori spam atau bukan spam. Proses klasifikasi spam diawali dengan preprocessing yang terdiri dari beberapa tahapan yaitu cleansing, case folding, tokenisasi, filtering dan stemming. Dilanjutkan dengan proses term weghting, hingga proses klasifikasi dengan menggunakan metode Improved K-Nearest Neighbor. Hasil yang diperoleh berdasarkan implementasi dan pengujian penelitian Klasifikasi Spam pada Twitter ini menghasilkan rata-rata Precision sebesar 0.8946, Recall sebesar 0.9405, F-Measure sebesar 0.9155 dan hasil akurasi sebesar 89.57%. Dimana jumlah dokumen, perbandingan atau keseimbangan proporsi data latih dan penentuan nilai k-values yang digunakan berpengaruh terhadap baik atau tidaknya proses klasifikasi terhadap dokumen.