Penerapan Klasifikasi Tweets pada Berita Twitter Menggunakan Metode K-Nearest Neighbor dan Query Expansion Berbasis Distributional Semantic
Kata Kunci:
twitter, tweet, ekspansi kata, distributional semantic, euclidean distance, klasifikasi, k-nearest neighborAbstrak
Penggunaan teks pendek berbasis digital sampai saat ini masih berkembang dan meluas hingga diberbagai media sosial. Media sosial Twitter memiliki fitur kategori jenis informasi melalui tweets yang di unggah. Setiap pengelompokan jenis informasi dilakukan agar mempermudah pengguna untuk memanfaatkannya. Tujuan dari penggunaan kategori dalam hal ini klasifikasi, untuk meningkatkan kualitas media sosial dalam pengelompokan kategori isi dari konten yang disediakan. Klasifikasi tradisional sampai saat ini masih digunakan, namun hasil yang diperoleh terkadang tidak maksimal, perlu dilakukan ekspansi kata untuk menambahkan kata kedalam teks agar dapat meningkatkan akurasi. Ekspansi kata digunakan dengan berbasis distributional semantic dengan teknik Euclidean distance untuk menemukan kata terdekat dari sumber eksternal agar menjadi kueri yang akan ditambahkan ke teks data uji. Dengan menggunakan data uji 105 dan data latih 400, klasifikasi yang menggunakan K-Nearest Neighbor dapat memperoleh hasil 90% dengan tetangga terdekat K=5. Hasil tersebut sama halnya dengan hasil pengujian yang dilakukan dengan tanpa menggunakan teknik ekspansi kata. Sedangkan pengujian yang dilakukan dengan menambahkan ekspansi kata dengan threshold 0,5 dan nilai tertangga terdekat K-Nearest Neighbor K=5 memperoleh hasil akurasi 92%.