Pengelompokan Topik Skripsi Mahasiswa Fakultas Ilmu Komputer Universitas Brawijaya berdasarkan Judul pada Periode 2015-2019 menggunakan Metode Semi Supervised K-Means
Kata Kunci:
semi supervised k-means, text mining, clustering, judul skripsiAbstrak
Judul skripsi merupakan sebuah kalimat yang secara singkat menyampaikan sebagian isi dalam skripsi itu sendiri. Pada setiap tahun penelitian atau tugas akhir selalu bertambah, dari sekian banyaknya judul yang digunakan sebagai skripsi memungkinkan topik yang dibahas hampir sama atau bahkan sama. Berdasarkan hal tersebut, pada penelitian ini melakukan pengelompokan judul skripsi yang diimplementasikan pada sebuah program. Hasil pengelompokan judul ditampilkan per-tahun (2015 sampai 2019) dalam bentuk bar chart kemudian akan terlihat banyaknya kelompok data berdasarkan topik atau kategori yang sudah ditentukan. Melakukan ekstraksi pada kumpulan judul skripsi dengan menggunakan alur dari text mining yang akan digunakan sebagai dataset. Kemudian dataset tersebut dikelompokkan menggunakan metode semi supervised k-means, metode tersebut pengembangan dari k-means. Setelah itu kumpulan judul skripsi dilakukan preprocessing dengan metode text mining di dalamnya terdapat beberapa tahap, yakni tokenisasi, filtering, stemming, term weighting. Tahap awal metode semi supervised k-means yaitu dengan melakukan pelabelan pada beberapa dataset untuk menentukan centroid awal, setelah itu dilakukan proses pengelompokan data. Berdasarkan hasil pengujian yang dilakukan dengan menggunakan jumlah data uji yang bervariasi pada setiap tahun. Dari hasil pengujian pada setiap tahun (2015 sampai 2019) nilai silhoutte berbeda-beda dan silhoutte terbesar terdapat pada tahun 2016 menggunakan jumlah data uji 30% dengan silhoutte sebesar 0,0274024334, sedangkan nilai Davies Bouldin Index (DBI) optimal pada pengujian 30% data uji di tahun 2015 sebesar 0,345362812. Hasil pengelompokkan dengan jumlah data latih sama pada tiap label juga memiliiki nilai silhoutte lebih baik dari pada jumlah data latih pada tiap label tidak sama.