Implementasi Part of Speech Tagging menggunakan Library Polyglot pada Logbook KKN Mahasiswa FILKOM Universitas Brawijaya
Kata Kunci:
Part of Speech Tagging, polyglot nlp, confusion matrixAbstrak
Kuliah Kerja Nyata (KKN) yang dilaksanakan di Fakultas Ilmu Komputer (FILKOM) dilakukan Salah satu bentuk kegiatan belajar di luar Perguruan Tinggi adalah Pengabdian Kepada Masyarakat/Kuliah Kerja Nyata Tematik (KKNT). Pengabdian Kepada Masyarakat/Kuliah Kerja Nyata (KKN) memiliki banyak kegiatan dan rangkaian acara serta program yang direncanakan untuk membantu masyarakat desa/daerah. Mahasiswa diwajibkan menuliskan logbook yang berisi tentang laporan aktivitas yang telah dilakukan oleh mahasiswa dalam hari-hari KKN. Berbagai macam kata pada data logbook KKN mahasiswa dapat dilakukannya klafisikasi kelas kata untuk membedakan arti dari kalimat atau paragraf yang tertulis dengan cara Part of Speech Tagging. Part of Speech (POS) Tagging adalah klasifikasi kelas kata secara otomatis pada suatu kalimat atau paragraf, sehingga hasilnya berfungsi untuk membedakan kata dengan susunan huruf yang sama tetapi memiliki arti yang berbeda. Terdapat tahapan yang dilakukan yaitu preprocessing yang dilakukan secara manual untuk menghilangkan html tag dan link. Perhitungan menggunakan confusion matrix. Berdasarkan hasil yang di dapat dari part of speech tagging logbook KKN mahasiswa Fakultas Ilmu Komputer dengan 499 kata dapat diidentifikasi dengan benar sesuai dengan kelas aktual dan 563 kata tidak diindentifikasi dengan benar dari total 40 data uraian logbook KKN yang digunakan. Berdasarkan hasil pengujian accuracy mendapatkan nilai sebesar 59%, precision mendapatkan nilai 47%, recall dengan nilai 74% dan F1 Score mendapatkan nilai 57%.
Referensi
Beeza-Yates;, R., & Riberio-Neto;, B. (2011). Modern Informations retrieval(2nd ed). ACM Books Press.
Deolika, A., Kusrini, K. dan Luthfi, E.T., 2019. Analisis Pembobotan Kata Pada Klasifikasi Text Mining. Jurnal Teknologi Informasi, 3(2), pp.179–184.
Even, Y. Z. (2002). Introduction to Text Mining. National Center for Supercomputing Applications University of Illinois.
Feldman, R. dan James, S. (2007). The Text Mining Handbook. New York: Cambridge.
Firmansyah, I., Adikara, P. P., & Adinugroho, S. (2021). Klasifikasi Kelas Kata (Part-Of-Speech Tagging) untuk Bahasa Madura Menggunakan Algoritme Viterbi. Jurnal Teknologi Informasi dan Ilmu Komputer, 8(5). https://doi.org/10.25126/jtiik.2021854483
Heydarian, M., Doyle, T. E., & Samavi, R. (2022). MLCM: Multi-Label Confusion Matrix. IEEE Access, 10. https://doi.org/10.1109/ACCESS.2022.3151048
Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval.
Negara, A. B. P., Muhardi, H., & Muniyati, E. F. (2020). Prediksi Jeda dalam Ucapan Kalimat Bahasa Melayu Pontianak Menggunakan Hidden Markov Model Berbasis Part of Speech. Jurnal Teknologi Informasi dan Ilmu Komputer, 7(4). https://doi.org/10.25126/jtiik.2020742166
Nindian Puspa Dewi. dan Ubaidi. (2019). Pos Tagging Bahasa Madura Dengan Menggunakan Algoritma Brill Tagger.
NLP Server. 2018. Retrieved from Github: https://https://github.com/web64/nlpserver
Polyglot. 2014. Retrieved from Polyglot: https://polyglot.readthedocs.io/en/latest/index.html
Rami Al-Rfou’, Bryan Perozzi, and Steven Skiena. 2013. Polyglot: Distributed Word Representations for Multilingual NLP. In Proceedings of the Seventeenth Conference on Computational Natural Language Learning, pages 183–192, Sofia, Bulgaria. Association for Computational Linguistics.
Xu, J., Zhang, Y., & Miao, D. (2020). Three-way confusion matrix for classification: A measure driven view. Information Sciences, 507. https://doi.org/10.1016/j.ins.2019.06.064
Beeza-Yates;, R., & Riberio-Neto;, B. (2011). Modern Informations retrieval(2nd ed). ACM Books Press.
Deolika, A., Kusrini, K. dan Luthfi, E.T., 2019. Analisis Pembobotan Kata Pada Klasifikasi Text Mining. Jurnal Teknologi Informasi, 3(2), pp.179–184.
Even, Y. Z. (2002). Introduction to Text Mining. National Center for Supercomputing Applications University of Illinois.
Feldman, R. dan James, S. (2007). The Text Mining Handbook. New York: Cambridge.
Firmansyah, I., Adikara, P. P., & Adinugroho, S. (2021). Klasifikasi Kelas Kata (Part-Of-Speech Tagging) untuk Bahasa Madura Menggunakan Algoritme Viterbi. Jurnal Teknologi Informasi dan Ilmu Komputer, 8(5). https://doi.org/10.25126/jtiik.2021854483
Heydarian, M., Doyle, T. E., & Samavi, R. (2022). MLCM: Multi-Label Confusion Matrix. IEEE Access, 10. https://doi.org/10.1109/ACCESS.2022.3151048
Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval.
Negara, A. B. P., Muhardi, H., & Muniyati, E. F. (2020). Prediksi Jeda dalam Ucapan Kalimat Bahasa Melayu Pontianak Menggunakan Hidden Markov Model Berbasis Part of Speech. Jurnal Teknologi Informasi dan Ilmu Komputer, 7(4). https://doi.org/10.25126/jtiik.2020742166
Nindian Puspa Dewi. dan Ubaidi. (2019). Pos Tagging Bahasa Madura Dengan Menggunakan Algoritma Brill Tagger.
NLP Server. 2018. Retrieved from Github: https://https://github.com/web64/nlpserver
Polyglot. 2014. Retrieved from Polyglot: https://polyglot.readthedocs.io/en/latest/index.html
Rami Al-Rfou’, Bryan Perozzi, and Steven Skiena. 2013. Polyglot: Distributed Word Representations for Multilingual NLP. In Proceedings of the Seventeenth Conference on Computational Natural Language Learning, pages 183–192, Sofia, Bulgaria. Association for Computational Linguistics.
Xu, J., Zhang, Y., & Miao, D. (2020). Three-way confusion matrix for classification: A measure driven view. Information Sciences, 507. https://doi.org/10.1016/j.ins.2019.06.064
Diterbitkan
Cara Mengutip
Terbitan
Bagian
Lisensi
Hak Cipta (c) 2023 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Artikel ini berlisensiCreative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.