Named Entity Recognition (NER) Pada Dokumen Biologi Menggunakan Rule Based dan Naive Bayes Classifier
Kata Kunci:
named entity recognition, NER, rule based, naïve bayes classifier, biologi sel.Abstrak
Named Entity Recognition (NER) berguna untuk membantu mengidentifikasi dan mendeteksi entitas dari suatu kata. Bidang biomedis memiliki banyak pustaka sehingga NER sangat dituntut dalam domain biomedis. Karena biomedis memiliki skala yang luas, penelitian hanya akan berfokus pada dokumen biologi sel. Rule based adalah metode yang aturan dalam sistem dibuat sendiri berdasarkan pengetahuan linguistik. Naive Bayes Classifier (NBC) merupakan jenis klasifikasi statistik dengan teori utamanya adalah memprediksi probabilitas keanggotaan kelas. Penelitian ini akan menggunakan rule based dan NBC untuk NER dalam dokumen biologi sel. Dengan 19 dokumen latih diproses dan dianotasi manual untuk mencari Named Entity (NE) dan didapat 1135 data latih berbentuk kata. Dokumen uji ditokenisasi dan diberi POS Tag oleh tagger site terlebih dulu yang kemudian di cari bigram dan trigram. Selanjutnya proses rule based, jika dalam rule based tidak ditemukan solusi, maka akan masuk pada proses ekstraksi fitur dan NBC. Menggunakan 16 NE class, 18 aturan, dan 7 fitur dilakukan pengujian dengan tiga skenario yaitu pengujian rule based, NBC, dan kombinasi keduanya. Didapatkan rata-rata precision, recall dan f-measure tertinggi pada rule based yaitu 0,85 dengan micro average. Dengan macro average recall dan f-measure tertinggi didapatkan kombinasi yaitu 0,66 dan 0,45, sedangkan precision tertinggi didapatkan rule based yaitu 0,39.