Efek Penggunaan Keterkaitan Kata pada Algoritma Similaritas Semantik Terhadap Kinerja Proses Klasifikasi Teks dengan K-Nearest Neighbour

Husni Thamrin(1*)

(1) Teknik Informatika Universitas Muhammadiyah Surakarta
(*) Corresponding Author

Abstract

Klasifikasi teks merupakan proses untuk mengelompokkan dokumen teks ke kelas-kelas yang telah ada. Metode k-nearest neighbour dapat digunakan dalam proses klasifikasi teks yang mengandalkan hasil perhitungan  similaritas semantik untuk menentukan skor jarak/kedekatan antar dokumen teks. Perhitungan similaritas
dua dokumen tidak hanya dipengaruhi oleh kesamaan kata-kata yang terkandung dalam dokumen, namun dipengaruhi juga oleh faktor keterkaitan kata di antara kedua dokumen. Tulisan ini membandingkan kinerja proses klasifikasi yang menerapkan fungsi kosinus tanpa memperhitungkan keterkaitan kata dan fungsi Dice yang memperhitungkan keterkaitan kata dengan Google bi-gram. Metode klasifikasi yang diuji adalah k-nearest neighbour. Hasil pengamatan menunjukkan bahwa penambahan faktor Google bi-gram pada fungsi Dice meningkatkan skor similaritas dua dokumen dan meningkatkan kinerja proses klasifikasi. Algoritma tanpa penambahan keterkaitan kata menghasilkan nilai F-Measure sebesar 0.648, sedangkan dengan penambahan
faktor keterkaitan kata diperoleh F-Measuer sebesar 0.759.

Full Text:

PDF

References

Aggarwal, C. C., dan Zhai, C. 2012. “A survey of text classification algorithms,” dalam Mining Text Data. hal. 163-222. Springer US.

Davies, M. 2011. N-grams data from the Corpus of Contemporary American English (COCA). Diunduh dari http://www.ngrams.info pada 14 Agustus 2014.

Hamzah, A., Soesianto, F., Susanto, A., Istiyanto, J.E., 2008. “Studi Kinerja Fungsi-Fungsi Jarak dan Similaritas dalam Clustering Dokumen Teks Berbahasa Indonesia,” dalam Prosiding Seminar Nasional Informatika 2008 (semnasIF 2008), Yogyakarta.

Islam, I., Milios, E., Keselj, V. 2012. “Text Similarity using Google Tri-Grams,” dalam 25th Canadian Conference on Advances in Artificial Intelligence, Mei 28-30, hal. 312-317.

Leacock, C. dan Chodorow, M., 1998. “Combining Local Context and WordNet Sense Similiarity for Word Sense Disambiguation,” dalam WordNet, An Electronic Lexical Database, The MIT Press.

Lesk, M.E., 1986. “Automatic Sense Disambiguation Using Machine Readable Dictionaries: How to tell a Pine Cone from an Ice Cream Cone,” dalam Proceedings of the SIGDOC Conference 1986, Toronto, Juni.

Manning, C. D., Raghavan, P., Schütze, H. 2009. Introduction to Information Retrieval. Cambridge University Press.

Sentosa, Budi. 2007. Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis. Graha Ilmu. Surabaya.

Sokolova, M., & Lapalme, G. 2009. A systematic analysis of performance measures for classification tasks, dalam Information Processing and Management 45, hal. 427-437.

Thamrin, H., Wantoro, J. 2014. “An Attempt to Create an Automatic Scoring Tool of Short Text Answer in Bahasa Indonesia” dalam Proceeding of International Conference on Electrical Engineering, Computer Science and Informatics (EECSI 2014), Yogyakarta, Indonesia, hal. 96-98.

Wu, Z. dan Palmer, M., 1994. “Verb Semantics and Lexical Selection.” dalam Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics, Las Cruces, New Mexico.

Yazdani, M., dan Popescu-Belis, A., 2012. “Computing text semantic relatedness using the contents and links of a hypertext encyclopedia,” dalam Artificial Intelligence.

Article Metrics

Abstract view(s): 328 time(s)
PDF: 244 time(s)

Refbacks

  • There are currently no refbacks.