Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia

Husni Thamrin(1*),

(1) Universitas Muhammadiyah Surakarta
(*) Corresponding Author
DOI: https://doi.org/10.23917/khif.v1i1.1174

Abstract

Algoritma similaritas terhadap teks telah diterapkan pada berbagai aplikasi seperti deteksi plagiasi, pengelompokan dokumen, klasifikasi teks berita, mesin penjawab otomatis dan aplikasi penerjemahan bahasa. Beberapa aplikasi telah menunjukkan hasil yang baik. Sayangnya, upaya menerapkan algoritma similaritas semantik belum cukup berhasil terhadap teks bahasa Indonesia karena minimnya koleksi basis pengetahuanbahasa Indonesia, misalnya terkait keberadaan tesaurus atau word net. Penelitian ini berfokus pada upaya menghimpun hiponim dan meronim pada bahasa Indonesia, membangun korpus pasangan kalimat yang direview oleh penutur bahasa untuk menilai tingkat similaritas, dan mencermati efektivitas algoritma similaritas semantik dalam mengukur kemiripan kalimat bahasa Indonesia yang ada dalam korpus. Kemiripan kata diperoleh dari keterkaitan kata dalam bentuk sinonim, hiponim dan meronim sebagai basis pengetahuan. Penelitian ini menunjukkan bahwa penggunaan basis pengetahuan tersebut meningkatkan skor similaritas kalimat yang mengandung kata-kata yang berkaitan secara leksikal. Pada penelitian ini dihitung korelasi antara skor similaritas hasil perhitungan algoritma dengan skor kemiripan kalimat sebagaimana dipersepsikan oleh penutur bahasa. Tiga macam algoritma perhitungan telah diujicoba. Perhitungan similaritas menggunakan persentase jumlah kemunculan kata yang sama memberikan angka korelasi sebesar 0,7128. Angka korelasi untuk perhitungan similaritas menggunakan fungsi kosinus adalah sebesar 0,7408. Sedangkan perhitungan similaritas menggunakan algoritma semantik yang memperhatikan keterkaitan kata memberikan tingkat korelasi tertinggi sebesar 0,7508.

Full Text:

PDF

References

A. Islam and D. Inkpen, “Semantic text similarity using corpus-based word similarity and string similarity,” ACM Trans. Knowl. Discov. from Data, vol. 2, no. 2, p. 10, 2008.

E. D. Ochoa, “An Analysis of the Application of Selected Search Engine Optimization (SEO) Techniques and Their Effectiveness on Google’s Search Ranking Algorithm,” California State University, Northbridge, 2012.

K. W. Boyack, D. Newman, R. J. Duhon, R. Klavans, M. Patek, J. R. Biberstine, B. Schijvenaars, A. Skupin, N. Ma, and K. Börner, “Clustering more than two million biomedical publications: Comparing the accuracies of nine text-based similarity approaches,” PLoS One, vol. 6, no. 3, p. e18029, 2011.

Z. Sun, M. Errami, T. Long, C. Renard, N. Choradia, and H. Garner, “Systematic characterizations of text similarity in full text biomedical publications,” PLoS One, vol. 5, no. 9, p. e12704, 2010.

J. Malcolm and P. C. R. Lane, “Efficient search for plagiarism on the web,” Kuwait, 2008.

R. Mihalcea, C. Corley, and C. Strapparava, “Corpus-based and knowledge-based measures of text semantic similarity,” in AAAI, 2006, vol. 6, pp. 775–780.

J. Asian, H. E. Williams, and S. M. M. Tahaghoghi, “A Testbed for Indonesian Text Retrieval Jelita Asian,” in Proceedings of the 9th Australasian Document Computing Symposium, 2004, no. June, pp. 2–5.

J. Bao, C. Lyon, P. C. R. Lane, W. Ji, and J. Malcolm, “Comparing different text similarity methods,” 2007.

H. Thamrin, “Pengembangan Sistem Penilaian Otomatis Terhadap Jawaban Soal Pendek dan Terbuka dalam Evaluasi Belajar Online Berbahasa Indonesia,” 2013.

H. Thamrin and A. Sabardila, “Using Dictionary as a Knowledge Base for Clustering Short Texts in Bahasa Indonesia,” in International Conference on Data and Software Engineering, 2014.

H. Thamrin and A. Sabardila, “Utilizing Lexical Relationship in Term-Based Similarity Measure Improves Indonesian Short Text Classification,” ARPN J. Eng. Appl. Sci., 2015.

H. Liu and P. Wang, “Assessing sentence similarity using wordnet based word similarity,” J. Softw., vol. 8, no. 6, pp. 1451–1458, 2013.

M. E. Lesk, “Automatic Sense Disambiguation Using Machine Readable Dictionaries: How to Tell a Pine Cone from an Ice Cream Cone,” in Proceedings of SIGDOC Conference, 1986.

C. Leacock and M. Chodorow, “Combining local context and WordNet similarity for word sense identification,” in WordNet, An Electronic Lexical Database, The MIT Press, 1998.

Z. Wu and M. Palmer, “Verb Semantics and Lexical Selection,” in Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics, 1994.

I. Islam, E. Milios, and V. Keselj, “Text Similarity Using Google Tri-Grams,” in 25th Canadian Conference on Advances in Artificial Intelligence, 2012, pp. 312–317.

H. Thamrin and J. Wantoro, “An Attempt to Create an Automatic Scoring Tool of Short Text Answer in Bahasa Indonesia,” in Proceeding of International Conference on Electrical Engineering, Computer Science and Informatics (EECSI 2014), 2014.

Y. Li, D. McLean, Z. Bandar, J. D. O’shea, K. Crockett, and others, “Sentence similarity based on semantic nets and corpus statistics,” Knowl. Data Eng. IEEE Trans., vol. 18, no. 8, pp. 1138–1150, 2006.

Article Metrics

Abstract view(s): 2017 time(s)
PDF: 982 time(s)

Refbacks

  • There are currently no refbacks.