Meningkatkan Peran Model Bahasa dalam Mesin Penerjemah Statistik (Studi Kasus Bahasa Indonesia-Dayak Kanayatn)

Herry Sujaini

DOI: https://doi.org/10.23917/khif.v3i2.4398

Abstract

Sistem terjemahan mesin berbasis statistik menggunakan kombinasi satu atau lebih model terjemahan dan model bahasa. Meskipun ada banyak penelitian yang membahas peningkatan model terjemahan, masalah mengoptimalkan model bahasa untuk tugas penerjemahan tertentu belum banyak mendapat perhatian. Biasanya, model trigram digunakan sebagai model bahasa standar dalam sistem terjemahan mesin statistik. Dalam tulisan ini kami menerapkan 4 strategi eksperimen untuk melihat peran model bahasa yang digunakan dalam mesin terjemahan Indonesia-Dayak Kanayatn dan menunjukkan perbaikan pada sistem baseline dengan model bahasa standar.

Keywords

terjemahan mesin, model bahasa, Indonesia-Dayak Kanayatn

References

T. McEnery, Corpus-Based Language Studies: An

Advanced Resource, 2006.

K. Kirchhoff dan M. Yang, “Improved Language

Modeling for Statistical Machine T ranslation,”

dalam Proceedings of the ACL Workshop on Building and

Using Parallel Texts, Michigan, 2005.

H. Sujaini dan B. P. Arif, “Strategi Memperbaiki

Kualitas Korpus untuk Meningkatkan Kualitas

Mesin Penerjemah Statistik,” dalam Seminar Nasional

Teknologi Informasi XI, Jakarta, 2014.

S. Mandira, H. Sujaini dan B. P. Arif, “Perbaikan

Probabilitas Lexical Model untuk Meningkatkan

Akurasi Mesin Penerjemah Statistik”, Jurnal Edukasi

dan Penelitian Informatika (JEPIN), Vol. 2, No. 1,

Y. Jarob, H. Sujaini dan N. Safriadi, “Uji Akurasi

Penerjemahan Bahasa Indonesia – Dayak Taman

dengan Penandaan Kata Dasar dan Imbuhan”,

Jurnal Edukasi dan Penelitian Informatika (JEPIN), Vol.

, No. 2, 2016.

R.A. Nugroho , T.B. Adji, dan B.S. Hantono,

Penerjemahan Bahasa Indonesia dan Bahasa Jawa

Menggunakan Metode Statistik Berbasis Frasa, dalam

Seminar Nasional Teknologi Informasi dan Komunikasi

(SENTIKA 2015), Yogyakarta, 2015.

Y. Zhang, A. S. Hildebrand dan S. Voge, “Distributed

language modeling for n-best list,” dalam Proceedings

of EMNLP-2006, Sydney, 2006.

A. Emami, K. Papineni dan J. Sorensen, “Large-scale

distributed language modeling,” dalam Proceedings of

ICASSP-2007, Honolulu, 2007.

M. Mohaghegh, A. Sarrafzadeh dan T. Moir,

“Improved Language Modeling for English-Persian

Statistical Machine,” dalam SSST-4, Fourth Workshop

on Syntax and Structure in Statistical Translation, Beijing,

Article Level Metrics

Refbacks

  • There are currently no refbacks.