10738863_10203326439670588_1636313827_n
DESCRIPTION
dTRANSCRIPT
PENERJEMAH BAHASA BALI MADYA KE BAHASA INGGRIS DENGAN NATURAL LANGUAGE PROCESSING (NLP)
I K. Surya Negara
1108605055
LATAR BELAKANG
• Bahasa sebagai alat komunikasi antar mahluk
• Di Indonesia, banyak suku, bahasa dan kebudayaan
• Bali merupakan destinasi wisata mancanegara
• Bahasa bali merupakan bahasa ibu masyarakat bali
• Dibutuhkan penerjemah bahasa bali – bahasa inggris yang baik
Rumusan Masalah
• Mengetahui sinonim kata maupun frasa kedua bahasa
• Tata aturan bahasa target agar sesuai dengan bahasa sumber
Tujuan
• Membangun penerjemah mesin statistic bahasa bali ke bahasa inggris
• Mengetahui kualitas Statistical Machine Translation sebagai penerjemah bahasa pada NLP
• Mengetahui pengaruh N-Gram pada Language Model
Manfaat
• Melestarikan bahasa bali sebagai kebudayaan Indonesia
• Penulis dapat mengetahui rancangan penerjemah bahasa dengan NLP
• Dapat mengetahui penerapan NLP dalam sistem penerjemah
Natural Language Processing (NLP)
• Kemampuan computer untuk melakukan proses bahasa
• agar dapat interaksi antara manusia dan computer dengan bahasa.
• Sebuah sistem harus mengetahui pengetahuan dari bahasa
Bidang pengetahuan NLP
• Fonetik/fonologi
• Morfologi
• Sintaksis
• Semantik
• Pragmatik
• Discourse knowledge
• Word knowledge
Machine Translation
• Salah satu penerapan NLP
• Penerjemah otomatis pada teks dari bahasa sumber ke bahasa target
Pendekatan Machine Translation
• Rule-based MT
• Example-based MT
• Statistical Machine Translation (SMT)
Statistical Machine Translation (SMT)
• Mesin penerjemah yang menggunakan pendekatan statistik
• Model translasi dihasilkan dari teks parallel corpora
• Penerjemah menghasilkan e dalam hasil terjemahan jika diberikan f dalam bahasa sumber
Keunggulan SMT
• Tidak diperlukan pengetahuan bahasa mendalam
• Tidak dirancang secara khusus untuk pasangan bahasa tertentu
• Rule-based MT memerlukan pengembangan aturan bahasa secara manual, sehingga tidak bias digunakan pada pasangan bahasa lain
• Banyak tersedia dokumen elektronik yang digunakan sebagai teks corpus
Komponen SMT
• Language model
• Translation model
• Decoder
Language Model
• Elemen kuncinya adalah propabilitas rangkaian kata-kata 𝑃 (𝑤1, 𝑤2, … , 𝑤𝑛) atau singkatnya 𝑃 (𝑤1,𝑛)
• Pendekatan Language Model adalah n-gram model
• Beberapa contoh model bahasa n-gram adalah:
Unigram (1-gram) :
Bigram (2-gram) :
Trigram (3-gram) :
Translation Model
• Terdapat dua model translation :
Word-based translation
Phrased based translation
Word-based translationPhrased based translation
Simbol P(f|e) keterangan• = distribusi propabilitas
• = distance-based
reordering
Decoder
• Fungsinya mencari teks propabilitas paling besar dengan pertinbangan language model dan translation model
• mencari nilai propabilitas e yang terbesar
Automatic Evaluation
• Akurasi dan kualitas dari SMT ditentukan dari hasil terjemahan yang dihasilkan
• IBM memperkenalkan evaluasi otomatis bernama BLEU (Bilingual Evaluation Understudy)
Cont…
• BP = brevity penalty
• C = jumlah kata dari hasil terjemahan otomatis
• r = jumlah kata dari rujukan
• Pn = precision score
• Nilai wn adalah 1/N. Standar nilai N untuk BLEU adalah 4, karena nilai presisi BLEU pada umumnya dihitung sampai 4-gram saja. Pada penelitian ini BLEU dihitung sampai 4-gram.
Desain Penelitian
• Penulis mengumpulkan dataset korpus bahasa bali dan bahasa inggris yang berasal dari cerita dan pidato bahasa bali
• Akan dilakukan pengaturan ulang urutan kata dan frase, language modeling, translation modeling, dan decoding
Pengumpulan Data
• Mengumpulkan data dokumen teks cerita dan pidato bahasa bali serta terjemahannya dalam bahasa inggris.
• Dokumen ini akan didapat dari dosen sastra bali dan sastra inggris
• Penelitian ini dibatasi hanya 10000 – 12000 kata
• Penggunaan bahasa bali adalah menggunakan bahasa bali madya atau bahasa bali umum
Sekian dan Terima Kasih