10738863_10203326439670588_1636313827_n

22
PENERJEMAH BAHASA BALI MADYA KE BAHASA INGGRIS DENGAN NATURAL LANGUAGE PROCESSING (NLP) I K. Surya Negara 1108605055

Upload: agus-oka-gunawan

Post on 30-Jan-2016

212 views

Category:

Documents


0 download

DESCRIPTION

d

TRANSCRIPT

Page 1: 10738863_10203326439670588_1636313827_n

PENERJEMAH BAHASA BALI MADYA KE BAHASA INGGRIS DENGAN NATURAL LANGUAGE PROCESSING (NLP)

I K. Surya Negara

1108605055

Page 2: 10738863_10203326439670588_1636313827_n

LATAR BELAKANG

• Bahasa sebagai alat komunikasi antar mahluk

• Di Indonesia, banyak suku, bahasa dan kebudayaan

• Bali merupakan destinasi wisata mancanegara

• Bahasa bali merupakan bahasa ibu masyarakat bali

• Dibutuhkan penerjemah bahasa bali – bahasa inggris yang baik

Page 3: 10738863_10203326439670588_1636313827_n

Rumusan Masalah

• Mengetahui sinonim kata maupun frasa kedua bahasa

• Tata aturan bahasa target agar sesuai dengan bahasa sumber

Page 4: 10738863_10203326439670588_1636313827_n

Tujuan

• Membangun penerjemah mesin statistic bahasa bali ke bahasa inggris

• Mengetahui kualitas Statistical Machine Translation sebagai penerjemah bahasa pada NLP

• Mengetahui pengaruh N-Gram pada Language Model

Page 5: 10738863_10203326439670588_1636313827_n

Manfaat

• Melestarikan bahasa bali sebagai kebudayaan Indonesia

• Penulis dapat mengetahui rancangan penerjemah bahasa dengan NLP

• Dapat mengetahui penerapan NLP dalam sistem penerjemah

Page 6: 10738863_10203326439670588_1636313827_n

Natural Language Processing (NLP)

• Kemampuan computer untuk melakukan proses bahasa

• agar dapat interaksi antara manusia dan computer dengan bahasa.

• Sebuah sistem harus mengetahui pengetahuan dari bahasa

Page 7: 10738863_10203326439670588_1636313827_n

Bidang pengetahuan NLP

• Fonetik/fonologi

• Morfologi

• Sintaksis

• Semantik

• Pragmatik

• Discourse knowledge

• Word knowledge

Page 8: 10738863_10203326439670588_1636313827_n

Machine Translation

• Salah satu penerapan NLP

• Penerjemah otomatis pada teks dari bahasa sumber ke bahasa target

Page 9: 10738863_10203326439670588_1636313827_n

Pendekatan Machine Translation

• Rule-based MT

• Example-based MT

• Statistical Machine Translation (SMT)

Page 10: 10738863_10203326439670588_1636313827_n

Statistical Machine Translation (SMT)

• Mesin penerjemah yang menggunakan pendekatan statistik

• Model translasi dihasilkan dari teks parallel corpora

• Penerjemah menghasilkan e dalam hasil terjemahan jika diberikan f dalam bahasa sumber

Page 11: 10738863_10203326439670588_1636313827_n

Keunggulan SMT

• Tidak diperlukan pengetahuan bahasa mendalam

• Tidak dirancang secara khusus untuk pasangan bahasa tertentu

• Rule-based MT memerlukan pengembangan aturan bahasa secara manual, sehingga tidak bias digunakan pada pasangan bahasa lain

• Banyak tersedia dokumen elektronik yang digunakan sebagai teks corpus

Page 12: 10738863_10203326439670588_1636313827_n

Komponen SMT

• Language model

• Translation model

• Decoder

Page 13: 10738863_10203326439670588_1636313827_n

Language Model

• Elemen kuncinya adalah propabilitas rangkaian kata-kata 𝑃 (𝑤1, 𝑤2, … , 𝑤𝑛) atau singkatnya 𝑃 (𝑤1,𝑛)

• Pendekatan Language Model adalah n-gram model

• Beberapa contoh model bahasa n-gram adalah:

Unigram (1-gram) :

Bigram (2-gram) :

Trigram (3-gram) :

Page 14: 10738863_10203326439670588_1636313827_n

Translation Model

• Terdapat dua model translation :

Word-based translation

Phrased based translation

Page 15: 10738863_10203326439670588_1636313827_n

Word-based translationPhrased based translation

Page 16: 10738863_10203326439670588_1636313827_n

Simbol P(f|e) keterangan• = distribusi propabilitas

• = distance-based

reordering

Page 17: 10738863_10203326439670588_1636313827_n

Decoder

• Fungsinya mencari teks propabilitas paling besar dengan pertinbangan language model dan translation model

• mencari nilai propabilitas e yang terbesar

Page 18: 10738863_10203326439670588_1636313827_n

Automatic Evaluation

• Akurasi dan kualitas dari SMT ditentukan dari hasil terjemahan yang dihasilkan

• IBM memperkenalkan evaluasi otomatis bernama BLEU (Bilingual Evaluation Understudy)

Page 19: 10738863_10203326439670588_1636313827_n

Cont…

• BP = brevity penalty

• C = jumlah kata dari hasil terjemahan otomatis

• r = jumlah kata dari rujukan

• Pn = precision score

• Nilai wn adalah 1/N. Standar nilai N untuk BLEU adalah 4, karena nilai presisi BLEU pada umumnya dihitung sampai 4-gram saja. Pada penelitian ini BLEU dihitung sampai 4-gram.

Page 20: 10738863_10203326439670588_1636313827_n

Desain Penelitian

• Penulis mengumpulkan dataset korpus bahasa bali dan bahasa inggris yang berasal dari cerita dan pidato bahasa bali

• Akan dilakukan pengaturan ulang urutan kata dan frase, language modeling, translation modeling, dan decoding

Page 21: 10738863_10203326439670588_1636313827_n

Pengumpulan Data

• Mengumpulkan data dokumen teks cerita dan pidato bahasa bali serta terjemahannya dalam bahasa inggris.

• Dokumen ini akan didapat dari dosen sastra bali dan sastra inggris

• Penelitian ini dibatasi hanya 10000 – 12000 kata

• Penggunaan bahasa bali adalah menggunakan bahasa bali madya atau bahasa bali umum

Page 22: 10738863_10203326439670588_1636313827_n

Sekian dan Terima Kasih