1 ~ evaluasielearning.amikompurwokerto.ac.id/.../0625037702-ti040-3/...pertemuan_3.pdfdalam bahasa...
TRANSCRIPT
Mencari dokumen yang dituliskan dalam
berbagai bahasa
› Menggunakan query yang dituliskan dalam
sebuah bahasa
Always
Siempre
Pengguna internet jumlahnya terus
meningkat dari tahun ke tahun dan tersebar
ke berbagai penjuru dunia
Pengguna internet tidak semuanya
berbahasa Inggris
› Internet tidak lagi monolingual
› Internet berbahasa non-Inggris terus meningkat
› Perubahan profil pengguna internet
Tidak hanya digunakan pada bidang akademik
tetapi juga digunakan secara luas pada bidang
lainnya (hiburan, olah raga, perdagangan, dll)
Monolingual IR› Memperoleh dokumen yang bahasanya sama
dengan query
CLIR› Memperoleh dokumen yang bahasanya
berbeda dengan bahasa pada query
Bila user dapat membaca dalam beberapabahasa› Menghilangkan berbagai query
› Query dapat ditulis dalam bahasa yang paling dikuasai
Cross-language
› Cross-lingual, cross-linguistic
Dokumen multilingual
› Dokumen yang berisi lebih dari satu bahasa
Koleksi multilingual
› Koleksi dari dokumen-dokumen dalam bahasa
yang berbeda-beda
Multilingual system› Sistem yang dapat memperoleh dokumen dari
suatu koleksi multilingual
› Dapat digunakan untuk menjelaskan cross-language system
Query dalam Bahasa Inggris, cari dokumen dalambahasa Inggris atau Perancis
› Juga dapat digunakan untuk sistem pasanganmonolingual
Query dalam Bahasa Inggris, cari dokumen dalambahasa Inggris
Query dalam bahasa Perancis, cari dokumendalam bahasa Perancis
Cross-language system
› Query dalam satu bahasa, cari dokumen dalam
bahasa lain (another language)
Translingual system
› Query dapat menemukan dokumen dalam
bahasa apapun (any languages)
Apa yang perlu diindeks?
› Free text atau controlled vocabulary
Apa yang perlu diterjemahkan?
› Query atau dokumen
Dimana kita bisa mendapatkan knowledge
untuk menerjemahkan?
› Kamus, ontologi, training corpus
Penerjemahan dokumen
› Menerjemahkan dokumen ke dalam bahasa
Query
Tidak praktis
Prosesnya lambat, meskipun hanya perlu
menerjemahkan dokumen sekali
Penerjemahan Query
› Menerjemahkan query ke bahasa dari dokumen
Efisien untuk query yang pendek
Sulit untuk menyelesaikan query yang ambigu
Cross-Language Information (Text)
Retrieval
Query Translation
Controlled Vocabulary
Free Text
Knowledge Based
Ontology Based
Thesaurus Based
Dictionary Based
Corpus Based
Term-aligned
Sentence-aligned
Document-aligned
Parallel Comparable
Unaligned
Document Translation
Text Translation
Vector Translation
Desain vocabulary thesaurus
› Suatu struktur knowledge untuk domain tertentu
› Beri suatu “deskriptor” unik untuk tiap konsep
Indeks dokumen
› Baca dokumen dan beri deskriptor yang sesuai
Retrieval
› Pilih deskriptor yang diinginkan, gunakan exact
match retrieval
Buat dari awal
Terjemahkan thesaurus yang ada
Gabungkan thesaurus monolingual
Pengindeksan berdasarkan konsep yang
berkualitas tinggi
Pelacakan dibimbing oleh suatu knowledge
Hasil retrieval mudah dimengerti
Efektifitas cross-language sangat baik
› Hingga 100% dari efektifitas monolingual
Implementasinya efisien
Biaya pembuatan sangat besar
› Desain struktur knowledge, indeks setiap
dokumen
Biaya pemeliharaan sangat besar
› Pengindeksan dokumen, perubahan struktur
knowledge
Lingkupnya terbatas
› Domain harus dipilih pada saat perancangan
Cross-Language Information (Text)
Retrieval
Query Translation
Controlled Vocabulary
Free Text
Knowledge Based
Ontology Based
Thesaurus Based
Dictionary Based
Corpus Based
Term-aligned
Sentence-aligned
Document-aligned
Parallel Comparable
Unaligned
Document Translation
Text Translation
Vector Translation
Ontologi
› Representasi dari konsep dan hubungannya
Thesaurus
› Ontologi khusus untuk retrieval
Leksikon Dwibahasa
› Ontologi khusus untuk mesin penerjemah
Kamus Dwibahasa
› Ontologi khusus untuk penerjemahan yang
dilakukan manusia
Dokumen
Kata
Inggris
Penerjemahan
Dokumen
Monolingual
Retrieval
Indonesia
Kata Query
Indonesia
• 3: 0.91
• 4: 0.57
• 5: 0.56
Dokumen
Kata
Inggris
Penerjemahan
Query
Monolingual
Retrieval
Inggris
Kata Query
Indonesia
• 3: 0.91
• 4: 0.57
• 5: 0.56
Mesin Penerjemah
Kamus Dwibahasa
1 ~
Me
sin
Pe
ne
rje
ma
hK
ele
bih
an
Ke
terb
ata
san
Dapat digunakan untuk menerjemahkan
query atau dokumen
Kinerja berkisar 60-80% dibandingkan
dengan kinerja monolingual
Dasarnya aturan linguistik, sehingga hasil
akan lebih baik jika ditulis dalam kalimat
dengan tata bahasa yang baik
Biaya pembuatan mesin penerjemah
mahal
Seringkali tidak dapat menerjemahkan
kata gabungan atau proper nouns
2 ~ Kamus Dwibahasa
Berdasarkan kamus cetak dwibahasa
Digunakan untuk menghasilkan daftar kata
dwibahasa
Contoh :
› Collins
› Kamus gratis: www.freedict.com
› Babylon: www.babylon.com
› Linguistic Data Consorsium
› EuroWordNet
Kinerjanya hanya mencapai 50% darimonolingual karena satu kata dapatditerjemahkan ke dalam beberapa kata
Tantangannya memilih terjemahan yang tepat
Arti kata bisa sangat ambigu
Singkatan
Cakupan kamus tidak memenuhi
Kesulitan untuk penerjemahan frasemaupun kata gabungan
Query dari TREC (Bahasa Inggris) No. 22 :
› The effects of chocolate on health
Versi Indonesia :
› Pengaruh permen coklat pada kesehatan
Penerjemahan
› Pengaruh influence
› Permen hard candy, candy
› Coklat brown, chocolate, cocoa
› Kesehatan health
Query dari TREC (Bahasa Inggris) No. 1 :
› Reason for controversy surrounding Waldheim’s
World War II action
Versi Indonesia
› Alasan kontroversi tindakan Waldheim Perang
Dunia II
Indonesia
alasan
kontroversi
tindakan
Waldheim
perang
dunia
II
Inggris
reason, cause
controversy
action, step, measure
Waldheim
war, battle
world, kingdom
II
Tidak dapat menerjemahkan frase jika
kamus tidak berisi frase tersebut
Penggunaan kata yg berbeda di bahasa
lain
› acupuncture (1 kata-Inggris)
› tusuk jarum (2 kata- Indonesia)
› terjemahan kamus :
tusuk – puncture
jarum – a pin, a stick, skewer, sewing, …
Frase merupakan gabungan kata pada
suatu bahasa dapat diterjemahkan menjadi
frasa pada bahasa yang lain
› South Africa (Inggris)
› Sudafrica (Jerman)
Hasil dari query bahasa Inggris yang
diterjemahkan ke bahasa Indonesia adalah
33% lebih buruk dari monolingual
Hasil dari query bahasa Indonesia yang
diterjemahkan ke bahasa Inggris adalah
62% lebih buruk dari monolingual
Batasi terjemahan dengan POS
› kata benda, kata kerja, kata sifat
Hasilnya baik bila kalimat querynya lengkap
› Query pendek tidak memberikan dasar yang
cukup untuk melakukan tagging
› Pencocokan yang dibatasi (jenis katanya)
dapat menurunkan monolingual IR
kata benda pada query bisa merupakan kata
kerja pada dokumen
misal : throw
Cross-Language Information (Text)
Retrieval
Query Translation
Controlled Vocabulary
Free Text
Knowledge Based
Ontology Based
Thesaurus Based
Dictionary Based
Corpus Based
Term-aligned
Sentence-aligned
Document-aligned
Parallel Comparable
Unaligned
Document Translation
Text Translation
Vector Translation
Parallel corpora (korpus paralel) : koleksi
berisi dokumen yang sama dalam
beberapa bahasa
› Misal : korpus UN dalam bahasa Perancis,
Spanyol, dan Inggris
› Pasangan :
pasangan dokumen, pasangan kalimat,
pasangan kata
Comparable corpora (korpus yang
sebanding) : koleksi berisi dokumen dengan
topik atau isinya sama
Unaligned corpora
› Isi dari koleksi dokumennya berasal dari domain
yang sama
Pasangkan dokumen yang berkaitan
melalui deskriptor
› tanggal, kata kunci, kata benda, nama
Buat leksikon dari co-occurrence
› Kata-kata bahasa lain yang menunjuk pada
topik yang sama akan muncul sama-sama
pada tiap dokumen
Korpus paralel biasanya mempunyai
domain yang sama
› Mencari domain yang tepat sangatlah sulit
› Misalnya dokumen PBB yang dituliskan dalam
beberapa bahasa, tetapi topiknya khusus dan
jumlahnya terbatas
Alternatifnya : membuat sendiri
› Mulai dengan korpus monolingual
› Gunakan mesin penerjemah otomatis untuk
bahasa kedua
Alternatif lain : mencari pasangan web
pages di Internet
› Jika jumlahnya memadai, korpus dapat
menghasilkan terjemahan yang baik
Masukan kata query dalam bahasa A
Ambil top dokumen A pada korpus paralel
Buat query dari terjemahannya dalam
bahasa B
Lakukan pelacakan free-text monolingual
Top ranked
French
DocumentsFrench
Text
Retrieval
System
Alta Vista
French
Query
Terms
English
Translations
English
Web
PagesParallel
Corpus
Hitung seberapa seringnya setiap kata
muncul sebagai pasangan› Anggap setiap pasangan sebagai satu dokumen
E1 E2 E3 E4 E5 I1 I2 I3 I4
Doc 1
Doc 2
Doc 3
Doc 4
Doc 5
4 2 2 1
8 4 4 2
2 2 2 1
2 1 2 1
4 1 2 1
Kata Inggris Kata Indonesia
Dok1 dan Dok2 menggunakan pola kata yang mirip› Setelah menghitung jumlah kata tiap dokumen
› Cara kerja vector space retrieval
hitung bobot tiap kata
cosine: normalisasi panjang, hitung inner product
Kata E1 dan E3 digunakan dengan cara yang sama› Kelas E1 & I1 (atau E3 & I4) lebih mirip
perhitungan yang sama menghasilkan term similarity
Dapat dilakukan antar bahasa dan dalam bahasa itusendiri
Dokomen terkait pada domain yang sama
› Tidak diketahui hubungan antara pasangan
dokumen
› Banyak tersedia untuk berbagai aplikasi
Dua pendekatan
› Gunakan kamus untuk penerjemahan awal
Perbaiki menggunakan unaligned bilingual corpus
› Gunakan kamus untuk menemukan pasangan
dalam corpus
Ekstraksi pengetahuan penerjemahan dari
pasangan tersebut