1 ~ evaluasielearning.amikompurwokerto.ac.id/.../0625037702-ti040-3/...pertemuan_3.pdfdalam bahasa...

Post on 16-Jul-2019

248 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Mencari dokumen yang dituliskan dalam

berbagai bahasa

› Menggunakan query yang dituliskan dalam

sebuah bahasa

Always

Siempre

Pengguna internet jumlahnya terus

meningkat dari tahun ke tahun dan tersebar

ke berbagai penjuru dunia

Pengguna internet tidak semuanya

berbahasa Inggris

› Internet tidak lagi monolingual

› Internet berbahasa non-Inggris terus meningkat

› Perubahan profil pengguna internet

Tidak hanya digunakan pada bidang akademik

tetapi juga digunakan secara luas pada bidang

lainnya (hiburan, olah raga, perdagangan, dll)

Monolingual IR› Memperoleh dokumen yang bahasanya sama

dengan query

CLIR› Memperoleh dokumen yang bahasanya

berbeda dengan bahasa pada query

Bila user dapat membaca dalam beberapabahasa› Menghilangkan berbagai query

› Query dapat ditulis dalam bahasa yang paling dikuasai

Cross-language

› Cross-lingual, cross-linguistic

Dokumen multilingual

› Dokumen yang berisi lebih dari satu bahasa

Koleksi multilingual

› Koleksi dari dokumen-dokumen dalam bahasa

yang berbeda-beda

Multilingual system› Sistem yang dapat memperoleh dokumen dari

suatu koleksi multilingual

› Dapat digunakan untuk menjelaskan cross-language system

Query dalam Bahasa Inggris, cari dokumen dalambahasa Inggris atau Perancis

› Juga dapat digunakan untuk sistem pasanganmonolingual

Query dalam Bahasa Inggris, cari dokumen dalambahasa Inggris

Query dalam bahasa Perancis, cari dokumendalam bahasa Perancis

Cross-language system

› Query dalam satu bahasa, cari dokumen dalam

bahasa lain (another language)

Translingual system

› Query dapat menemukan dokumen dalam

bahasa apapun (any languages)

Apa yang perlu diindeks?

› Free text atau controlled vocabulary

Apa yang perlu diterjemahkan?

› Query atau dokumen

Dimana kita bisa mendapatkan knowledge

untuk menerjemahkan?

› Kamus, ontologi, training corpus

Penerjemahan dokumen

› Menerjemahkan dokumen ke dalam bahasa

Query

Tidak praktis

Prosesnya lambat, meskipun hanya perlu

menerjemahkan dokumen sekali

Penerjemahan Query

› Menerjemahkan query ke bahasa dari dokumen

Efisien untuk query yang pendek

Sulit untuk menyelesaikan query yang ambigu

Cross-Language Information (Text)

Retrieval

Query Translation

Controlled Vocabulary

Free Text

Knowledge Based

Ontology Based

Thesaurus Based

Dictionary Based

Corpus Based

Term-aligned

Sentence-aligned

Document-aligned

Parallel Comparable

Unaligned

Document Translation

Text Translation

Vector Translation

Desain vocabulary thesaurus

› Suatu struktur knowledge untuk domain tertentu

› Beri suatu “deskriptor” unik untuk tiap konsep

Indeks dokumen

› Baca dokumen dan beri deskriptor yang sesuai

Retrieval

› Pilih deskriptor yang diinginkan, gunakan exact

match retrieval

Buat dari awal

Terjemahkan thesaurus yang ada

Gabungkan thesaurus monolingual

Pengindeksan berdasarkan konsep yang

berkualitas tinggi

Pelacakan dibimbing oleh suatu knowledge

Hasil retrieval mudah dimengerti

Efektifitas cross-language sangat baik

› Hingga 100% dari efektifitas monolingual

Implementasinya efisien

Biaya pembuatan sangat besar

› Desain struktur knowledge, indeks setiap

dokumen

Biaya pemeliharaan sangat besar

› Pengindeksan dokumen, perubahan struktur

knowledge

Lingkupnya terbatas

› Domain harus dipilih pada saat perancangan

Cross-Language Information (Text)

Retrieval

Query Translation

Controlled Vocabulary

Free Text

Knowledge Based

Ontology Based

Thesaurus Based

Dictionary Based

Corpus Based

Term-aligned

Sentence-aligned

Document-aligned

Parallel Comparable

Unaligned

Document Translation

Text Translation

Vector Translation

Ontologi

› Representasi dari konsep dan hubungannya

Thesaurus

› Ontologi khusus untuk retrieval

Leksikon Dwibahasa

› Ontologi khusus untuk mesin penerjemah

Kamus Dwibahasa

› Ontologi khusus untuk penerjemahan yang

dilakukan manusia

Dokumen

Kata

Inggris

Penerjemahan

Dokumen

Monolingual

Retrieval

Indonesia

Kata Query

Indonesia

• 3: 0.91

• 4: 0.57

• 5: 0.56

Dokumen

Kata

Inggris

Penerjemahan

Query

Monolingual

Retrieval

Inggris

Kata Query

Indonesia

• 3: 0.91

• 4: 0.57

• 5: 0.56

Mesin Penerjemah

Kamus Dwibahasa

1 ~

Me

sin

Pe

ne

rje

ma

hK

ele

bih

an

Ke

terb

ata

san

Dapat digunakan untuk menerjemahkan

query atau dokumen

Kinerja berkisar 60-80% dibandingkan

dengan kinerja monolingual

Dasarnya aturan linguistik, sehingga hasil

akan lebih baik jika ditulis dalam kalimat

dengan tata bahasa yang baik

Biaya pembuatan mesin penerjemah

mahal

Seringkali tidak dapat menerjemahkan

kata gabungan atau proper nouns

2 ~ Kamus Dwibahasa

Berdasarkan kamus cetak dwibahasa

Digunakan untuk menghasilkan daftar kata

dwibahasa

Contoh :

› Collins

› Kamus gratis: www.freedict.com

› Babylon: www.babylon.com

› Linguistic Data Consorsium

› EuroWordNet

Kinerjanya hanya mencapai 50% darimonolingual karena satu kata dapatditerjemahkan ke dalam beberapa kata

Tantangannya memilih terjemahan yang tepat

Arti kata bisa sangat ambigu

Singkatan

Cakupan kamus tidak memenuhi

Kesulitan untuk penerjemahan frasemaupun kata gabungan

Query dari TREC (Bahasa Inggris) No. 22 :

› The effects of chocolate on health

Versi Indonesia :

› Pengaruh permen coklat pada kesehatan

Penerjemahan

› Pengaruh influence

› Permen hard candy, candy

› Coklat brown, chocolate, cocoa

› Kesehatan health

Query dari TREC (Bahasa Inggris) No. 1 :

› Reason for controversy surrounding Waldheim’s

World War II action

Versi Indonesia

› Alasan kontroversi tindakan Waldheim Perang

Dunia II

Indonesia

alasan

kontroversi

tindakan

Waldheim

perang

dunia

II

Inggris

reason, cause

controversy

action, step, measure

Waldheim

war, battle

world, kingdom

II

Tidak dapat menerjemahkan frase jika

kamus tidak berisi frase tersebut

Penggunaan kata yg berbeda di bahasa

lain

› acupuncture (1 kata-Inggris)

› tusuk jarum (2 kata- Indonesia)

› terjemahan kamus :

tusuk – puncture

jarum – a pin, a stick, skewer, sewing, …

Frase merupakan gabungan kata pada

suatu bahasa dapat diterjemahkan menjadi

frasa pada bahasa yang lain

› South Africa (Inggris)

› Sudafrica (Jerman)

Hasil dari query bahasa Inggris yang

diterjemahkan ke bahasa Indonesia adalah

33% lebih buruk dari monolingual

Hasil dari query bahasa Indonesia yang

diterjemahkan ke bahasa Inggris adalah

62% lebih buruk dari monolingual

Batasi terjemahan dengan POS

› kata benda, kata kerja, kata sifat

Hasilnya baik bila kalimat querynya lengkap

› Query pendek tidak memberikan dasar yang

cukup untuk melakukan tagging

› Pencocokan yang dibatasi (jenis katanya)

dapat menurunkan monolingual IR

kata benda pada query bisa merupakan kata

kerja pada dokumen

misal : throw

Cross-Language Information (Text)

Retrieval

Query Translation

Controlled Vocabulary

Free Text

Knowledge Based

Ontology Based

Thesaurus Based

Dictionary Based

Corpus Based

Term-aligned

Sentence-aligned

Document-aligned

Parallel Comparable

Unaligned

Document Translation

Text Translation

Vector Translation

Parallel corpora (korpus paralel) : koleksi

berisi dokumen yang sama dalam

beberapa bahasa

› Misal : korpus UN dalam bahasa Perancis,

Spanyol, dan Inggris

› Pasangan :

pasangan dokumen, pasangan kalimat,

pasangan kata

Comparable corpora (korpus yang

sebanding) : koleksi berisi dokumen dengan

topik atau isinya sama

Unaligned corpora

› Isi dari koleksi dokumennya berasal dari domain

yang sama

Pasangkan dokumen yang berkaitan

melalui deskriptor

› tanggal, kata kunci, kata benda, nama

Buat leksikon dari co-occurrence

› Kata-kata bahasa lain yang menunjuk pada

topik yang sama akan muncul sama-sama

pada tiap dokumen

Korpus paralel biasanya mempunyai

domain yang sama

› Mencari domain yang tepat sangatlah sulit

› Misalnya dokumen PBB yang dituliskan dalam

beberapa bahasa, tetapi topiknya khusus dan

jumlahnya terbatas

Alternatifnya : membuat sendiri

› Mulai dengan korpus monolingual

› Gunakan mesin penerjemah otomatis untuk

bahasa kedua

Alternatif lain : mencari pasangan web

pages di Internet

› Jika jumlahnya memadai, korpus dapat

menghasilkan terjemahan yang baik

Masukan kata query dalam bahasa A

Ambil top dokumen A pada korpus paralel

Buat query dari terjemahannya dalam

bahasa B

Lakukan pelacakan free-text monolingual

Top ranked

French

DocumentsFrench

Text

Retrieval

System

Alta Vista

French

Query

Terms

English

Translations

English

Web

PagesParallel

Corpus

Hitung seberapa seringnya setiap kata

muncul sebagai pasangan› Anggap setiap pasangan sebagai satu dokumen

E1 E2 E3 E4 E5 I1 I2 I3 I4

Doc 1

Doc 2

Doc 3

Doc 4

Doc 5

4 2 2 1

8 4 4 2

2 2 2 1

2 1 2 1

4 1 2 1

Kata Inggris Kata Indonesia

Dok1 dan Dok2 menggunakan pola kata yang mirip› Setelah menghitung jumlah kata tiap dokumen

› Cara kerja vector space retrieval

hitung bobot tiap kata

cosine: normalisasi panjang, hitung inner product

Kata E1 dan E3 digunakan dengan cara yang sama› Kelas E1 & I1 (atau E3 & I4) lebih mirip

perhitungan yang sama menghasilkan term similarity

Dapat dilakukan antar bahasa dan dalam bahasa itusendiri

Dokomen terkait pada domain yang sama

› Tidak diketahui hubungan antara pasangan

dokumen

› Banyak tersedia untuk berbagai aplikasi

Dua pendekatan

› Gunakan kamus untuk penerjemahan awal

Perbaiki menggunakan unaligned bilingual corpus

› Gunakan kamus untuk menemukan pasangan

dalam corpus

Ekstraksi pengetahuan penerjemahan dari

pasangan tersebut

top related