1 ~ evaluasi -...

49

Upload: dangdan

Post on 11-Aug-2019

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun
Page 2: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun
Page 3: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun
Page 4: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Mencari dokumen yang dituliskan dalam

berbagai bahasa

› Menggunakan query yang dituliskan dalam

sebuah bahasa

Always

Siempre

Page 5: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun
Page 6: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Pengguna internet jumlahnya terus

meningkat dari tahun ke tahun dan tersebar

ke berbagai penjuru dunia

Pengguna internet tidak semuanya

berbahasa Inggris

› Internet tidak lagi monolingual

› Internet berbahasa non-Inggris terus meningkat

› Perubahan profil pengguna internet

Tidak hanya digunakan pada bidang akademik

tetapi juga digunakan secara luas pada bidang

lainnya (hiburan, olah raga, perdagangan, dll)

Page 7: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun
Page 8: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Monolingual IR› Memperoleh dokumen yang bahasanya sama

dengan query

CLIR› Memperoleh dokumen yang bahasanya

berbeda dengan bahasa pada query

Bila user dapat membaca dalam beberapabahasa› Menghilangkan berbagai query

› Query dapat ditulis dalam bahasa yang paling dikuasai

Page 9: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Cross-language

› Cross-lingual, cross-linguistic

Dokumen multilingual

› Dokumen yang berisi lebih dari satu bahasa

Koleksi multilingual

› Koleksi dari dokumen-dokumen dalam bahasa

yang berbeda-beda

Page 10: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Multilingual system› Sistem yang dapat memperoleh dokumen dari

suatu koleksi multilingual

› Dapat digunakan untuk menjelaskan cross-language system

Query dalam Bahasa Inggris, cari dokumen dalambahasa Inggris atau Perancis

› Juga dapat digunakan untuk sistem pasanganmonolingual

Query dalam Bahasa Inggris, cari dokumen dalambahasa Inggris

Query dalam bahasa Perancis, cari dokumendalam bahasa Perancis

Page 11: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Cross-language system

› Query dalam satu bahasa, cari dokumen dalam

bahasa lain (another language)

Translingual system

› Query dapat menemukan dokumen dalam

bahasa apapun (any languages)

Page 12: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun
Page 13: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Apa yang perlu diindeks?

› Free text atau controlled vocabulary

Apa yang perlu diterjemahkan?

› Query atau dokumen

Dimana kita bisa mendapatkan knowledge

untuk menerjemahkan?

› Kamus, ontologi, training corpus

Page 14: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Penerjemahan dokumen

› Menerjemahkan dokumen ke dalam bahasa

Query

Tidak praktis

Prosesnya lambat, meskipun hanya perlu

menerjemahkan dokumen sekali

Penerjemahan Query

› Menerjemahkan query ke bahasa dari dokumen

Efisien untuk query yang pendek

Sulit untuk menyelesaikan query yang ambigu

Page 15: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Cross-Language Information (Text)

Retrieval

Query Translation

Controlled Vocabulary

Free Text

Knowledge Based

Ontology Based

Thesaurus Based

Dictionary Based

Corpus Based

Term-aligned

Sentence-aligned

Document-aligned

Parallel Comparable

Unaligned

Document Translation

Text Translation

Vector Translation

Page 16: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun
Page 17: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Desain vocabulary thesaurus

› Suatu struktur knowledge untuk domain tertentu

› Beri suatu “deskriptor” unik untuk tiap konsep

Indeks dokumen

› Baca dokumen dan beri deskriptor yang sesuai

Retrieval

› Pilih deskriptor yang diinginkan, gunakan exact

match retrieval

Page 18: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Buat dari awal

Terjemahkan thesaurus yang ada

Gabungkan thesaurus monolingual

Page 19: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Pengindeksan berdasarkan konsep yang

berkualitas tinggi

Pelacakan dibimbing oleh suatu knowledge

Hasil retrieval mudah dimengerti

Efektifitas cross-language sangat baik

› Hingga 100% dari efektifitas monolingual

Implementasinya efisien

Page 20: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Biaya pembuatan sangat besar

› Desain struktur knowledge, indeks setiap

dokumen

Biaya pemeliharaan sangat besar

› Pengindeksan dokumen, perubahan struktur

knowledge

Lingkupnya terbatas

› Domain harus dipilih pada saat perancangan

Page 21: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Cross-Language Information (Text)

Retrieval

Query Translation

Controlled Vocabulary

Free Text

Knowledge Based

Ontology Based

Thesaurus Based

Dictionary Based

Corpus Based

Term-aligned

Sentence-aligned

Document-aligned

Parallel Comparable

Unaligned

Document Translation

Text Translation

Vector Translation

Page 22: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun
Page 23: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Ontologi

› Representasi dari konsep dan hubungannya

Thesaurus

› Ontologi khusus untuk retrieval

Leksikon Dwibahasa

› Ontologi khusus untuk mesin penerjemah

Kamus Dwibahasa

› Ontologi khusus untuk penerjemahan yang

dilakukan manusia

Page 24: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Dokumen

Kata

Inggris

Penerjemahan

Dokumen

Monolingual

Retrieval

Indonesia

Kata Query

Indonesia

• 3: 0.91

• 4: 0.57

• 5: 0.56

Page 25: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Dokumen

Kata

Inggris

Penerjemahan

Query

Monolingual

Retrieval

Inggris

Kata Query

Indonesia

• 3: 0.91

• 4: 0.57

• 5: 0.56

Page 26: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Mesin Penerjemah

Kamus Dwibahasa

Page 27: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

1 ~

Me

sin

Pe

ne

rje

ma

hK

ele

bih

an

Ke

terb

ata

san

Dapat digunakan untuk menerjemahkan

query atau dokumen

Kinerja berkisar 60-80% dibandingkan

dengan kinerja monolingual

Dasarnya aturan linguistik, sehingga hasil

akan lebih baik jika ditulis dalam kalimat

dengan tata bahasa yang baik

Biaya pembuatan mesin penerjemah

mahal

Seringkali tidak dapat menerjemahkan

kata gabungan atau proper nouns

Page 28: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

2 ~ Kamus Dwibahasa

Berdasarkan kamus cetak dwibahasa

Digunakan untuk menghasilkan daftar kata

dwibahasa

Contoh :

› Collins

› Kamus gratis: www.freedict.com

› Babylon: www.babylon.com

› Linguistic Data Consorsium

› EuroWordNet

Page 29: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Kinerjanya hanya mencapai 50% darimonolingual karena satu kata dapatditerjemahkan ke dalam beberapa kata

Tantangannya memilih terjemahan yang tepat

Arti kata bisa sangat ambigu

Singkatan

Cakupan kamus tidak memenuhi

Kesulitan untuk penerjemahan frasemaupun kata gabungan

Page 30: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Query dari TREC (Bahasa Inggris) No. 22 :

› The effects of chocolate on health

Versi Indonesia :

› Pengaruh permen coklat pada kesehatan

Penerjemahan

› Pengaruh influence

› Permen hard candy, candy

› Coklat brown, chocolate, cocoa

› Kesehatan health

Page 31: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Query dari TREC (Bahasa Inggris) No. 1 :

› Reason for controversy surrounding Waldheim’s

World War II action

Versi Indonesia

› Alasan kontroversi tindakan Waldheim Perang

Dunia II

Page 32: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Indonesia

alasan

kontroversi

tindakan

Waldheim

perang

dunia

II

Inggris

reason, cause

controversy

action, step, measure

Waldheim

war, battle

world, kingdom

II

Page 33: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Tidak dapat menerjemahkan frase jika

kamus tidak berisi frase tersebut

Penggunaan kata yg berbeda di bahasa

lain

› acupuncture (1 kata-Inggris)

› tusuk jarum (2 kata- Indonesia)

› terjemahan kamus :

tusuk – puncture

jarum – a pin, a stick, skewer, sewing, …

Page 34: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Frase merupakan gabungan kata pada

suatu bahasa dapat diterjemahkan menjadi

frasa pada bahasa yang lain

› South Africa (Inggris)

› Sudafrica (Jerman)

Page 35: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Hasil dari query bahasa Inggris yang

diterjemahkan ke bahasa Indonesia adalah

33% lebih buruk dari monolingual

Hasil dari query bahasa Indonesia yang

diterjemahkan ke bahasa Inggris adalah

62% lebih buruk dari monolingual

Page 36: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Batasi terjemahan dengan POS

› kata benda, kata kerja, kata sifat

Hasilnya baik bila kalimat querynya lengkap

› Query pendek tidak memberikan dasar yang

cukup untuk melakukan tagging

› Pencocokan yang dibatasi (jenis katanya)

dapat menurunkan monolingual IR

kata benda pada query bisa merupakan kata

kerja pada dokumen

misal : throw

Page 37: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Cross-Language Information (Text)

Retrieval

Query Translation

Controlled Vocabulary

Free Text

Knowledge Based

Ontology Based

Thesaurus Based

Dictionary Based

Corpus Based

Term-aligned

Sentence-aligned

Document-aligned

Parallel Comparable

Unaligned

Document Translation

Text Translation

Vector Translation

Page 38: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun
Page 39: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Parallel corpora (korpus paralel) : koleksi

berisi dokumen yang sama dalam

beberapa bahasa

› Misal : korpus UN dalam bahasa Perancis,

Spanyol, dan Inggris

› Pasangan :

pasangan dokumen, pasangan kalimat,

pasangan kata

Comparable corpora (korpus yang

sebanding) : koleksi berisi dokumen dengan

topik atau isinya sama

Page 40: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Unaligned corpora

› Isi dari koleksi dokumennya berasal dari domain

yang sama

Page 41: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Pasangkan dokumen yang berkaitan

melalui deskriptor

› tanggal, kata kunci, kata benda, nama

Buat leksikon dari co-occurrence

› Kata-kata bahasa lain yang menunjuk pada

topik yang sama akan muncul sama-sama

pada tiap dokumen

Page 42: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Korpus paralel biasanya mempunyai

domain yang sama

› Mencari domain yang tepat sangatlah sulit

› Misalnya dokumen PBB yang dituliskan dalam

beberapa bahasa, tetapi topiknya khusus dan

jumlahnya terbatas

Alternatifnya : membuat sendiri

› Mulai dengan korpus monolingual

› Gunakan mesin penerjemah otomatis untuk

bahasa kedua

Page 43: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Alternatif lain : mencari pasangan web

pages di Internet

› Jika jumlahnya memadai, korpus dapat

menghasilkan terjemahan yang baik

Page 44: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Masukan kata query dalam bahasa A

Ambil top dokumen A pada korpus paralel

Buat query dari terjemahannya dalam

bahasa B

Lakukan pelacakan free-text monolingual

Top ranked

French

DocumentsFrench

Text

Retrieval

System

Alta Vista

French

Query

Terms

English

Translations

English

Web

PagesParallel

Corpus

Page 45: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun
Page 46: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Hitung seberapa seringnya setiap kata

muncul sebagai pasangan› Anggap setiap pasangan sebagai satu dokumen

E1 E2 E3 E4 E5 I1 I2 I3 I4

Doc 1

Doc 2

Doc 3

Doc 4

Doc 5

4 2 2 1

8 4 4 2

2 2 2 1

2 1 2 1

4 1 2 1

Kata Inggris Kata Indonesia

Page 47: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Dok1 dan Dok2 menggunakan pola kata yang mirip› Setelah menghitung jumlah kata tiap dokumen

› Cara kerja vector space retrieval

hitung bobot tiap kata

cosine: normalisasi panjang, hitung inner product

Kata E1 dan E3 digunakan dengan cara yang sama› Kelas E1 & I1 (atau E3 & I4) lebih mirip

perhitungan yang sama menghasilkan term similarity

Dapat dilakukan antar bahasa dan dalam bahasa itusendiri

Page 48: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun

Dokomen terkait pada domain yang sama

› Tidak diketahui hubungan antara pasangan

dokumen

› Banyak tersedia untuk berbagai aplikasi

Dua pendekatan

› Gunakan kamus untuk penerjemahan awal

Perbaiki menggunakan unaligned bilingual corpus

› Gunakan kamus untuk menemukan pasangan

dalam corpus

Ekstraksi pengetahuan penerjemahan dari

pasangan tersebut

Page 49: 1 ~ EVALUASI - elearning.amikompurwokerto.ac.idelearning.amikompurwokerto.ac.id/index.php/download/materi/1111111142-TI040-3/...Pengguna internet jumlahnya terus meningkat dari tahun