model dalam sistem temu kembali informasi yasmi afrizal [email protected]

34
Model dalam sistem Model dalam sistem temu kembali informasi temu kembali informasi yasmi afrizal yasmi afrizal [email protected] [email protected] Pertemuan ke-2 usan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Upload: anne-cash

Post on 02-Jan-2016

57 views

Category:

Documents


1 download

DESCRIPTION

Pertemuan ke- 2. Model dalam sistem temu kembali informasi yasmi afrizal [email protected]. Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester G anjil 20 10 /201 1. Pertemuan ke- 2. Definisi IR. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Model dalam sistem Model dalam sistem temu kembali informasitemu kembali informasi

yasmi afrizal yasmi afrizal [email protected][email protected]

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 2: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Definisi IR

Pertemuan ke-2

• Pencarian materi (biasanya dokumen) dari sesuatu yang sifatnya tak-terstruktur (unstructured, biasanya teks) untuk memenuhi kebutuhan informasi dari dalam koleksi besar (biasanya disimpan dalam komputer).

• Representasi, penyimpanan, organisasi, pencarian dan akses ke item informasi untuk memenuhi kebutuhan informasi pengguna.

• Penekanan pada proses retrieval informasi (bukan data).

• Karakterisasi kebutuhan informasi tidaklah mudah. Harus ditranslasi ke dalam suatu query terlebih dahulu.

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 3: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Motivasi • Data retrieval

– Dokumen mana yang mengandung himpunan keyword?

– Semantik didefinisikan dengan baik– Error dari suatu obyek mengakibatkan

kegagalan!• Information retrieval

– Informasi mengenai suatu subyek atau topik– Semantik dapat bersifat lepas (longgar)– Error kecil ditoleransi

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 4: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

...Motivasi

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

IR di tengah pertunjukan– IR dalam 20 tahun terakhir:

• Klasifikasi dan kategorisasi• Sistem dan bahasa• Antarmuka pengguna dan visualisasi

– Masih, area dilihat sebagai bidang yang sempit– Web mengubah persepsi ini

• Repository pengetahuan universal• Akses universal gratis (biaya rendah)• Volume raksasa dari informasi tanpa editorial

board terpusat• Meskipun banyak masalah: IR merupakan kunci

untuk menemukan solusi!

Page 5: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Sistem IR

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

• Menerima query pengguna yang mewakili kebutuhan informasi

• Mencari dan menginterpretasikan content (isi) dari item-item informasi

• Membangkitkan suatu ranking yang mencerminkan relevansi terhadap kebutuhan informasi tersebut

• Ide mengenai relevansi adalah sangat penting

Page 6: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id
Page 7: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Kebutuhan IR

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

• WWW: lebih 25 milyar halaman web, 1.3 milyar gambar dan lebih 1 milyar pesan Usenet yang diindeks pada Google (2006)

• Berbagai kebutuhan informasi:– Mencari dokumen yang masuk dalam

topik tertentu– Mencari suatu informasi spesifik– Mencari jawaban dari suatu pertanyaan– Mencari informasi dalam bahasa berbeda– ...

Page 8: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Penjualan Software Text Retrieval

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 9: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Information Retrieval (IR)

Pertemuan ke-2

• Secara teknis: indexing (pembuatan index) dan retrieval (pencarian keterangan) dokumen textual.

• Pencarian halaman pada WWW adalah aplikasi paling “ngetop” saat ini

• Fokus pertama: meretrieve dokumen- dokumen yang relevan dengan query.

• Fokus kedua: meretrieve himpunan besar dokumen secara efisien.

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 10: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Information vs Data Retrieval

• Sistem data retrieval (seperti database) berurusan dengan structured data yang mempunyai semantik terdefinisi dengan baik dan kebutuhan meretrieve hasil yang pasti (exact)

• Sistem IR berurusan dengan dokumen bahasa alami (natural language) dan error kecil dapat diabaikan.

• Sistem IR harus menginterpretasikan content kemudian meranking daftar content sesuai dengan tingkat relevansinya.

• Tujuan: Meretrieve semua dokumen yang relevan sekaligus meretrieve sesedikit mungkin dokumen yang tidak relevan

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 11: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Sistem IR

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 12: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Contoh Sistem IR• Conventional (katalog perpustakaan)

Pencarian dengan kata kunci, judul, penulis, dll.• Text-based (Google, Yahoo, ASK).

Pencarian dengan kata kunci (keyword). Pencarian terbatas menggunakan query dalam bahasa alami.

• Multimedia (QBIC, WebSeek, SaFe)Pencarian dengan penampilan visual (bentuk, warna,

…)• Sistem jawaban pertanyaan (AskJeeves, Answerbus)

Pencarian dalam bahasa alami (terbatas)• Lainnya:

IR lintas-bahasa, music retrieval

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 13: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Sistem IR di Web

Pertemuan ke-2

• Pencarian halaman web http://www.google.com

• Pencarian gambar http://images.google.com• Pencarian isi (content) gambar

http://wang.ist.psu.edu/IMAGE/• Pencarian jawaban pertanyaan

http://www.askjeeves.com• Pencarian musik? Hari-hati, jangan melanggar

hukum.

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 14: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Relevansi• Relevansi merupakan suatu judgment

(keputusan) subyektif dan dapat didasarkan pada:– topik yang tepat.– waktu (informasi terbaru).– otoritatif (dari suatu sumber terpercaya).– kebutuhan informasi dari pengguna.

• Kriteria relevansi utama: suatu sistem IR sebaiknya (harus) memenuhi kebutuhan informasi pengguna.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 15: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Pencarian Keyword

• Ide paling sederhana dari relevansi: apakah string query ada di dalam dokumen (kata demi kata, verbatim)?

• Ide yang lebih fleksibel: Berapa sering kata-kata di dalam query muncul di dalam dokumen, tanpa melihat urutannya (bag of words)?

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 16: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Masalah dengan Keyword

• Mungkin tidak meretrieve dokumen relevan yang menyertakan synonymous terms.– “restaurant” vs. “café”– “NDHU” vs. “National Dong Hwa

University”• Mungkin meretrieve dokumen tak-relevan

yang menyertakan ambiguous terms.– “bat” (baseball vs. mamalia)– “Apple” (perusahaan vs. buah-buahan)– “bit” (unit data vs. perilaku menggigit)

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 17: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Bukan Sekedar Keyword

• Kita akan mendiskusikan dasar-dasar IR berbasis keyword, tetapi…– Fokus pada perluasan dan pengembangan

terakhir untuk mendapatkan hasil terbaik.• Kita akan membahas dasar-dasar pembangunan

sistem IR yang efisien, tetapi…– Fokus pada algoritma dan kemampuan dasar,

bukan masalah sistem yang memungkinkan pengembangan ke database ukuran industri.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 18: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

IR Cerdas

• Memanfaatkan pengertian atau makna dari kata yang digunakan.

• Melibatkan urutan kata di dalam query.• Beradaptasi dengan pengguna berdasarkan

pada feedback, langsung atau tidak langsung.• Memperluas pencarian dengan term terkait.• Mengerjakan pemeriksaan ejaaan/perbaikan

tanda pengenal otomatis.• Memanfaatkan Otoritas dari sumber informasi.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 19: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Indeks • Sistem IR jarang mencari koleksi dokumen secara

langsung. Berdasarkan pada koleksi dokumen, dibangun sebuah index. Pengguna mencari index tersebut.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 20: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Indexing Otomatis

• Tujuan dari automatic indexing adalah membangun index dan meretrieve informasi tanpa intervensi manusia.

• Ketika informasi yang dicari adalah teks, metode automatic indexing akan sangat efektif.

• Penelitian automatic indexing fundamental dimulai oleh Gerald Salton, Professor of Computer Science di Cornell & mahasiswa Pasca-Sarjananya (Sistem SMART).

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 21: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

IR dari Koleksi Besar

• Information retrieval dari koleksi sangat besar bersandar pada:– Jumlah computer power yang besar untuk

mengerjakan algoritma sederhana terhadap jumlah data yang sangat banyak.

• komputasi kinerja-tinggi– Pemahaman pengguna terhadap informasi dan

kemampuan dari sistem.• Interaksi manusia - komputer• Machine-learning banyak digunakan untuk

mendapatkan kinerja terbaik.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 22: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Searching & Browsing

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

• Orang dalam perulangan

Page 23: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

IR dari Koleksi Dokumen Teks

• Kategori utama dari metode:– Ranking kemiripan terhadap query (vector

space model).– Pencocokan exact (Boolean).– Ranking berdasarkan tingkat kepentingan

dokumen (PageRank)– Kombinasi beberapa metode

• Contoh: Web search engine, seperti Google & Yahoo, menggunakan metode kombinasi, berdasarkan pada pendekatan pertama dan ketiga, dengan kombinasi exact dipilih menggunakan machine learning

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 24: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Istilah Penting • Information retrieval: sub-bidang ilmu

komputer yang berurusan dengan penemuan kembali dokumen (khususnya teks) terotomatis berdasarkan pada content dan contextnya.

• Searching: Pencarian informasi spesifik di dalam badan informasi. Hasilnya adalah sehimpunan hit.

• Browsing: Eksplorasi tak-terstruktur dari badan informasi.

• Linking: Berpindah dari satu item ke item lain mengikuti link (sambungan) seperti rujukan (referensi).

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 25: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

...Istilah• Query: Suatu string teks, menggambarkan

informasi yang sedang dicari pengguna. Setiap kata dari query dinamakan search term.

• Query dapat berupa search term tunggal, string dari term, frase atau ekspresi tertentu menggunakan simbol khusus, misalnya regular expression.

• Pencarian Full text: Metode yang membandingkan query dengan setiap kata di dalam teks, tanpa membedakan fungsi dari berbagai kata.

• Pencarian Bidang : Metode pencarian pada bidang struktural atau bibliografis spesifik, seperti penulis atau judul.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 26: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

...Istilah

• Corpus: Koleksi dokumen yang diindeks dan dijadikan target pencarian.

• Daftar kata: Himpunan semua term yang digunakan dalam indeks untuk suatu corpus (dikenal sebagai vocabulary file).

• Pada pencarian full text, word list adalah semua term di dalam corpus, stop words dihapus. Term- term terkait dikombinasi dengan stemming.

• Controlled vocabulary: Metode indexing dimana word list bersifat tetap. Term-term dari vocabulary tersebut dipilih untuk mendeskripsikan setiap dokumen.

• Keyword: Nama untuk term-term dalam word list, terutama dengan controlled vocabulary

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 27: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Mengurutan & Ranking Hit

• Ketika pengguna men-submit suatu query ke sistem IR, sistem mengembalikan sehimpunan hit. Pada koleksi dokumen besar, himpunan hit akan sangat besar.

• Nilai untuk pengguna sering tergantung pada urutan hit ditampilkan.

• Tiga metode utama:– Mengurutkan hit, misal berdasarkan tanggal– Meranking hit berdasarkan kemiripan antara

query dan dokumen– Meranking hit berdasarkan kepentingan dari

dokumen

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 28: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

IR Berbasis Teks

• Sebagian besar metode ranking didasarkan pada model ruang vektor (vector space model).

• Sebagian besar metode pencocokan (matching) didasarkan ada operator Boolean.

• Metode Web search mengkombinasikan model ruang vektor dengan ranking berdasarkan pada tingkat kepentingan dokumen.

• Banyak sistem (dalam praktek) menggabungkan fitur- fitur dari beberapa pendekatan.

• Pada bentuk dasar, semua pendekatan menganggap kata sebagai token terpisah, dengan usaha minimal untuk memahami kata-kata secara linguistik.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 29: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

FrekuensiKata

• Observasi: Beberapa kata lebih umum daripada yang lain.

• Statistika: Koleksi sangat besar dari dokumen teks tak-terstruktur mempunyai karakteristik statistik serupa. Statistik ini:– Mempengaruhi efektifitas dan efisiensi

dari struktur data yang digunakan untuk mengindeks dokumen

– Banyak model retrieval memanfaatkannya

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 30: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

...Frekuensi Kata

• Contoh: Contoh berikut ini diambil dari :– Jamie Callan, Characteristics of Text,

1997– 19 Juta kata sampel– Slide berikut memperlihatkan 50 kata

yang paling umum, diranking (r) berdasarkan frekuensinya (f).

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 31: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

...Frekuensi Kata

Pertemuan ke-2

Page 32: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Distribusi RankingFrekuensi

• Untuk semua kata di dalam suatu dokumen, untuk setiap kata w– f adalah frekuensi munculnya w– r ranking dari w disusun menurut frekuensi. (kata

yang paling umum muncul mempunyai rank =1)

Pertemuan ke-2

Page 33: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

Contoh Frekuensi Rank

• Slide berikut memperlihatkan kata-kata di dalam data Callan yang telah dinormalisasi. Dalam contoh ini:– r adalah ranking dari kata w

dalam sampel.– f adalah frekuensi kata w di dalam

sampel.– n adalah jumlah total kemunculan

kata di dalam sampel.

Pertemuan ke-2

Page 34: Model dalam sistem temu kembali informasi yasmi afrizal  yasmi_afrizal@yahoo.co.id

...Contoh RankingFrekuensi

Pertemuan ke-2