sistem temu kembali informasi/ information...

20
Konsep Dasar Sistem Temu Kembali Informasi Sistem Temu Kembali Informasi/ Information Retrieval

Upload: vucong

Post on 07-Apr-2019

229 views

Category:

Documents


0 download

TRANSCRIPT

Konsep Dasar Sistem

Temu Kembali Informasi

Sistem Temu Kembali Informasi/

Information Retrieval

Dokumen

Penyimpanan yang Terorganisasi

Database

Database Mahasiswa

Buku ID Nama Buku Pengarang

001 Information Retrieval Ricardo baeza

002 Matematika Diskrit Rinaldi Munir

003 Pengenalan Java Abdul Kadir

004 Pengenalan C++ Abdul Kadir

005 Design Pattern Arnold

Unstructured

Siapa pemain dalam

novel tersebut ?

Digital Library UB

Google

Database Retrieval vs IR

• Database retrieval

– Dokumen mana yang mengandung himpunan

keyword?

– Semantik didefinisikan dengan baik

– Error dari suatu obyek mengakibatkan kegagalan!

• Information retrieval

– Informasi mengenai suatu subyek atau topik

– Semantik dapat bersifat lepas (longgar)

– Error kecil ditoleransi

Pengertian IR

• Pencarian materi (biasanya dokumen) dari sesuatu

yang sifatnya tak-terstruktur (unstructured,

biasanya teks) untuk memenuhi kebutuhan

informasi dari dalam koleksi besar (biasanya

disimpan dalam komputer).

• Representasi, penyimpanan, organisasi, pencarian

dan akses ke item informasi untuk memenuhi

kebutuhan informasi pengguna.

• Penekanan pada proses retrieval informasi (bukan

data).

• Karakterisasi kebutuhan informasi tidaklah mudah.

Harus ditranslasi ke dalam suatu query terlebih

dahulu.

Information Retrieval

• Secara teknis: indexing (pembuatan index) dan

retrieval (pencarian keterangan) dokumen textual.

• Pencarian halaman pada WWW adalah aplikasi

paling “ngetop” saat ini

• Fokus pertama: me-retrieve dokumen- dokumen

yang relevan dengan query.

• Fokus kedua: me-retrieve himpunan besar

dokumen secara efisien.

• Tujuan: Me-retrieve semua dokumen yang relevan

sekaligus me-retrieve sesedikit mungkin dokumen

yang tidak relevan

• Relevansi merupakan suatu judgment

(keputusan) subyektif dan dapat didasarkan

pada:

– Topik yang tepat.

– Waktu (informasi terbaru).

– Otoritatif (dari suatu sumber terpercaya).

– Kebutuhan informasi dari pengguna.

• Kriteria relevansi utama: suatu sistem IR

sebaiknya (harus) memenuhi kebutuhan

informasi pengguna.

Relevan

Sistem IR

Sistem IR

Pencarian Keyword

• Ide paling sederhana dari relevansi:

apakah string query ada di dalam

dokumen (kata demi kata, verbatim)?

• Ide yang lebih fleksibel: Berapa sering

kata-kata di dalam query muncul di dalam

dokumen, tanpa melihat urutannya (bag

of words)?

Masalah dengan Keyword

• Mungkin tidak me-retrieve dokumen relevan yang

menyertakan synonymous terms.

– “restaurant” vs. “café”

– “NDHU” vs. “National Dong Hwa University”

• Mungkin me-retrieve dokumen tak-relevan yang

menyertakan ambiguous terms.

– “bat” (baseball vs. mamalia)

– “Apple” (perusahaan vs. buah-buahan)

– “bit” (unit data vs. perilaku menggigit)

Bukan Sekedar Keyword

• Kita akan mendiskusikan dasar-dasar IR berbasis

keyword, tetapi…

– Fokus pada perluasan dan pengembangan terakhir

untuk mendapatkan hasil terbaik.

• Kita akan membahas dasar-dasar pembangunan sistem

IR yang efisien, tetapi…

– Fokus pada algoritma dan kemampuan dasar, bukan

masalah sistem yang memungkinkan pengembangan

ke database ukuran industri.

IR Cerdas

• Memanfaatkan pengertian atau makna dari kata

yang digunakan.

• Melibatkan urutan kata di dalam query.

• Beradaptasi dengan pengguna berdasarkan

pada feedback, langsung atau tidak langsung.

• Memperluas pencarian dengan term terkait.

• Mengerjakan pemeriksaan ejaaan/perbaikan

tanda pengenal otomatis.

• Memanfaatkan Otoritas dari sumber

Perkembangan IR

1. Klasifikasi Dokumen

2. Clustering Dokumen

3. Peringkasan Teks

4. Question Answering System

Portal Jurnal

• Computer.org (gunakan proxy UB) :

• http://scholar.google.com/

• http://www.sciencedirect.com/ :

• Other

Selesai