pengantar sistem manajemen data, informasi , dan pengetahuan
DESCRIPTION
Pengantar Sistem Manajemen Data, Informasi , dan Pengetahuan. Muhammad Nasar. Outline. Information system (overview) Information retreival. Overview Sistem Informasi. Sistem Temu Kembali Informasi (Information Retrieval System - IRS) - PowerPoint PPT PresentationTRANSCRIPT
Overview Sistem Informasi
1. Sistem Temu Kembali Informasi (Information Retrieval System - IRS)
2. Sistem Manajemen Basis Data (Data Base Management System – DBMS),
3. Sistem Informasi Manajemen (Management Information System – MIS),
4. Sistem Pendukung Keputusan (Decision Support System - DSS), dan
5. Sistem Kecerdasan Buatan (Artificial Intelligent System - AI).
Overview Sistem Informasi
[1] Information Retrieval System - IRS• Berhubungan dengan
– Representasi (gambaran)– Storage (penyimpanan)– Organisasi, dan– Akses ke informasi
• Tujuan /fokus– Pencarian informasi yang relevan
(akan dikenalkan)
Overview Sistem Informasi[2] Data Base Management System – DBMS
• Merupakan sistem yang didisain untuk memanipulasi dan mengurus basis data.
• Data yang tersimpan dalam basis data dinyatakan dalam bentuk unsur-unsur data yang spesifik dan tersimpan dalam tabel-tabel.
• Setiap satuan data, atau disebut record (cantuman) terdiri dari ruas-ruas (fields) yang berisi nilai yang menunjukkan karakteristik yang spesifik atau atribut yang mengidentifikasikan satuan data yang dimaksud.
• Proses yang berkaitan dengan manajemen basis data meliputi penyimpanan, temu kembali, updating atau deletion, proteksi dari kerusakan, dan kadang-kadang mencakup transimi data.
• Output dapat mengandung record individual, sebagian record, tabel, atau bentuk susunan data yang lain dari basis data. Informasi yang ditemukan berisi cantuman-cantuman yang pasti sesuai dengan permintaan.
Overview Sistem Informasi
[3] Management Information System – MIS• Sistem Informasi Manajemen adalah sistem
yang didisain untuk kebutuhan manajemen, untuk mendukung fungsi-fungsi dan aktivitas manajemen pada suatu organisasi.
• Oleh karena itu, jenis data dan fungsi-fungsi operasi disesuaikan dengan kebutuhan manajemen.
Overview Sistem Informasi
[4] Decision Support System – DSS• Sistem Pendukung Keputusan
menggambarkan operasi-operasi spesifik dalam satuan-satuan informasi yang homogen.
• Bertujuan untuk bahan pengambilan keputusan
Overview Sistem Informasi
[5] Artificial Intelligent System – AI• antara lain sistem pakar, permainan
komputer (games), logika fuzzy, jaringan syaraf tiruan dan robotika.
Overview Sistem Informasi
[5] Keuntungan AI• Memungkinkan orang awam bisa mengerjakan pekerjaan
para ahli. • Bisa melakukan proses secara berulang secara otomatis. • Menyimpan pengetahuan dan keahlian para pakar. • Meningkatkan output dan produktivitas. • Meningkatkan kualitas. • Mampu mengambil dan melestarikan keahlian para pakar
(terutama yang termasuk keahlian langka). • Mampu beroperasi dalam lingkungan yang berbahaya.
IRS vs DBMS vs AI
• Perbedaan utama terletak pada objek data masing-masing sistem informasi
• Persamaan : dokumen pada umumnya tekstual
Information Retrieval System - IRS
Sekilas sejarah (1)Pra Internet• Berawal di Perpustakaan, sekitar tahun 1952• Mulai diteliti sejak 1961.
– Mulai disadari bahwa sistem temu kembali informasi memiliki peran khusus dalam kegiatan perpustakaan / ilmu pengetahuan.
– Tidak sekedar menyimpan buku dan menyajikan katalog
Information Retrieval System - IRS
Sekilas sejarah (2)Era Internet• Tahun 80-90an : internet masih sangat sederhana• Tahun 2006 : > 25 milyar halaman web, > 1,3 milyar
gambar, > 1 milyar pesan• Berbagai kebutuhan informasi
– Mencari topik tertentu / informasi spesifik– Mencari jawaban dari suatu pertanyaan– Mencari informasi dalam bahasa berbeda– dll
Contoh-contoh penerapan IRS
• Conventional (katalog perpustakaan)– Pencarian dengan kata kunci, judul, penulis, dll.
• Text-based (Google, Yahoo, ASK).– Pencarian dengan kata kunci (keyword). Pencarian terbatas
menggunakan query dalam bahasa alami.• Multimedia (Youtube)
– Pencarian dengan penampilan visual (bentuk, warna, gerak,…)
• Sistem jawaban pertanyaan (AskJeeves, Answerbus)– Pencarian dalam bahasa alami (terbatas)
• Lainnya:– IR lintas-bahasa, music retrieval
Information Retrieval System - IRS
• Konsep dasar– Indexing– Searching / matching– Perangkingan relevansi bds keyword query
Model matematika nya
• dimana Q = pertanyaan (queri), D = dokumen, n = jumlah dokumen, 2n = jumlah kemungkinan himpunan bagian dari dokumen yang ditemukan.
• Sistem temu-kembali akan mengambil salah satu dari kemungkinan tersebut.
[2] Indexing
• Berfungsi menghasilkan database index• Merupakan proses persiapan sehingga
dokumen siap untuk di-retrive.
Tahap-tahap dalam proses indexing
• Parsing– Pengambilan kata-kata (term) dari tumpukan dokumen – Menghapus karakter tanda baca – Mengubah kumpulan term menjadi lowercase.
• Stopword Removal– Pembuangan kata seperti : tetapi, yang, sedangkan, dan sebagainya.
• Stemming– Pembuangan prefix dan sufix suatu kata bentukan menjadi kata dasar.
• Term Weighting– Pemberian bobot setiap term di dalam dokumen.
Masalah pada Stemming
• Understemming,– Pemotongan terlalu sedikit, misalnya
‘pengorbanan’ menjadi ‘korbanan’
• Overstemming– Pemotongan terlalu banyak, misalnya ‘mencapai’
menjadi ‘capa’
• More info about stemming– http://tartarus.org/~martin/PorterStemmer/
[2] Searching / matching
• Penemuan kembali informasi (dokumen) yang relevan terhadap query yang diberikan
• Tidak semua dokumen yang diambil (retrieved) sesuai dengan keinginan user (relevant).
Bagian-bagian IRSText Operations (operasi terhadap teks) meliputi pemilihan kata-kata dalam query maupun dokumen (term selection)
dalam pentransformasian dokumen atau query menjadi terms index (indeks dari kata-kata).
Query formulation (formulasi terhadap query) yaitu memberi bobot pada indeks kata-kata
query.Ranking (perangkingan), mencari dokumen-dokumen yang relevan terhadap query dan
mengurukan dokumen tersebut berdasarkan kesesuaiannya dengan query.
Indexing (pengindeksan), membangun basis data indeks dari koleksi dokumen. Dilakukan terlebih dahulu sebelum pencarian dokumen dilakukan.
Operator query (1)
• Model boolean– AND, OR dan NOT – tanda kurung () untuk menentukan scope
operator
• Kekurangan– Hasil pencarian dokumen berupa himpunan– Sulit melihat dokumen yang paling relevan atau agak relevan (partial
match).– Hasilnya kaku, menyulitkan pengguna yang tidak mengerti tentang
ekpresi boolean
Operator query (2)
• Model ruang vektor (1)– Kelebihan : query dapat berupa sekumpulan kata-
kata / kalimat– Misalkan terdapat sejumlah n kata yang berbeda.
Kata-kata ini akan membentuk ruang vektor yang memiliki dimensi sebesar n.
– Setiap kata i diberikan bobot sebesar wi.
– Baik dokumen maupun query direpresentasikan sebagai vektor berdimensi n.
Operator query (2)
• Model ruang vektor (2)– Misalkan terdapat 3 buah kata (T1, T2 dan T3), 2
buah dokumen (D1 dan D2) serta sebuah query Q. Masing-masing bernilai :
• D1 = 2T1+3T2+5T3
• D2 = 3T1+7T2+0T3
• Q = 0T1+0T2+2T3
Operator query (2)
• Model ruang vektor (4)– Representasi dalam bentuk matrik kata-dokumen
T1 T2 …. Tn
D1 w11 w21 … wn1
D2 w12 w22 … wn2
: : : :: : : :
Dm w1m w2m … wnm
Operator query (3)
• Model Pembobotan Kata– Salah satu cara untuk memberi bobot terhadap
suatu kata adalah memberikan nilai jumlah kemunculan suatu kata (term frequency) sebagai bobot
– Prinsipnya, semakin besar kemunculan suatu kata dalam dokumen akan memberikan nilai kesesuaian yang semakin besar
– Silahkan pelajari lebih lanjut, http://en.wikipedia.org/wiki/Tf-idf
Parameter pengujian1. Precision (ketepatan)
– Precision ialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen yang terambil oleh sistem baik relevan maupun tidak relevan.
– precision = Jumlah dokumen yang relevan dengan query dan terambil. jumlah seluruh dokumen yang terambil
2. Recall (kelengkapan/perolehan)– Recall ialah perbandingan jumlah dokumen relevan yang didapatkan
sistem dengan jumlah seluruh dokumen relevan yang ada dalam koleksi dokumen (terambil ataupun tak terambil sistem).
– recall = Jumlah dokumen yang relevan dengan query dan terambil jumlah seluruh dokumen relevan dalam koleksi dokumen
Parameter pengujian
3. Interpolate Average Precision (IAP)– Pengukuran performansi dengan mempertimbangkan aspek
keterurutan atau rangking. – Dapat dilakukan dengan interpolasi antara precision dan recall. – IAP akan mencatat semua dokumen yang relevan dan urutan
dokumen tersebut pada hasil IRS dan menghitung nilai precisionnya.
Contoh • Misal terdapat 10 buah dokumen hasil perangkingan berdasarkan
suatu query. Misalkan diketahui terdapat 4 buah dokumen relevan berdasarkan query tadi, tiga diantaranya ditemukan yaitu pada rangking 1, 4 dan 5.
• Maka perhitungan recall precision adalah
Precision = 2 / 4 = 0.5Recall = 2 / 4 = 0.5
Precision = 1 / 1 = 1Recall = 1 / 4 = 0.25
Precision =3 / 5 = 0.6Recall = 3 / 4 = 0.75
Rangking Relevan1 Ya2 Tidak3 Tidak4 Ya5 Ya6 Tidak7 Tidak8 Tidak9 Tidak
10 Tidak
Beberapa teknik meningkatkan performansi IRS
• Relevance Feedback (RF), – ada tanda/input/klik dari user untuk memperbaiki
query
• Query Expansion (QE),– tidak ada tanda (sistem secara automatis
memperbaiki query)
Refer to
• http://en.wikipedia.org/wiki/Information_retrieval• http://en.wikipedia.org/wiki/Vector_space_model• http://www.cse.unt.edu/~rada/CSCE5200/• http://tartarus.org/~martin/PorterStemmer/• http://en.wikipedia.org/wiki/Tf-idf