pengantar sistem manajemen data, informasi , dan pengetahuan

37
Pengantar Sistem Manajemen Data, Informasi, dan Pengetahuan Muhammad Nasar

Upload: crete

Post on 14-Jan-2016

132 views

Category:

Documents


6 download

DESCRIPTION

Pengantar Sistem Manajemen Data, Informasi , dan Pengetahuan. Muhammad Nasar. Outline. Information system (overview) Information retreival. Overview Sistem Informasi. Sistem Temu Kembali Informasi (Information Retrieval System - IRS) - PowerPoint PPT Presentation

TRANSCRIPT

Pengantar Sistem Manajemen Data, Informasi, dan Pengetahuan

Muhammad Nasar

Outline

• Information system (overview)• Information retreival

Overview Sistem Informasi

1. Sistem Temu Kembali Informasi (Information Retrieval System - IRS)

2. Sistem Manajemen Basis Data (Data Base Management System – DBMS),

3. Sistem Informasi Manajemen (Management Information System – MIS),

4. Sistem Pendukung Keputusan (Decision Support System - DSS), dan

5. Sistem Kecerdasan Buatan (Artificial Intelligent System - AI).

Flatform sebuah sistem informasi

Overview Sistem Informasi

[1] Information Retrieval System - IRS• Berhubungan dengan

– Representasi (gambaran)– Storage (penyimpanan)– Organisasi, dan– Akses ke informasi

• Tujuan /fokus– Pencarian informasi yang relevan

(akan dikenalkan)

Overview Sistem Informasi[2] Data Base Management System – DBMS

• Merupakan sistem yang didisain untuk memanipulasi dan mengurus basis data.

• Data yang tersimpan dalam basis data dinyatakan dalam bentuk unsur-unsur data yang spesifik dan tersimpan dalam tabel-tabel.

• Setiap satuan data, atau disebut record (cantuman) terdiri dari ruas-ruas (fields) yang berisi nilai yang menunjukkan karakteristik yang spesifik atau atribut yang mengidentifikasikan satuan data yang dimaksud.

• Proses yang berkaitan dengan manajemen basis data meliputi penyimpanan, temu kembali, updating atau deletion, proteksi dari kerusakan, dan kadang-kadang mencakup transimi data.

• Output dapat mengandung record individual, sebagian record, tabel, atau bentuk susunan data yang lain dari basis data. Informasi yang ditemukan berisi cantuman-cantuman yang pasti sesuai dengan permintaan.

Overview Sistem Informasi

[3] Management Information System – MIS• Sistem Informasi Manajemen adalah sistem

yang didisain untuk kebutuhan manajemen, untuk mendukung fungsi-fungsi dan aktivitas manajemen pada suatu organisasi.

• Oleh karena itu, jenis data dan fungsi-fungsi operasi disesuaikan dengan kebutuhan manajemen.

Overview Sistem Informasi

[4] Decision Support System – DSS• Sistem Pendukung Keputusan

menggambarkan operasi-operasi spesifik dalam satuan-satuan informasi yang homogen.

• Bertujuan untuk bahan pengambilan keputusan

Overview Sistem Informasi

[5] Artificial Intelligent System – AI• antara lain sistem pakar, permainan

komputer (games), logika fuzzy, jaringan syaraf tiruan dan robotika.

Overview Sistem Informasi

[5] Keuntungan AI• Memungkinkan orang awam bisa mengerjakan pekerjaan

para ahli. • Bisa melakukan proses secara berulang secara otomatis. • Menyimpan pengetahuan dan keahlian para pakar. • Meningkatkan output dan produktivitas. • Meningkatkan kualitas. • Mampu mengambil dan melestarikan keahlian para pakar

(terutama yang termasuk keahlian langka). • Mampu beroperasi dalam lingkungan yang berbahaya.

IRS vs DBMS vs AI

• Perbedaan utama terletak pada objek data masing-masing sistem informasi

• Persamaan : dokumen pada umumnya tekstual

• Pertanyaan ?

Information Retrieval System - IRS

Sekilas sejarah (1)Pra Internet• Berawal di Perpustakaan, sekitar tahun 1952• Mulai diteliti sejak 1961.

– Mulai disadari bahwa sistem temu kembali informasi memiliki peran khusus dalam kegiatan perpustakaan / ilmu pengetahuan.

– Tidak sekedar menyimpan buku dan menyajikan katalog

Information Retrieval System - IRS

Sekilas sejarah (2)Era Internet• Tahun 80-90an : internet masih sangat sederhana• Tahun 2006 : > 25 milyar halaman web, > 1,3 milyar

gambar, > 1 milyar pesan• Berbagai kebutuhan informasi

– Mencari topik tertentu / informasi spesifik– Mencari jawaban dari suatu pertanyaan– Mencari informasi dalam bahasa berbeda– dll

Contoh-contoh penerapan IRS

• Conventional (katalog perpustakaan)– Pencarian dengan kata kunci, judul, penulis, dll.

• Text-based (Google, Yahoo, ASK).– Pencarian dengan kata kunci (keyword). Pencarian terbatas

menggunakan query dalam bahasa alami.• Multimedia (Youtube)

– Pencarian dengan penampilan visual (bentuk, warna, gerak,…)

• Sistem jawaban pertanyaan (AskJeeves, Answerbus)– Pencarian dalam bahasa alami (terbatas)

• Lainnya:– IR lintas-bahasa, music retrieval

Information Retrieval System - IRS

• Konsep dasar– Indexing– Searching / matching– Perangkingan relevansi bds keyword query

Model matematika nya

• dimana Q = pertanyaan (queri), D = dokumen, n = jumlah dokumen, 2n = jumlah kemungkinan himpunan bagian dari dokumen yang ditemukan.

• Sistem temu-kembali akan mengambil salah satu dari kemungkinan tersebut.

[2] Indexing

• Berfungsi menghasilkan database index• Merupakan proses persiapan sehingga

dokumen siap untuk di-retrive.

Tahap-tahap dalam proses indexing

• Parsing– Pengambilan kata-kata (term) dari tumpukan dokumen – Menghapus karakter tanda baca – Mengubah kumpulan term menjadi lowercase.

• Stopword Removal– Pembuangan kata seperti : tetapi, yang, sedangkan, dan sebagainya.

• Stemming– Pembuangan prefix dan sufix suatu kata bentukan menjadi kata dasar.

• Term Weighting– Pemberian bobot setiap term di dalam dokumen.

Algoritma stemming• Contoh stemming bahasa Indonesia

Masalah pada Stemming

• Understemming,– Pemotongan terlalu sedikit, misalnya

‘pengorbanan’ menjadi ‘korbanan’

• Overstemming– Pemotongan terlalu banyak, misalnya ‘mencapai’

menjadi ‘capa’

• More info about stemming– http://tartarus.org/~martin/PorterStemmer/

[2] Searching / matching

• Penemuan kembali informasi (dokumen) yang relevan terhadap query yang diberikan

• Tidak semua dokumen yang diambil (retrieved) sesuai dengan keinginan user (relevant).

Bagian-bagian IRSText Operations (operasi terhadap teks) meliputi pemilihan kata-kata dalam query maupun dokumen (term selection)

dalam pentransformasian dokumen atau query menjadi terms index (indeks dari kata-kata).

Query formulation (formulasi terhadap query) yaitu memberi bobot pada indeks kata-kata

query.Ranking (perangkingan), mencari dokumen-dokumen yang relevan terhadap query dan

mengurukan dokumen tersebut berdasarkan kesesuaiannya dengan query.

Indexing (pengindeksan), membangun basis data indeks dari koleksi dokumen. Dilakukan terlebih dahulu sebelum pencarian dokumen dilakukan.

Operator query (1)

• Model boolean– AND, OR dan NOT – tanda kurung () untuk menentukan scope

operator

• Kekurangan– Hasil pencarian dokumen berupa himpunan– Sulit melihat dokumen yang paling relevan atau agak relevan (partial

match).– Hasilnya kaku, menyulitkan pengguna yang tidak mengerti tentang

ekpresi boolean

Operator query (2)

• Model ruang vektor (1)– Kelebihan : query dapat berupa sekumpulan kata-

kata / kalimat– Misalkan terdapat sejumlah n kata yang berbeda.

Kata-kata ini akan membentuk ruang vektor yang memiliki dimensi sebesar n.

– Setiap kata i diberikan bobot sebesar wi.

– Baik dokumen maupun query direpresentasikan sebagai vektor berdimensi n.

Operator query (2)

• Model ruang vektor (2)– Misalkan terdapat 3 buah kata (T1, T2 dan T3), 2

buah dokumen (D1 dan D2) serta sebuah query Q. Masing-masing bernilai :

• D1 = 2T1+3T2+5T3

• D2 = 3T1+7T2+0T3

• Q = 0T1+0T2+2T3

Operator query (2)

• Model ruang vektor (3)– Maka representasi grafis ketiga vektor tsb adalah

Operator query (2)

• Model ruang vektor (4)– Representasi dalam bentuk matrik kata-dokumen

T1 T2 …. Tn

D1 w11 w21 … wn1

D2 w12 w22 … wn2

: : : :: : : :

Dm w1m w2m … wnm

Operator query (3)

• Model Pembobotan Kata– Salah satu cara untuk memberi bobot terhadap

suatu kata adalah memberikan nilai jumlah kemunculan suatu kata (term frequency) sebagai bobot

– Prinsipnya, semakin besar kemunculan suatu kata dalam dokumen akan memberikan nilai kesesuaian yang semakin besar

– Silahkan pelajari lebih lanjut, http://en.wikipedia.org/wiki/Tf-idf

Parameter pengujian1. Precision (ketepatan)

– Precision ialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen yang terambil oleh sistem baik relevan maupun tidak relevan.

– precision = Jumlah dokumen yang relevan dengan query dan terambil. jumlah seluruh dokumen yang terambil

2. Recall (kelengkapan/perolehan)– Recall ialah perbandingan jumlah dokumen relevan yang didapatkan

sistem dengan jumlah seluruh dokumen relevan yang ada dalam koleksi dokumen (terambil ataupun tak terambil sistem).

– recall = Jumlah dokumen yang relevan dengan query dan terambil jumlah seluruh dokumen relevan dalam koleksi dokumen

Parameter pengujian

3. Interpolate Average Precision (IAP)– Pengukuran performansi dengan mempertimbangkan aspek

keterurutan atau rangking. – Dapat dilakukan dengan interpolasi antara precision dan recall. – IAP akan mencatat semua dokumen yang relevan dan urutan

dokumen tersebut pada hasil IRS dan menghitung nilai precisionnya.

Contoh • Misal terdapat 10 buah dokumen hasil perangkingan berdasarkan

suatu query. Misalkan diketahui terdapat 4 buah dokumen relevan berdasarkan query tadi, tiga diantaranya ditemukan yaitu pada rangking 1, 4 dan 5.

• Maka perhitungan recall precision adalah

Precision = 2 / 4 = 0.5Recall = 2 / 4 = 0.5

Precision = 1 / 1 = 1Recall = 1 / 4 = 0.25

Precision =3 / 5 = 0.6Recall = 3 / 4 = 0.75

Rangking Relevan1 Ya2 Tidak3 Tidak4 Ya5 Ya6 Tidak7 Tidak8 Tidak9 Tidak

10 Tidak

simpulan

• semakin tinggi ketepatan (precison), semakin rendah perolehan (recall).

Beberapa teknik meningkatkan performansi IRS

• Relevance Feedback (RF), – ada tanda/input/klik dari user untuk memperbaiki

query

• Query Expansion (QE),– tidak ada tanda (sistem secara automatis

memperbaiki query)

Contoh teknik QE

Refer to

• http://en.wikipedia.org/wiki/Information_retrieval• http://en.wikipedia.org/wiki/Vector_space_model• http://www.cse.unt.edu/~rada/CSCE5200/• http://tartarus.org/~martin/PorterStemmer/• http://en.wikipedia.org/wiki/Tf-idf

Pertanyaan?