sistem temu-kembali informasi - komputasi · pdf filesistem temu-kembali informasi pengantar...

23
Sistem Temu-Kembali Informasi Pengantar Perkuliahan Husni Program Studi Teknik Informatika Universitas Trunojoyo Madura Semeter Gasal 2015 - 03 Sep. 2015

Upload: vanminh

Post on 01-Feb-2018

238 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

Sistem Temu-Kembali InformasiPengantar Perkuliahan

HusniProgram Studi Teknik Informatika

Universitas Trunojoyo Madura

Semeter Gasal 2015 - 03 Sep. 2015

Page 2: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

Perkenalan...

• Husni (UGM, ITB)– Bidang Minat Sistem Terdistribusi dan Web Data

Mining (Social Network Analysis, Web Retrieval)

– Lab. CC dan Lab. SisTer

– Email: [email protected]

– FB: facebook.com/lunix96

• Jam Diskusi Perkuliahan: – Kamis (13.00 s.d 17.00)

– Jumat (10.00 s.d 11.30)

• Web kuliah: Husni.trunojoyo.ac.id

2

Page 3: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

Bentuk Perkuliahan

• 14 kali kuliah di kelas: 14 x 3 x 50 menit• Lab: Mandiri, sesuai kebutuhan (tentatif)• Jadwal Kuliah: Kamis, 07.20 – 09.30 dan 09.30 –

11.40, ruang F403• Tugas: Kelompok (4 s.d 5 mahasiswa): Proyek

pembuatan search engine mini– Web Crawler, Preprocessing, Indexing, Searching,

Ranking, Classification– Presentasi proposal pada pertemuan ke-7– Presentasi akhir pada pertemuan ke-14

• Penilaian: UTS (closed, 40%), UAS (30%), Proyek (40%)

3

Page 4: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

Motivasi

• WWW atau Web telah menjadi sumber utama informasi bagi kebutuhan kerja maupun pengisi waktu

• Kandungan raksasa WWW akan terbuang jika informasi tidak dapat ditemukan (lagi), dianalisis dan dimanfaatkan.

• Setiap pengguna sebaiknya mampu dengan cepatmenemukan informasi yang relevan dan komprehensifsesuai kebutuhannya

• WWW telah menjadi penggerak utama dari inovasi dan sederet teknik baru telah diperkenalkan untuk menjinakkan dan memanfaatkan kandungan informasinya

• Recommender systems: Tool (web, mobile, standalone) yang sangat terkenal untuk mendukung pengguna menemukan dan memilih produk, layanan dan informasi.

4

Page 5: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

Teknik Pengelolaan Data

5

Page 6: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

Silabus

• Konsep dasar Information Retrieval (IR)

• Boolean retrieval, Indexing

• Model ruang vektor (vector space model, VSM)

• Klasifikasi Teks dan Ruang Vektor

• Evaluasi dalam Information Retrieval

• Web search & crawling dan link analysis

• Sistem Perekomendasi (Recommender)

• Collaborative & Content-based filtering and Social Filtering

• Hybrid recommender systems, Knowledge based recommenders, Conversational recommender systems, Context-dependent recommender systems, Group recommendations

6

Page 7: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

Apa yang harus dipelajari?

• Dasar-dasar ilmiah dari bidang Pencarian & Temu-Kembali Informasi (Searching & IR)

• Teknik & Tool pencarian & penemuan informasi yang dapat dimanfaatkan untuk merancang danmengimplementasikansitus web khusus (eCommerce, eGovernment)

• Kelebihan & kekurangan berbagai teknik yang ada

• Analisis tentang manfaat dan keterbatasan teknik dan sistem terhadap aktor yang terlibat dalam proses IR

• Kemampuan untuk memutuskan kapan (untuk jenis produk atau layanan apa) suatu teknik dapat berguna atau tidak

• Mengidentifikasi aplikasi baru dari teknik-teknik tersebut.

7

Page 8: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

Bahan Bacaan

• Topik-topik Information Retrieval:– C. D. Manning, P. Raghavan and H. Schutze. Introduction to

Information Retrieval, Cambridge University Press, 2008. http://nlp.stanford.edu/IR-book/information-retrievalbook.html

• Penelitian mengenai Recommender Systems termasuk baru, lahir sekitar ‘95. Koleksi paper dalam bentuk review ada di:– Ricci, F.; Rokach, L.; Shapira, B.; Kantor, P.B. (Eds.),

Recommender Systems Handbook. 1st Edition., 2011, 845p. 20 illus., Hardcover, ISBN: 978-0-387-85819-7. http://www.springerlink.com/content/978-0-387-85819-7

• Harus membaca paper juga, tidak hanya buku dan slide

8

Page 9: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

Tugas dan Proyek (1)

• Semua tugas dan proyek dikerjakan dalam kelompok (3 s.d 5 Mahasiswa)

• (1) Tugas Pemrograman: – Preprocessing terhadap dokumen teks bahasa Indonesia:

Tokenisasi, Stemming, Stopword Removal dan Indexing

– Perhitungan kemiripan antar dokumen (atau dokumen dengan query) dan perankingannya (pada model ruang vektor)

– Evaluasi hasil pencarian/perhitungan kemiripan: Presisi, Recall, F-Measure

– Setiap anggota kelompok harus mampu menguasai 3 proses di atas secara manual (di atas kertas, boleh ber-kalkulator) 9

Page 10: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

Tugas dan Proyek (2)

• (2) Tugas membaca dan merangkum paper tentang Web Search, Information Retrieval atau Recommender System 2 tahun terakhir (2014 s.d 2015) untuk melihat trend.

• Paper ini dijadikan sebagai salah satu referensi pada proyek Search Engine Mini

• Dipresentasikan pada pertemuan ke-7, sebagai bagian dari proposal proyek.

– Dikumpulkan: paper asli dan rangkumannya (A4, 1 spasi, Time New Roman 11 poin, 1 halaman)

– Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide, mahasiswa lain boleh bertanya. 10

Page 11: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

Tugas dan Proyek (3)

• (3) Proyek Pembuatan prototipe Search Engine Mini

– Proposal proyek dipresentasikan pada pertemuan ke-7. Hasil: Layak (lanjut) atau ganti proyek (cari kasus lain)

– Laporan proyek (dikumpulkan): (1) latar belakang, (2) masalah yang diselesaikan, (3) solusi yang dipilih, (4) langkah-langkah dari metode/teknik dari solusi yang dipilih, (5) penjelasan kode program, (6) hasil yang diperoleh, (7) kesimpulan, (8) referensi, (9) peran dan tanggungjawab setiap anggota tim.

– Panjang laporan 5 halaman A4, 1.5 spasi.

– Dipresentasikan & didemokan pada pertemuan ke-14, maks. 20 menit.

11

Page 12: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

Bagaimana Agar Lulus?

• Baca dan Pahami paper/bab yang akan didiskusikan di setiap perkuliahan – slide hanya memberikan pemahaman secara garis besar

• Jika ada hal yang tidak jelas selama perkuliahan, segera membuat catatan dan ajukan pertanyaan.

• Tidak ber-social media selama perkuliahan• Tim segera memulai proyek, agar:

– Punya waktu cukup untuk menyiapkan laporan– Mengirimkan laporan (draft) agar lekas direview– Mampu menjelaskan dengan baik aplikasi dari teknik

yang dipilih (saat dipresentasikan).

12

Page 13: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

Penilaian

• Ujian Tengah Semester (UTS): 40%(kemampuan membangun inverted index, menghitung kemiripan antar dokumen dan cara evaluasinya)

• Laporan & Presentasi Proyek Recommender System: 40%

• Ujian Akhir Semester (UAS): 30%

(kemampuan memahami klasifikasi dokumen dan recommender system)

• Tugas Tambahan/Bonus Nilai? TIDAK ADA

13

Page 14: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

14

Page 15: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

15

Page 16: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

Search Engine

16

Page 17: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

Arsitektur Search Engine

17

Page 18: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

18

Page 19: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

Area Kerja Dalam Proses IR

• Web Crawling: menghimpun data dari Web• Data Extraction: mengambil informasi dan URL dari

halaman web• Preprocessing: menerapkan aturan bahasa untuk

menyederhanakan proses IR• Indexing: membuat index (pemetaan term ke dokumen)• Penanganan Query: mendapatkan dokumen yang relevan

dengan Query (kebutuhan informasi pengguna)• Klasifikasi dan Clusterisasi• Recommendation: memberikan dokumen yang sesuai

dengan kebutuhan/profil pengguna, berdasarkan kemiripan dokumen atau kemiripan pengguna

• Evaluasi sistem IR: Presisi, Recall, F-Measure

19

Page 20: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

Amazon.com

20

Page 21: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

movielens.org

21

Page 22: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

Lain-lain

• Facebook

• Youtube

• igoogleportal

22

Page 23: Sistem Temu-Kembali Informasi - Komputasi · PDF fileSistem Temu-Kembali Informasi Pengantar Perkuliahan Husni ... –Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide,

Pertanyaan

23