data mining - gunadarma...
TRANSCRIPT
Data Mining
Pengenalan Sistem & Teknik, Serta Contoh Aplikasi
Avinanta Tarigan
22 Nov 2008
1 Avinanta Tarigan Data Mining
Outline
1 Pengertian Dasar
2 Classification Mining
3 Association Mining
4 Clustering
5 Penutup
2 Avinanta Tarigan Data Mining
Pengertian Dasar
Outline
1 Pengertian Dasar
2 Classification Mining
3 Association Mining
4 Clustering
5 Penutup
3 Avinanta Tarigan Data Mining
Pengertian Dasar
Latar Belakang
Banyak data yang telahdirekam dan disimpan:
Transaksi penjualansupermarketTransaksi perbankan dankartu kreditLog kunjungan Web(access_log)Akuisisi data dalampenelitian-penelitian sepertiastronomi, kesehatan, dll
Sistem komputer lebih murahdan cepat (Moore’s Law)
Kebutuhan untuk berkompetisidengan strategi yang tepatmenjadi lebih tinggi
4 Avinanta Tarigan Data Mining
Pengertian Dasar
Mengapa Harus Data Mining ?
Data yang sedemikian besar kadang memiliki informasiyang tersembunyiKemampuan manusia terbatas untuk “mempelototi”data-data tersebut dalam analisis
5 Avinanta Tarigan Data Mining
Pengertian Dasar
Definisi2 Data Mining
DataRekaman atau catatan terhadap fakta / transaksi / obyek
DefinisiEkstraksi informasi yang implisit, tidak diketahuisebelumnya, dan berpotensi bergunaEksplorasi dan analisis, secara otomatis atau tidak, datayang sangat besar untuk menemukan pola-pola yangberguna dan mempunyai arti
6 Avinanta Tarigan Data Mining
Pengertian Dasar
Pengertian Yang Salah
Bukan Data MiningMencari nomor telepon“Bambang Gunawan” dibuku telepon IndonesiaMencari informasimengenai “Bunga” digoogle.com
Data MiningMenemukan bahwa banyakorang bernama Bambangdi daerah Jawa TimurMengelompokkan dokumenweb mengenai “Bunga”sesuai dengan konteks
Bunga Bank atau Kredit(Keuangan)Bunga - Tanaman /PertanianBCL (Artis)
7 Avinanta Tarigan Data Mining
Pengertian Dasar
Sistem Ekstraksi PengetahuanKDD (Knowledge Discovery in Databases)
8 Avinanta Tarigan Data Mining
Pengertian Dasar
Ilmu Data Mining
Gabungan daribeberapa bidang ilmu dalamMatematik dan Ilmu KomputerDiperlukan karena:
Data yang s(u)angat b(u)esarDimensi data yang besarData Heterogen
9 Avinanta Tarigan Data Mining
Pengertian Dasar
Data
Kumpulan obyek data danatributnyaObyek : record, point, case,sampel, entitas, instanAtribut / variabel / field :karakteristik dari obyek (statuspernikahan, umur, dll)
10 Avinanta Tarigan Data Mining
Classification Mining
Outline
1 Pengertian Dasar
2 Classification Mining
3 Association Mining
4 Clustering
5 Penutup
11 Avinanta Tarigan Data Mining
Classification Mining
Classification Mining
Ekstraksi pola pengelompokan atau pengklasifikasiansebuah himpunan obyek / data (training-set) ke dalamkelas (class) tertentu berdasarkan atribut-atributnyaPola pengelompokan yang ditemukan akan menjadi modelpengelompokanModel digunakan untuk memprediksi kelompok data /obyek baru (test-set)
12 Avinanta Tarigan Data Mining
Classification Mining
Ilustrasi Classification Mining
13 Avinanta Tarigan Data Mining
Classification Mining
Contoh Aplikasi I
Pemakaian Kartu Kredit secara Ilegal
Tujuan : mendeteksi adanya penggunaan kartu kreditsecara ilegalPendekatan :
Data transaksi sebelumnya (lokasi & waktu transaksi, jenisbarang yang dibeli, besar transaksi)Label data-data tersebut dengan Curang atau AmanDM mencari model klasifikasi Curang atau Amanberdasarkan atribut transaksiMenerapkan model tersebut jika ada transaksi baru untukmempercepat / tepat tindakan preventif
14 Avinanta Tarigan Data Mining
Classification Mining
Contoh Aplikasi II
Deteksi SPAM
Tujuan : mendeteksi email yang tidak diharapkan secaradini
Direct Marketing
Tujuan : mencari pengelompokan profil pelanggan agartarget marketing sesuai
Sky Survey Cataloging
Tujuan : mengelompokkan obyek langit hasil pemotretanteleskop ke dalam class-nya
15 Avinanta Tarigan Data Mining
Classification Mining
Contoh Aplikasi III
16 Avinanta Tarigan Data Mining
Classification Mining
Teknik / Metode
Decision Tree (Pohon Keputusan)Rule-based MethodsMemory based reasoningNeural Networks (Jaringan Syaraf Tiruan)Naive Bayes dan Bayesian Belief NetworksSupport Vector Machines
17 Avinanta Tarigan Data Mining
Classification Mining
Contoh Model: Pohon Keputusan I
18 Avinanta Tarigan Data Mining
Classification Mining
Contoh Model: Pohon Keputusan II
Bagaimanakah Algoritma Pembentuk Pohon KeputusanTersebut ?
19 Avinanta Tarigan Data Mining
Association Mining
Outline
1 Pengertian Dasar
2 Classification Mining
3 Association Mining
4 Clustering
5 Penutup
20 Avinanta Tarigan Data Mining
Association Mining
Association Mining
Menemukan pola asosiasi dalam data
Adanya kemunculan obyek tertentu berdasarkankemunculan obyek yang lain
21 Avinanta Tarigan Data Mining
Association Mining
Contoh Aplikasi I
Marketing & Sales Promotion
Misalnya pola yang ditemukan :{Susu Anak, ...}→ {Kwaci}Kwaci sebagai konsekuen : bagaimana caranya menaikkanpenjualan kwaciSusu Anak sebagai anteseden : jika tidak lagi menjual susuanak, memprediksi produk lain yang ikut jatuh penjualannyaDua-duanya : membuat paket promo Susu Anak, Kwaci, dll
22 Avinanta Tarigan Data Mining
Association Mining
Contoh Aplikasi II
Pengelolaan Rak di Supermarket
Tujuan: memudahkan pelanggan berbelanja barang-barangyang sering dibeli bersamaMisalnya: ada rak kecil berisi kwaci diletakkan pada bagiansusu anak
Sistem Rekomendasi Pintar
Tujuan: memberikan rekomendasi kepada pelanggan tokobuku on-line tentang buku-buku lain yang sering dibeli jugaoleh pelanggan lainnya jika membeli buku tertentu
23 Avinanta Tarigan Data Mining
Association Mining
Metode
Rule asosiasi : X → Y
1 Membangkitkan semua item-set yang kemunculannyatinggi pada data
1 Bentuk Lattice (struktur yang akan memunculkan semuasubset yang diurutkan berdasarkan subset - superset)
2 Menyeleksi item-set dg Support yang tinggi. Support =Jumlah Transaksi Yg BerisiX danY
Jumlah Keseluruhan Transaksi2 Mencari pola asosiasi yang mempunyai “confidence” yang
tinggi1 Confidence = Mengukur seberapa sering item di Y juga
muncul pada transaksi yang berisi X2 Gunakan pencarian Bread-First-Search atau
Depth-First-Search pada Lattice tsb3 Seleksi akhir dengan “Interestingness Measure”.
Asosiasi{Kopi}→ {Gula} tentunya tidak menarik
24 Avinanta Tarigan Data Mining
Association Mining
Ilustrasi I
Pembentukan Lattice
25 Avinanta Tarigan Data Mining
Association Mining
Ilustrasi II
Seleksi “Support”
26 Avinanta Tarigan Data Mining
Association Mining
Ilustrasi III
Seleksi High “Confidence”
27 Avinanta Tarigan Data Mining
Clustering
Outline
1 Pengertian Dasar
2 Classification Mining
3 Association Mining
4 Clustering
5 Penutup
28 Avinanta Tarigan Data Mining
Clustering
Clustering (Penggugusan)
DefinitionProses mencari gugus-gugus dari sekumpulan obyek sehinggaobyek-obyek di dalam sebuah gugus mirip satu dengan lainnya,dan berbeda dengan obyek di luar gugusnya.
29 Avinanta Tarigan Data Mining
Clustering
Contoh Aplikasi I
Web-Document Clustering:
Tujuan: mencari gugus dokumen-dokumen Web yang miripberdasarkan kemunculan istilah pentingPendekatan: mengidentifikasi istilah yang sering munculpada setiap dokumen, mengukur kemiripan berdasarkanfrekwensi kemunculan istilah pada dokumen lainnyaHasil: Web search engine memunculkandokumen-dokumen yang mirip (dalam 1 gugus)berdasarkan istilah yang dicari
30 Avinanta Tarigan Data Mining
Clustering
Contoh Aplikasi II
Segmentasi Pasar:
Tujuan: mencari gugus segmentasi pasar berdasarkan datatransaksi untuk keperluan marketingPendekatan:
mempersiapkan data beserta atribut data pelangganberdasarkan geografi dan data pribadi lainnyamencari gugus pelanggan yang mirip berdasarkan atribut2tsbmelakukan observasi perilaku pasar berdasarkangugus-gugus pelanggan yang ditemukan
Hasil: strategi marketing yang tepat sasaran
31 Avinanta Tarigan Data Mining
Clustering
Mengukur Kemiripan Atribut Data I
Kemiripan (Similarity):
ukuran dalam numerik [0,1] yang merepresentasikankemiripan antara 2 obyek0 (tidak mirip) < range-kemiripan < 1(sama/mirip sekali)
Ketidakmiripan (Disimilarity) vs Kemiripan
p dan q adalah nilai atribut dari 2 obyekTipe Atribut Ketidakmiripan Kemiripan
Nominal d =
{0 ifp = q1 ifp 6= q
s =
{0 ifp 6= q1 ifp = q
Ordinal d = |p−q|n s = 1− |p−q|
nInterval / Ratio d = |p−q| s =−d atau s = 1
1+d
32 Avinanta Tarigan Data Mining
Clustering
Mengukur Kemiripan Atribut Data II
Pengukuran kemiripan variabel kontinyu:
Euclidean Distance:dist =
√∑
ni=1 (pi −qi)
2
Minkowski Distance:dist =
(∑
ni=1 |pi −qi |r
) 1r
33 Avinanta Tarigan Data Mining
Clustering
Mengukur Kemiripan Atribut Data IIIContoh Euclidean Distance
34 Avinanta Tarigan Data Mining
Clustering
Contoh Algoritma Pencari Gugus
K -Means Clustering, Konsep: Centroid→ titik tengahgugusAlgoritma (asumsi: sudah dilakukan pengukurankemiripan)
1 Tentukan K points sebagai awal centroids2 Repeat3 Buat K buah gugus dengan memasukkan point-point
yang dekat dengan centroid4 Cari centroid baru dari gugus-gugus tersebut5 Until Centroid tidak berubah
35 Avinanta Tarigan Data Mining
Clustering
Ilustrasi K-Means
36 Avinanta Tarigan Data Mining
Penutup
Outline
1 Pengertian Dasar
2 Classification Mining
3 Association Mining
4 Clustering
5 Penutup
37 Avinanta Tarigan Data Mining
Penutup
OnLine Analytical Processing I
Diusulkan oleh E.F. Codd (Bapak Relational Database)
Data tidak diolah dari database, melainkan dibentuk dalamarray multidimensi
Data dapat direpresentasikan sebagai titik / point dalamruang multi-dimensi jika atribut2nya adalah numerik
Matriks m×n dapat merepresentasikan model data tsb,dimana terdapat m obyek dan n atribut (Data Cube)
Keuntungan: explorasi, operasi, dan transformasi datadapat lebih mudah dilakukan dan (hampir) real-time
38 Avinanta Tarigan Data Mining
Penutup
OnLine Analytical Processing II
Banyak analisis terhadap transaksi bisnis dengan volumebesar dapat dilakukan dengan menggunakan OLAPOLAP menjadi Jargon banyak Vendor
39 Avinanta Tarigan Data Mining
Penutup
Informasi Mengenai Data Mining
Tan, Steinbach, Kumar, “Introduction to Data Mining”
http://en.wikipedia.org/wiki/Data_mining
40 Avinanta Tarigan Data Mining
Penutup
Selesai
TERIMAKASIH
presentasi ini sendiri dapat didownload dari
http://avinanta.staff.gunadarma.ac.id
41 Avinanta Tarigan Data Mining