topik khusus 1
DESCRIPTION
Pertemuan III. Topik Khusus 1. Oleh : Achmad Zakki Falani Universitas Narotama Fakultas Ilmu Komputer. Topik Khusus 1. Permasalahan Kenapa Harus ada DM?. Data yang disimpan dalam waktu yang lama akan menjadi kumpulan data yang berukuran sangat besar . Permasalahan : - PowerPoint PPT PresentationTRANSCRIPT
Topik Khusus 1Oleh:
Achmad Zakki FalaniUniversitas NarotamaFakultas Ilmu Komputer
Pertemuan III
Permasalahan Kenapa Harus ada DM?.. Data yang disimpan dalam waktu yang lama
akan menjadi kumpulan data yang berukuran sangat besar.
Permasalahan:Bagaimana caranya agar data tersebut dapat menjadi PENGETAHUAN / KNOWLEDGE (INFORMASI yang PENTING / BERHARGA).
Topik Khusus 1
Definis Data Mining Ekstraksi atau "menambang" pengetahuan dari data
dalam jumlah yang besar. (Jia Weihan)
Proses pencarian terhadap pengetahuan – yang sebelumnya tidak diketahui; valid; dan dapat digunakan ‐‐ dari database yang besar dan kemudian menggunakan pengetahuan tersebut untuk membuat keputusan bisnis yang penting. (Cabena)
Topik Khusus 1
Data Mining Solusi BI Apa itu Data Mining?..Data?..Mining?...
Topik Khusus 1
Istilah2 Database dalam DM
Topik Khusus 1
Field (Columns) = Attributes Record (Rows) = Instance
KDD vs DMTopik Khusus 1
Data Mining = Knowledge Discovery in Databases / KDD. (Cabena).
Data Mining = subset (salah satu tahap) dari KDD saja (Jiawei Han). Batasan ini yang selanjutnya digunakan.
DM
KDD
Tujuan DM (1)Topik Khusus 1
Menemukan pola‐pola pengetahuan yang tersembunyi dalam data. Dimana knowledge tersebut dapat digunakan untuk decision making, process control, information management, atau query processing.
Top LevelManagement
Medium LevelManagement
Low LevelManagement
Knowledge
Informasi
Data
Tujuan DM (2)Topik Khusus 1
Contoh-contoh yang dapat dilakukan DM: Market segmentation ‐ Identify the common characteristics of
customers who buy the same products from your company. Customer churn ‐ Predict which customers are likely to leave your
company and go to a competitor. Fraud detection ‐ Identify which transactions are most likely to be
fraudulent. Direct marketing ‐ Identify which prospects should be included in
a mailing list to obtain the highest response rate. Interactive marketing ‐ Predict what each individual accessing a
Web site is most likely interested in seeing. Market basket analysis ‐ Understand what products or services
are commonly purchased together; e.g., beer and diapers. Trend analysis ‐ Reveal the difference between a typical customer
this month and last.
Sumber: http://www.laits.utexas.edu/~norman/BUS.FOR/course.mat/Alex
Jenis Data yang Dapat di Mining
Topik Khusus 1
Non / Relational Databases Data Warehouse Transactional Database Text Database Multimedia Database World Wide Web (Web Mining)
Knowledge
Tahapan Proses KDDversi Jia Weihan
Topik Khusus 1
Database
Data Warehouse
Data Mining
Patterns
Cleaning & Integration
Selection & Transformation
Data Mining
Evaluation & Presentation
Topik Khusus 1
1. Business Objective Determination2. Data Preparation:
- Data Selection- Data Preprocessing- Data Transformation
3. Data Mining4. Analisys of Results5. Knowledge
Tahapan Proses KDDversi Peter Cabena
Topik Khusus 1
Mendefinisikan permasalahan atau tantangan bisnis dengan jelas.
Tahapan ini sangat penting tapi sering diabaikan/jarang disebut.
Dengan ditentukan Business Objective Determinationnya, dapat diketahui atribut mana yang diperlukan untuk proses mining
Business Objective Determination (1)
Topik Khusus 1
Suatu bank hendak melakukan penawaran produk investasi (reksadana), tabungan berjangka (deposito), atau aplikasi kartu kredit. Bank tersebut akan menggunakan data yang telah ada, dimana dari data tersebut didapatkan beberapa perilaku customer yang dapat dipelajari dan dijadikan referensi.
Business Objective DeterminationContoh:
Topik Khusus 1
Data Cleaning: Digunakan untuk menghilangkan noise dan yang inkonsisten.
Data integration: Menggabungkan berbagai macam sumber data.
Data Preparation (2)Contoh:
Topik Khusus 1
Mempersiapkan data yang diperlukan untuk proses data mining.
Tujuan: agar data yang digunakan benar - benar sesuai dengan permasalahan yang akan dipecahkan, dapat dijamin kebernarannya, dan dalam format yang sesuai.
Tahapan ini paling banyak menghabiskan resources (manusia, biaya, dan waktu) yang tersedia. Biasanya mencapai 60% dari seluruh proyek KDD
Data Preparation (2)
Topik Khusus 1
Garbage in Garbage Out: Tanpa tersedianya data yang berkualitas, hasil dari proses mining akan kurang bermutu / baik.
Pengambilan keputusan yang bermutu harus dihasilkan dari data yang bermutu pula.
Contoh:Alamat -> Surabaya
sbysby-jatim
Motivasi Preparation (2)
Topik Khusus 1
Noise adalah kesalahan yang terjadi secara random atau karena variasi yang terjadi dalam pengukuran variabel
Bagaimana mengatasinya?? Solusi: Smoothing Pendekatan Smoothing:1. Binning2. Clustering3. Regression
Noisy Data
Topik Khusus 1
Metode‐metode binning menghaluskan nilai pada data yang terurut dengan memperhatikan nilai‐nilai yang ada di sekitarnya.
Nilai‐nilai yang terurut didistribusikan ke dalam sejumlah “buckets” atau bins.
Penghalusan data dilakukan secara lokal.
Binning
Topik Khusus 1
Binning ada 3 pendekatan yaitu:1. Bin‐means2. Bin‐medians3. Bin‐boundaries
Binning
Topik Khusus 1
Terdapat data acak dengan urutan sebagai berikut: 4,15,21,8,25,34,28,24,21
Lakukan binning dengan equidepth=3
Sorting data : 4,8,15,21,21,24,25,28,34Partition into (equidepth) binning:Bin 1: 4, 8 , 15Bin 2: 21, 21, 24Bin 3: 25, 28, 34
Contoh Soal
Topik Khusus 1
Bin 1: 9, 9, 9 Bin 2: 22, 22, 22 Bin 3: 29, 29, 29
Bin-Means (nilai rata-rata)
Topik Khusus 1
Bin 1: 8, 8, 8 Bin 2: 21, 21, 21 Bin 3: 28, 28, 28
Bin-Median (nilai tengah)
Topik Khusus 1
Bin 1: 4, 4, 15 Bin 2: 21, 21, 24 Bin 3: 25, 25, 34
Bin-Boundaris (nilai batas)
Topik Khusus 1
Terdapat data acak dengan urutan sebagai berikut: 2,16,20,9,24,31,29,23,27
Lakukan binning dengan equidepth=3
Contoh Soal
Topik Khusus 1
PRISM R1-HOLTE Clasification Rule Hunts ID3 …dll…
Data MiningTeknik
Topik Khusus 1
Diperkenalkan oleh J. Cendrowska (1987). Termasuk kategori algoritma covering, berbeda dengan
ID3 yang termasuk dalam kategori algoritma divide and conquer.
Disebut dengan pendekatan covering, karena pada setiap stage diidentifikasi rule yang mengcover sejumlah instances.
Output algoritma PRISM adalah sejumlah classification rules.
PRISM hanya menghasilkan rule‐rule yang sempurna atau 100% benar.
Data MiningPRISM
Topik Khusus 1Data MiningAlgoritma PRISM
Topik Khusus 1PRISMDatasheet
Total Instance?...
Topik Khusus 1Data MiningPRISM
Topik Khusus 1Data MiningPRISM
Topik Khusus 1Data MiningPRISM
Topik Khusus 1Data MiningPRISM
Topik Khusus 1Data MiningPRISM
Topik Khusus 1Data MiningPRISM
Topik Khusus 1Data MiningPRISM – Latihan Soal