topik khusus 1

Post on 23-Feb-2016

99 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Pertemuan III. Topik Khusus 1. Oleh : Achmad Zakki Falani Universitas Narotama Fakultas Ilmu Komputer. Topik Khusus 1. Permasalahan Kenapa Harus ada DM?. Data yang disimpan dalam waktu yang lama akan menjadi kumpulan data yang berukuran sangat besar . Permasalahan : - PowerPoint PPT Presentation

TRANSCRIPT

Topik Khusus 1Oleh:

Achmad Zakki FalaniUniversitas NarotamaFakultas Ilmu Komputer

Pertemuan III

Permasalahan Kenapa Harus ada DM?.. Data yang disimpan dalam waktu yang lama

akan menjadi kumpulan data yang berukuran sangat besar.

Permasalahan:Bagaimana caranya agar data tersebut dapat menjadi PENGETAHUAN / KNOWLEDGE (INFORMASI yang PENTING / BERHARGA).

Topik Khusus 1

Definis Data Mining Ekstraksi atau "menambang" pengetahuan dari data

dalam jumlah yang besar. (Jia Weihan)

Proses pencarian terhadap pengetahuan – yang sebelumnya tidak diketahui; valid; dan dapat digunakan ‐‐ dari database yang besar dan kemudian menggunakan pengetahuan tersebut untuk membuat keputusan bisnis yang penting. (Cabena)

Topik Khusus 1

Data Mining Solusi BI Apa itu Data Mining?..Data?..Mining?...

Topik Khusus 1

Istilah2 Database dalam DM

Topik Khusus 1

Field (Columns) = Attributes Record (Rows) = Instance

KDD vs DMTopik Khusus 1

Data Mining = Knowledge Discovery in Databases / KDD. (Cabena).

Data Mining = subset (salah satu tahap) dari KDD saja (Jiawei Han). Batasan ini yang selanjutnya digunakan.

DM

KDD

Tujuan DM (1)Topik Khusus 1

Menemukan pola‐pola pengetahuan yang tersembunyi dalam data. Dimana knowledge tersebut dapat digunakan untuk decision making, process control, information management, atau query processing.

Top LevelManagement

Medium LevelManagement

Low LevelManagement

Knowledge

Informasi

Data

Tujuan DM (2)Topik Khusus 1

Contoh-contoh yang dapat dilakukan DM: Market segmentation ‐ Identify the common characteristics of

customers who buy the same products from your company. Customer churn ‐ Predict which customers are likely to leave your

company and go to a competitor. Fraud detection ‐ Identify which transactions are most likely to be

fraudulent. Direct marketing ‐ Identify which prospects should be included in

a mailing list to obtain the highest response rate. Interactive marketing ‐ Predict what each individual accessing a

Web site is most likely interested in seeing. Market basket analysis ‐ Understand what products or services

are commonly purchased together; e.g., beer and diapers. Trend analysis ‐ Reveal the difference between a typical customer

this month and last.

Sumber: http://www.laits.utexas.edu/~norman/BUS.FOR/course.mat/Alex

Jenis Data yang Dapat di Mining

Topik Khusus 1

Non / Relational Databases Data Warehouse Transactional Database Text Database Multimedia Database World Wide Web (Web Mining)

Knowledge

Tahapan Proses KDDversi Jia Weihan

Topik Khusus 1

Database

Data Warehouse

Data Mining

Patterns

Cleaning & Integration

Selection & Transformation

Data Mining

Evaluation & Presentation

Topik Khusus 1

1. Business Objective Determination2. Data Preparation:

- Data Selection- Data Preprocessing- Data Transformation

3. Data Mining4. Analisys of Results5. Knowledge

Tahapan Proses KDDversi Peter Cabena

Topik Khusus 1

Mendefinisikan permasalahan atau tantangan bisnis dengan jelas.

Tahapan ini sangat penting tapi sering diabaikan/jarang disebut.

Dengan ditentukan Business Objective Determinationnya, dapat diketahui atribut mana yang diperlukan untuk proses mining

Business Objective Determination (1)

Topik Khusus 1

Suatu bank hendak melakukan penawaran produk investasi (reksadana), tabungan berjangka (deposito), atau aplikasi kartu kredit. Bank tersebut akan menggunakan data yang telah ada, dimana dari data tersebut didapatkan beberapa perilaku customer yang dapat dipelajari dan dijadikan referensi.

Business Objective DeterminationContoh:

Topik Khusus 1

Data Cleaning: Digunakan untuk menghilangkan noise dan yang inkonsisten.

Data integration: Menggabungkan berbagai macam sumber data.

Data Preparation (2)Contoh:

Topik Khusus 1

Mempersiapkan data yang diperlukan untuk proses data mining.

Tujuan: agar data yang digunakan benar - benar sesuai dengan permasalahan yang akan dipecahkan, dapat dijamin kebernarannya, dan dalam format yang sesuai.

Tahapan ini paling banyak menghabiskan resources (manusia, biaya, dan waktu) yang tersedia. Biasanya mencapai 60% dari seluruh proyek KDD

Data Preparation (2)

Topik Khusus 1

Garbage in Garbage Out: Tanpa tersedianya data yang berkualitas, hasil dari proses mining akan kurang bermutu / baik.

Pengambilan keputusan yang bermutu harus dihasilkan dari data yang bermutu pula.

Contoh:Alamat -> Surabaya

sbysby-jatim

Motivasi Preparation (2)

Topik Khusus 1

Noise adalah kesalahan yang terjadi secara random atau karena variasi yang terjadi dalam pengukuran variabel

Bagaimana mengatasinya?? Solusi: Smoothing Pendekatan Smoothing:1. Binning2. Clustering3. Regression

Noisy Data

Topik Khusus 1

Metode‐metode binning menghaluskan nilai pada data yang terurut dengan memperhatikan nilai‐nilai yang ada di sekitarnya.

Nilai‐nilai yang terurut didistribusikan ke dalam sejumlah “buckets” atau bins.

Penghalusan data dilakukan secara lokal.

Binning

Topik Khusus 1

Binning ada 3 pendekatan yaitu:1. Bin‐means2. Bin‐medians3. Bin‐boundaries

Binning

Topik Khusus 1

Terdapat data acak dengan urutan sebagai berikut: 4,15,21,8,25,34,28,24,21

Lakukan binning dengan equidepth=3

Sorting data : 4,8,15,21,21,24,25,28,34Partition into (equidepth) binning:Bin 1: 4, 8 , 15Bin 2: 21, 21, 24Bin 3: 25, 28, 34

Contoh Soal

Topik Khusus 1

Bin 1: 9, 9, 9 Bin 2: 22, 22, 22 Bin 3: 29, 29, 29

Bin-Means (nilai rata-rata)

Topik Khusus 1

Bin 1: 8, 8, 8 Bin 2: 21, 21, 21 Bin 3: 28, 28, 28

Bin-Median (nilai tengah)

Topik Khusus 1

Bin 1: 4, 4, 15 Bin 2: 21, 21, 24 Bin 3: 25, 25, 34

Bin-Boundaris (nilai batas)

Topik Khusus 1

Terdapat data acak dengan urutan sebagai berikut: 2,16,20,9,24,31,29,23,27

Lakukan binning dengan equidepth=3

Contoh Soal

Topik Khusus 1

PRISM R1-HOLTE Clasification Rule Hunts ID3 …dll…

Data MiningTeknik

Topik Khusus 1

Diperkenalkan oleh J. Cendrowska (1987). Termasuk kategori algoritma covering, berbeda dengan

ID3 yang termasuk dalam kategori algoritma divide and conquer.

Disebut dengan pendekatan covering, karena pada setiap stage diidentifikasi rule yang mengcover sejumlah instances.

Output algoritma PRISM adalah sejumlah classification rules.

PRISM hanya menghasilkan rule‐rule yang sempurna atau 100% benar.

Data MiningPRISM

Topik Khusus 1Data MiningAlgoritma PRISM

Topik Khusus 1PRISMDatasheet

Total Instance?...

Topik Khusus 1Data MiningPRISM

Topik Khusus 1Data MiningPRISM

Topik Khusus 1Data MiningPRISM

Topik Khusus 1Data MiningPRISM

Topik Khusus 1Data MiningPRISM

Topik Khusus 1Data MiningPRISM

Topik Khusus 1Data MiningPRISM – Latihan Soal

top related