tgsdm3_ kelompok 7

31
Algoritma Data Mining Klasifikasi Nama kelompok : 1. Dani Wardyanto ( A11.2012.06881 ) 2. Vina Anindya ( A11.2012.06890 ) 3. Tri Cahya Utama ( A11.2012.06899 ) 4. Ayu Rizki ( A11.2011.06042 ) 5. Denny Septianto ( A11.2012.07110 ) 6. Alvian Yuda P. ( A11.2012.07112 )

Upload: alvian-yudha-prawira

Post on 17-Jan-2015

134 views

Category:

Technology


4 download

DESCRIPTION

tugas kelompok data mining klo ada kurang bisa di tambah

TRANSCRIPT

Page 1: tgsdm3_ kelompok 7

Algoritma Data Mining KlasifikasiNama kelompok :

1. Dani Wardyanto ( A11.2012.06881 )

2. Vina Anindya ( A11.2012.06890 )

3. Tri Cahya Utama ( A11.2012.06899 )

4. Ayu Rizki ( A11.2011.06042 )

5. Denny Septianto ( A11.2012.07110 )

6. Alvian Yuda P. ( A11.2012.07112 )

Page 2: tgsdm3_ kelompok 7

Definisi Klasifikasi

Klasifikasi adalah tindakan untuk memberikan kelompok pada pada setiap keadaan.setiap keadaan berisi sekelompok atribut salah satunya adalah class attribute.metode ini butuh untuk menemukan sebuah model yang dapat menjelaskan class atribute itu sebagai fungsi dari input atribute.

Page 3: tgsdm3_ kelompok 7

Tujuan dan manfaat

Untuk mempermudah dalam mengklasifikasikan data yang sangat besar berdasarkan label atau syarat tertentu.

Page 4: tgsdm3_ kelompok 7

Macam macam algoritma klasifikasi data mining

Algoritma klasifikasi yang biasa digunakan adalah:

Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, etc

Page 5: tgsdm3_ kelompok 7

Naïve Bayes

Thomas Bayes mengemukakan sebuah klasifikasi dengan metode probabilitas dan statistik. Dikenal dengan torema Bayes yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya

Page 6: tgsdm3_ kelompok 7

K-Nearest Neighbor

Algoritma K-Nearest Neighbor merupakan metode klasifikasi terhadap objek dari data yang jaraknya paling dekat dengan objek tersebut dengan objek pada data baru atau data testingk-nearest neighbor (kNN) termasuk kelompok instance-based learning. Algoritma ini juga merupakan salah satu teknik lazy learning.

Page 7: tgsdm3_ kelompok 7

C4.5

Algoritma yang digunakan untuk membangun sebuah pohon keputusan yang mudah dimengerti, fleksibel, dan menarik karena dapat divisualisasikan dalam bentuk gambar. Pohon keputusan tersebut mampu menghasilkan keputusan kompleks menjadi lebih sederhana. Algoritma C4.5 merupakan pengembangan dari ID3

Page 8: tgsdm3_ kelompok 7

ID3

ID3 sendiri merupakan singkatan dari Iterative Dichotomiser 3. Algoritma ID3 adalah sebuah algoritma yang dikategorikan dalam Algoritma Learning. ID3 merupakan algoritma yang dipergunakan untuk membangun sebuah decision tree atau pohon keputusan.

Page 9: tgsdm3_ kelompok 7

CART

CART (Classifcation and Regression Tree) atau disebuat juga teknik pohon keputusan. Nilai tingkat kesalahan yang paling kecil pada pohon klasifikasi yang dihasilkan akan cenderung membuat pohon ini digunakan untuk memperkirakan respon. Prinsip dari metode pohon klasifikasi ini adalah memilah seluruh amatan menjadi dua gugus amatan dan memilah kembali gugus amatan tersebut menjadi dua gugus amatan berikutnya, hingga diperoleh jumlah amatan minimum pada tiap-tiap gugus amatan berikutnya dan seterusnya

Page 10: tgsdm3_ kelompok 7

Decision Tree

Page 11: tgsdm3_ kelompok 7

Pengertian Decision tree . .

Decision tree adalah pemetaan mengenai alternatif-alternatif pemecahan masalah yang dapat di ambil dari masalah tersebut.

Page 12: tgsdm3_ kelompok 7

Macam-macam Decision tree

1. C.452. C.503. ID34. J48

Page 13: tgsdm3_ kelompok 7

1.C.45 adalah Algoritma yang digunakan untuk membangun sebuah pohon keputusan yang mudah dimengerti, fleksibel, dan menarik karena dapat divisualisasikan dalam bentuk gambar. Pohon keputusan tersebut mampu menghasilkan keputusan kompleks menjadi lebih sederhana. Algoritma C4.5 merupakan pengembangan dari ID3

Page 14: tgsdm3_ kelompok 7

2. ID3 (Iterative Dichotomiser Three) atau yang disebut juga dengan Induction of Decision Tree adalah suatu algoritma matematika yang digunakan untuk menghasilkan suatu pohon keputusan yang mampu mengklasifikasi suatu obyek. Pengertian laindari ID3  yaitu ID3 merupakan sebuah metode yang digunakan untuk membangkitkan pohon keputusan.Algoritma pada ID3 berbasis pada Occam's eazor: lebih memilih pohon keputusan yang lebih kecil (teori sederhana) dibanding yang lebih besar. Tetapi tidak dapat selalu menghasilkan pohon keputusan yang paling kecil dan karena itu Occam's razor bersifat heuristik. Occam;s razor diformalisasi menggunakan konsep dari entropi informasi.

Page 15: tgsdm3_ kelompok 7

3. Algoritma C5.0 adalah salah satu algortitma klasifikasi data mining yang khususnya diterapkan pada teknikdecision tree. Dalam algoritma ini pemilihan atribut yang akan diproses menggunakan information gain. Dalam memilih atribut untuk pemecah obyek dalam beberapa kelas harus dipilih atribut yang menghasilkan information gainpaling besar. Atribut dengan nilai information gaintertinggi akan dipilih sebagai parentbagi nodeselanjutnya.

Page 16: tgsdm3_ kelompok 7

Formula untuk information gain adalah (Kantardzic, 2003):

Page 17: tgsdm3_ kelompok 7

4. Algoritma J48 merupakan pengembangan dari Algoritma konvensional induksi pohon keputusan yang sangat terkenl yaitu ID3. Algoritma yang merupakan pengembangan dari ID3 ini dapat mengklasifikasikan data dengan metode pohon keputusan yang memiliki kelebihan dapat mengolah data numerik (kontinyu) dan diskret, dapat menangani nilai atribut yang hilang, menghasilkan aturan-aturan yang mudah diinterpretasikan, dan tercepat diantara algoritma-algoritma yang menggunakan memori utama di komputer.

Page 18: tgsdm3_ kelompok 7

RAPID MINER

• DATABASE

Page 19: tgsdm3_ kelompok 7

• Desicion Tree

Page 20: tgsdm3_ kelompok 7
Page 21: tgsdm3_ kelompok 7

• HASIL

Page 22: tgsdm3_ kelompok 7

Membuat Decision Tree C4.5 Manual

Siapkan data yang akan diklasifikasikanContoh :

No Bermain Golf

Kelembapan

Cuaca Berangin

1 Yes Low Sunny No

2 No Low Rain No

3 No Medium Sunny Yes

4 Yes High Sunny No

Page 23: tgsdm3_ kelompok 7

Kemudian tentukan label dari tabel tersebut. Dari contoh tabel dari slide sebelumnya di tentukan labelnya bermain golf. Selanjutnya tentukan nilai entropy (total) dari atribut tersebut. dengan cara :

Entropy (total) : (2/4*log₂(2/4))+(2/4*log₂(2/4)) = 1

Keterangan :2 yang sebelah kiri didapat dari jumlah yes

dan 2 yang sebelah kanan di dapat dari jumlah no dari atribut bermain golf dan 4 di dapat dari jumlah total atribut bermain golf

Page 24: tgsdm3_ kelompok 7

Untuk memudahkan langkah selanjutnya buatlah tabel seperti berikut :

Jumlah Yes No Entropy Gain

Total 4 2 2 1

Kelembapan

Low 2 1 1

Medium 1 0 1

High 1 1 0

Cuaca

Sunny 3 2 1

Rain 1 0 1

Berangin

Yes 1 0 1

No 3 2 1

Page 25: tgsdm3_ kelompok 7

Setelah itu cari entropy masing – masing bagian dari atribut selain label, dengan cara yang sama dengan mencari entropy (total).Hasilnya seperti ini : Jumlah Yes No Entropy Gain

Total 4 2 2 1

Kelembapan

Low 2 1 1 1

Medium 1 0 1 0

High 1 1 0 0

Cuaca

Sunny 3 2 1 0.918

Rain 1 0 1 0

Berangin

Yes 1 0 1 0

No 3 2 1 0.918

Page 26: tgsdm3_ kelompok 7

Selanjutnya mencari gain dari masing – masing atribut, ini untuk menentukan akar yang utama dari decision tree. Dengan cara :

Gain (Kelembapan) : 1 – ((2/4*1)+(1/4*0)+(1/4*0)) = 0.5

Keterangan :1 merupakan entropy (total)2/4, 2 didapat dari jumlah low dan 4 dari jumlah

label2/4*1, 1 didapat dari nilai entropy dari lowDan seterusnya sama

Page 27: tgsdm3_ kelompok 7

Hasilnya seperti ini :

Jumlah Yes No Entropy Gain

Total 4 2 2 1

Kelembapan 0.5

Low 2 1 1 1

Medium 1 0 1 0

High 1 1 0 0

Cuaca 0.312

Sunny 3 2 1 0.918

Rain 1 0 1 0

Berangin 0.312

Yes 1 0 1 0

No 3 2 1 0.918

Page 28: tgsdm3_ kelompok 7

Selanjutnya cari nilai gain yang paling tinggi, sehingga didapatkan akar yang pertama. Dan untuk menentukan dapat bermain atau tidak di dapat dari melihat nilai yes dan no dari tabel atribut kelembapan.

Karena nilai yes dan no di atribut kelembapan low masih belum jelas, maka dicari akar selanjutnya dengan cara yang sama seperti sebelumnya.

1Kelembapan

Yes 1.1?

No

HighLow

Medium

Page 29: tgsdm3_ kelompok 7

Selanjutnya dibuat tabel kelembapan low karena atribut kelembapan low masih belum diketahui apakah bisa bermain golf atau tidak.

Cara seperti sebelumnya :Jumlah Yes No Entropy Gain

Kelembapan Low 2 1 1 1

Cuaca 1

Sunny 1 1 0 0

Rain 1 0 1 0

Berangin 0

Yes 0 0 0 0

No 2 1 1 1

Page 30: tgsdm3_ kelompok 7

Dan dengan dari tabel diatas didapatkan hasil seperti berikut :

1Kelembapan

Yes 1.1Cuaca

No

HighLow

Medium

Yes No

Sunny Rain

Page 31: tgsdm3_ kelompok 7

Terima Kasih