tgsdm3_ kelompok 7

Algoritma Data Mining KlasifikasiNama kelompok :

1. Dani Wardyanto ( A11.2012.06881 )

2. Vina Anindya ( A11.2012.06890 )

3. Tri Cahya Utama ( A11.2012.06899 )

4. Ayu Rizki ( A11.2011.06042 )

5. Denny Septianto ( A11.2012.07110 )

6. Alvian Yuda P. ( A11.2012.07112 )

Definisi Klasifikasi

Klasifikasi adalah tindakan untuk memberikan kelompok pada pada setiap keadaan.setiap keadaan berisi sekelompok atribut salah satunya adalah class attribute.metode ini butuh untuk menemukan sebuah model yang dapat menjelaskan class atribute itu sebagai fungsi dari input atribute.

Tujuan dan manfaat

Untuk mempermudah dalam mengklasifikasikan data yang sangat besar berdasarkan label atau syarat tertentu.

Macam macam algoritma klasifikasi data mining

Algoritma klasifikasi yang biasa digunakan adalah:

Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, etc

Naïve Bayes

Thomas Bayes mengemukakan sebuah klasifikasi dengan metode probabilitas dan statistik. Dikenal dengan torema Bayes yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya

K-Nearest Neighbor

Algoritma K-Nearest Neighbor merupakan metode klasifikasi terhadap objek dari data yang jaraknya paling dekat dengan objek tersebut dengan objek pada data baru atau data testingk-nearest neighbor (kNN) termasuk kelompok instance-based learning. Algoritma ini juga merupakan salah satu teknik lazy learning.

C4.5

Algoritma yang digunakan untuk membangun sebuah pohon keputusan yang mudah dimengerti, fleksibel, dan menarik karena dapat divisualisasikan dalam bentuk gambar. Pohon keputusan tersebut mampu menghasilkan keputusan kompleks menjadi lebih sederhana. Algoritma C4.5 merupakan pengembangan dari ID3

ID3

ID3 sendiri merupakan singkatan dari Iterative Dichotomiser 3. Algoritma ID3 adalah sebuah algoritma yang dikategorikan dalam Algoritma Learning. ID3 merupakan algoritma yang dipergunakan untuk membangun sebuah decision tree atau pohon keputusan.

CART

CART (Classifcation and Regression Tree) atau disebuat juga teknik pohon keputusan. Nilai tingkat kesalahan yang paling kecil pada pohon klasifikasi yang dihasilkan akan cenderung membuat pohon ini digunakan untuk memperkirakan respon. Prinsip dari metode pohon klasifikasi ini adalah memilah seluruh amatan menjadi dua gugus amatan dan memilah kembali gugus amatan tersebut menjadi dua gugus amatan berikutnya, hingga diperoleh jumlah amatan minimum pada tiap-tiap gugus amatan berikutnya dan seterusnya

Decision Tree

Pengertian Decision tree . .

Decision tree adalah pemetaan mengenai alternatif-alternatif pemecahan masalah yang dapat di ambil dari masalah tersebut.

Macam-macam Decision tree

1. C.452. C.503. ID34. J48

1.C.45 adalah Algoritma yang digunakan untuk membangun sebuah pohon keputusan yang mudah dimengerti, fleksibel, dan menarik karena dapat divisualisasikan dalam bentuk gambar. Pohon keputusan tersebut mampu menghasilkan keputusan kompleks menjadi lebih sederhana. Algoritma C4.5 merupakan pengembangan dari ID3

2. ID3 (Iterative Dichotomiser Three) atau yang disebut juga dengan Induction of Decision Tree adalah suatu algoritma matematika yang digunakan untuk menghasilkan suatu pohon keputusan yang mampu mengklasifikasi suatu obyek. Pengertian laindari ID3 yaitu ID3 merupakan sebuah metode yang digunakan untuk membangkitkan pohon keputusan.Algoritma pada ID3 berbasis pada Occam's eazor: lebih memilih pohon keputusan yang lebih kecil (teori sederhana) dibanding yang lebih besar. Tetapi tidak dapat selalu menghasilkan pohon keputusan yang paling kecil dan karena itu Occam's razor bersifat heuristik. Occam;s razor diformalisasi menggunakan konsep dari entropi informasi.

3. Algoritma C5.0 adalah salah satu algortitma klasifikasi data mining yang khususnya diterapkan pada teknikdecision tree. Dalam algoritma ini pemilihan atribut yang akan diproses menggunakan information gain. Dalam memilih atribut untuk pemecah obyek dalam beberapa kelas harus dipilih atribut yang menghasilkan information gainpaling besar. Atribut dengan nilai information gaintertinggi akan dipilih sebagai parentbagi nodeselanjutnya.

Formula untuk information gain adalah (Kantardzic, 2003):

4. Algoritma J48 merupakan pengembangan dari Algoritma konvensional induksi pohon keputusan yang sangat terkenl yaitu ID3. Algoritma yang merupakan pengembangan dari ID3 ini dapat mengklasifikasikan data dengan metode pohon keputusan yang memiliki kelebihan dapat mengolah data numerik (kontinyu) dan diskret, dapat menangani nilai atribut yang hilang, menghasilkan aturan-aturan yang mudah diinterpretasikan, dan tercepat diantara algoritma-algoritma yang menggunakan memori utama di komputer.

RAPID MINER

• DATABASE

• Desicion Tree

• HASIL

Membuat Decision Tree C4.5 Manual

Siapkan data yang akan diklasifikasikanContoh :

No Bermain Golf

Kelembapan

Cuaca Berangin

1 Yes Low Sunny No

2 No Low Rain No

3 No Medium Sunny Yes

4 Yes High Sunny No

Kemudian tentukan label dari tabel tersebut. Dari contoh tabel dari slide sebelumnya di tentukan labelnya bermain golf. Selanjutnya tentukan nilai entropy (total) dari atribut tersebut. dengan cara :

Entropy (total) : (2/4*log₂(2/4))+(2/4*log₂(2/4)) = 1

Keterangan :2 yang sebelah kiri didapat dari jumlah yes

dan 2 yang sebelah kanan di dapat dari jumlah no dari atribut bermain golf dan 4 di dapat dari jumlah total atribut bermain golf

Untuk memudahkan langkah selanjutnya buatlah tabel seperti berikut :

Jumlah Yes No Entropy Gain

Total 4 2 2 1

Kelembapan

Low 2 1 1

Medium 1 0 1

High 1 1 0

Cuaca

Sunny 3 2 1

Rain 1 0 1

Berangin

Yes 1 0 1

No 3 2 1

Setelah itu cari entropy masing – masing bagian dari atribut selain label, dengan cara yang sama dengan mencari entropy (total).Hasilnya seperti ini : Jumlah Yes No Entropy Gain

Total 4 2 2 1

Kelembapan

Low 2 1 1 1

Medium 1 0 1 0

High 1 1 0 0

Cuaca

Sunny 3 2 1 0.918

Rain 1 0 1 0

Berangin

Yes 1 0 1 0

No 3 2 1 0.918

Selanjutnya mencari gain dari masing – masing atribut, ini untuk menentukan akar yang utama dari decision tree. Dengan cara :

Gain (Kelembapan) : 1 – ((2/4*1)+(1/4*0)+(1/4*0)) = 0.5

Keterangan :1 merupakan entropy (total)2/4, 2 didapat dari jumlah low dan 4 dari jumlah

label2/4*1, 1 didapat dari nilai entropy dari lowDan seterusnya sama

Hasilnya seperti ini :

Jumlah Yes No Entropy Gain

Total 4 2 2 1

Kelembapan 0.5

Low 2 1 1 1

Medium 1 0 1 0

High 1 1 0 0

Cuaca 0.312

Sunny 3 2 1 0.918

Rain 1 0 1 0

Berangin 0.312

Yes 1 0 1 0

No 3 2 1 0.918

Selanjutnya cari nilai gain yang paling tinggi, sehingga didapatkan akar yang pertama. Dan untuk menentukan dapat bermain atau tidak di dapat dari melihat nilai yes dan no dari tabel atribut kelembapan.

Karena nilai yes dan no di atribut kelembapan low masih belum jelas, maka dicari akar selanjutnya dengan cara yang sama seperti sebelumnya.

1Kelembapan

Yes 1.1?

No

HighLow

Medium

Selanjutnya dibuat tabel kelembapan low karena atribut kelembapan low masih belum diketahui apakah bisa bermain golf atau tidak.

Cara seperti sebelumnya :Jumlah Yes No Entropy Gain

Kelembapan Low 2 1 1 1

Cuaca 1

Sunny 1 1 0 0

Rain 1 0 1 0

Berangin 0

Yes 0 0 0 0

No 2 1 1 1

Dan dengan dari tabel diatas didapatkan hasil seperti berikut :

1Kelembapan

Yes 1.1Cuaca

No

HighLow

Medium

Yes No

Sunny Rain

Terima Kasih

tgsdm3_ kelompok 7

Technology