tgsdm3_ kelompok 7
DESCRIPTION
tugas kelompok data mining klo ada kurang bisa di tambahTRANSCRIPT
Algoritma Data Mining KlasifikasiNama kelompok :
1. Dani Wardyanto ( A11.2012.06881 )
2. Vina Anindya ( A11.2012.06890 )
3. Tri Cahya Utama ( A11.2012.06899 )
4. Ayu Rizki ( A11.2011.06042 )
5. Denny Septianto ( A11.2012.07110 )
6. Alvian Yuda P. ( A11.2012.07112 )
Definisi Klasifikasi
Klasifikasi adalah tindakan untuk memberikan kelompok pada pada setiap keadaan.setiap keadaan berisi sekelompok atribut salah satunya adalah class attribute.metode ini butuh untuk menemukan sebuah model yang dapat menjelaskan class atribute itu sebagai fungsi dari input atribute.
Tujuan dan manfaat
Untuk mempermudah dalam mengklasifikasikan data yang sangat besar berdasarkan label atau syarat tertentu.
Macam macam algoritma klasifikasi data mining
Algoritma klasifikasi yang biasa digunakan adalah:
Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, etc
Naïve Bayes
Thomas Bayes mengemukakan sebuah klasifikasi dengan metode probabilitas dan statistik. Dikenal dengan torema Bayes yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya
K-Nearest Neighbor
Algoritma K-Nearest Neighbor merupakan metode klasifikasi terhadap objek dari data yang jaraknya paling dekat dengan objek tersebut dengan objek pada data baru atau data testingk-nearest neighbor (kNN) termasuk kelompok instance-based learning. Algoritma ini juga merupakan salah satu teknik lazy learning.
C4.5
Algoritma yang digunakan untuk membangun sebuah pohon keputusan yang mudah dimengerti, fleksibel, dan menarik karena dapat divisualisasikan dalam bentuk gambar. Pohon keputusan tersebut mampu menghasilkan keputusan kompleks menjadi lebih sederhana. Algoritma C4.5 merupakan pengembangan dari ID3
ID3
ID3 sendiri merupakan singkatan dari Iterative Dichotomiser 3. Algoritma ID3 adalah sebuah algoritma yang dikategorikan dalam Algoritma Learning. ID3 merupakan algoritma yang dipergunakan untuk membangun sebuah decision tree atau pohon keputusan.
CART
CART (Classifcation and Regression Tree) atau disebuat juga teknik pohon keputusan. Nilai tingkat kesalahan yang paling kecil pada pohon klasifikasi yang dihasilkan akan cenderung membuat pohon ini digunakan untuk memperkirakan respon. Prinsip dari metode pohon klasifikasi ini adalah memilah seluruh amatan menjadi dua gugus amatan dan memilah kembali gugus amatan tersebut menjadi dua gugus amatan berikutnya, hingga diperoleh jumlah amatan minimum pada tiap-tiap gugus amatan berikutnya dan seterusnya
Decision Tree
Pengertian Decision tree . .
Decision tree adalah pemetaan mengenai alternatif-alternatif pemecahan masalah yang dapat di ambil dari masalah tersebut.
Macam-macam Decision tree
1. C.452. C.503. ID34. J48
1.C.45 adalah Algoritma yang digunakan untuk membangun sebuah pohon keputusan yang mudah dimengerti, fleksibel, dan menarik karena dapat divisualisasikan dalam bentuk gambar. Pohon keputusan tersebut mampu menghasilkan keputusan kompleks menjadi lebih sederhana. Algoritma C4.5 merupakan pengembangan dari ID3
2. ID3 (Iterative Dichotomiser Three) atau yang disebut juga dengan Induction of Decision Tree adalah suatu algoritma matematika yang digunakan untuk menghasilkan suatu pohon keputusan yang mampu mengklasifikasi suatu obyek. Pengertian laindari ID3 yaitu ID3 merupakan sebuah metode yang digunakan untuk membangkitkan pohon keputusan.Algoritma pada ID3 berbasis pada Occam's eazor: lebih memilih pohon keputusan yang lebih kecil (teori sederhana) dibanding yang lebih besar. Tetapi tidak dapat selalu menghasilkan pohon keputusan yang paling kecil dan karena itu Occam's razor bersifat heuristik. Occam;s razor diformalisasi menggunakan konsep dari entropi informasi.
3. Algoritma C5.0 adalah salah satu algortitma klasifikasi data mining yang khususnya diterapkan pada teknikdecision tree. Dalam algoritma ini pemilihan atribut yang akan diproses menggunakan information gain. Dalam memilih atribut untuk pemecah obyek dalam beberapa kelas harus dipilih atribut yang menghasilkan information gainpaling besar. Atribut dengan nilai information gaintertinggi akan dipilih sebagai parentbagi nodeselanjutnya.
Formula untuk information gain adalah (Kantardzic, 2003):
4. Algoritma J48 merupakan pengembangan dari Algoritma konvensional induksi pohon keputusan yang sangat terkenl yaitu ID3. Algoritma yang merupakan pengembangan dari ID3 ini dapat mengklasifikasikan data dengan metode pohon keputusan yang memiliki kelebihan dapat mengolah data numerik (kontinyu) dan diskret, dapat menangani nilai atribut yang hilang, menghasilkan aturan-aturan yang mudah diinterpretasikan, dan tercepat diantara algoritma-algoritma yang menggunakan memori utama di komputer.
RAPID MINER
• DATABASE
• Desicion Tree
• HASIL
Membuat Decision Tree C4.5 Manual
Siapkan data yang akan diklasifikasikanContoh :
No Bermain Golf
Kelembapan
Cuaca Berangin
1 Yes Low Sunny No
2 No Low Rain No
3 No Medium Sunny Yes
4 Yes High Sunny No
Kemudian tentukan label dari tabel tersebut. Dari contoh tabel dari slide sebelumnya di tentukan labelnya bermain golf. Selanjutnya tentukan nilai entropy (total) dari atribut tersebut. dengan cara :
Entropy (total) : (2/4*log₂(2/4))+(2/4*log₂(2/4)) = 1
Keterangan :2 yang sebelah kiri didapat dari jumlah yes
dan 2 yang sebelah kanan di dapat dari jumlah no dari atribut bermain golf dan 4 di dapat dari jumlah total atribut bermain golf
Untuk memudahkan langkah selanjutnya buatlah tabel seperti berikut :
Jumlah Yes No Entropy Gain
Total 4 2 2 1
Kelembapan
Low 2 1 1
Medium 1 0 1
High 1 1 0
Cuaca
Sunny 3 2 1
Rain 1 0 1
Berangin
Yes 1 0 1
No 3 2 1
Setelah itu cari entropy masing – masing bagian dari atribut selain label, dengan cara yang sama dengan mencari entropy (total).Hasilnya seperti ini : Jumlah Yes No Entropy Gain
Total 4 2 2 1
Kelembapan
Low 2 1 1 1
Medium 1 0 1 0
High 1 1 0 0
Cuaca
Sunny 3 2 1 0.918
Rain 1 0 1 0
Berangin
Yes 1 0 1 0
No 3 2 1 0.918
Selanjutnya mencari gain dari masing – masing atribut, ini untuk menentukan akar yang utama dari decision tree. Dengan cara :
Gain (Kelembapan) : 1 – ((2/4*1)+(1/4*0)+(1/4*0)) = 0.5
Keterangan :1 merupakan entropy (total)2/4, 2 didapat dari jumlah low dan 4 dari jumlah
label2/4*1, 1 didapat dari nilai entropy dari lowDan seterusnya sama
Hasilnya seperti ini :
Jumlah Yes No Entropy Gain
Total 4 2 2 1
Kelembapan 0.5
Low 2 1 1 1
Medium 1 0 1 0
High 1 1 0 0
Cuaca 0.312
Sunny 3 2 1 0.918
Rain 1 0 1 0
Berangin 0.312
Yes 1 0 1 0
No 3 2 1 0.918
Selanjutnya cari nilai gain yang paling tinggi, sehingga didapatkan akar yang pertama. Dan untuk menentukan dapat bermain atau tidak di dapat dari melihat nilai yes dan no dari tabel atribut kelembapan.
Karena nilai yes dan no di atribut kelembapan low masih belum jelas, maka dicari akar selanjutnya dengan cara yang sama seperti sebelumnya.
1Kelembapan
Yes 1.1?
No
HighLow
Medium
Selanjutnya dibuat tabel kelembapan low karena atribut kelembapan low masih belum diketahui apakah bisa bermain golf atau tidak.
Cara seperti sebelumnya :Jumlah Yes No Entropy Gain
Kelembapan Low 2 1 1 1
Cuaca 1
Sunny 1 1 0 0
Rain 1 0 1 0
Berangin 0
Yes 0 0 0 0
No 2 1 1 1
Dan dengan dari tabel diatas didapatkan hasil seperti berikut :
1Kelembapan
Yes 1.1Cuaca
No
HighLow
Medium
Yes No
Sunny Rain
Terima Kasih