laelakurniawati.files.wordpress.com · web viewhipertensi = yes • r3 = if berat = overweight and...

55
Studi Kasus 2 Algoritma C4.5

Upload: others

Post on 02-Feb-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

Studi Kasus 2

Algoritma C4.5

Algoritma C4.5

Pada akhir tahun 1970 sampai awal tahun 1980 J. Ross Quinlan, seorang peneliti di bidang machine

learning, membuat sebuah algoritma decision tree

yang dikenal dengan ID3 (Iterative Dichotomiser).

Quinlan kemudian membuat algoritma C4.5 (sering disebut dengan pohon keputusan) yang merupakan

pengembangan dari algoritma ID3 (Han, 2006).

Algoritma C4.5-2

Algoritma ini memiliki kelebihan, yaitu mudah dimengerti, fleksibel, dan menarik karena dapat

divisualisasikan dalam bentuk gambar (pohon keputusan) (Gorunescu, 2011).

Algoritma C4.5 merupakan struktur pohon dimana terdapat simpul yang mendeskripsikan atribut-

atribut, setiap cabang menggambarkan hasil dari

atribut yang diuji, dan setiap daun menggambarkan kelas

Algoritma C4.5-3

Algoritma C4.5 secara rekursif mengunjungi setiap simpul keputusan, memilih pembagian yang optimal,

sampai tidak bisa dibagi lagi.

Algoritma C4.5 menggunakan konsep information gain atau entropy reduction untuk memilih pembagian

yang optimal (Han, 2006).

Ada beberapa tahap dalam membuat sebuah pohon keputusan dengan algoritma C4.5 (Kusrini, 2009),

yaitu :

Algoritma C4.5-4

1. Menyiapkan data training.

Data training biasanya diambil dari data histori yang pernah terjadi sebelumnya dan sudah dikelompokkan ke dalam kelas-kelas tertentu.

Algoritma C4.5-5

2. Menentukan akar dari pohon

Akar akan diambil dari atribut yang terpilih, dengan

cara menghitung nilai gain dari masing-masing atribut, nilai gain yang paling tinggi yang akan menjadi akar pertama. Sebelum menghitung nilai gain dari atribut, hitung dahulu nilai entropy. Untuk menghitung nilai

entropy digunakan rumus:

Keterangan:

S = himpunan kasus

n = jumlah partisi S

pi = proporsi Si terhadap S

Algoritma C4.5-6

3. Kemudian hitung nilai gain menggunakan rumus:

Keterangan:

S = himpunan kasus

A = fitur

n = jumlah partisi atribut A

│Si│ = proporsi Si terhadap S │S│ = jumlah kasus dalam S

Algoritma C4.5-7

4. Ulangi langkah ke-2 hingga semua record terpartisi.

5. Proses partisi pohon keputusan akan berhenti saat :

a. Semua record dalam simpul N mendapat kelas yang

sama.

b. Tidak ada atribut di dalam record yang dipartisi lagi.

c. Tidak ada record di dalam cabang yang kosong.

Contoh Pohon keputusan menjadi Rule

• R1 = IF Berat=Average Or

berat = Underweight THEN Hipertensi = Tidak

• R2 = IF Berat = Overweight And Kelamin = wanita THEN

Hipertensi = Yes

• R3 = IF Berat = Overweight And Kelamin = Pria And Usia

= Muda THEN Hipertensi = Yes

• R4 = IF Berat = Overweight And Kelamin = Pria And Usia = Tua THEN Hipertensi = Tidak

ALGORITMA C4.5

CONTOH KASUS

STUDY KASUS Algoritma C4.5

Tabel dibawah adalah contoh data training apakah seorang nasabah bermasalah dalam kredit atau tidak (Larose, 2005).

http://web2.0calc.com/

Node

Attribut

Nilai

Jum. Kasus

Good

Bad

Entropy

Gain

1

Saving

High

2

1

1

Medium

3

3

0

Low

3

1

2

2

Assets

High

2

2

0

Medium

4

3

1

Low

2

0

2

3

Income

STUDY KASUS Algoritma C4.5 -2

Data training pada Tabel diatas adalah untuk menentukan apakah seorang nasabah bermasalah atau

tidak, ditentukan oleh kolom predictor saving, asset, dan income.

Kolom credit risk adalah kelas dari masing-masing record.

Langkah-Langkah Algoritma C4.5

1. Tabel diatas adalah data training beserta kelasnya.

Untuk atribut income yang bernilai angka, dibuat dalam bentuk kategori, yaitu income<=25, income>25,

income<=50, income>50, income<=75, income>75.

2. Hitung nilai entropy.

Dari data training diketahui jumlah kasus ada 8, yang beresiko kredit good 5 record dan Bad 3 record sehingga didapat entropy:

Langkah-Langkah Algoritma C4.5 -2

3. Hitung nilai gain untuk tiap atribut, lalu tentukan nilai gain tertinggi.

Yang mempunyai nilai gain tertinggi itulah yang akan dijadikan akar dari pohon.

Misalkan untuk atribut saving dengan nilai low didapat nilai gain:

Langkah-Langkah Algoritma C4.5 -3

Hasil perhitungan gain untuk tiap atribut terlihat pada Tabel berikut. Nilai gain tertinggi akan manjadi akar dari pohon.

angkah-Langkah Algoritma C4.5 -4

Terlihat dari tabel diatas atribut, asset mempunyai nilai low, medium, dan high.

Nilai low dan high masing-masing sudah menjadi satu klasifikasi karena pada data training, semua

asset menghasilkan keputusan yang sama yaitu bad

untuk nilai low dan good untuk nilai high.

Sedangkan untuk simpul dengan nilai medium perlu dipartisi lagi.

Langkah-Langkah Algoritma C4.5 -5

Gambar diatas adalah hasil pembentukan pohon keputusan berdasarkan perhitungan yang terdapat pada Tabel diatas.

Dari hasil perhitungan didapat nilai gain tertinggi untuk atribut asset, maka asset menjadi akar dari pohon

keputusan.

Untuk menentukan akar dari atribut medium, dilakukan lagi perhitungan nilai gain.

STUDY KASUS

ALGORITMA C4.5

ALGORITMA C4.5

Algoritma C4.5 merupakan salah satu algoritma machine learning.

Dengan algoritma ini, mesin (komputer) akan diberikan sekelompok data untuk dipelajari yang disebut learning

dataset.

Kemudian hasil dari pembelajaran selanjutnya akan digunakan untuk mengolah data-data yang baru yang

disebut test dataset.

Karena algoritma C4.5 digunakan untuk melakukan klasifikasi, jadi hasil dari pengolahan test dataset berupa

pengelompokkan data ke dalam kelas-kelasnya.

ALGORITMA C4.5 -2

Berikut ini adalah uraian langkah-langkah dalam algoritma C4.5 untuk menyelesaikan kasus suatu

pertandingan tenis akan dilakukan atau tidak, berdasarkan keadaan cuaca, suhu, kelembaban, dan angin.

Data yang telah ada pada Tabel 1, akan digunakan untuk membentuk pohon keputusan.

ALGORITMA C4.5 -3

ALGORITMA C4.5 -4

A. Menghitung Jumlah Kasus

Jumlah kasus untuk keputusan Yes, jumlah kasus untuk keputusan No, dan Entropy dari semua kasus dan kasus

yang dibagi berdasarkan atribut Cuaca, Suhu, Kelembaban, dan Berangin.

Berikut rumus Entropy

ALGORITMA C4.5 -5

A. Menghitung Jumlah Kasus

Setelah itu lakukan penghitungan Gain untuk masing-masing atribut.

ALGORITMA C4.5 -6

A. Menghitung Jumlah Kasus

Pada Tabel 1, atribut-atributnya adalah Cuaca, Suhu, Kelembaban, dan Berangin.

Setiap atribut memiliki nilai.

Sedangkan kelasnya ada pada kolom Main yaitu kelas “Tidak” dan kelas “Ya”.

Kemudian data tersebut dianalisis; dataset tersebut memiliki 14 kasus yang terdiri 10 “Ya” dan 4 “Tidak”

pada kolom Main

ALGORITMA C4.5 -7

A. Menghitung Jumlah Kasus

Setelah mendapatkan entropi dari keseluruhan kasus, lakukan analisis pada setiap atribut dan nilai-nilainya

dan hitung entropinya seperti yang ditampilkan pada Tabel dibawah ini

Perhitungan Nilai Entropi dan Gain

Perhitungan Nilai Entropi dan Gain

Untuk menghitung gain setiap atribut rumusnya adalah :

Perhitungan Nilai Entropi dan Gain

Hitung pula Gain (Suhu), Gain (Kelembaban), dan Gain (Berangin).

Hasilnya dapat dilihat pada Tabel dibawah ini.

Perhitungan Nilai Entropi dan Gain

Perhitungan Nilai Entropi dan Gain

Karena nilai gain terbesar adalah Gain (Kelembaban), Maka Kelembaban menjadi node akar (root node).

Berikut Pohon keputusan untuk node 1 yang

terbentuk

Perhitungan Nilai Entropi dan Gain -2

Kemudian pada kelembaban normal, memiliki 7

kasus dan semuanya memiliki jawaban Ya

(Sum(Total) / Sum(Ya) = 7/7 = 1).

Dengan demikian kelembaban normal menjadi daun atau leaf.

Lihat Tabel sebelumnya yang selnya berwarna hijau

Berdasarkan pembentukan pohon keputusan node 1 (root node), Node 1.1 akan dianalisis lebih lanjut.

Untuk mempermudah, Tabel 1 difilter, dengan

mengambil data yang memiliki Kelembaban = Tinggi sehingga jadilah Tabel seperti di bawah ini.

Kemudian data di Tabel diatas dianalisis dan dihitung lagi entropi atribut Kelebaban Tinggi dan

entropi setiap atribut serta gainnya sehingga hasilnya seperti data pada Tabel selanjutnya.

Setelah itu tentukan pilih atribut yang memiliki gain tertinggi untuk dibuatkan node berikutnya.

Berikut nilai Entropy dari tabel di atas

Nilai Entropi dan Gain

Nilai Entropi dan Gain secara lengkap

Dari Tabel diatas, gain tertinggi ada pada atribut Cuaca, dan Nilai yang dijadikan daun atau leaf adalah

Berawan dan Cerah.

Jika divualisasi maka pohon keputusan tampak seperti Gambar berikut.

Untuk menganalisis node 1.1.2, lakukan lagi

langkah-langkah yang sama seperti sebelumnya.

Hasilnya ditampilkan pada Tabel dibawah ini.

Nilai Entropi dan Gain secara lengkap

Pohon Keputusan

ALGORITMA C 4.5

Pada gambar diatas, semua kasus pada pohon keputusan sudah masuk ke dalam kelas sehingga tidak ada lagi

kasus/atribut yang dapat dipartisi.

Pohon keputusan dari gambar diatas dapat diekstraksi sejumlah aturan, yaitu :

1. R1: IF humidity=high AND THEN play=yes

2. R2: IF humidity=high AND outlook=rainy AND windy=false THEN play=yes

3. R3: IF humidity=high AND outlook=rainy AND windy=true THEN play=no

4. R4: IF humidity=high AND outlook=sunny THEN play=no

5. R5: IF humidity=normal THEN play=yes