fuzzy decision tree dengan algoritma c4.5 pada … · •tentukan / inputkan nilai fuzziness...

36
4 February 2011 MAHASISWA Umi Hanik(5108100509) DOSEN PEMBIMBING 1 Prof. Dr. Ir. Joko Lianto Buliali, M. Sc. DOSEN PEMBIMBING 2 Ahmad Saikhu, S.SI., MT. SEMINAR TUGAS AKHIR FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA DATA DIABETES INDIAN PIMA 1

Upload: truongnga

Post on 28-Mar-2019

242 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

4 February 2011

MAHASISWA

Umi Hanik(5108100509)

DOSEN PEMBIMBING 1

Prof. Dr. Ir. Joko Lianto Buliali, M. Sc.

DOSEN PEMBIMBING 2

Ahmad Saikhu, S.SI., MT.

SEMINAR TUGAS AKHIR

FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA DATA DIABETES INDIAN PIMA

1

Page 2: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

LATAR BELAKANGDiabetes

AtauTidak Diabetes

Diabetes WHO dan Federasi Diabetes

Internasional (IDF)

Terdekteksi

Tidak Terdeteksi

4 February 2011 2

60%40%

Page 3: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

Melakukan uji untuk penyakitdiabetes sesuai dengankriteria Organisasi KesehatanDunia yang dilakukan padasejumlah perempuan dariwarisan Pima India dantinggal di dekatPhoenix, Arizona sebanyak768 objek.

Vincent SigillitoUS National Institute of Diabetes

UCI machine learning repository09 Mei 1990

4 February 2011 3

Page 4: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

TUJUAN

Tugas akhir ini membuat rancangan, menganalisa dan melakukan ujicoba metodeklasifikasi fuzzy decision tree pada data diabetes untuk menghasilkan aturan klasifikasiyang dapat digunakan untuk memprediksigejala seseorang pasien terserang penyakitdiabetes.

4 February 2011 4

Page 5: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

DATA DIABETES

Attribute Type

Number of times pregnant continuous

Plasma glucose concentration continuous

Diastolic blood pressure (mm Hg) continuous

Triceps skin fold thickness (mm) continuous

2-Hour serum insulin (mu U/ml) continuous

Body mass index [weight in kg/(height in m)] continuous

Diabetes pedigree function continuous

Age (years) continuous

4 February 2011 5

Page 6: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

Attribute Type

Number of times pregnant continuous

Plasma glucose concentration continuous

Diastolic blood pressure (mm Hg) continuous

Triceps skin fold thickness (mm) continuous

2-Hour serum insulin (mu U/ml) continuous

Body mass index [weight in kg/(height in m)] continuous

Diabetes pedigree function continuous

Age (years) continuous

FUZZY

4 February 2011

LINGUISTIC

6

DATA DIABETES

Page 7: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

PROSES TRAINING DAN TESTING

Data Diabetes

Data Training Data Testing

Prapemrosesan

Persebaran Data

Tabel kuarrtil

seluruh data

training

Proses Pemilihan Domain fuzzy

Tabel referensi

standart

Proses Fuzzy

Rules

Pembentukan tree

Dengan Algoritma C45 dengan dan

tanpa pruning

(Training)

Diagnosa

Proses Pemilihan Domain fuzzy

Proses Fuzzy

Hasil Diagnosa

Testing

Training

Normalisasi Data Transformasi Data

4 February 2011 7

Page 8: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

FUZZY

4 February 2011 8

Page 9: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

REFERENSI FUZZY

Kode Pemeriksaan Satuan Dibawah

Normal

Normal Diatas Normal

number of times pregnant (time) 0-1 2-4 5-20

plasma glucose concentration a 2

hours in an oral glucose tolerance

test (OGTT)

mg/dl 0-140 140-199 200-250

diastolic blood pressure (D) mm Hg 0-60 60-80 80-200

triceps skin fold thickness (T) mm 0-16,5 16,5-28 30-150

2-Hour serum insulin (IPOST) mu U/ml 0-120 120-140 140-1000

body mass index (BMI) Kg/m2 0-18.8 18.5-

24.9

24.9 -100

diabetes pedigree function(F) 0 - 0,5 0,5 – 1 1 - 3

Age (A) years 0-17 17-24 24-100

Kode Pemeriksaan Satuan Dibawah

Normal

Normal Diatas

Normal

number of times pregnant (time) 0-2 2-5 5-17

plasma glucose concentration a 2

hours in an oral glucose tolerance

test (OGTT)

mg/dl 0-105 105-130 130-199

diastolic blood pressure (D) mm Hg 0-66 66-76 76-122

triceps skin fold thickness (T) mm 0-13 13-30 30-99

2-Hour serum insulin (IPOST) mu U/ml 0 0-94 94-846

body mass index (BMI) Kg/m2 0-28.9 28.9-34.7 34.7-67.1

diabetes pedigree function(F) 0-0.268 0.268-0.529 0.529-2.42

Age (A) years 0-25 25-36 36-81

Tabel referensi standard Tabel Referensi data kuartil

4 February 2011 9

Page 10: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

FUNGSI KEANGGOTAAN HIMPUNAN FUZZY DIASTOLIC BLOOD PRESSURE DENGAN REFERENSI STANDAR

0 : Rendah1 : Normal2 : Tinggi

rendah=[0 0 55 65]; jika 0-60 normal=[55 65 75 85]; jika 60 - 80 tinggi=[75 85 125 125]; jika 80-200

4 February 2011 10

Page 11: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

FUNGSI KEANGGOTAAN HIMPUNAN FUZZY DIASTOLIC BLOOD PRESSURE DENGAN REFERENSI STANDAR

4 February 2011 11

rendah=[0 0 55 65]; jika 0-60 normal=[55 65 75 85]; jika 60 - 80 tinggi=[75 85 125 125]; jika 80-200

64

Page 12: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

FUNGSI KEANGGOTAAN HIMPUNAN FUZZY DIASTOLIC BLOOD PRESSURE DENGAN REFERENSI STANDAR

4 February 2011 12

Page 13: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

FUNGSI KEANGGOTAAN HIMPUNAN FUZZY DIASTOLIC BLOOD PRESSURE DENGAN REFERENSI STANDAR

0,74

0,19

64

4 February 2011 13

Page 14: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

FUNGSI KEANGGOTAAN HIMPUNAN FUZZY DIASTOLIC BLOOD PRESSURE DENGAN REFERENSI STANDAR

0,74

0,19

64

NORMAL(1)

4 February 2011 14

Page 15: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

PEMBENTUKAN HIMPUNAN FUZZY

4 February 2011 15

Page 16: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

PEMBENTUKAN TREE

ALGORITMA C4.5

1. Pilih atribut sebagai akar2. Buat cabang untuk masing-

masing nilai3. Bagi kasus dalam cabang4. Ulangi proses untuk masing-

masing cabang sampaisemua kasus pada cabangmemiliki kelas yang sama.

4 February 2011 16

Page 17: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

PILIH ATRIBUT SEBAGAI AKAR

Mencari Nilai ENTROPI

4 February 2011

Keterangan :

S : Himpunan kasus

n : jumlah partisi S

pi : Proporsi Si terhadap S

17

Page 18: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

Keterangan

S : Himpunan kasus

A : Atribut

n : jumlah partisi A

|Si| : Jumlah kasus pada partisi ke i

|S| : Jumlah kasus dalam S

4 February 2011

Mencari Nilai GAIN

PILIH ATRIBUT SEBAGAI AKAR (CONTINUE)

18

Page 19: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

BUAT CABANG UNTUK MASING-MASING NILAI

Pilih Nilai Gain tertingi sebagai Root node Buat Cabang (Internal node) pada Root Node

4 February 2011 19

Page 20: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

BAGI KASUS DALAM CABANG

Hitung jumlah kasus dari Root node dengan Internal node nya

Hitung nilai entropy

Hitung Gain

4 February 2011 20

Page 21: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

KASUS PADA CABANG MEMILIKI KELAS YANG SAMA

Masing-masing cabang sampai semua kasus padacabang memiliki kelas yang sama Leaf Node (Terminal node) Beri label Target

4 February 2011 21

Page 22: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

PRUNING

• Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr

• Jika proporsi dari himpunan data dari kelas Si lebih besar atau sama dengan nilai threshold θr, maka hentikan ekspansi tree.

• Tentukan / inputkan nilai Leaf decision threshold (LDT) / θn

• Jika banyaknya anggota himpunan data padasuatu node lebih kecil dari threshold θn, hentikanekspansi tree.

4 February 2011 22

Page 23: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

AKURASI

Keterangan:

TP : True Positive

TN : True Negative

FP : False positive

FN : False Negative

4 February 2011 23

Page 24: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

Pembentukan Rule untuk θr : 80 dan θn : 101. (2) -- 0 = 02. (2) -- 1-- (1) -- 0 = 03. (2) -- 1-- (1) -- 1 = 04. (2) -- 1-- (1) -- 2 = 05. (2) -- 2-- (6) -- 1 = 06. (2) -- 2-- (6) -- 2-- (1) -- 0 = 17. (2) -- 2-- (6) -- 2-- (1) -- 1 = 18. (2) -- 2-- (6) -- 2-- (1) -- 2-- (7) -- 0 = 19. (2) -- 2-- (6) -- 2-- (1) -- 2-- (7) -- 1 = 110. (2) -- 2-- (6) -- 2-- (1) -- 2-- (7) -- 2 = 1

PEMBENTUKAN TREE

0 : Rendah 2 : Tinggi1 : Normal Internal Node

1 : Diabetes0 : Tidak Diabetes

Leaf Node

Keterangan :(1) : Number of times pregnant (2) : Plasma glucose concentration(7) : Diabetes pedigree function

Node

4 February 2011 24

Page 25: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

UJI COBA

• K-Fold Cross Validation

Yaitu membagi data sample secara acak kedalam K subset yang saling bebas. Satu subset sebagai data pengujian dan K-1 subset sebagaidata pelatihan. Proses cross-validation akandiulang sampai K kali

4 February 2011 25

Page 26: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

K-3 FOLD CROSS VALIDATION

• Dibagi 3 subset yang sama

• Setiap subset bernilai 256 objek sebagai data testing (pelatihan)

• 512 objek sebagai data training (uji coba)

4 February 2011 26

Page 27: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

SKENARIO K-3 FOLD CROSS VALIDATION

Skenario Jumlah uji cobaDiperoleh

Skenario 1 3

Akurasi

Waktu

Rule

Skenario 2 3

Skenario 3 72

Skenario 4 72

Jumlah 150

4 February 2011 27

Page 28: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

SKRENARIO 1

• Menguji data testing dengan proses fuzzydengan menggunakan referensi standar dantanpa pruning.

4 February 2011 28

Page 29: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

SKRENARIO 2

• Menguji data testing dengan proses fuzzydengan menggunakan referensi data kuartildan tanpa pruning.

4 February 2011 29

Page 30: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

SKRENARIO 3

• Menguji data testing dengan proses fuzzydengan menggunakan referensi standardengan pruning. Yang menggunakan Fuzzinesscontrol threshold (FCT) atau θr sebanyak 6 yaitu 75%, 80%, 85%, 90%, 95%, dan 98% serta Leaf decision threshold (LDT) atau θnsebanyak 4 yaitu 3%, 5%, 8%, dan 10%.

4 February 2011 30

Page 31: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

SKRENARIO 4

• Skenario 4 (empat) menguji data testing denganproses fuzzy dengan menggunakan referensistandar dengan pruning. Yang menggunakanFuzziness control threshold (FCT) atau θrsebanyak 6 yaitu 75%, 80%, 85%, 90%, 95%, dan98% serta Leaf decision threshold (LDT) atau θnsebanyak 4 yaitu 3%, 5%, 8%, dan 10%.

• Mengetahui besarnya akurasi, waktu, dan ruleyang dihasilkan.

4 February 2011 31

Page 32: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

HASIL UJI COBA TANPA PRUNING

Rata-Rata Uji Coba Tanpa Pruning

Akurasi

(%)

Rule yang

dihasilkan (rule)

Waktu

(detik)

1 2 1 2 1 2

69,14 64,45 177 229 0,5620 0,7237

4 February 2011

Keterangan :1. Referensi data standart2. Referansi data kuartil

32

Page 33: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

HASIL UJI COBA DENGAN PRUNING

Tabel 5.10 Rata-rata hasil uji coba dengan pruning

1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2

75% 0.0783 0.083 0.0467 0.052 0.031 0.0623 0.042 0.0367 30 27 19 21 10 17 10 13 72,66 73,44 77,34 74,22 78,52 76,95 78,52 76,95

80% 0.2293 0.089 0.0413 0.0417 0.031 0.0417 0.0317 0.0367 30 29 19 21 10 17 10 13 72,66 73,05 77,34 74,22 78,52 76,95 78,52 76,85

85% 0.115 0.2447 0.0733 0.0683 0.0473 0.0473 0.052 0.042 47 38 29 24 18 19 18 15 71,88 73,05 77,73 74,22 78,91 76,95 78,91 76,95

90% 0.1253 0.1147 0.0887 0.099 0.0727 0.047 0.062 0.0467 56 50 36 30 24 23 24 17 71,88 73,05 77,73 74,22 78,91 76,95 78,91 76,95

95% 0.151 0.1457 0.104 0.083 0.0727 0.0627 0.0727 0.057 60 50 38 30 26 23 26 17 71,88 73,5 77,73 74,22 78,91 76,95 78,91 76,95

98% 0.224 0.1247 0.094 0.099 0.1093 0.068 0.0783 0.0783 67 56 41 32 26 35 26 19 71,88 73,5 77,73 74,22 78,91 76,95 78,91 76,95

Keterangan :

1 Referensi standard

2 Referensi Kuartil

5% 8% 10%10% 3% 5% 8% 10% 3%θr

Waktu (detik) Jumlah aturan (rule) Akurasi (%)

θn θn θn

3% 5% 8%

Hasil uji coba dengan pruning

4 February 2011 33

Page 34: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

KESIMPULAN

• Dengan pruning dihasilkan tingkat akurasi yang lebih tinggi dari pada tidak memakai pruning, dari69,14% ke 78,91%.

• Pembagian data himpunan fuzzy denganmenggunakan referensi data standart denganpruning memiliki tingkat akurasi lebih tinggi78,91% dibandingkan dengan referensi data kuartil 76,95%.

• Semakin tinggi θr dan θn, semakin tinggi tingkatakurasi

4 February 2011 34

Page 35: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

SARAN

• Perlu dibuat proses pembentukan fungsi fuzzy yang lain selain menggunkan model trapezoidal, seperti model segitiga, kurva S, dan kurva PI agar dapat diketahui pengaruhfungsi keanggotaan fuzzy terhadap akurasi.

4 February 2011 35

Page 36: FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA … · •Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr •Jika proporsi dari himpunan data dari kelas Si lebih

4 February 2011 36