fuzzy decision tree dengan algoritma c4.5 pada … · •tentukan / inputkan nilai fuzziness...
TRANSCRIPT
4 February 2011
MAHASISWA
Umi Hanik(5108100509)
DOSEN PEMBIMBING 1
Prof. Dr. Ir. Joko Lianto Buliali, M. Sc.
DOSEN PEMBIMBING 2
Ahmad Saikhu, S.SI., MT.
SEMINAR TUGAS AKHIR
FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA DATA DIABETES INDIAN PIMA
1
LATAR BELAKANGDiabetes
AtauTidak Diabetes
Diabetes WHO dan Federasi Diabetes
Internasional (IDF)
Terdekteksi
Tidak Terdeteksi
4 February 2011 2
60%40%
Melakukan uji untuk penyakitdiabetes sesuai dengankriteria Organisasi KesehatanDunia yang dilakukan padasejumlah perempuan dariwarisan Pima India dantinggal di dekatPhoenix, Arizona sebanyak768 objek.
Vincent SigillitoUS National Institute of Diabetes
UCI machine learning repository09 Mei 1990
4 February 2011 3
TUJUAN
Tugas akhir ini membuat rancangan, menganalisa dan melakukan ujicoba metodeklasifikasi fuzzy decision tree pada data diabetes untuk menghasilkan aturan klasifikasiyang dapat digunakan untuk memprediksigejala seseorang pasien terserang penyakitdiabetes.
4 February 2011 4
DATA DIABETES
Attribute Type
Number of times pregnant continuous
Plasma glucose concentration continuous
Diastolic blood pressure (mm Hg) continuous
Triceps skin fold thickness (mm) continuous
2-Hour serum insulin (mu U/ml) continuous
Body mass index [weight in kg/(height in m)] continuous
Diabetes pedigree function continuous
Age (years) continuous
4 February 2011 5
Attribute Type
Number of times pregnant continuous
Plasma glucose concentration continuous
Diastolic blood pressure (mm Hg) continuous
Triceps skin fold thickness (mm) continuous
2-Hour serum insulin (mu U/ml) continuous
Body mass index [weight in kg/(height in m)] continuous
Diabetes pedigree function continuous
Age (years) continuous
FUZZY
4 February 2011
LINGUISTIC
6
DATA DIABETES
PROSES TRAINING DAN TESTING
Data Diabetes
Data Training Data Testing
Prapemrosesan
Persebaran Data
Tabel kuarrtil
seluruh data
training
Proses Pemilihan Domain fuzzy
Tabel referensi
standart
Proses Fuzzy
Rules
Pembentukan tree
Dengan Algoritma C45 dengan dan
tanpa pruning
(Training)
Diagnosa
Proses Pemilihan Domain fuzzy
Proses Fuzzy
Hasil Diagnosa
Testing
Training
Normalisasi Data Transformasi Data
4 February 2011 7
FUZZY
4 February 2011 8
REFERENSI FUZZY
Kode Pemeriksaan Satuan Dibawah
Normal
Normal Diatas Normal
number of times pregnant (time) 0-1 2-4 5-20
plasma glucose concentration a 2
hours in an oral glucose tolerance
test (OGTT)
mg/dl 0-140 140-199 200-250
diastolic blood pressure (D) mm Hg 0-60 60-80 80-200
triceps skin fold thickness (T) mm 0-16,5 16,5-28 30-150
2-Hour serum insulin (IPOST) mu U/ml 0-120 120-140 140-1000
body mass index (BMI) Kg/m2 0-18.8 18.5-
24.9
24.9 -100
diabetes pedigree function(F) 0 - 0,5 0,5 – 1 1 - 3
Age (A) years 0-17 17-24 24-100
Kode Pemeriksaan Satuan Dibawah
Normal
Normal Diatas
Normal
number of times pregnant (time) 0-2 2-5 5-17
plasma glucose concentration a 2
hours in an oral glucose tolerance
test (OGTT)
mg/dl 0-105 105-130 130-199
diastolic blood pressure (D) mm Hg 0-66 66-76 76-122
triceps skin fold thickness (T) mm 0-13 13-30 30-99
2-Hour serum insulin (IPOST) mu U/ml 0 0-94 94-846
body mass index (BMI) Kg/m2 0-28.9 28.9-34.7 34.7-67.1
diabetes pedigree function(F) 0-0.268 0.268-0.529 0.529-2.42
Age (A) years 0-25 25-36 36-81
Tabel referensi standard Tabel Referensi data kuartil
4 February 2011 9
FUNGSI KEANGGOTAAN HIMPUNAN FUZZY DIASTOLIC BLOOD PRESSURE DENGAN REFERENSI STANDAR
0 : Rendah1 : Normal2 : Tinggi
rendah=[0 0 55 65]; jika 0-60 normal=[55 65 75 85]; jika 60 - 80 tinggi=[75 85 125 125]; jika 80-200
4 February 2011 10
FUNGSI KEANGGOTAAN HIMPUNAN FUZZY DIASTOLIC BLOOD PRESSURE DENGAN REFERENSI STANDAR
4 February 2011 11
rendah=[0 0 55 65]; jika 0-60 normal=[55 65 75 85]; jika 60 - 80 tinggi=[75 85 125 125]; jika 80-200
64
FUNGSI KEANGGOTAAN HIMPUNAN FUZZY DIASTOLIC BLOOD PRESSURE DENGAN REFERENSI STANDAR
4 February 2011 12
FUNGSI KEANGGOTAAN HIMPUNAN FUZZY DIASTOLIC BLOOD PRESSURE DENGAN REFERENSI STANDAR
0,74
0,19
64
4 February 2011 13
FUNGSI KEANGGOTAAN HIMPUNAN FUZZY DIASTOLIC BLOOD PRESSURE DENGAN REFERENSI STANDAR
0,74
0,19
64
NORMAL(1)
4 February 2011 14
PEMBENTUKAN HIMPUNAN FUZZY
4 February 2011 15
PEMBENTUKAN TREE
ALGORITMA C4.5
1. Pilih atribut sebagai akar2. Buat cabang untuk masing-
masing nilai3. Bagi kasus dalam cabang4. Ulangi proses untuk masing-
masing cabang sampaisemua kasus pada cabangmemiliki kelas yang sama.
4 February 2011 16
PILIH ATRIBUT SEBAGAI AKAR
Mencari Nilai ENTROPI
4 February 2011
Keterangan :
S : Himpunan kasus
n : jumlah partisi S
pi : Proporsi Si terhadap S
17
Keterangan
S : Himpunan kasus
A : Atribut
n : jumlah partisi A
|Si| : Jumlah kasus pada partisi ke i
|S| : Jumlah kasus dalam S
4 February 2011
Mencari Nilai GAIN
PILIH ATRIBUT SEBAGAI AKAR (CONTINUE)
18
BUAT CABANG UNTUK MASING-MASING NILAI
Pilih Nilai Gain tertingi sebagai Root node Buat Cabang (Internal node) pada Root Node
4 February 2011 19
BAGI KASUS DALAM CABANG
Hitung jumlah kasus dari Root node dengan Internal node nya
Hitung nilai entropy
Hitung Gain
4 February 2011 20
KASUS PADA CABANG MEMILIKI KELAS YANG SAMA
Masing-masing cabang sampai semua kasus padacabang memiliki kelas yang sama Leaf Node (Terminal node) Beri label Target
4 February 2011 21
PRUNING
• Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr
• Jika proporsi dari himpunan data dari kelas Si lebih besar atau sama dengan nilai threshold θr, maka hentikan ekspansi tree.
• Tentukan / inputkan nilai Leaf decision threshold (LDT) / θn
• Jika banyaknya anggota himpunan data padasuatu node lebih kecil dari threshold θn, hentikanekspansi tree.
4 February 2011 22
AKURASI
Keterangan:
TP : True Positive
TN : True Negative
FP : False positive
FN : False Negative
4 February 2011 23
Pembentukan Rule untuk θr : 80 dan θn : 101. (2) -- 0 = 02. (2) -- 1-- (1) -- 0 = 03. (2) -- 1-- (1) -- 1 = 04. (2) -- 1-- (1) -- 2 = 05. (2) -- 2-- (6) -- 1 = 06. (2) -- 2-- (6) -- 2-- (1) -- 0 = 17. (2) -- 2-- (6) -- 2-- (1) -- 1 = 18. (2) -- 2-- (6) -- 2-- (1) -- 2-- (7) -- 0 = 19. (2) -- 2-- (6) -- 2-- (1) -- 2-- (7) -- 1 = 110. (2) -- 2-- (6) -- 2-- (1) -- 2-- (7) -- 2 = 1
PEMBENTUKAN TREE
0 : Rendah 2 : Tinggi1 : Normal Internal Node
1 : Diabetes0 : Tidak Diabetes
Leaf Node
Keterangan :(1) : Number of times pregnant (2) : Plasma glucose concentration(7) : Diabetes pedigree function
Node
4 February 2011 24
UJI COBA
• K-Fold Cross Validation
Yaitu membagi data sample secara acak kedalam K subset yang saling bebas. Satu subset sebagai data pengujian dan K-1 subset sebagaidata pelatihan. Proses cross-validation akandiulang sampai K kali
4 February 2011 25
K-3 FOLD CROSS VALIDATION
• Dibagi 3 subset yang sama
• Setiap subset bernilai 256 objek sebagai data testing (pelatihan)
• 512 objek sebagai data training (uji coba)
4 February 2011 26
SKENARIO K-3 FOLD CROSS VALIDATION
Skenario Jumlah uji cobaDiperoleh
Skenario 1 3
Akurasi
Waktu
Rule
Skenario 2 3
Skenario 3 72
Skenario 4 72
Jumlah 150
4 February 2011 27
SKRENARIO 1
• Menguji data testing dengan proses fuzzydengan menggunakan referensi standar dantanpa pruning.
4 February 2011 28
SKRENARIO 2
• Menguji data testing dengan proses fuzzydengan menggunakan referensi data kuartildan tanpa pruning.
4 February 2011 29
SKRENARIO 3
• Menguji data testing dengan proses fuzzydengan menggunakan referensi standardengan pruning. Yang menggunakan Fuzzinesscontrol threshold (FCT) atau θr sebanyak 6 yaitu 75%, 80%, 85%, 90%, 95%, dan 98% serta Leaf decision threshold (LDT) atau θnsebanyak 4 yaitu 3%, 5%, 8%, dan 10%.
4 February 2011 30
SKRENARIO 4
• Skenario 4 (empat) menguji data testing denganproses fuzzy dengan menggunakan referensistandar dengan pruning. Yang menggunakanFuzziness control threshold (FCT) atau θrsebanyak 6 yaitu 75%, 80%, 85%, 90%, 95%, dan98% serta Leaf decision threshold (LDT) atau θnsebanyak 4 yaitu 3%, 5%, 8%, dan 10%.
• Mengetahui besarnya akurasi, waktu, dan ruleyang dihasilkan.
4 February 2011 31
HASIL UJI COBA TANPA PRUNING
Rata-Rata Uji Coba Tanpa Pruning
Akurasi
(%)
Rule yang
dihasilkan (rule)
Waktu
(detik)
1 2 1 2 1 2
69,14 64,45 177 229 0,5620 0,7237
4 February 2011
Keterangan :1. Referensi data standart2. Referansi data kuartil
32
HASIL UJI COBA DENGAN PRUNING
Tabel 5.10 Rata-rata hasil uji coba dengan pruning
1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2
75% 0.0783 0.083 0.0467 0.052 0.031 0.0623 0.042 0.0367 30 27 19 21 10 17 10 13 72,66 73,44 77,34 74,22 78,52 76,95 78,52 76,95
80% 0.2293 0.089 0.0413 0.0417 0.031 0.0417 0.0317 0.0367 30 29 19 21 10 17 10 13 72,66 73,05 77,34 74,22 78,52 76,95 78,52 76,85
85% 0.115 0.2447 0.0733 0.0683 0.0473 0.0473 0.052 0.042 47 38 29 24 18 19 18 15 71,88 73,05 77,73 74,22 78,91 76,95 78,91 76,95
90% 0.1253 0.1147 0.0887 0.099 0.0727 0.047 0.062 0.0467 56 50 36 30 24 23 24 17 71,88 73,05 77,73 74,22 78,91 76,95 78,91 76,95
95% 0.151 0.1457 0.104 0.083 0.0727 0.0627 0.0727 0.057 60 50 38 30 26 23 26 17 71,88 73,5 77,73 74,22 78,91 76,95 78,91 76,95
98% 0.224 0.1247 0.094 0.099 0.1093 0.068 0.0783 0.0783 67 56 41 32 26 35 26 19 71,88 73,5 77,73 74,22 78,91 76,95 78,91 76,95
Keterangan :
1 Referensi standard
2 Referensi Kuartil
5% 8% 10%10% 3% 5% 8% 10% 3%θr
Waktu (detik) Jumlah aturan (rule) Akurasi (%)
θn θn θn
3% 5% 8%
Hasil uji coba dengan pruning
4 February 2011 33
KESIMPULAN
• Dengan pruning dihasilkan tingkat akurasi yang lebih tinggi dari pada tidak memakai pruning, dari69,14% ke 78,91%.
• Pembagian data himpunan fuzzy denganmenggunakan referensi data standart denganpruning memiliki tingkat akurasi lebih tinggi78,91% dibandingkan dengan referensi data kuartil 76,95%.
• Semakin tinggi θr dan θn, semakin tinggi tingkatakurasi
4 February 2011 34
SARAN
• Perlu dibuat proses pembentukan fungsi fuzzy yang lain selain menggunkan model trapezoidal, seperti model segitiga, kurva S, dan kurva PI agar dapat diketahui pengaruhfungsi keanggotaan fuzzy terhadap akurasi.
4 February 2011 35
4 February 2011 36