fuzzy decision tree dengan algoritma c4.5 pada … · •tentukan / inputkan nilai fuzziness...

Post on 28-Mar-2019

245 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

4 February 2011

MAHASISWA

Umi Hanik(5108100509)

DOSEN PEMBIMBING 1

Prof. Dr. Ir. Joko Lianto Buliali, M. Sc.

DOSEN PEMBIMBING 2

Ahmad Saikhu, S.SI., MT.

SEMINAR TUGAS AKHIR

FUZZY DECISION TREE DENGAN ALGORITMA C4.5 PADA DATA DIABETES INDIAN PIMA

1

LATAR BELAKANGDiabetes

AtauTidak Diabetes

Diabetes WHO dan Federasi Diabetes

Internasional (IDF)

Terdekteksi

Tidak Terdeteksi

4 February 2011 2

60%40%

Melakukan uji untuk penyakitdiabetes sesuai dengankriteria Organisasi KesehatanDunia yang dilakukan padasejumlah perempuan dariwarisan Pima India dantinggal di dekatPhoenix, Arizona sebanyak768 objek.

Vincent SigillitoUS National Institute of Diabetes

UCI machine learning repository09 Mei 1990

4 February 2011 3

TUJUAN

Tugas akhir ini membuat rancangan, menganalisa dan melakukan ujicoba metodeklasifikasi fuzzy decision tree pada data diabetes untuk menghasilkan aturan klasifikasiyang dapat digunakan untuk memprediksigejala seseorang pasien terserang penyakitdiabetes.

4 February 2011 4

DATA DIABETES

Attribute Type

Number of times pregnant continuous

Plasma glucose concentration continuous

Diastolic blood pressure (mm Hg) continuous

Triceps skin fold thickness (mm) continuous

2-Hour serum insulin (mu U/ml) continuous

Body mass index [weight in kg/(height in m)] continuous

Diabetes pedigree function continuous

Age (years) continuous

4 February 2011 5

Attribute Type

Number of times pregnant continuous

Plasma glucose concentration continuous

Diastolic blood pressure (mm Hg) continuous

Triceps skin fold thickness (mm) continuous

2-Hour serum insulin (mu U/ml) continuous

Body mass index [weight in kg/(height in m)] continuous

Diabetes pedigree function continuous

Age (years) continuous

FUZZY

4 February 2011

LINGUISTIC

6

DATA DIABETES

PROSES TRAINING DAN TESTING

Data Diabetes

Data Training Data Testing

Prapemrosesan

Persebaran Data

Tabel kuarrtil

seluruh data

training

Proses Pemilihan Domain fuzzy

Tabel referensi

standart

Proses Fuzzy

Rules

Pembentukan tree

Dengan Algoritma C45 dengan dan

tanpa pruning

(Training)

Diagnosa

Proses Pemilihan Domain fuzzy

Proses Fuzzy

Hasil Diagnosa

Testing

Training

Normalisasi Data Transformasi Data

4 February 2011 7

FUZZY

4 February 2011 8

REFERENSI FUZZY

Kode Pemeriksaan Satuan Dibawah

Normal

Normal Diatas Normal

number of times pregnant (time) 0-1 2-4 5-20

plasma glucose concentration a 2

hours in an oral glucose tolerance

test (OGTT)

mg/dl 0-140 140-199 200-250

diastolic blood pressure (D) mm Hg 0-60 60-80 80-200

triceps skin fold thickness (T) mm 0-16,5 16,5-28 30-150

2-Hour serum insulin (IPOST) mu U/ml 0-120 120-140 140-1000

body mass index (BMI) Kg/m2 0-18.8 18.5-

24.9

24.9 -100

diabetes pedigree function(F) 0 - 0,5 0,5 – 1 1 - 3

Age (A) years 0-17 17-24 24-100

Kode Pemeriksaan Satuan Dibawah

Normal

Normal Diatas

Normal

number of times pregnant (time) 0-2 2-5 5-17

plasma glucose concentration a 2

hours in an oral glucose tolerance

test (OGTT)

mg/dl 0-105 105-130 130-199

diastolic blood pressure (D) mm Hg 0-66 66-76 76-122

triceps skin fold thickness (T) mm 0-13 13-30 30-99

2-Hour serum insulin (IPOST) mu U/ml 0 0-94 94-846

body mass index (BMI) Kg/m2 0-28.9 28.9-34.7 34.7-67.1

diabetes pedigree function(F) 0-0.268 0.268-0.529 0.529-2.42

Age (A) years 0-25 25-36 36-81

Tabel referensi standard Tabel Referensi data kuartil

4 February 2011 9

FUNGSI KEANGGOTAAN HIMPUNAN FUZZY DIASTOLIC BLOOD PRESSURE DENGAN REFERENSI STANDAR

0 : Rendah1 : Normal2 : Tinggi

rendah=[0 0 55 65]; jika 0-60 normal=[55 65 75 85]; jika 60 - 80 tinggi=[75 85 125 125]; jika 80-200

4 February 2011 10

FUNGSI KEANGGOTAAN HIMPUNAN FUZZY DIASTOLIC BLOOD PRESSURE DENGAN REFERENSI STANDAR

4 February 2011 11

rendah=[0 0 55 65]; jika 0-60 normal=[55 65 75 85]; jika 60 - 80 tinggi=[75 85 125 125]; jika 80-200

64

FUNGSI KEANGGOTAAN HIMPUNAN FUZZY DIASTOLIC BLOOD PRESSURE DENGAN REFERENSI STANDAR

4 February 2011 12

FUNGSI KEANGGOTAAN HIMPUNAN FUZZY DIASTOLIC BLOOD PRESSURE DENGAN REFERENSI STANDAR

0,74

0,19

64

4 February 2011 13

FUNGSI KEANGGOTAAN HIMPUNAN FUZZY DIASTOLIC BLOOD PRESSURE DENGAN REFERENSI STANDAR

0,74

0,19

64

NORMAL(1)

4 February 2011 14

PEMBENTUKAN HIMPUNAN FUZZY

4 February 2011 15

PEMBENTUKAN TREE

ALGORITMA C4.5

1. Pilih atribut sebagai akar2. Buat cabang untuk masing-

masing nilai3. Bagi kasus dalam cabang4. Ulangi proses untuk masing-

masing cabang sampaisemua kasus pada cabangmemiliki kelas yang sama.

4 February 2011 16

PILIH ATRIBUT SEBAGAI AKAR

Mencari Nilai ENTROPI

4 February 2011

Keterangan :

S : Himpunan kasus

n : jumlah partisi S

pi : Proporsi Si terhadap S

17

Keterangan

S : Himpunan kasus

A : Atribut

n : jumlah partisi A

|Si| : Jumlah kasus pada partisi ke i

|S| : Jumlah kasus dalam S

4 February 2011

Mencari Nilai GAIN

PILIH ATRIBUT SEBAGAI AKAR (CONTINUE)

18

BUAT CABANG UNTUK MASING-MASING NILAI

Pilih Nilai Gain tertingi sebagai Root node Buat Cabang (Internal node) pada Root Node

4 February 2011 19

BAGI KASUS DALAM CABANG

Hitung jumlah kasus dari Root node dengan Internal node nya

Hitung nilai entropy

Hitung Gain

4 February 2011 20

KASUS PADA CABANG MEMILIKI KELAS YANG SAMA

Masing-masing cabang sampai semua kasus padacabang memiliki kelas yang sama Leaf Node (Terminal node) Beri label Target

4 February 2011 21

PRUNING

• Tentukan / inputkan nilai Fuzziness control threshold (FCT) / θr

• Jika proporsi dari himpunan data dari kelas Si lebih besar atau sama dengan nilai threshold θr, maka hentikan ekspansi tree.

• Tentukan / inputkan nilai Leaf decision threshold (LDT) / θn

• Jika banyaknya anggota himpunan data padasuatu node lebih kecil dari threshold θn, hentikanekspansi tree.

4 February 2011 22

AKURASI

Keterangan:

TP : True Positive

TN : True Negative

FP : False positive

FN : False Negative

4 February 2011 23

Pembentukan Rule untuk θr : 80 dan θn : 101. (2) -- 0 = 02. (2) -- 1-- (1) -- 0 = 03. (2) -- 1-- (1) -- 1 = 04. (2) -- 1-- (1) -- 2 = 05. (2) -- 2-- (6) -- 1 = 06. (2) -- 2-- (6) -- 2-- (1) -- 0 = 17. (2) -- 2-- (6) -- 2-- (1) -- 1 = 18. (2) -- 2-- (6) -- 2-- (1) -- 2-- (7) -- 0 = 19. (2) -- 2-- (6) -- 2-- (1) -- 2-- (7) -- 1 = 110. (2) -- 2-- (6) -- 2-- (1) -- 2-- (7) -- 2 = 1

PEMBENTUKAN TREE

0 : Rendah 2 : Tinggi1 : Normal Internal Node

1 : Diabetes0 : Tidak Diabetes

Leaf Node

Keterangan :(1) : Number of times pregnant (2) : Plasma glucose concentration(7) : Diabetes pedigree function

Node

4 February 2011 24

UJI COBA

• K-Fold Cross Validation

Yaitu membagi data sample secara acak kedalam K subset yang saling bebas. Satu subset sebagai data pengujian dan K-1 subset sebagaidata pelatihan. Proses cross-validation akandiulang sampai K kali

4 February 2011 25

K-3 FOLD CROSS VALIDATION

• Dibagi 3 subset yang sama

• Setiap subset bernilai 256 objek sebagai data testing (pelatihan)

• 512 objek sebagai data training (uji coba)

4 February 2011 26

SKENARIO K-3 FOLD CROSS VALIDATION

Skenario Jumlah uji cobaDiperoleh

Skenario 1 3

Akurasi

Waktu

Rule

Skenario 2 3

Skenario 3 72

Skenario 4 72

Jumlah 150

4 February 2011 27

SKRENARIO 1

• Menguji data testing dengan proses fuzzydengan menggunakan referensi standar dantanpa pruning.

4 February 2011 28

SKRENARIO 2

• Menguji data testing dengan proses fuzzydengan menggunakan referensi data kuartildan tanpa pruning.

4 February 2011 29

SKRENARIO 3

• Menguji data testing dengan proses fuzzydengan menggunakan referensi standardengan pruning. Yang menggunakan Fuzzinesscontrol threshold (FCT) atau θr sebanyak 6 yaitu 75%, 80%, 85%, 90%, 95%, dan 98% serta Leaf decision threshold (LDT) atau θnsebanyak 4 yaitu 3%, 5%, 8%, dan 10%.

4 February 2011 30

SKRENARIO 4

• Skenario 4 (empat) menguji data testing denganproses fuzzy dengan menggunakan referensistandar dengan pruning. Yang menggunakanFuzziness control threshold (FCT) atau θrsebanyak 6 yaitu 75%, 80%, 85%, 90%, 95%, dan98% serta Leaf decision threshold (LDT) atau θnsebanyak 4 yaitu 3%, 5%, 8%, dan 10%.

• Mengetahui besarnya akurasi, waktu, dan ruleyang dihasilkan.

4 February 2011 31

HASIL UJI COBA TANPA PRUNING

Rata-Rata Uji Coba Tanpa Pruning

Akurasi

(%)

Rule yang

dihasilkan (rule)

Waktu

(detik)

1 2 1 2 1 2

69,14 64,45 177 229 0,5620 0,7237

4 February 2011

Keterangan :1. Referensi data standart2. Referansi data kuartil

32

HASIL UJI COBA DENGAN PRUNING

Tabel 5.10 Rata-rata hasil uji coba dengan pruning

1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2

75% 0.0783 0.083 0.0467 0.052 0.031 0.0623 0.042 0.0367 30 27 19 21 10 17 10 13 72,66 73,44 77,34 74,22 78,52 76,95 78,52 76,95

80% 0.2293 0.089 0.0413 0.0417 0.031 0.0417 0.0317 0.0367 30 29 19 21 10 17 10 13 72,66 73,05 77,34 74,22 78,52 76,95 78,52 76,85

85% 0.115 0.2447 0.0733 0.0683 0.0473 0.0473 0.052 0.042 47 38 29 24 18 19 18 15 71,88 73,05 77,73 74,22 78,91 76,95 78,91 76,95

90% 0.1253 0.1147 0.0887 0.099 0.0727 0.047 0.062 0.0467 56 50 36 30 24 23 24 17 71,88 73,05 77,73 74,22 78,91 76,95 78,91 76,95

95% 0.151 0.1457 0.104 0.083 0.0727 0.0627 0.0727 0.057 60 50 38 30 26 23 26 17 71,88 73,5 77,73 74,22 78,91 76,95 78,91 76,95

98% 0.224 0.1247 0.094 0.099 0.1093 0.068 0.0783 0.0783 67 56 41 32 26 35 26 19 71,88 73,5 77,73 74,22 78,91 76,95 78,91 76,95

Keterangan :

1 Referensi standard

2 Referensi Kuartil

5% 8% 10%10% 3% 5% 8% 10% 3%θr

Waktu (detik) Jumlah aturan (rule) Akurasi (%)

θn θn θn

3% 5% 8%

Hasil uji coba dengan pruning

4 February 2011 33

KESIMPULAN

• Dengan pruning dihasilkan tingkat akurasi yang lebih tinggi dari pada tidak memakai pruning, dari69,14% ke 78,91%.

• Pembagian data himpunan fuzzy denganmenggunakan referensi data standart denganpruning memiliki tingkat akurasi lebih tinggi78,91% dibandingkan dengan referensi data kuartil 76,95%.

• Semakin tinggi θr dan θn, semakin tinggi tingkatakurasi

4 February 2011 34

SARAN

• Perlu dibuat proses pembentukan fungsi fuzzy yang lain selain menggunkan model trapezoidal, seperti model segitiga, kurva S, dan kurva PI agar dapat diketahui pengaruhfungsi keanggotaan fuzzy terhadap akurasi.

4 February 2011 35

4 February 2011 36

top related