penerapan teknik klasifikasi menggunakan metode fuzzy decision tree dengan algoritma id3 pada data...

Upload: daryl-hasibuan

Post on 02-Mar-2016

141 views

Category:

Documents


3 download

DESCRIPTION

Penerapan Teknik Klasifikasi Menggunakan Metode Fuzzy Decision Tree Dengan Algoritma Id3 Pada Data Diabetes

TRANSCRIPT

  • PENERAPAN TEKNIK KLASIFIKASIMENGGUNAKAN METODE FUZZY DECISION TREE DENGAN ALGORITMA ID3 PADA DATA DIABETESFirat Romansyah G64103006

    Pembimbing:Imas S. SitanggangSri Nurdiati

  • PendahuluanLatar BelakangOrganisasi Kesehatan Dunia (WHO) memperkirakan, bahwa 177 juta penduduk dunia mengidap penyakit diabetes melitus atau biasa disingkat diabetes.Banyak rumah sakit yang sudah menggunakan basis data untuk mengumpulkan dan menyimpan data, namun data yang terkumpul belum dapat dimanfaatkan secara maksimal.

  • Pendahuluan (Lanjutan)Tujuan PenelitianMenerapkan salah satu teknik data mining yaitu klasifikasi menggunakan metode fuzzy decision tree.Menemukan aturan klasifikasi pada data diabetes.Membangun aplikasi sederhana untuk membuat sebuah aturan klasifikasi dan melakukan prediksi terhadap data yang baru.

  • Pendahuluan (Lanjutan)Ruang Lingkup PenelitianMenggunaan teknik klasifikasi dengan metode decision tree untuk membuat model dalam memprediksi potensi seseorang terserang diabetes.Diimplementasikan berdasarkan algoritma Fuzzy ID3Data yang digunakan merupakan hasil pemeriksaan lab pasien, yaitu:GLUN (Glukosa darah puasa)GPOST (Glukosa darah 2 jam PP)HDL (Kolesterol HDL)TG (Trigliserida)Diagnosa pasien

  • Pendahuluan (Lanjutan)Manfaat Penelitian Model yang dihasilkan diharapkan dapat digunakan oleh pihak yang berkepentingan untuk memprediksi potensi seseorang pasien terserang penyakit diabetes, sehingga terjadinya penyakit ini pada seseorang dapat diprediksi sedini mungkin dan dapat dilakukan tindakan antisipasi.

  • TINJAUAN PUSTAKA Data MiningData mining merupakan proses ekstraksi informasi data berukuran besar (Han dan Kamber 2001). Data mining dapat diklasifikasikan menjadi dua kategori, yaitu descriptive data mining dan predictive data mining.

  • TINJAUAN PUSTAKA (Lanjutan)Klasifikasi Salah satu teknik data mining untuk menemukan model (fungsi) yang menjelaskan dan membedakan kelas-kelas atau konsep, dengan tujuan agar model yang diperoleh dapat digunakan untuk memprediksikan kelas atau objek yang memiliki label kelas yang tidak diketahui.

  • TINJAUAN PUSTAKA (Lanjutan)Himpunan FuzzyDengan teori himpunan fuzzy suatu objek dapat menjadi anggota dari banyak himpunan dengan derajat keanggotaan yang berbeda dalam masing-masing himpunan.

  • TINJAUAN PUSTAKA (Lanjutan)Fuzzy Decision Tree (FDT)Decision tree sama dengan satu himpunan aturan IFTHEN Teori fuzzy dapat meningkatkan ketahanan saat melakukan klasifikasi kasus-kasus baru pada sebuah decision tree (Marsala 1998).

  • TINJAUAN PUSTAKA (Lanjutan)Fuzzy Decision Tree (FDT) (2)

    Contoh sebuah decision tree

  • TINJAUAN PUSTAKA (Lanjutan)Fuzzy ID3 Decision TreeID3 pertama kali diperkenalkan oleh Quinlan.ID3 menggunakan teori informasi untuk menentukan atribut mana yang paling informatif

  • TINJAUAN PUSTAKA (Lanjutan)Fuzzy Entropy dan Information Gain Information gain digunakan sebagai ukuran seleksi atribut.Persamaan untuk menghitung fuzzy entropy:

  • TINJAUAN PUSTAKA (Lanjutan)Fuzzy Entropy dan Information Gain (2)Sedangkan untuk menghitung fuzzy entropy dan information gain dari suatu atribut pada algoritma fuzzy ID3 (FID3) digunakan persamaan sebagai berikut:

  • TINJAUAN PUSTAKA (Lanjutan)Threshold Threshold adalah sebuah nilai yang digunakan untuk membatasi atau memotong (prunning) suatu tree.Ada 2 (dua) buah threshold yang harus terpenuhi jika tree akan diekspansi pada algoritme FID3, yaitu:Fuzziness control threshold (FCT) / r Leaf decision threshold (LDT) / n

  • TINJAUAN PUSTAKA (Lanjutan)K-fold Cross ValidationK-fold cross validation dilakukan untuk membagi data menjadi training set dan test set.K-fold cross validation mengulang k-kali untuk membagi sebuah himpunan contoh secara acak menjadi k subset yang saling bebas, setiap ulangan disisakan satu subset untuk pengujian dan subset lainnya untuk pelatihan (Fu 1994).

  • TINJAUAN PUSTAKA (Lanjutan)Sistem Inferensi FuzzySistem inferensi fuzzy adalah suatu framework yang didasarkan pada konsep himpunan fuzzy, fuzzy if-then rules, dan fuzzy reasoning. Salah satu metode inferensi fuzzy yang paling umum digunakan adalah metode inferensi Mamdani (Ormos 2004).

  • METODE PENELITIAN Alur Proses Klasifikasi

    Data Diabetes

    Pembersihan Data

    Transformasi Data

    Fuzzy Data

    Pembagian Data (k-fold cross validation)

    Training set

    Test set

    Pemilihan nilai treshold

    Training (FID3)

    Model (kumpulan aturan)

    Testing (FIS Mamdani)

    Akurasi > 90

    Tidak

    Ya

    Representasi Pengetahuan

  • METODE PENELITIAN (Lanjutan)Lingkungan PengembanganPerangkat keras berupa komputer personal dengan spesifikasi:Prosesor AMD Athlon 64 2800+Memori DDR 512 MBHarddisk 80 GBKeyboard dan mouseMonitorPerangkat Lunak:Sistem operasi Windows XP ProfesionalMatlab 7.0 sebagai bahasa pemrogramanMicrosoft Excel 2003 sebagai media penyimpanan data

  • Hasil dan Pembahasan Praproses DataHasil Pemeriksaan Lab (*.xls)22276 record & 10 fieldCatatan medis pasienrawat inap (*.xls)9240 record & 9 fieldHasil Pemeriksaan Lab (*.xls)3311 record & 5 fieldCatatan medis pasienrawat inap (*.xls)9240 record & 2 fieldData gabungan (*.xls)300 record & 6 fieldData bersih (*.xls)290 record & 6 field

  • Hasil dan Pembahasan (Lanjutan)Transformasi DataAtribut GLUN, GPOST, HDL, dan TG ditransformasi ke dalam bentuk fuzzy.Sebagai contoh atribut GLUN:Atribut GLUN dibagi menjadi 4 kelompok atau linguistic term, yaitu:rendah (GLUN < 70 mg/DL)sedang (70 mg/DL
  • Hasil dan Pembahasan (Lanjutan)Transformasi Data (2)

  • Hasil dan Pembahasan (Lanjutan)Transformasi Data (3)

    Himpunan fuzzy atribut GLUN

  • Hasil dan Pembahasan (Lanjutan)Transformasi Data (4)Atribut Diagnosa yang selanjutnya akan dinyatakan sebagai CLASS, nilainya akan diubah menjadi 1 (negatif diabetes), dan 2 (positif diabetes).

  • Hasil dan Pembahasan (Lanjutan)Data bersih (*.xls)290 record & 6 fieldData fuzzy (*.xls)290 record & 20 field10-fold cross validation10 Training Set (*.xls)261 record & 20 field10 Test Set (*.xls)29 record & 20 field

  • Hasil dan Pembahasan (Lanjutan)Data MiningTraining Sebagai contoh proses pembentukan fuzzy decision tree dengan algoritma FID3 akan digunakan data contoh yang terdiri dari 15 record. [Contoh data]Tiap record pada data awal diberikan nilai derajat keanggotaan () = 1Menghitung information gain dari atribut GLUN, GPOST, HDL, dan TG, masing-masing diperoleh nilai 0.2064, 0.3330, 0.0304, dan 0.0050.

  • Hasil dan Pembahasan (Lanjutan)Training (2)Dari hasil diperoleh kemudian dipilih atribut dengan nilai information gain terbesar yaitu GPOST yang kemudian dijadikan sebagai root node.Data diekspansi berdasarkan atribut GPOST

  • Hasil dan Pembahasan (Lanjutan)Training (2)Nilai derajat keanggotaan untuk masing-masing record pada sub node dihitung dengan rumus:

    Menghitung proporsi dari tiap kelas yang ada pada tiap-tiap node. Misalkan sub-node rendah: C1 = 0.1 + 1 + 1 = 2.1, C2 = 1 Proporsi kelas 1 (negatif diabetes)

    Proporsi kelas 2 (positif diabetes)

  • Hasil dan Pembahasan (Lanjutan)Training (2)Pada contoh ini digunakan fuzziness control threshold (r ) sebesar 80% dan leaf decision threshold (n) sebesar 20%*15 = 3. Misalkan sub-node dengan nilai atribut rendah:Karena n < 4 dan r > proporsi kelas 1 (67.74%) maupun proporsi kelas 2 (32.26%), maka sub-node ini akan diekspansi. Berbeda halnya jika r yang digunakan adalah 65%, maka sub-node ini tidak akan diekspansi.

  • Hasil dan Pembahasan (Lanjutan)Fuzzy decision tree untuk contoh training set Training (3)

  • Hasil dan Pembahasan (Lanjutan)Training (4)Proses training dilakukan pada training set yang ada.Untuk tiap-tiap training set, proses training dilakukan sebanyak 24 kali, dengan mengubah nilai r sebanyak 6 kali yaitu 75%, 80%, 85%, 90%, 95%, dan 98% dan n sebanyak 4 kali yaitu 3%, 5%, 8%, dan 10%.

  • Hasil dan Pembahasan (Lanjutan)Training (5)Dari hasil proses training diperoleh model dengan jumlah aturan yang berbeda-beda.

    Rata-rata jumlah aturan

  • Hasil dan Pembahasan (Lanjutan)Rata-rata waktu eksekusi dalam satuan detik Training (6)

  • Hasil dan Pembahasan (Lanjutan)TestingProses testing dilakukan dengan menggunakan FIS Mamdani pada test set, sedangkan rule atau aturan yang digunakan berasal dari proses training.Dari proses testing diperoleh akurasi untuk masing-masing model.

  • Hasil dan Pembahasan (Lanjutan)Representasi Pengetahuan Model yang dipilih dari proses training adalah:Model yang jumlah aturan paling banyak.Model yang memiliki akurasi tinggi. Model yang mencakup semua kelas target yang mungkin muncul dalam test set.

  • Hasil dan Pembahasan (Lanjutan)Representasi Pengetahuan (2)Berdasarkan syarat-syarat tersebut diperoleh model dengan jumlah aturan 30 buah. 29 aturan dengan kelas target negatif diabetes dan 1 aturan dengan kelas target positif diabetes. [Model]

  • Hasil dan Pembahasan (Lanjutan)Evaluasi kinerja FID3 Evaluasi kinerja algoritma FID3 dapat diketahui dengan cara menghitung rata-rata akurasi dari seluruh proses testing pada 10 test set yang berbeda.

  • Kesimpulan dan Saran KesimpulanAlgoritma FID3 memiliki kinerja yang baik dalam membuat aturan klasifikasi pada data Diabetes. Jumlah aturan yang diperoleh sebanyak 30 buah aturan dengan akurasi yang cukup tinggi yaitu 90,69% pada nilai r sebesar 98% dan n sebesar 3%.

  • Kesimpulan dan Saran (Lanjutan)Kesimpulan (2)Nilai r dan n sangat berpengaruh terhadap jumlah aturan yang dihasilkan, nilai r yang terlalu tinggi akan menyebabkan turunnya nilai akurasi. Di lain pihak, nilai n yang terlalu rendah juga dapat menyebabkan akurasi menurun

  • Kesimpulan dan Saran (Lanjutan)SaranPada penelitian selanjutnya proses pembentukan decision tree dapat menggunakan algoritma probabilistic fuzzy ID3 sebagai upaya untuk meningkatkan akurasi dari model yang diperoleh.Menambah data yang digunakan untuk proses training dengan data yang lebih representatif, sehingga akurasi pada data baru akan meningkat.

  • Kesimpulan dan Saran (Lanjutan)Saran (2)Kelas target yang digunakan merupakan atribut kategorikal, pada penelitian berikutnya dapat digunakan atribut kuantitaf sebagai kelas target.

  • Daftar PustakaCox, E. 2005. Fuzzy Modeling and Algorithms for Data mining and Exploration. USA: Academic Press.Fu L. 1994. Neural Network In Computer Intellegence. Singapura: McGraw Hill.Han J dan Micheline K. 2001. Data mining Concepts and Techniques. Morgan Kaufmann Publishers. Herwanro. 2006. Pengembangan Sistem Data Mining untuk Diagnosis Penyakit Diabetes Menggunakan Algoritme Classification Based Association [Tesis]. Bogor. Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor.Liang, G. 2005. A Comparative Study of Three Decision Tree algorithms: ID3, Fuzzy ID3 and Probabilistic Fuzzy ID3. Informatics & Economics Erasmus University Rotterdam Rotterdam, the Netherlands.

  • Daftar Pustaka (Lanjutan)Marsala, C. 1998. Application of Fuzzy Rule Induction to Data Mining. University Pierre et Marie Curie.Ormos L. 2004. Soft Computing Method On Thoms Catastrophe Theory For Controlling Of Large-Scale Systems. University of Miskolc, Department of Automation.Sitanggang I S dan Agung H. 2006. Modul Kuliah Mata Ajaran Data Mining. Bogor. Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor. Yuan Y dan Shaw M J. 1995. Induction of fuzzy decision trees, Fuzzy Sets and Systems Vol. 69.