perbandingan algoritma decision tree (c4.5) dan …eprints.ums.ac.id/36124/4/halaman depan.pdf ·...
TRANSCRIPT
i
PERBANDINGAN ALGORITMA DECISION TREE (C4.5) DAN NAÏVE
BAYES PADA DATA MINING UNTUK IDENTIFIKASI TUMBUH
KEMBANG ANAK BALITA (STUDI KASUS PUSKESMAS KARTASURA)
SKRIPSI
Disusun sebagai salah satu syarat menyelesaikan Jenjang Strata I
Pada Program Studi Informatika Fakultas Komunikasi dan Informatika
Universitas Muhammadiyah Surakarta
Oleh :
MILA LISTIANA
L200110047
PROGRAM STUDI INFORMATIKA
FAKULTAS KOMUNIKASI DAN INFORMATIKA
UNIVERSITAS MUHAMMADIYAH SURAKARTA
JULI 2015
v
MOTTO
“Sesungguhnya sesudah kesulitan itu ada kemudahan. Maka, apabila kamu sudah
selesai (dari satu urusan), kerjakanlah dengan sungguh-sungguh (urusan yang
lain)”
(QS. Al Insyirah: 6-7)
"Kita berdoa kalau kesusahan dan membutuhkan sesuatu, mestinya kita juga berdoa
dalam kegembiraan besar dan saat rezeki melimpah."
(Kahlil Gibran)
“Orang yang bisa mengendalikan emosinya adalah pemenang hidup sejati.”
(Mario Teguh)
“Kejujuran adalah kunci kepercayaan, kepercayaan adalah kunci kesetiaan”
(Penulis)
vi
PERSEMBAHAN
Dengan mengucap syukur alhamdulillah atas rahmad dan hidayah Allah SWT,
akan kupersembahkan karya ini kepada orang-orang yang saya sayangi :
1. Terimakasih buat kedua orang tuaku tercinta yang selalu senantiasa
mendoakanku dan memberi dukungan moril maupun materil untuk
kesuksesan hidupku. Serta kasih sayang yang tulus yang takkan pernah
terbalaskan.
2. Buat kakak kakakku, ponakanku hamidah, terimakasih selalu memberi
semangat dukungan dan kebahagiaan dalam menyelasaikan studi ini.
3. Pak Jalwo yang selalu memberikan ilmu, dukungan, bimbingannya. Untuk
pak Dedi terimakasih atas nasehat-nasehat dan bimbingan yang bapak
berikan.
4. Hendri yang tak henti-hentinya memberikan semangat dan dukungan dalam
segala keadaan dan selalu setia menemani dalam keadaan susah maupun
senang demi kelancaran skripsi ini.
5. Deni, ifah , vero dll yang selalu memberi semangat saat saya malas
mengerjakan skripsi dan yang telah menjadi partner dalam mengerjakan
skripsi.
6. Sahabat-sahabatku (lita, nisa, eppy, icha) dan semua teman-teman
seperjuangan S1 informatika 2011. Terimakasih atas dukungan yang telah
diberikan
vii
7. Teman-teman kost Ulinnuha yang senantiasa memberi dukungan dan
semangat demi kelancaran skripsi ini. Kebersamaan yang tak akan pernah
terlupakan.
8. Almamaterku tercinta Universitas Muhammadiyah Surakarta.
9. Semua pihak yang tidak dapat saya sebutkan satu persatu atas semua hal yang
telah diberikan.
viii
KATA PENGANTAR
Alhamdulillahirobbil’alamin, Segala puji bagi Allah SWT yang selalu penulis
panjatkan atas nikmat yang diberikan, sehingga penulis dapat menyelesaikan skripsi
ini dengan judul “Perbandingan Algoritma Decision Tree (C4.5) Dan Naïve Bayes
Pada Data Mining Untuk Identifikasi Tumbuh Kembang Anak Balita (Studi Kasus
Puskesmas Kartasura)”. Skripsi ini disusun guna memenuhi persyaratan untuk
mencapai gelar S1 Informatika Universitas Muhammadiyah Surakarta.
Dalam penyusunan skripsi ini tidak lepas dari bimbingan dan bantuan dari
berbagai pihak. Dengan segala kerendahan hati, penulis mengucapkan terimakasih
yang sebanyak-banyaknya kepada:
1. Bapak Husni Thamrin, S.T., MT., Ph.D. selaku Dekan Fakultas Komunikasi
dan Informatika Universitas Muhammadiayah Surakarta.
2. Bapak Dr. Heru Supriyono, M.Sc. selaku Ketua Jurusan Teknik Informatika
Universitas Muhammadiayah Surakarta.
3. Bapak Drs.Sudjalwo, M.Kom. selaku pembimbing I yang telah memberikan,
bimbingan, dan pengarahan kepada penulis sehingga dapat menyelesaikan
tugas akhir ini .
4. Bapak Dedi Gunawan, S.T.,M.Sc. selaku pembimbing II yang telah
memberikan, bimbingan, dan pengarahan kepada penulis sehingga dapat
menyelesaikan tugas akhir ini .
5. Segenap dosen dan karyawan prodi Teknik Informatika atas bantuan dan ilmu
yang diberikan kepada penulis selama masa perkuliahan hingga dinyatakan
mendapat gelar Strata 1.
x
DAFTAR ISI
HALAMAN JUDUL ................................................................ i
HALAMAN PERSETUJUAN ................................................. ii
HALAMAN PENGESAHAN .................................................. iii
KONTRIBUSI .......................................................................... iv
MOTTO .................................................................................... v
PERSEMBAHAN .................................................................... vi
KATA PENGANTAR.............................................................. viii
DAFTAR ISI ............................................................................ x
DAFTAR TABEL .................................................................... xv
DAFTAR GAMBAR ............................................................... xvii
DAFTAR PERSAMAAN ........................................................ xix
DAFTAR LAMPIRAN ............................................................ xx
ABSTRAKSI ............................................................................ xxi
BAB I PENDAHULUAN ................................................................... 1
1.1 Latar Belakang Masalah ............................................ 1
1.2 Perumusan Masalah .................................................. 2
1.3 Batasan Masalah ....................................................... 2
1.4 Tujuan Penelitian ...................................................... 3
1.5 Manfaat Penelitian .................................................... 3
1.6 Sistematika Penulisan ............................................... 4
BAB II TINJAUAN PUSTAKA ........................................................ 6
2.1 Telaah Penelitian ....................................................... 5
xi
2.2 Landasan Teori .......................................................... 9
2.2.1 Balita .......................................................................... 9
2.2.2 Tumbuh Kembang Balita ........................................... 9
2.2.3 Data Mining ............................................................... 10
2.2.4 Decision Tree ............................................................. 10
2.2.5 Algoritma C4.5 ........................................................... 11
2.2.6 Naive Bayes ................................................................ 11
2.2.7 Rapid Miner ............................................................... 12
2.2.8 PHP ............................................................................ 12
2.2.9 MySQL....................................................................... 12
2.2.10 Precision .................................................................... 13
2.2.11 Recall ......................................................................... 13
2.2.12 Accuracy..................................................................... 13
BAB III METODE PENELITIAN ...................................................... 14
3.1 Alur Penelitian .......................................................... 14
3.2 Analisa Kebutuhan ..................................................... 16
3.2.1 Kebutuhan Data.......................................................... 16
3.2.2 Kebutuhan Software dan Hadware ............................ 16
3.2.3 Penentuan Data .......................................................... 17
3.2.3.1 Penentuan Atribut ...................................................... 17
3.2.3.2Penentuan Variabel Dependen dan
Independen.................................................................. 18
3.2.3.3 Pengelompokan Data.................................................. 18
3.2.3.4 Penentuan Sampel Dengan Rumus
Slovin......................................................................... 20
xii
3.3 Proses Data Mining..................................................... 20
3.3.1 Proses Mining Menggunakan Metode Decition
Tree............................................................................ 20
3.3.2 Proses Mining Menggunakan Metode Naive
Bayes............................................................................. 21
3.4 Perancangan Sistem..................................................... 22
3.4.1 Perancangan Use Case Diagram................................... 22
3.4.2 Perancangan DFD............................................... ......... 23
3.4.2.1 Perancangan DFD Level 0............................................. 23
3.4.2.2 Perancangan DFD Level 1............................................. 23
3.4.2.3 Perancangan DFD Level 2............................................ 23
3.4.3 Perancangan Aplikasi..................................................... 24
3.4.3.1 .Halaman Login.............................................................. 24
3.4.3.2 Halaman Administrator.................................................. 24
3.4.3.3 Halaman Home.................................................... .......... 25
BAB IV HASIL DAN PEMBAHASAN ..................................... .......... 26
4.1 Hasil Penelitian................................................................... 26
4.1.1 . Data Training.................................................................... 26
4.1.2 . Data Testinng.................................................................... 26
4.1.3 . Penentuan Sampel............................................................ 26
4.2 Analisis Sistem................................................................... 27
4.2.1 . Halaman Login................................................................. 27
4.2.2 . Halaman Administrator................................................... 28
4.2.3 . Halaman Home................................................................ 28
4.3 Analisa dan Pembahasan................................................ 28
xiii
4.3.1 . Hasil Implementasi dengan perhitungan Decision
Tree................................................................................. 28
4.3.1.1 Perhitungan untuk mencari root node ........................... 29
4.3.1.2 Perhitungan untuk mencari internal node ..................... 35
4.3.1.3 Menentukan internal node pada berat badan
10<berat≤20 .................................................................. 35
4.3.1.4 Menentukan internal node pada berat badan
10<berat≤20 dengan usia 30<usia≤45 .......................... 41
4.3.1.5 Menentukan internal node pada berat badan berat>20 . 46
4.3.1.6 Menentukan internal nodepada berat badan berat≤10 . 51
4.3.1.7 Menentukan internal node pada berat badan berat≤10
dengan waktu Kuartal IV .............................................. 56
4.3.2 . Hasil Implementasi Decition Tree menggunakan
RapidMiner 6.................................................................. 62
4.3.3 . Hasil Implementasi dengan Perhitungan Naive
Bayes............................................................................... 69
4.3.3.1 Perhitungan Dengan Data Training .............................. 69
4.3.3.2 Perhitungan Dengan Data Testing ................................. 71
4.3.4 . Hasil Implementasi Naive Bayes menggunakan
RapidMiner 6................................................................... 74
4.3.5 . Hasil Perbandingan Decition Tree dengan Naive
Bayes................................................................................ 77
BAB V KESIMPULAN DAN SARAN ..................................... ......... 79
5.1 Kesimpulan ....................................................................... 79
5.2 Saran ................................................................................. 80
xiv
DAFTAR PUSTAKA ................................................................................ 81
LAMPIRAN............................................................................... ................ 83
xv
DAFTAR TABEL
Tabel 3.1 Daftar Atribut yang Keseluruhan ...................................... 17
Tabel 3.2 PenentuanVariabelDependendanIndependen .................... 18
Tabel 3.3 Pengelompokan Data ........................................................ 19
Tabel 3.4 Daftar wilayah ................................................................... 19
Tabel 4.1 Atribut Tumbuh Kembang ................................................ 29
Tabel 4.2 Atribut Gender terhadap Tumbuh Kembang .................... 30
Tabel 4.3 Atribut Usia terhadap Tumbuh Kembang ......................... 31
Tabel 4.4 Atribut Berat Badan terhadap Tumbuh Kembang ............ 32
Tabel 4.5 Atribut Waktu terhadap Tumbuh Kembang ...................... 33
Tabel 4.6 Atribut Wilayah terhadap Tumbuh Kembang ................... 34
Tabel 4.7 Hasil Information Gain ..................................................... 35
Tabel 4.8 Atribut 10<berat≤20 .......................................................... 36
Tabel 4.9 Atribut 10<berat≤20 dan Gender ...................................... 36
Tabel 4.10 Atribut 10<berat≤20 dan Usia ........................................... 37
Tabel 4.11 Atribut 10<berat≤20 dan Waktu ....................................... 38
Tabel 4.12 Atribut 10<berat≤20 dan Wilayah .................................... 39
Tabel 4.13 Hasil Information Gain ..................................................... 40
Tabel 4.14 Atribut berat badan 10<berat≤20 dan usia 30<usia≤45..... 41
Tabel 4.15 Atribut 10<berat≤20, usia 30<usia≤45dan Gender ........... 41
Tabel 4.16 Atribut 10<berat≤20,usia 30<usia≤45 dan waktu ............. 42
Tabel 4.17 Atribut 10<berat≤20,usia 30<usia≤45 dan wilayah .......... 43
Tabel 4.18 Hasil Information Gain ..................................................... 44
xvi
Tabel 4.19 Atribut 10<berat≤20,usia30<usia≤45 dan wilayah IV ...... 45
Tabel 4.20 Atribut berat>20 ................................................................ 46
Tabel 4.21 Atribut berat>20dan Gender ............................................. 46
Tabel 4.22 Atribut berat badan berat>20 dan Usia ............................. 47
Tabel 4.23 Atribut berat>20 dan Waktu ............................................. 47
Tabel 4.24 Atribut berat>20 dan Wilayah ........................................... 48
Tabel 4.25 Hasil Information Gain ..................................................... 49
Tabel 4.26 Atribut berat>20 dan GenderLaki-laki ............................. 49
Tabel 4.27 Atribut berat>20 dan Gender Perempuan ......................... 50
Tabel 4.28 Atribut berat≤10 ................................................................ 51
Tabel 4.29 Atribut berat≤10 dan Gender ............................................ 52
Tabel 4.30 Atribut berat≤10 dan Usia ................................................. 52
Tabel 4.31 Atribut berat≤10 dan Waktu.............................................. 53
Tabel 4.32 Atribut berat≤10 dan Wilayah ........................................... 54
Tabel 4.33 Hasil Information Gain ..................................................... 56
Tabel 4.34 Atribut berat≤10 dan waktu Kuartal IV ............................ 56
Tabel 4.35 Atribut berat≤10, Kuartal IV dan Gender ......................... 56
Tabel 4.36 Atribut berat≤10, Kuartal IV dan Usia .............................. 57
Tabel 4.37 Atribut berat≤10, Kuartal IV dan Wilayah ....................... 58
Tabel 4.38 Hasil Information Gain ..................................................... 58
Tabel 4.39 Atribut berat≤10, Kuartal IV dan Wilayah I ..................... 59
Tabel 4.40 Atribut berat≤10, Kuartal IV dan Wilayah III .................. 60
Tabel 4.41 Atribut berat≤10, Kuartal IV dan Wilayah IV .................. 61
Tabel 4.42 Hasil Perbandingan 2 Metode ........................................... 77
xvii
DAFTAR GAMBAR
Gambar 3.1 Diagram Alur Penelitian (Flowchart) ............................... 16
Gambar 3.2 Use Case Diagram Admin ................................................ 22
Gambar 3.3 Use Case Diagram User .................................................... 23
Gambar 3.4 DFD Level 0 ...................................................................... 23
Gambar 3.5 DFD Level 1 ...................................................................... 23
Gambar 3.6 DFD Level 2 ...................................................................... 24
Gambar 3.7 Halaman Login .................................................................. 24
Gambar 3.8 Halaman Administrator ..................................................... 25
Gambar 3.9 Halaman Home.................................................................. 25
Gambar 4.1 Halaman Login .................................................................. 27
Gambar 4.2 Halaman Administrator ..................................................... 27
Gambar 4.3 Halaman Home .................................................................. 28
Gambar 4.4 Root NodeBerat Badan ...................................................... 35
Gambar 4.5 Leaf nodeberat badan 10<berat≤20 ................................... 40
Gambar 4.6 Internal nodeke-2 Wilayah ............................................... 44
Gambar 4.7 LeafnodeWilayah IV ......................................................... 45
Gambar 4.8 Internal node Gender ........................................................ 49
Gambar 4.9 LeafnodeGenderLaki-laki ................................................. 50
Gambar 4.10 LeafnodeGenderPerempuan .............................................. 51
Gambar 4.11 Internal nodewaktu ........................................................... 55
Gambar 4.12 Internal node ke-2 Wilayah .............................................. 59
Gambar 4.13 Leaf node Wilayah I....................................................................................... 60
xviii
Gambar 4.14 Leaf node Wilayah III ....................................................... 61
Gambar 4.15 Leaf node Wilayah IV ....................................................... 62
Gambar 4.16 Rancangan proses penerapan Decision Tree untuk
klasifikasi data tumbuh kembang ...................................... 62
Gambar 4.17 Hasil skema Decision Tree untuk klasifikasi data tumbuh
kembang ............................................................................ 64
Gambar 4.18 Tampilan hasil decision treepada Scatter Plot .................. 68
Gambar 4.19 Rancangan proses naive bayes menggunakan data testing 74
Gambar 4.20 Hasil Naive Bayes untuk prediksi tumbuh kembang......... 75
Gambar 4.21 Scatter Plot Naive Bayes menggunakan data training..... 75
Gambar 4.22 Scatter Plot Naive Bayes menggunakan data testing........ 76
xix
DAFTAR PERSAMAAN
Persamaan 3.1 Rumus Slovin ...................................................................... .. 20
Persamaan 3.2Rumus Entropy .................................................................... .. 21
Persamaan 3.3 Rumus Information Gain .................................................... .. 21
Persamaan 3.4 Rumus teorema bayes ......................................................... .. 21
xx
DAFTAR LAMPIRAN
Lampiran A. Data Real Data Tumbuh Kembang Balita ............................. .. 84
Lampiran B.Data Testing Data Tumbuh Kembang Balita .......................... .. 92
Lampiran C.Data Training Data Tumbuh Kembang Balita ........................... 100
Lampiran D.Biodata Penulis .......................................................................... 108
Lampiran E.Surat Izin Penelitian ................................................................... 109
xxi
ABSTRAK
Puskesmas merupakan salah satu instansi kesehatan yang berada ditingkat
kecamatan. Sebagai upaya instansi kesehatan dalam mendukung pelayanan yang baik
diperlukan tata kerja yang tertib, rapi, dan teliti sehingga akan menghasilkan
informasi yang cepat, akurat, dan tepat waktu sesuai kebutuhan. Dalam instansi
kesehatan banyak data yang dari setiap tahunnya bertambah. Salah satunya yaitu data
tumbuh kembang balita. Akan tetapi dengan sekian banyaknya data tumbuh kembang
balita semakin sulit juga data tersebut dipelajari lebih lanjut dan umumnya hanya
digunakan sebagai arsip saja. Pemanfaatan teknik data mining diharapkan dapat
membantu dalam mengatasi tumbuh kembang balita yang kurang baik saat ini. Pada
penelitian ini kami membandingkan teknik klasifikasi dari kinerja metode decision
tree (C4.5) dan naive bayes.
Atribut yang digunakan terdiri dari Gender, Usia, Berat badan, Waktu,
Wilayah dan Tumbuh Kembang. Dengan menggunakan masing-masing data training
dan data testing sebanyak 304 data.
Hasil dari penelitian yang dilakukan, berdasarkan dari nilai accuracy maupun
recallnya naive bayes lebih tinggi dibandingkan dengan decision tree yaitu dengan
nilai accuracy 75,66% untuk decision tree dan 76,97% untuk naive bayes. Untuk
nilai recall-nya naive bayes lebih unggul yaitu 96,89% dibandingkan decision tree
89,78%. Meskipun dalam penelitian ini tingkat Precision-nya lebih tinggi decision
tree yaitu 85,23% dibandingkan naive bayes 84,17%. Hasil akhir dari penelitian ini
adalah metode naive bayes lebih baik digunakan dari pada metode decision tree
dengan nilai total 250,67% untuk decition tree dan 258.03% untuk naive bayes.
Kata kunci : Data Mining, Perbandingan Algoritma, Decision Tree (c4.5), Naïve
Bayes.