pengelompokan status gizi pada orang dewasa … filepengelompokan status gizi pada orang dewasa...
TRANSCRIPT
i
PENGELOMPOKAN STATUS GIZI PADA ORANG DEWASA
MENGGUNAKAN K-MEANS CLUSTERING
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar
Sarjana Komputer Program Studi Teknik Informatika
Oleh:
Yosep Kartika Dewandaru
135314076
PROGRAM STUDI TEKNIK INFORMATIKA
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2018
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ii
THE GROUPING OF NUTRITIONAL STATUS OF ADULTS
USING K-MEANS CLUSTERING
A THESIS
Presented as Partial Fulfillment of The Requirement
To Obtain The Sarjana Komputer Degree
In Informatics Engineering Study Program
By:
Yosep Kartika Dewandaru
135314076
INFORMATICS ENGINEERING STUDY PROGRAM
DEPARTMENT OF INFORMATICS ENGINEERING
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2018
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
iii
HALAMAN PERSETUJUAN
SKRIPSI
PENGELOMPOKAN STATUS GIZI PADA ORANG DEWASA
MENGGUNAKAN K-MEANS CLUSTERING
Oleh :
Yosep Kartika Dewandaru
135314076
Telah disetujui oleh :
Dosen Pembimbing
Dr. Cyprianus Kuntoro Adi, SJ., M.A., M.Sc. Tanggal : …………………
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
iv
HALAMAN PENGESAHAN
PENGELOMPOKAN STATUS GIZI PADA ORANG DEWASA
MENGGUNAKAN K-MEANS CLUSTERING
Dipersiapkan dan ditulis oleh :
Yosep Kartika Dewandaru
NIM : 135314076
Telah dipertahankan didepan Dewan Penguji
Pada Tanggal : 25 Januari 2018
Dan dinyatakan memenuhi syarat
Susunan Dewan Penguji
Jabatan Nama Lengkap Tanda Tangan
Ketua Alb. Agung Hadhiatma M.T. ………………
Sekretaris Eko Hari Parmadi M.Kom. ………………
Anggota Dr. Cyprianus Kuntoro Adi, SJ., M.A., M.Sc. ………………
Yogyakarta, ……………………
Fakultas Sains dan Teknologi
Universitas Sanata Dharma
Dekan,
Sudi Mungkasi, S.Si., M.Math. Sc., Ph.D.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
v
MOTTO
“So on the count of 1, 2, 3: Start walking!
It doesn't matter if it's today, tomorrow, or yesterday.”
Karya ini kupersembahkan kepada :
Tuhan Yesus Kristus
Bunda Maria
Keluarga
Sahabat
Teman
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
vi
PERNYATAAN KEASLIAN KARYA
Saya menyatakan dengan sesungguhnya bahwa tugas akhir yang saya tulis
tidak mengandung atau memuat hasil karya orang lain, kecuali yang telah disebutkan
dalam daftar pustaka dan kutipan selayaknya karya ilmiah.
Yogyakarta, ...............................2018
Penulis
Yosep Kartika Dewandaru
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
vii
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN AKADEMIS
Yang bertanda tangan dibawah ini, saya mahasiswa Universitas Sanata Dharma
Nama : Yosep Kartika Dewandaru
Nomor Mahasiswa : 135314076
Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan
Universitas Sanata Dharma karya ilmiah saya yang berjudul :
PENGELOMPOKAN STATUS GIZI PADA ORANG DEWASA
MENGGUNAKAN K-MEANS CLUSTERING
Beserta perangkat yang ada (bila ada). Dengan demikian saya memberikan kepada
Perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam
bentuk media lain, mengelolanya di internet atau media lain untuk kepentingan akademis
tanpa perlu meminta ijin dari saya maupun memberikan royalty kepada saya selama
tetap mencantumkan nama saya sebagai penulis.
Demikian pernyataan ini saya buat dengan sebenarnya Dibuat di Yogyakarta
Pada Tanggal : ........................................................................................................ 2018
Yosep Kartika Dewandaru
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
viii
ABSTRAK
Status gizi merupakan keadaan gizi seseorang yang diukur atau dinilai pada
satu waktu. Penilaian atau pengukuran terhadap status gizi dapat dilakukan secara
langsung maupun tidak langsung Untuk menentukan status gizi seseorang
diperlukan pemeriksaan klinis dan data laboratorium. Pengukuran antropometri
adalah suatu cara untuk menentukan keadaan gizi seseorang dengan
menggunakan perhitungan Indeks Masa Tubuh (IMT). Penentuan gizi seseorang
menggunakan IMT hanya memerlukan dua indikator yaitu tinggi badan dan berat
badan, namun dua orang yang memiliki berat dan tinggi badan yang sama bisa
mempunyai keadaan gizi yang berbeda. Oleh karena itu diperlukanlah sebuah
model untuk mempermudah kerja pegawai Rumah Sakit maupun Puskesmas.
Teknik data mining telah sering digunakan untuk memperoleh sebuah
model yang bisa dijadikan untuk pertimbangan sebuah keputusan. K-Means
Clustering merupakan salah satu metode data mining yang dapat
mengelompokkan data. Kriteria yang digunakan dalam pengelompokkan status
gizi pada orang dewasa adalah jenis kelamin, tinggi badan, berat badan, usia, diet
dan kesehatan.
Hasil dari pengelompokkan status gizi pada orang dewasa sebanyak 180
data sampel menggunakan K-Means Clustering menghasilkan akurasi 25% -
44% tergantung dari penentuan centroid.
Kata Kunci : Pengelompokkan, Data Mining, Cluster, K-Means, Status gizi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ix
ABSTRACT
Nutritional status is the nutritional condition of someone that has been
measured at one time. The measuring of someones nutritional status can be done in
two ways directly and non directly. To determine ones nutritional status a clinical
check and lab data is needed. Anthropometric measurements is one way to find
out ones nutritional status using the Body Mass Index (BMI). BMI only needs
two indicators to determine ones nutritional status which are mass and their
height, but sometimes two different people with the same mass and height can
have really different nutritional statuses. Because of that a model is needed in
order to ease the workload of Hospital workers, doctors and nurses.
Data mining has been frequently used to make a model that can be used for
considering a decision. K-Means Clustering is one of data mining’s methodes
that can gorup data. The attributes that are used to group the nutritional status of
adults are sex, height, weight, age, diet and their health.
The accuracy from using the K-Means Clustering methode to group the
nutritional status of adults with 180 patients as sample data is around 25%-44%
depending on how you decide the centroid.
Key Words: Grouping, Data Mining, Cluster, K-Means
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
x
KATA PENGANTAR
Puji syukur kepada Tuhan Yang Maha Esa, karena pada akhirnya penulis
dapat menyelesaikan penelitian tugas akhir ini yang berjudul
“PENGELOMPOKKAN STATUS GIZI PADA ORANG DEWASA
MENGGUNAKAN K-MEANS CLUSTERING”.
Penulisan skripsi ini tidak lepas dari peran pentingnya berbagai pihak,
sehingga dalam kesempatan ini penulis dengan kerendahan hati mengucapkan
terimakasih kepada semua pihak yang telah memberikan dukungan baik secara
langsung maupun tidak langsung kepada penulis dalam penyelesaian skripsi
hingga selesai. Oleh karena itu penulis mengucapkan terima kasih kepada :
1. Romo Dr. Cyprianus Kuntoro Adi, SJ., M.A., M.Sc. selaku dosen
pembimbing tugas akhir yang dengan sabar dan membimbing penulis
dalam penyusunan tugas akhir ini.
2. Segenap dosen jurusan Teknik Informatika Universitas Sanata Dharma.
3. Keluarga, Hernowo Punta Aji (Bapak), Iryanti Eka Suprihatin (Ibu), dan
Agnes Puspitasari (Kakak) yang selalu memberi dukungan dalam
penyusunan tugas akhir ini.
4. Group Discord “nasib/megah perintah” yang selalu mengingatkan untuk
mengerjakan tugas akhir.
5. Teman-teman seperjuangan Teknik Informatika khususnya Baptista,
Adven, Andre, Adhi, Ekky, Awan, Kris Hendrawan, dan teman-teman
yang tidak dapat saya sebutkan satu persatu.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xi
Seluruh pihak yang sudah membantu dalam pengerjaan tugas akhir saya
secara langsung maupun tidak langsung.Penulis menyadari masih banyak
kekurangan pada penelitian tugas akhir ini, namun penulis berharap penelitian ini
dapat bermanfaat dan menjadi pengetahuan baru bagi pembaca.
Yogyakarta,.......................................
Penulis,
Yosep Kartika Dewandaru
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xii
DAFTAR ISI
HALAMAN COVER ..................................................................................................... i
HALAMAN PERSETUJUAN ..................................................................................... iii
HALAMAN PENGESAHAN ..................................................................................... iv
MOTTO ........................................................................................................................ v
PERNYATAAN KEASLIAN KARYA ...................................................................... vi
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN AKADEMIS ................................................................... vii
ABSTRAK ................................................................................................................. viii
ABSTRACT ................................................................................................................. ix
KATA PENGANTAR .................................................................................................. x
DAFTAR ISI ............................................................................................................... xii
DAFTAR TABEL ...................................................................................................... xiv
DAFTAR GAMBAR ................................................................................................. xiv
BAB I ............................................................................................................................ 1
1.1. Latar Belakang ............................................................................................... 1
1.2. Rumusan Masalah .......................................................................................... 2
1.3. Tujuan ............................................................................................................. 3
1.4. Batasan Masalah ............................................................................................. 3
1.5. Metedologi Penelitian .................................................................................... 3
1.6. Manfaat Penelitian .......................................................................................... 4
1.7. Sistematika Penulisan Proposal ...................................................................... 4
BAB II ........................................................................................................................... 6
2.1. Status Gizi ...................................................................................................... 6
2.1.1. Pengertian Status Gizi ............................................................................. 6
2.1.2. Faktor yang Mempengaruhi Status Gizi ................................................. 6
2.1.3. Penilaian Status Gizi ............................................................................... 7
2.2. Penambangan Data ......................................................................................... 8
2.2.1. Pengertian Penambangan Data................................................................ 8
2.2.2. Tahap-tahap Penambangan Data ............................................................. 9
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiii
2.3. ClusteringD .................................................................................................. 11
2.4. Algoritma K-Means ...................................................................................... 14
2.5. Confusion Matriks dan Akurasi ................................................................... 18
2.6. Silhouette Coefficient ................................................................................... 20
BAB III ....................................................................................................................... 24
3.1. Data .............................................................................................................. 24
3.2. Proses Sistem ................................................................................................ 24
3.2.1. Data Mentah .......................................................................................... 25
3.2.2. Transformasi Data ................................................................................. 27
3.2.3. Proses Clustering .................................................................................. 30
3.3. Desain User Interface ................................................................................... 37
3.4. Spesifikasi Alat ............................................................................................ 38
BAB IV ....................................................................................................................... 39
4.1. Implementasi Program ................................................................................. 39
4.1.1. Input Data .............................................................................................. 40
4.1.2. Normalisasi dan Inisialisasi .................................................................. 40
4.1.3. Proses K-Means Clustering ................................................................... 41
4.2. Hasil Sistem .................................................................................................. 42
4.3. Kelebihan dan Kekurangan Sistem .............................................................. 46
4.3.1. Kelebihan Sistem .................................................................................. 46
4.3.2. Kekurangan Sistem ............................................................................... 46
BAB V ........................................................................................................................ 47
5.1. Analisa Hasil ................................................................................................ 47
5.2. Kesimpulan ................................................................................................... 47
5.3. Saran ............................................................................................................. 48
DAFTAR PUSTAKA ................................................................................................. 49
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiv
DAFTAR TABEL
Tabel 2. 1 Jenis-jenis Proses Clustering (Prasetyo, 2014) .......................................... 12
Tabel 2. 2 Confusion Matriks untuk Klasifikasi 2 Kelas ............................................ 19
Tabel 2. 3 Kriteria pengelompokkan berdasarkan SC ................................................ 23
Tabel 3. 1 Data Atribut ............................................................................................... 25
Tabel 3. 2 Contoh Data Pasien .................................................................................... 26
Tabel 3. 3 Contoh Data Setelah Tahap Transformasi ................................................. 29
Tabel 3. 4 Contoh Data Setelah Normalisasi MinMax ............................................... 29
Tabel 3. 5 Contoh Data Setelah Normalisasi ZScore.................................................. 30
Tabel 3. 6 Contoh pemilihan titik pusat data .............................................................. 31
Tabel 3. 7 Tabel Hasil Perhitungan Jarak Pusat Cluster ............................................ 32
Tabel 3. 8 Tabel Pengelompokan Group .................................................................... 33
Tabel 3. 9 Tabel Hasil Perhitungan Jarak Pusat Cluster ............................................. 36
Tabel 3. 10 Tabel Pengelompokan Group .................................................................. 37
Tabel 4. 1 Tabel Confusion Matrix Minmax dan Sequential ...................................... 42
Tabel 4. 2 Tabel Confusion Matrix Zscore dan Sequential ........................................ 43
Tabel 4. 3 Tabel Confusion Matrix MinMax dan Variance ........................................ 43
Tabel 4. 4 Tabel Confusion Matrix Zscore dan Variance .......................................... 43
Tabel 4. 5 Tabel Confusion Matrix kategorikal dan Sequential ................................. 44
Tabel 4. 6 Hasil pengelompokan status gizi pasien .................................................... 44
Tabel 4. 7 Tabel hasil Silhouette Coefficient .............................................................. 45
DAFTAR GAMBAR
Gambar 2. 1 Tahap-tahap penambangan data. (Han, et al., 2006) ................................ 9
Gambar 2. 2 Diagram aliran algoritma K-Means (Andayani, 2007) .......................... 17
Gambar 2. 3 Ilustrasi algoritma K-Means (Noor dan Hariad, 2009) .......................... 18
Gambar 3. 1 Diagram blok .......................................................................................... 24
Gambar 3. 2 User Interface ......................................................................................... 37
Gambar 4. 1 Tampilan Keseluruhan Sistem ............................................................... 39
Gambar 4. 2 Contoh Proses Input Data ...................................................................... 40
Gambar 4. 3 Contoh Hasil Preprocess Data ................................................................ 41
Gambar 4. 4 Contoh hasil K-Means Clustering .......................................................... 42
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1
BAB I
PENDAHULUAN
1.1. Latar Belakang
Keadaan gizi kurang dapat ditemukan pada setiap kelompok masyarakat. Pada
hakikatnya keadaan gizi kurang dapat dilihat sebagai suatu proses kurang asupan
makanan ketika kebutuhan normal terhadap satu atau beberapa zat gizi tidak
terpenuhi atau zat-zat gizi tersebut hilang dengan jumlah yang lebih besar daripada
yang diperoleh (Manary dan Solomons, 2009). Status gizi diartikan sebagai keadaan
gizi seseorang yang diukur atau dinilai pada satu waktu. Penilaian atau pengukuran
terhadap status gizi dapat dilakukan secara langsung maupun tidak langsung
(Supariasa, Bakri & Fajar, 2012).
Status gizi dapat ditentukan melalui pemeriksaan laboratorium maupun secara
antropometri. Antropometri merupakan cara penentuan status gizi yang paling
mudah dan murah. Pengukuran antropometri adalah pengukuran yang digunakan
untuk menentukan keadaan gizi seseorang. Pengukuran antropometri untuk usia
dewasa sekarang ini menggunakan perhitungan Indeks Massa Tubuh (IMT). Indeks
Massa Tubuh (IMT) adalah perbandingan (rasio) berat badan / tinggi badan yang
sering digunakan untuk menilai status gizi orang dewasa. Penggunaan IMT hanya
berlaku untuk orang dewasa yang berumur 18 tahun keatas, dan IMT tidak dapat
diterapkan pada bayi, anak, remaja, ibu hamil(Arisman, 2011).
Perkembangan teknologi informasi dalam hal ini teknologi komputer dapat
menunjang pengambilan keputusan di dalam organisasi - organisasi modern yang
memungkinkan pekerjaan-pekerjaan di dalam organisasi dapat diselesaikan secara
cepat, akurat, dan efisien. Teknologi informasi (TI) didefinisikan sebagai teknologi
yang digunakan untuk memperoleh, memanipulasi, menyajikan dan memanfaatkan
data. Salah satu contoh pemanfaatannya adalah untuk mengelompokkan keadaan
gizi orang dewasa menggunakan teknik data mining.
Teknik data mining yang digunakan untuk mengetahui pengelompokan status
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
gizi orang dewasa dapat dilakukan menggunakan bermacam metode, seperti
asosiasi, klasifikasi, pengklasteran dan lain lain. K-Means clustering merupakan
salah satu metode data clustering non hirarki yang berusaha mempartisi data
yang ada ke dalam bentuk satu atau lebih cluster/kelompok. Metode ini
mempartisi data ke dalam cluster/kelompok sehingga data yang memiliki
karakteristik sama dikelompokkan ke dalam satu cluster yang sama (Agusta,
2007).
Hasil penelitian yang dilakukan oleh Nanjaya (2005) mengenai penggunaan
metode K-Means pada suatu clustering data kategorikal untuk studi kasus biro
jodoh didapatkan bahwa clustering dapat dilakukan pada atribut-atribut
kategorikal yang terlebih dahulu ditransformasikan ke dalam bentuk numerik.
Penelitian lainnya mengenai perbandingan antara algoritma K-Means
clustering dengan algoritma Fuzzy C-Means clustering oleh Santhanam dan
Velmurugan (2009). Dalam penelitian ini, kedua algoritma tersebut
diimplementasikan dari dianalisis kinerjanya berdasarkan pada kualitas hasil
clustering dan waktu eksekusi. Kedua algoritma ini menghasilkan cluster yang
hampir sama, namun algoritma K-Means clustering memiliki waktu komputasi
yang lebih cepat, dengan kata lain kinerja dari algoritma K-Means lebih baik
dibandingkan dengan Fuzzy C-Means.
Berdasarkan penelitian sebelumnya yang telah di lakukan tersebut, maka
penulis memilih untuk mengimplementasikan algoritma K-Means clustering
pada sistem informasi pengelompokan yang akan di bangun. Dengan
menggunakan K-Means clustering diharapkan dapat mengelompokkan status gizi
pada orang dewasa dengan cepat dan tepat sasaran
1.2. Rumusan Masalah
Berdasarkan latar belakang yang telah di jelaskan, permasalahan yang akan
diselesaikan adalah bagaimana mengelompokkan status gizi orang dewasa
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3
dengan menggunakan K-means clustering serta mengetahui keakuratannya
(akurasinya) dengan membandingkan hasil pengelompokan clustering sistem
dengan hasil yang dilakukan manual oleh pihak Rumah Sakit.
1.3. Tujuan
Tujuan penelitian yang ingin dicapai dalam tugas akhir ini adalah
membangun sistem informasi yang akan digunakan untuk mengelompokkan
status gizi pada orang dewasa serta mengetahui akurasi dari pengelompokan
status gizi pada orang dewasa menggunakan K-means clustering.
1.4. Batasan Masalah
Batasan masalah dalam tugas akhir ini adalah :
1. Kriteria yang akan digunakan dalam clustering antara lain jenis kelamin,
tinggi badan, berat badan, usia, diet dan kesehatan.
2. Jumlah cluster yang akan digunakan pada kasus ini adalah tiga (3) yaitu
kurang, normal, dan obes.
3. Data yang digunakan berasal dari Rumah Sakit Sanjiwani dari tahun 2013
sampai tahun 2015.
1.5. Metedologi Penelitian
Untuk Metode penelitian yang digunakan dalam menyelesaikan tugas akhir
ini yaitu:
1. Studi Pustaka
Mempelajari dan memahami konsep tentang clustering dan memahami
algoritma K-Means yang akan dipergunakan untuk membagi data ke dalam
nominasi yang ditentukan. Konsep dan materi yang dipelajari didapat dari
berbagai sumber seperti buku dan internet.
2. Pengumpulan Data
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4
Untuk mendapatkan data yang diperlukan, maka penulis melakukan survei
ke Rumah Sakit Sanjiwani. Kemudian data yang sudah didapat kemudian
dikombinasikan untuk dapat diolah ke dalam beberapa nominasi.
3. Pembuatan Alat Uji
Merancang alat uji dengan menyusun algoritma K-Means kemudian
diimplementasikan ke dalam aplikasi berbasis Matlab.
4. Analisa Pembuatan Alat Uji
Analisa pembuatan alat uji bertujuan untuk menguji ketepatan atau tingkat
keakurasian dari algoritma K-Means dalam menentukan status gizi dalam
satuan pendidikan. Pengujian dilakukan dengan aplikasi berbasis Matlab.
5. Pembuatan Laporan
Menganalisis hasil implementasi dan membuat kesimpulan terhadap
penelitian tugas akhir yang telah dikerjakan.
Sumber data yang dibutuhkan dalam hubungannya dengan penelitian ini
diperoleh dari laporan Rumah Sakit Sanjiwani
1.6. Manfaat Penelitian
Manfaat dari penelitian bila berhasil adalah sebagai berikut :
1. Mendapatkan tingkat keakuratan pengelompokan status gizi pada orang
dewasa dengan menggunakan K-Means Clustering.
2. Membantu para pakar kesehatan dalam melakukan diagnosis status gizi
pada orang dewasa agar lebih cepat dan efisien.
1.7. Sistematika Penulisan Proposal
Agar mudah dipahami proposal ini dibuat dalam suatu sistematika
penulisan yang dapat dijadikan acuan mengenai keterkaitan antar bab yang ada
dalam proposal, dengan uraian sebagai berikut :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5
BAB 1 : PENDAHULUAN
Bab pendahuluan memuat tentang latar belakang masalah, perumusan
masalah, tujuan penelitian, batasan masalah, metodologi penelitian dan
sistematika penyusunan proposal
BAB 2 : LANDASAN TEORI
Bab Landasan Teori memuat penjelasan tentang dasar teori yang
digunakan untuk dasar pembahasan dari penelitian
BAB 3 : METODE PENELITIAN
Bab Metodologi Penelitian berisi tentang metode atau langkah-
langkah dalam pemecahan masalah
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6
BAB II
LANDASAN TEORI
Untuk mendukung pembuatan proposal ini, maka perlu dikemukakan hal-hal
atau teori-teori yang berkaitan dengan permasalahan dan ruang lingkup
pembahasan sebagai landasan dalam pembuatan proposal ini.
2.1. Status Gizi
2.1.1. Pengertian Status Gizi
Definisi status gizi menurut beberapa tokoh adalah sebagai berikut :
1. Menurut Mc Laren dalam Suhardjo (1989) mengemukakan bahwa
status gizi merupakan hasil keseimbangan antara zat-zat gizi yang
masuk dalam tubuh dan penggunaannya.
2. Menurut Soekirman (2000) status gizi adalah keadaan kesehatan akibat
interaksi antara makanan, tubuh manusia dan lingkungan hidup
manusia.
3. Menurut Supariasa (2002) mengumukakan bahwa status gizi adalah
ekspresi dari keadaan keseimbangan dalam bentuk variabel tertentu.
4. Menurut Beck (2000) mengemukakan bahwa, status gizi didefinisikan
sebagai status kesehatan yang dihasilkan oleh keseimbangan antara
kebutuhan dan masukan nutrient.
Dari pendapat para ahli dapat disimpulkan bahwa status gizi merupakan
ekspresi dari keadaan tubuh yang dipengaruhi oleh zat-zat gizi tertentu.
2.1.2. Faktor yang Mempengaruhi Status Gizi
Ada beberapa faktor yang mempengaruhi status gizi, antara lain :
1. Usia
Usia akan mempengaruhi kemampuan atau pengalaman yang dimiliki
orang tua dalam pemberian nutrisi (Nursalam, 2001).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7
2. Kondisi Fisik
Mereka yang sakit, yang sedang dalam penyembuhan dan yang lanjut
usia, semuanya memerlukan pangan khusus karena status kesehatan
mereka yang buruk(Suhardjo, et, all, 1986).
3. Budaya
Budaya adalah suatu ciri khas yang akan mempengaruhi tingkah laku
dan kebiasaan (Soetjiningsih, 1998).
4. Pendapatan
Masalah gizi karena kemiskinan indikatornya adalah taraf ekonomi
keluarga, yang hubungannya dengan daya beli yang dimiliki keluarga
tersebut (Santoso, 1999).
Selain faktor-faktor yang telah dijabarkan diatas masih ada faktor-faktor lain
yang dinilai dapat mempengaruhi status gizi.
2.1.3. Penilaian Status Gizi
Penilaian status gizi secara langsung menurut Supriasa (2001) dapat
dilakukan dengan:
1. Antropometri
Antropometri adalah ukuran tubuh manusia. Sedangkan antropometri
gizi adalah berhubungan dengan berbagai macam pengukuran dimensi
tubuh dan komposisi tubuh dan tingkat umur dan tingkat gizi.
Antropometri secara umum digunakan untuk melihat keseimbangan
asupan protein dan energi.
2. Klinis
Pemeriksaan klinis adalah metode untuk menilai status gizi
berdasarkan atas perubahan-perubahan yang terjadi dihubungkan
dengan ketidak cukupan zat gizi, seperti kulit, mata, rambut, dan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8
mukosa oral atau organ yang dekat dengan permukaan tubuh seperti
kelenjar tiroid.
3. Biokimia
Penilaian status gizi dengan biokimia adalah pemeriksaan spesimen
yang diuji secara laboratoris yang dilakukan pada berbagai macam
jaringan. Jaringan tubuh yang digunakan antara lain darah, urine, tinja
dan juga beberapa jaringan tubuh seperti hati dan otot.
4. Biofisik
Penilaian status gizi secara biofisik adalah metode penentuan status
gizi dengan melibat kemamapuan fungsi dan melihat perubahan
struktur dari jaringan.
2.2. Penambangan Data
2.2.1. Pengertian Penambangan Data
Data mining (penambangan data) adalah proses menemukan korelasi-korelasi
penuh arti, pola-pola dan tren dengan penyaringan melalui sejumlah data yang
besar pada tempat penyimpanan, dan menggunakan teknologi pengenalan pola
seperti yang terdapat pada teknik-teknik di statistika dan matematika (Larose,
2005).
Karakteristik dalam penambangan data sebagai berikut:
1. Penambangan data berhubungan dengan penemuan sesuatu yang
tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya.
2. Penambangan data biasa menggunakan data yang sangat besar.
Biasanya data yang besar digunakan untuk membuat hasil lebih
dipercaya.
3. Penambangan data berguna untuk membuat keputusan yang kritis
(Davies, et al, 2004)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9
2.2.2. Tahap-tahap Penambangan Data
Penambangan data dipahami sebagai suatu proses, yang memiliki tahapan-
tahapan tertentu yang bersifat interaktif dan juga ada umpan balik dari setiap
tahapan sebelumnya(Kusnawi, 2007). Adapun tahapan tersebut dapat dilihat
pada gambar 2.1.
Gambar 2. 1 Tahap-tahap penambangan data. (Han, et al., 2006)
Tahap-tahap tersebut, bersifat interaktif dimana pemakai terlibat langsung
atau dengan perantaraan knowledge base.
1. Pembersihan data
Pembersihan data merupakan proses menghilangkan noise dan data yang
tidak konsisten atau data tidak relevan. Pada umumnya data yang diperoleh,
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
10
baik dari database suatu perusahaan maupun hasil eksperimen, memiliki
isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak
valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut
yang tidak relevan dengan hipotesis penambangan data yang dimiliki. Data-
data yang tidak relevan itu juga lebih baik di buang. Pembersihan data juga
akan mempengaruhi performa dari teknik penambangan data karena data
yang ditangani akan berkurang jumlah dan kompleksitasnya.
2. Integrasi data
Integrasi data merupakan penggabungan data dari berbagai database ke
dalam satu database baru. Tidak jarang data yang diperlukan untuk
penambangan data tidak hanya berasal dari satu database tetapi juga berasal
dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-
atribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut
nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu
dilakukan secara cermat karena kesalahan pada integrasi data bisa
menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan
aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk
ternyata menggabungkan produk dari kategori yang berbeda maka akan
didapatkan korelasi antar produk yang sebenarnya tidak ada.
3. Seleksi data
Data yang ada pada database sering kali tidak semuanya dipakai, oleh
Karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari
database. Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan
orang membeli dalam kasus market basket analysis, tidak perlu mengambil
nama pelanggan, cukup dengan id pelanggan saja.
4. Transformasi data
Data diubah atau digabung ke dalam format yang sesuai untuk diproses
dalam penambangan data. Beberapa metode penambangan data
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11
membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai
contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya
bisa menerima input data kategorikal. Karenanya data berupa angka numerik
yang berlanjut perlu dibagi-bagi menjadi interval. Proses ini sering disebut
transformasi data.
5. Proses penambangan
Merupakan suatu proses utama saat metode diterapkan untuk menemukan
pengetahuan berharga dan tersembunyi dari data.
6. Presentasi pengetahuan
Untuk mengidentifikasi pola-pola menarik ke dalam knowledge based yang
ditemukan. Dalam tahap ini hasil dari teknik penambangan data berupa pola-
pola yang khas maupun model prediksi dievaluasi untuk menilai apakah
hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak
sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti
menjadikannya umpan balik untuk memperbaiki proses penambangan data,
mencoba metode penambangan data lain yang lebih sesuai, atau menerima
hasil ini sebagai suatu hasil yang diluar dugaan yang mungkin bermanfaat
Salah satu metode dari penambangan data itu sendiri salah satunya adalah
Clustering.
2.3. Clustering
Analisis berbasis cluster merupakan suatu teknik untuk membagi data ke
dalam beberapa kelompok (cluster) yang memiliki arti dan berguna. Jika
kelompok yang memiliki arti adalah tujuannya, maka cluster-cluster harus dapat
mengetahui struktur alami dari data. Semakin besar kesamaan (homogenitas)
antar objek dalam suatu cluster dan semakin besar perbedaan antara cluster,
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12
maka clustering akan semakin baik (Tan P., Steinbach M., dan Kumar V., 2005).
Pada proses clustering tidak diperlukan label kelas untuk setiap data yang
diproses karena nantinya label baru bisa diberikan ketika cluster sudah terbentuk.
Karena tidak adanya label kelas maka clustering sering disebut juga
pembelajaran tidak terbimbing (unsupervised learning) (Prasetyo, 2014).
Prasetyo menyatakan bahwa proses clustering dapat dibedakan menjadi tiga
jenis, yaitu dapat dibedakan menurut struktur cluster, keanggotaan data dalam
cluster, dan kekompakan data dalam cluster. Adapun penjabaran dari ketiga jenis
proses clustering tersebut ditunjukkan secara rinci pada Tabel 2.1
Tabel 2. 1 Jenis-jenis Proses Clustering (Prasetyo, 2014)
Proses Clustering Deskripsi
Menurut Struktur
cluster
Hirarki
a. Satu data tunggal bisa dianggap
sebagai sebuah cluster
b. Dua atau lebih cluster kecil dapat
bergabung menjadi sebuah cluster
besar.
c. Begitu seterusnya hingga semua
data dapat bergabung menjadi
sebuah cluster
Partisi
a. Membagi set data ke dalam
sejumlah cluster yang tidak
bertumpang-tinduh antara satu
cluster dengan cluster lain
b. Setiap data hanya menjadi
anggota satu cluster saja
Menurut
Keanggotaan data
dalam cluster
Eksklusif
Sebuah data bisa dipastikan hanya
menjadi anggota satu cluster dan
tidak menjadi anggota di cluster lain.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13
Tumpang-tindih Membolehkan sebuah data menjadi
anggota di lebih dari satu cluster.
Menurut
kekompakan data
dalam cluster
Lengkap Jika semua data bisa bergabung,
maka data kompak menjadi satu
cluster, jika data tidak dikatakan
menyimpang.
Parsial
Karena tidak ada label kelas yang digunakan dalam prosesnya, oleh Prasetyo
clustering dikatakan sangat cocok untuk melakukan clustering data yang label
kelasnya memang sulit didapatkan pada saat pembangkitan fitur. Pada clustering,
segera setelah cluster terbentuk, maka label kelas untuk setiap data dapat
diberikan dengan cara mengamati keluaran yang dihasilkan oleh proses
clustering. Karena tidak membutuhkan label kelas, kemiripan (similarity) harus
didefinisikan berdasarkan atribut objek, di mana definisi tersebut bergantung
pada algoritma clustering yang diterapkan. Algoritma clustering yang “bagus”
digunakan tergantung pada penerapan set data yang diproses.
Pada algoritma clustering terdahulu kebanyakan didesain dengan asumsi
bahwa atribut dari data yang diolah merupakan data yang bersifat numerik.
Namun, hal tersebut tidak sepenuhnya benar pada kasus-kasus dalam dunia
nyata, data bisa didapatkan dari berbagai macam tipe data seperti diskret
(kategorikal), temporal, atau structural (Aggarwal, C.C. & Reddy, C.K., 2014).
Adapun tipe data yang dapat diteliti dalam analisis berbasis cluster menurut
Aggrawal & Reddy adalah :
a. Clustering pada data kategorikal.
b. Clustering pada data teks.
c. Clustering pada data multimedia
d. Clustering pada data time-series
e. Clustering pada rangkaian diskret
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14
f. Clustering pada rangkaian jaringan
g. Clustering pada data yang tidak pasti
2.4. Algoritma K-Means
Metode K-Means pertama kali diperkenalkan oleh Macqueen JB pada tahun
1976. Metode ini adalah salah satu metode non hierarchi yang umum digunakan.
Metode ini termasuk dalam teknik penyekatan (partition) yang membagi atau
memisahkan objek kek daerah bagian yang terpisah. Pada K-Means, setiap objek
harus masuk dalam kelompok tertentu, tetapi dalam satu tahapan proses tertentu,
objek yang sudah masuk dalam satu kelompok, pada satu tahapan berikutnya
objek akan berpindah ke kelompok lain.
Hasil cluster dengan metode K-Means sangat bergantung pada nilai pusat
kelompok awal yang diberikan. Pemberian nilai awal yang berbeda bisa
menghasilkan kelompok yang berbeda. Ada beberapa cara memberi nilai awal
misalnya dengan memberi nilai awal secara random, menentukan nilai awalnya
atau menggunakan hasil dari kelompok hierarki dengan jumlah kelompok yang
sesuai (Santosa, 2007).
K-Means adalah suatu metode penganalisan data atau metode Data Mining
yang melakukan proses pemodelan tanpa supervisi (unsupervised) dan
merupakan salah satu metode yang melakukan pengelompokan data dengan
sistem partisi. Metode K-Means berusaha mengelompokkan data yang ada ke
dalam beberapa kelompok, di mana data dalam satu data mempunyai
karakteristik yang sama satu sama lainnya dan mempunyai karakteristik yang
berbeda dengan data yang ada di dalam kelompok yang lain. Dengan kata lain,
metode ini berusaha untuk meminimalkan variasi antar data yang ada di dalam
suatu cluster lainnya (Agusta, 2007).
Menurut Nuningsih (2010), algoritma K-Means memerlukan 3 komponen,
yaitu:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15
1. Jumlah Cluster K
K-Means merupakan bagian dari metode non-hirarki sehingga dalam
metode ini jumlah k harus ditentukan terlebih dahulu. Jumlah cluster k
dapat ditentukan melalui pendekatan metode hirarki. Namun perlu
diperhatikan bahwa tidak terdapat aturan khusus dalam menentukan
cluster k, terkadang cluster yang diinginkan tergantung pada subyektif
seseorang.
2. Cluster Awal
Cluster awal yang dipilih berkaitan dengan penentuan pusat cluster awal
(centroid awal). Dalam hal ini, terdapat beberapa pendapat dalam memilih
cluster awal untuk metode K-Means sebagai berikut:
a. Berdasarkan Hartigan (1975), pemilihan cluster awal dapat
ditentukan berdasarkan interval dari jumlah observasi.
b. Berdasarkan Rencher (2002), pemilihan cluster awal dapat
ditentukan melalui pendekatan salah satu metode hirarki.
c. Berdasarkan Teknomo (2007), pemilihan cluster awal dapat
dilakukan secara acak dari semua observasi.
d. Berdasarkan Al-daoud (2007), pemilihan cluster awal dapat
ditentukan dengan mencari dimensi fitur dengan varian
maksimum.
Oleh karena adanya pemilihan cluster awal yang berbeda ini maka
kemungkinan besar solusi cluster yang dihasilkan akan berbeda pula.
3. Ukuran Jarak
Metode K-Means dimulai dengan pembentukan prototipe cluster di awal
kemudian secara iteratif prototipe cluster ini diperbaiki hingga konvergen
(tidak terjadi perubahan yang signifikan pada prototipe cluster).
Perubahan ini diukur dengan ukuran jara Euclidean. Ukuran jarak ini
digunakan untuk mendapatkan observasi ke dalam cluster berdasarkan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16
centroid terdekat.
Menurut Sarwono (2011), Algoritma K-Means adalah sebagai berikut:
1. Menentukan k sebagai jumlah cluster yang ingin dibentuk.
2. Membangkitkan nilai random untuk pusat cluster awal (centroid)
sebanyak k
3. Menghitung jarak setiap data input terhadap masing-masing centroid
menggunakan rumus jarak Euclidean (Euclidean Distance) hingga
ditemukan jarak yang paling dekat dari setiap data dengan centroid.
Berikut adalah persamaan Euclidean Distance:
d(𝑥𝑖 , 𝜇𝑗) = √(𝑥𝑖 − 𝜇𝑗)2 .................................. (2.1)
dimana:
xi : Data kriteria
µj : centroid pada cluster ke-j
4. Mengklasifikasikan setiap data berdasarkan kedekatannya dengan centroid
(jarak terkecil).
5. Memperbaharui nilai centroid. Nilai centroid baru diperoleh dari rata-rata
cluster yang bersangkutan dengan menggunakan rumus.
𝜇𝑗(𝑡 + 1) = 1
𝑁𝑠𝑗∑ 𝑥𝑗𝑗 𝜖 𝑆𝑗 .................................(2.2)
dimana:
µj(t+1) : centroid baru pada iterasi ke (t+1)
Nsj : banyak data pada cluster Sj
6. Melakukan perulangan dari langkah 2 hingga 5 hingga anggota tiap
cluster tidak ada yang berubah.
7. Jika langkah 6 telah terpenuhi, maka nilai pusat cluster (µj) pada iterasi
terakhir akan digunakan sebagai parameter untuk menentukan klasifikasi
data, ilustrasi dari perubahan cluster/kelompok data ditunjukkan pada
Gambar 2.3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17
Gambar 2. 2 Diagram aliran algoritma K-Means (Andayani, 2007)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18
Gambar 2. 3 Ilustrasi algoritma K-Means (Noor dan Hariad, 2009)
2.5. Confusion Matriks dan Akurasi
Confusion matrix merupakan salah satu metode yang dapat digunakan untuk
mengukur kinerja suatu metode klasifikasi. Pada dasarnya confusion matrix
mengandung informasi yang membandingkan hasil klasifikasi yang dilakukan
oleh sistem dengan hasil klasifikasi yang seharusnya(Prasetyo, 2012).
Pada pengukuran kinerja menggunakan confusion matrix, terdapat 4 (empat)
istilah sebagai representasi hasil proses klasifikasi. Keempat istilah tersebut
adalah True Positive (TP), True Negative (TN), False Positive (FP) dan False
Negative (FN). Nilai True Negative (TN) merupakan jumlah data negatif yang
terdeteksi dengan benar, sedangkan False Positive (FP) merupakan data negatif
namun terdeteksi sebagai data positif. Sementara itu, True Positive (TP)
merupakan data positif yang terdeteksi benar. False Negative (FN) merupakan
kebalikan dari True Positive, sehingga data positif, namun terdeteksi sebagai data
negatif.
Pada jenis klasifikasi binary yang hanya memiliki 2 keluaran kelas, confusion
matrix dapat disajikan seperti pada Tabel 2.2 (Sokolova, 2009).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
19
Tabel 2. 2 Confusion Matriks untuk Klasifikasi 2 Kelas
Kelas Terklasifikasi Positif Terklasifikasi Negatif
Positif TP(True Positive) FN (False Negative)
Negatif FP(False Positive) TN(True Negative)
Berdasarkan nilai True Negative (TN), False Positive (FP), False Negative
(FN), dan True Positive (TP) dapat diperoleh nilai akurasi, presisi dan recall.
Nilai akurasi menggambarkan seberapa akurat sistem dapat mengklasifikasikan
data secara benar. Dengan kata lain, nilai akurasi merupakan perbandingan
antara data yang terklasifikasi benar dengan keseluruhan data. Nilai akurasi dapat
diperoleh dengan Persamaan 2.3. Nilai presisi menggambarkan jumlah data
kategori positif yang diklasifikasikan secara benar dibagi dengan total data yang
diklasifikasi positif. Presisi dapat diperoleh dengan Persamaan 2.4. Sementara
itu, recall menunjukkan berapa persen data kategori positif yang terklasifikasikan
dengan benar oleh sistem. Nilai recall diperoleh dengan Persamaan 2.5.
Akurasi =𝑇𝑃+𝑇𝑁
𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 × 100% .....................................(2.3)
Presisi =𝑇𝑃
𝑇𝑃+𝐹𝑃 × 100% ...................................................(2.4)
Recall =𝑇𝑃
𝑇𝑃+𝐹𝑁 × 100% ....................................................(2.5)
dimana:
TP adalah True Positive, yaitu jumlah data positif yang terklasifikasi dengan
benar oleh sistem.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
20
TN adalah True Negative, yaitu jumlah data negatif yang terklasifikasi dengan
benar oleh sistem.
FN adalah False Negative, yaitu jumlah data negatif namun terklasifikasi salah
oleh sistem.
FP adalah False Positive, yaitu jumlah data positif namun terklasifikasi salah
oleh sistem
2.6. Silhouette Coefficient
Silhouette Coefficient adalah metode yang digunakan untuk memvalidasi
sebuah cluster yang menggabungkan nilai kohesi dan separasi. Silhouette
Coefficient (SC) dapat digunakan untuk memvalidasi sebuah data, cluster
tunggal, atau bahkan kesulurhan cluster. Untuk menghitung nilai SC, terlebih
dahulu menghitung nilai Silhouette Index (SI) dari sebuah data ke-i. Perhitungan
nilai SI terdapat 2 komponen yaitu ai dan bi. ai adalah rata-rata jarak data ke-i
terhadap semua data lainnya dalam satu cluster, sedangkan bi didapatkan dengan
menghitung rata-rata jarak data ke-i terhadap semua data lainnya dalam satu
cluster yang lain yang tidak dalam satu cluster dengan data ke-i, kemudian
diambil yang terkecil (Prasetyo, 2014).
Berikut formula untuk menghitung aij :
𝑎𝑖𝑗 =
1
𝑚𝑗−1∑ 𝑑(𝑥𝑖
𝑗 , 𝑥𝑟𝑗)
𝑚𝑗
𝑟=1𝑟≠1
……………………………(2.6)
Dimana :
i : Indeks data
j : Cluster
𝑑(𝑥𝑖𝑗 , 𝑥𝑟
𝑗) : Jarak data ke-i dengan data ke- r dalam satu cluster j
mj : Jumlah data dalam cluster ke-j
x : Data
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21
Berikut rumus untuk menghitung 𝑏𝑖𝑗 :
𝑏𝑖𝑗
= 𝑚𝑖𝑛
𝑛 = 1 … . 𝑘𝑛 ≠ 𝑗
{1
𝑚𝑛} ∑ 𝑑(𝑥𝑖
𝑗, 𝑥𝑟
𝑗)
𝑚𝑗
𝑟=1𝑟≠1
……………………….(2.7)
Dimana :
b : Nilai minimum dari rata-rata jarak data ke-i terhadap
semua data dari cluster yang lain
j : Cluster
𝑑(𝑥𝑖𝑗 , 𝑥𝑟
𝑗) : Jarak data ke-i dengan data ke- r dalam satu cluster j
mn : Banyak data dalam 1 cluster
x : Data
Untuk mendapatkan Silhouette Index (SI) data ke-i menggunakan persamaan
berikut :
𝑆𝐼𝑖𝑗 =
𝑏𝑖𝑗
−𝑎𝑖𝑗
𝑚𝑎𝑥{𝑎𝑖𝑗
,𝑏𝑖𝑗
} ………………………………………(2.8)
Dimana :
a : Rata-rata jarak data ke-i terhadap semua data lainnya
dalam satu cluster.
b : Nilai minimum dari rata-rata jarak data ke-i terhadap
semua data dari cluster yang lain
𝑚𝑎𝑥{𝑎𝑖𝑗 , 𝑏𝑖
𝑗}: Nilai maksimum dari nilai a dan b dari satu data
SI : Silhouette Index
Nilai ai mengukur seberapa tidak mirip sebuah data dengan cluster yang
diikutinya, nilai yang semakin kecil menandakan semakin tepatnya data tersebut
berada dalam cluster tersebut. Nilai bi yang besar menandakan seberapa jeleknya
data terhadap cluster yang lain. Nilai SI yang didapat dalam rentang (-1, +1).
Nilai SI yang mendekati 1 menandakan bahwa data tersebut semakin tepat
berada dalam cluster tersebut. Nilai SI negative menandakan bahwa data tersebut
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
22
tidak tepat berada dalam cluster tersebut (karena lebih dekat ke cluster yang
lain).
Untuk nilai SI dari sebuah cluster didaptkan dengan menghitung rata-rata nilai
SI semua data yang bergabung dalam cluster tersebut seperti persamaan berikut :
𝑆𝐼𝑗 = 1
𝑚𝑗 ∑ 𝑆𝐼𝑖
𝑗𝑚𝑗
𝑖=1 ………………………………………(2.9)
Dimana :
i : Index
j : Cluster
mj : Banyaknya data dalam cluster j
SIj : Silhouette Index cluster
Sementara nilai SI global didaptkan dengan menghitung rata-rata nilai SI dari
semua cluster seperti pada persamaan berikut :
𝑆𝐼 = 1
𝑘 ∑ 𝑆𝐼𝑗
𝑘𝑗=1 …………………………………….....(2.10)
Dimana :
k : Jumlah cluster
j : Cluster
SI : Silhouette Index global
SIj : Silhouette Index cluster
Untuk memvalidasi seberapa baik sebuah cluster digunakan metode Silhouette
Coefficient (SC). Nilai SC didapat dengan mencari nilai maksimum SI global
dari jumlah cluster sampai jumlah cluster n-1, seperti pada persamaan berikut
𝑆𝐶 = 𝑚𝑎𝑥𝑘 𝑆𝐼(𝑘)……………………………..……(2.11)
Dimana :
SC : Silhouette Coefficient
SI : Nilai Silhouette global
k : Jumlah clusterj
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
23
Kriteria subjektif pengukuran baik atau tidaknya pengelompokkan
berdasarkan SC menurut Kaufman dan Roesseeuw (1990) disajikan dalam tabel
2.3.
Tabel 2. 3 Kriteria pengelompokkan berdasarkan SC
Nilai SC Interpretasi SC
0.71 – 1.00 Struktur Kuat
0.51 – 0.70 Struktur Baik
0.26 – 0.50 Struktur Lemah
≤ 0.25 Struktur Buruk
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
24
BAB III
METODOLOGI PENELITIAN
Pada bab ini dijelaskan mengenai data yang digunakan pada penelitian tugas
akhir serta proses sistem yang akan dilakukan dalam pengelompokan status gizi
pada orang dewasa menggunakan algoritma k-means.
3.1. Data
Data yang digunakan dalam penelitian ini adalah data pasien yang diperoleh
dari sebuah rumah sakit umum di Gianyar. Data yang digunakan merupakan data
pasien dari tahun 2013-2015. Data tersebut berupa rekam medis pasien yang
kemudian disalin ke dalam sebuah file bertipe excel. Dari proses pengumpulan
data, diperoleh jumlah data sebanyak 180 data.
Data yang diperoleh terdiri dari : diet, berat badan, tinggi badan, umur, jenis
kelamin, kesehatan dan status gizi.
3.2. Proses Sistem
Masukkan sistem akan diproses menggunakan algoritma k-means dalam teori
penambangan data. Alur sistem dan tahapan penelitian dijabarkan dalam bentuk
diagram blok seperti pada gambar 3.1 berikut :
Gambar 3. 1 Diagram blok
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25
3.2.1. Data Mentah
Dalam penelitian tugas akhir ini data yang digunakan adalah data pasien dari
sebuah rumah sakit umum di Gianyar. Untuk mengidentifikasi status gizi diukur
dari diet, umur, jenis kelamin, berat badan, tinggi badan, kesehatan dan status
gizi dari pasien. Atribut data ditampilkan pada tabel 3.1 berikut :
Tabel 3. 1 Data Atribut
No Nama Atribut Keterangan Nilai
1 Diet Atribut ini
menyimpan data
kebiasaan makan
pasien
Bubur biasa, bubur
garam, bubur telur,
telur, dst
2 Umur Atribut ini
menyimpan data
umur dari
pasien(diatas 18
tahun)
20,67,30, dst
3 Jenis Kelamin Atribut ini
menyimpan data
jenis kelamin dari
pasien
Laki-laki dan
Perempuan
4 Berat Badan Atribut ini
menyimpan data
berat badan dari
pasien
60, 40, 100, dst
5 Tinggi Badan Atribut ini
menyimpan data
tinggi badan dari
170,150,180, dst
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
26
pasien
6 Kesehatan Atribut ini
menyimpan data
apakah pasien
tersebut sedang
sakit berat atau
tidak
Sehat dan Sakit
7 Status Gizi Atribut ini
menyimpan data
status gizi dari
pasien
Kurang, normal,
baik, lebih, obes
ringan dan obes
berat.
Contoh data pasien ditampilan pada tabel 3.2 berikut :
Tabel 3. 2 Contoh Data Pasien
Diet Berat Tinggi Kesehatan Jenis
Kelamin Umur
Status
Gizi
Beras 75 163 Sehat Perempuan 24 obes
Makanan
Lunak 50 158 Sehat Perempuan 33
baik
Puasa 35 150 Sehat Perempuan 44 kurang
Bubur
manis 84 174 Sehat Laki-Laki 66 obes
Makanan
Lunak 86 184 Sehat Laki-Laki 74 normal
Tidak diet 67 170 Sehat Laki-laki 47 normal
Beras 68 160 Sakit Perempuan 35 lebih
Bubur
Manis
75 165 Sehat Laki-Laki 77 obes
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
27
Puasa 50 157 Sehat Perempuan 37 normal
Tidak Diet 75 160 Sakit Laki-Laki 42 lebih
3.2.2. Transformasi Data
Pada tahap ini dilakukan peringkasan data atau proses pengubahan data
mentah menjadi data yang mudah dikelola. Dikarenakan sebagian nilai atribut
dari data yang digunakan merupakan data non numerik maka diperlukan
perubahan data tersebut menjadi numerik serta pengelompokkan status gizi untuk
mempermudah jalannya sistem.
Perubahan data non numerik adalah sebagai berikut :
a. Diet
i. Tidak diet = 0
ii. Bubur Manis = 1
iii. Bubur Garam = 2
iv. Makanan Lunak = 3
v. Puasa = 4
vi. Susu = 5
vii. Beras = 6
viii. Bubur Biasa = 7
ix. Bubur Telur = 8
x. Buah = 9
b. Kesehatan
i. Sehat = 0
ii. Sakit = 1
c. Jenis Kelamin
i. Laki-laki = 0
ii. Perempuan = 1
d. Status Gizi
i. Kurang = 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
28
ii. Normal, baik, lebih = 2
iii. Obes ringan dan obes berat = 3
Jika pengguna sistem memilih untuk tidak menormalisasi data maka data
dengan atribut berat, tinggi dan umur akan dikategorikan sebagai berikut :
a. Berat
i. x < 46 = 1
ii. 46 ≤ x < 61 = 2
iii. x ≥ 61 = 3
b. Tinggi
i. x < 151 = 1
ii. 151 ≤ x < 166 = 2
iii. x ≥ 166 = 3
c. Umur
i. x < 26 = 1
ii. 26 ≤ x < 36 = 2
iii. 36 ≤ x < 46 = 3
iv. 46 ≤ x < 56 = 4
v. 56 ≤ x < 65 = 5
vi. x ≥ 65 = 6
Pada tahap ini juga dilakukan pengisian data yang tidak diketahui nilainya
(missing value). Untuk setiap data yang tidak diketahui nilainya akan diisi
dengan nilai terbanyak dari setiap atribut. Contoh data yang sudah melewati
tahap transformasi ditampilkan pada tabel 3.3 berikut :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29
Tabel 3. 3 Contoh Data Setelah Tahap Transformasi (Tanpa Normalisasi)
Diet Berat Tinggi Kesehatan Jenis
Kelamin Umur
Status
Gizi
6 3 2 0 1 2 3
3 2 2 0 1 3 2
4 1 1 0 1 4 1
1 3 3 0 0 6 3
3 3 3 0 0 6 2
0 3 3 0 0 4 2
6 3 2 1 1 2 2
1 3 2 0 0 6 3
4 2 2 0 1 3 2
0 3 2 1 0 3 2
Dari data yang diperoleh, sebagian berupa angka yang beragam, sehingga
perlu dilakukan normalisasi data. Dalam normalisasi data saya akan
menggunakan ZScore dan MinMax lalu membandingkan hasilnya. Contoh data
yang sudah melewati tahap normalisasi ditampilkan pada tabel 3.4 dan 3.5
berikut :
Tabel 3. 4 Contoh Data Setelah Normalisasi MinMax
No Diet Berat Tinggi Kesehatan Jenis
Kelamin Umur
Status
Gizi
1 6 0.78431 0.38235 0 1 0 3
2 3 0.29411 0.23529 0 1 0.1698 2
3 4 0 0 0 1 0.3773 1
4 1 0.96078 0.70588 0 0 0.7924 3
5 3 1 1 0 0 0.9433 2
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
30
6 0 0.62745 0.58823 0 0 0.4339 2
7 6 0.64705 0.29411 1 1 0.2075 2
8 1 0.78431 0.44117 0 0 1 3
9 4 0.29411 0.20588 0 1 0.2452 2
10 0 0.78431 0.29411 1 0 0.3396 2
Tabel 3. 5 Contoh Data Setelah Normalisasi ZScore
No. Diet Berat Tinggi Kesehatan Jenis
Kelamin Umur
Status
Gizi
1 6 0.51596 -0.1131 0 1 -1.3123 3
2 3 -1.0015 -0.6273 0 1 -0.8181 2
3 4 -1.9121 -1.4501 0 1 -0.2141 1
4 1 1.06228 1.01816 0 0 0.99388 3
5 3 1.18369 2.04660 0 0 1.43316 2
6 0 0.03035 0.60678 0 0 -0.0494 2
7 6 0.09105 -0.4216 1 1 -0.7083 2
8 1 0.51596 0.09256 0 0 1.5978 3
9 4 -1.0015 -0.7301 0 1 -0.5985 2
10 0 0.51596 -0.4216 1 0 -0.3239 2
3.2.3. Proses Clustering
Setelah semua data ditransformasi ke dalam bentuk data angka dan sudah
dinormalisasi, maka data-data tersebut telah dapat dikelompokkan dengan
menggunakan algoritma K-Means. Untuk dapat melakukan pengelompokkan data-
data tersebut menjadi beberapa cluster perlu dilakukan beberapa langkah yaitu :
1. Tentukan jumlah cluster yang diinginkan. Dalam penelitian ini data yang ada
akan dikelompokkan menjadi tiga cluster
2. Tentukan titik pusat awal dari setiap cluster. Dalam penelitian ini titik pusat
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31
awal akan ditentukan dengan 3 cara yaitu, Sequential, Random dan Varians.
Untuk contoh ini peniliti akan menggunakan penentuan titik pusat awal
dengan cara Sequential dan normalisasi ZScore. Contoh pemilihan titik pusat
data dapat dilihat pada tabel 3.6 sedangkan data sample yang digunakan dapat
dilihat pada tabel 3.5
Tabel 3. 6 Contoh pemilihan titik pusat data
Titik
Pusat
Awal
Diet Berat Tinggi Kesehatan Jenis Kelamin Umur
1 6 0.5159 -0.1131 0 1 -1.3123
2 3 -1.0015 -0.6273 0 1 -0.8181
3 4 -1.9121 -1.4501 0 1 -0.2141
Setelah diketahui nilai k dan pusat cluster awal selanjutnya mengukur jarak
antara pusat cluster menggunakan Euclidian Distance, kemudian didapatkan
matriks jarak yaitu C1, C2 dan C3 sebagai berikut :
Rumus Euclidean Distance:
d(𝑥𝑖 , 𝜇𝑗) = √(𝑥𝑖 − 𝜇𝑗)2
Perhitungan jarak data pertama dengan pusat cluster pertama adalah :
𝑑11
= √(6 − 6)2 + (0.515 − 0.515)2 + (−0.1131 − (−0.1131))
2+ (0 − 0)2 + (1 − 1)2 +
(−1.312 − (−1.312))2
= 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
32
Perhitungan Jarak data pertama dengan pusat cluster kedua adalah :
𝑑12 = √
(6 − 3)2 + (0.515 − (−1.001))2
+ (−0.1131 − (−0.6273))2
+ (0 − 0)2
+(1 − 1)2 +
(−1.312 − (−0.8181))2
= 3.4368
Perhitungan Jarak data pertama dengan pusat cluster ketiga adalah :
𝑑13 = √
(6 − 4)2 + (0.515 − (−1.9121))2
+ (−0.1131 − (−1.4501))2
+ (0 − 0)2
+(1 − 1)2 +
(−1.312 − (−0.2141))2
= 3.5902
Tabel 3. 7 Tabel Hasil Perhitungan Jarak Pusat Cluster
No. C1 C2 C3
1 0 3.4368 3.5902
2 3.4368 0 1.6944
3 3.5902 1.6944 0
4 5.7356 3.9052 5.1380
5 4.7590 4.2419 5.1502
6 6.2729 3.6303 5.0031
7 1.2809 3.3538 3.2116
8 5.8747 3.6958 4.6432
9 2.6820 1.0290 1.2227
10 6.2508 3.6864 4.9965
Jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak
terdekat antara data dengan pusat cluster, jarak ini menunjukkan bahwa data
tersebut berada dalam satu kelompok dengan pusat cluster terdekat. Dengan cara
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
33
membandingkan hasil cluster dan diambil nilai yang paling kecil.
Berikut ini akan ditampilkan data matriks pengelompokan group, nilai 1
berarti data tersebut breada dalam group atau cluster.
Tabel 3. 8 Tabel Pengelompokan Group
No. C1 C2 C3
1 1
2 1
3 1
4 1
5 1
6 1
7 1
8 1
9 1
10 1
Setelah diketahui anggota tiap-tiap cluster kemudian pusat cluster baru
dihitung berdasarkan data anggota tiap-tiap cluster sesuai dengan rumus pusat
anggota cluster.
Dengan perhitungan sebagai berikut :
1. Titik pusat Cluster pertama yang baru.
Diet:
6 + 6
2= 6
Berat :
0.515 + 0.091
2= 0.303
Tinggi :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34
−0.1131 + (−0.4216)
2= −0.2674
Kesehatan :
0 + 1
2= 0.5
Jenis Kelamin :
1 + 1
2= 1
Umur :
−1.3123 + (−0.7083)
2= −2.0206
2. Titik pusat Cluster kedua yang baru.
Diet:
3 + 1 + 3 + 0 + 1 + 4 + 0
7= 1.7142
Berat :
−1.0015 + 1.0623 + 1.1837 + 0.0303 + 0.5197 + (−1.0016) + 0.5160
7
= 0.1870
Tinggi :
−0.6274 + 1.0182 + 2.0466 + 0.6068 + 0.0926 + (−0.7302) + (−0.4217)
7
= 0.2836
Kesehatan :
0 + 0 + 0 + 0 + 0 + 0 + 1
7= 0.1429
Jenis Kelamin :
1 + 0 + 0 + 0 + 0 + 1 + 0
7= 0.2857
Umur :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35
−0.8181 + 0.9939 + 1.4331 + (−0.0494) + 1.5979 + (−0.5985) + (−0.3240)
7
= 0.3193
3. Titik pusat Cluster ketiga yang baru.
Diet:
4
1= 4
Berat :
−1.9121
1= −1.9121
Tinggi :
−1.4501
1= −1.4501
Kesehatan :
0
1= 0
Jenis Kelamin :
1
1= 1
Umur :
−0.2141
1= −0.2141
Setelah ditemukan titik pusat cluster-cluster yang baru maka ulangilah
perhitungan jarak data pertama dengan pusat cluster :
𝑑11 = √
(6 − 6)2 + (0.515 − 0.303)2 + (−0.1131 − (−0.2674))2
+
(0 − 0.5)2 + (1 − 1)2 +
(−1.312 − (−2.0206))2
= 0.6404
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
36
Perhitungan Jarak data pertama dengan pusat cluster kedua adalah :
𝑑12 = √
(6 − 1.7142)2 + (0.515 − 0.1870)2 + (−0.1131 − 0.2836)2 + (0 − 0.1429)2
+(1 − 0.2857)2 +(−1.312 − 0.3193)2
= 4.6718
Perhitungan Jarak data pertama dengan pusat cluster ketiga adalah :
𝑑13 = √
(6 − 4)2 + (0.515 − (−1.9121))2
+ (−0.1131 − (−1.4501))2
+(0 − 0)2 + (1 − 1)2 +
(−1.312 − (−0.2141))2
= 6.0373
Tabel 3. 9 Tabel Hasil Perhitungan Jarak Pusat Cluster
No. C1 C2 C3
1 0.6404 4.6718 6.0373
2 3.3346 2.3914 3.4157
3 3.3454 3.6673 4.7399
4 5.7005 1.5408 1.5991
5 4.7276 2.6643 3.6531
6 6.2460 1.8181 0.6561
7 0.6404 4.6016 5.9768
8 5.7643 1.5467 1.6261
9 2.5174 3.0061 4.2386
10 6.1474 2.1851 1.2334
Langkah selanjutnya hasil perhitungan akan dilakukan perbandingan dan
dipilih jarak terdekat antara data dengan pusat cluster, jarak ini menunjukkan
bahwa data tersebut dalam satu kelompok dengan cluster terdekat.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
37
Tabel 3. 10 Tabel Pengelompokan Group
No. C1 C2 C3
1 1
2 1
3 1
4 1
5 1
6 1
7 1
8 1
9 1
10 1
Pada perhitungan ini iterasi berhenti pada iterasi ke-4 karena data sudah stabil
dan konvergen.
3.3. Desain User Interface
Gambar 3. 2 User Interface
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
38
User Interface penerapan metode K-Means Clustering untuk mengelompokan
status gizi pada orang dewasa. Dalam User Interface terdapat tombol “ Ambil
Data” untuk memasukan data yang akan diolah. Data awal sebelum diolah akan
ditampilkan dalam tabel “Tabel Data Pasien”. Selanjutnya, user memilih cara
normalisasi dan inisialisasi lalu menekan tombol “Preprocess”. Setelah data di
preprocess maka data hasil preprocess akan ditampilkan dalam tabel “Tabel
Hasil Preprocess”. Terakhir user menekan tombol “Cluster” maka data akan
diolah dengan algoritma K-Means sehingga akan mendapatkan hasil pada tabel
“Tabel Hasil Clustering” serta akan menunjukkan Akurasi pada kotak “Akurasi”
dan Silhouette pada kotak “Silhouette”.
3.4. Spesifikasi Alat
Sistem ini mempunyai kebutuhan perangkat keras dan lunak untuk
mendapatkan hasil yang maksimal.
1. Kebutuhan perangkat lunak :
a. Microsoft Windows 10 (x64)
b. Microsoft Excel 2016
c. Matlab R2016b
2. Kebutuhan perangkat keras :
a. Processor : Core I5-4670k @3.40GHz
b. Memory : 8 GB
c. Harddisk : 1 TB
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
39
BAB IV
IMPLEMENTASI DAN ANALISA HASIL
Bab ini membahas lebih rinci hal-hal yang berkaitan dengan hasil dan analisis
yang didapatkan dari pengujian-pengujian yang akan dilakukan dari hasil
pengujian serta antarmuka sistem.
4.1. Implementasi Program
Dalam membuat sistem implementasi K-Means Clustering untuk
pengelompokan status gizi pada orang dewasa, peneliti menggunakan Matlab
R2016b. User Interface System telah dipaparkan dalam bab sebelumnya
diimplementasikan dan digunakan untuk melakukan proses pengelompokan
dengan K-Means Clustering. Sistem menampilkan hasil cluster. Gambar 4.1
merupakan gambar User Interface dari keselurahan sistem yang telah terbentuk.
Gambar 4. 1 Tampilan Keseluruhan Sistem
Dalam proses pengelompokan data terdapat tiga langkah utama yaitu input
data, pemilihan normalisasi dan inisialisasi, dan proses K-Means clustering
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
40
4.1.1. Input Data
Data sistem dijalankan, langkah pertama yang harus dilakukan user adalah
memencet tombol “Ambil Data” dan memilih file yang berekstensi *.xlsx
sebagai inputan data. Setelah di-inputkan, sistem akan menampilkan data pada
tabel “Tabel Data Pasien”. Gambar 4.2 adalah contoh proses input data.
Gambar 4. 2 Contoh Proses Input Data
4.1.2. Normalisasi dan Inisialisasi
Langkah berikutnya adalah user memilih cara normalisasi dan Inisialisasi dari
pusat cluster lalu memencet tombol “preprocess” maka data hasil preprocess
akan muncul pada tabel “Tabel Hasil Preprocess”. Gambar 4.3 merupakan
contoh dari hasil preprocess data.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
41
Gambar 4. 3 Contoh Hasil Preprocess Data
4.1.3. Proses K-Means Clustering
Langkah terakhir adalah clustering itu sendiri. User memencet tombol
“Cluster” lalu sistem akan mengolah data dengan algoritma K-Means dan
hasilnya akan ditampilkan pada tabel “Tabel Hasil Clustering”. Gambar 4.4
merupakan contoh dari hasil clustering data.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
42
Gambar 4. 4 Contoh hasil K-Means Clustering
4.2. Hasil Sistem
Tabel Confusion Matrix dengan MinMax sebagai normalisasinya dan
Sequential sebagai inisialisasinya dapat dilihat pada tabel 4.1
Tabel 4. 1 Tabel Confusion Matrix Minmax dan Sequential
Status Gizi/Kelompok Kurang Normal Obes
K1 4 65 14
K2 7 37 11
K3 11 27 4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
43
Tabel Confusion Matrix dengan Zscore sebagai normalisasinya dan
Sequential sebagai inisialisasinya dapat dilihat pada tabel 4.2
Tabel 4. 2 Tabel Confusion Matrix Zscore dan Sequential
Status Gizi/Kelompok Kurang Normal Obes
K1 11 58 8
K2 0 41 15
K3 11 30 6
Tabel Confusion Matrix dengan MinMax sebagai normalisasinya dan
Variance sebagai inisialisasinya dapat dilihat pada tabel 4.3
Tabel 4. 3 Tabel Confusion Matrix MinMax dan Variance
Status Gizi/Kelompok Kurang Normal Obes
K1 2 27 9
K2 9 72 14
K3 11 30 6
Tabel Confusion Matrix dengan Zscore sebagai normalisasinya dan
Variance sebagai inisialisasinya dapat dilihat pada tabel 4.4
Tabel 4. 4 Tabel Confusion Matrix Zscore dan Variance
Status Gizi/Kelompok Kurang Normal Obes
K1 2 27 9
K2 9 72 14
K3 11 30 6
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
44
Tabel Confusion Matrix tanpa normalisasi namun dengan
menkategorikan atribut berat, tinggi dan umur dan inisialisasi Sequential
dapat dilihat pada tabel 4.5
Tabel 4. 5 Tabel Confusion Matrix kategorikal dan Sequential
Status Gizi/Kelompok Kurang Normal Obes
K1 7 47 9
K2 4 53 15
K3 11 29 5
Tabel hasil pengelompokan status gizi pasien RS Sanjiwan dapat
dilihat pada tabel 4.6
Tabel 4. 6 Hasil pengelompokan status gizi pasien
Normalisasi Inisialisasi Akurasi
MinMax Sequential 25%
MinMax Random 32.55%*
MinMax Variance 44.44%
Zscore Sequential 32.22%
Zscore Random 39.22%*
Zscore Variance 44.44%
Tanpa Normalisasi (Kategorikal) Sequential 36.11%
Tanpa Normalisasi (Kategorikal) Random 37.48%*
(*hasil akurasi rata-rata dari 10 kali percobaan)
Tabel Silhouette Coefficient dari masing masing Nomalisasi dan
Inisialisasi dapat dilihat pada tabel 4.7
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
45
Tabel 4. 7 Tabel hasil Silhouette Coefficient
Normalisasi Inisialisasi Silhouette Coefficient
MinMax Sequential -0.0374
MinMax Random -0.0894*
MinMax Variance -0.0296
Zscore Sequential 0.0589
Zscore Random 0.0427
Zscore Variance -0.0296
Tanpa Normalisasi
(Kategorikal)
Sequential 0.5496
Tanpa Normalisasi
(Kategorikal)
Random 0.3493
(*hasil akurasi rata-rata dari 10 kali percobaan)
Pengujian yang telah dilakukan pada sistem pengelompokkan status
gizi pada orang dewasa dilakukan dengan data pasien yang di telah di
normalisasi secara MinMax maupun Zscore serta inisialisasi Sequential,
Random, dan Variance. Terdapat 180 data pasien yang memiliki 6 atribut.
Tabel 4.5 menunjukkan hasil pengelompokkan status gizi dengan
normalisasi MinMax dan Inisialisasi Sequential yang menghasilkan akurasi
sebesar 25%. Pada data pasien dengan normalisasi MinMax dan inisialisasi
Random didapat rerata akurasi dari sepuluh kali percobaan sebesar 32.55%.
Pada data pasien dengan normalisasi MinMax dan inisialisasi Variance
menghasilkan akurasi sebesar 44.44%. Pada data pasien dengan normalisasi
Zscore dan inisialisasi Sequential menghasilkan akurasi sebesar 32.22%. Pada
data pasien dengan normalisasi Zscore dan inisialisasi Random didapat rerata
akurasi dari sepuluh kali percobaan sebesar 39.22%. Pada data pasien dengan
normalisasi Zscore dan inisialisasi Variance diperoleh akurasi sebesar
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
46
44.44%. Pada data pasien yang tidak di normalisasi namun atribut berat,
tinggi dan umur di kategorikan dan inisialisasi Sequential menghasilkan
akurasi sebesar 36.11% dan jika inisialisasi Random digunakan maka di dapat
rerata akurasi sebesar 37.48%.
Untuk unjuk konsistensi hasil cluster, didapatkan hasil clustering
tanpa normalisasi namun mengkategorikan atribut berat,tinggi dan umur serta
inisialisasi sequential merupakan hasil clustering yang paling konsisten, hal
ini ditunjukkan dengan mencapai nilai SC sebesar 0.5496.
4.3. Kelebihan dan Kekurangan Sistem
4.3.1. Kelebihan Sistem
Kelebihan sistem yang dimiliki adalah :
1. Sistem dapat menerima data dalam bentuk .xlsx
2. User dapat memilih 2 jenis normalisasi yang telah disediakan sistem
3. User dapat memilih 3 jenis Inisialisasi yang telah disediakan sistem
4. Sistem mampu mengelompokan status gizi pasien menggunakan algoritma K-
Means
5. Sistem mampu menampilkan akurasi dari sistem
6. Sistem mampu menguji konsistensi dari hasil clustering
4.3.2. Kekurangan Sistem
1. Sistem hanya dapat menerima data dalam bentuk .xlsx
2. Data masukan dari file .xlsx diharuskan pada kolom pertama adalah diet
dilanjutkan dengan berat, Tinggi, Kesehatan, Jenis Kelamin, Umur, lalu Status
Gizi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
47
BAB V
PENUTUP
5.1. Analisa Hasil
Dari hasil pengujian sistem yang telah penulis buat pengelompokkan status gizi
pada orang dewasa menggunakan algoritma K-Means telah berhasil namun belum
begitu akurat dikarenakan penentuan centroid atau saat inisialisasi sangat
berpengaruh pada hasil cluster.
5.2. Kesimpulan
Dari hasil penelitian ini, dapat diambil kesimpulan sebagai berikut :
1. Algoritma K-Means dapat mengelompokkan status gizi pada orang dewasa
2. Cara penentuan atau inisialisasi centroid sangat berpengaruh pada hasil
cluster.
3. Menggunakan normalisasi Zscore lebih baik daripada menggunakan
normalisasi MinMax. Hal ini ditunjukkan dengan akurasi dari normalisasi
Zscore melebihi akurasi dari normalisasi MinMax.
4. Pengujian dilakukan pada 180 data dengan 24(10 kali pengujian untuk
masing-masing normalisasi pada inisialisasi Random) kali pengujian.
pengelompokkan status gizi dengan normalisasi MinMax dan Inisialisasi
Sequential yang menghasilkan akurasi sebesar 25%. Pada data pasien dengan
normalisasi MinMax dan inisialisasi Random didapat rerata akurasi dari
sepuluh kali percobaan sebesar 32.55%. Pada data pasien dengan normalisasi
MinMax dan inisialisasi Variance menghasilkan akurasi sebesar 44.44%. Pada
data pasien dengan normalisasi Zscore dan inisialisasi Sequential
menghasilkan akurasi sebesar 32.22%. Pada data pasien dengan normalisasi
Zscore dan inisialisasi Random didapat rerata akurasi dari sepuluh kali
percobaan sebesar 39.22%. Dan pada data pasien dengan normalisasi Zscore
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
48
dan inisialisasi Variance diperoleh akurasi sebesar 44.44%
5. Hasil clustering dari sebagian besar metode tidak konsisten hal ini
ditunjukkan dengan nilai SC yang sangat rendah terkecuali hasil clustering
data yang tidak dinormalisasi namun atribut berat, tinggi dan umur di
kategorikan serta di inisialisasi secara Sequential yang memberikan nilai SC
sebesar 0.5496 .
5.3. Saran
Saran agar penelitian ini dapat berkembang diantara lain :
1. Penelitian selanjutnya dapat dikembangkan pada jenis data yang serupa
dengan metode yang lebih baik seperti menggunakan algoritma Fuzzy C-
Means.
2. Jika ingin tetap menggunakan algoritma K-Means maka peneliti menyarankan
untuk mencoba inisialisasi centroid secara manual, yaitu dengan memilih
centroid secara manual untuk setiap cluster
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
49
DAFTAR PUSTAKA
Agusta, Y. 2007. K-Means-Penerapan, Permasalahan dan Metode Terkait.
Denpasar, Bali
Andayani, Sri. 2007. Pembentukan Cluster dalam Knowledge Discovery in Database
dengan Algoritma K-means. SEMNAS Matematika dan Pendidikan Matematika 2007
dengan tema “Trend Penelitian Matematika dan Pendidikan Matematika di Era
Global.
Aggarwal, C. C., & Reddy, C. K. 2014. Data clustering. Algorithms and
Applications, Chapman & Halls.
Arisman, 2011. Buku Ajar Ilmu Gizi Obesitas, Diabetes Mellitus dan Dislipidemia.
Jakarta
Al-Daoud, M. D. B. 2005. A new algorithm for cluster initialization. In WEC'05: The
Second World Enformatika Conference.
Beck, M. 2000. Ilmu Gizi dan Diet. (terj.). Yayasan Essentia Medica : Yogyakarta
Davies, and Paul Beynon, 2004, Database Systems Third Edition, Palgrave
Macmillan, New York.
Han, J. and Kamber, M, 2006, Data Mining Concepts and Techniques Second
Edition. Morgan Kauffman, San Francisco.
Hartigan, J. A. 1975. Printer graphics for clustering. Journal of Statistical
Computation and Simulation.
J. B. MacQueen 1967: Some Methods for classification and Analysis of Multivariate
Observations, Proceedings of 5-th Berkeley Symposium on Mathematical Statistics
and Probability, Berkeley, University of California.
Kusnawi. 2007. Pengantar Solusi Data Mining. Seminar Nasional Teknologi 2007
(SNT). Yogyakarta: STMIK AMIKOM Yogyakarta.
Larose, D. T. 2005. An introduction to data mining. Traduction et adaptation de
Thierry Vallaud.
Manary, M. J., dan Solomons, N. W. 2009. Gizi Kesehatan Masyarakat, Gizi dan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
50
Perkembangan Anak. Penerbit Buku Kedokteran EGC. Terjemahan Public Health
Nutrition Editor.
Murti, Darlis Heru, Nanik Suciati, and Daru Jani Nanjaya 2005. Clustering Data
Non-Numerik dengan Pendekatan Algoritma K-Means dan Hamming Distance Studi
Kasus Biro Jodoh. JUTI: Jurnal Ilmiah
M. Helmi Noor, Moch. Hariadi. 2009, Image Clustering Berdasarkan Warna Untuk
Identifikasi Kematangan Buah Tomat Dengan Metode Valley Tracing, Jurnal Seminar
Nasional Informatika, Institut Teknologi Sepuluh Nopember Surabaya.
Nuningsih, S. 2010. K-Means Clustering (Studi Kasus Pada Data Pengujian Kualitas
Susu di Koperasi Peternakan Bandung). Skripsi FPMIPA UPI, Bandung.
Nursalam, S. P. 2001. Pendekatan praktis metodologi riset keperawatan. Jakarta: CV.
Sagung setyo.
Prasetyo, Eko. 2012. Data Mining Konsep dan Aplikasi Menggunakan Matlab.
Penerbit Andi Yogyakarta.
Prasetyo, Eko. 2014. Data Mining Mengolah Data Menjadi Informasi Menggunakan
Matlab. Penerbit Andi Yogyakarta.
Rencher, A. C. 2002. Methods of Multivariate Analysis. Canada: John Wiley & Sons,
Inc.
Santoso., 1999. Kesehatan dan Gizi. Rineka Cipta, Jakarta
Santosa, B. 2007. Data Mining : Teknik Pemanfaatan Data untuk Keperluan Bisnis,
Teori dan Aplikasi. Graha Ilmu.Yogyakarta.
Sarwono, Y. T. 2011 Aplikasi Model Jaringan Syaraf Tiruan Dengan Radial
Basis Function Untuk Mendeteksi Kelainan Otak (Stroke Infark).
Supariasa, I.D.N., Bakri, B dan Fajar, I. 2002. Penilaian Status Gizi. Jakarta : EGC
Suhardjo, Clara M., and H. Riyadi 1989. Sosio Budaya Gizi. Bogor: Pusat Antar
Universitas Pangan dan Gizi. Institut Pertanian Bogor.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
51
Suhardjo, H. L., Deaton, B. J., & Driskel, J. A. 1986. Pangan, Gizi dan Pertanian.
Jakarta, Penerbit Universitas Indonesia.
Soekirman. 2000. Ilmu Gizi dan Aplikasinya. Jakarta: Direktorat Jenderal Pendidikan
Tinggi, Departemen Pendidikan Nasional.
Soetjiningsih. 1998. Tumbuh Kembang Anak. Jakarta : EGC
Sokolova, M., & Lapalme, G. 2009. A systematic analysis of performance measures
for classification tasks. Information Processing & Management.
T. Velmurugan and T. Santhanam, 2011. A Survey of Partition based Clustering
Algorithms in Data Mining: An Experimental Approach. Information Technology
Journal.
Tan, P. N., Steinbach, M., & Kumar, V. 2005. Classification: Alternative Techniques.
Introduction to Data Mining.
Teknomo, K. 2006. K-means Clustering Tutorial. Medicine.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI