pengelompokan status gizi pada orang dewasa … filepengelompokan status gizi pada orang dewasa...

i

PENGELOMPOKAN STATUS GIZI PADA ORANG DEWASA

MENGGUNAKAN K-MEANS CLUSTERING

SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar

Sarjana Komputer Program Studi Teknik Informatika

Oleh:

Yosep Kartika Dewandaru

135314076

PROGRAM STUDI TEKNIK INFORMATIKA

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2018

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ii

THE GROUPING OF NUTRITIONAL STATUS OF ADULTS

USING K-MEANS CLUSTERING

A THESIS

Presented as Partial Fulfillment of The Requirement

To Obtain The Sarjana Komputer Degree

In Informatics Engineering Study Program

By:


135314076

INFORMATICS ENGINEERING STUDY PROGRAM

DEPARTMENT OF INFORMATICS ENGINEERING

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2018


iii

HALAMAN PERSETUJUAN

SKRIPSI



Oleh :


135314076

Telah disetujui oleh :

Dosen Pembimbing

Dr. Cyprianus Kuntoro Adi, SJ., M.A., M.Sc. Tanggal : …………………


iv

HALAMAN PENGESAHAN



Dipersiapkan dan ditulis oleh :


NIM : 135314076

Telah dipertahankan didepan Dewan Penguji

Pada Tanggal : 25 Januari 2018

Dan dinyatakan memenuhi syarat

Susunan Dewan Penguji

Jabatan Nama Lengkap Tanda Tangan

Ketua Alb. Agung Hadhiatma M.T. ………………

Sekretaris Eko Hari Parmadi M.Kom. ………………

Anggota Dr. Cyprianus Kuntoro Adi, SJ., M.A., M.Sc. ………………

Yogyakarta, ……………………

Fakultas Sains dan Teknologi

Universitas Sanata Dharma

Dekan,

Sudi Mungkasi, S.Si., M.Math. Sc., Ph.D.


v

MOTTO

“So on the count of 1, 2, 3: Start walking!

It doesn't matter if it's today, tomorrow, or yesterday.”

Karya ini kupersembahkan kepada :

Tuhan Yesus Kristus

Bunda Maria

Keluarga

Sahabat

Teman


vi

PERNYATAAN KEASLIAN KARYA

Saya menyatakan dengan sesungguhnya bahwa tugas akhir yang saya tulis

tidak mengandung atau memuat hasil karya orang lain, kecuali yang telah disebutkan

dalam daftar pustaka dan kutipan selayaknya karya ilmiah.

Yogyakarta, ...............................2018

Penulis



vii

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

UNTUK KEPENTINGAN AKADEMIS

Yang bertanda tangan dibawah ini, saya mahasiswa Universitas Sanata Dharma

Nama : Yosep Kartika Dewandaru

Nomor Mahasiswa : 135314076

Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan

Universitas Sanata Dharma karya ilmiah saya yang berjudul :



Beserta perangkat yang ada (bila ada). Dengan demikian saya memberikan kepada

Perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam

bentuk media lain, mengelolanya di internet atau media lain untuk kepentingan akademis

tanpa perlu meminta ijin dari saya maupun memberikan royalty kepada saya selama

tetap mencantumkan nama saya sebagai penulis.

Demikian pernyataan ini saya buat dengan sebenarnya Dibuat di Yogyakarta

Pada Tanggal : ........................................................................................................ 2018



viii

ABSTRAK

Status gizi merupakan keadaan gizi seseorang yang diukur atau dinilai pada

satu waktu. Penilaian atau pengukuran terhadap status gizi dapat dilakukan secara

langsung maupun tidak langsung Untuk menentukan status gizi seseorang

diperlukan pemeriksaan klinis dan data laboratorium. Pengukuran antropometri

adalah suatu cara untuk menentukan keadaan gizi seseorang dengan

menggunakan perhitungan Indeks Masa Tubuh (IMT). Penentuan gizi seseorang

menggunakan IMT hanya memerlukan dua indikator yaitu tinggi badan dan berat

badan, namun dua orang yang memiliki berat dan tinggi badan yang sama bisa

mempunyai keadaan gizi yang berbeda. Oleh karena itu diperlukanlah sebuah

model untuk mempermudah kerja pegawai Rumah Sakit maupun Puskesmas.

Teknik data mining telah sering digunakan untuk memperoleh sebuah

model yang bisa dijadikan untuk pertimbangan sebuah keputusan. K-Means

Clustering merupakan salah satu metode data mining yang dapat

mengelompokkan data. Kriteria yang digunakan dalam pengelompokkan status

gizi pada orang dewasa adalah jenis kelamin, tinggi badan, berat badan, usia, diet

dan kesehatan.

Hasil dari pengelompokkan status gizi pada orang dewasa sebanyak 180

data sampel menggunakan K-Means Clustering menghasilkan akurasi 25% -

44% tergantung dari penentuan centroid.

Kata Kunci : Pengelompokkan, Data Mining, Cluster, K-Means, Status gizi


ix

ABSTRACT

Nutritional status is the nutritional condition of someone that has been

measured at one time. The measuring of someones nutritional status can be done in

two ways directly and non directly. To determine ones nutritional status a clinical

check and lab data is needed. Anthropometric measurements is one way to find

out ones nutritional status using the Body Mass Index (BMI). BMI only needs

two indicators to determine ones nutritional status which are mass and their

height, but sometimes two different people with the same mass and height can

have really different nutritional statuses. Because of that a model is needed in

order to ease the workload of Hospital workers, doctors and nurses.

Data mining has been frequently used to make a model that can be used for

considering a decision. K-Means Clustering is one of data mining’s methodes

that can gorup data. The attributes that are used to group the nutritional status of

adults are sex, height, weight, age, diet and their health.

The accuracy from using the K-Means Clustering methode to group the

nutritional status of adults with 180 patients as sample data is around 25%-44%

depending on how you decide the centroid.

Key Words: Grouping, Data Mining, Cluster, K-Means


x

KATA PENGANTAR

Puji syukur kepada Tuhan Yang Maha Esa, karena pada akhirnya penulis

dapat menyelesaikan penelitian tugas akhir ini yang berjudul

“PENGELOMPOKKAN STATUS GIZI PADA ORANG DEWASA

MENGGUNAKAN K-MEANS CLUSTERING”.

Penulisan skripsi ini tidak lepas dari peran pentingnya berbagai pihak,

sehingga dalam kesempatan ini penulis dengan kerendahan hati mengucapkan

terimakasih kepada semua pihak yang telah memberikan dukungan baik secara

langsung maupun tidak langsung kepada penulis dalam penyelesaian skripsi

hingga selesai. Oleh karena itu penulis mengucapkan terima kasih kepada :

1. Romo Dr. Cyprianus Kuntoro Adi, SJ., M.A., M.Sc. selaku dosen

pembimbing tugas akhir yang dengan sabar dan membimbing penulis

dalam penyusunan tugas akhir ini.

2. Segenap dosen jurusan Teknik Informatika Universitas Sanata Dharma.

3. Keluarga, Hernowo Punta Aji (Bapak), Iryanti Eka Suprihatin (Ibu), dan

Agnes Puspitasari (Kakak) yang selalu memberi dukungan dalam

penyusunan tugas akhir ini.

4. Group Discord “nasib/megah perintah” yang selalu mengingatkan untuk

mengerjakan tugas akhir.

5. Teman-teman seperjuangan Teknik Informatika khususnya Baptista,

Adven, Andre, Adhi, Ekky, Awan, Kris Hendrawan, dan teman-teman

yang tidak dapat saya sebutkan satu persatu.


xi

Seluruh pihak yang sudah membantu dalam pengerjaan tugas akhir saya

secara langsung maupun tidak langsung.Penulis menyadari masih banyak

kekurangan pada penelitian tugas akhir ini, namun penulis berharap penelitian ini

dapat bermanfaat dan menjadi pengetahuan baru bagi pembaca.

Yogyakarta,.......................................

Penulis,



xii

DAFTAR ISI

HALAMAN COVER ..................................................................................................... i

HALAMAN PERSETUJUAN ..................................................................................... iii

HALAMAN PENGESAHAN ..................................................................................... iv

MOTTO ........................................................................................................................ v

PERNYATAAN KEASLIAN KARYA ...................................................................... vi

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

UNTUK KEPENTINGAN AKADEMIS ................................................................... vii

ABSTRAK ................................................................................................................. viii

ABSTRACT ................................................................................................................. ix

KATA PENGANTAR .................................................................................................. x

DAFTAR ISI ............................................................................................................... xii

DAFTAR TABEL ...................................................................................................... xiv

DAFTAR GAMBAR ................................................................................................. xiv

BAB I ............................................................................................................................ 1

1.1. Latar Belakang ............................................................................................... 1

1.2. Rumusan Masalah .......................................................................................... 2

1.3. Tujuan ............................................................................................................. 3

1.4. Batasan Masalah ............................................................................................. 3

1.5. Metedologi Penelitian .................................................................................... 3

1.6. Manfaat Penelitian .......................................................................................... 4

1.7. Sistematika Penulisan Proposal ...................................................................... 4

BAB II ........................................................................................................................... 6

2.1. Status Gizi ...................................................................................................... 6

2.1.1. Pengertian Status Gizi ............................................................................. 6

2.1.2. Faktor yang Mempengaruhi Status Gizi ................................................. 6

2.1.3. Penilaian Status Gizi ............................................................................... 7

2.2. Penambangan Data ......................................................................................... 8

2.2.1. Pengertian Penambangan Data................................................................ 8

2.2.2. Tahap-tahap Penambangan Data ............................................................. 9


xiii

2.3. ClusteringD .................................................................................................. 11

2.4. Algoritma K-Means ...................................................................................... 14

2.5. Confusion Matriks dan Akurasi ................................................................... 18

2.6. Silhouette Coefficient ................................................................................... 20

BAB III ....................................................................................................................... 24

3.1. Data .............................................................................................................. 24

3.2. Proses Sistem ................................................................................................ 24

3.2.1. Data Mentah .......................................................................................... 25

3.2.2. Transformasi Data ................................................................................. 27

3.2.3. Proses Clustering .................................................................................. 30

3.3. Desain User Interface ................................................................................... 37

3.4. Spesifikasi Alat ............................................................................................ 38

BAB IV ....................................................................................................................... 39

4.1. Implementasi Program ................................................................................. 39

4.1.1. Input Data .............................................................................................. 40

4.1.2. Normalisasi dan Inisialisasi .................................................................. 40

4.1.3. Proses K-Means Clustering ................................................................... 41

4.2. Hasil Sistem .................................................................................................. 42

4.3. Kelebihan dan Kekurangan Sistem .............................................................. 46

4.3.1. Kelebihan Sistem .................................................................................. 46

4.3.2. Kekurangan Sistem ............................................................................... 46

BAB V ........................................................................................................................ 47

5.1. Analisa Hasil ................................................................................................ 47

5.2. Kesimpulan ................................................................................................... 47

5.3. Saran ............................................................................................................. 48

DAFTAR PUSTAKA ................................................................................................. 49


xiv

DAFTAR TABEL

Tabel 2. 1 Jenis-jenis Proses Clustering (Prasetyo, 2014) .......................................... 12

Tabel 2. 2 Confusion Matriks untuk Klasifikasi 2 Kelas ............................................ 19

Tabel 2. 3 Kriteria pengelompokkan berdasarkan SC ................................................ 23

Tabel 3. 1 Data Atribut ............................................................................................... 25

Tabel 3. 2 Contoh Data Pasien .................................................................................... 26

Tabel 3. 3 Contoh Data Setelah Tahap Transformasi ................................................. 29

Tabel 3. 4 Contoh Data Setelah Normalisasi MinMax ............................................... 29

Tabel 3. 5 Contoh Data Setelah Normalisasi ZScore.................................................. 30

Tabel 3. 6 Contoh pemilihan titik pusat data .............................................................. 31

Tabel 3. 7 Tabel Hasil Perhitungan Jarak Pusat Cluster ............................................ 32

Tabel 3. 8 Tabel Pengelompokan Group .................................................................... 33

Tabel 3. 9 Tabel Hasil Perhitungan Jarak Pusat Cluster ............................................. 36

Tabel 3. 10 Tabel Pengelompokan Group .................................................................. 37

Tabel 4. 1 Tabel Confusion Matrix Minmax dan Sequential ...................................... 42

Tabel 4. 2 Tabel Confusion Matrix Zscore dan Sequential ........................................ 43

Tabel 4. 3 Tabel Confusion Matrix MinMax dan Variance ........................................ 43

Tabel 4. 4 Tabel Confusion Matrix Zscore dan Variance .......................................... 43

Tabel 4. 5 Tabel Confusion Matrix kategorikal dan Sequential ................................. 44

Tabel 4. 6 Hasil pengelompokan status gizi pasien .................................................... 44

Tabel 4. 7 Tabel hasil Silhouette Coefficient .............................................................. 45

DAFTAR GAMBAR

Gambar 2. 1 Tahap-tahap penambangan data. (Han, et al., 2006) ................................ 9

Gambar 2. 2 Diagram aliran algoritma K-Means (Andayani, 2007) .......................... 17

Gambar 2. 3 Ilustrasi algoritma K-Means (Noor dan Hariad, 2009) .......................... 18

Gambar 3. 1 Diagram blok .......................................................................................... 24

Gambar 3. 2 User Interface ......................................................................................... 37

Gambar 4. 1 Tampilan Keseluruhan Sistem ............................................................... 39

Gambar 4. 2 Contoh Proses Input Data ...................................................................... 40

Gambar 4. 3 Contoh Hasil Preprocess Data ................................................................ 41

Gambar 4. 4 Contoh hasil K-Means Clustering .......................................................... 42


1

BAB I

PENDAHULUAN

1.1. Latar Belakang

Keadaan gizi kurang dapat ditemukan pada setiap kelompok masyarakat. Pada

hakikatnya keadaan gizi kurang dapat dilihat sebagai suatu proses kurang asupan

makanan ketika kebutuhan normal terhadap satu atau beberapa zat gizi tidak

terpenuhi atau zat-zat gizi tersebut hilang dengan jumlah yang lebih besar daripada

yang diperoleh (Manary dan Solomons, 2009). Status gizi diartikan sebagai keadaan

gizi seseorang yang diukur atau dinilai pada satu waktu. Penilaian atau pengukuran

terhadap status gizi dapat dilakukan secara langsung maupun tidak langsung

(Supariasa, Bakri & Fajar, 2012).

Status gizi dapat ditentukan melalui pemeriksaan laboratorium maupun secara

antropometri. Antropometri merupakan cara penentuan status gizi yang paling

mudah dan murah. Pengukuran antropometri adalah pengukuran yang digunakan

untuk menentukan keadaan gizi seseorang. Pengukuran antropometri untuk usia

dewasa sekarang ini menggunakan perhitungan Indeks Massa Tubuh (IMT). Indeks

Massa Tubuh (IMT) adalah perbandingan (rasio) berat badan / tinggi badan yang

sering digunakan untuk menilai status gizi orang dewasa. Penggunaan IMT hanya

berlaku untuk orang dewasa yang berumur 18 tahun keatas, dan IMT tidak dapat

diterapkan pada bayi, anak, remaja, ibu hamil(Arisman, 2011).

Perkembangan teknologi informasi dalam hal ini teknologi komputer dapat

menunjang pengambilan keputusan di dalam organisasi - organisasi modern yang

memungkinkan pekerjaan-pekerjaan di dalam organisasi dapat diselesaikan secara

cepat, akurat, dan efisien. Teknologi informasi (TI) didefinisikan sebagai teknologi

yang digunakan untuk memperoleh, memanipulasi, menyajikan dan memanfaatkan

data. Salah satu contoh pemanfaatannya adalah untuk mengelompokkan keadaan

gizi orang dewasa menggunakan teknik data mining.

Teknik data mining yang digunakan untuk mengetahui pengelompokan status


2

gizi orang dewasa dapat dilakukan menggunakan bermacam metode, seperti

asosiasi, klasifikasi, pengklasteran dan lain lain. K-Means clustering merupakan

salah satu metode data clustering non hirarki yang berusaha mempartisi data

yang ada ke dalam bentuk satu atau lebih cluster/kelompok. Metode ini

mempartisi data ke dalam cluster/kelompok sehingga data yang memiliki

karakteristik sama dikelompokkan ke dalam satu cluster yang sama (Agusta,

2007).

Hasil penelitian yang dilakukan oleh Nanjaya (2005) mengenai penggunaan

metode K-Means pada suatu clustering data kategorikal untuk studi kasus biro

jodoh didapatkan bahwa clustering dapat dilakukan pada atribut-atribut

kategorikal yang terlebih dahulu ditransformasikan ke dalam bentuk numerik.

Penelitian lainnya mengenai perbandingan antara algoritma K-Means

clustering dengan algoritma Fuzzy C-Means clustering oleh Santhanam dan

Velmurugan (2009). Dalam penelitian ini, kedua algoritma tersebut

diimplementasikan dari dianalisis kinerjanya berdasarkan pada kualitas hasil

clustering dan waktu eksekusi. Kedua algoritma ini menghasilkan cluster yang

hampir sama, namun algoritma K-Means clustering memiliki waktu komputasi

yang lebih cepat, dengan kata lain kinerja dari algoritma K-Means lebih baik

dibandingkan dengan Fuzzy C-Means.

Berdasarkan penelitian sebelumnya yang telah di lakukan tersebut, maka

penulis memilih untuk mengimplementasikan algoritma K-Means clustering

pada sistem informasi pengelompokan yang akan di bangun. Dengan

menggunakan K-Means clustering diharapkan dapat mengelompokkan status gizi

pada orang dewasa dengan cepat dan tepat sasaran

1.2. Rumusan Masalah

Berdasarkan latar belakang yang telah di jelaskan, permasalahan yang akan

diselesaikan adalah bagaimana mengelompokkan status gizi orang dewasa


3

dengan menggunakan K-means clustering serta mengetahui keakuratannya

(akurasinya) dengan membandingkan hasil pengelompokan clustering sistem

dengan hasil yang dilakukan manual oleh pihak Rumah Sakit.

1.3. Tujuan

Tujuan penelitian yang ingin dicapai dalam tugas akhir ini adalah

membangun sistem informasi yang akan digunakan untuk mengelompokkan

status gizi pada orang dewasa serta mengetahui akurasi dari pengelompokan

status gizi pada orang dewasa menggunakan K-means clustering.

1.4. Batasan Masalah

Batasan masalah dalam tugas akhir ini adalah :

1. Kriteria yang akan digunakan dalam clustering antara lain jenis kelamin,

tinggi badan, berat badan, usia, diet dan kesehatan.

2. Jumlah cluster yang akan digunakan pada kasus ini adalah tiga (3) yaitu

kurang, normal, dan obes.

3. Data yang digunakan berasal dari Rumah Sakit Sanjiwani dari tahun 2013

sampai tahun 2015.

1.5. Metedologi Penelitian

Untuk Metode penelitian yang digunakan dalam menyelesaikan tugas akhir

ini yaitu:

1. Studi Pustaka

Mempelajari dan memahami konsep tentang clustering dan memahami

algoritma K-Means yang akan dipergunakan untuk membagi data ke dalam

nominasi yang ditentukan. Konsep dan materi yang dipelajari didapat dari

berbagai sumber seperti buku dan internet.

2. Pengumpulan Data


4

Untuk mendapatkan data yang diperlukan, maka penulis melakukan survei

ke Rumah Sakit Sanjiwani. Kemudian data yang sudah didapat kemudian

dikombinasikan untuk dapat diolah ke dalam beberapa nominasi.

3. Pembuatan Alat Uji

Merancang alat uji dengan menyusun algoritma K-Means kemudian

diimplementasikan ke dalam aplikasi berbasis Matlab.

4. Analisa Pembuatan Alat Uji

Analisa pembuatan alat uji bertujuan untuk menguji ketepatan atau tingkat

keakurasian dari algoritma K-Means dalam menentukan status gizi dalam

satuan pendidikan. Pengujian dilakukan dengan aplikasi berbasis Matlab.

5. Pembuatan Laporan

Menganalisis hasil implementasi dan membuat kesimpulan terhadap

penelitian tugas akhir yang telah dikerjakan.

Sumber data yang dibutuhkan dalam hubungannya dengan penelitian ini

diperoleh dari laporan Rumah Sakit Sanjiwani

1.6. Manfaat Penelitian

Manfaat dari penelitian bila berhasil adalah sebagai berikut :

1. Mendapatkan tingkat keakuratan pengelompokan status gizi pada orang

dewasa dengan menggunakan K-Means Clustering.

2. Membantu para pakar kesehatan dalam melakukan diagnosis status gizi

pada orang dewasa agar lebih cepat dan efisien.

1.7. Sistematika Penulisan Proposal

Agar mudah dipahami proposal ini dibuat dalam suatu sistematika

penulisan yang dapat dijadikan acuan mengenai keterkaitan antar bab yang ada

dalam proposal, dengan uraian sebagai berikut :


5

BAB 1 : PENDAHULUAN

Bab pendahuluan memuat tentang latar belakang masalah, perumusan

masalah, tujuan penelitian, batasan masalah, metodologi penelitian dan

sistematika penyusunan proposal

BAB 2 : LANDASAN TEORI

Bab Landasan Teori memuat penjelasan tentang dasar teori yang

digunakan untuk dasar pembahasan dari penelitian

BAB 3 : METODE PENELITIAN

Bab Metodologi Penelitian berisi tentang metode atau langkah-

langkah dalam pemecahan masalah


6

BAB II

LANDASAN TEORI

Untuk mendukung pembuatan proposal ini, maka perlu dikemukakan hal-hal

atau teori-teori yang berkaitan dengan permasalahan dan ruang lingkup

pembahasan sebagai landasan dalam pembuatan proposal ini.

2.1. Status Gizi

2.1.1. Pengertian Status Gizi

Definisi status gizi menurut beberapa tokoh adalah sebagai berikut :

1. Menurut Mc Laren dalam Suhardjo (1989) mengemukakan bahwa

status gizi merupakan hasil keseimbangan antara zat-zat gizi yang

masuk dalam tubuh dan penggunaannya.

2. Menurut Soekirman (2000) status gizi adalah keadaan kesehatan akibat

interaksi antara makanan, tubuh manusia dan lingkungan hidup

manusia.

3. Menurut Supariasa (2002) mengumukakan bahwa status gizi adalah

ekspresi dari keadaan keseimbangan dalam bentuk variabel tertentu.

4. Menurut Beck (2000) mengemukakan bahwa, status gizi didefinisikan

sebagai status kesehatan yang dihasilkan oleh keseimbangan antara

kebutuhan dan masukan nutrient.

Dari pendapat para ahli dapat disimpulkan bahwa status gizi merupakan

ekspresi dari keadaan tubuh yang dipengaruhi oleh zat-zat gizi tertentu.

2.1.2. Faktor yang Mempengaruhi Status Gizi

Ada beberapa faktor yang mempengaruhi status gizi, antara lain :

1. Usia

Usia akan mempengaruhi kemampuan atau pengalaman yang dimiliki

orang tua dalam pemberian nutrisi (Nursalam, 2001).


7

2. Kondisi Fisik

Mereka yang sakit, yang sedang dalam penyembuhan dan yang lanjut

usia, semuanya memerlukan pangan khusus karena status kesehatan

mereka yang buruk(Suhardjo, et, all, 1986).

3. Budaya

Budaya adalah suatu ciri khas yang akan mempengaruhi tingkah laku

dan kebiasaan (Soetjiningsih, 1998).

4. Pendapatan

Masalah gizi karena kemiskinan indikatornya adalah taraf ekonomi

keluarga, yang hubungannya dengan daya beli yang dimiliki keluarga

tersebut (Santoso, 1999).

Selain faktor-faktor yang telah dijabarkan diatas masih ada faktor-faktor lain

yang dinilai dapat mempengaruhi status gizi.

2.1.3. Penilaian Status Gizi

Penilaian status gizi secara langsung menurut Supriasa (2001) dapat

dilakukan dengan:

1. Antropometri

Antropometri adalah ukuran tubuh manusia. Sedangkan antropometri

gizi adalah berhubungan dengan berbagai macam pengukuran dimensi

tubuh dan komposisi tubuh dan tingkat umur dan tingkat gizi.

Antropometri secara umum digunakan untuk melihat keseimbangan

asupan protein dan energi.

2. Klinis

Pemeriksaan klinis adalah metode untuk menilai status gizi

berdasarkan atas perubahan-perubahan yang terjadi dihubungkan

dengan ketidak cukupan zat gizi, seperti kulit, mata, rambut, dan


8

mukosa oral atau organ yang dekat dengan permukaan tubuh seperti

kelenjar tiroid.

3. Biokimia

Penilaian status gizi dengan biokimia adalah pemeriksaan spesimen

yang diuji secara laboratoris yang dilakukan pada berbagai macam

jaringan. Jaringan tubuh yang digunakan antara lain darah, urine, tinja

dan juga beberapa jaringan tubuh seperti hati dan otot.

4. Biofisik

Penilaian status gizi secara biofisik adalah metode penentuan status

gizi dengan melibat kemamapuan fungsi dan melihat perubahan

struktur dari jaringan.

2.2. Penambangan Data

2.2.1. Pengertian Penambangan Data

Data mining (penambangan data) adalah proses menemukan korelasi-korelasi

penuh arti, pola-pola dan tren dengan penyaringan melalui sejumlah data yang

besar pada tempat penyimpanan, dan menggunakan teknologi pengenalan pola

seperti yang terdapat pada teknik-teknik di statistika dan matematika (Larose,

2005).

Karakteristik dalam penambangan data sebagai berikut:

1. Penambangan data berhubungan dengan penemuan sesuatu yang

tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya.

2. Penambangan data biasa menggunakan data yang sangat besar.

Biasanya data yang besar digunakan untuk membuat hasil lebih

dipercaya.

3. Penambangan data berguna untuk membuat keputusan yang kritis

(Davies, et al, 2004)


9

2.2.2. Tahap-tahap Penambangan Data

Penambangan data dipahami sebagai suatu proses, yang memiliki tahapan-

tahapan tertentu yang bersifat interaktif dan juga ada umpan balik dari setiap

tahapan sebelumnya(Kusnawi, 2007). Adapun tahapan tersebut dapat dilihat

pada gambar 2.1.

Gambar 2. 1 Tahap-tahap penambangan data. (Han, et al., 2006)

Tahap-tahap tersebut, bersifat interaktif dimana pemakai terlibat langsung

atau dengan perantaraan knowledge base.

1. Pembersihan data

Pembersihan data merupakan proses menghilangkan noise dan data yang

tidak konsisten atau data tidak relevan. Pada umumnya data yang diperoleh,


10

baik dari database suatu perusahaan maupun hasil eksperimen, memiliki

isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak

valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut

yang tidak relevan dengan hipotesis penambangan data yang dimiliki. Data-

data yang tidak relevan itu juga lebih baik di buang. Pembersihan data juga

akan mempengaruhi performa dari teknik penambangan data karena data

yang ditangani akan berkurang jumlah dan kompleksitasnya.

2. Integrasi data

Integrasi data merupakan penggabungan data dari berbagai database ke

dalam satu database baru. Tidak jarang data yang diperlukan untuk

penambangan data tidak hanya berasal dari satu database tetapi juga berasal

dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-

atribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut

nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu

dilakukan secara cermat karena kesalahan pada integrasi data bisa

menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan

aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk

ternyata menggabungkan produk dari kategori yang berbeda maka akan

didapatkan korelasi antar produk yang sebenarnya tidak ada.

3. Seleksi data

Data yang ada pada database sering kali tidak semuanya dipakai, oleh

Karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari

database. Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan

orang membeli dalam kasus market basket analysis, tidak perlu mengambil

nama pelanggan, cukup dengan id pelanggan saja.

4. Transformasi data

Data diubah atau digabung ke dalam format yang sesuai untuk diproses

dalam penambangan data. Beberapa metode penambangan data


11

membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai

contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya

bisa menerima input data kategorikal. Karenanya data berupa angka numerik

yang berlanjut perlu dibagi-bagi menjadi interval. Proses ini sering disebut

transformasi data.

5. Proses penambangan

Merupakan suatu proses utama saat metode diterapkan untuk menemukan

pengetahuan berharga dan tersembunyi dari data.

6. Presentasi pengetahuan

Untuk mengidentifikasi pola-pola menarik ke dalam knowledge based yang

ditemukan. Dalam tahap ini hasil dari teknik penambangan data berupa pola-

pola yang khas maupun model prediksi dievaluasi untuk menilai apakah

hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak

sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti

menjadikannya umpan balik untuk memperbaiki proses penambangan data,

mencoba metode penambangan data lain yang lebih sesuai, atau menerima

hasil ini sebagai suatu hasil yang diluar dugaan yang mungkin bermanfaat

Salah satu metode dari penambangan data itu sendiri salah satunya adalah

Clustering.

2.3. Clustering

Analisis berbasis cluster merupakan suatu teknik untuk membagi data ke

dalam beberapa kelompok (cluster) yang memiliki arti dan berguna. Jika

kelompok yang memiliki arti adalah tujuannya, maka cluster-cluster harus dapat

mengetahui struktur alami dari data. Semakin besar kesamaan (homogenitas)

antar objek dalam suatu cluster dan semakin besar perbedaan antara cluster,


12

maka clustering akan semakin baik (Tan P., Steinbach M., dan Kumar V., 2005).

Pada proses clustering tidak diperlukan label kelas untuk setiap data yang

diproses karena nantinya label baru bisa diberikan ketika cluster sudah terbentuk.

Karena tidak adanya label kelas maka clustering sering disebut juga

pembelajaran tidak terbimbing (unsupervised learning) (Prasetyo, 2014).

Prasetyo menyatakan bahwa proses clustering dapat dibedakan menjadi tiga

jenis, yaitu dapat dibedakan menurut struktur cluster, keanggotaan data dalam

cluster, dan kekompakan data dalam cluster. Adapun penjabaran dari ketiga jenis

proses clustering tersebut ditunjukkan secara rinci pada Tabel 2.1

Tabel 2. 1 Jenis-jenis Proses Clustering (Prasetyo, 2014)

Proses Clustering Deskripsi

Menurut Struktur

cluster

Hirarki

a. Satu data tunggal bisa dianggap

sebagai sebuah cluster

b. Dua atau lebih cluster kecil dapat

bergabung menjadi sebuah cluster

besar.

c. Begitu seterusnya hingga semua

data dapat bergabung menjadi

sebuah cluster

Partisi

a. Membagi set data ke dalam

sejumlah cluster yang tidak

bertumpang-tinduh antara satu

cluster dengan cluster lain

b. Setiap data hanya menjadi

anggota satu cluster saja

Menurut

Keanggotaan data

dalam cluster

Eksklusif

Sebuah data bisa dipastikan hanya

menjadi anggota satu cluster dan

tidak menjadi anggota di cluster lain.


13

Tumpang-tindih Membolehkan sebuah data menjadi

anggota di lebih dari satu cluster.

Menurut

kekompakan data

dalam cluster

Lengkap Jika semua data bisa bergabung,

maka data kompak menjadi satu

cluster, jika data tidak dikatakan

menyimpang.

Parsial

Karena tidak ada label kelas yang digunakan dalam prosesnya, oleh Prasetyo

clustering dikatakan sangat cocok untuk melakukan clustering data yang label

kelasnya memang sulit didapatkan pada saat pembangkitan fitur. Pada clustering,

segera setelah cluster terbentuk, maka label kelas untuk setiap data dapat

diberikan dengan cara mengamati keluaran yang dihasilkan oleh proses

clustering. Karena tidak membutuhkan label kelas, kemiripan (similarity) harus

didefinisikan berdasarkan atribut objek, di mana definisi tersebut bergantung

pada algoritma clustering yang diterapkan. Algoritma clustering yang “bagus”

digunakan tergantung pada penerapan set data yang diproses.

Pada algoritma clustering terdahulu kebanyakan didesain dengan asumsi

bahwa atribut dari data yang diolah merupakan data yang bersifat numerik.

Namun, hal tersebut tidak sepenuhnya benar pada kasus-kasus dalam dunia

nyata, data bisa didapatkan dari berbagai macam tipe data seperti diskret

(kategorikal), temporal, atau structural (Aggarwal, C.C. & Reddy, C.K., 2014).

Adapun tipe data yang dapat diteliti dalam analisis berbasis cluster menurut

Aggrawal & Reddy adalah :

a. Clustering pada data kategorikal.

b. Clustering pada data teks.

c. Clustering pada data multimedia

d. Clustering pada data time-series

e. Clustering pada rangkaian diskret


14

f. Clustering pada rangkaian jaringan

g. Clustering pada data yang tidak pasti

2.4. Algoritma K-Means

Metode K-Means pertama kali diperkenalkan oleh Macqueen JB pada tahun

1976. Metode ini adalah salah satu metode non hierarchi yang umum digunakan.

Metode ini termasuk dalam teknik penyekatan (partition) yang membagi atau

memisahkan objek kek daerah bagian yang terpisah. Pada K-Means, setiap objek

harus masuk dalam kelompok tertentu, tetapi dalam satu tahapan proses tertentu,

objek yang sudah masuk dalam satu kelompok, pada satu tahapan berikutnya

objek akan berpindah ke kelompok lain.

Hasil cluster dengan metode K-Means sangat bergantung pada nilai pusat

kelompok awal yang diberikan. Pemberian nilai awal yang berbeda bisa

menghasilkan kelompok yang berbeda. Ada beberapa cara memberi nilai awal

misalnya dengan memberi nilai awal secara random, menentukan nilai awalnya

atau menggunakan hasil dari kelompok hierarki dengan jumlah kelompok yang

sesuai (Santosa, 2007).

K-Means adalah suatu metode penganalisan data atau metode Data Mining

yang melakukan proses pemodelan tanpa supervisi (unsupervised) dan

merupakan salah satu metode yang melakukan pengelompokan data dengan

sistem partisi. Metode K-Means berusaha mengelompokkan data yang ada ke

dalam beberapa kelompok, di mana data dalam satu data mempunyai

karakteristik yang sama satu sama lainnya dan mempunyai karakteristik yang

berbeda dengan data yang ada di dalam kelompok yang lain. Dengan kata lain,

metode ini berusaha untuk meminimalkan variasi antar data yang ada di dalam

suatu cluster lainnya (Agusta, 2007).

Menurut Nuningsih (2010), algoritma K-Means memerlukan 3 komponen,

yaitu:


15

1. Jumlah Cluster K

K-Means merupakan bagian dari metode non-hirarki sehingga dalam

metode ini jumlah k harus ditentukan terlebih dahulu. Jumlah cluster k

dapat ditentukan melalui pendekatan metode hirarki. Namun perlu

diperhatikan bahwa tidak terdapat aturan khusus dalam menentukan

cluster k, terkadang cluster yang diinginkan tergantung pada subyektif

seseorang.

2. Cluster Awal

Cluster awal yang dipilih berkaitan dengan penentuan pusat cluster awal

(centroid awal). Dalam hal ini, terdapat beberapa pendapat dalam memilih

cluster awal untuk metode K-Means sebagai berikut:

a. Berdasarkan Hartigan (1975), pemilihan cluster awal dapat

ditentukan berdasarkan interval dari jumlah observasi.

b. Berdasarkan Rencher (2002), pemilihan cluster awal dapat

ditentukan melalui pendekatan salah satu metode hirarki.

c. Berdasarkan Teknomo (2007), pemilihan cluster awal dapat

dilakukan secara acak dari semua observasi.

d. Berdasarkan Al-daoud (2007), pemilihan cluster awal dapat

ditentukan dengan mencari dimensi fitur dengan varian

maksimum.

Oleh karena adanya pemilihan cluster awal yang berbeda ini maka

kemungkinan besar solusi cluster yang dihasilkan akan berbeda pula.

3. Ukuran Jarak

Metode K-Means dimulai dengan pembentukan prototipe cluster di awal

kemudian secara iteratif prototipe cluster ini diperbaiki hingga konvergen

(tidak terjadi perubahan yang signifikan pada prototipe cluster).

Perubahan ini diukur dengan ukuran jara Euclidean. Ukuran jarak ini

digunakan untuk mendapatkan observasi ke dalam cluster berdasarkan


16

centroid terdekat.

Menurut Sarwono (2011), Algoritma K-Means adalah sebagai berikut:

1. Menentukan k sebagai jumlah cluster yang ingin dibentuk.

2. Membangkitkan nilai random untuk pusat cluster awal (centroid)

sebanyak k

3. Menghitung jarak setiap data input terhadap masing-masing centroid

menggunakan rumus jarak Euclidean (Euclidean Distance) hingga

ditemukan jarak yang paling dekat dari setiap data dengan centroid.

Berikut adalah persamaan Euclidean Distance:

d(𝑥𝑖 , 𝜇𝑗) = √(𝑥𝑖 − 𝜇𝑗)2 .................................. (2.1)

dimana:

xi : Data kriteria

µj : centroid pada cluster ke-j

4. Mengklasifikasikan setiap data berdasarkan kedekatannya dengan centroid

(jarak terkecil).

5. Memperbaharui nilai centroid. Nilai centroid baru diperoleh dari rata-rata

cluster yang bersangkutan dengan menggunakan rumus.

𝜇𝑗(𝑡 + 1) = 1

𝑁𝑠𝑗∑ 𝑥𝑗𝑗 𝜖 𝑆𝑗 .................................(2.2)

dimana:

µj(t+1) : centroid baru pada iterasi ke (t+1)

Nsj : banyak data pada cluster Sj

6. Melakukan perulangan dari langkah 2 hingga 5 hingga anggota tiap

cluster tidak ada yang berubah.

7. Jika langkah 6 telah terpenuhi, maka nilai pusat cluster (µj) pada iterasi

terakhir akan digunakan sebagai parameter untuk menentukan klasifikasi

data, ilustrasi dari perubahan cluster/kelompok data ditunjukkan pada

Gambar 2.3


17

Gambar 2. 2 Diagram aliran algoritma K-Means (Andayani, 2007)


18

Gambar 2. 3 Ilustrasi algoritma K-Means (Noor dan Hariad, 2009)

2.5. Confusion Matriks dan Akurasi

Confusion matrix merupakan salah satu metode yang dapat digunakan untuk

mengukur kinerja suatu metode klasifikasi. Pada dasarnya confusion matrix

mengandung informasi yang membandingkan hasil klasifikasi yang dilakukan

oleh sistem dengan hasil klasifikasi yang seharusnya(Prasetyo, 2012).

Pada pengukuran kinerja menggunakan confusion matrix, terdapat 4 (empat)

istilah sebagai representasi hasil proses klasifikasi. Keempat istilah tersebut

adalah True Positive (TP), True Negative (TN), False Positive (FP) dan False

Negative (FN). Nilai True Negative (TN) merupakan jumlah data negatif yang

terdeteksi dengan benar, sedangkan False Positive (FP) merupakan data negatif

namun terdeteksi sebagai data positif. Sementara itu, True Positive (TP)

merupakan data positif yang terdeteksi benar. False Negative (FN) merupakan

kebalikan dari True Positive, sehingga data positif, namun terdeteksi sebagai data

negatif.

Pada jenis klasifikasi binary yang hanya memiliki 2 keluaran kelas, confusion

matrix dapat disajikan seperti pada Tabel 2.2 (Sokolova, 2009).


19

Tabel 2. 2 Confusion Matriks untuk Klasifikasi 2 Kelas

Kelas Terklasifikasi Positif Terklasifikasi Negatif

Positif TP(True Positive) FN (False Negative)

Negatif FP(False Positive) TN(True Negative)

Berdasarkan nilai True Negative (TN), False Positive (FP), False Negative

(FN), dan True Positive (TP) dapat diperoleh nilai akurasi, presisi dan recall.

Nilai akurasi menggambarkan seberapa akurat sistem dapat mengklasifikasikan

data secara benar. Dengan kata lain, nilai akurasi merupakan perbandingan

antara data yang terklasifikasi benar dengan keseluruhan data. Nilai akurasi dapat

diperoleh dengan Persamaan 2.3. Nilai presisi menggambarkan jumlah data

kategori positif yang diklasifikasikan secara benar dibagi dengan total data yang

diklasifikasi positif. Presisi dapat diperoleh dengan Persamaan 2.4. Sementara

itu, recall menunjukkan berapa persen data kategori positif yang terklasifikasikan

dengan benar oleh sistem. Nilai recall diperoleh dengan Persamaan 2.5.

Akurasi =𝑇𝑃+𝑇𝑁

𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 × 100% .....................................(2.3)

Presisi =𝑇𝑃

𝑇𝑃+𝐹𝑃 × 100% ...................................................(2.4)

Recall =𝑇𝑃

𝑇𝑃+𝐹𝑁 × 100% ....................................................(2.5)

dimana:

TP adalah True Positive, yaitu jumlah data positif yang terklasifikasi dengan

benar oleh sistem.


20

TN adalah True Negative, yaitu jumlah data negatif yang terklasifikasi dengan

benar oleh sistem.

FN adalah False Negative, yaitu jumlah data negatif namun terklasifikasi salah

oleh sistem.

FP adalah False Positive, yaitu jumlah data positif namun terklasifikasi salah

oleh sistem

2.6. Silhouette Coefficient

Silhouette Coefficient adalah metode yang digunakan untuk memvalidasi

sebuah cluster yang menggabungkan nilai kohesi dan separasi. Silhouette

Coefficient (SC) dapat digunakan untuk memvalidasi sebuah data, cluster

tunggal, atau bahkan kesulurhan cluster. Untuk menghitung nilai SC, terlebih

dahulu menghitung nilai Silhouette Index (SI) dari sebuah data ke-i. Perhitungan

nilai SI terdapat 2 komponen yaitu ai dan bi. ai adalah rata-rata jarak data ke-i

terhadap semua data lainnya dalam satu cluster, sedangkan bi didapatkan dengan

menghitung rata-rata jarak data ke-i terhadap semua data lainnya dalam satu

cluster yang lain yang tidak dalam satu cluster dengan data ke-i, kemudian

diambil yang terkecil (Prasetyo, 2014).

Berikut formula untuk menghitung aij :

𝑎𝑖𝑗 =

1

𝑚𝑗−1∑ 𝑑(𝑥𝑖

𝑗 , 𝑥𝑟𝑗)

𝑚𝑗

𝑟=1𝑟≠1

……………………………(2.6)

Dimana :

i : Indeks data

j : Cluster

𝑑(𝑥𝑖𝑗 , 𝑥𝑟

𝑗) : Jarak data ke-i dengan data ke- r dalam satu cluster j

mj : Jumlah data dalam cluster ke-j

x : Data


21

Berikut rumus untuk menghitung 𝑏𝑖𝑗 :

𝑏𝑖𝑗

= 𝑚𝑖𝑛

𝑛 = 1 … . 𝑘𝑛 ≠ 𝑗

{1

𝑚𝑛} ∑ 𝑑(𝑥𝑖

𝑗, 𝑥𝑟

𝑗)

𝑚𝑗

𝑟=1𝑟≠1

……………………….(2.7)

Dimana :

b : Nilai minimum dari rata-rata jarak data ke-i terhadap

semua data dari cluster yang lain

j : Cluster

𝑑(𝑥𝑖𝑗 , 𝑥𝑟

𝑗) : Jarak data ke-i dengan data ke- r dalam satu cluster j

mn : Banyak data dalam 1 cluster

x : Data

Untuk mendapatkan Silhouette Index (SI) data ke-i menggunakan persamaan

berikut :

𝑆𝐼𝑖𝑗 =

𝑏𝑖𝑗

−𝑎𝑖𝑗

𝑚𝑎𝑥{𝑎𝑖𝑗

,𝑏𝑖𝑗

} ………………………………………(2.8)

Dimana :

a : Rata-rata jarak data ke-i terhadap semua data lainnya

dalam satu cluster.

b : Nilai minimum dari rata-rata jarak data ke-i terhadap

semua data dari cluster yang lain

𝑚𝑎𝑥{𝑎𝑖𝑗 , 𝑏𝑖

𝑗}: Nilai maksimum dari nilai a dan b dari satu data

SI : Silhouette Index

Nilai ai mengukur seberapa tidak mirip sebuah data dengan cluster yang

diikutinya, nilai yang semakin kecil menandakan semakin tepatnya data tersebut

berada dalam cluster tersebut. Nilai bi yang besar menandakan seberapa jeleknya

data terhadap cluster yang lain. Nilai SI yang didapat dalam rentang (-1, +1).

Nilai SI yang mendekati 1 menandakan bahwa data tersebut semakin tepat

berada dalam cluster tersebut. Nilai SI negative menandakan bahwa data tersebut


22

tidak tepat berada dalam cluster tersebut (karena lebih dekat ke cluster yang

lain).

Untuk nilai SI dari sebuah cluster didaptkan dengan menghitung rata-rata nilai

SI semua data yang bergabung dalam cluster tersebut seperti persamaan berikut :

𝑆𝐼𝑗 = 1

𝑚𝑗 ∑ 𝑆𝐼𝑖

𝑗𝑚𝑗

𝑖=1 ………………………………………(2.9)

Dimana :

i : Index

j : Cluster

mj : Banyaknya data dalam cluster j

SIj : Silhouette Index cluster

Sementara nilai SI global didaptkan dengan menghitung rata-rata nilai SI dari

semua cluster seperti pada persamaan berikut :

𝑆𝐼 = 1

𝑘 ∑ 𝑆𝐼𝑗

𝑘𝑗=1 …………………………………….....(2.10)

Dimana :

k : Jumlah cluster

j : Cluster

SI : Silhouette Index global

SIj : Silhouette Index cluster

Untuk memvalidasi seberapa baik sebuah cluster digunakan metode Silhouette

Coefficient (SC). Nilai SC didapat dengan mencari nilai maksimum SI global

dari jumlah cluster sampai jumlah cluster n-1, seperti pada persamaan berikut

𝑆𝐶 = 𝑚𝑎𝑥𝑘 𝑆𝐼(𝑘)……………………………..……(2.11)

Dimana :

SC : Silhouette Coefficient

SI : Nilai Silhouette global

k : Jumlah clusterj


23

Kriteria subjektif pengukuran baik atau tidaknya pengelompokkan

berdasarkan SC menurut Kaufman dan Roesseeuw (1990) disajikan dalam tabel

2.3.

Tabel 2. 3 Kriteria pengelompokkan berdasarkan SC

Nilai SC Interpretasi SC

0.71 – 1.00 Struktur Kuat

0.51 – 0.70 Struktur Baik

0.26 – 0.50 Struktur Lemah

≤ 0.25 Struktur Buruk


24

BAB III

METODOLOGI PENELITIAN

Pada bab ini dijelaskan mengenai data yang digunakan pada penelitian tugas

akhir serta proses sistem yang akan dilakukan dalam pengelompokan status gizi

pada orang dewasa menggunakan algoritma k-means.

3.1. Data

Data yang digunakan dalam penelitian ini adalah data pasien yang diperoleh

dari sebuah rumah sakit umum di Gianyar. Data yang digunakan merupakan data

pasien dari tahun 2013-2015. Data tersebut berupa rekam medis pasien yang

kemudian disalin ke dalam sebuah file bertipe excel. Dari proses pengumpulan

data, diperoleh jumlah data sebanyak 180 data.

Data yang diperoleh terdiri dari : diet, berat badan, tinggi badan, umur, jenis

kelamin, kesehatan dan status gizi.

3.2. Proses Sistem

Masukkan sistem akan diproses menggunakan algoritma k-means dalam teori

penambangan data. Alur sistem dan tahapan penelitian dijabarkan dalam bentuk

diagram blok seperti pada gambar 3.1 berikut :

Gambar 3. 1 Diagram blok


25

3.2.1. Data Mentah

Dalam penelitian tugas akhir ini data yang digunakan adalah data pasien dari

sebuah rumah sakit umum di Gianyar. Untuk mengidentifikasi status gizi diukur

dari diet, umur, jenis kelamin, berat badan, tinggi badan, kesehatan dan status

gizi dari pasien. Atribut data ditampilkan pada tabel 3.1 berikut :

Tabel 3. 1 Data Atribut

No Nama Atribut Keterangan Nilai

1 Diet Atribut ini

menyimpan data

kebiasaan makan

pasien

Bubur biasa, bubur

garam, bubur telur,

telur, dst

2 Umur Atribut ini

menyimpan data

umur dari

pasien(diatas 18

tahun)

20,67,30, dst

3 Jenis Kelamin Atribut ini

menyimpan data

jenis kelamin dari

pasien

Laki-laki dan

Perempuan

4 Berat Badan Atribut ini

menyimpan data

berat badan dari

pasien

60, 40, 100, dst

5 Tinggi Badan Atribut ini

menyimpan data

tinggi badan dari

170,150,180, dst


26

pasien

6 Kesehatan Atribut ini

menyimpan data

apakah pasien

tersebut sedang

sakit berat atau

tidak

Sehat dan Sakit

7 Status Gizi Atribut ini

menyimpan data

status gizi dari

pasien

Kurang, normal,

baik, lebih, obes

ringan dan obes

berat.

Contoh data pasien ditampilan pada tabel 3.2 berikut :

Tabel 3. 2 Contoh Data Pasien

Diet Berat Tinggi Kesehatan Jenis

Kelamin Umur

Status

Gizi

Beras 75 163 Sehat Perempuan 24 obes

Makanan

Lunak 50 158 Sehat Perempuan 33

baik

Puasa 35 150 Sehat Perempuan 44 kurang

Bubur

manis 84 174 Sehat Laki-Laki 66 obes

Makanan

Lunak 86 184 Sehat Laki-Laki 74 normal

Tidak diet 67 170 Sehat Laki-laki 47 normal

Beras 68 160 Sakit Perempuan 35 lebih

Bubur

Manis

75 165 Sehat Laki-Laki 77 obes


27

Puasa 50 157 Sehat Perempuan 37 normal

Tidak Diet 75 160 Sakit Laki-Laki 42 lebih

3.2.2. Transformasi Data

Pada tahap ini dilakukan peringkasan data atau proses pengubahan data

mentah menjadi data yang mudah dikelola. Dikarenakan sebagian nilai atribut

dari data yang digunakan merupakan data non numerik maka diperlukan

perubahan data tersebut menjadi numerik serta pengelompokkan status gizi untuk

mempermudah jalannya sistem.

Perubahan data non numerik adalah sebagai berikut :

a. Diet

i. Tidak diet = 0

ii. Bubur Manis = 1

iii. Bubur Garam = 2

iv. Makanan Lunak = 3

v. Puasa = 4

vi. Susu = 5

vii. Beras = 6

viii. Bubur Biasa = 7

ix. Bubur Telur = 8

x. Buah = 9

b. Kesehatan

i. Sehat = 0

ii. Sakit = 1

c. Jenis Kelamin

i. Laki-laki = 0

ii. Perempuan = 1

d. Status Gizi

i. Kurang = 1


28

ii. Normal, baik, lebih = 2

iii. Obes ringan dan obes berat = 3

Jika pengguna sistem memilih untuk tidak menormalisasi data maka data

dengan atribut berat, tinggi dan umur akan dikategorikan sebagai berikut :

a. Berat

i. x < 46 = 1

ii. 46 ≤ x < 61 = 2

iii. x ≥ 61 = 3

b. Tinggi

i. x < 151 = 1

ii. 151 ≤ x < 166 = 2

iii. x ≥ 166 = 3

c. Umur

i. x < 26 = 1

ii. 26 ≤ x < 36 = 2

iii. 36 ≤ x < 46 = 3

iv. 46 ≤ x < 56 = 4

v. 56 ≤ x < 65 = 5

vi. x ≥ 65 = 6

Pada tahap ini juga dilakukan pengisian data yang tidak diketahui nilainya

(missing value). Untuk setiap data yang tidak diketahui nilainya akan diisi

dengan nilai terbanyak dari setiap atribut. Contoh data yang sudah melewati

tahap transformasi ditampilkan pada tabel 3.3 berikut :


29

Tabel 3. 3 Contoh Data Setelah Tahap Transformasi (Tanpa Normalisasi)

Diet Berat Tinggi Kesehatan Jenis

Kelamin Umur

Status

Gizi

6 3 2 0 1 2 3

3 2 2 0 1 3 2

4 1 1 0 1 4 1

1 3 3 0 0 6 3

3 3 3 0 0 6 2

0 3 3 0 0 4 2

6 3 2 1 1 2 2

1 3 2 0 0 6 3

4 2 2 0 1 3 2

0 3 2 1 0 3 2

Dari data yang diperoleh, sebagian berupa angka yang beragam, sehingga

perlu dilakukan normalisasi data. Dalam normalisasi data saya akan

menggunakan ZScore dan MinMax lalu membandingkan hasilnya. Contoh data

yang sudah melewati tahap normalisasi ditampilkan pada tabel 3.4 dan 3.5

berikut :

Tabel 3. 4 Contoh Data Setelah Normalisasi MinMax

No Diet Berat Tinggi Kesehatan Jenis

Kelamin Umur

Status

Gizi

1 6 0.78431 0.38235 0 1 0 3

2 3 0.29411 0.23529 0 1 0.1698 2

3 4 0 0 0 1 0.3773 1

4 1 0.96078 0.70588 0 0 0.7924 3

5 3 1 1 0 0 0.9433 2


30

6 0 0.62745 0.58823 0 0 0.4339 2

7 6 0.64705 0.29411 1 1 0.2075 2

8 1 0.78431 0.44117 0 0 1 3

9 4 0.29411 0.20588 0 1 0.2452 2

10 0 0.78431 0.29411 1 0 0.3396 2

Tabel 3. 5 Contoh Data Setelah Normalisasi ZScore

No. Diet Berat Tinggi Kesehatan Jenis

Kelamin Umur

Status

Gizi

1 6 0.51596 -0.1131 0 1 -1.3123 3

2 3 -1.0015 -0.6273 0 1 -0.8181 2

3 4 -1.9121 -1.4501 0 1 -0.2141 1

4 1 1.06228 1.01816 0 0 0.99388 3

5 3 1.18369 2.04660 0 0 1.43316 2

6 0 0.03035 0.60678 0 0 -0.0494 2

7 6 0.09105 -0.4216 1 1 -0.7083 2

8 1 0.51596 0.09256 0 0 1.5978 3

9 4 -1.0015 -0.7301 0 1 -0.5985 2

10 0 0.51596 -0.4216 1 0 -0.3239 2

3.2.3. Proses Clustering

Setelah semua data ditransformasi ke dalam bentuk data angka dan sudah

dinormalisasi, maka data-data tersebut telah dapat dikelompokkan dengan

menggunakan algoritma K-Means. Untuk dapat melakukan pengelompokkan data-

data tersebut menjadi beberapa cluster perlu dilakukan beberapa langkah yaitu :

1. Tentukan jumlah cluster yang diinginkan. Dalam penelitian ini data yang ada

akan dikelompokkan menjadi tiga cluster

2. Tentukan titik pusat awal dari setiap cluster. Dalam penelitian ini titik pusat


31

awal akan ditentukan dengan 3 cara yaitu, Sequential, Random dan Varians.

Untuk contoh ini peniliti akan menggunakan penentuan titik pusat awal

dengan cara Sequential dan normalisasi ZScore. Contoh pemilihan titik pusat

data dapat dilihat pada tabel 3.6 sedangkan data sample yang digunakan dapat

dilihat pada tabel 3.5

Tabel 3. 6 Contoh pemilihan titik pusat data

Titik

Pusat

Awal

Diet Berat Tinggi Kesehatan Jenis Kelamin Umur

1 6 0.5159 -0.1131 0 1 -1.3123

2 3 -1.0015 -0.6273 0 1 -0.8181

3 4 -1.9121 -1.4501 0 1 -0.2141

Setelah diketahui nilai k dan pusat cluster awal selanjutnya mengukur jarak

antara pusat cluster menggunakan Euclidian Distance, kemudian didapatkan

matriks jarak yaitu C1, C2 dan C3 sebagai berikut :

Rumus Euclidean Distance:

d(𝑥𝑖 , 𝜇𝑗) = √(𝑥𝑖 − 𝜇𝑗)2

Perhitungan jarak data pertama dengan pusat cluster pertama adalah :

𝑑11

= √(6 − 6)2 + (0.515 − 0.515)2 + (−0.1131 − (−0.1131))

2+ (0 − 0)2 + (1 − 1)2 +

(−1.312 − (−1.312))2

= 0


32

Perhitungan Jarak data pertama dengan pusat cluster kedua adalah :

𝑑12 = √

(6 − 3)2 + (0.515 − (−1.001))2

+ (−0.1131 − (−0.6273))2

+ (0 − 0)2

+(1 − 1)2 +

(−1.312 − (−0.8181))2

= 3.4368

Perhitungan Jarak data pertama dengan pusat cluster ketiga adalah :

𝑑13 = √

(6 − 4)2 + (0.515 − (−1.9121))2

+ (−0.1131 − (−1.4501))2

+ (0 − 0)2

+(1 − 1)2 +

(−1.312 − (−0.2141))2

= 3.5902

Tabel 3. 7 Tabel Hasil Perhitungan Jarak Pusat Cluster

No. C1 C2 C3

1 0 3.4368 3.5902

2 3.4368 0 1.6944

3 3.5902 1.6944 0

4 5.7356 3.9052 5.1380

5 4.7590 4.2419 5.1502

6 6.2729 3.6303 5.0031

7 1.2809 3.3538 3.2116

8 5.8747 3.6958 4.6432

9 2.6820 1.0290 1.2227

10 6.2508 3.6864 4.9965

Jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak

terdekat antara data dengan pusat cluster, jarak ini menunjukkan bahwa data

tersebut berada dalam satu kelompok dengan pusat cluster terdekat. Dengan cara


33

membandingkan hasil cluster dan diambil nilai yang paling kecil.

Berikut ini akan ditampilkan data matriks pengelompokan group, nilai 1

berarti data tersebut breada dalam group atau cluster.

Tabel 3. 8 Tabel Pengelompokan Group

No. C1 C2 C3

1 1

2 1

3 1

4 1

5 1

6 1

7 1

8 1

9 1

10 1

Setelah diketahui anggota tiap-tiap cluster kemudian pusat cluster baru

dihitung berdasarkan data anggota tiap-tiap cluster sesuai dengan rumus pusat

anggota cluster.

Dengan perhitungan sebagai berikut :

1. Titik pusat Cluster pertama yang baru.

Diet:

6 + 6

2= 6

Berat :

0.515 + 0.091

2= 0.303

Tinggi :


34

−0.1131 + (−0.4216)

2= −0.2674

Kesehatan :

0 + 1

2= 0.5

Jenis Kelamin :

1 + 1

2= 1

Umur :

−1.3123 + (−0.7083)

2= −2.0206

2. Titik pusat Cluster kedua yang baru.

Diet:

3 + 1 + 3 + 0 + 1 + 4 + 0

7= 1.7142

Berat :

−1.0015 + 1.0623 + 1.1837 + 0.0303 + 0.5197 + (−1.0016) + 0.5160

7

= 0.1870

Tinggi :

−0.6274 + 1.0182 + 2.0466 + 0.6068 + 0.0926 + (−0.7302) + (−0.4217)

7

= 0.2836

Kesehatan :

0 + 0 + 0 + 0 + 0 + 0 + 1

7= 0.1429

Jenis Kelamin :

1 + 0 + 0 + 0 + 0 + 1 + 0

7= 0.2857

Umur :


35

−0.8181 + 0.9939 + 1.4331 + (−0.0494) + 1.5979 + (−0.5985) + (−0.3240)

7

= 0.3193

3. Titik pusat Cluster ketiga yang baru.

Diet:

4

1= 4

Berat :

−1.9121

1= −1.9121

Tinggi :

−1.4501

1= −1.4501

Kesehatan :

0

1= 0

Jenis Kelamin :

1

1= 1

Umur :

−0.2141

1= −0.2141

Setelah ditemukan titik pusat cluster-cluster yang baru maka ulangilah

perhitungan jarak data pertama dengan pusat cluster :

𝑑11 = √

(6 − 6)2 + (0.515 − 0.303)2 + (−0.1131 − (−0.2674))2

+

(0 − 0.5)2 + (1 − 1)2 +

(−1.312 − (−2.0206))2

= 0.6404


36

Perhitungan Jarak data pertama dengan pusat cluster kedua adalah :

𝑑12 = √

(6 − 1.7142)2 + (0.515 − 0.1870)2 + (−0.1131 − 0.2836)2 + (0 − 0.1429)2

+(1 − 0.2857)2 +(−1.312 − 0.3193)2

= 4.6718

Perhitungan Jarak data pertama dengan pusat cluster ketiga adalah :

𝑑13 = √

(6 − 4)2 + (0.515 − (−1.9121))2

+ (−0.1131 − (−1.4501))2

+(0 − 0)2 + (1 − 1)2 +

(−1.312 − (−0.2141))2

= 6.0373

Tabel 3. 9 Tabel Hasil Perhitungan Jarak Pusat Cluster

No. C1 C2 C3

1 0.6404 4.6718 6.0373

2 3.3346 2.3914 3.4157

3 3.3454 3.6673 4.7399

4 5.7005 1.5408 1.5991

5 4.7276 2.6643 3.6531

6 6.2460 1.8181 0.6561

7 0.6404 4.6016 5.9768

8 5.7643 1.5467 1.6261

9 2.5174 3.0061 4.2386

10 6.1474 2.1851 1.2334

Langkah selanjutnya hasil perhitungan akan dilakukan perbandingan dan

dipilih jarak terdekat antara data dengan pusat cluster, jarak ini menunjukkan

bahwa data tersebut dalam satu kelompok dengan cluster terdekat.


37

Tabel 3. 10 Tabel Pengelompokan Group

No. C1 C2 C3

1 1

2 1

3 1

4 1

5 1

6 1

7 1

8 1

9 1

10 1

Pada perhitungan ini iterasi berhenti pada iterasi ke-4 karena data sudah stabil

dan konvergen.

3.3. Desain User Interface

Gambar 3. 2 User Interface


38

User Interface penerapan metode K-Means Clustering untuk mengelompokan

status gizi pada orang dewasa. Dalam User Interface terdapat tombol “ Ambil

Data” untuk memasukan data yang akan diolah. Data awal sebelum diolah akan

ditampilkan dalam tabel “Tabel Data Pasien”. Selanjutnya, user memilih cara

normalisasi dan inisialisasi lalu menekan tombol “Preprocess”. Setelah data di

preprocess maka data hasil preprocess akan ditampilkan dalam tabel “Tabel

Hasil Preprocess”. Terakhir user menekan tombol “Cluster” maka data akan

diolah dengan algoritma K-Means sehingga akan mendapatkan hasil pada tabel

“Tabel Hasil Clustering” serta akan menunjukkan Akurasi pada kotak “Akurasi”

dan Silhouette pada kotak “Silhouette”.

3.4. Spesifikasi Alat

Sistem ini mempunyai kebutuhan perangkat keras dan lunak untuk

mendapatkan hasil yang maksimal.

1. Kebutuhan perangkat lunak :

a. Microsoft Windows 10 (x64)

b. Microsoft Excel 2016

c. Matlab R2016b

2. Kebutuhan perangkat keras :

a. Processor : Core I5-4670k @3.40GHz

b. Memory : 8 GB

c. Harddisk : 1 TB


39

BAB IV

IMPLEMENTASI DAN ANALISA HASIL

Bab ini membahas lebih rinci hal-hal yang berkaitan dengan hasil dan analisis

yang didapatkan dari pengujian-pengujian yang akan dilakukan dari hasil

pengujian serta antarmuka sistem.

4.1. Implementasi Program

Dalam membuat sistem implementasi K-Means Clustering untuk

pengelompokan status gizi pada orang dewasa, peneliti menggunakan Matlab

R2016b. User Interface System telah dipaparkan dalam bab sebelumnya

diimplementasikan dan digunakan untuk melakukan proses pengelompokan

dengan K-Means Clustering. Sistem menampilkan hasil cluster. Gambar 4.1

merupakan gambar User Interface dari keselurahan sistem yang telah terbentuk.

Gambar 4. 1 Tampilan Keseluruhan Sistem

Dalam proses pengelompokan data terdapat tiga langkah utama yaitu input

data, pemilihan normalisasi dan inisialisasi, dan proses K-Means clustering


40

4.1.1. Input Data

Data sistem dijalankan, langkah pertama yang harus dilakukan user adalah

memencet tombol “Ambil Data” dan memilih file yang berekstensi *.xlsx

sebagai inputan data. Setelah di-inputkan, sistem akan menampilkan data pada

tabel “Tabel Data Pasien”. Gambar 4.2 adalah contoh proses input data.

Gambar 4. 2 Contoh Proses Input Data

4.1.2. Normalisasi dan Inisialisasi

Langkah berikutnya adalah user memilih cara normalisasi dan Inisialisasi dari

pusat cluster lalu memencet tombol “preprocess” maka data hasil preprocess

akan muncul pada tabel “Tabel Hasil Preprocess”. Gambar 4.3 merupakan

contoh dari hasil preprocess data.


41

Gambar 4. 3 Contoh Hasil Preprocess Data

4.1.3. Proses K-Means Clustering

Langkah terakhir adalah clustering itu sendiri. User memencet tombol

“Cluster” lalu sistem akan mengolah data dengan algoritma K-Means dan

hasilnya akan ditampilkan pada tabel “Tabel Hasil Clustering”. Gambar 4.4

merupakan contoh dari hasil clustering data.


42

Gambar 4. 4 Contoh hasil K-Means Clustering

4.2. Hasil Sistem

Tabel Confusion Matrix dengan MinMax sebagai normalisasinya dan

Sequential sebagai inisialisasinya dapat dilihat pada tabel 4.1

Tabel 4. 1 Tabel Confusion Matrix Minmax dan Sequential

Status Gizi/Kelompok Kurang Normal Obes

K1 4 65 14

K2 7 37 11

K3 11 27 4


43

Tabel Confusion Matrix dengan Zscore sebagai normalisasinya dan

Sequential sebagai inisialisasinya dapat dilihat pada tabel 4.2

Tabel 4. 2 Tabel Confusion Matrix Zscore dan Sequential


K1 11 58 8

K2 0 41 15

K3 11 30 6

Tabel Confusion Matrix dengan MinMax sebagai normalisasinya dan

Variance sebagai inisialisasinya dapat dilihat pada tabel 4.3

Tabel 4. 3 Tabel Confusion Matrix MinMax dan Variance


K1 2 27 9

K2 9 72 14

K3 11 30 6

Tabel Confusion Matrix dengan Zscore sebagai normalisasinya dan

Variance sebagai inisialisasinya dapat dilihat pada tabel 4.4

Tabel 4. 4 Tabel Confusion Matrix Zscore dan Variance


K1 2 27 9

K2 9 72 14

K3 11 30 6


44

Tabel Confusion Matrix tanpa normalisasi namun dengan

menkategorikan atribut berat, tinggi dan umur dan inisialisasi Sequential

dapat dilihat pada tabel 4.5

Tabel 4. 5 Tabel Confusion Matrix kategorikal dan Sequential


K1 7 47 9

K2 4 53 15

K3 11 29 5

Tabel hasil pengelompokan status gizi pasien RS Sanjiwan dapat

dilihat pada tabel 4.6

Tabel 4. 6 Hasil pengelompokan status gizi pasien

Normalisasi Inisialisasi Akurasi

MinMax Sequential 25%

MinMax Random 32.55%*

MinMax Variance 44.44%

Zscore Sequential 32.22%

Zscore Random 39.22%*

Zscore Variance 44.44%

Tanpa Normalisasi (Kategorikal) Sequential 36.11%

Tanpa Normalisasi (Kategorikal) Random 37.48%*

(*hasil akurasi rata-rata dari 10 kali percobaan)

Tabel Silhouette Coefficient dari masing masing Nomalisasi dan

Inisialisasi dapat dilihat pada tabel 4.7


45

Tabel 4. 7 Tabel hasil Silhouette Coefficient

Normalisasi Inisialisasi Silhouette Coefficient

MinMax Sequential -0.0374

MinMax Random -0.0894*

MinMax Variance -0.0296

Zscore Sequential 0.0589

Zscore Random 0.0427

Zscore Variance -0.0296

Tanpa Normalisasi

(Kategorikal)

Sequential 0.5496

Tanpa Normalisasi

(Kategorikal)

Random 0.3493

(*hasil akurasi rata-rata dari 10 kali percobaan)

Pengujian yang telah dilakukan pada sistem pengelompokkan status

gizi pada orang dewasa dilakukan dengan data pasien yang di telah di

normalisasi secara MinMax maupun Zscore serta inisialisasi Sequential,

Random, dan Variance. Terdapat 180 data pasien yang memiliki 6 atribut.

Tabel 4.5 menunjukkan hasil pengelompokkan status gizi dengan

normalisasi MinMax dan Inisialisasi Sequential yang menghasilkan akurasi

sebesar 25%. Pada data pasien dengan normalisasi MinMax dan inisialisasi

Random didapat rerata akurasi dari sepuluh kali percobaan sebesar 32.55%.

Pada data pasien dengan normalisasi MinMax dan inisialisasi Variance

menghasilkan akurasi sebesar 44.44%. Pada data pasien dengan normalisasi

Zscore dan inisialisasi Sequential menghasilkan akurasi sebesar 32.22%. Pada

data pasien dengan normalisasi Zscore dan inisialisasi Random didapat rerata

akurasi dari sepuluh kali percobaan sebesar 39.22%. Pada data pasien dengan

normalisasi Zscore dan inisialisasi Variance diperoleh akurasi sebesar


46

44.44%. Pada data pasien yang tidak di normalisasi namun atribut berat,

tinggi dan umur di kategorikan dan inisialisasi Sequential menghasilkan

akurasi sebesar 36.11% dan jika inisialisasi Random digunakan maka di dapat

rerata akurasi sebesar 37.48%.

Untuk unjuk konsistensi hasil cluster, didapatkan hasil clustering

tanpa normalisasi namun mengkategorikan atribut berat,tinggi dan umur serta

inisialisasi sequential merupakan hasil clustering yang paling konsisten, hal

ini ditunjukkan dengan mencapai nilai SC sebesar 0.5496.

4.3. Kelebihan dan Kekurangan Sistem

4.3.1. Kelebihan Sistem

Kelebihan sistem yang dimiliki adalah :

1. Sistem dapat menerima data dalam bentuk .xlsx

2. User dapat memilih 2 jenis normalisasi yang telah disediakan sistem

3. User dapat memilih 3 jenis Inisialisasi yang telah disediakan sistem

4. Sistem mampu mengelompokan status gizi pasien menggunakan algoritma K-

Means

5. Sistem mampu menampilkan akurasi dari sistem

6. Sistem mampu menguji konsistensi dari hasil clustering

4.3.2. Kekurangan Sistem

1. Sistem hanya dapat menerima data dalam bentuk .xlsx

2. Data masukan dari file .xlsx diharuskan pada kolom pertama adalah diet

dilanjutkan dengan berat, Tinggi, Kesehatan, Jenis Kelamin, Umur, lalu Status

Gizi


47

BAB V

PENUTUP

5.1. Analisa Hasil

Dari hasil pengujian sistem yang telah penulis buat pengelompokkan status gizi

pada orang dewasa menggunakan algoritma K-Means telah berhasil namun belum

begitu akurat dikarenakan penentuan centroid atau saat inisialisasi sangat

berpengaruh pada hasil cluster.

5.2. Kesimpulan

Dari hasil penelitian ini, dapat diambil kesimpulan sebagai berikut :

1. Algoritma K-Means dapat mengelompokkan status gizi pada orang dewasa

2. Cara penentuan atau inisialisasi centroid sangat berpengaruh pada hasil

cluster.

3. Menggunakan normalisasi Zscore lebih baik daripada menggunakan

normalisasi MinMax. Hal ini ditunjukkan dengan akurasi dari normalisasi

Zscore melebihi akurasi dari normalisasi MinMax.

4. Pengujian dilakukan pada 180 data dengan 24(10 kali pengujian untuk

masing-masing normalisasi pada inisialisasi Random) kali pengujian.

pengelompokkan status gizi dengan normalisasi MinMax dan Inisialisasi

Sequential yang menghasilkan akurasi sebesar 25%. Pada data pasien dengan

normalisasi MinMax dan inisialisasi Random didapat rerata akurasi dari

sepuluh kali percobaan sebesar 32.55%. Pada data pasien dengan normalisasi

MinMax dan inisialisasi Variance menghasilkan akurasi sebesar 44.44%. Pada

data pasien dengan normalisasi Zscore dan inisialisasi Sequential

menghasilkan akurasi sebesar 32.22%. Pada data pasien dengan normalisasi

Zscore dan inisialisasi Random didapat rerata akurasi dari sepuluh kali

percobaan sebesar 39.22%. Dan pada data pasien dengan normalisasi Zscore


48

dan inisialisasi Variance diperoleh akurasi sebesar 44.44%

5. Hasil clustering dari sebagian besar metode tidak konsisten hal ini

ditunjukkan dengan nilai SC yang sangat rendah terkecuali hasil clustering

data yang tidak dinormalisasi namun atribut berat, tinggi dan umur di

kategorikan serta di inisialisasi secara Sequential yang memberikan nilai SC

sebesar 0.5496 .

5.3. Saran

Saran agar penelitian ini dapat berkembang diantara lain :

1. Penelitian selanjutnya dapat dikembangkan pada jenis data yang serupa

dengan metode yang lebih baik seperti menggunakan algoritma Fuzzy C-

Means.

2. Jika ingin tetap menggunakan algoritma K-Means maka peneliti menyarankan

untuk mencoba inisialisasi centroid secara manual, yaitu dengan memilih

centroid secara manual untuk setiap cluster


49

DAFTAR PUSTAKA

Agusta, Y. 2007. K-Means-Penerapan, Permasalahan dan Metode Terkait.

Denpasar, Bali

Andayani, Sri. 2007. Pembentukan Cluster dalam Knowledge Discovery in Database

dengan Algoritma K-means. SEMNAS Matematika dan Pendidikan Matematika 2007

dengan tema “Trend Penelitian Matematika dan Pendidikan Matematika di Era

Global.

Aggarwal, C. C., & Reddy, C. K. 2014. Data clustering. Algorithms and

Applications, Chapman & Halls.

Arisman, 2011. Buku Ajar Ilmu Gizi Obesitas, Diabetes Mellitus dan Dislipidemia.

Jakarta

Al-Daoud, M. D. B. 2005. A new algorithm for cluster initialization. In WEC'05: The

Second World Enformatika Conference.

Beck, M. 2000. Ilmu Gizi dan Diet. (terj.). Yayasan Essentia Medica : Yogyakarta

Davies, and Paul Beynon, 2004, Database Systems Third Edition, Palgrave

Macmillan, New York.

Han, J. and Kamber, M, 2006, Data Mining Concepts and Techniques Second

Edition. Morgan Kauffman, San Francisco.

Hartigan, J. A. 1975. Printer graphics for clustering. Journal of Statistical

Computation and Simulation.

J. B. MacQueen 1967: Some Methods for classification and Analysis of Multivariate

Observations, Proceedings of 5-th Berkeley Symposium on Mathematical Statistics

and Probability, Berkeley, University of California.

Kusnawi. 2007. Pengantar Solusi Data Mining. Seminar Nasional Teknologi 2007

(SNT). Yogyakarta: STMIK AMIKOM Yogyakarta.

Larose, D. T. 2005. An introduction to data mining. Traduction et adaptation de

Thierry Vallaud.

Manary, M. J., dan Solomons, N. W. 2009. Gizi Kesehatan Masyarakat, Gizi dan


50

Perkembangan Anak. Penerbit Buku Kedokteran EGC. Terjemahan Public Health

Nutrition Editor.

Murti, Darlis Heru, Nanik Suciati, and Daru Jani Nanjaya 2005. Clustering Data

Non-Numerik dengan Pendekatan Algoritma K-Means dan Hamming Distance Studi

Kasus Biro Jodoh. JUTI: Jurnal Ilmiah

M. Helmi Noor, Moch. Hariadi. 2009, Image Clustering Berdasarkan Warna Untuk

Identifikasi Kematangan Buah Tomat Dengan Metode Valley Tracing, Jurnal Seminar

Nasional Informatika, Institut Teknologi Sepuluh Nopember Surabaya.

Nuningsih, S. 2010. K-Means Clustering (Studi Kasus Pada Data Pengujian Kualitas

Susu di Koperasi Peternakan Bandung). Skripsi FPMIPA UPI, Bandung.

Nursalam, S. P. 2001. Pendekatan praktis metodologi riset keperawatan. Jakarta: CV.

Sagung setyo.

Prasetyo, Eko. 2012. Data Mining Konsep dan Aplikasi Menggunakan Matlab.

Penerbit Andi Yogyakarta.

Prasetyo, Eko. 2014. Data Mining Mengolah Data Menjadi Informasi Menggunakan

Matlab. Penerbit Andi Yogyakarta.

Rencher, A. C. 2002. Methods of Multivariate Analysis. Canada: John Wiley & Sons,

Inc.

Santoso., 1999. Kesehatan dan Gizi. Rineka Cipta, Jakarta

Santosa, B. 2007. Data Mining : Teknik Pemanfaatan Data untuk Keperluan Bisnis,

Teori dan Aplikasi. Graha Ilmu.Yogyakarta.

Sarwono, Y. T. 2011 Aplikasi Model Jaringan Syaraf Tiruan Dengan Radial

Basis Function Untuk Mendeteksi Kelainan Otak (Stroke Infark).

Supariasa, I.D.N., Bakri, B dan Fajar, I. 2002. Penilaian Status Gizi. Jakarta : EGC

Suhardjo, Clara M., and H. Riyadi 1989. Sosio Budaya Gizi. Bogor: Pusat Antar

Universitas Pangan dan Gizi. Institut Pertanian Bogor.


51

Suhardjo, H. L., Deaton, B. J., & Driskel, J. A. 1986. Pangan, Gizi dan Pertanian.

Jakarta, Penerbit Universitas Indonesia.

Soekirman. 2000. Ilmu Gizi dan Aplikasinya. Jakarta: Direktorat Jenderal Pendidikan

Tinggi, Departemen Pendidikan Nasional.

Soetjiningsih. 1998. Tumbuh Kembang Anak. Jakarta : EGC

Sokolova, M., & Lapalme, G. 2009. A systematic analysis of performance measures

for classification tasks. Information Processing & Management.

T. Velmurugan and T. Santhanam, 2011. A Survey of Partition based Clustering

Algorithms in Data Mining: An Experimental Approach. Information Technology

Journal.

Tan, P. N., Steinbach, M., & Kumar, V. 2005. Classification: Alternative Techniques.

Introduction to Data Mining.

Teknomo, K. 2006. K-means Clustering Tutorial. Medicine.


pengelompokan status gizi pada orang dewasa … filepengelompokan status gizi pada orang dewasa...

Documents