penerapan hierarchical clustering untuk menen-tukan tingkat risiko kematian balita di indonesia

7
PENERAPAN HIERARCHICAL CLUSTERING UNTUK MENENTUKAN TINGKAT RISIKO KEMATIAN BALITA DI INDONESIA Estu Rizky H (5212100085) Jurusan Sistem Informasi Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember Surabaya, Jalan Raya ITS, Kampus ITS Sukolilo Surabaya, Jawa Timur 60111, Indonesia [email protected]. id Setiawan Mauludy Y (5212100119) Jurusan Sistem Informasi Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember Surabaya, Jalan Raya ITS, Kampus ITS Sukolilo Surabaya, Jawa Timur 60111, Indonesia [email protected] om Tania Rahma (5212100125) Jurusan Sistem Informasi Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember Surabaya, Jalan Raya ITS, Kampus ITS Sukolilo Surabaya, Jawa Timur 60111, Indonesia [email protected] c.id Abstrak Tingkat derajat kesehatan balita dapat digunakan sebagai dasar acuan bagi pemerintah untuk mengurangi angka kematian dan penderita penyakit, serta melakukan peningkatan status gizi balita. Hierarichal Clustering merupakan salah satu metode analisis kluster yang dapat digunakan untuk melakukan pengelompokan kluster pada dataset kesehatan yang bertujuan untuk mengetahui risiko kematian pada balita dengan variabel yang berpengaruh. Tujuan dalam penelitian ini adalah untuk mengetahui persebaran risiko kematian balita di Indonesia dalam setiap provinsi berdasarkan presentase pemberian imunisasi dan vitamin pada balita. Perangkat lunak R digunakan dalam mendukung pengolahan data dalam penelitian ini. Keyword: Hierarchical Clustering, Risiko Kematian Balita, Analisis Klustering.

Upload: estu

Post on 24-Jan-2016

6 views

Category:

Documents


0 download

DESCRIPTION

FinalProject_SC_C_Estu_Setiawan_Tania

TRANSCRIPT

Page 1: PENERAPAN HIERARCHICAL CLUSTERING UNTUK MENEN-TUKAN TINGKAT RISIKO KEMATIAN BALITA DI INDONESIA

PENERAPAN HIERARCHICAL CLUSTERING UNTUK MENEN-TUKAN TINGKAT RISIKO KEMATIAN BALITA DI INDONESIA

Estu Rizky H(5212100085)

Jurusan Sistem InformasiFakultas Teknologi Informasi

Institut Teknologi Sepuluh Nopember Surabaya, Jalan

Raya ITS, Kampus ITS Sukolilo Surabaya, Jawa Timur 60111, Indonesia

[email protected]

Setiawan Mauludy Y (5212100119)

Jurusan Sistem InformasiFakultas Teknologi Informasi

Institut Teknologi Sepuluh Nopember Surabaya, Jalan Raya

ITS, Kampus ITS Sukolilo Surabaya, Jawa Timur 60111,

Indonesia [email protected]

Tania Rahma(5212100125)

Jurusan Sistem InformasiFakultas Teknologi Informasi

Institut Teknologi Sepuluh Nopember Surabaya, Jalan

Raya ITS, Kampus ITS Suko-lilo Surabaya, Jawa Timur

60111, Indonesia

[email protected]

Abstrak

Tingkat derajat kesehatan balita dapat digunakan sebagai dasar acuan bagi pemerintah untuk mengurangi angka kematian dan penderita penyakit, serta melakukan pen-ingkatan status gizi balita. Hierarichal Clustering merupakan salah satu metode analisis kluster yang dapat di-gunakan untuk melakukan pengelom-pokan kluster pada dataset kesehatan yang bertujuan untuk mengetahui risiko kematian pada balita dengan variabel yang berpengaruh. Tujuan dalam penelitian ini adalah untuk menge-tahui persebaran risiko kematian balita di Indonesia dalam setiap provinsi berdasarkan presentase pemberian imu-nisasi dan vitamin pada balita. Perangkat lunak R digunakan dalam mendukung pengolahan data dalam penelitian ini.

Keyword: Hierarchical Clustering, Risiko Kematian Balita, Analisis Klustering.

1 Latar Belakang

Terdapat beberapa faktor dalam menen-tukan tingkat derajat kesehatan balita yaitu jumlah kematian balita, jumlah penderita penyakit dan status gizi balita. Tingkat dera-

jat kesehatan balita dapat digunakan sebagai dasar acuan bagi pemerintah untuk mengu-rangi angka kematian dan penderita penyakit, serta melakukan peningkatan status gizi balita (Sari 2013).

Tidak hanya tingkat derajat kesehatan saja yang digunakan sebagai acuan, namun risiko tingkat kematian bayi pada balita di setiap provinsi dapat digunakan sebagai dasar pemerintah dalam melaksanakan pro-gram kesehatan secara merata. Dengan mengetahui risiko kematian balita pemerin-tah dapat menentukan alokasi dana dan pro-gram kesehatan pada setiap provinsi secara merata dan adil.

Analisis Kluster adalah pengelompokan suatu set data, data dalam set data tersebut sebagai objek yang memiliki kemiripan karakteristik yang sama akan dikelompokkan dalam satu kelompok (Wikipedia 2015). Analisis kluster digunakan ketika set data yang digunakan tidak diketahui label kelas-nya (Prasetyo 2014).

Tujuan dari analisis kluster pada peneli-tian ini adalah untuk mengetahui persebaran risiko kematian balita di Indonesia dalam setiap provinsi berdasarkan presentase pem-berian imunisasi dan vitamin pada balita.

Dalam melakukan analisis kluster, peneliti menggunakan perangkat lunak R se-bagai aplikasi penunjang. R merupakan

Page 2: PENERAPAN HIERARCHICAL CLUSTERING UNTUK MENEN-TUKAN TINGKAT RISIKO KEMATIAN BALITA DI INDONESIA

perangkat lunak yang digunakan untuk melakukan perhitungan data, perhitungan simulasi, dan penayangan grafik. (Wiharto 2012)

2 Dasar Teori

Hierarchical Clustering Hierarchial Clustering menempatkan elemen masukan dalam bentuk struktur hierarki pohon dengan jarak dalam pohon merefleksikan kesamaan elemen. Elemen ditempatkan sebagai daun pada pohon. Elemen dengan kemiripan paling tinggi dihubungkan dengan cabang yang pendek, dengan demikian semakin panjang cabang yang menghubungkan elemen, maka semakin menurun tingkat kemiripan kedua elemen tersebut.

Keuntungan dari Hierarchial Clustering adalah sederhana dan hasilnya lebih mudah direalisasikan. Hierarchial Clustering merupakan teknik yang paling banyak digunakan untuk analisis data ekspresi gen. Hierarchial Clustering merupakan algoritma dengan pendekatan agglomerative dengan profile ekspresi tunggal digabungkan membentuk kelompok, yang akan terus digabungkan sehingga terbentuk satu pohon hierarki.

Proses Hierarchial Clustering adalah sebagai berikut :1. Hitung distance matrix untuk semua gen yang akan di-cluster.2. Temukan dua gen yang paling mirip dari distance matrix atau cluster; pada tahap awal, setiap cluster hanya terdiri dari satu gen. Apabila terdapat beberapa pasangan yang mempunyai jarak, aturan penentuan digunakan untuk pemilihan dari beberapa alternatif tersebut.

3. Gabungkan kedua cluster yang dipilih menjadi satu cluster baru, sehingga menjadi terdiri dari paling sedikit dua objek.4. Hitung jarak antara cluster yang baru dihasilkan terhadap semua cluster yang lain.Penghitungan semua jarak tidak dibutuhkan karena hanya yang terlibat dengan cluster baru yang berubah.5. Ulangi langkah 2-4 sehingga semua objek berada dalam satu cluster.

Software RR adalah software dan juga bahasa

pemrograman yang digunakan untuk menganalisa data (R Studio, 2014). Software R merupakan open source yang terbuka pengembangannya. Rstudio merupakan integrated development environment (IDE) yang memiliki tampilan user interface untuk memudahkan dalam pengelolaan data dengan R. Pengguna Rstudio dapat melakukan visualisasi data, analisis statistik, dan pemodelan prediktif.

Istilah yang terdapat Software R dalam memproses data, antara lain :

- Packages : Kumpulan fungsi algoritma yang terdapat pada software R yang dapat mempermudah pengolahan data. Pengolahan data dengan packages akan disesuaikan dengan fungsi algortimanya sehingga dapat mempermudah dan mereduksi waktu pengolahan.

- Dataset : Data yang diimport kedalam R dengan ekstensi .csv. Data yang diimport ini disebut dataset. Dataset yang akan diolah terdapat menjadi 2 yaitu trainingset dan testset.

3 Data

Data yang digunakan dalam penelitian ini didapatkan pada website penyedia data Indonesia yang dapat diakses pada alamat website http://data.go.id/dataset/basis-data-kesehatan-indonesia. Data yang digunakan merupakan database kesehatan pada setiap provinsi di Indonesia. Data tersebut digunakan sebagai parameter-parameter

Page 3: PENERAPAN HIERARCHICAL CLUSTERING UNTUK MENEN-TUKAN TINGKAT RISIKO KEMATIAN BALITA DI INDONESIA

dalam pengklasifikasian tingkat risiko kematian pada bayi.

Dari sekian data yang ada data yang digunakan hanya meliputi data-data yang berpengaruh pada risiko tingkat kematian pada bayi yaitu cakupan imunisasi yang diberikan pada bayi. Imunisasi berperan penting pada pertumbuhan bayi, dengan adanya imunisasi maka risiko untuk terserang penyakit mematikan pada bayi akan semakin rendah dimana hal tersebut akan berpengaruh besar pada risiko kematian pada bayi di Indonesia.

4 Metodologi

Pengumpulan DataTahap pengumpulan data ini mencari dan mengumpulkan data yang akan digunakan untuk diklusterisasi.Preprocessing DataTahap penyeleksian data sebelum diproses klusterisasi. Pada tahap ini data yang outlier, missing dan duplikasi dieliminasi.

Hierarchy ClusteringHierarchical clustering merupakan teknik clustering yang biasa ditampilkan dalam dendogram. Arah hierarchical clustering yang digunakan pada penelitian ini adalah Agglomerative yaitu dari Ncluster ke kclus-ter, dimana N adalah jumlah data dan k adalah jumlah cluster.

Pada penelitian ini digunakan beberapa teknik clustering hirarki agglomerative yaitu metode single linkage (jarak terkecil atau tetangga terdekat), complete linkage (jarak terjauh) dan average linkage (jarak rata-rata). Teknik clustering hirarki agglomerative bekerja dengan sederetan dari penggabungan yang berurutan atau sederetan dari pembagian yang berurutan dan berawal dari objek-objek individual. Jadi pada awalnya banyaknya cluster sama dengan banyaknya objek. Objek-objek yang paling mirip dikelompokkan, dan kelompok-kelompok awal ini digabungkan sesuai dengan kemiripannya.

Sewaktu kemiripan berkurang, semua subkelompok digabungkan menjadi satu cluster tunggal. Hasil-hasil dari clustering dapat disajikan secara grafik dalam bentuk dendrogram atau diagram pohon. Cabang-cabang dalam pohon menyajikan cluster dan bergabung pada node yang posisinya sepanjang sumbu jarak (similaritas) menyatakan tingkat di mana penggabungan terjadi. Dalam makalah ini diberikan juga langkah-langkah dalam algoritma clustering hirarki agglomerative untuk mengelompokkan N objek (item/variabel).

Input untuk algoritma metode linkage bisa berujud jarak atau similarities antara pasangan-pasangan dari objek-objek. Kelompok-kelompok dibentuk dari entities individu dengan menggabungkan jarak paling pendek atau similaritas (kemiripan) yang paling besar.

Pengumpulan Data

Preprocessing Data

Hierarchy Clustering

Analisa Hasil

Kesimpulan

Page 4: PENERAPAN HIERARCHICAL CLUSTERING UNTUK MENEN-TUKAN TINGKAT RISIKO KEMATIAN BALITA DI INDONESIA

5 Hasil dan Analisis

Berdasarkan clustering yang telah dilakukan menggunakan software R, dapat dikelompokkan provinsi mana sajakah yang tergolong provinsi yang memiliki risiko tingkat kematian pada bayi sangat rendah, rendah, tinggi dan sangat tinggi.

Berikut hasil pengelompokkan provinsi berdasarkan risiko tingkat kematian pada bayi:Sangat Rendah

Rendah TinggiSangat Tinggi

11 1 23 137 6 18 3314 3 26 3215 24 19 2710 8 29 212 9 31 2220 28 30

5 214 251617

Sangat Rendah

Rendah TinggiSangat Tinggi

Jawa Barat

AcehKalimantan Utara

DI Yogyakar

ta

LampungBengkul

u

Nusa Tenggara

TimurPapua

Jawa Timur

RiauSulawesi Selatan

Papua Barat

BantenSulawesi

UtaraKalimantan Barat

Sulawesi Tenggara

DKI Jakarta

Kepulauan

Bangka Belitung

Sulawesi Barat

Sumatra Utara

Jawa Tengah

Kepulauan Riau

Maluku Utara

Kalimantan Timur

Kalimantan

Tengah

Gorontalo

Maluku

Sumatra Selatan

Kalimantan

Selatan

JambiSulawesi Tengah

BaliNusa

Tenggara Barat

Setelah dilakukan clustering dengan menggunakan software R, dilakukan evaluasi performa terhadap hasil clustering yang diberikan dengan membandingkan antara clustering menggunakan R dengan data yang diolah secara manual dengan menggunakan excel. Data yang diolah secara manual hanya melakukan range data berdasarkan range yang telah ditentukan.

Range0 – 30 Sangat Rendah31 – 70 Cukup71 – 80 Tinggi91 – 100 Sangat Tinggi

Berdasarkan range tersebut data prosentase kesehatan yang ada diolah untuk mengetahui range masing-masing data.

Page 5: PENERAPAN HIERARCHICAL CLUSTERING UNTUK MENEN-TUKAN TINGKAT RISIKO KEMATIAN BALITA DI INDONESIA

Berdasarkan data tersebut dapat dilihat rata-rata kecenderungan provinsi mana saja yang memiliki risiko tingkat kematian pada bayi sangat rendah, rendah, tinggi maupun sangat tinggi.

Data tersebut memiliki tingkat kesesuain yang cukup akurat dengan clustering yang telah dilakukan dengan menggunakan software R.

6 Kesimpulan

Penggunaan metode Hierarchical Clustering pada penerapan klustering untuk memetakan risiko tingkat kematian pada bayi di setiap provinsi di Indonesia merupakan salah satu pilihan yang tepat karena dengan menggunakan metode tersebut dapat dilihat pengelompokkan provinsi yang memiliki risiko tingkat kematian pada bayi sangat rendah hingga sangat tinggi.

Dari hasil clustering yang dilakukan dapat disimpulkan bahwa di Indonesia sendiri masih banyak provinsi-provinsi yang memiliki risiko tingkat kematian pada bayi yang cukup tinggi akibat kurangnya pemberian imunisasi secara dini pada bayi yang dapat menyebabkan tingginya risiko terserang penyakit berbahaya.

Referensi

Prasetyo, E., 2014. DATA MINING Mengolah Data Menjadi Informasi Menggunakan Matlab A. Sahala, ed., ANDI.

John Quakenbush, “Computational Analysis of Microarray Data”, Nature Reviews, Genetic, Macmilan Magazines Ltd, Volume 2, Juni 2001.

Sari, E.A., 2013. PENERAPAN ALGORITMA K-MEANS UNTUK MENENTUKAN TINGKAT KESEHATAN BAYI DAN BALITA PADA KABUPATEN DAN KOTA DI JAWA TEN-GAH.

Shamir, Ron, “Analysis of Gene Expression Data”, Tel Aviv University, 2004, Lecture 1.

Wiharto, M., 2012. Analisis kluster menggunakan bahasa pemograman r untuk kajian ekologi. Bionature, 14(2013), pp.73–79.

Wikipedia, 2015. Cluster analysis. 14 May. Available at: http://en.wikipedia.org/wiki/Cluster_analysis [Accessed May 18, 2015].