penerapan hierarchical clustering untuk menen-tukan tingkat risiko kematian balita di indonesia
DESCRIPTION
FinalProject_SC_C_Estu_Setiawan_TaniaTRANSCRIPT
PENERAPAN HIERARCHICAL CLUSTERING UNTUK MENEN-TUKAN TINGKAT RISIKO KEMATIAN BALITA DI INDONESIA
Estu Rizky H(5212100085)
Jurusan Sistem InformasiFakultas Teknologi Informasi
Institut Teknologi Sepuluh Nopember Surabaya, Jalan
Raya ITS, Kampus ITS Sukolilo Surabaya, Jawa Timur 60111, Indonesia
Setiawan Mauludy Y (5212100119)
Jurusan Sistem InformasiFakultas Teknologi Informasi
Institut Teknologi Sepuluh Nopember Surabaya, Jalan Raya
ITS, Kampus ITS Sukolilo Surabaya, Jawa Timur 60111,
Indonesia [email protected]
Tania Rahma(5212100125)
Jurusan Sistem InformasiFakultas Teknologi Informasi
Institut Teknologi Sepuluh Nopember Surabaya, Jalan
Raya ITS, Kampus ITS Suko-lilo Surabaya, Jawa Timur
60111, Indonesia
Abstrak
Tingkat derajat kesehatan balita dapat digunakan sebagai dasar acuan bagi pemerintah untuk mengurangi angka kematian dan penderita penyakit, serta melakukan pen-ingkatan status gizi balita. Hierarichal Clustering merupakan salah satu metode analisis kluster yang dapat di-gunakan untuk melakukan pengelom-pokan kluster pada dataset kesehatan yang bertujuan untuk mengetahui risiko kematian pada balita dengan variabel yang berpengaruh. Tujuan dalam penelitian ini adalah untuk menge-tahui persebaran risiko kematian balita di Indonesia dalam setiap provinsi berdasarkan presentase pemberian imu-nisasi dan vitamin pada balita. Perangkat lunak R digunakan dalam mendukung pengolahan data dalam penelitian ini.
Keyword: Hierarchical Clustering, Risiko Kematian Balita, Analisis Klustering.
1 Latar Belakang
Terdapat beberapa faktor dalam menen-tukan tingkat derajat kesehatan balita yaitu jumlah kematian balita, jumlah penderita penyakit dan status gizi balita. Tingkat dera-
jat kesehatan balita dapat digunakan sebagai dasar acuan bagi pemerintah untuk mengu-rangi angka kematian dan penderita penyakit, serta melakukan peningkatan status gizi balita (Sari 2013).
Tidak hanya tingkat derajat kesehatan saja yang digunakan sebagai acuan, namun risiko tingkat kematian bayi pada balita di setiap provinsi dapat digunakan sebagai dasar pemerintah dalam melaksanakan pro-gram kesehatan secara merata. Dengan mengetahui risiko kematian balita pemerin-tah dapat menentukan alokasi dana dan pro-gram kesehatan pada setiap provinsi secara merata dan adil.
Analisis Kluster adalah pengelompokan suatu set data, data dalam set data tersebut sebagai objek yang memiliki kemiripan karakteristik yang sama akan dikelompokkan dalam satu kelompok (Wikipedia 2015). Analisis kluster digunakan ketika set data yang digunakan tidak diketahui label kelas-nya (Prasetyo 2014).
Tujuan dari analisis kluster pada peneli-tian ini adalah untuk mengetahui persebaran risiko kematian balita di Indonesia dalam setiap provinsi berdasarkan presentase pem-berian imunisasi dan vitamin pada balita.
Dalam melakukan analisis kluster, peneliti menggunakan perangkat lunak R se-bagai aplikasi penunjang. R merupakan
perangkat lunak yang digunakan untuk melakukan perhitungan data, perhitungan simulasi, dan penayangan grafik. (Wiharto 2012)
2 Dasar Teori
Hierarchical Clustering Hierarchial Clustering menempatkan elemen masukan dalam bentuk struktur hierarki pohon dengan jarak dalam pohon merefleksikan kesamaan elemen. Elemen ditempatkan sebagai daun pada pohon. Elemen dengan kemiripan paling tinggi dihubungkan dengan cabang yang pendek, dengan demikian semakin panjang cabang yang menghubungkan elemen, maka semakin menurun tingkat kemiripan kedua elemen tersebut.
Keuntungan dari Hierarchial Clustering adalah sederhana dan hasilnya lebih mudah direalisasikan. Hierarchial Clustering merupakan teknik yang paling banyak digunakan untuk analisis data ekspresi gen. Hierarchial Clustering merupakan algoritma dengan pendekatan agglomerative dengan profile ekspresi tunggal digabungkan membentuk kelompok, yang akan terus digabungkan sehingga terbentuk satu pohon hierarki.
Proses Hierarchial Clustering adalah sebagai berikut :1. Hitung distance matrix untuk semua gen yang akan di-cluster.2. Temukan dua gen yang paling mirip dari distance matrix atau cluster; pada tahap awal, setiap cluster hanya terdiri dari satu gen. Apabila terdapat beberapa pasangan yang mempunyai jarak, aturan penentuan digunakan untuk pemilihan dari beberapa alternatif tersebut.
3. Gabungkan kedua cluster yang dipilih menjadi satu cluster baru, sehingga menjadi terdiri dari paling sedikit dua objek.4. Hitung jarak antara cluster yang baru dihasilkan terhadap semua cluster yang lain.Penghitungan semua jarak tidak dibutuhkan karena hanya yang terlibat dengan cluster baru yang berubah.5. Ulangi langkah 2-4 sehingga semua objek berada dalam satu cluster.
Software RR adalah software dan juga bahasa
pemrograman yang digunakan untuk menganalisa data (R Studio, 2014). Software R merupakan open source yang terbuka pengembangannya. Rstudio merupakan integrated development environment (IDE) yang memiliki tampilan user interface untuk memudahkan dalam pengelolaan data dengan R. Pengguna Rstudio dapat melakukan visualisasi data, analisis statistik, dan pemodelan prediktif.
Istilah yang terdapat Software R dalam memproses data, antara lain :
- Packages : Kumpulan fungsi algoritma yang terdapat pada software R yang dapat mempermudah pengolahan data. Pengolahan data dengan packages akan disesuaikan dengan fungsi algortimanya sehingga dapat mempermudah dan mereduksi waktu pengolahan.
- Dataset : Data yang diimport kedalam R dengan ekstensi .csv. Data yang diimport ini disebut dataset. Dataset yang akan diolah terdapat menjadi 2 yaitu trainingset dan testset.
3 Data
Data yang digunakan dalam penelitian ini didapatkan pada website penyedia data Indonesia yang dapat diakses pada alamat website http://data.go.id/dataset/basis-data-kesehatan-indonesia. Data yang digunakan merupakan database kesehatan pada setiap provinsi di Indonesia. Data tersebut digunakan sebagai parameter-parameter
dalam pengklasifikasian tingkat risiko kematian pada bayi.
Dari sekian data yang ada data yang digunakan hanya meliputi data-data yang berpengaruh pada risiko tingkat kematian pada bayi yaitu cakupan imunisasi yang diberikan pada bayi. Imunisasi berperan penting pada pertumbuhan bayi, dengan adanya imunisasi maka risiko untuk terserang penyakit mematikan pada bayi akan semakin rendah dimana hal tersebut akan berpengaruh besar pada risiko kematian pada bayi di Indonesia.
4 Metodologi
Pengumpulan DataTahap pengumpulan data ini mencari dan mengumpulkan data yang akan digunakan untuk diklusterisasi.Preprocessing DataTahap penyeleksian data sebelum diproses klusterisasi. Pada tahap ini data yang outlier, missing dan duplikasi dieliminasi.
Hierarchy ClusteringHierarchical clustering merupakan teknik clustering yang biasa ditampilkan dalam dendogram. Arah hierarchical clustering yang digunakan pada penelitian ini adalah Agglomerative yaitu dari Ncluster ke kclus-ter, dimana N adalah jumlah data dan k adalah jumlah cluster.
Pada penelitian ini digunakan beberapa teknik clustering hirarki agglomerative yaitu metode single linkage (jarak terkecil atau tetangga terdekat), complete linkage (jarak terjauh) dan average linkage (jarak rata-rata). Teknik clustering hirarki agglomerative bekerja dengan sederetan dari penggabungan yang berurutan atau sederetan dari pembagian yang berurutan dan berawal dari objek-objek individual. Jadi pada awalnya banyaknya cluster sama dengan banyaknya objek. Objek-objek yang paling mirip dikelompokkan, dan kelompok-kelompok awal ini digabungkan sesuai dengan kemiripannya.
Sewaktu kemiripan berkurang, semua subkelompok digabungkan menjadi satu cluster tunggal. Hasil-hasil dari clustering dapat disajikan secara grafik dalam bentuk dendrogram atau diagram pohon. Cabang-cabang dalam pohon menyajikan cluster dan bergabung pada node yang posisinya sepanjang sumbu jarak (similaritas) menyatakan tingkat di mana penggabungan terjadi. Dalam makalah ini diberikan juga langkah-langkah dalam algoritma clustering hirarki agglomerative untuk mengelompokkan N objek (item/variabel).
Input untuk algoritma metode linkage bisa berujud jarak atau similarities antara pasangan-pasangan dari objek-objek. Kelompok-kelompok dibentuk dari entities individu dengan menggabungkan jarak paling pendek atau similaritas (kemiripan) yang paling besar.
Pengumpulan Data
Preprocessing Data
Hierarchy Clustering
Analisa Hasil
Kesimpulan
5 Hasil dan Analisis
Berdasarkan clustering yang telah dilakukan menggunakan software R, dapat dikelompokkan provinsi mana sajakah yang tergolong provinsi yang memiliki risiko tingkat kematian pada bayi sangat rendah, rendah, tinggi dan sangat tinggi.
Berikut hasil pengelompokkan provinsi berdasarkan risiko tingkat kematian pada bayi:Sangat Rendah
Rendah TinggiSangat Tinggi
11 1 23 137 6 18 3314 3 26 3215 24 19 2710 8 29 212 9 31 2220 28 30
5 214 251617
Sangat Rendah
Rendah TinggiSangat Tinggi
Jawa Barat
AcehKalimantan Utara
DI Yogyakar
ta
LampungBengkul
u
Nusa Tenggara
TimurPapua
Jawa Timur
RiauSulawesi Selatan
Papua Barat
BantenSulawesi
UtaraKalimantan Barat
Sulawesi Tenggara
DKI Jakarta
Kepulauan
Bangka Belitung
Sulawesi Barat
Sumatra Utara
Jawa Tengah
Kepulauan Riau
Maluku Utara
Kalimantan Timur
Kalimantan
Tengah
Gorontalo
Maluku
Sumatra Selatan
Kalimantan
Selatan
JambiSulawesi Tengah
BaliNusa
Tenggara Barat
Setelah dilakukan clustering dengan menggunakan software R, dilakukan evaluasi performa terhadap hasil clustering yang diberikan dengan membandingkan antara clustering menggunakan R dengan data yang diolah secara manual dengan menggunakan excel. Data yang diolah secara manual hanya melakukan range data berdasarkan range yang telah ditentukan.
Range0 – 30 Sangat Rendah31 – 70 Cukup71 – 80 Tinggi91 – 100 Sangat Tinggi
Berdasarkan range tersebut data prosentase kesehatan yang ada diolah untuk mengetahui range masing-masing data.
Berdasarkan data tersebut dapat dilihat rata-rata kecenderungan provinsi mana saja yang memiliki risiko tingkat kematian pada bayi sangat rendah, rendah, tinggi maupun sangat tinggi.
Data tersebut memiliki tingkat kesesuain yang cukup akurat dengan clustering yang telah dilakukan dengan menggunakan software R.
6 Kesimpulan
Penggunaan metode Hierarchical Clustering pada penerapan klustering untuk memetakan risiko tingkat kematian pada bayi di setiap provinsi di Indonesia merupakan salah satu pilihan yang tepat karena dengan menggunakan metode tersebut dapat dilihat pengelompokkan provinsi yang memiliki risiko tingkat kematian pada bayi sangat rendah hingga sangat tinggi.
Dari hasil clustering yang dilakukan dapat disimpulkan bahwa di Indonesia sendiri masih banyak provinsi-provinsi yang memiliki risiko tingkat kematian pada bayi yang cukup tinggi akibat kurangnya pemberian imunisasi secara dini pada bayi yang dapat menyebabkan tingginya risiko terserang penyakit berbahaya.
Referensi
Prasetyo, E., 2014. DATA MINING Mengolah Data Menjadi Informasi Menggunakan Matlab A. Sahala, ed., ANDI.
John Quakenbush, “Computational Analysis of Microarray Data”, Nature Reviews, Genetic, Macmilan Magazines Ltd, Volume 2, Juni 2001.
Sari, E.A., 2013. PENERAPAN ALGORITMA K-MEANS UNTUK MENENTUKAN TINGKAT KESEHATAN BAYI DAN BALITA PADA KABUPATEN DAN KOTA DI JAWA TEN-GAH.
Shamir, Ron, “Analysis of Gene Expression Data”, Tel Aviv University, 2004, Lecture 1.
Wiharto, M., 2012. Analisis kluster menggunakan bahasa pemograman r untuk kajian ekologi. Bionature, 14(2013), pp.73–79.
Wikipedia, 2015. Cluster analysis. 14 May. Available at: http://en.wikipedia.org/wiki/Cluster_analysis [Accessed May 18, 2015].