on life expetancy modelling using case of study
TRANSCRIPT
Seminar Tesis 10 Juli 2015
ANALISIS KELOMPOK DENGAN METODE KERNEL K-MEANS
(STUDI KASUS PENGELOMPOKAN KABUPATEN/KOTA DI INDONESIA BERDASARKAN PENDUDUK DENGAN FAKTOR-FAKTOR RISIKO
PENYEBAB PENYAKIT HIPERTENSI)
Institut Teknologi Sepuluh Nopember
Oleh : SITI MAYSAROH – NRP. 1313 201 711
DOSEN PEMBIMBING Dr. SANTI WULAN PURNAMI, S.Si, M.Si
05/08/2015 1
Analisis dan Pembahasan
Kesimpulan dan Saran
05/08/2015 Seminar Tesis 2
Pendahuluan
Tinjauan Pustaka
Metodologi
Daftar Isi
1
2
3
5
4
Pendahuluan
05/08/2015 Seminar Tesis
Keberhasilan
Pembangunan
Perubahan ekonomi,
sosial, lingkungan Kesejahteraan
meningkat
Nutrisi, teknologi pelayanan
kesehatan meningkat
Kematian bayi turun, AHH
meningkat
Populasi meningkat
dan menua
Penyakit tidak menular
(PTM) meningkat,
penyakit infeksi turun
Tingkat faktor risiko
meningkat ; usia,
konsumsi makanan
beresiko, gaya hidup,
dll
Latar Belakang
3
Pendahuluan
05/08/2015 Seminar Tesis
Latar belakang
Hipertensi sebagai salah satu PTM merupakan masalah serius karena prevalensinya yang tinggi dan cenderung meningkat, juga karena tingkat keganasan penyakit yang diakibatkan sangat tinggi seperti penyakit jantung, stroke, gagal ginjal dan lain-lain, juga menimbulkan kecacatan permanen dan kematian mendadak. Kehadiran hipertensi pada kelompok dewasa muda, sangat membebani perekonomian keluarga, karena biaya pengobatan yang mahal dan membutuhkan waktu yang panjang, bahkan seumur hidup (Sugiharto, 2007)
4
Pendahuluan
05/08/2015 Seminar Tesis
Latar belakang
K-Means Clustering merupakan teknik dalam pengelompokan data yang sangat terkenal karena kecepatannya dalam mengklasterkan data. K-Means Clustering sebagai salah satu metode pengelompokan non hierarki cocok digunakan pada data berskala besar. Akan tetapi K-Means Clustering memiliki kelemahan didalam memproses data yang berdimensi banyak.
Salah satu metode yang dapat mengatasi kelemahan ini, adalah Kernel K-Means Clustering.
5
Pendahuluan
05/08/2015 Seminar Tesis
1. Bagaimana mengkaji konsep Kernel K-Means Clustering
2. Bagaimana mengelompokkan Kabupaten/kota di Indonesia berdasarkan penduduk dengan fakto risiko penyebab penyakit hipertensi menggunakan pendekatan kernel k means clustering
Rumusan Masalah
6
Pendahuluan
05/08/2015 Seminar Tesis
Tujuan Penelitian
Mengkaji konsep
Kernel K-Means
Clustering M
Mengelompokkan
Kabupaten/Kota
berdasarkan
penduduk dengan
faktor risiko
penyebab penyakit
hipertensi
1 2
7
Pendahuluan
05/08/2015 Seminar Tesis
Manfaat Penelitian
Memberi masukan
kepada pemerintah,
dalam hal ini terkait
program Pengendalian
Penyakit Jantung dan
Pembuluh Darah,
untuk melihat wilayah
dengan potensi
penyakit hipertensi
Menambah wawasan
keilmuan, khususnya
yang berhubungan
dengan metode analisis
statistik dalam
menganalisis
pengelompokan
(clustering)
1 2
8
Pendahuluan
05/08/2015 Seminar Tesis
Batasan Masalah
Masalah dalam penelitian ini dibatasi pada factor risiko yang dapat dikendalikan (controllable risk factor) yang mempengaruhi terjadinya penyakit hipertensi pada penduduk usia produkstif (15-64 tahun).
9
Kajian Pustaka
a. Analisis Cluster analisis statistic yang bertujuan untuk mengelompokkan observasi sedemikian hingga observasi yang berada dalam kelompok yang sama mempunyai sifat yang relative homogen daripada dalam kelompok yang berbeda (Kaufman, Rousseuw, dan Everitt dalam Hanifah, 2009).
05/08/2015 Seminar Tesis 10
Kajian Pustaka
Tujuan : Mengelompokkan objek-objek berdasarkan kesamaan/kemiripan karakteristik yang dimiliki atau dengan kata lain cluster-cluster yang terbentuk memiliki homogenitas internal yang tinggi dan heterogenitas eksternal yang tinggi.
05/08/2015 Seminar Tesis 11
Kajian Pustaka
Uku
ran
Kem
iripa
n Ukuran Jarak (distance norm)
Koefisien Asosiasi
Koefisien Korelasi
05/08/2015 Seminar Tesis 12
Kajian Pustaka
Ukuran Jarak : a. Jarak Euclidean b. Jarak Mahalanobis c. Jarak Minkowski d. Jarak City Block (Manhattan) e. Jarak Chebychev f. dll
05/08/2015 Seminar Tesis 13
Kajian Pustaka
Metode Pengelompokan
Hierarki
Agglomerative
Divisive
Non Hierarki
Metode Hierarki mengelompokkan objek secara terstruktur berdasarkan kemiripan dimana objek yang mempunyai jarak terdekat kemudian digabungkan menjadi satu kelompok, dimana jumlah kelompok belum diketahui.
05/08/2015 Seminar Tesis
Kajian Pustaka
Metode Non Hierarki digunakan jika banyaknya kelompok yang akan dibentuk sudah diketahui. Metode non hirarki lebih cepat, dan lebih menguntungkan jika jumlah objek atau observasinya lebih besar.
14
Kajian Pustaka
05/08/2015 Seminar Tesis
K-Means Clustering
Algoritma K-means lebih sering digunakan karena lebih sederhana dan cepat prosesnya
Ukuran kepadatan kelompok : Dengan ; adalah pusat kelompok, menunjukkan keanggotaan terhadap kelompok k.
2 2
1n k
N
n k kn n k
X C n
x xz
m m
1
n k
n
X Ck
xN
kmkm
knznX
15
Kajian Pustaka
Kernel K-Means Clustering
c. Kernel Gaussian
d. Kernel Exsponensial
05/08/2015 Seminar Tesis
Kernel K-means clustering adalah pengembangan dari algoritma K-
means yang menggunakan metode Kernel untuk memetakan data yang berdimensi tinggi pada space yang baru sehingga dapat dipisahkan secara linier
a. Kernel Linier b. Kernel Polynomial
( , ) T
i j i jK x x x x
Menurut Cristiani dkk (2004) dalam Murfi (2009), fungsi kernel ada 4 macam yaitu :
( , ) ( ) , 0T d
i j i jK r x x x x
2
2( , ) exp
2
i j
i jK
x xx x
( , ) tanh( )T
i j i jK r x x x x
16
Kajian Pustaka
Evaluasi Hasil Pengelompokan
Berdasarkan penelitian Liu dkk (2010) yang melakukan pengujian performansi terhadap 11 ukuran validitas, diperoleh ukuran validitas SD_Bw yang mampu mengatasi berbagai kendala dalam proses pengelompokan, maka dalam penelitian ini untuk membandingkan kedua metode digunakan ukuran validitas SD_Bw
05/08/2015 Seminar Tesis
Pendekatan yang umum dipakai untuk mengevaluasi kebaikan dari hasil pengelompokan dikenal dengan cluster validation (Maulik, et al, 2002). Cluster Validation terdiri dari External Clustering Validation dan Internal
Clustering Validation. Perbedaan antara kedua ukuran tersebut terletak pada ada tidaknya informasi tambahan yang digunakan untuk validasi kelompok (Liu, et al, 2010).
17
Kajian Pustaka
adalah semua faktor penyebab ditambah dengan faktor biologis yang berhubungan dengan penyakit. Faktor resiko merupakan faktor-faktor yang ada sebelum terjadinya penyakit (Bustan dalam Nababan, 2008)
05/08/2015 Seminar Tesis
Epidemiologi pada penyakit menular disebut etiologi, sedangkan pada penyakit tidak menular disebut sebagai faktor resiko.
b. Faktor Risiko Penyakit Hipertensi
18
Kajian Pustaka
Laframbise dan Lalonde (1970) mengembangkan konsep medan kesehatan yang merinci determinan kesehatan dalam faktor-faktor lingkungan, gaya hidup, biologi manusia, dan sistem organisasi pelayanan kesehatan. Konsep medan kesehatan dapat digunakan untuk menganalisis interaksi penyebab status kesehatan masyarakat, terutama untuk penyakit non infeksi dengan faktor risiko (penyebab) lebih dari satu dan efek yang juga lebih dari satu.
05/08/2015 Seminar Tesis 19
Kajian Pustaka
Gambar 2.1 Medan Kesehatan Laframbise dan Lalonde
05/08/2015 Seminar Tesis 20
Kajian Pustaka
• Hipertensi
05/08/2015 Seminar Tesis
Pengertian hipertensi menurut WHO adalah keadaan seseorang apabila mempunyai tekanan sistolik sama dengan atau lebih tinggi dari 160 mmHg dan tekanan diastolic sama dengan atau lebih tinggi dari 80 mmHg secara konsisten dalam beberapa waktu.
Faktor yang dapat memperbesar risiko atau kecenderungan seseorang menderita hipertensi, diantaranya ciri-ciri individu seperti umur, jenis kelamin dan suku, faktor genetik serta faktor lingkungan yang meliputi obesitas, stres, konsumsi garam, merokok, konsumsi alkohol, dan sebagainya (Kaplan, 1985).
21
Kajian Pustaka
Menurut Sugiharto (2007), faktor risiko penyakit hipertensi dibedakan atas : Faktor risiko yang tidak dapat diubah/dikendalikan, antara lain : umur, jenis kelamin, riwayat keluarga, genetik. Faktor risiko yang dapat diubah/dikendalikan, antara lain : kebiasaan merokok, konsumsi asin/garam, konsumsi lemak jenuh, penggunaan jelantah, kebiasaan mengkonsumsi minuman beralkohol, obesitas, aktivitas fisik, stress (faktor kejiwaan), penggunaan estrogen.
05/08/2015 Seminar Tesis 22
Metodologi Penelitian
Data Riskesdas 2013
05/08/2015 Seminar Tesis
Variabel
Sumber Data
23
X1 : Sering menderita sakit kepala X2 : Tidak nafsu makan X3 : Sulit tidur X4 : Suasana mudah takut X5 : Merasa tegang, cemas, khawatir X6 : Merasa tangan gemetar X7 : Penceranakan terganggu/buruk X8 : Sulit untuk berfikir jernih X9 : Merasa tidak bahagia X10 : Menangis lebih sering X11 : Merasa sulit menikmati kegiatan
sehari-hari X12 : Sulit untuk mengambil keputusan X13 : Pekerjaan sehari-hari terganggu X14 : Tidak mampu melakukan hal-hal yang
bermanfaat dalam hidup X15 : Kehilangan minat pada berbagai hal
X16 : Merasa tidak berharga X17 : Mempunyai pikiran untuk mengakhiri
hidup X18 : Merasa lelah sepanjang waktu X19 : Mengalami tidak enak di perut X20 : Mudal lelah X21 : Merokok X22 : Melakukan aktivitas berat X23 : Melakukan aktivitas sedang X24 : Konsumsi makanan asin X25 : Konsumsi makanan
berlemak/berkolesterol/gorengan X26 : Konsumsi kopi X27 : Konsumsi minuman berkafein buatan
bukan kopi X28 : Obesitas
Metodologi Penelitian
05/08/2015 Seminar Tesis
Kerangka Konsep
24
Sumber : Sugiharto (2007)
Metodologi Penelitian
05/08/2015 Seminar Tesis
Diagram Alur
25
K-Means Kernel K-Means
Hasil dan Pembahasan
Algoritma Kernel K-Means Dengan input adalah matriks kernel K, banyaknya kelompok k, dan inisial cluster Inisialisasi Menentukan banyaknya kelompok, ; kemudian menentukan pusat kelompok secara random . Pada tahap awal setiap observasi dimasukkan ke pusat kelompok terdekat. Tahap Representasi Menghitung kembali pusat kelompok dengan menggunakan persamaan
Tahap Alokasi Untuk i=1 sampai dengan n , hitung kembali jarak antara objek dengan pusat kelompok . Pada tahap ini pusat kelompok dianggap fixed. Hentikan proses jika sudah konvergen, dimana tidak terjadi perpindahan anggota kelompok. Jika proses belum
konvergen, ulangi tahap reprsentasi.
05/08/2015 Seminar Tesis 26
kC
2 K n km
1
1
,
,
N
kn n n
nk N
kn n
n
z K X X
m
z K X
k
k
m
m
km
Hasil dan Pembahasan
Kompleksitas Algoritma Kernel K-Means (KKM)
kompleksitas dari algoritma KKM untuk single iterasi adalah , yang berarti untuk menyelesaikan perhitungan dengan metode KKM diperlukan sebanyak langkah, dengan adalah banyaknya observasi, adalah banyaknya kelompok, dan adalah banyaknya variabel.
05/08/2015 Seminar Tesis 27
O nKp
nKp n
K p
Hasil dan Pembahasan
Studi Simulasi
Perbedaan plot data
Linier Sumber : Hasil Olah Data
Non Linier
05/08/2015 Seminar Tesis 28
Hasil dan Pembahasan
Perbedaan rata-rata nilai Clustering Error
Jenis Data Simulasi Metode KM Metode KKM
Linier (n=500) 1.27 0.71
Linier (n=1000) 1.35 0.70
Linier (n=3000) 1.36 0.73
Non Linier (n=500) 1.47 0.68
Non Linier (n=1000) 1.34 0.78
Non Linier (n=3000) 1.33 0.76
05/08/2015 Seminar Tesis 29
Hasil dan Pembahasan
Perbedaan Indeks Validitas Kelompok
05/08/2015 Seminar Tesis 30
Sumber : Hasil Olah Data
Hasil dan Pembahasan
Hasil Pengelompokan dengan Metode KKM untuk k=2
Kelompok
Jumlah
Anggota
(Kab/kota)
%
Kelompok 1 254 51.11
Kelompok 2 243 48.89
05/08/2015 Seminar Tesis 31
Grafik Rata-rata Persentase Penduduk dengan Faktor Risiko Penyebab Penyakit Hipertensi menurut Kelompok dengan k=2
0.00
10.00
20.00
30.00
40.00
50.00
60.00
70.00
80.00
90.00
X1 X3 X5 X7 X9 X11 X13 X15 X17 X19 X21 X23 X25 X27
Kelompok 1 Kelompok 2
Hasil dan Pembahasan
Hasil Pengelompokan dengan Metode KKM untuk k=3
05/08/2015 Seminar Tesis 32
Grafik Rata-rata Persentase Penduduk dengan Faktor Risiko Penyebab Penyakit Hipertensi menurut Kelompok dengan k=3
Kelompok Jumlah Anggota
(Kab/kota) %
Kelompok 1 148 29.78
Kelompok 2 112 22.54
Kelompok 3 237 47.69
Hasil dan Pembahasan
Pengelompokan kabupaten/kota di Indonesia menggunakan metode
KM dan KKM
Metode KM
Hasil pengelompokan dengan k=2 terhadap 497 kabupaten/kota di Indonesia, diperoleh dua kelompok dengan ukuran 319 dan 178.
Metode KKM
Hasil pengelompokan dengan k=2 diperoleh kelompok dengan ukuran 254 dan 243.
05/08/2015 Seminar Tesis 33
Hasil dan Pembahasan
Pengelompokan kabupaten/kota di Indonesia menggunakan metode
KM dan KKM
Metode KM
Hasil pengelompokan dengan k=3, diperoleh kelompok dengan ukuran 236, 136, dan 125.
Metode KKM
Hasil pengelompokan dengan k=3, diperoleh kelompok dengan ukuran 148, 112, dan 237.
05/08/2015 Seminar Tesis 34
Kesimpulan dan Saran
Kesimpulan
05/08/2015 Seminar Tesis 35
1. Perbedaan algoritma K-means dan Kernel K-Means terletak pada input (masukannya), dimana pada Kernel K-Means data dipetakan pada dimensi baru yang lebih tinggi menggunakan fungsi non-linier untuk selanjutnya dilakukan proses clustering.
2. Berdasarkan beberapa kriteria pengelompokan pada studi simulasi dari dua metode pengelompokan, yaitu kemiripan plot, nilai clustering error, dan indeks validitas kelompok dari metode K-Means dan Kernel K-Means, pengelompokan menggunakan metode Kernel K-Means lebih baik dibandingkan dengan metode K-Means.
3. Pengelompokan kabupaten/kota menggunakan metode Kernel K-Means dengan jumlah kelompok sebanyak 3 (tiga) lebih menggambarkan variasi dari anggota kelompok.
Kesimpulan dan Saran
Saran
05/08/2015 Seminar Tesis 36
1. Data simulasi yang digunakan sebaiknya lebih dari satu populasi untuk membandingkan hasil pengelompokkannya, sehingga baik metode ataupun index validitasnya dapat dibandingkan dengan kasus lainnya.
2. Dalam penelitian ini, fungsi kernel yang digunakan berdasarkan konsep jarak Euclidean, dimana jarak Euclidean dapat digunakan ketika variabel diasumsikan memiliki varians yang sama atau tidak terdapat covarians antar variabel. Sehingga untuk penelitian selanjutnya untuk data yang memiliki perbedaan skala pengukuran dan terdapat korelasi pada variabelnya dapat menggunakan konsep jarak Mahalanobis.
Daftar Pustaka
05/08/2015 Seminar Tesis 37
Daftar Pustaka
05/08/2015 Seminar Tesis 38
Daftar Pustaka
05/08/2015 Seminar Tesis 39