analisis kelompok dengan algoritma fuzzy c … · kembali ke langkah 2, apabila perubahan nilai...

ANALISIS KELOMPOK DENGAN ALGORITMA FUZZY C-MEANS DAN GATH-GEVA CLUSTERING

Studi Kasus Pengelompokkan Desa/Kelurahan di Kabupaten Kutai Kartanegara

Oleh

Rudy Ramadani Syoer

NRP: 1310 201 704

Pembimbing : Dr. Muhammad Mashuri, MT

Program Studi Magister - Jurusan StatistikaFakultas Matematika dan Ilmu Pengetahuan Alam

Institut Teknologi Sepuluh NopemberSurabaya, 19 Desember 2011

OUTLINE

PENDAHULUAN

TINJAUAN PUSTAKA DAN DASAR TEORI

METODE PENELITIAN

HASIL DAN PEMBAHASAN

KESIMPULAN DAN SARAN

DAFTAR PUSTAKA

Pendahuluan

Analisis pengelompokkan atau cluster analysis adalah salah satu teknik statistik multivariat untuk mengelompokkan observasi/ objek yang banyak digunakan dalam berbagai disiplin ilmu (Shihab, 2000) dan penelitian (Maxwell, Pryor and Smith, 2002), (Wang et all., 2005).

Fuzzy clustering melakukan pembobotan terhadap tingkat keanggotaan himpunan fuzzy-nya (Bezdek dan Dunn, 1975), termasuk teknik ini: Fuzzy C-means (Bezdek, 1981), Gustafson-Kessel (1979) dan Gath-Geva (1989) mampu mendeteksi cluster dalam bentuk yang berbeda-beda.

Penelitian: Kab.Kutai Kartanegara adalah salah satu kabupaten dgn APBD terbesar dan penghasil migas terbesar tetapi memiliki penduduk miskin tertinggi di Kaltim (Kaltim Dalam Angka 2010).

3

Seminar Tesis

Pendahuluan

Rumusan Masalah

Perbandingan algoritma FCM dan GG clustering

Penentuan jumlah clusteryang tepat berdasarkan indeks validitas cluster

Rancangan aplikasi GUI

Tujuan Penelitian

Mengkaji perbandingan hasil pengelompokkkan dengan algoritma FCM dan GG clustering

Merekomendasikan jumlah cluster yang tepat berdasarkan indeks validitas cluster sehingga dapat mengelompokkkan wilayah desa/kelurahan di Kab. Kutai Kartanegara

Membangun aplikasi GUI untuk FCM dan GG

4

Seminar Tesis

Data:X=kumpulan vektor pengamatan

dimana: N=Jumlah objek penelitiann=Jumlah variabel penelitian

Cluster: sekelompok objek yang lebih “mirip” satu sama lain daripada anggota cluster lainnya → kemiripan merupakan fundamen dalam definisi cluster → penetapan “ukuran kemiripan” berupa norma jarak antara dua pola yaitu bentuk vektor data dengan objek cluster → belum

diketahui, dicari dengan algoritma cluster

Matlab → defaultnya Euclidean (bentuk spherical), bentuk lain dengan norma jarak : Mahalanobis → non spherical (hyperellipsoidal)

Partisi Cluster:

Hard Partition (Partisi Keras): didefinisikan sebagai keluarga himpunan bagian, yang sifat-sifatnya sebagai berikut: Nilai derajat keanggotaan, uik, adalah 0 atau 1, data secara tegas dinyatakan sebagai anggota cluster yang satu dan tidak menjadi anggota cluster lainnya.

Fuzzy Partition (Partisi Lunak): masing-masing data item diberikan nilai kemungkinan untuk bisa bergabung ke setiap cluster yang ada, yang memungkinkan uik mencapai nilai riil [0,1].

KAJIAN PUSTAKA

11 12 1

21 22 2

1 2

n

n

N N Nn

x x x

x x x

x x x

X =

2 2

1 1

,c c

ik k i k i k i

i i

x v x v x vD D

0,1 , 1 , 1 ,ik i c k N u

1 1

0,1, 1, 1 , 0 1, 1 , 2 ,c N

ik ik ik

i k

k N N i c c N

u u u

5

Seminar Tesis

FCM clustering:

Didasarkan pada konsep fuzzy (Zadeh, 1965)

diusulkan oleh Dunn (1974) dan dikembangkan oleh Bezdek (1981)

mengalokasikan kembali data ke dalam masing-masing cluster dengan cara fuzzy

memperkenalkan suatu variabel m yang merupakan weighting exponent dari membership function

KAJIAN PUSTAKA6

Seminar Tesis

KAJIAN PUSTAKA : Algoritma FCM clustering

1. Menentukan inisial jumlah cluster, misalkan c.

2. Inisiasi U awal secara random dan menghitung centroid :

3. Menghitung distance measure .

4. Menghitung nilai fungsi keanggotaan data di masing-masing cluster dan hitung centroid baru:

5. Kembali ke langkah 2, apabila perubahan nilai fungsi keanggotaan data masih di atas nilai threshold (ε ), atau perubahan nilai fungsi objektif masih di atas nilai threshold yang ditentukan (ε ). Nilai threshold adalah suatu nilai yang sangat kecil mendekati 0 (misal 0,000001).

7

Seminar Tesis

GG clustering :

Pertama kali diusulkan oleh Bezdek dan Dunn (1975), kemudian Gath dan Geva (1989) meneliti lebih lanjut bahwa algoritma ini mampu mendeteksi cluster dari berbagai bentuk, ukuran dan kepadatan

Algoritma fuzzy clustering ini menggunakan norma jarak fuzzy maximum likelihood estimates (FMLE). Berbeda dengan algoritma Gustafson-Kessel(GK), norma jarak ini melibatkan aspek eksponensial

menurunkan lebih cepat norma dalam produk, sehingga partisi menjadi lebih fuzzy

KAJIAN PUSTAKA8

Seminar Tesis

1. Menentukan inisial jumlah cluster, misalkan c.

2. Inisiasi U awal secara random dan menghitung centroid :

3. Menghitung distance measure .

4. Menghitung nilai fungsi keanggotaan data di masing-masing cluster dan hitung centroid baru:

5. Kembali ke langkah 2, apabila perubahan nilai fungsi keanggotaan data masih di atas nilai threshold (ε ), atau perubahan nilai fungsi objektif masih di atas nilai threshold yang ditentukan (ε ). Nilai threshold adalah suatu nilai yang sangat kecil mendekati 0 (misal 0,000001).

( /2)

2 1(2 ) det

exp 1/ 2Twi

ik k i wi k i

i

FF

x v x vD

KAJIAN PUSTAKA : Algoritma GG clustering

9

Seminar Tesis

Indeks Validitas Cluster :

Kriteria untuk menentukan jumlah cluster yang optimal dapat menggunakan indeks validitas cluster (Abonyi dan Feil, 2007)

Bezdek (1974) menyarankan dua indeks validitas cluster untuk fuzzyclustering, yaitu partition coefficient (PC) dan classification entropy (CE) yang didefinisikan sebagai berikut:

Partition Index (PI): untuk membandingkan hasil pengelompokkan di mana setiap kelompok memiliki banyak objek yang sama. Kelompok yang optimum diberikan oleh nilai PI yang minimum, sebagai berikut:

2

1 1

1( )

c N

ik

i k

PC c uN

1 1

1( ) log

c N

ik ik

i k

CE c u uN

2

1

21

1

,

( )

,

Nm

ik ik k ick

ci

i i j

i

u

PI c

N

x v

v v

D

KAJIAN PUSTAKA10

Seminar Tesis

KAJIAN PUSTAKA

Berbeda dengan partition index, separation index (SI) menggunakan minimum jarak antar pusat cluster. Kriteria yang diberikan adalah sama, yaitu banyaknya kelompok yang optimum diberikan oleh nilai SI yang minimum, sebagai berikut:

Xie and Beni (1991). Indeks ini bertujuan mengukur rasio dari total variasi dalam cluster dan pemisahan cluster. Jumlah optimal dari cluster dengan meminimalkan nilai indeks. Formulanya mirip dengan separation index, hanya saja nilai m dapat berubah-ubah. Indeks ini direkomendasikan oleh Duo, dkk (2007) karena dianggap memiliki ketepatan dan keandalan yang cukup tinggi pada metode hard maupun fuzzy partition.

Indeks Dunn (DI). Indeks ini, asalnya diusulkan untuk mengidentifikasi kekompakan dan pemisahan cluster, sehingga hasil dari cluster dapat dihitung kembali sebagai algoritma partisi keras. Formulanya adalah sebagai berikut:

2 2

1 1

2

,

1

,

( )

min ,

c N

ik ik k i

i k

c

i k k i

i

u

SI c

N

x v

v v

D

2

1 1

2

,

,

( )min ,

c Nm

ik ik k i

i k

i k k i

u

XB cN

x v

v v

D

,

,

,

min ( , )( ) min min

max max ( , )

i jx C y C

i c j c i j

k c x y C

d x yDI c

d x y

11

Seminar Tesis

Analisis Faktor

Analisis faktor merupakan salah satu teknik statistik untuk menyederhanakan deskripsi dari suatu set data (variabel) yang banyak dan saling berkorelasi menjadi set data yang ringkas dan tidak lagi berkorelasi.

Analisis ini berguna untuk meneliti keterkaitan peubah-peubah dalam satu set data. Analisis faktor pada dasarnya bertujuan untuk mendapatkan sejumlah kecil faktor (Johnson and Wichern, 2007), notasi dalam matriks ditulis sbb:

Menurut Kaiser dalam Morrison (1978), syarat untuk dapat melakukan analisis faktor adalah data dari peubah-peubah yang dianalisis harus memiliki nilai statistik Kaiser-Meyer-Olkin (KMO) minimal sebesar 0,5.

Seringkali variabel memiliki nilai yang hampir sama dan nampak tidak mempunyai korelasi dengan faktor manapun, sehingga dilakukan suatu rotasi sampai struktur yang lebih sederhana diperoleh, dengan cara merotasi matriks loading yaitu antara lain dengan: rotasi orthogonal varimax yaitu rotasi yang menyederhanakan kolom dalam matriks faktor.

KAJIAN PUSTAKA

( x ) ( x1) ( x1)( x1) p m m pp

X L F

12

Seminar Tesis

Fuzzy Toolbox dan Aplikasi GUI

Perangkat lunak Matlab dapat digunakan sebagai alat bantu untuk pembuatan program aplikasi berupa toolbox dan semacamnya menggunakan bantuan Mathworks toolbox.

Perangkat lunak Matlab juga mendukung Graphical User Interface (GUI) dengan modul yang dimilikinya yaitu GUI Builer atau GUIDE.

Berdasarkan Matworks Toolbox yang dapat diundah secara gratis pada laman Matlab yang lebih dikenal sebagai MATLAB CENTRAL yang merupakan situs resmi dari The MathWorks Inc., produsen pembuat software Matlab, menyediakan berbagai toolbox yang berkaitan dengan metode clustering dan dapat dipergunakan untuk analisis penglompokkan menggunakan bermacam-macam algoritma yang berbeda-beda seperi K-means, K-medoid, Fuzzy C-means (FCM), Gustafson-Kessel (GK), dan Gath-Geva (GG) termasuk pula cluster validity-nya.

Penggunaan algoritma FCM dan GG dalam tulisan ini, didasarkan pada Clustering and Data Analysis Toolbox yang diterbitkan oleh Janos Abonyi dkk. pada April 2005 (Abonyi, J., Feil, B., dan Balasko, B., 2005).

KAJIAN PUSTAKA13

Seminar Tesis

Metode Penelitian14

Seminar Tesis

Skrip Matlab (Pure Script):

Menjalankan skrip Matlab secara langsung. Cara ini terdiri dari beberapa kumpulan m-files sebagai berikut: FCMcall.m, FCMclust.m, Data_normalize.m, Clusteval.m, Validity.m, GGcall.m, GGclust.m, dan Grouping.m, untuk mengelompokkan matriks U sehingga dapat digunakan untuk mencari besaran rasio SW/SB. Perintah untuk menjalankan programnya yaitu dengan menginputkan parameter berikut ke dalam syntax program FCMcall (untuk pengolahan menggunakan FCM) atau GGcall (untuk pengolahan menggunkanan GG). Misalnya jika ingin mengelompokkan objek menjadi 5 cluster, maka pada baris program dapat diinputkan data beserta parameter sebagai berikut:

Aplikasi GUI menggunakan GUIDE Matlab:

ada perbedaan sedikit dalam pembuatan m-files maupun modifikasinya untuk pogram aplikasi GUI karena menggunakan interface yang berbeda yaitu dengan menggunakan file figure.

KAJIAN PUSTAKA15

Seminar Tesis

Identifikasi Variabel menurut Kriteria BPS

Badan Pusat Statistik (BPS) dari tahun 1976 telah melakukan penghitungan jumlah dan persentase penduduk miskin.

BPS melakukan penghitungan desa tertinggal sebagai proksi identifikasi daerah kantong-kantong kemiskinan. Untuk itu, pada tahun 2003, BPS melakukan penentuan desa-desa tertinggal.

Untuk membangun suatu model desa tertinggal diperlukan data PODES, berdasarkan faktor penentu ketertinggalan. Faktor tersebut selanjutnya dijabarkan berdasarkan variabel-variabel yang ada dalam data PODES, yang diidentifikasi mencakup 45 variabel. Pemilihan dilandasi bahwa secara substantif variabel tersebut merupakan karakteristik dan determinan kemiskinan suatu wilayah (Mubyarto dkk (1999), Irawan, (2003), dan Word Bank Institute (2002)).

Tidak semua data bisa diolah, karena jenis datanya bersifat kategorik . Contoh : variabel klasifikasi desa (data kategorik) dan variabel persen keluarga tinggal di lahan kritis (data ini tidak tersedia dalam PODES 2008). Sehingga akhirnya, ditetapkan variabel penelitian sebanyak 21 buah.

KAJIAN PUSTAKA16

Seminar Tesis

Metode Penelitian

Jenis dan Sumber Data:

Data yang digunakan dalam penelitian ini adalah data hasil pendataan Potensi Desa (PODES) di Kabupaten Kutai Kartanegara tahun 2008. Perapihan data dilakukan dengan menggunakan software Statistical Package for Social Science (SPSS) 17 for windows dan algoritma clusteringdibuat menggunakan software Matlab versi 7.8 (2009b).

Variabel Penelitian:

Pengelompokkan desa berdasarkan kondisi desa yang diharapkan mampu menerangkan keragaman antar desa semaksimal mungkin, dapat diidentifikasi menjadi dua faktor yaitu : 1) faktor sarana prasarana dan akses, dan 2) faktor sosial ekonomi penduduk. Kedua faktor tersebut selanjutnya dijabarkan berdasarkan variabel-variabel yang ada dalam PODES 2008 dan dipilih berdasarkan pada penelitian BPS yang menyatakan secara substantif karakteristik dan determinan ketertinggalan atau kemiskinan suatu wilayah (BPS, 2005).

17

Seminar Tesis

Metode Penelitian

Setelah diidentifikasi dan dievaluasi menjadi sebanyak 21 variabel, sebagai berikut:

X1 = Jarak dari desa ke ibukota kecamatan yang membawahi.

X2 = Ketersediaan sarana pendidikan (Jumlah SD Negeri/sederajat).

X3 = Ketersediaan sarana kesehatan (Jumlah Posyandu).

X4 = Ketersediaan tenaga kesehatan (Jumlah Bidan).

X5 = Persen keluarga berlangganan telepon kabel.

X6 = Industri kecil dan kerajinan rumahtangga (Industri kayu).

X7 = Pasar tanpa bangunan.

X8 = Jumlah Mini market.

X9 = Restoran/rumah makan.

X10 = Jumlah Toko/warung kelontong.

X11 = Penginapan/motel/losmen.

X12 = Jumlah Koperasi.

X13 = Kualitas bangunan rumah permanen.

X14 = Persen keluarga pertanian.

X15 = Persen keluarga pengguna listrik (PLN).

X16 = Persen keluarga yang bertempat tinggal di bantaran/tepi sungai.

X17 = Persen keluarga yang bertempat tinggal di bawah jaringan Listrik tegangan tinggi (>500 KV).

X18 = Persen keluarga tinggal di pemukiman kumuh.

X19 = Persen penderita gizi buruk dalam 3 tahun terakhir.

X20= Persen keluarga yang menerima kartu ASKESKIN dalam setahun Terakhir

X21 = Jumlah tempat ibadah.

18

Seminar Tesis

Metode Penelitian

Tahapan Analisis Data:

Mengkaji Hasil Pengelompokkan

a. Perapihan data (standarisasi dan faktorisasi)

b. Menyajikan data dalam matriks ukuran N x n

c. Inputing data dan parameter

d. Penerapan algoritma FCM clustering

e. Ulangi langkah d untuk algoritma GG clustering

Merekomendasikan Jumlah Cluster Optimal

a. Menghitung nilai indeks validitas

b. Ulangi untuk c=3 sampai cmax

c. Rekomendasi jumlah kelompok optimum berdasarkan langkah a dan b

Membangun Aplikasi GUI

a. Perancangan antarmuka untuk aplikasi FCM dan GG

b. Membuat m-files dan file figure aplikasi GUI

c. Inputing data dan parameter dari Aplikasi GUI

19

Seminar Tesis

NAMA APLIKASI : FCM DAN GG CLUSTERING

PANEL INPUT:panggil data, jumlah

cluster, Fuzzifier, batas toleransi,

maksimum iterasi

DATA YANG DIGUNAKAN

GRAFIK PENGELOMPOKKAN

FCM

HASIL PENGELOMPOK

KAN FCM

MATRIKS DERAJAT

KEANGGOTAAN FCM

GRAFIK PENGELOMPOKKAN

GG

PANEL METODE:

- FCM-Gath-Geva

MATRIKS DERAJAT

KEANGGOTAAN GG

HASIL PENGELOMPOK

KAN GG

GRAFIK FUNGSI OBJEKTIF GG

GRAFIK FUNGSI OBJEKTIF FCM

PANEL OUTPUT1: Ukuran Hasil Kelompok

PANEL OUTPUT2: indeks validitas cluster

TombolKeluar

20

Seminar Tesis

21

Seminar Tesis

Hasil dan Pembahasan

• melalui bantuan GUI builder (GUIDE) yang ada dalam perangkat lunak Matlab, dapat dihasilkan program aplikasi sebagai berikut:

22

Seminar Tesis

Fuzzy\FINAL\Aplikasi GUI\AplikasiFCMdanGG.m


Cara kerja Aplikasi:

• Setelah masuk ke Matlab, buka m-files “AplikasiFCMdanGG.m” lalu jalankan program aplikasi dengan cara menekan tombol F5 atau tombol dari Editor Toolbar Matlab.

• Setelah muncul aplikasi, lalu tekan tombol berikut. Maka program akan meminta memasukkan file untuk data yang berekstensi txt (*.txt). Setelah memasukkan data, maka tabel “data” otomatis akan berisi file txt tersebut.

23

Seminar Tesis


• Selanjutnya isikan jumlah kelompok, derajat keanggotaan, batas toleransi dan jumlah iterasi maksimal yang diinginkan, jika tidak diisi, maka secara default akan berisi nilai 2, 2, 0.000001 dan 1000 sebagai berikut:

• Kemudian tekan tombol popupmenuMetode Clustering untuk memilih metode apa yang akan digunakan, misalnya dipilih metode Gath-Geva sebagai berikut:

24

Seminar Tesis


• Lalu terakhir, tekan tombol start berikut , maka tampilan program aplikasi akan berbentuk sebagai berikut:

25

Seminar Tesis


• Deskripsi dan reduksi variabel • Interpretasi dan Reduksi Variabel dengan Analisis Faktor:

Tabel 4.2 Total Varians yang Dapat Dijelaskan

• Penentuan Factor Score:

Komponen

Inisial Eigenvalues

TotalPersentase

Varians

Persentase

Kumulatif

1 5,557 30,872 30,872

2 1,692 9,403 40,275

3 1,317 7,314 47,589

4 1,199 6,658 54,247

5 1,021 5,672 59,919

VariabelKomponen

1 2 3 4 5

X1 -0,046 -0,060 -0,158 -0,745 -0,015

X2 0,742 0,055 0,287 0,180 0,191

X3 0,651 0,332 0,234 0,367 0,122

X4 0,357 0,555 0,405 0,184 0,133

X5 0,040 0,738 0,216 0,124 -0,023

X6 0,421 0,135 0,100 -0,100 0,414

X7 0,645 0,361 -0,138 0,026 -0,060

X8 0,164 0,317 0,769 0,054 0,031

X9 0,078 0,118 0,737 0,133 -0,054

X10 0,470 0,340 0,508 0,101 0,311

X11 -0,012 0,558 0,367 -0,039 0,085

X12 0,300 0,308 -0,267 0,134 0,528

X13 0,413 0,676 -0,024 0,153 -0,036

X14 0,038 -0,512 -0,250 -0,344 -0,317

X15 0,081 0,173 0,031 0,704 0,363

X16 -0,209 -0,108 0,018 -0,559 0,376

X20 -0,016 0,046 -0,055 -0,056 -0,653

X21 0,829 -0,125 0,101 0,030 -0,002

26

Seminar Tesis

Tabel 4.3 Komponen Matriks Hasil Rotasi


• Rekomendasi Metode Clustering Terbaik

FCM GG

Jumlah

Kelompok

Jumlah

Iterasi

Fungsi

Objektif

Waktu

Komputasi

(detik)

Rasio

SW/SB

2 56 5,75 0,1760 0,5695

3 49 4,92 0,2233 0,6100

4 122 4,61 0,1971 0,4706

5 62 4,19 0,2095 0,4015

6 104 4,07 0,2506 0,3818

7 223 3,86 0,2592 0,3639

8 182 3,69 0,2446 0,3518

9 561 3,61 0,3900 0,3342

10 171 3,44 0,2850 0,3027

11 219 3,47 0,3078 0,3068

12 98 3,23 0,2678 0,2389

Jumlah

Kelompok

Jumlah

Iterasi

Fungsi

Objektif

Waktu

Komputasi

(detik)

Rasio

SW/SB

2 75 1928,50 0,7423 0,6658

3 111 2229,50 0,8045 0,6279

4 155 2624,00 0,3845 0,3610

5 356 2402,50 0,3936 0,4196

6 96 2891,50 0,3513 0,4188

7 131 3274,80 0,4457 0,3837

8 129 3328,90 0,4758 0,4099

9 309 3425,60 1,0421 0,3154

10 107 3682,10 0,5484 0,2760

11 131 4100,20 0,6430 0,3161

12 94 3571,00 0,5914 0,2643

27

Seminar Tesis


• Rekomendasi Jumlah Cluster Optimal:• Jumlah kelompok optimal umumnya ditunjukkan oleh indeks validitas cluster saat

mencapai kondisi nilai minimum pertama di lembah pertama yang didapatkan (Pravitasari, 2008), (Munaf, 2011)

Tabel 4.6 Nilai Indeks Validitas Cluster dengan metode FCM

• Berdasarkan Tabel 4.6, terlihat bahwa dengan partition index (PI), nilai minimal pertama di lembah pertama sebesar 1,3526 berada pada jumlah cluster 5

Jumlah

KelompokCE PI SI

Indeks

XB

Indeks

Dunn

2 0,4365 5,0294 0,0222 24,4015 0,0128

3 0,6285 2,3298 0,0123 4,3572 0,0191

4 0,7833 1,6448 0,0122 6,3373 0,0095

5 0,8783 1,3526 0,0093 3,9847 0,0129

6 0,9697 1,3565 0,0085 10,2942 0,0121

7 1,0535 1,2337 0,0084 3,6102 0,0121

8 1,1211 1,2234 0,0098 3,5482 0,0042

9 1,1933 1,1133 0,0084 3,5516 0,0171

10 1,2138 1,0167 0,0079 3,5698 0,0183

11 1,3000 1,1138 0,0084 4,0797 0,0138

12 1,2657 0,8305 0,0067 2,7943 0,03520

1

2

3

4

5

6

2 3 4 5 6 7 8 9 10 11 12

Pa

rti

tio

n I

nd

ex

(P

I)

Jumlah Kelompok

28

Seminar Tesis


• Interpretasi Hasil Pengelompokkan

• Kelompok atau cluster 1 ditandai dengan warna hijau muda, kelompok 2 ditandai oleh warna coklat muda, kelompok 3 ditandai oleh warna merah, kelompok 4 ditandai oleh warna kuning, dan kelompok 5 ditandai dengan warna biru muda

• Dari peta wilayah desa tersebut terlihat, bahwa kelompok 1 terdiri dari ada 59 desa, kelompok 2 terdiri dari 61 desa, kelompok 3 terdiri dari 15 desa, kelompok 4 terdiri dari 56 desa dan kelompok 5 terdiri dari 36 buah desa

29

Seminar Tesis


• Interpretasi Hasil Pengelompokkan• Karakteristik kelompok dapat digambarkan melalui pusat kelompok dan rata-rata

kelompoknya

Tabel 4.8 Karakteristik Kelompok berdasarkan Pusat Kelompok

• Setelah dilakukan rankingberdasarkan pusat cluster, maka kelompok 3 dengan karakteristik factor score 1 dan 4 merupakan kelompok yang paling rendah ranking-nya, sedangkan kelompok 5 adalah yang paling tinggi. Susunan ranking kelompok berdasarkan pusat kelompok atau centroid-nya sbb:

VariabelPusat Kelompok

cluster 1 cluster 2 cluster 3 cluster 4 cluster 5

factor

score 10,3016 0,2070 0,2603 0,1454 0,5409

factor

score 40,7574 0,5376 0,2421 0,7981 0,7415

0.3016 0.7574 2

0.2070 0.5376 4

( ) 0.2603 0.2421 5

0.1454 0.7981 3

0.5409 0.7415 1

i

ranking

ranking

centroid ranking

ranking

ranking

v

30

Seminar Tesis


• Interpretasi Hasil PengelompokkanBerdasarkan ranking kelompok tersebut, maka dapat diinterpretasikan karakteristik dari tiap-tiap kelompok-kelompok yang ada, yang diurutkan menurut ranking-nya sebagai berikut:

Kelompok 5 : Kelompok ini terdiri dari desa-desa yang paling maju ditinjau dari faktor sarana prasana desa dan faktor sosial ekonomi penduduknya termasuk akses di desa. Umumnya desa-desa yang ada dalam kelompok ini merupakan kategori daerah perkotaan. Kelompok ini memiliki nilai maksimum pada variabel X2, X3, X7, X21, X1, X15, dan X16. Artinya, kelompok ini terdiri dari desa-desa yang paling maju dibanding 4 kelompok desa lainnya.

Kelompok 1 : Kelompok ini terdiri dari desa-desa yang cukup maju ditinjau dari faktor sarana prasana serta akses desa, termasuk faktor sosial ekonomi penduduknya. Kemajuan desa-desa yang ada dalam kelompok ini hampir menyamai kelompok 5, tetapi masih lebih rendah jika dibandingkan kelompok tersebut.

Kelompok 4 : adalah kelompok desa-desa yang sedang majunya, tetapi secara keseluruhan nilai faktornya masih di atas kelompok 2 dan 3.

Kelompok 2 : adalah kelompok desa-desa yang kurang maju, ditinjau dari aspek sarana prasana desa, serta akses di desa tersebut, termasuk keadaan sosial ekonomi penduduknya yang dicerminkan oleh rendahnya keluarga yang berlangganan listrik PLN dan tingginya persentase penduduk yang tinggal di bantaran sungai.

Kelompok 3 : Kelompok ini terdiri dari desa-desa yang yang memiliki ciri-ciri daerah yang paling tertinggal dibanding kelompok lainnya. Desa-desa dalam kelompok ini memiliki nilai minimum pada semua variabel. Artinya, kelompok ini terdiri dari desa-desa yang paling tidak maju dibanding 4 kelompok desa lainnya.

31

Seminar Tesis


KESIMPULAN DAN SARANKesimpulan:

• Berdasarkan beberapa kriteria hasil pengelompokkan dari dua algoritma metode clustering, yaitu FCM dan GG, merekomendasikan analisis kelompok menggunakan algoritma FCM clustering dalam penelitian ini.

• Kesimpulan ini diambil, karena FCM memiliki nilai yang lebih baik dibanding GG berdasarkan kriteria fungsi objektif, waktu komputasi dan rasio simpangan baku. Nilai fungsi objektif dari metode FCM jauh lebih kecil dibanding GG, begitu pula waktu komputasi FCM secara umum memerlukan waktu yang lebih singkat dibanding GG. Adapun berdasarkan nilai simpangan baku, walaupun secara rata-rata nilai FCM tidak terlalu jauh bedanya dibanding GG, tetapi FCM masih di bawah GG, hampir di seluruh pengamatan atau di semua jumlah kelompok.

• Untuk penentuan jumlah kelompok yang optimal, berdasarkan beberapa indeks validitas cluster yang ada, disimpulkan jumlah kelompok atau cluster yang paling optimal adalah sebesar 5 kelompok.

• Pembuatan aplikasi program FCM dan GG berbasis GUI cukup mendukung pengolahan data clustering, karena program ini telah dilengkapi dengan tampilan yang lebih praktis, efektif, atraktif dan user friendly, sehingga membantu penulis, dalam melakukan analisis cluster menggunakan algoritma FCM dan GG. Aplikasi GUI ini juga dapat membantu pengguna lain dalam melakukan penelitian yang sama dengan kasus berbeda, yang menggunakan data, jumlah kelompok, maupun parameter yang berbeda.

32

Seminar Tesis


KESIMPULAN DAN SARANSaran:

• Perbandingan metode clustering FCM dengan metode lainnya sudah banyak dilakukan oleh para peneliti, yang menunjukkan keunggulan metode ini dibandingkan dengan metode-metode clustering nonhierarki lainnya yang sudah ada yang juga mengusung penggunaan konsep fuzzy, contohnya algoritma gustafson-kessel, fuzzy c-sell, maupun Gath-Geva clustering. Sehingga penulis menyarankan untuk membandingkan metode ini dengan metode yang lebih baru lainnya, misalnya seperti membandingkan FCM dengan Ruspini’s Method ataupun dengan Relational Clustering (Miyamoto el al., 2008).

• Menggunakan data dengan lebih dari satu kasus, untuk membandingkan hasil pengelompokkannya. Sehingga baik metode, output maupun indeks validitasnya, dapat dibandingkan dengan kasus lain yang berbeda, untuk menguji apakah memang kriteria-kriteria tersebut lebih baik jika ada pembanding dalam kasus lainnya.

• Penggunakan beberapa indeks validitas cluster baru lainnya seperti Kim index dan indeks yang diusulkan oleh Rezaee (Rezaee, 2010). Sehingga diharapkan akan dapat lebih menangkap tingkat keeefektifan dan realibilitas dalam penentuan jumlah cluster secara optimal.

• Melibatkan aspek spasial dalam mengelompokkan objek wilayah, sehingga pengaruh spasial tersebut dapat diperhitungkan dalam analisis kelompok.

• Meng-compile aplikasi GUI ke dalam executable file sehingga dapat dijalankan langsung dari Windows Explorer atau common prompt tanpa bantuan perangkat lunak Matlab.

33

Seminar Tesis

DAFTAR PUSTAKA

Abonyi, J. dan Szeifert, F. (2003). ”Supervised Fuzzy Clustering for the Identification of FuzzzyClassifiers”, Journal Elsevier, Vol. 24, 2195-2207.

Badan Pusat Statistik Provinsi Kalimantan Timur. (2010). Kalimantan Timur Dalam Angka 2010.Badan Pusat Statistik, Kalimantan Timur.

Bezdek, J.C. (1981). Pattern Recognition with Fuzzy Objective Function Algorithms. PlenumPress, New York.

Bezdek, J.C. and Dunn, J.C. (1975). Optimal fuzzy partitions: A heuristic for estimating theparameters in a mixture of normal dustrubutions. IEEE Transactions on Computers, pages835-838.

Gath, I. and Geva, A.B. (1989). Unsupervised optimal fuzzy clustering. IEEE Transactions on PatternAnalysis and Machine Intelligence, 7:773-781.

Gustafson, D. and Kessel, W. (1979). Fuzzy clustering with a fuzzy covariance matrix, in: Proceedingsof the IEEE CDC, San Diego, CA, USA, pages 761-766.

Johnson, R.A. and Wichern, D.W. (2007). Applied Multivariate Statistical Analysis - Sixth Edition.New Jersey : Prentice Hall International Inc.

34

Seminar Tesis

Kim, D.W., Lee, K.H., Lee, D. (2003). Fuzzy cluster validation index based on inter-clusterproximity, Pattern Recognition Lett. 24 2561-2574.

Kusumadewi, Sri dan Hartati, Sri. (2010). Neuro Fuzzy, Integrasi Sistem Fuzzy dan Jaringan Syaraf.Yogyakarta : Graha Ilmu.

MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. InLeCam, L. and Neyman, J., editors, Proceedings of the Fifth Berkeley Symposium onMathematical statistics and probability, volume 1, pages 281-297, Berkeley. University ofCalifornia Press.

Maxwell, B.A., Pryor F.L., dan Smith C.. (2002). Cluster Analysis In Cross-Cultural Research”, International Journal of World Cultures 13(1): 22-38.

Pedrycz, W. (2007). Advances in Fuzzy Clustering and its Applications. Edited by J. Valente de Oliveira and John Wiley & Sons, Ltd. ISBN: 978-0-470-02760-8. University of Alberta, Canada Systems Research Institute of the Polish Academy of Sciences, Poland.

Pravitasari, A. A., (2008), ANALISIS PENGELOMPOKKAN DENGAN FUZZY C-MEANS CLUSTER (Kasus Pengelompokkan Kecamatan di Kabupaten Tuban berdasarkan Tingkat Partisipasi Pendidikan), Thesis, Jurusan Statistika, Fakultas MIPA, Institut Teknologi Sepuluh Nopember, Surabaya.

DAFTAR PUSTAKA

35

Seminar Tesis

Ravi, V., Srinivas, E.R. dan Kasabov. N.K.(2007). ”On-Line Evolving Fuzzy Clustering”, IEEE, International Conference on Computational Intelegence and Multimedia Application.347-351.

Rezaee, B. (2010). A Cluster Validity Index for Fuzzy Clustering. Jurnal Fuzzy Sets and Systems, Elsivier, Departement of Industrial Engineering, Bojnord University, Iran, hal. 3014-3025.

Santosa, Budi (2007). Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta : Graha Ilmu.

Santosa, Singgih (2010). Statistik Multivariat: Konsep dan Aplikasi dengan SPSS. Jakarta : PT Elex Media Komputindo.

Shihab, A. I. (2000). Fuzzy Clustering Algorithm and Their Applicaion to Medical Image Analysis, Dissertation, University of London, London.

Xie, X.L. and Beni, G. (1991). A validity measure for fuzzy clustering, IEEE Trans. Pattern Anal. Mach. Intell.

Zadeh, L. A. (1965), “Fuzzy Sets”. Information Control, vol 8, 338-353.

DAFTAR PUSTAKA

36

Seminar Tesis

TERIMA KASIH

37

Seminar Tesis

analisis kelompok dengan algoritma fuzzy c … · kembali ke langkah 2, apabila perubahan nilai...

Documents