analisis cluster dan aplikasinya skripsi · menggunakan buku-buku, jurnal-jurnal, makalah-makalah...
TRANSCRIPT
ANALISIS CLUSTER DAN APLIKASINYA
SKRIPSI
Diajukan untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Sains
Program Studi Matematika
Oleh :
Yohanes Eka Adi Sunarso
NIM : 033114001
PROGRAM STUDI MATEMATIKA JURUSAN MATEMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2008
ii
CLUSTER ANALYSIS AND ITS APPLICATIONS
THESIS
Presented As a Partial Fulfillment of The Requirements
To Obtain The Sarjana Sains Degree
In Mathematics
By :
Yohanes Eka Adi Sunarso
Student Number : 033114001
MATHEMATICS STUDY PROGRAM
DEPARTEMENT OF MATHEMATICS
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2008
v
PERNYATAAN KEASLIAN KARYA
Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini
tidak memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan
dalam kutipan dan daftar pustaka, sebagaimana layaknya karya ilmiah.
Yogyakarta, November 2008
Penulis
vi
Ketika ketakutan datang menerpa, ku tahu ku lemah. Hampir terjatuh
& menyerah berjuang kembali, tetapi hal yang membuat ku kuat & te-
rus memperjuangkan apa yang ku impikan, yaitu janji Tuhan ku yang
benar-benar hidup, Dia berkata padaku ‘Aku mau memikul kamu dan
menyelamatkan kamu’ (Yes. 46:4), oleh janji inilah maka aku kuat
menjalani semua & terus berjuang tanpa menyerah.
Ia membuat segala sesuatu indah pada waktunya …
Pkh 3:11
Skripsi ini kupersembahkan kepada :
Bapak, ibu dan adik-adikku tercinta,
Keluarga besarku, dosen-dosenku & sahabatku terkasih.
vii
ABSTRAK
Analisis cluster adalah salah satu teknik analisis statistik yang digunakan
untuk meringkas data dengan cara mengelompokkan obyek-obyek berdasarkan
kesamaan karakteristik tertentu yang dimiliki masing-masing obyek. Kesamaan
karakteristik tersebut dinyatakan dalam ukuran jarak antar obyek. Pembentukan
kelompok-kelompok berdasarkan jarak, obyek yang mirip seharusnya berada da-
lam kelompok yang sama dan mempunyai jarak yang lebih kecil. Sebaliknya ob-
yek yang berbeda berada dalam kelompok yang berbeda dan mempunyai jarak
yang lebih besar.
Pada skripsi ini akan dibahas dua metode dalam analisis cluster, yaitu me-
tode hierarki dan metode nonhierarki. Metode hierarki dibagi menjadi dua kate-
gori yaitu agglomerative dan divisive. Metode nonhierarki yang akan dibahas pa-
da skripsi ini adalah metode K-means cluster.
viii
ABSTRACT
Cluster analysis is one of statistical analysis techniques to summarize data
set by grouping objects based on the same specific characteristics of the objects.
These characteristics similarity is represented by the distance between objects.
The determination of groups is based on the distance of the objects. The identical
objects should be placed in the same group and have shorter distance. Converse-
ly, the nonidentical objects should be placed in different groups and have longer
distance.
This thesis will discuss two methods of cluster analysis, those are hierar-
chical method and nonhierarchical method. Hierarchical method is divided into
two categories, which are agglomerative and divisive. The only nonhierarchical
method which is discussed in this thesis is K-means cluster method.
x
KATA PENGANTAR
Puji Tuhan penulis ucapkan atas selesainya skripsi ini. Skripsi ini merupa-
kan salah satu syarat yang harus ditempuh untuk memperoleh gelar Sarjana Sains
di Program Studi Matematika.
Dalam penyusunan skripsi ini penulis mendapat banyak bantuan yang be-
rupa dorongan, motivasi, bimbingan, sarana maupun materi. Oleh karena itu penu-
lis mengucapkan terima kasih kepada pihak yang telah memberikan bantuan ini,
antara lain :
1. Bapak Ir. Ig. Aris Dwiatmoko, M.Sc, selaku dosen pembimbing yang telah
meluangkan waktu, pikiran dan penuh kesabaran membimbing penulis da-
lam menyusun skripsi ini.
2. Ibu Lusia Krimiyati Budiasih S.Si, M.Si selaku Ketua Program Studi Ma-
tematika.
3. Ibu Ch. Enny Murwaningtyas S.Si, M.Si selaku Dosen Pembimbing Aka-
demik yang dengan sabar mendampingi penulis selama kuliah di USD.
4. Bapak dan Ibu Dosen Program Studi Matematika yang telah memberikan
ilmu yang berguna kepada penulis selama di bangku kuliah.
5. Bapak Tukijo dan Ibu Linda yang telah memberikan pelayanan admini-
strasi dalam urusan-urusan perkuliahan kepada penulis.
6. Perpustakaan USD yang telah memberikan fasilitas dan kemudahan serta
Staf karyawan Perpustakaan USD.
xi
7. Orang tuaku, Romo Y. Sari Jatmiko Pr, Pak Pras dan Mbak Tika yang tak
henti-hentinya memberi dukungan semangat dan doa sehingga penulis da-
pat menyelesaikan skripsi ini.
8. Teman-teman angkatan 2003, Koko, Ridwan, Kamto, Valent, Anin, Ang-
gi, Mery, Septi, Mekar dan Dewi yang telah bersama-sama menjalani ku-
liah di USD.
Penulis menyadari masih banyak kekurangan dan kelemahan dalam skripsi
ini. Oleh karena itu, penulis dengan lapang dada menerima kritik dan saran serta
masukan yang membangun dari pembaca agar skripsi ini menjadi lebih baik dan
dapat menambah pengetahuan.
Yogyakarta, Desember 2008
Penulis
xii
DAFTAR ISI
Halaman
HALAMAN JUDUL........................................................................... i
HALAMAN JUDUL (INGGRIS) ....................................................... ii
HALAMAN PERSETUJUAN PEMBIMBING.................................. iii
HALAMAN PENGESAHAN.............................................................. iv
PERNYATAAN KEASLIAN KARYA.............................................. v
HALAMAN PERSEMBAHAN.......................................................... vi
ABSTRAK........................................................................................... vii
ABSTRACT......................................................................................... viii
PERNYATAAN PUBLIKASI KARYA ILMIAH............................ ix
KATA PENGANTAR......................................................................... x
DAFTAR ISI........................................................................................ xii
DAFTAR TABEL................................................................................ xiv
DAFTAR GAMBAR........................................................................... xv
BAB I PENDAHULUAN
A. Latar Belakang......................................................................... 1
B. Rumusan Masalah.................................................................... 3
C. Pembatasan Masalah................................................................ 4
D. Tujuan Penulisan...................................................................... 4
E. Metode Penulisan..................................................................... 4
F. Manfaat Penulisan.................................................................... 5
G. Sistematika Penulisan............................................................... 5
xiii
BAB II LANDASAN TEORI
A. Skala Data................................................................................. 7
1. Data Kualitatif....................................................................... 7
2. Data Kuantitatif...................................................................... 8
B. Matriks Data Multivariat.......................................................... 9
C. Probabilitas Total dan Teorema Bayes .................................... 10
D. Penduga Kemungkinan Maksimum ......................................... 12
E. Fungsi Densitas Normal Univariat ........................................... 18
F. Fungsi Densitas Normal Multivariat......................................... 19
G. Analisis Diskriminan................................................................ 19
BAB III ANALISIS CLUSTER
A Konsep Jarak antar Obyek......................................................... 27
1. Ukuran Jarak untuk Data Kontinu........................................ 28
2. Ukuran Similaritas untuk Struktur Biner.............................. 32
B. Metode-metode dalam Analisis Cluster.................................. 38
1. Metode Hierarchical........................................................... 39
2. Metode Nonhierarchical..................................................... 51
BAB IV APLIKASI ANALISIS CLUSTER
A. Kasus I..................................................................................... 72
B. Kasus II................................................................................... 74
BAB V KESIMPULAN....................................................................... 80
DAFTAR PUSTAKA........................................................................... 82
LAMPIRAN......................................................................................... 83
xiv
DAFTAR TABEL
Halaman
Tabel 1.1.......................................................................................... 2
Tabel 3.1.......................................................................................... 33
Tabel 3.2.......................................................................................... 34
Tabel 3.3.......................................................................................... 35
Tabel 3.4.......................................................................................... 42
Tabel 3.5.......................................................................................... 49
Tabel 3.6.......................................................................................... 60
Tabel 3.7.......................................................................................... 63
Tabel 3.8.......................................................................................... 64
Tabel 3.9.......................................................................................... 66
Tabel 3.10........................................................................................ 67
Tabel 3.11........................................................................................ 68
Tabel 3.12. ....................................................................................... 68
Tabel 3.13......................................................................................... 69
Tabel 4.1........................................................................................... 74
Tabel 4.2…....................................................................................... 75
Tabel 4.3…........................................................................................ 76
xv
DAFTAR GAMBAR
Halaman
Gambar 2.1....................................................................................... 21
Gambar 3.1...................................................................................... 38
Gambar 3.2...................................................................................... 41
Gambar 3.3...................................................................................... 42
Gambar 3.4...................................................................................... 44
Gambar 3.5...................................................................................... 45
Gambar 3.6...................................................................................... 47
Gambar 3.7...................................................................................... 50
Gambar 3.8...................................................................................... 51
Gambar 3.9...................................................................................... 52
Gambar 3.10.................................................................................... 53
Gambar 3.11.................................................................................... 54
Gambar 3.12.................................................................................... 59
Gambar 3.13.................................................................................... 60
Gambar 3.14.................................................................................... 61
Gambar 3.15.................................................................................... 62
Gambar 3.16..................................................................................... 63
BAB I
PENDAHULUAN
A. Latar Belakang
Dalam kehidupan sehari-hari sering dijumpai pengelompokan suatu obyek,
baik berupa benda atau suatu hal. Misal di bidang Biologi, pengelompokan
makhluk hidup bisa berdasarkan pada beberapa hal, seperti menurut struktur
tubuhnya, cara berkembang biak, habitatnya, dan sebagainya. Sebagai contoh,
makhluk hidup dikelompokkan menjadi beberapa kelompok, yaitu mamalia, aves,
reptil dan pisces. Pengelompokan tersebut tentunya dapat dibuat karena masing-
masing makhluk hidup mempunyai karakteristik yang menjadi dasar dalam
pengelompokan. Umumnya nilai karakteristik merupakan suatu variabel yang
nilainya dapat berubah-ubah.
Sebagai contoh lain, seorang peneliti ingin mengetahui kebiasaan
masyarakat meminum teh. Oleh karena itu dibuat angket yang mengukur tentang
kelompok apa saja yang terbentuk dari masyarakat yang minum teh serta
karakateristik teh apa yang paling banyak diminati masyarakat. Karakteristik teh
yang diukur meliputi harga, rasa melati, kemasan dan warna. Skala pengukuran
angket menggunakan skala likert dengan skor 1-7, di mana :
1. Skor 1 pada variabel harga menunjukkan tidak mahal dan 7
menunjukkan sangat mahal.
2. Skor 1 pada variabel rasa melati artinya tidak suka terasa aroma melati
dan 7 sangat suka aroma melati.
2
3. Skor 1 pada variabel kemasan menunjukkan tidak penting dan 7 sangat
penting.
4. Skor 1 pada variabel warna menunjukkan cenderung warna kekuningan
dan 7 menunjukkan warna kemerahan.
Pada Tabel 1.1 disajikan beberapa sampel dari hasil pengumpulan angket
sebagai ilustrasi, tetapi pada kenyataannya membutuhkan sampel yang lebih
besar.
Obyek ke- Usia Harga Rasa
Melati Kemasan Warna
1 40 1 4 3 5 2 25 7 1 1 1 3 32 2 4 3 4 4 28 6 1 4 2 5 36 2 4 4 2 6 35 2 2 4 4 7 39 2 4 4 2 8 26 6 2 4 5 9 22 5 2 2 2 10 31 5 5 5 5
Tabel 1.1 Data Angket
Dari tabel tersebut dapat diketahui bahwa ada dua kelompok usia yang
mempunyai karakteristik berbeda, yaitu usia kurang dari 30 tahun dan lebih dari
30 tahun. Pada kelompok usia kurang dari 30 tahun cenderung mempunyai ciri
memilih harga teh mahal, kurang suka rasa melati, kurang memperhatikan
kemasan dan lebih suka teh warna kekuningan. Hal itu bisa dilihat sekilas karena
sampel berukuran kecil, pada kenyataannya, sering terdapat sampel yang
berukuran besar. Pada kasus sampel berukuran besar, peneliti belum tentu bisa
mengambil kesimpulan dengan pasti sesuai dengan data yang diperoleh.
3
Berdasarkan ilustrasi di atas diperlukan teknik untuk mengelompokkan
obyek-obyek ke dalam kelompok yang anggota-anggotanya adalah obyek-obyek
yang memiliki kemiripan karakteristik atau variabel yang diteliti secara bersama-
sama. Dalam ilmu statistika terdapat suatu cabang ilmu pengetahuan yaitu analisis
multivariat yang bertujuan untuk mengetahui hubungan lebih dari satu variabel
independen dengan satu atau lebih variabel dependen dan atau perbedaan lebih
dari dua sampel. Salah satu teknik analisis multivariat yang digunakan untuk
mengklasifikasikan obyek atau kasus ke dalam kelompok yang relatif homogen
adalah analisis cluster. Konsep dasar analisis cluster yaitu dapat mengelompokan
suatu obyek, maka diperlukan ukuran untuk mengukur seberapa mirip atau
berbeda masing-masing obyek tersebut. Ukuran tersebut dinyatakan dalam jarak
obyek satu ke jarak obyek lainnya yang akan digunakan dalam membentuk
kelompok dari sampel-sampel yang diketahui dengan bermacam-macam metode
dalam analisis cluster yang terbagi dalam dua macam, yaitu metode hierarki dan
nonhierarki.
B. Rumusan Masalah
Permasalahan yang akan dibahas dalam skripsi ini dapat dirumuskan
sebagai berikut :
1. Bagaimana landasan teori dari analisis cluster ?
2. Bagaimana sistematika analisis cluster dan metode-metodenya ?
3. Bagaimana aplikasi analisis cluster dalam analisis data ?
4
C. Pembatasan Masalah
Dalam skripsi ini, penulis membahas tentang analisis cluster dan
aplikasinya dalam analisis data. Penulisan skripsi ini dibatasi pada beberapa hal
karena sudah diperoleh dalam perkuliahan atau di luar jangkauan skripsi ini. Hal-
hal yang tidak dibahas adalah sebagai berikut :
1. Metode divisive, optimizing thereshold, sequential thereshold dan paralel
thereshold tidak dibahas karena jarang berkembang.
2. Profil cluster tidak dibahas karena telah dibahas di skripsi yang lain.
3. Dasar-dasar teori analisis diskiminan tidak dibahas karena telah dibahas
di skripsi lain.
D. Tujuan Penulisan
Tujuan penulisan skripsi ini adalah :
1. Mempelajari landasan matematis analisis cluster.
2. Memahami penerapan analisis cluster.
E. Metode Penulisan
Penulisan skripsi ini menggunakan metode studi pustaka, yaitu dengan
menggunakan buku-buku, jurnal-jurnal, makalah-makalah yang telah
dipublikasikan dan dengan bantuan perangkat lunak komputer, yaitu Matlab 7.0.1
dan SPSS 13.
5
F. Manfaat Penulisan
Manfaat yang diharapkan dari penulisan skipsi ini adalah :
1. Mengetahui landasan teori analisis cluster.
2. Mengetahui sistematika dan metode-metode yang digunakan dalam
menganalisa data dengan analisis cluster.
G. Sistematika Penulisan
BAB I : PENDAHULUAN
Bab ini berisi gambaran umum tentang isi skripsi ini yang
meliputi latar belakang masalah, perumusan masalah,
pembatasan masalah, tujuan penulisan, manfaat penulisan,
metode penulisan dan sistematika penulisan.
BAB II : LANDASAN TEORI
Bab ini berisi beberapa teori yang melandasi pembahasan bab
selanjutnya, yaitu skala data, matriks data multivariat,
probabilitas total dan teorema Bayes, penduga Kemungkinan
Maksimum (Maximum Likelihood), fungsi densitas normal
univariat, fungsi densitas normal multivariat dan analisis
diskriminan.
6
BAB III : ANALISIS CLUSTER
Bab ini berisi tentang konsep proksimitas antar obyek,
metode-metode analisis cluster yaitu metode hierarki dan
nonhierarki serta contoh-contohnya.
BAB IV : APLIKASI ANALISIS CLUSTER DALAM ANALISIS
DATA
Bab ini berisi tentang kasus dalam menganalisa data yang
akan diselesaikan menggunakan analisis cluster dengan SPSS
13.
BAB V : KESIMPULAN
Bab ini berisi kesimpulan dari keseluruhan materi yang telah
diuraikan.
BAB II
LANDASAN TEORI
Dalam bab ini akan dibahas tentang dasar-dasar teori yang akan digunakan
dalam Bab III. Dasar-dasar teori yang dipergunakan adalah skala data, matriks
data multivariat, probabilitas total dan teorema Bayes, penduga Kemungkinan
Maksimum (Maksimum Likelihood), fungsi densitas normal univariat, fungsi
densitas normal multivariat dan analisis diskriminan.
A. Skala Data
Jenis-jenis data perlu diuraikan karena terkait dengan analisis cluster yang
menggunakan konsep jarak pada Bab. 3. Secara umum ada 2 jenis data yang
digunakan, yaitu data kualitatif dan kuantitatif.
1. Data Kualitatif
Data kualitatif merupakan hasil pengukuran yang sering juga disebut
sebagai data kategorikal. Berdasarkan skala pengukurannya, data yang termasuk
dalam kategori kualitatif adalah :
a. Skala Nominal
Data berskala nominal, diperoleh dari hasil mengkategorikan variabel, tidak
mempunyai jarak, tidak dapat diurutkan dan tidak dapat dikenakan operasi
matematika. Bilangan yang dihasilkan dari pengukuran hanya bersifat memberi
kode atau atribut bagi ciri-ciri pengelompokan. Contoh : gender ( pria, wanita ),
8
jenis mesin (mesin bubut, mesin bor), jenis kendaraan (truk, mobil, motor), dan
lain-lain. Dalam prakteknya, hasil penggolongan tersebut berupa kelompok-
kelompok yang disimbolkan dengan angka. Misal, untuk jenis kelamin, pria diberi
simbol angka ‘0’ dan wanita diberi angka ‘1’ atau angka lainnya.
b. Skala Ordinal
Ciri data ordinal mirip dengan data nominal, perbedaannya adalah data
ordinal dapat diurutkan. Contoh : tingkat pendidikan ( SD, SMP, SMA, Diploma,
Sarjana, Pascasarjana), tingkat kepuasan pelanggan (sangat tidak puas, tidak puas,
biasa saja, puas, sangat puas), dan lain-lain. Seperti pada skala nominal, skala
ordinal juga disimbolkan dalam bentuk lambang bilangan, tetapi bilangan-
bilangan ini memiliki makna urutan sesuai karakteristik yang diwakilinya. Misal,
untuk tingkat pendidikan, SD sampai pascasarjana diberi angka ‘1’ sampai ‘6’
yang menunjukkan tingkatan atau urutan pendidikan dari yang terendah sampai
tertinggi.
2. Data Kuantitatif
Data yang termasuk dalam skala kuantitatif adalah sebagai berikut :
a. Skala Interval
Skala interval lebih mempunyai arti daripada skala ordinal dan skala
nominal. Data interval mempunyai sifat skala ordinal dan skala nominal, namun
pada skala interval jarak antara satu kategori dengan kategori lain terdefinisi
dengan jelas. Ciri lain skala interval adalah tidak mempunyai nilai nol mutlak.
Contoh : suhu, bisa diukur dengan skala Celcius, Fahrenheit Kelvin atau Reamur
9
yang masing-masing mempunyai skala sendiri-sendiri. Suhu tidak mempunyai
nilai nol mutlak, misal suhu 00 C bukan berarti bahwa benda yang diukur tidak
memiliki panas, tetapi hanya sebagai penunjuk tingkat suhu yang rendah setara
dengan suhu air membeku.
b. Data Rasio
Data rasio mempunyai sifat ketiga data di atas, namun data rasio
mempunyai nilai nol mutlak, artinya karakteristik yang diukur benar-benar nol
atau tidak bernilai. Contoh : tinggi dan berat badan.
B. Matriks Data Multivariat
Data multivariat adalah data yang diperoleh dari hasil pengukuran terhadap
n observasi-observasi berdasarkan d variabel-variabel. Secara umum data
multivariat disajikan dalam bentuk matriks X berukuran n x d, dan ditulis sebagai
berikut :
⎥⎥⎥⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢⎢⎢⎢
⎣
⎡
=
ndnjnn
idijii
dj
dj
xxxx
xxxx
xxxx
xxxx
LL
MMMM
LL
MMMM
LL
LL
21
21
222221
111211
X (2.1)
dengan ni ,,2,1 K= dan .,,2,1 dj K=
Data multivariat dinotasikan dengan { }ijX=X , dengan ijx adalah
pengamatan terhadap observasi ke-i pada variabel ke-j. Analisis cluster
menggunakan data multivariat sebagai input.
10
C. Probabilitas Total dan Teorema Bayes
Definisi 2.1 Probabilitas Bersyarat
Teori ini akan digunakan dalam membahas pengklasifikasian yang
dikombinasikan dan pendugaan parameter pada Bab 3 sub bab metode
nonhierarki.
Probabilitas terjadinya suatu kejadian A jika diketahui kejadian B terjadi
disebut probabilitas bersyarat dan dilambangkan dengan P(A|B) serta
didefinisikan sebagai ( )( )BP
BAPBAP ∩=)|( di mana 0)( >BP .
Sebaliknya , P(B|A) adalah probabilitas terjadinya suatu kejadian B jika
diketahui kejadian A terjadi didefinisikan sebagai ( )( )AP
BAPABP ∩=)|( di mana
0)( >AP .
Teorema 2.1 Teorema Probabilitas Total
Andaikan kejadian-kejadian mA,,A,A 21 K adalah partisi-partisi yang saling
asing dari ruang sampel S dengan S==Um
ii
1
A dan B adalah sembarang kejadian
juga dalam ruang sampel S, maka
( ) ( ) ( ) ( )∑∑==
=∩=m
iii
m
ii PPPP
11AA|BBAB .
Bukti :
Dengan sifat irisan himpunan,
11
Karena Ai saling asing, maka iAB ∩ juga saling asing. Jadi,
( ) ( ) ( ) ( ) ( )∑=
∩=∩++∩+∩=m
iim PPPPP
121 BAABABABB K (2.2)
Dari definisi 2.1 diperoleh
( ) ( ) ( )iii PPP AA|BBA =∩ (2.3)
Kemudian subtitusikan ke dalam (2.2), sehingga diperoleh
( ) ( ) ( ) ( )∑∑==
=∩=m
iii
m
ii PPPP
11AA|BBAB ■
Teorema 2.2 Teorema Bayes
Andaikan kejadian-kejadian mA,,A,A 21 K adalah partisi-partisi yang
saling asing dari ruang sampel S dengan S==Um
ii
1
A dan B adalah sembarang
kejadian juga dalam ruang sampel S, maka
( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( )kk
kkk PPPPPP
PPP
ABAABAABAABA
BA2211 +++
=K
Bukti :
Dari definisi probabilitas bersyarat diperoleh
( )( )B
BA)B|A(
PP
P kk
∩= (2.4)
dengan mensubtitusikan (2.3) dan hasil teorema probabilitas total ke dalam
persamaan (2.4), maka diperoleh
( )( ) ( ) ( )m
m
ABABAB AAABSB B
21
21
∩∪∪∩∪∩ =∪∪∪∩=∩=
K
K
12
( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( )kk
kkk PPPPPP
PPP
ABAABAABAABA
BA2211 +++
=K
■
( )B|AkP disebut probabilitas posterior dari kejadian A jika kejadian B terjadi
dan ( )kP A adalah probabilitas prior dari kejadian B.
D. Penduga Kemungkinan Maksimum
Definisi 2.2 Penduga Kemungkinan Maksimum
Penduga kemungkinan maksimum akan berguna dalam membahas mencari
penduga kemungkinan maksimum parameter dari suatu distribusi, pada Bab 3
akan digunakan untuk mencari penduga kemungkinan maksimum untuk μ bila
diketahui sampel random berdistribusi normal multivariat.
Misal ( ) ( ) ( ) ( )θθθθ ,..,.,L 21 nxfxfxf L= adalah fungsi likelihood untuk
variabel random .,,, 21 nXXX K Jika ( )nxxx ,,,ˆˆ21 Lϑθ = adalah sebuah fungsi
dari observasi nXXX ,,, 21 K yang merupakan nilai dari θ yang
memaksimumkan ( )θL , maka ( )nXXX ,,,ˆˆ21 Kϑ=Θ adalah penduga
kemungkinan maksimum dari θ . ( )nxxx ,,,ˆˆ21 Lϑθ = adalah penduga
kemungkinan maksimum dari θ untuk sampel nXXX ,,, 21 K .
Mencari penduga kemungkinan maksimum merupakan masalah mencari
titik maksimum dari suatu fungsi, sehingga penduga kemungkinan maksimum
merupakan penyelesaian dari persamaan
( ) 0=θθ
ddL (2.5)
13
Secara analitis akan lebih mudah untuk mencari nilai maksimum dari
logaritma, sehingga akan dicari penduga kemungkinan maksimum untuk log-
likelihood. Nilai θ yang memaksimumkan log-likelihood juga akan
memaksimumkan fungsi likelihood.
Jika fungsi likelihood mempunyai k parameter, yaitu
( ) ( )∏=
=n
ikxxxf
121k21 ,,,,,,L KK θθθ (2.6)
maka penduga kemungkinan maksimum parameter k21 ,,, θθθ K adalah variabel
random
( ) ( ) ( )nkknn XXXXXXXXX ,,,ˆˆ,,,,,ˆˆ,,,,ˆˆ2121222111 KKKK ϑϑϑ =Θ=Θ=Θ
di mana kϑϑϑ ˆ,,ˆ,ˆ21 K adalah nilai yang memaksimumkan ( )k21 ,,,L θθθ K .
Oleh karena itu, nilai yang dapat memaksimumkan fungsi likelihood-nya adalah
penyelesain dari k persamaan, yaitu
( )
( )
( )0,,,L
0,,,L
0,,,L
k
k21
2
k21
1
k21
=∂
∂
=∂
∂
=∂
∂
θθθθ
θθθθ
θθθθ
K
M
K
K
Contoh 2.1
Diketahui nXXX ...,,, 21 adalah sampel random dari distribusi normal
dengan rata-rata μ dan variansi 2σ akan dicari penduga maksimum untuk μ dan
2σ .
14
2
21
21)(
⎟⎠⎞
⎜⎝⎛ −
−= σ
μ
πσ
x
x exf
Penyelesaian :
Fungsi likelihood untuk variabel random nXXX ,,, 21 K adalah
∏=
⎟⎠⎞
⎜⎝⎛ −
−
⎟⎠⎞
⎜⎝⎛ −
−⎟⎠⎞
⎜⎝⎛ −
−⎟⎠⎞
⎜⎝⎛ −
−
=
⎪⎭
⎪⎬⎫
⎪⎩
⎪⎨⎧
⎪⎭
⎪⎬⎫
⎪⎩
⎪⎨⎧
⎪⎭
⎪⎬⎫
⎪⎩
⎪⎨⎧
=
==
n
i
x
xxx
n
i
e
eee
xfxfxfxxxf
1
21
21
21
21
321
21
2
222
21
21...
21
21
)(...)()()...,,,(L
σμ
σμ
σμ
σμ
πσ
πσπσπσ
( )
( )
( )
( )
( )
21
2
21
2
21
2
2
22
2
2
2
2
1
2
1
21
σ
μ
σ
μ
σ
μ
πσ
πσ
πσ
⎟⎟⎠
⎞⎜⎜⎝
⎛−−
⎟⎟⎠
⎞⎜⎜⎝
⎛−−
−⎟⎟⎠
⎞⎜⎜⎝
⎛−−
∑
=
∑
=
∑
⎟⎟⎠
⎞⎜⎜⎝
⎛=
=
=
=
n
ii
n
ii
n
ii
x
n
x
nn
xn
e
e
e
karena lebih mudah untuk mencari nilai maksimum dari fungsi logaritma,
sehingga akan dicari penduga maksimum untuk log-likelihood, diperoleh
logaritma dari fungsi likelihood adalah
15
( )
( )
( )( )
21
2
22
2
22
22ln1ln
2
1lnLln 21
2
σ
μπσ
πσσ
μ
⎟⎠⎞⎜
⎝⎛ ∑ −
−⎭⎬⎫
⎩⎨⎧−=
⎪⎪⎭
⎪⎪⎬
⎫
⎪⎪⎩
⎪⎪⎨
⎧ ∑
=
=
⎟⎟⎠
⎞⎜⎜⎝
⎛−−
=
n
iin
x
n
x
e
n
ii
( ){ }( )
( )2
1
2
2
21
2
2
2ln
22ln
2
22ln
2
σ
μσπ
σ
μπσ
⎟⎠⎞⎜
⎝⎛ ∑ −
−−−=
⎟⎠⎞⎜
⎝⎛∑ −
−−=
=
=
n
ii
n
ii
xnn
xn
( ) ( ) 12
1
22
21ln
22ln
2Lln −
=⎟⎠⎞⎜
⎝⎛ ∑ −−−−= σμσπ
n
iixnn
Kemudian dengan menurunkan terhadap μ dan 2σ diperoleh
( ) ( )2
1Llnσ
μ
μ
∑ −=
∂∂ =
n
iix
( ) ( ) ( )
( )4
1
2
2
22
1
222
21
2
211
2Lln
σ
μ
σ
σμσσ
∑ −+⎟
⎠⎞
⎜⎝⎛
⎟⎠⎞
⎜⎝⎛−=
⎟⎠⎞⎜
⎝⎛ ∑ −+⎟
⎠⎞
⎜⎝⎛
⎟⎠⎞
⎜⎝⎛−=
∂∂
=
−
=
n
ii
n
ii
xn
xn
Dengan menyamakan masing-masing turunannya dengan nol diperoleh
( )
Xn
x
nx
x
n
ii
n
ii
n
ii
=
=
=−
=∑ −
∑
∑
=
=
=
μ
μ
μ
σ
μ
ˆ
ˆ
0
0
1
1
21
16
μ merupakan penduga maksimum dari μ . Penduga maksimum untuk 2σ
diperoleh dengan mengganti μ dengan X , sehingga
( )0
21
2 41
2
2 =∑ −
+⎟⎠⎞
⎜⎝⎛
⎟⎠⎞
⎜⎝⎛− =
σσ
n
ii Xxn
( )
( )
( )n
Xx
nXx
nXx
n
ii
n
ii
n
ii
∑
∑
∑
=
=
=
−=
=−
=−
1
2
2
21
2
241
2
ˆ
22
σ
σ
σσ
Jadi, penduga kemungkinan maksimum bagi μ dan 2σ masing-masing adalah
X=μ dan ( )
n
Xxn
ii∑ −
= =1
2
2σ .
Contoh 2.2
Diketahui X berdistribusi eksponensial
⎩⎨⎧ ≥
=−
selainnya,00,
)|(xe
xpxθθ
θ
Tentukan penduga kemungkinan maksimum untuk θ .
Penyelesaian :
Fungsi likelihood untuk variabel random X adalah
( )∑
== =
−
=
−∏n
ii
i
xn
n
i
xnn eexxx 1
121 ,,,L
θθ θθK
17
kemudian dengan menurunkan terhadap θ dan menyamakannya dengan nol
diperoleh
( ) ( )
( ) ( ) 0
L
1
1
1
1
11
11
11
11
=⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛ ∑−
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛ ∑
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛ ∑−+
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛ ∑=
∂∂
∑
∑
=
−−
=
−−
==
==
n
i
x
in
xn
n
i
x
in
xn
n
i
n
i
n
i
n
i
exen
exen
θθ
θθ
θθ
θθθ
( ) ( )
∑
∑
∑
∑
∑
=
=
=
−
=
−
=
−−
=
=
=
=
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛ ∑=
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛ ∑==
n
ii
n
ii
n
iin
n
n
ii
nn
n
i
x
in
xn
x
n
xn
xn
xn
exen
n
i
n
i
1
1
1
11
1
1
1
ˆ
11
11
θ
θ
θθ
θθ
θθθθ
Jadi, penduga kemungkinan maksimum untuk θ adalah ∑
=
= n
iix
n
1
θ .
Contoh 2.3
Percobaan Binomial menghasilkan n observasi X1, X2, ..., Xn dimana 1=iX
jika observasi berhasil dan 0=iX bila gagal. Tentukan penduga Kemungkinan
maksimum untuk probabilitas berhasil p.
( ) ( ) ( ) xnxnx ppCxXPxp −−=== 1
Penyelesaian :
Fungsi likelihood dari sampel adalah probabilitas dari observasi X1, X2, ..., Xn.
18
( ) ( ) xnxn ppxxx −−= 1,,,L 21 K dengan ∑
=
=n
iixx
1
Fungsi L tersebut akan diubah dalam bentuk log-likelihood karena lebih mudah
mencari nilai maksimumnya, sehingga diperoleh
( ){ }( ) ( )pxnpx
pp xnx
−−+=−= −
1lnln1lnLln
kemudian menurunkan terhadap p dan menyamakan dengan nol
( ) ( )
( )
( )
( ) ( )( )
0
01
1
01
1
11
11d
Lln
=−
=−
−−−
=−−
−
−−
−=
−−
−+⎟⎟⎠
⎞⎜⎜⎝
⎛=
npxpp
pxnpxpxn
px
pxn
px
pxn
px
pd
nxp
xnp
=
=
ˆ
Jadi, penduga kemungkinan maksimum untuk p adalah nxp =ˆ .
E. Fungsi Densitas Normal Univariat
Fungsi densitas normal univariat ditentukan oleh dua parameter, yaitu rata-
rata μ dan variansi 2σ . Untuk lebih sederhana, fungsi densitas normal (Gauss)
( )2,~ σμNX yang berarti bahwa X berdistribusi normal dengan rata-rata μ dan
variansi 2σ . Fungsi densitas dari x adalah
19
( )⎥⎥⎦
⎤
⎢⎢⎣
⎡⎟⎠⎞
⎜⎝⎛ −
−=2
21exp
21
σμ
σπxxp
dengan nilai harapan untuk x adalah
[ ] ( )dxxxpXE ∫∞
∞−
=≡μ
dan variansinya adalah
( )[ ] ( ) ( )∫∞
∞−
−=−≡ .222 dxxpxXE μμσ
F. Fungsi Densitas Normal Multivariat
Fungsi densitas normal multivariat dalam d dimensi ditulis sebagai
( )( )
( ) ( )⎭⎬⎫
⎩⎨⎧ −′−−= − μxΣμx
Σx 1
212 21exp
21
dp
π
dengan x : vektor kolom d komponen, μ : vektor rata-rata d komponen, Σ :
matriks kovariansi berukuran dd × , Σ : determinan matriks Σ , 1−Σ : invers
matriks Σ dan ( )′−μx : transpose dari ( )μx − . Untuk lebih sederhana, persamaan
densitas normal multivariat sering ditulis ( )ΣμX ,~ N .
G. Analisis Diskriminan
Pada skripsi ini analisis diskriminan hanya dibahas secara ringkas, terutama
langkah-langkah analisis yang akan digunakan untuk menyelesaikan salah satu
kasus di Bab. IV. Dasar-dasar teori tidak dibahas secara rinci karena sudah
dibahas di skripsi yang lain (Prasetya, Analisis Diskriminan K Kelompok).
20
Analisis diskriminan perlu dibahas karena dalam skripsi ini akan digunakan
menganalisa data yang dikelompokkan dengan menggunakan analisis cluster.
Berdasarkan hasil pengelompokan tersebut akan dicari variabel-variabel yang
dapat membedakan kelompok secara efisien dan mengetahui apakah hasil
pengelompokan sudah tepat atau masih ada obyek yang salah pengelompokannya.
Analisis diskriminan merupakan salah satu teknik analisis multivariat yang
digunakan untuk mengelompokkan observasi-observasi ke dalam salah satu
kategori (dalam hal ini kelompok atau populasi) berdasarkan pada variabel-
variabel tertentu. Ada dua macam variabel yang digunakan dalam analisis
diskriminan, variabel bebas (independen) yang berbentuk metrik (skala interval /
rasio) dan variabel tak bebas (dependen) yang berbentuk kategoris (skala ordinal /
nominal), oleh karena itu analisis diskriminan termasuk dalam teknik dependen.
Analisis diskriminan merupakan perluasan dari analisis regresi, perbedaannya
analisis regresi variabel bebasnya bisa berupa metrik maupun nonmetrik.
Bila terdapat dua buah kategori dan observasi-observasi akan
dikelompokkan ke dalam salah satu kelompok, maka digunakan analisis
dskriminan dua kelompok, sedangkan bila terdapat lebih dari dua buah kategori
dan observasi-observasi akan dikelompokkan ke dalam salah satu kelompok,
maka digunakan analisis diskriminan k kelompok. Konsep dasar kedua analisis
diskriminan tersebut sama. Konsep dasar analisis diskriminan dua kelompok
digunakan untuk mengelompokkan observasi-observasi ke dalam salah satu
kelompok jika telah didefinisikan dua kelompok. Misal populasi pertama adalah
1π dan populasi kedua adalah 2π , observasi-observasi dikelompokkan
21
berdasarkan pengukuran terhadap p variabel random [ ]dXXXX ,,,,' 321 K=X .
Semua elemen dari vektor pengukuran X adalah ruang sampel. Masalah
diskriminan dan klasifikasi ini adalah membagi ruang sampel menjadi daerah R1
dan R2, kemudian mengklasifikasikan observasi baru x0 ke dalam populasi 1π jika
vektor pengukuran X berada di R1 dan mengklasifikasikan ke dalam 2π jika
vektor pengukuran X berada di R2. Konsep dasar analisis diskriminan k kelompok
merupakan generalisasi dari analisis diskriminan dua kelompok, yaitu membagi
ruang sampel observasi menjadi daerah-daerah, R1, R2, ..., Rg yang saling asing.
Selanjutnya, sebuah observasi baru x0 akan diklasifikasikan ke dalam kπ jika
vektor pengukuran X berada di Rk.
1π
Gambar 2.1. Ilustrasi Analisis Diskriminan
Analisis diskriminan bertujuan memisahkan observasi-observasi ke dalam
populasi-populasi yang berbeda berdasarkan pada variabel-variabel tertentu.
Asumsi yang harus dipenuhi dalam analisis diskriminan adalah matriks-matriks
22
kovarians populasi sama. Output dari analisis diskriminan adalah fungsi yang bisa
digunakan untuk mengelompokkan observasi-observasi ke dalam salah satu
populasi atau kelompok disebut fungsi diskriminan linear atau biasa disebut
fungsi diskriminan. Seperti pada analisis regresi, fungsi diskriminan merupakan
kombinasi linear dari variabel-variabel bebas yang dapat digunakan untuk
menduga nilai suatu variabel tak bebas. Secara matematis fungsi diskriminan
tersebut dimodelkan sebagai berikut :
k3322110 XXXXD ki bbbbb +++++= K
Di = nilai skor diskriminan
bk = koefisien diskriminan ke-k
Xk = prediktor atau variabel independen ke-k
Berikut ini uraian tentang langkah-langkah analisis diskriminan secara
ringkas: gagasan Fisher (1936) adalah mentransformasi observasi-observasi
multivariat x ke dalam observasi univariat y sehingga diperoleh kombinasi-
kombinasi linear dari x yang sesuai untuk merepresentasikan populasi-populasi g.
Andaikan
( )( )'1
0 μμμμB −−= ∑=
i
g
ii
di mana ∑=
=g
iig 1
1 μμ adalah vektor rata-rata dari gabungan populasi-populasi dan
kombinasi linear X'lY = yang mempunyai nilai harapan
( ) ( ) ( ) ( ) ii lElEllEYE μXXX '|''' ==== π untuk populasi iπ serta variansi
23
( ) ( ) llllY Σ== 'Cov'Var X untuk semua populasi, maka iiY l μ'μ = akan berubah
seiring dengan perubahan X. Kemudian didefinisikan rata-rata umum :
μμμ '1''1μ1μ1 11
lg
llgg
g
i
g
iii
g
iiYY =⎟⎟
⎠
⎞⎜⎜⎝
⎛=== ∑ ∑∑
= ==
dan rasio
( )
( )
( )( )
ll
ll
ll
ll
Y
g
iii
g
ii
Y
g
iYiY
Σ′
⎟⎟⎠
⎞⎜⎜⎝
⎛ ′−−′
=
Σ′
′−′=
−=
∑
∑
∑
=
=
=
1
1
21
2
variansiumum) rata-(rata ke populasi)-populasi rata-(rata darijarak kuadrat Jumlah
μμμμ
μμ
σ
μμ
atau
llll
Σ=
'' 0B
(2. 7)
Rasio (2. 7) mengukur variabilitas antar kelompok dari nilai-nilai Y relatif
dan variabilitas gabungan dalam kelompok, kemudian dipilih l yang
memaksimumkan rasio ini.
Pada umumnya, Σ dan iμ tidak diketahui, tetapi dapat disediakan sampel
yang berisi observasi-observasi yang benar diklasifikasi. Misal sampel random
berukuran ni yang berasal dari populasi iπ , serta Xi adalah inxp data yang
berasal dari populasi iπ , gi ,,3,2,1 K= dan xij menunjukkan kolom ke-j dari Xi,
maka vektor rata-rata sampel didefinisikan sebagai berikut :
24
∑=
=in
jij
ii n 1
1 xx
dan matriks-matriks kovarians
( )( )′−−−
= ∑=
iij
n
jiij
ii xxxx
n
i
111S .
Didefinisikan juga vektor keseluruhan rata-rata :
∑
∑∑
∑
∑
=
= =
=
= == g
ii
g
i
n
jji
g
ii
g
iii
nn
ni
1
1 1
1
1
xxx
0B didefinisikan sebagai matriks sampel antar kelompok (sample between groups
matrix), yaitu
( )( )′−−= ∑=
xxxxB i
g
ii
10
Juga penduga dari ∑ berdasarkan pada matriks sampel dalam kelompok
(sample within groups matrix), yaitu :
( ) ( )( )′−−=−= ∑∑∑= ==
iji
g
i
n
jijii
g
ii
i
n xxxxSW1 11
1
Akibatnya, gnnnn g
gabungan −++++=
K321(WS adalah penduga dari Σ . W
adalah konstanta )( 21 gnnn g −+++ L dikalikan dengan gabunganS . Jadi l yang
memaksimumkan ll
llˆˆ
ˆˆ
gabungan
0
SB
juga akan memaksimumkan llllˆˆ
ˆˆ0
WB
.
25
Optimasi l , dapat ditulis dalam bentuk eigenvektor-eigenvektor ie dari 01BW − ,
karena jika ee ˆˆˆˆ0
1 λ=− BW maka ( )eeBS ˆˆˆˆ3210
1 gnnnn ggabungan −++++=− Kλ .
Andaikan 0ˆ,,ˆ,ˆ21 >sλλλ L dengan ),1min( pgs −≤ eigennilai-eigennilai tak nol
dari 01BW − dan see ˆ,,ˆ1 K adalah eigenvektor-eigenvektor yang bersesuaian,
(yang diskala, sehingga 1ˆ'ˆ gabungan =eSe ) maka vektor-vektor koefisien l yang
memaksimumkan rasio ( )( )
( )( ) ⎟⎟⎠
⎞⎜⎜⎝
⎛ ′−−′
⎟⎟⎠
⎞⎜⎜⎝
⎛ ′−−=
′
′
∑∑
∑
= =
=
g
i
n
iijij
g
iii
ll
ll
llll
1 1
10
1 ˆˆ
ˆ'ˆ
ˆˆˆˆˆ
xxxx
xxxx
WB
adalah 11 ˆˆ e=l .
Kombinasi linear x1l dinamakan diskriminan pertama sampel (sample first
discriminant). Jika dipilih 21 ˆˆ e=l akan menghasilkan diskriminan kedua sampel
(sample second discriminant), x2l , dan selanjutnya xex kkl ′=′ ˆˆ adalah diskriminan
ke-k sampel (sample k-th discriminant), sk ≤ .
Secara ringkas langkah-analisis dapat dibuat flowchart sebagai berikut :
26
Kesimpulan: Observasi x0
dikelompokkan di populasi ke iπ
Hitung y11, y12, y21, y22, y32, y32
Data
gabungan
i1
i1
SxSSSSxxxx
,,,,,,,
32
32
K
K
Hitung 01BW −
Dicari eigennilai & eigenvalue dari 0
1BW −
Dicari koefisien fungsi diskriminan
Diperoleh fungsi diskriminan
Masukkan data x0 yang akan dikelompokkan
Hitung skor diskriminan
BAB III
ANALISIS CLUSTER
A. Konsep Jarak antar Obyek
Analisis cluster termasuk dalam analisis statistik multivariat metode
interdependen. Analisis cluster merupakan suatu alat analisis yang berguna untuk
meringkas data yang dapat dilakukan dengan jalan mengelompokkan obyek-
obyek berdasarkan kesamaan karakteristik tertentu di antara obyek-obyek yang
hendak diteliti. Kesamaan tersebut dinyatakan dalam ukuran similaritas atau
disimilaritas.
Seorang peneliti ingin mengetahui kebiasaan masyarakat minum teh di
daerah tertentu. Berdasarkan data pada Tabel 1.1, peneliti dapat mengambil
kesimpulan bahwa terdapat dua kelompok usia dengan karakteristik yang berbeda.
Kelompok pertama mempunyai karakteristik usia kurang dari 30 tahun cenderung
memilih harga teh mahal, kurang suka rasa melati, kurang memperhatikan
kemasan dan lebih suka teh warna kekuningan. Pembentukan kelompok-
kelompok observasi berdasarkan jarak, obyek yang mirip seharusnya berada
dalam kelompok yang sama dan sebaliknya obyek yang mempunyai banyak
perbedaan berada dalam kelompok yang berbeda. Pembentukan kelompok
tersebut akan diikuti dengan terjadinya pengelompokan yang menunjukkan
kedekatan kesamaan antar obyek.
Berdasarkan tipe datanya, ukuran similaritas dibedakan menjadi dua, yaitu
dengan sistem metrik dan koefisien asosiasi:
28
1. Ukuran jarak untuk data kontinu
Data obyek yang akan diteliti dapat ditampilkan dalam bentuk matriks
nxdX dengan n banyaknya obyek dan d banyaknya variabel.
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
ndnn
d
d
xxx
xxxxxx
d
L
MMMM
L
L
L
21
22221
11211
21variabel
X
Kemiripan antara obyek-obyek yang diteliti dapat dideskripsikan sebagai
matriks nxnD .
⎥⎥⎥⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢⎢⎢⎢
⎣
⎡
=
nnnn
n
n
ddd
dddddddd
LLL
MOMM
MOMM
MOMM
LL
LL
21
2232221
1131211
D
Matriks D berisi ukuran similaritas atau disimilaritas antara n obyek. Ukuran
disimilaritas yang paling umum untuk mengukur dekatnya dua titik adalah
metrikΔdengan pemetaan Rd x Rd onto R1 dan memenuhi aksioma berikut :
a. 0),( ≥Δ yx , untuk semua x dan y di Rd.
b. 0),( =Δ yx jika dan hanya jika yx = .
c. ),(),( xyyx Δ=Δ untuk semua x dan y di Rd.
d. ),(),(),( zyzxyx Δ+Δ≤Δ untuk semua x, y dan z di Rd.
1
2 M
n
obyek
29
Ukuran tersebut dinyatakan dalam jarak dua obyek yang pengukurannya
dapat menggunakan norma-norma berikut :
a. Norma L1 atau “city block” metrik.
1
1
1
1 ⎭⎬⎫
⎩⎨⎧
−=−= ∑=
d
kjkikjiij xxd xx (3.1)
b. Norma L2 yang terkenal dengan nama jarak Euclidean
21
1
2
2 ⎭⎬⎫
⎩⎨⎧
−=−= ∑=
d
kjkikjiij xxd xx (3.2)
b. Square Euclidean yang dirumuskan :
∑=
−=d
kjkikij xxd
1
2 (3.3)
d. Chebychev yang merupakan ukuran jarak dengan maksimum selisih
nilai mutlak
jkikij xxd −= max (3.4)
e. Secara umum, ukuran jarak dapat didefinisikan sebagai norma Lr
dengan 1≥r yang disebut jarak Minkowski
rd
k
r
jkikrjiij xxd
1
1 ⎭⎬⎫
⎩⎨⎧
−=−= ∑=
xx (3.5)
Contoh 3.1
Misal diketahui [ ] [ ]0,1,0,0 2 == xx1 dan [ ]5,53 =x , akan dicari matriks
jarak dengan beberapa norma di atas. Vektor x1, x2 dan x3 dapat ditulis dalam
bentuk matriks :
30
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡=
550100
X
sehingga dari persamaan 3.1 diperoleh
merupakan elemen baris pertama kolom pertama dari matriks D1,
merupakan elemen baris pertama kolom kedua dari matriks D1,
merupakan elemen baris kedua kolom ketiga, sedangkan elemen lainnya dapat
dihitung dengan cara yang mirip sehingga diperoleh
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡=
0910901
1010
1D
dari persamaan 3.2 elemen-elemennya diperoleh
01100
12121111
2
1111111
=
−+−=
−+−=
−=−= ∑=
xxxx
xxxxd k
kk
10010
22122111
2
1212112
=
−+−=
−+−=
−=−= ∑=
xxxx
xxxxd k
kk
95051
32223121
2
1323223
=
−+−=
−+−=
−=−= ∑=
xxxx
xxxxd k
kk
31
( )( )0
1100 21
22
21
21212
21111
21
2
1
21121111
=
−+−=
−+−=
⎭⎬⎫
⎩⎨⎧
−=−= ∑=
xxxx
xxdk
kkxx
merupakan elemen baris pertama kolom pertama dari matriks D2,
( )( )1
0010 21
22
21
22212
22111
21
2
1
22122112
=
−+−=
−+−=
⎭⎬⎫
⎩⎨⎧
−=−= ∑=
xxxx
xxdk
kkxx
merupakan elemen baris pertama kolom kedua dari matriks D2,
( )( )
41
5051 21
22
21
23222
23121
21
2
1
2113213
=
−+−=
−+−=
⎭⎬⎫
⎩⎨⎧
−=−= ∑=
xxxx
xxdk
kkxx
merupakan elemen baris kedua kolom ketiga, sedangkan elemen lainnya dapat
dihitung dengan cara yang mirip sehingga diperoleh
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
04150
4101
5010
2D
dan dari persamaan 3.3 elemen-elemennya diperoleh
32
10010 22
22212
22111
22
12112
=
−+−=
−+−=−= ∑=
xxxxxxdk
kk
merupakan elemen baris pertama kolom kedua dari matriks D3,
505050 22
23212
23111
22
13113
=
−+−=
−+−=−= ∑=
xxxxxxdk
kk
merupakan elemen baris pertama kolom ketiga dari matriks D3, selengkapnya
matriks yang diperoleh adalah
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡=
0415041015010
3D
2. Ukuran similaritas untuk struktur biner
Ukuran disimilaritas digunakan untuk data yang bersifat metrik, sedangkan
data dari variabel yang berskala nominal dapat menggunakan ukuran similaritas
yang dikenal sebagai koefisien asosiasi. Contoh variabel yang berskala nominal
adalah variabel yang disajikan dalam struktur biner. Untuk menentukan ukuran
similaritas variabel nominal, setiap obyek diperiksa apakah memiliki ciri yang
ditentukan atau tidak. Bila obyek tersebut memiliki ciri yang ditentukan, maka
obyek diberi nilai 1 dan bila tidak memiliki ciri yang ditentukan, maka diberi nilai
0. Ukuran similaritas ditentukan oleh kedua nilai tersebut dan koefisien similaritas
yang digunakan dapat dilihat beberapa alternatif pada Tabel 3.1.
33
Untuk mengukur similaritas antar obyek selalu dibandingkan pasangan
observasi ( )ji xx , , di mana ( ) ( )jdjjidii xxxx ,,,,, 1T
1T KK == xx dan
{ }1,0, ∈jkik xx , sehingga ada empat macam kasus, yakni
.0,0,1
,1,0,1
==
==
==
==
jkik
jkik
jkik
jkik
xxxx
xxxx
Berikut ini merupakan ukuran similaritas yang sering digunakan
( )3241
41
aaaaaadij +++
+=
λδδ (3.6)
di mana
I merupakan fungsi karakteristik sedangkan δ dan λ adalah faktor pembobot
(weighting factors). Di bawah ini merupakan beberapa koefisien similaritas
beserta faktor pembobotnya.
Nama Koefosien SimilaritasFaktor Pembobot
Definisi Koefisien Similaritas δ λ
Jaccard 0 1 321
1
aaaa++
∑
∑
∑
∑
=
=
=
=
===
===
===
===
d
kjkik
d
kjkik
d
kjkik
d
kjkik
xxa
xxa
xxa
xxa
14
13
12
11
),0(
),0,1(
),1,0(
),1(
I
I
I
I
34
Tanimoto 1 2 ( ) 4321
41
2 aaaaaa
++++
Dice 0 0.5 ( )321
1
5.022
aaaa
++
Tabel 3.1. Beberapa contoh koefisien similaritas.
Contoh 3.2
Di bawah ini diperoleh data 3 merek mobil, ada 8 variabel yang dinilai,
rentang nilai antara 1 (sangat buruk) sampai 6 (sangat bagus), variabel-
variabelnya adalah sebagai berikut :
X1 = ekonomis
X2 = service
X3 = harga jual
X4 = harga, nilai 1 untuk harga mobil paling murah
X5 = desain
X6 = model sporty
X7 = keamanan
X8 = kemudahan perawatan
Merk X1 X2 X3 X4 X5 X6 X7 X8 Renault 2.7 3.3 3.4 3 3.1 3.4 3 2.7 Rover 3.9 2.8 2.6 4 2.6 3 3.2 3 Toyota 2.5 2.9 3.4 3 3.2 3.1 3.2 2.8
kx 3.03 3 3.13 3.33 2.96 3.16 3.13 2.83
Tabel 3.2. Data Karakteristik Mobil
35
Misal data biner dihitung dari data di bawah ini dengan definisi sebagai berikut :
⎩⎨⎧ >
=selainnya0
,jika1 kikik
xxy
Untuk ni ,,2,1 K= , dk ,,2,1 L= dan kx adalah nilai rata-rata variabel ke-k.
Berdasarkan definisi tersebut, diperoleh data biner sebagai berikut :
Merk X1 X2 X3 X4 X5 X6 X7 X8 Renault 0 1 1 0 1 1 0 0 Rover 1 0 0 1 0 0 1 1 Toyota 0 0 1 0 1 0 1 1
Tabel 3.3. Data Biner Karakteristik Mobil
Sebelum menghitung matriks similaritas, perlu dicari 321 ,, aaa dan 4a , berikut
ini beberapa perhitungannya untuk elemen 11d dan 12d .
321 ,, aaa dan 4a untuk 11d diperoleh
( )
( )
( )
( ) .40I
,00,1I
,01,0I
,41I
11
8
14
11
8
13
11
8
12
11
8
11
====
====
====
====
∑
∑
∑
∑
=
=
=
=
kkk
kkk
kkk
kkk
xxa
xxa
xxa
xxa
321 ,, aaa dan 4a untuk 12d diperoleh
( )
( )
( ) ,40,1
,41,0
,01
2
8
13
2
8
12
2
8
11
====
====
====
∑
∑
∑
=
=
=
kikk
kikk
kikk
xxa
xxa
xxa
I
I
I
36
( ) .002
8
14 ====∑
=kik
kxxa I
Maka matriks similaritasnya adalah sebagai berikut :
a. bila menggunakan koefisien Jaccard
0440
0
1004
4
321
112
321
111
=++
=++
=
=++
=++
=
aaaa
d
aaaa
d
sehingga bila dihitung secara lengkap diperoleh matriks
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
133.033.033.01033.001
b. bila menggunakan koefisien Tanimoto
( ) ( ) 140024
4443221
4111 =
++++
=+++
+=
aaaaaad
( ) ( ) 044424
0043221
4112 =
++++
=+++
+=
aaaaaad
sehingga bila dihitung secara lengkap diperoleh matriks
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
133.033.033.01033.001
Untuk variabel kuantitatif, salah satu ukuran similaritas antara xi dan xj,
observasi pada obyek i dan j adalah korelasi berpasangan ),( jkik xx dengan
dk ,,2,1 L= , yakni
37
( ) ( )2/1
2.
2.
.. ))((
⎭⎬⎫
⎩⎨⎧
−−
−−=
∑
∑
kjjkiik
kjjkiik
ik
xxxx
xxxxc (3.7)
Ukuran similaritas dapat didefinisikan sebagai suatu fungsi yang memetakan
P x P ke R1 dengan P adalah populasi obyek dan memenuhi aksioma-aksioma
berikut :
a. ( ) PjijiC di,semuauntuk1,0 ≤≤ .
b. .1),( =iiC
c. .jikahanya1),( jijiC ==
d. ).,(),( ijCjiC =
di mana ijcjiC =),( .
3. Standarisasi Skor
Dalam analisis cluster dapat menggunakan bermacam-macam tipe data
dengan berbagai macam satuan. Oleh karena itu data-data tersebut perlu
distandarisasi agar menghilangkan pengaruh perbedaan satuan. Salah satu
standarisasi skor yang sering digunakan adalah z-score dengan rumus :
SXx
z i −=
sampeldeviasistandarsampel rataratanilai
ke pengamatannilai
=−=
−=
SX
ixi
Data yang distandarisasi dengan menggunakan z-score mempunyai nilai rata-rata
nol dan nilai standar deviasi 1.
38
B. Metode-metode dalam Analisis Cluster
Ada banyak metode yang digunakan dalam analisis cluster, pada umumnya
dibagi dua, yaitu hierarchical cluster dan nonhierarchical cluster. Metode yang
termasuk dalam hierarchical cluster adalah metode agglomerative (agglomerative
method) dan metode divisif (divisive method). Metode agglomerative ada tiga
yaitu metode ketergantungan (linkage method), metode centroid dan metode
variansi. Metode ketergantungan di antaranya yaitu, metode ketergantungan
tunggal (single linkage method) atau dalam SPSS disebut nearest neighbor,
metode ketergantungan lengkap (complete linkage) atau dalam SPSS disebut
furthest neighbor dan metode ketergantungan rata-rata (average linkage). Metode
variansi yang umum digunakan adalah metode Ward’s. Metode yang termasuk
dalam nonhierarchical cluster adalah sequential thereshold, paralel thereshold,
optimizing partitioning (ketiga metode tersebut tidak dibahas dalam skripsi ini
karena kurang berkembang) dan K-means cluster. Hubungan antara metode-
metode dalam analisis cluster tersebut dapat digambar dalam bagan berikut :
Gambar 3.1. Hubungan antara metode-metode dalam analisis cluster
39
1. Metode Hierarchical
a. Metode Agglomerative
Metode agglomerative dimulai dengan menempatkan obyek dalam cluster-
cluster yang berbeda kemudian mengelompokkan obyek secara bertahap ke dalam
cluster-cluster yang lebih besar. Artinya, pertama, setiap obyek dianggap sebagai
cluster, jadi jika ada n obyek, pada tahap pertama ada n cluster. Kemudian, secara
bertahap dilakukan pengelompokan dengan memeriksa satu pasangan obyek
paling mirip, kemudian keduanya digabung menjadi satu cluster, sehingga pada
tahap kedua, jumlah cluster menjadi n-1. Pemeriksaan kemiripan obyek tersebut
melalui pemeriksaan matriks nxnD
yang berisi ukuran similaritas atau disimilaritas.
Proses ini berjalan terus sehingga pada tahap terakhir semua obyek menjadi satu
cluster.
1) Metode single linkage
Jika 1C dan 2C adalah cluster, maka jarak antara cluster tersebut
didefinisikan sebagai jarak terkecil antara anggota 1C dan anggota 2C , yaitu
{ }21))(( ,:min21
CjCidd ijCC ∈∈=
di mana i melambangkan sebagai ‘ obyek i ‘. Di bawah ini contoh sederhana
untuk mendemonstrasikan proses pada metode single linkage.
Contoh 3.3
Misal diketahui matriks disimilaritas 5 buah obyek sebagai berikut:
40
⎥⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢⎢
⎣
⎡
=
047584083978061536078917054321
4D
54321
Minimum ijd nya adalah 1131 == da , sehingga obyek 1 dan 3 digabung dan
diperoleh cluster-nya adalah (1,3), (2), (4) dan (5). Sekarang
{ } { }{ } { }{ } { } ,77,8min,min
,88,9min,min
,66,7min,min
535351)3,1)(5(
434341)3,1)(4(
232321)3,1)(2(
====
====
====
dddd
dddd
dddd
dan matriks jarak untuk cluster tersebut adalah
( )
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
04574038530678605423,1
5D
542
)3,1(
Diperoleh masukan paling kecil adalah 3242 == da , sehingga obyek 2 dan 4
digabung dan cluster-nya menjadi (1, 3), (2, 4) dan (5), dengan
{ } { }{ } { } ,44,5min,min
,68,6min,min
545452)4,2)(5(
)3,1)(2()3,1)(4()3,1)(2()4,2)(3,1(
====
====
dddd
dddd
dan matriks jarak untuk cluster tersebut adalah
41
( ) ( )
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡=
04740676054,23,1
5D5
)4,2()3,1(
Diperoleh masukan paling kecil adalah 4)4,2)(5(3 == da , sehingga obyek 5
digabung dengan cluster (2, 4) dan cluster-nya menjadi (1, 3) dan (2, 4, 5) dengan
{ } { } .67,6min,min )4,2)(3,1()5)(3,1()4,2)(3,1()5,4,2)(3,1( ==== dddd
Akhirnya dua cluster tersebut digabung menjadi satu cluster, yaitu (1, 2, 3, 4, 5).
Proses di atas diilustrasikan dengan gambar yang dapat dilihat pada Gambar 3.2
dan diagram dendrogram Gambar 3.3.
Gambar 3.2. Ilustrasi metode Single Linkage
Sumbu vertikal merupakan jarak cluster dan sumbu horizontal merupakan
obyek. Dalam membuat diagram dendrogram, beberapa pemberian label kembali
(relabeling) biasanya diperlukan sehingga masing-masing cluster merupakan
suatu urutan obyek yang berdekatan, contohnya pertukaran 2 dan 3 seperti pada
Gambar 3.3. Proses penggabungan di atas dapat disederhanakan dengan
menuliskan ijd secara urut dari yang terkecil dan cluster yang digabung ke bentuk
tabel ( Tabel 3.4 ).
42
a0= 0
a1= 1
a2= 3
a3= 4
a4= 6
Obyek
Jarak
1 3 2 4 5
Gambar 3.3. Dendrogram single linkage untuk matriks disimilaritas D4
Jarak Terurut Cluster
113 =d ( ) ( ) ( ) ( )5,4,2,3,1
324 =d ( ) ( ) ( )5,4,2,3,1
445 =d ( ) ( )5,4,2,3,1
525 =d ( ) ( )5,4,2,3,1
623 =d ( )5,4,3,2,1
635 =d ( )5,4,3,2,1
815 =d ( )5,4,3,2,1
914 =d ( )5,4,3,2,1
Tabel 3.4. Proses Penggabungan cluster dengan metode single linkage
43
2) Metode Complete Linkage
Metode complete linkage merupakan kebalikan dari metode single linkage
Jarak antara dua cluster didefinisikan sebagai jarak terbesar antara anggota 1C dan
2C , yaitu
{ }21))(( ,:max21
CjCidd ijCC ∈∈=
Pada masing-masing langkah, cluster yang berjarak terkecil digabung menjadi
satu kelompok.
Contoh 3.4
Matriks yang digunakan adalah matriks disimilaritas D4, jarak minimumnya
1131 == da , sehingga obyek 1 dan 3 digabung dan diperoleh cluster-nya adalah
(1,3),(2), (4) dan (5). Sekarang
{ } { }{ } { }{ } { } ,87,8max,max
,98.9max,max
,76,7max,max
515351)3,1)(5(
414341)3,1)(4(
212321)3,1)(2(
====
====
====
dddd
dddd
dddd
dan matriks jarak untuk cluster tersebut adalah
( )
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
04584039530789705423,1
7D
542
)3,1(
Diperoleh jarak paling kecil adalah 3242 == da , sehingga obyek 2 dan 4
digabung dan cluster-nya menjadi (1,3),(2,4) dan (5) dengan
44
{ } { }{ } { } ,54,5max,max
,99,7max,max
525452)4,2)(5(
)3,1)(4()3,1)(4()3,1)(2()4,2)(3,1(
====
====
dddd
dddd
dan matriks jarak untuk cluster tersebut adalah
( ) ( )
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡=
05850989054,23,1
8D5
)4,2()3,1(
Diperoleh jarak paling kecil adalah 5)4,2)(5(3 == da , sehingga obyek 5 digabung
dengan cluster (2,4) dan cluster-nya menjadi (1,3) dan (2, 4, 5) dengan
{ } { } .98,9max,max )4,2)(3,1()5)(3,1()4,2)(3,1()5,4,2)(3,1( ==== dddd
Akhirnya dua cluster tersebut digabung menjadi satu cluster, yaitu (1, 2, 3, 4, 5).
Diagram dendrogram dapat dilihat pada Gambar 3.4.
a0= 0
a1= 1
a2= 3
a3= 5
a4= 9
1 3 2 4 5
Obyek
Jarak
Gambar 3.4. Dendrogram complete linkage untuk matriks disimilaritas D4
45
Gambar 3.5. Ilustrasi metode complete linkage
3) Metode Average Linkage
Metode average linkage mirip dengan metode single linkage dan complete
linkage. Bedanya, adalah pada metode average linkage, jarak antara kelompok
dan invidu atau jarak antara dua kelompok adalah rata-rata dari jarak antar
individu yang terlibat, didefinisikan
∑ ∑∈ ∈
=1 2
21 21
))((Cr Cs
rsCC dd
Contoh 3.5
Matriks yang digunakan masih sama dengan contoh di atas yaitu matriks
disimilaritas D4, Langkah pertama menentukan menentukan jarak minimumnya,
yaitu 1131 == da , sehingga obyek 1 dan 3 digabung dan diperoleh cluster-nya
adalah (1,3),(2), (4) dan (5). Langkah berikutnya menghitung jarak cluster,
diperoleh
( ) ( )
( ) ( ) 5.88921
21
5.66721
21
4341)3,1)(4(
2321)3,1)(2(
=+=+=
=+=+=
ddd
ddd
( ) ( ) 5.77821
21
5351)3,1)(5( =+=+= ddd
46
sehingga matriks jarak untuk cluster tersebut adalah
( )
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
0455.74035.85305.65.75.85.60
5423,1
9D
542
)3,1(
Jarak minimum dari matriks D9 adalah 3242 == da , sehingga obyek 2 dan 4
digabung dan diperoleh cluster-nya menjadi (1,3), (2,4) dan (5) dengan
dan matriks jaraknya
( ) ( )
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡=
05.45.75.405.75.75.70
54,23,1
10D5
)4,2()3,1(
Dari matriks D10 tampak bahwa jarak minimumnya adalah 5,4)4,2)(5(3 == da ,
sehingga obyek 5 digabung dengan cluster (2, 4) dan diperoleh cluster-nya adalah
(1, 3) dan (2, 4, 5). Akhirnya dua cluster tersebut digabung menjadi satu cluster
(1, 2, 3, 4, 5) dengan
( ) ( )( ) ( ) 5.75.75.721
21
5)3,1(4,2)3,1()5,4,2)(3,1( =+=+= ddd
Proses di atas dapat diilustrasikan dengan Gambar 3. 6.
( ) ( )
( ) ( ) ,5.44521
21
. 5 .8.621
21
5452)4,2)(5(
)3,1)(4()3,1)(2()4,2)(3,1(
=+=+=
=+=+=
ddd
ddd 5 75
47
Gambar 3.6. Ilustrasi metode average linkage 4) Metode Centroid
Metode centroid menggunakan jarak antara dua cluster yang didefinisikan
sebagai jarak antara cluster centroid. Cluster centroid ialah nilai rata-rata variabel
dari semua obyek dalam cluster tertentu. Jika
∑∈
==jCi j
ij j
n2,1
xx
adalah centroid dari n1 anggota C1 dan 2x adalah centroid dari n2 anggota C2 ,
maka
),,()2)(1( 21 xxPd CC =
di mana P adalah ukuran proksimitas, misalnya korelasi berpasangan persamaan
(3.7), norma L1 atau ukuran disimilaritas lainnya. Mula-mula berdasarkan matriks
jarak dengan elemennya ),( ji xxP , dua cluster yang paling dekat digabung dan
digantikan oleh centroid dari cluster baru. Centroid dari ,21 CC ∪ penggabungan
C1 dan C2, diberikan oleh rata-rata terbobot (weight average)
21
21
nnnn
++
= 21 xxx
48
5) Metode Median
Metode median mirip dengan metode centroid, hanya bedanya centroid dari
,21 CC ∪ adalah rata-rata tak terbobot (unweighted average)
)(21
21 xxx += . (3.8)
Metode ini dapat mengatasi kekurangan metode centroid, yaitu bahwa jika sebuah
kelompok kecil bergabung dengan sebuah kelompok besar, kelompok tersebut
akan kehilangan identitasnya dan centroid yang baru akan berada di dalam
kelompok yang besar.
6). Metode Group Average
Metode group average menggunakan jarak antara C1 dan C2 yang
didefinisikan sebagai rata-rata dari n1n2 buah disimilaritas antar semua pasangan :
∑ ∑∈ ∈
=1 2
2121
))((1
Cr CsrsCC d
nnd
7). Metode Ward’s
Metode ward’s menggunakan ide dari kasus data univariat, yaitu jumlah
kuadrat (sum of squares). Dalam metode ini, untuk menggabungan dua cluster
dipilih ))(( 21 CCI yang minimal.
221
21
21
22
1
22
21
221
1 221
)2)(1(
xx
x
xxxxxx
−+
=
−=
⎭⎬⎫
⎩⎨⎧
−+−−−=
∑
∑ ∑∑
=
∈ ∈∪∈
nnnn
xn
ICi Ci
iiCCi
CC
ααα
Secara khusus, untuk obyek r dan s,
49
.21
21 22
))(( rsdxxI srsr =−=
Dimulai dengan D=[(d2rs)], jarak di antara dua cluster didefinisikan
.2 ))(())(( 2121 CCCC Id =
Metode-metode pada sub (1), (2) , (4) dan (5) (dengan
22121 ),( xxxx −=P
pada metode centroid) adalah kasus-kasus khusus dari rumus di bawah ini untuk
jarak di antara cluster C3 dan 21 CC ∪ :
9.3))(())(())(())((2))((1))(( 2313212313213 CCCCCCCCCCCCC dddddd −+++=∪ γβαα
dengan nilai γβαα dan,, 21 dapat diamati pada Tabel 3.5.
Metode iα β γ
Single linkage 21
0 21
−
Complete Linkage 21
0 21
Centroid 21 nn
ni
+ 2
21
21
)( nnnn
+− 0
Ward's 321
3
nnnnni
+++
321
3
nnnn++
−0
Median 21
41
− 0
Group Average 21 nn
ni
+ 0 0
Tabel 3.5. Parameter untuk persamaan 3.9
Dari ketujuh metode yang sudah diuraikan di atas, dapat dibuat algoritma metode
agglomerative secara ringkas sebagai berikut :
1. Menghitung matriks jarak D.
2. Memilih masukan jarak antara dua cluster yang paling dekat.
50
3. Menggabungkan dua cluster yang memiliki jarak paling dekat tersebut.
4. Kembali ke langkah pertama sampai ketiga, hingga semua obyek tergabung
dalam satu cluster.
Flowchart dari algoritma di atas dapat dilihat pada Gambar 3. 7.
Gambar 3.7. Flowchart metode agglomerative
b. Metode Divisive
Pada Gambar 3.1 dapat dilihat bahwa metode hierarchical dibagi menjadi
dua, yaitu metode agglomerative dan metode divisive. Pada metode divisive,
prosesnya kebalikan dari metode agglomerative. Langkah awal, menempatkan
semua obyek sebagai satu cluster, kemudian langkah selanjutnya, secara bertahap,
obyek-obyek dipisahkan ke dalam cluster-cluster yang berbeda sampai semua
51
obyek menjadi cluster sendiri-sendiri (satu cluster hanya terdiri dari satu obyek)
seperti yang dideskripsikan pada Gambar 3. 8.
a b
d e
c d e
a b c d e
Step 2 Step 3 Step 4Step 0Agglomerative
Divisive
Step 1
a
c
b
e
d
Step 2 Step 1 Step 0Step 4 Step 3
Gambar 3.8. Perbedaan agglomerative dan divise
2. Metode Nonhierarchical
Pada skripsi ini, metode nonhierarchical yang akan dibahas hanya metode
K-means cluster karena metode yang lain jarang berkembang. Sebelum membahas
metode K-means cluster, akan diuraikan terlebih dahulu tentang ajar tak
disupervisi (unsupervised learning), pengklasifikasian yang dikombinasikan dan
pendugaan parameter serta konsep densitas campuran (mixture density).
a. Ajar Tak Disupervisi
Sebelum diuraikan lebih banyak tentang ajar tak disupervisi, ada hal yang
perlu diketahui, yaitu perbedaan antara ajar disupervisi dan ajar tak disupervisi.
Perbedaannya adalah bahwa ajar disupervisi diketahui kategori (label kelas) untuk
masing-masing sampel sedangkan ajar tak disupervisi sampel tersebut tidak diberi
label.
Pada bagian ini akan dibahas mengenai masalah pengenalan pola dengan
training set yang tidak berlabel. Misal, notasi training set tersebut adalah uH .
52
Untuk setiap uH∈x , asal kelas atau label tidak diketahui. Tiga atribut yang
diinginkan dari uH adalah :
1. Cardinality uH besar.
2 Semua kelas diwakili pada uH .
3. Subset-subset dari uH bisa dibentuk ke dalam pengelompokan yang wajar
atau cluster, di mana masing-masing cluster hampir bisa dipastikan
berpasangan dengan satu kelas pola dasar.
Unsupervised learning bertujuan untuk mendefinisikan kelompok. Gambar
3.9 dan Gambar 3.10 mengilustrasikan masalah yang ekstrim. Gambar 3.9,
sampel-sampel dapat dikelompokan dengan baik, sedangkan pada Gambar 3.10
sampel-sampel sulit untuk dikelompokan karena beberapa sampel mempunyai ciri
yang hampir mirip.
- 8.00
- 4.00
0.00
8.00
4.00
- 8.00 - 4.00 0.00 4.00 8.00
Gambar 3.9. Sampel-sampel di uH dapat dikelompokkan dengan baik.
53
Gambar 3.10. Sampel-sampel di uH tidak dapat dikelompokan dengan baik.
Ada dua macam pendekatan unsupervised learning, yaitu :
1. Pendekatan parametrik berdasar pada mengetahui bentuk-bentuk
fungsional untuk mendasari distribusi-distribusi kelas beryarat yang
melibatkan pengklasifikasian yang dikombinasikan dan pendugaan
parameter.
2. Pendekatan nonparametrik yang melibatkan membagi data yang tidak
berlabel ke dalam subset-subset.
Pada skripsi ini hanya diuraikan mengenai pendekatan parametrik.
b. Pengklasifikasian yang Dikombinasikan dan Pendugaan Parameter.
Misal iθ adalah vektor parameter untuk kelas ke-i. dan diketahui keadaan
awal berikut :
1. c ( banyaknya kelompok ).
2. Probabilitas prior kelas iw , ciwP i ,,2,1),( L=
3. Bentuk-bentuk untuk fungsi densitas bersyarat , ( )iiwp θx ,| diketahui .
54
4. Training set uH .
iθ adalah vektor parameter untuk kelas ke-i yang akan dicari, dengan
.,,2,1 ci L=
c. Konsep Densitas Campuran ( Mixture Density ).
Misal bahwa semua sampel di uH dihasilkan oleh suatu fungsi densitas
campuran tunggal
( ) ( ) ( )∑=j
jjj wPwpp θxθx ,|| (3.10)
Misal ( )θx |p satu-satunya informasi yang bisa diduga secara langsung dari uH .
Fungsi densitas campuran adalah jumlahan dari nilai densitas-densitas individual
(sering kali bermodus tunggal). Rumus fungsi densitas campuran tidak
berimplikasi bahwa vektor-vektor di uH adalah jumlahan-jumlahan vektor-vektor
random dengan densitas komponen-komponennya. Sebagai contoh, fungsi
densitas dari jumlahan variabel-variabel random Gaussian bukan jumlahan fungsi
densitasnya.
Gambar 3.11. Konsep Densitas Campuran
55
Oleh karena itu, bila diberikan fungsi ( )θx |p , tujuannya adalah menentukan θ ,
dengan cara bekerja mundur untuk menemukan iθ .
Misal n sampel-sampel bersifat bebas, joint density dari training set berasal
dari densitas campuran
( ) ( )θxθ ||1 k
n
ku pHp ∏ == (3.11)
Untuk menemukan penduga maximum likelihood, θ , akan dicari suatu nilai dari
θ yang memaksimalkan (3.11). Pada kasus di mana ( )θ|uHp bermodus tunggal
dan ( )θx |kp terdiferensialkan terhadap θ ,dapat dipilih suatu fungsi monoton
naik yang baik dari ( )θ|uHp , dinotasikan f, dan ambil
( )[ ] 0θθ =∇ |uHpf (3.12)
untuk mencapai suatu batasan bagi θ . Fungsi log dipilih untuk f, sehingga (3.12)
menjadi
( )[ ]{ } ( )[ ] ( )[ ] 0θxθxθ θθθ =∇=∇=∇ ∑∑==
|log|log|log11
k
n
kk
n
ku ppHp (3.14)
Karena rumus diferensiasi
( ){ } ( )( )xxu
xuxu
x ∂∂
=∂∂ 1log (3.15)
berlaku bagi masing-masing unsur vektor pada (3.14), menggunakan (3.10) dan
turunkan terhadap iθ menghasilkan
( )[ ]{ } ( ) ( ) ( ) ,,||
1|log1 1
u 0θxθx
θg θθ =⎪⎭
⎪⎬⎫
⎪⎩
⎪⎨⎧
⎭⎬⎫
⎩⎨⎧
∇=∇≡ ∑ ∑= =
n
kj
c
jjjk
k
wPwpp
Hpii (3.16)
dengan ci ,,2,1 K= .
56
Misal iθ dan jθ independen, maka
( ) 0θxθ =∇ jjk wpi
,| kecuali jika ji = (3.17)
Aturan Bayes membolehkan untuk membentuk
( ) ( ) ( )( )θx
θθx
|,|
,|k
iiikki p
wPwxpwP = (3.18)
maka g menjadi
( ) ( ) ( ){ }
( )( ) ( ){ }
( )( ) ( ){ }iik
n
k ik
ki
iik
n
k k
i
iiik
n
k k
wppwP
wpp
wP
wPwpp
i
i
i
θxθxθx
θxθx
θxθx
g
θ
θ
θ
,||
,|
,||
,||
1
1
1
1
∇=
∇=
∇=
∑
∑
∑
=
=
=
berdasarkan (3.15) diperoleh
( ) ( ){ }iik
n
kki wpwP
iθxθxg θ ,|log[,|
1∇=∑
=
(3.19)
Dari definisi pendugaan maximum likelihood diperoleh persamaan pembatas
(constraint equation) untuk iθ , yaitu
( ) ( )[ ]{ } 0θxθx θ =∇∑=
iik
n
kki wpwP
iˆ,|logˆ,|
1 (3.20)
Pada persamaan (3.20) θ adalah vektor parameter densitas campuran sesuai
dengan iθ .
Contoh 3.7
Misal menggunakan densitas Gauss (dengan vektor mean yang tidak
diketahui). Andaikan hanya vektor rata-rata ci ,,2,1 K=μ yang tidak diketahui,
57
maka iθ dan θ terdiri atas unsur-unsur iμ dan μ berturut-turut. Fungsi densitas
campuran dibentuk sebagai jumlahan fungsi densitas Gaussian. Untuk masing-
masing kelas
( )( )
( ) ( )⎭⎬⎫
⎩⎨⎧ −Σ′−−
Σ= −
ikiiki
diik wp μxμxμx 12/12/ 2
1exp||2
1,|π
(3.21)
dengan mengambil logaritma dari persamaan (3.21), sehingga diperoleh
( )( )
( ) ( )
( ) ( ) ( )
( )( )[ ] ( ) ( )
( )( )[ ] ( ) ( ) )22.3(21||2ln
21
21||2ln0
21||2ln1ln
21exp
||21ln,|ln
1
12/1
12/12/
12/12/
ikiikid
ikiikid
ikiikid
ikiiki
diik wp
μxμx
μxμx
μxμx
μxμxx
−Σ′−−Σ−=
−Σ′−−Σ−=
−Σ′−−Σ−=
⎥⎥⎦
⎤
⎢⎢⎣
⎡
⎭⎬⎫
⎩⎨⎧ −Σ′−−
Σ=
−
−
−
−
π
π
π
πμ
kemudian diturunkan terhadap iμ menghasilkan
( ) ( )[ ]
( )( )[ ] ( ) ( )
( )( )[ ] ( )
( )( )
( ) ( )23.3
12120
221||2ln
21
21||2ln
21
,|ln,|
1
1
1
1
ik
ik
ikiid
i
ikiikid
i
ijki
ijkiwpwp
μx
μx
μxμ
μxμxμ
μxμ
μxμ
−Σ=
−−Σ⎟⎠⎞
⎜⎝⎛−+=
⎥⎦⎤
⎢⎣⎡ −Σ−Σ−
∂∂
=
⎥⎦⎤
⎢⎣⎡ −Σ′−−Σ−
∂∂
=
∂∂
=∇
−
−
−
−
π
π
dan dengan menggunakan (3.20) serta menyelesaikan persamaan pembatasnya
diperoleh
( )
( ) 0μx
0μx
=−
=−Σ
∑
∑
=
=
−
n
kik
n
kik
1
1
1
ˆ
ˆ
58
∑
∑
∑
∑∑
=
=
=
==
=
=
=−
=−
n
kki
n
kki
i
n
kk
n
ki
n
kk
n
n
n
1
1
1
11
1ˆ
ˆ
ˆ
ˆ
xμ
xμ
0μx
0μx
d. Clustering untuk Unsupervised Learning dan Pengklasifikasian
Pada kasus Gaussian dengan ( )iwP sama, persamaan (3.18) menjadi
( ){ }
( )θ|exp
,|2
21
1
1
1
k
ikn
kki p
kwP i
x
μxθx
−Σ
−
=
−Σ=∑ (3.23)
Ruas kanan persamaan (3.23) akan besar ketika
21−Σ
−i
ik μx (3.24)
kecil, di mana 21−Σ
−i
ik μx merupakan jarak Mahalanobis kuadrat dari kx ke iμ .
Dengan kata lain, bila jarak kx terhadap iμ yang mewakili cluster ke-i makin
kecil, maka peluang bahwa kx masuk dalam kelas iw menjadi makin besar. Hal
ini menyarankan suatu prosedur untuk menetapkan kx ke kelas { }cmwm ,1∈ di
mana (3.24) paling kecil.
Algoritma K-means :
1. Memilih banyaknya kelas-kelas, c.
2. Memilih ci μμμ ˆ,,ˆ,ˆ 2 K dengan memberikan dugaan awal.
3. Menggolongkan tiap kx .
59
4. Hitung ulang penduga iμ menggunakan hasil dari 3.
5. Jika iμ konsisten, berhenti; jika tidak lanjut ke langkah 1, 2, atau 3
Inti dari pendekatan ini adalah untuk mencapai suatu konsistensi penyekatan data
secara mandiri. Pilihan dari nilai parameter-parameter awal (c dan ( )oiμ ) masih
suatu persoalan yang menantang sehingga menimbulkan satu bidang studi
mengenai validitas cluster.
Data
Menentukan k(jumlah cluster)
Menentukan centroid
Menentukan jaraksetiap obyek ke
centroid
Mengelompokkanobyek berdasarkan
jarak minimum
Ada obyek yangpindah cluster ?
selesai
Ya
Tidak
Gambar 3.12. Flowchart algoritma k-means
60
Contoh 3.8
Diketahui empat macam obat yang mempunyai dua variabel, yaitu indeks
berat dan pH. Empat macam obat tersebut akan dikelompokkan menjadi 2
)2( =k berdasarkan indeks berat dan pH.
Obat Indeks Berat pH A 1 1 B 2 1 C 4 3 D 5 4
Tabel 3.6. Data yang akan dikelompokkan
Gambar 3.13 Koordinat obyek dari Tabel 3.6
Dari tabel di atas, diperoleh matriks jarak dengan menggunakan jarak Euclidean
(3.2), yaitu
⎥⎦
⎤⎢⎣
⎡=
24.483.201561.310
11D
Matriks tersebut digunakan pada iterasi 0. Misal, obat A dan obat B sebagai
centroid yang pertama, yaitu ( )1,1=1c dan ( )1,2=2c .
61
Setiap kolom di dalam matriks jarak merupakan obyek. Baris pertama dari
matriks jarak dapat disamakan dengan jarak dari setiap obyek ke centroid yang
pertama dan baris kedua adalah jarak dari setiap obyek ke centroid kedua.
Sebagai contoh, jarak obat ( )3,4C = ke centroid pertama ( )1,1=1c adalah
( ) ( ) 61.31314 22 =−+− dan jarak ke centroid kedua ( )1,2=2c adalah
( ) ( ) 83.21324 22 =−+− .
Langkah selanjutnya, setiap obyek dikelompokkan berdasarkan jarak
minimum, maka obat A ditempatkan ke dalam cluster pertama, obat B, C dan D
pada cluster kedua.
Gambar 3.14. Iterasi 0 pada proses K-means
Iterasi 0 selesai, lanjut ke iterasi 1. Setelah mengetahui anggota-anggota dari
setiap cluster, centroid baru dapat dihitung berdasarkan keanggotaan yang baru
tersebut. Cluster pertama hanya mempunyai satu anggota, maka centroid-nya
tetap berada pada ( )1,1=1c . Cluster kedua mempunyai 3 anggota, maka centroid-
62
nya berubah, yaitu ⎟⎠⎞
⎜⎝⎛=⎟
⎠⎞
⎜⎝⎛ ++++
=38,
311
3431,
3542
2c . Langkah selanjutnya
adalah menghitung jarak dari semua obyek ke centroid yang baru. Caranya mirip
menghitung matriks D11, diperoleh
⎥⎦
⎤⎢⎣
⎡=
89.147.036.214.3561.310
12D .
Lalu mengelompokkan setiap obyek berdasarkan jarak minimum pada matriks
D12. Berdasarkan matriks tersebut, obat B dipindahkan ke dalam cluster pertama,
sementara obyek yang lain tetap berada pada cluster yang sudah ditentukan pada
iterasi 0.
Gambar 3.15. Iterasi 1 pada proses K-means
Iterasi 1 selesai, lanjut ke iterasi 2. Centroid yang baru dihitung kembali
berdasarkan pengelompokkan dari iterasi 1. Cluster pertama dan kedua, masing-
masing mempunyai dua anggota, maka centroid-centroid-nya berubah, yaitu
63
⎟⎠⎞
⎜⎝⎛=⎟
⎠⎞
⎜⎝⎛ ++
= 1,211
211,
221
1c dan ⎟⎠⎞
⎜⎝⎛=⎟
⎠⎞
⎜⎝⎛ ++
=213,
214
243,
254
2c dan diperoleh
matriks jarak yang baru adalah
⎥⎦
⎤⎢⎣
⎡=
71.071.054.330.461.420.350.050.0
13D
Berdasarkan matriks D13, hasil pengelompokan sama pada iterasi 1, sehingga
pada iterasi 2 obyek-obyek tidak ada yang berpindah cluster. Oleh karena itu,
perhitungan pengelompokan k-means telah mencapai kestabilan dan berhenti pada
iterasi 2. Hasil akhir pengelompokan dari data tabel di atas dapat dilihat pada
Tabel 3.7.
Gambar 3.16. Iterasi 2 pada proses K-means
Obat Indeks Berat pH Cluster
A 1 1 1
B 2 1 1
C 4 3 2
D 5 4 2
Tabel 3.7 Data hasil pengelompokan
64
Contoh 3.9
Diketahui sampel-sampel pada Tabel 3.8 akan dikelompokan menjadi 2
dengan centroid awal yang berbeda. Pada kasus ini akan ditunjukan bahwa
menentukan centroid awal akan menentukan iterasi yang akan terjadi dan hasil
akhir pengelompokan yang berbeda pula. Centroid awal tersebut adalah :
1. )1,1,1()0(1 =μ dan )1,1,1()0(2 −−=μ
2. )0,0,0()0(1 =μ dan )1,1,1()0(2 −=μ
3. )0(1μ dan )0(2μ dipilih secara random.
Perhitungan dengan centroid awal nomor 1 dan 2 akan menggunakan Microsoft
Excel dan nomor 3 menggunakan program Matlab 7.0.1 serta ketiganya akan
menggunakan jarak Euclidean.
Sampel x1 x2 x3 1 -7.82 -4.58 -3.972 -6.68 3.16 2.713 4.36 -2.19 2.094 6.72 0.88 2.85 -8.64 3.06 3.56 -6.87 0.57 -5.457 4.47 -2.62 5.768 6.73 -2.01 4.189 -7.71 2.34 -6.33
10 -6.91 -0.49 -5.6811 6.18 2.81 5.8212 6.72 -0.93 -4.0413 -6.25 -0.26 0.5614 -6.94 -1.22 1.1315 8.09 0.2 2.2516 6.81 0.17 -4.1517 -5.91 4.24 4.0418 -6.38 -1.74 1.4319 4.08 1.3 5.3320 6.27 0.93 -2.78
Tabel 3.8. Data Contoh 3.9
65
Penyelesaian :
Dari data-data yang diketahui, diperoleh matriks D14 yang akan digunakan
untuk iterasi awal. Setiap baris di dalam matriks jarak tersebut merupakan obyek.
Kolom pertama dari matriks jarak dapat disamakan dengan jarak dari setiap obyek
ke centroid yang pertama, )0(1μ dan kolom kedua adalah jarak dari setiap obyek
ke centroid kedua, )0(2μ . Sebagai contoh, jarak sampel pertama (-7.82, -4.58, -
3.97) ke centroid pertama )1,1,1()0(1 =μ adalah
( ) ( ) ( ) 56.11197.3158.4182.7 222 =−−+−−+−−
dan jarak ke centroid kedua )1,1,1()0(2 −−=μ adalah
( ) ( ) ( ) 30.9197.3158.4182.7 222 =+−+−−++− .
Setelah diperoleh matriks jaraknya langkah selanjutnya adalah mengelompokkan
obyek berdasarkan jarak minimum pada matriks D14. Misalnya, obyek pertama
memiliki jarak minimum 9.30 berarti obyek pertama masuk ke dalam cluster
kedua sedangkan obyek keempat mempunyai jarak minimum 6.00 berarti masuk
ke dalam cluster pertama. Hasil akhir iterasi awal ini dapat dilihat pada Tabel 3.9.
⎥⎦
⎥⎢⎣
⎢
⎥⎥
⎤⎢⎢
⎡=
49.712.851.675.746.869.969.662.549.632.588.722.881.724.725.837.7
52.807.1068.767.878.942.938.710.961.896.612.730.986.730.746.1046.1121.791.618.1017.1000.676.416.856.11
'14D
66
Sampel x1 x2 x3 Jarak Obyek
ke )0(1μ Jarak Obyek
ke )0(2μ Cluster
1 -7.82 -4.58 -3.97 11.56 9.30 2 2 -6.68 3.16 2.71 8.16 7.12 2 3 4.36 -2.19 2.09 4.76 6.96 1 4 6.72 0.88 2.80 6.00 8.61 1 5 -8.64 3.06 3.50 10.17 9.10 2 6 -6.87 0.57 -5.45 10.18 7.38 2 7 4.47 -2.62 5.76 6.91 9.42 1 8 6.73 -2.01 4.18 7.21 9.78 1 9 -7.71 2.34 -6.33 11.46 8.67 2 10 -6.91 -0.49 -5.68 10.46 7.68 2 11 6.18 2.81 5.82 7.30 10.07 1 12 6.72 -0.93 -4.04 7.86 8.52 1 13 -6.25 -0.26 0.56 7.37 5.62 2 14 -6.94 -1.22 1.13 8.25 6.69 2 15 8.09 0.20 2.25 7.24 9.69 1 16 6.81 0.17 -4.15 7.81 8.46 1 17 -5.91 4.24 4.04 8.22 7.75 2 18 -6.38 -1.74 1.43 7.88 6.51 2 19 4.08 1.30 5.33 5.32 8.12 1 20 6.27 0.93 -2.78 6.49 7.49 1
Tabel 3.9 Iterasi Awal dengan )1,1,1()0(1 =μ dan )1,1,1()0(2 −−=μ
Iterasi awal selesai, kemudian selanjutnya menentukan centroid yang baru
berdasarkan pengelompokan yang terjadi pada iterasi awal. Diperoleh
1.73) 0.15,- (6.04,)1(1 =μ dan 0.81)- 0.51, (-7.01,)1(2 =μ , centroid yang baru ini
digunakan untuk menentukan matriks jarak yang akan dipakai untuk
mengelompokkan obyek. Hasil iterasi kedua dapat dilihat dalam Tabel 3.10.
Pada iterasi kedua, obyek-obyek tidak ada yang berpindah cluster, sehingga
centroid tidak berubah dan perhitungan selesai . Kolom paling kanan merupakan
hasil akhir perhitungan pengelompokan k-means. Selanjutnya akan dibandingkan
bila centroid awalnya )0,0,0()0(1 =μ dan ,)1,1,1()0(2 −=μ sehingga diperoleh
67
matriks jarak untuk iterasi awal dan pengelompokan obyek-obyeknya dalam
bentuk tabel yang dapat dilihat pada Tabel 3.11.
Sampel x1 x2 x3 Jarak Obyek
ke )1(1μ Jarak Obyek
ke )1(2μ Cluster
1 -7.82 -4.58 -3.97 15.72 6.05 2 2 -6.68 3.16 2.71 13.11 4.42 2 3 4.36 -2.19 2.09 2.90 12.04 1 4 6.72 0.88 2.80 1.46 14.20 1 5 -8.64 3.06 3.50 15.07 5.27 2 6 -6.87 0.57 -5.45 14.78 4.64 2 7 4.47 -2.62 5.76 5.14 13.59 1 8 6.73 -2.01 4.18 3.34 14.83 1 9 -7.71 2.34 -6.33 16.09 5.86 2 10 -6.91 -0.49 -5.68 14.93 4.97 2 11 6.18 2.81 5.82 4.88 14.94 1 12 6.72 -0.93 -4.04 5.91 14.18 1 13 -6.25 -0.26 0.56 12.35 1.75 2 14 -6.94 -1.22 1.13 13.07 2.60 2 15 8.09 0.20 2.25 2.12 15.41 1 16 6.81 0.17 -4.15 5.93 14.22 1 17 -5.91 4.24 4.04 12.84 6.22 2 18 -6.38 -1.74 1.43 12.57 3.24 2 19 4.08 1.30 5.33 4.26 12.70 1 20 6.27 0.93 -2.78 4.58 13.43 1
Tabel 3.10 Iterasi Kedua dengan 1.73) 0.15,- (6.04,)1(1 =μ dan
0.81)- 0.51, (-7.01,)1(2 =μ
Kemudian pada iterasi kedua dengan centroid )0.660.03,--3.61,()1(1 =μ dan
( ),0.02-0.677,6.80,)1(2 =μ dapat dilihat pada Tabel 3.12. Pada iterasi kedua
obyek ke-3, 7, 8 dan 19 berpindah cluster, sehingga mengakibatkan centroid
masing-masing cluster berubah menjadi )0.81-0.51,-7.01,()2(1 =μ dan
).1.730.15,-6.043,()2(2 =μ Centroid tersebut digunakan dalam iterasi ketiga
yang dapat dilihat pada Tabel 3.13.
68
Sampel x1 x2 x3 Jarak Obyek
ke )0(1μ Jarak Obyek
ke )0(2μ Cluster
1 -7.82 -4.58 -3.97 9.89 10.85 1 2 -6.68 3.16 2.71 7.87 8.80 1 3 4.36 -2.19 2.09 5.31 5.57 1 4 6.72 0.88 2.80 7.33 6.87 2 5 -8.64 3.06 3.50 9.81 10.84 1 6 -6.87 0.57 -5.45 8.79 9.05 1 7 4.47 -2.62 5.76 7.75 8.42 1 8 6.73 -2.01 4.18 8.17 8.29 1 9 -7.71 2.34 -6.33 10.25 10.30 1 10 -6.91 -0.49 -5.68 8.96 9.31 1 11 6.18 2.81 5.82 8.94 8.75 2 12 6.72 -0.93 -4.04 7.90 6.76 2 13 -6.25 -0.26 0.56 6.28 7.52 1 14 -6.94 -1.22 1.13 7.14 8.52 1 15 8.09 0.20 2.25 8.40 7.84 2 16 6.81 0.17 -4.15 7.98 6.66 2 17 -5.91 4.24 4.04 8.32 9.15 1 18 -6.38 -1.74 1.43 6.77 8.24 1 19 4.08 1.30 5.33 6.84 7.05 1 20 6.27 0.93 -2.78 6.92 5.56 2
Tabel 3.11. Iterasi Awal dengan )0,0,0()0(1 =μ dan )1,1,1()0(2 −=μ
Sampel x1 x2 x3 Jarak Obyek
ke )1(1μ Jarak Obyek
ke )1(2μ Cluster
1 -7.82 -4.58 -3.97 7.74 16.03 1 2 -6.68 3.16 2.71 4.88 13.98 1 3 4.36 -2.19 2.09 8.38 4.31 2 4 6.72 0.88 2.80 10.59 2.83 2 5 -8.64 3.06 3.50 6.55 16.02 1 6 -6.87 0.57 -5.45 6.95 14.71 1 7 4.47 -2.62 5.76 9.90 7.05 2 8 6.73 -2.01 4.18 11.10 4.98 2 9 -7.71 2.34 -6.33 8.44 15.91 1 10 -6.91 -0.49 -5.68 7.16 14.88 1 11 6.18 2.81 5.82 11.43 6.25 2 12 6.72 -0.93 -4.04 11.38 4.33 2 13 -6.25 -0.26 0.56 2.65 13.10 1 14 -6.94 -1.22 1.13 3.57 13.92 1 15 8.09 0.20 2.25 11.81 2.65 2
69
16 6.81 0.17 -4.15 11.48 4.16 2 17 -5.91 4.24 4.04 5.91 13.81 1 18 -6.38 -1.74 1.43 3.35 13.48 1 19 4.08 1.30 5.33 9.09 6.03 2 20 6.27 0.93 -2.78 10.51 2.82 2
Tabel 3.12 Iterasi Kedua dengan )0.660.03,--3.61,()1(1 =μ dan
( )0.02-0.677,6.80,)1(2 =μ .
Hasil iterasi ketiga adalah sebagai berikut :
Sampel x1 x2 x3 Jarak Obyek
ke )2(1μ Jarak Obyek
ke )2(2μ Cluster
1 -7.82 -4.58 -3.97 6.05 15.63 1 2 -6.68 3.16 2.71 4.42 13.18 1 3 4.36 -2.19 2.09 12.04 2.67 2 4 6.72 0.88 2.80 14.20 1.63 2 5 -8.64 3.06 3.50 5.27 15.13 1 6 -6.87 0.57 -5.45 4.64 14.79 1 7 4.47 -2.62 5.76 13.59 4.98 2 8 6.73 -2.01 4.18 14.83 3.15 2 9 -7.71 2.34 -6.33 5.86 16.13 1 10 -6.91 -0.49 -5.68 4.97 14.92 1 11 6.18 2.81 5.82 14.94 5.05 2 12 6.72 -0.93 -4.04 14.18 5.86 2 13 -6.25 -0.26 0.56 1.75 12.35 1 14 -6.94 -1.22 1.13 2.60 13.04 1 15 8.09 0.20 2.25 15.41 2.14 2 16 6.81 0.17 -4.15 14.22 5.94 2 17 -5.91 4.24 4.04 6.22 12.94 1 18 -6.38 -1.74 1.43 3.24 12.52 1 19 4.08 1.30 5.33 12.70 4.35 2 20 6.27 0.93 -2.78 13.43 4.64 2
Tabel 3.13 Iterasi Ketiga dengan )0.81-0.51,-7.01,()2(1 =μ dan
).1.730.15,-6.043,()2(2 =μ
Obyek-obyek tidak ada yang berpindah cluster, sehingga perhitungan berhenti
pada iterasi ketiga.
Selanjutnya pengelompokan dengan centroid awal yang dipilih secara
random dilakukan dengan program Matlab 7.0.1. Program yang dibuat di M-File
70
mempunyai input berupa data matriks yang akan dikelompokkan (obyek pada
baris dan atribut pada kolom), jumlah cluster dan bilangan random, sedangkan
outputnya berupa data matriks yang dikelompokkan beserta tambahan satu kolom
hasil pengelompokan tiap obyek. Output program dapat dilihat di Lampiran 2.
Pada kasus ini telah dicoba dengan centroid awal yang berbeda ternyata
hasil akhirnya juga berbeda. Bila menggunakan centroid awal )1,1,1()0(1 =μ dan
,)1,1,1()0(2 −−=μ obyek ke-1, 2, 5, 6, 9, 10, 13, 14, 17 dan 18 masuk ke dalam
cluster kedua sedangkan obyek ke-3, 4, 7, 8, 11, 12, 15, 16, 19 dan 20 masuk ke
dalam cluster pertama. Sebaliknya bila menggunakan centroid awal
)0,0,0()0(1 =μ dan ,)1,1,1()0(2 −=μ obyek yang masuk ke dalam cluster
pertama berada dalam cluster kedua dan obyek yang masuk cluster kedua berada
dalam cluster pertama. Bila menggunakan centroid awal yang dipilih secara
random, hasilnya kebetulan sama dengan hasil pengelompokan dengan
menggunakan centroid awal yang kedua dan melalui dua iterasi. Namun semua
perhitungan yang dilakukan benar karena obyek-obyek tersebut sebetulnya masuk
ke dalam cluster dan memiliki ciri atau profil yang sama. Artinya, cluster pertama
pada perhitungan dengan centroid awal )1,1,1()0(1 =μ dan
)1,1,1()0(2 −−=μ memiliki profil yang sama dengan cluster kedua pada
perhitungan dengan centroid awal )0,0,0()0(1 =μ dan ,)1,1,1()0(2 −=μ begitu
pula sebaliknya. Selain terdapat perbedaan pada hasil akhir pengelompokan,
iterasi perhitungan juga berbeda. Pada perhitungan pertama hanya dua iterasi
sudah tidak terdapat perubahan centroid, sedangkan perhitungan kedua ada tiga
71
iterasi. Hal ini menandakan bahwa penentuan centroid awal sangat penting agar
iterasi lebih cepat stabil.
BAB IV
APLIKASI ANALISIS CLUSTER
Pada bab ini akan dibahas aplikasi analisis cluster pada kasus yang akan
diselesaikan dengan program SPSS 13.
A. Kasus I
Pada Lampiran 3 terdapat data perusahaan di 22 perusahaan listrik di
Amerika Serikat dengan 8 variabel, yaitu :
X1 : rasio biaya tetap (income/debt).
X2 : rata-rata keuntungan.
X3 : biaya per KW.
X4 : faktor beban tahunan.
X5 : puncak pertumbuhan permintaan KWH dari tahun 1974-1975.
X6 : penjualan (KWH yang digunakan per tahun).
X7 : persentase nuklir.
X8 : total biaya bahan bakar (cents per KWH).
Seorang peneliti ingin mengetahui segmentasi perusahaan listrik yang
terbentuk Data tersebut akan dianalisis dengan menggunakan metode single
linkage (nearest neighbor) dan ukuran jarak Euclidean.
Output analisis dapat dilihat pada Lampiran 5 dan interpretasi hasil analisis
adalah sebagai berikut :
Dalam metode hirarki, output yang terpenting adalah grafik dendogram karena
grafik tersebut berguna dalam mengetahui proses pembentukan cluster dan untuk
73
menentukan jumlah cluster yang terbentuk. Dari dendogram tersebut ada
beberapa kemungkinan jumlah cluster-cluster yang terbentuk, bila peneliti
mengambil kesimpulan ada 6 cluster yang terbentuk, maka cluster yang terbentuk
yaitu cluster I: 12, 21, 7, dan 15, cluster II: 4, 10, 13, 20, dan 2, cluster III: 1, 8,
14, 19, 18, 16, 9, 3, dan 6, cluster IV: 17, dan 11, cluster V: 5, dan cluster VI: 22.
Peneliti bisa juga mengambil kesimpulan ada 3 cluster yang terbentuk dengan
menggabungkan cluster III, IV, V dan VI. Ternyata ketiga cluster yang terbentuk
cenderung mencerminkan cluster berdasarkan geografis, yaitu :
1. Cluster I (12, 21, dan 7) merupakan perusahaan-perusahaan yang terletak di
bagian barat / timur pesisir laut.
2. Cluster II (1, 8, 14, 19, 18, 16, 9, 3, 6, 17, 11, 5, dan 22) cenderung terletak di
bagian utara.
3. Cluster III (4, 10, 13, 20, dan 2) terletak di bagian selatan.
Tabel 4.1 di bawah ini merupakan rata-rata masing-masing variabel dari
ketiga cluster, dari tabel tersebut dapat diperoleh ciri-ciri cluster (selain ciri
geografis) yaitu :
1. Cluster I mempunyai ciri rasio biaya tetap (X1), rata-rata keuntungan (X2),
puncak pertumbuhan permintaan (X5), penjualan per tahun (X6), dan persentase
nuklir (X7) paling rendah, sedangkan faktor beban tahunan (X4) dan total biaya
bahan bakar (X8) paling tinggi.
2. Cluster II mempunyai ciri rasio biaya tetap (X1), rata-rata keuntungan (X2),
puncak pertumbuhan permintaan (X5) dan persentase nuklir (X7) paling tinggi,
74
sedangkan biaya per KW (X3), faktor beban tahunan (X4), dan total biaya
bahan bakar (X8) paling rendah.
3. Cluster III mempunyai ciri biaya per KW (X3), dan penjualan per tahun (X6).
Cluster X1 X2 X3 X4 X5 X6 X7 X8 I (Barat/Timur) 1.088 9.82 180.25 63.2 2.33 6728.5 0.23 1.77II (Utara) 1.158 12.52 171.8 55.5 3.64 7046.2 31.2 0.89III (Selatan) 1.105 10.33 272.30 55.63 3.37 10306 8.25 0.98
Tabel 4.1. Rata-rata masing-masing variabel tiap cluster.
B. Kasus II
Diketahui data mobil (Lampiran 6) produk Amerika, Jepang dan Eropa yang
terdiri dari 66 tipe mobil dan 10 variabel-variabel sebagai berikut :
P : harga.
M : konsumsi bahan bakar (dalam mil per gallon).
H : headroom (dalam inchi)
R : jarak antara tempat duduk depan dengan tempat duduk belakang (dalam
inchi)
Tr : volume bagasi (dalam kubik)
W : berat mobil (dalam pound)
L : panjang mobil (dalam inchi)
T : diameter membelok (jarak yang diperlukan untuk membuat putaran U,
dalam feet)
D : displacement (dalam inchi kubik)
G : rasio gear untuk gear tinggi
75
Dari variabel-variabel tersebut akan dicari karakteristik mobil mewah dan mobil
tidak mewah, oleh karena itu akan dikelompokkan menjadi dua kelompok dengan
menggunakan metode K-Means Cluster. Langkah-langkah dan output analisis
dapat diamati pada Lampiran 7 dan 8.
Interpretasi Hasil Analisis :
Dari tabel ANOVA (Lampiran 8.f) diketahui bahwa nilai signifikansi uji F
untuk variabel P, M, R, Tr, W, L, T, D dan G kurang dari 0.05 yang berarti
terdapat perbedaan yang signifikan antara dua cluster yang terbentuk dalam
variabel tersebut. Sedangkan variabel H tidak terdapat perbedaan yang signifikan.
Informasi yang diperoleh dari tabel ANOVA dan Final Cluster Centers
(Lampiran 8.d) dapat digunakan untuk mengetahui karakteristik dari masing-
masing cluster yang terbentuk. Karakteristik masing-masing cluster dapat dilihat
pada tabel di bawah ini, cluster pertama merupakan cluster mobil tidak mewah
sedangkan cluster kedua merupakan cluster mobil mewah :
Variabel Cluster I (Mobil tidak mewah)
Cluster II (Mobil Mewah)
Centroid Cluster
I Cluster
II Harga Murah Mahal 5025 11777Konsumsi bahan bakar Hemat Boros 22 17
Jarak tempat duduk depan-belakang
Sempit Panjang 2.9 3.3
Berat mobil Ringan Berat 26.5 29.3Panjang mobil Kurang panjang Lebih panjang 13 17Diameter membelok
Tidak perlu banyak ruang
Perlu banyak ruang 2864 3878
Displacement Kecil Besar 185 207Rasio gear untuk gear tinggi Besar Kecil 40 42
Tabel 4.2. Karakteristik cluster I dan II
76
Berdasarkan tabel Cluster Membership (Lampiran 8.c) dapat diketahui
pengelompokkan tiap obyek dan berdasarkan model mobil dari data dapat
disimpulkan bahwa mobil-mobil mewah diproduksi dari Amerika dan Eropa,
sedangkan mobil tidak mewah banyak diproduksi dari Jepang.
No. Model Asal 1 Audi-5000 Amerika 2 Buick-Riviera Amerika 3 Cad.-Deville Amerika 4 Cad.-Eldorado Amerika 5 Cad.-Seville Amerika 6 Linc.-Continental Amerika 7 Linc.-Cont-Mark-V Amerika 8 Linc.-Versailles Amerika 9 Olds.-98 Amerika 10 Olds.-Tornado Amerika 11 Volvo-260 Eropa 12 BMW-320i Eropa
Tabel 4.3. Data Mobil Mewah dan Asal Produksi
Pada tabel Number of Cases in each Cluster (Lampiran 8.g) diperoleh
informasi semua obyek dapat dikelompokan dengan baik ke dalam cluster-cluster
yang terbentuk. Berdasarkan hasil interpretasi dan informasi yang diperoleh dari
beberapa tabel output SPSS ternyata data dan hasil pengelompokannya valid.
Hasil akhir pengelompokkan dapat dilihat di Lampiran 9 variabel C menunjukkan
cluster (cluster 1 : mobil tidak mewah dan cluster 2 : mobil mewah).
Berdasarkan data hasil pengelompokan dari analisis cluster (Lampiran 9),
peneliti ingin mengetahui apakah semua obyek benar-benar sudah tepat
dikelompokan dan mencari variabel-variabel yang mampu membedakan
kelompok kemudian menggunakan variabel-variabel tersebut untuk membuat
77
fungsi yang dapat mengelompokan suatu observasi ke dalam salah satu kelompok.
Oleh karena itu peneliti menggunakan analisis diskriminan yang dilakukan dengan
menggunakan metode Stepwise dalam SPSS . Hasil output SPSS dapat dilihat
pada Lampiran 11 dan berikut ini adalah interpretasi hasil outputnya :
Berdasarkan output tabel Group Statistics (Lampiran 11.b) dapat diketahui
bahwa ada perbedaan karakteristik mobil mewah dengan mobil tidak mewah.
Variabel yang paling signifikan adalah harga (P), sedangkan variabel-variabel
lainnya berbeda tetapi kurang signifikan. Untuk mengetahui apakah variabel-
variabel tersebut mengakibatkan perbedaan yang signifikan dapat dilihat pada
tabel Test of Equality of Group Means (Lampiran 11.c). Hasil outputnya sama
dengan hasil pada analisis cluster, variabel P, M, R, Tr, W, L, T, D dan G
mempunyai nilai signifikansi uji F kurang dari 0.05, hal ini berarti variabel-
variabel tersebut membedakan secara signifikan kedua kelompok, sedangkan
variabel headroom (H) tidak signifikan karena nilai signifikansi uji F lebih dari
0.05 yaitu 0.256. Kemudian untuk menunjukkan bahwa kesembilan variabel
tersebut benar-benar berbeda dapat dilihat tabel Lampiran 11.d, 11.e dan 11.f
yaitu Variable Entered/Removeda,b,c,d, Variables in the Analysis dan Variables
Not in the Analysis yang menyajikan proses analisis dengan metode stepwise.
Berdasarkan hasil analisis dengan metode stepwise dan tabel Wilks’ Lambda
Lampiran (11.g) tampak hanya variabel harga (P) saja yang paling efisien didalam
membedakan antara mobil mewah dan mobil tidak mewah dengan nilai signifikasi
0.00, sehingga variabel harga (P) dipakai untuk membentuk fungsi diskriminan.
78
Selanjutnya, tabel Eigenvalues (Lampiran 11.h) terdapat Eigenvalue yang
nilainya 3.886, nilai eigen semakin besar, semakin baik fungsi yang terbentuk.
Nilai Canonical Correlation adalah 0.892. Hal ini berarti bila fungsi dalam model
tersebut digunakan, maka 89.2 % variasi variabel dependen (C) dapat dijelaskan
oleh variabel harga (P), sedangkan sisanya 10.8 % dapat dijelaskan oleh faktor
lain. Pada tabel Wilks’ Lambda (Lampiran 11.i) diperoleh nilai Chi-square
sebesar 100.740 dengan signifikasi 0.000. Hal ini mengindikasikan bahwa ada
perbedaan yang signifikan antara dua kelompok pada model diskriminan. Tabel
Structure Matrix (Lampiran 11.k) menjelaskan korelasi antara variabel
independen dengan fungsi diskriminan yang terbentuk. Variabel yang memiliki
korelasi cukup erat adalah variabel harga (1.000). Fungsi diskriminan tiap
kelompok yang terbentuk dapat diketahui dari hasil output tabel Classification
Function Coefficients (Lampiran 11.p), yaitu
PDPD
007.0232.3903.0710.7
2
1
+−=+−=
Hasil rinci pengelompokan tiap obyek dengan fungsi diskriminan dan apakah
pengelompokannya sudah sesuai dengan hasil pengelompokan dari analisis cluster
dapat dilihat di tabel Casewise Statistics (Lampiran 11.q), diperoleh informasi
bahwa semua obyek dapat dikelompokan sesuai dengan data hasil pengelompokan
dari analisis cluster. Hal ini diperkuat dengan hasil output tabel Classification
Resultsb,c (Lampiran 11.r), tampak bahwa angka ketepatan prediksi sebesar 100%.
Dari uraian hasil output SPSS tersebut dapat disimpulkan bahwa fungsi
diskriminan yang terbentuk layak untuk mengklasifikasikan obyek-obyek yang
79
diamati dan dapat memperkuat hasil output analisis cluster bahwa data serta kedua
kelompok yang terbentuk valid.
BAB V
KESIMPULAN
Analisis cluster termasuk dalam analisis statistik multivariat metode
interdependen, sebagai alat analisis interdependen maka tujuan analisis cluster
tidak untuk menghubungkan ataupun membedakan dengan sampel ataupun
variabel yang lain. Analisis cluster merupakan salah satu alat analisis yang
berguna dalam meringkas. Dalam melakukan proses meringkas data ini dapat di
lakukan dengan jalan mengelompokkan obyek-obyek berdasarkan kesamaan
karakteristik tertentu di antara obyek-obyek yang hendak di teliti.
Pembentukan kelompok-kelompok observasi ini berdasarkan jarak,
observasi yang mirip seharusnya berada dalam kelompok yang sama, dan data
observasi yang jauh seharusnya berada dalam kelompok yang berbeda.
Pembentukan kelompok ini akan diikuti dengan terjadinya pengelompokan yang
menunjukkan kedekatan kesamaan antar kasus. Berdasarkan tipe data, ukuran
kesamaan antar obyek dibedakan menjadi dua, yaitu sistem metrik dan koefisien
asosiasi. Sistem metrik digunakan untuk tipe data kontinu, yang ditampilkan
dalam bentuk matriks nxdX dengan n banyaknya obyek dan d banyaknya variabel
dan dideskripsikan sebagai matriks nxnD yang berisi ukuran kesamaan antar obyek.
Sedangkan koefisien asosiasi digunakan untuk tipe data biner.
Dalam analisis cluster dibagi dua besar metode yaitu metode hierarki dan
metode nonhierarki. Metode hierarki dibagi dua yaitu agglomerative dan divisive.
Metode agglomerative dimulai dengan mengganggap setiap obyek sebagai cluster
81
kemudian menggabungkannya hingga menjadi satu cluster, sebaliknya metode
divisive dimulai dengan menempatkan semua obyek sebagai satu cluster,
kemudian secara bertahap obyek-obyek dipisahkan hingga masing-masing obyek
menjadi satu cluster. Metode nonhierarki yang berkembang adalah metode K-
means cluster. Perbedaan metode hierarki dengan nonhierarki adalah pertama,
pada metode nonhierarki jumlah cluster yang akan terbentuk sudah ditentukan
dahulu, sedangkan metode hierarki baru dapat dilihat setelah melakukan analisis.
Kedua, pada metode nonhierarki, penentuan centroid awal sangat menentukan
iterasi yang akan terjadi, sedangkan metode hierarki tidak ditentukan di awal
analisis dan ketiga, umumnya metode nonhierarki digunakan dalam menganalisa
data yang jumlahnya besar.
82
DAFTAR PUSTAKA
Asmara, Prasetya. (2006). Skripsi : Analisis Diskriminan K Kelompok. Yogyakarta.
Duda, Richard O. Hart, Peter E. dan Stork, David G. (2000). Pattern
Classification. New York : John Wiley & Sons, Inc. Gibbons, Jean Dickinson. (1975). Non Parametic Methods For Quantitative
Analysis. Hair, J. E., Anderson, R.E., Tatham R.L, dan Black, W. (1998). Multivariate Data
Analysis, Fifth Edition. Upper Saddle River : Prentice Hall. Hardle, Simar. Applied Multivariate Statistical Analysis. Didownload pada 3
September 2007 dari : Http://AppliedMultivariateStatisticalAnalysis(HardleSimar)ISBN3-540-
03079.htm Schalchoff, R. J. (1992). Pattern Recognition : Statistical, Structural and Neural
Approaches. Singapore : John Wiley & Sons, Inc. Seber, G.A.F. (1984). Multivariate Observations. New York : John Wiley & Sons.
Supranto, J. (2004). Analisis Multivariat: Arti & Interpretasi. Jakarta : Rineka Cipta.
Simamora Bilson. (2005). Analisis Multivariat Pemasaran. Jakarta : Gramedia
Tim Penelitian dan Pengembangan Wahana. (2005). Pengembangan Analisis Multivariat dengan SPSS 12. Jakarta : Salemba Infotek
www.pdf-search-engine.com/cluster-analysis-pdf.html. Didownload pada tanggal 29 Oktober 2008
83
LAMPIRAN
Lampiran 1
Program untuk Menganalisa Contoh 3.9
function y=kMeansCluster(m,k,isRand) %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %Tujuan : mengelompokan obyek dari data matriks berdasarkan % atribut-atribut. %Kriteria : menggunakan jarak minimal Euclidean antara % centroid dan titik obyek % Input : % - m : data matriks (obyek pada baris dan atribut pada
kolom) % - k : jumlah kelompok % - isrand : bilangan random (centroid awal) % Output : data matriks ditambah satu kolom yang mewakili
kelompok setiap obyek % % Variabel-variabel yang lain : % - c : ukuran koordinat centroid (1:k, 1:maxCol) % - i : skalar iterator % - maxCol : jumlah baris pada matriks m = jumlah atribut % - maxRow : jumlah kolom pada data matriks m = jumlah obyek %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% if nargin<3, isRand=0; end if nargin<2, k=1; end [maxRow, maxCol]=size(m) if maxRow<=k, y=[m, 1:maxRow] else % initial nilai centroid if isRand, p = randperm(size(m,1)); for i=1:k c(i,:)=m(p(i),:) end else for i=1:k c(i,:)=m(i,:) end end
84
temp=zeros(maxRow,1);
while 1, d=DistMatrix(m,c); % menghitung jarak masing-masing
obyek dengan centroid [z,g]=min(d,[],2); if g==temp, break; % iterasi berhenti else temp=g; end for i=1:k f=find(g==i); if f c(i,:)=mean(m(find(g==i),:),1); end end end y=[m,g]; end
function d=DistMatrix(A,B) [hA,wA]=size(A); [hB,wB]=size(B); if wA ~= wB, error(' Perhatikan ukuran
matriks'); end for k=1:wA C{k}= repmat(A(:,k),1,hB); D{k}= repmat(B(:,k),1,hA); end S=zeros(hA,hB); for k=1:wA S=S+(C{k}-D{k}').^2; end
85
Lampiran 2
Output Program 1
>> kMeansCluster([-7.82 -4.58 -3.97;-6.68 3.16 2.71;4.36 -2.19 2.09;6.72 0.88
2.8;-8.64 3.06 3.5;-6.87 0.57 -5.45;4.47 -2.62 5.76;6.73 -2.01 4.18;-7.71 2.34 -
6.33;-6.91 -0.49 -5.68;6.18 2.81 5.82;6.72 -0.93 -4.04;-6.25 -0.26 0.56;-6.94 -1.22
1.13;8.09 0.2 2.25;6.81 0.17 -4.15;-5.19 4.24 4.04;-6.38 -1.74 1.43;4.08 1.3
5.33;6.27 0.93 -2.78],2,0)
maxRow =
20
maxCol =
3
c =
-7.8200 -4.5800 -3.9700
c =
-7.8200 -4.5800 -3.9700
-6.6800 3.1600 2.7100
ans =
-7.8200 -4.5800 -3.9700 1.0000
-6.6800 3.1600 2.7100 1.0000
4.3600 -2.1900 2.0900 2.0000
6.7200 0.8800 2.8000 2.0000
-8.6400 3.0600 3.5000 1.0000
-6.8700 0.5700 -5.4500 1.0000
86
4.4700 -2.6200 5.7600 2.0000
6.7300 -2.0100 4.1800 2.0000
-7.7100 2.3400 -6.3300 1.0000
-6.9100 -0.4900 -5.6800 1.0000
6.1800 2.8100 5.8200 2.0000
6.7200 -0.9300 -4.0400 2.0000
-6.2500 -0.2600 0.5600 1.0000
-6.9400 -1.2200 1.1300 1.0000
8.0900 0.2000 2.2500 2.0000
6.8100 0.1700 -4.1500 2.0000
-5.1900 4.2400 4.0400 1.0000
-6.3800 -1.7400 1.4300 1.0000
4.0800 1.3000 5.3300 2.0000
6.2700 0.9300 -2.7800 2.0000
87
Lampiran 3
Data Perusahaan Listrik di Amerika Serikat
No. Perusahaan X1 X2 X3 X4 X5 X6 X7 X8 1 Arizona Public Service 1.06 9.20 151 54.4 1.6 9077 0 0.6282 Boston Edison Company 0.89 10.3 202 57.9 2.2 5088 25.3 1.5553 Central Lousiana Electric Co. 1.43 15.4 113 53.0 3.4 9212 0 1.0584 Commonwealth Edison Co. 1.02 11.2 168 56.0 0.3 6423 34.3 0.7005 Consolidated Edison Co. (NY) 1.49 8.80 1.92 51.2 1.0 3300 15.6 2.0446 Florida Power and Light 1.32 13.50 111 60.0 -2.2 11127 22.5 1.2417 Hawaiian Electric Co. 1.22 12.20 175 67.6 2.2 7642 0 1.6528 Idaho Power Co. 1.10 9.20 245 57.0 3.3 13082 0 0.3099 Kentucky Utilities Co. 1.34 13.00 168 60.4 7.2 8406 0 0.862
10 Madison Gas & Electric Co. 1.12 12.40 197 53.0 2.7 6455 39.2 0.62311 Nevada Power Co. 0.75 7.50 173 51.5 6.5 17441 0 0.76812 New England Electric Co. 1.13 10.90 178 62.0 3.7 6154 0 1.89713 Northern States Power Co. 1.15 12.70 199 53.7 6.4 7179 50.2 0.52714 Oklahoma Gas and Electric Co. 1.09 12.00 96 49.8 1.4 9673 0 0.58815 Pacific Gas & Electric Co. 0.96 7.60 164 62.2 -0.1 6468 0.9 1.40016 Puget Sound Power & Light Co. 1.16 9.90 252 56.0 9.2 15991 0 0.62017 San Diego Gas & Electric Co. 0.76 6.40 136 61.9 9.0 5714 8.3 1.92018 The Southern Co. 1.05 12.60 150 56.7 2.7 10140 0 1.10819 Texas Utilities Co. 1.16 11.70 104 54.0 -2.1 13507 0 0.63620 Wisconsin Electric Power Co. 1.20 11.80 148 59.9 3.5 7297 41.1 0.70221 United Illuminating Co. 1.04 8.60 204 61.0 3.5 6650 0 2.11622 Virginia Electric & Power Co. 1.07 9.30 1784 54.3 5.9 10093 26.6 1.306
Sumber : www.pdf-search-engine.com\cluster-analysis-pdf.html
88
Lampiran 4
Langkah-langkah analisis dengan menggunakan SPSS untuk data kasus I :
a. Buka file data perusahaan listrik.sav.
b. Pada menu bar pilih Analyze lalu submenu Classify, kemudian pilih
Hierarchical Cluster.
c. Muncul kotak dialog Hierarchical Cluster Analysis, pada kotak
variable(s) masukkan variabel X1-X8 dan pada kotak Label Cases by
masukkan perusahaan.
d. Kemudian pilih tab statistic, muncul kotak dialog Hierarchical Cluster
Analysis: statistics, klik pada proximity matrix dan Continue.
e. Pilih tab Plots, muncul kotak dialog Hierarchical Cluster Analysis: Plots,
klik pada dendogram dan Continue.
f. Pilih tab Method, muncul kotak dialog Hierarchical Cluster Analysis:
Method, pilih Nearest neighbor pada kotak Cluster Method dan Eucliean
distance pada kotak interval. Lalu pilih Z score pada kotak Standardize
dan klik Continue. Kemudian klik OK untuk mengeksekusi.
89
Lampiran 5
Output Analisis Cluster Data Kasus I dengan Metode Single Linkage
5. a. Case Processing Summarya
22 100.0% 0 .0% 22 100.0%N Percent N Percent N Percent
Valid Missing TotalCases
Euclidean Distance useda.
5. b. Agglomeration Schedule
Stage
Cluster Combined
Coefficients
Stage Cluster First Appears
Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2 1 12 21 1.234 0 0 6 2 4 10 1.317 0 0 3 3 4 13 1.406 2 0 7 4 1 8 1.535 0 0 5 5 1 14 1.646 4 0 9 6 7 12 1.658 0 1 8 7 4 20 1.681 3 0 11 8 7 15 1.862 6 0 13 9 1 19 1.866 5 0 10 10 1 18 1.877 9 0 12 11 2 4 2.003 0 7 13 12 1 16 2.195 10 0 14 13 2 7 2.318 11 8 14 14 1 2 2.357 12 13 15 15 1 9 2.389 14 0 16 16 1 3 2.412 15 0 17 17 1 6 2.576 16 0 18 18 1 17 2.625 17 0 19 19 1 11 2.853 18 0 20 20 1 5 3.623 19 0 21 21 1 22 5.075 20 0 0
90
5.cProximity Matrix
.000 2.842 3.563 2.428 4.024 3.475 3.859 1.535 3.228 2.894 3.451 3.157 3.787 1.646 2.574 3.215 4.382 1.877 2.128 3.173 3.208 5.2612.842 .000 4.424 2.003 3.887 3.604 3.386 3.752 3.871 2.703 4.742 2.363 3.434 3.488 2.327 4.685 3.256 2.620 3.988 2.701 2.318 5.0753.563 4.424 .000 3.887 4.049 2.992 3.944 3.845 2.412 3.374 5.723 3.714 3.865 2.711 5.008 4.060 6.332 2.574 3.172 3.636 4.591 6.1162.428 2.003 3.887 .000 4.113 2.892 3.966 3.193 3.754 1.317 4.863 3.490 2.466 2.724 3.189 4.536 4.832 2.616 3.102 1.752 3.786 5.2794.024 3.887 4.049 4.113 .000 4.170 4.604 5.040 4.477 4.082 6.463 3.623 4.788 4.226 4.226 5.677 5.475 4.238 4.677 4.275 3.678 6.3143.475 3.604 2.992 2.892 4.170 .000 2.977 3.703 3.469 3.219 5.816 3.372 4.031 3.450 3.860 4.752 6.070 2.695 2.576 2.771 4.049 6.0533.859 3.386 3.944 3.966 4.604 2.977 .000 4.025 2.791 4.475 5.996 1.658 4.977 4.531 2.918 4.688 4.480 2.887 4.178 3.482 2.582 6.0871.535 3.752 3.845 3.193 5.040 3.703 4.025 .000 3.078 3.487 2.996 3.725 3.989 2.427 3.318 2.195 4.748 2.288 2.306 3.359 3.852 5.1763.228 3.871 2.412 3.754 4.477 3.469 2.791 3.078 .000 3.503 5.174 2.725 3.582 3.399 4.112 3.009 4.840 2.389 3.808 2.908 3.641 5.6142.894 2.703 3.374 1.317 4.082 3.219 4.475 3.487 3.503 .000 5.049 3.915 1.406 2.666 4.189 4.333 5.284 2.854 3.469 1.681 4.359 5.1703.451 4.742 5.723 4.863 6.463 5.816 5.996 2.996 5.174 5.049 .000 5.207 5.273 3.896 4.731 2.853 4.667 3.907 4.205 5.317 4.827 5.7383.157 2.363 3.714 3.490 3.623 3.372 1.658 3.725 2.725 3.915 5.207 .000 4.468 3.859 2.304 4.259 3.348 2.357 4.038 3.354 1.234 5.4723.787 3.434 3.865 2.466 4.788 4.031 4.977 3.989 3.582 1.406 5.273 4.468 .000 3.615 5.033 4.217 5.397 3.592 4.457 1.856 4.936 5.2511.646 3.488 2.711 2.724 4.226 3.450 4.531 2.427 3.399 2.666 3.896 3.859 3.615 .000 3.910 3.546 5.474 1.897 1.866 3.528 4.183 5.6502.574 2.327 5.008 3.189 4.226 3.860 2.918 3.318 4.112 4.189 4.731 2.304 5.033 3.910 .000 4.720 3.332 2.980 3.762 3.763 1.862 5.7033.215 4.685 4.060 4.536 5.677 4.752 4.688 2.195 3.009 4.333 2.853 4.259 4.217 3.546 4.720 .000 4.805 3.122 3.827 4.119 4.420 5.2404.382 3.256 6.332 4.832 5.475 6.070 4.480 4.748 4.840 5.284 4.667 3.348 5.397 5.474 3.332 4.805 .000 4.413 6.041 4.858 2.625 5.8651.877 2.620 2.574 2.616 4.238 2.695 2.887 2.288 2.389 2.854 3.907 2.357 3.592 1.897 2.980 3.122 4.413 .000 2.211 2.921 2.907 5.2792.128 3.988 3.172 3.102 4.677 2.576 4.178 2.306 3.808 3.469 4.205 4.038 4.457 1.866 3.762 3.827 6.041 2.211 .000 3.756 4.349 5.9843.173 2.701 3.636 1.752 4.275 2.771 3.482 3.359 2.908 1.681 5.317 3.354 1.856 3.528 3.763 4.119 4.858 2.921 3.756 .000 3.919 5.3123.208 2.318 4.591 3.786 3.678 4.049 2.582 3.852 3.641 4.359 4.827 1.234 4.936 4.183 1.862 4.420 2.625 2.907 4.349 3.919 .000 5.3715.261 5.075 6.116 5.279 6.314 6.053 6.087 5.176 5.614 5.170 5.738 5.472 5.251 5.650 5.703 5.240 5.865 5.279 5.984 5.312 5.371 .000
Case1:Arizona Public Servi2:Boston Edison Compan3:Central Lousiana Ele4:Commonwealth Edison5:Consolidated Edison6:Florida Power and Li7:Hawaiian Electric Co8:Idaho Power Co.9:Kentucky Utilities C10:Madison Gas & Electr11:Nevada Power Co.12:New England Electric13:Northern States Powe14:Oklahoma Gas and Ele15:Pacific Gas & Electr16:Puget Sound Power &17:San Diego Gas & Elec18:The Southern Co.19:Texas Utilities Co.20:Wisconsin Electric P21:United Illuminating22:Virginia Electric &
1:Arizo
naPubli
cServi
2:Boston
Edison
Compan
3:Central
LousianaEle
4:Commonwealt
hEdison
5:ConsolidatedEdison
6:Florida
Power
andLi
7:HawaiianElect
ricCo
8:Idah
oPower
Co.
9:KentuckyUtilities C
10:MadisonGas
&Elect
r
11:Neva
daPower
Co.
12:NewEngland
Electric
13:NorthernState
sPow
e
14:Oklahom
aGasandEle
15:Pacifi
cGas
&Elect
r
16:Puge
tSoun
dPower &
17:SanDieg
oGas
&Elec
18:TheSouthernCo.
19:Texa
sUtilitiesCo.
20:Wisconsi
nElectric P
21:Unite
dIlluminatin
g
22:Virginia
Electric &
Euclidean Distance
This is a dissimilarity matrix
91
5. d Vertical Icicle
Vertical Icicle
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X
Number of clusters123456789101112131415161718192021
22:V
irgin
ia E
lect
ric &
5:C
onso
lidat
ed E
diso
n
11:N
evad
a P
ower
Co.
17:S
an D
iego
Gas
& E
lec
6:Fl
orid
a P
ower
and
Li
3:C
entra
l Lou
sian
a E
le
9:K
entu
cky
Util
ities
C
15:P
acifi
c G
as &
Ele
ctr
21:U
nite
d Ill
umin
atin
g
12:N
ew E
ngla
nd E
lect
ric
7:H
awai
ian
Ele
ctric
Co
20:W
isco
nsin
Ele
ctric
P
13:N
orth
ern
Sta
tes
Pow
e
10:M
adis
on G
as &
Ele
ctr
4:C
omm
onw
ealth
Edi
son
2:B
osto
n E
diso
n C
ompa
n
16:P
uget
Sou
nd P
ower
&
18:T
he S
outh
ern
Co.
19:T
exas
Util
ities
Co.
14:O
klah
oma
Gas
and
Ele
8:Id
aho
Pow
er C
o.
1:A
rizon
a P
ublic
Ser
vi
Case
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
Dendrogram using Single Linkage
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+
New England Electric 12 òûòòòø
United Illuminating 21 ò÷ ùòòòø
Hawaiian Electric Co 7 òòòòò÷ ùòòòòòø
Pacific Gas & Electr 15 òòòòòòòòò÷ ó
Commonwealth Edison 4 òûòø ó
Madison Gas & Electr 10 ò÷ ùòø ó
Northern States Powe 13 òòò÷ ùòòòòòø ó
Wisconsin Electric P 20 òòòòò÷ ùòòòú
Boston Edison Compan 2 òòòòòòòòòòò÷ ó
Arizona Public Servi 1 òòòûòø ó
Idaho Power Co. 8 òòò÷ ùòòòø ó
Oklahoma Gas and Ele 14 òòòòò÷ ó ó
Texas Utilities Co. 19 òòòòòòòòòôòòòø ó
The Southern Co. 18 òòòòòòòòò÷ ùòôòø
Puget Sound Power & 16 òòòòòòòòòòòòò÷ ó ó
Kentucky Utilities C 9 òòòòòòòòòòòòòòòú ùòø
Central Lousiana Ele 3 òòòòòòòòòòòòòòò÷ ó ùòø
Florida Power and Li 6 òòòòòòòòòòòòòòòòò÷ ó ùòòòòòòòòòø
San Diego Gas & Elec 17 òòòòòòòòòòòòòòòòòòò÷ ó ùòòòòòòòòòòòòòòòòòø
Nevada Power Co. 11 òòòòòòòòòòòòòòòòòòòòò÷ ó ó
Consolidated Edison 5 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó
Virginia Electric & 22 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
92
93
Lampiran 6
Data Kasus II
No. Model P M H R Tr W L T D G 1 AMC-Concord 4099 22 3 28 11 2930 186 40 121 3.582 AMC-Pacer 4749 17 3 26 11 3350 173 40 258 2.533 Buick-Century 4816 20 5 29 16 3250 196 40 196 2.934 Buick-Electra 7827 15 4 32 20 4080 222 43 350 2.415 Buick-Le-Sabre 5788 18 4 31 21 3670 218 43 231 2.736 Buick-Regal 5189 20 2 29 16 3280 200 42 196 2.937 Buick-Skylark 4082 19 4 27 13 3400 200 42 231 3.088 Chev.-Chevette 3299 29 3 26 9 2110 163 34 231 2.939 Chev.-Impala 5705 16 4 30 20 3690 212 43 250 2.5610 Chev.-Malibu 4504 22 4 29 17 3180 193 41 200 2.7311 Chev.-Monte-Carlo 5104 22 2 29 16 3220 200 41 200 2.7312 Chev.-Monza 3667 24 2 25 7 2750 179 40 151 2.7313 Chev.-Nova 3955 19 4 27 13 3430 197 43 250 2.5614 Dodge-Diplomat 5010 18 4 29 17 3600 206 46 318 2.4715 Dodge-Magnum-XE 5886 16 4 26 16 3870 216 48 318 2.7116 Dodge-St.-Regis 6342 17 5 28 21 3740 220 46 225 2.9417 Ford-Mustang 4187 21 2 23 10 2650 179 42 140 3.0818 Mazda-GLC 3995 30 4 26 11 1980 154 33 86 3.7319 Merc.-Bobcat 3829 22 3 26 9 2580 169 39 140 2.7320 Merc.-Cougar 5379 14 4 30 16 4060 221 48 302 2.7521 Merc.-Cougar-XR-7 6303 14 3 25 16 4130 217 45 302 2.7522 Merc.-Marquis 6165 15 4 31 23 3720 212 44 302 2.2623 Merc.-Zephyr 3291 20 4 29 17 2830 195 43 140 3.0824 Olds.-Cutlass 4733 19 5 28 16 3300 198 42 231 2.9325 Olds.-Cutl-Supr 5172 19 2 28 16 3310 198 42 231 2.9326 Olds.-Delta-88 5890 18 4 29 20 3690 218 42 231 2.7327 Olds.-Omega 4181 19 5 27 14 3370 200 43 231 3.0828 Olds.-Starfire 4195 24 2 26 10 2720 180 40 151 2.7329 Plym.-Arrow 4647 28 2 22 11 2360 170 37 156 3.0530 Plym.-Champ 4425 34 3 23 11 1800 157 37 86 2.9731 Plym.-Volare 4060 18 5 31 16 3330 201 44 225 3.2332 Pont.-Catalina 5798 18 4 29 20 3700 214 42 231 2.7333 Pont.-Firebird 4934 18 2 24 7 3470 198 42 231 3.0834 Pont.-Grand-Prix 5222 19 2 29 16 3210 201 45 231 2.9335 Pont.-Le-Mans 4723 19 4 28 17 3200 199 40 231 2.93
94
36 Pont.-Sunbird 4172 24 2 25 7 2690 179 41 151 2.7337 Honda-Accord 5799 25 3 26 10 2240 172 36 107 3.0538 Honda-Civic 4499 28 3 24 5 1760 149 34 91 3.3039 Datsun-200-SX 6229 23 2 21 6 2370 170 35 119 3.8940 Datsun-210 4589 35 2 24 8 2020 165 32 85 3.7041 Datsun-510 5079 24 3 22 8 2280 170 34 119 3.5442 Datsun-810 8129 21 3 27 8 2750 184 38 146 3.5543 Dodge-Colt 3984 30 2 24 8 2120 163 35 98 3.5444 Subaru 3798 35 3 26 11 2050 164 36 97 3.8145 Toyota-Cecila 5899 18 3 22 14 2410 174 36 134 3.0646 Toyota-Corolla 3748 31 3 25 9 2200 165 35 97 3.2147 Toyota-Corona 5719 18 2 23 11 2670 175 36 134 3.0548 VW-Rabbit 4697 25 3 26 15 1930 155 35 89 3.7849 VW-Rabbit-Diesel 5397 41 3 26 15 2040 155 35 90 3.7850 VW-Scirocco 6850 25 2 24 16 1990 156 36 97 3.7851 VW-Dasher 7140 23 3 38 12 2160 172 36 97 3.7452 Audi-Fox 6295 23 3 28 11 2070 174 36 97 3.7053 Fiat-Strada 4296 21 3 27 16 2130 161 36 105 3.3754 Renault-Le-Car 3895 26 3 23 10 1830 142 34 79 3.7255 Audi-5000 9690 17 3 27 15 2830 189 37 131 3.2056 Buick-Riviera 10372 16 4 30 17 3880 207 43 231 2.9357 Cad.-Deville 11385 14 4 32 20 4330 221 44 425 2.2858 Cad.-Eldorado 14500 14 4 30 16 3900 204 43 350 2.1959 Cad.-Seville 15906 21 3 30 13 4290 204 45 350 2.2460 Linc.-Continental 11497 12 4 31 22 4840 233 51 400 2.4761 Linc.-Cont-Mark-V 13594 12 3 29 18 4720 230 48 400 2.4762 Linc.-Versailles 13466 14 4 27 15 3830 201 41 302 2.4763 Olds.-98 8814 21 4 32 20 4060 220 43 350 2.4164 Olds.-Tornado 10371 16 4 30 17 4030 206 43 350 2.4165 Volvo-260 11995 17 3 30 14 3170 193 37 163 2.9866 BMW-320i 9735 25 3 26 12 2650 177 34 121 3.64Sumber : Applied Multivariate Statistical Analysis (Hardle, Simar)
95
Lampiran 7
Langkah-langkah analisis dengan menggunakan SPSS untuk data kasus II :
a. Buka file data mobil.sav.
b. Pada menu bar pilih Analyze lalu submenu Classify, kemudian pilih K-
Means Cluster.
c. Muncul kotak dialog K-Means Cluster Analysis. Masukkan variabel P, M,
H, R, Tr, W, L, T, D dan G ke kotak Variables. Masukkan variabel model
ke kotak Label Cases by, hal ini cluster akan dilakukan berdasarkan model
mobil. Namun ada tidaknya variabel model ini tidak akan berpengaruh
terhadap proses cluster, karena hanya pemberian label saja. Selanjutnya,
masukkan angka 2 ke dalam kotak Number of Cluster, berarti cluster
yang akan terbentuk sebanyak 2. Untuk Method tetap pada pilihan
Iterate and classify. Kemudian pilih Iterate…, muncul kotak dialog K-
Means Cluster: Iterate, isikan Convergence Criterion : 0 dan Maximum
Iterations : 10 lalu pilih Continue. Lalu pilih Save…, muncul kotak dialog
K-Means Cluster: Save New Variables, aktifkan Cluster membership dan
Distance from cluster center kemudian pilih Continue. Lalu pilih
Options…, aktifkan semua item dalam kelompok Statistics dan pilih
Continue. Untuk mengeksekusi analisis cluster, pilih OK.
96
Lampiran 8
Output Analisis Cluster untuk Kasus II Quick Cluster
8. a. Initial Cluster Centers
3299 1590629 212.5 3.0
26.0 30.09 13
2110 4290163 20434 45
231 3502.93 2.24
PMH R TrWLTD G
1 2Cluster
8. b. Iteration Historya
1956.49 3883.7572.305 269.927
.000 .000
Iteration123
1 2
Change in ClusterCenters
Convergence achieved due to no or smallchange in cluster centers. The maximumabsolute coordinate change for any center is .000. The current iteration is 3. The minimumdistance between initial centers is 12794.722.
a.
97
8.c. Cluster Membership
Case Number
Model Cluster Distance
1 AMC-Concord 1 930.3872 AMC-Pacer 1 564.6133 Buick-Century 1 439.3594 Buick-Electra 1 3059.1805 Buick-Le-Sabre 1 1111.2606 Buick-Regal 1 447.4287 Buick-Skylark 1 1086.1798 Chev.-Chevette 1 1884.7549 Chev.-Impala 1 1072.29110 Chev.-Malibu 1 609.89011 Chev.-Monte-Carlo 1 365.29812 Chev.-Monza 1 1363.38313 Chev.-Nova 1 1212.78114 Dodge-Diplomat 1 749.35415 Dodge-Magnum-XE 1 1331.50016 Dodge-St.-Regis 1 1582.46017 Ford-Mustang 1 866.12118 Mazda-GLC 1 1361.25919 Merc.-Bobcat 1 1230.30420 Merc.-Cougar 1 1253.63821 Merc.-Cougar-XR-7 1 1803.06722 Merc.-Marquis 1 1430.88023 Merc.-Zephyr 1 1735.08024 Olds.-Cutlass 1 527.49125 Olds.-Cutl-Supr 1 472.40026 Olds.-Delta-88 1 1197.28827 Olds.-Omega 1 985.68828 Olds.-Starfire 1 843.19029 Plym.-Arrow 1 631.01630 Plym.-Champ 1 1225.76231 Plym.-Volare 1 1072.92032 Pont.-Catalina 1 1139.83433 Pont.-Firebird 1 615.02134 Pont.-Grand-Prix 1 401.61635 Pont.-Le-Mans 1 455.04936 Pont.-Sunbird 1 871.37337 Honda-Accord 1 996.82538 Honda-Civic 1 1226.97439 Datsun-200-SX 1 1302.73440 Datsun-210 1 955.25741 Datsun-510 1 589.99842 Datsun-810 1 3106.000
98
43 Dodge-Colt 1 1282.68044 Subaru 1 1475.29745 Toyota-Cecila 1 985.84846 Toyota-Corolla 1 1442.16747 Toyota-Corona 1 721.88548 VW-Rabbit 1 994.76649 VW-Rabbit-Diesel 1 909.23150 VW-Scirocco 1 2025.20951 VW-Dasher 1 2230.46652 Audi-Fox 1 1499.94253 Fiat-Strada 1 1037.78154 Renault-Le-Car 1 1535.92255 Audi-5000 2 2341.22756 Buick-Riviera 2 1406.67157 Cad.-Deville 2 612.28958 Cad.-Eldorado 2 2723.51459 Cad.-Seville 2 4149.80660 Linc.-Continental 2 1008.02061 Linc.-Cont-Mark-V 2 2005.49962 Linc.-Versailles 2 1689.60663 Olds.-98 2 2969.19264 Olds.-Tornado 2 1415.29565 Volvo-260 2 752.62066 BMW-320i 2 2389.389
8. d. Final Cluster Centers
5025 1177722 172.9 3.3
26.5 29.313 17
2864 3878185 20740 42
178 2983.08 2.64
P MH RTrWLTD G
1 2Cluster
99
8. g. Number of Cases in each Cluster
54.00012.00066.000
.000
1 2
Cluster
Valid Missing
8. f. ANOVA
447580259 1 1799467.7 64 248.729 .000310.142 1 30.620 64 10.129 .002
.917 1 .697 64 1.316 .25674.500 1 8.096 64 9.202 .003
103.705 1 17.796 64 5.828 .01910079903 1 486077.271 64 20.737 .0004652.526 1 446.603 64 10.418 .002
78.304 1 17.843 64 4.388 .040139750.189 1 6696.868 64 20.868 .000
1.931 1 .187 64 10.344 .002
PMH R TrWLTD G
Mean Square df
ClusterMeanSquare df
Error
F Sig.
The F tests should be used only for descriptive purposes because the clusters havebeen chosen to maximize the differences among cases in different clusters. Theobserved significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
8. e. Distances between Final Cluster Centers
6828.496828.49
Cluste r12
1 2
100
Lampiran 9
Hasil Pengelompokan dengan Analisis Cluster yang akan dianalisa dengan
Analisis Diskriminan
No. Model P M H R Tr W L T D G C1 AMC-Concord 4099 22 3 28 11 2930 186 40 121 3.58 1 2 AMC-Pacer 4749 17 3 26 11 3350 173 40 258 2.53 1 3 Buick-Century 4816 20 5 29 16 3250 196 40 196 2.93 1 4 Buick-Electra 7827 15 4 32 20 4080 222 43 350 2.41 1 5 Buick-Le-Sabre 5788 18 4 31 21 3670 218 43 231 2.73 1 6 Buick-Regal 5189 20 2 29 16 3280 200 42 196 2.93 1 7 Buick-Skylark 4082 19 4 27 13 3400 200 42 231 3.08 1 8 Chev.-Chevette 3299 29 3 26 9 2110 163 34 231 2.93 1 9 Chev.-Impala 5705 16 4 30 20 3690 212 43 250 2.56 1 10 Chev.-Malibu 4504 22 4 29 17 3180 193 41 200 2.73 1 11 Chev.-Monte-Carlo 5104 22 2 29 16 3220 200 41 200 2.73 1 12 Chev.-Monza 3667 24 2 25 7 2750 179 40 151 2.73 1 13 Chev.-Nova 3955 19 4 27 13 3430 197 43 250 2.56 1 14 Dodge-Diplomat 5010 18 4 29 17 3600 206 46 318 2.47 1 15 Dodge-Magnum-XE 5886 16 4 26 16 3870 216 48 318 2.71 1 16 Dodge-St.-Regis 6342 17 5 28 21 3740 220 46 225 2.94 1 17 Ford-Mustang 4187 21 2 23 10 2650 179 42 140 3.08 1 18 Mazda-GLC 3995 30 4 26 11 1980 154 33 86 3.73 1 19 Merc.-Bobcat 3829 22 3 26 9 2580 169 39 140 2.73 1 20 Merc.-Cougar 5379 14 4 30 16 4060 221 48 302 2.75 1 21 Merc.-Cougar-XR-7 6303 14 3 25 16 4130 217 45 302 2.75 1 22 Merc.-Marquis 6165 15 4 31 23 3720 212 44 302 2.26 1 23 Merc.-Zephyr 3291 20 4 29 17 2830 195 43 140 3.08 1 24 Olds.-Cutlass 4733 19 5 28 16 3300 198 42 231 2.93 1 25 Olds.-Cutl-Supr 5172 19 2 28 16 3310 198 42 231 2.93 1 26 Olds.-Delta-88 5890 18 4 29 20 3690 218 42 231 2.73 1 27 Olds.-Omega 4181 19 5 27 14 3370 200 43 231 3.08 1 28 Olds.-Starfire 4195 24 2 26 10 2720 180 40 151 2.73 1 29 Plym.-Arrow 4647 28 2 22 11 2360 170 37 156 3.05 1 30 Plym.-Champ 4425 34 3 23 11 1800 157 37 86 2.97 1 31 Plym.-Volare 4060 18 5 31 16 3330 201 44 225 3.23 1 32 Pont.-Catalina 5798 18 4 29 20 3700 214 42 231 2.73 1 33 Pont.-Firebird 4934 18 2 24 7 3470 198 42 231 3.08 1
101
34 Pont.-Grand-Prix 5222 19 2 29 16 3210 201 45 231 2.93 1 35 Pont.-Le-Mans 4723 19 4 28 17 3200 199 40 231 2.93 1 36 Pont.-Sunbird 4172 24 2 25 7 2690 179 41 151 2.73 1 37 Honda-Accord 5799 25 3 26 10 2240 172 36 107 3.05 1 38 Honda-Civic 4499 28 3 24 5 1760 149 34 91 3.30 1 39 Datsun-200-SX 6229 23 2 21 6 2370 170 35 119 3.89 1 40 Datsun-210 4589 35 2 24 8 2020 165 32 85 3.70 1 41 Datsun-510 5079 24 3 22 8 2280 170 34 119 3.54 1 42 Datsun-810 8129 21 3 27 8 2750 184 38 146 3.55 1 43 Dodge-Colt 3984 30 2 24 8 2120 163 35 98 3.54 1 44 Subaru 3798 35 3 26 11 2050 164 36 97 3.81 1 45 Toyota-Cecila 5899 18 3 22 14 2410 174 36 134 3.06 1 46 Toyota-Corolla 3748 31 3 25 9 2200 165 35 97 3.21 1 47 Toyota-Corona 5719 18 2 23 11 2670 175 36 134 3.05 1 48 VW-Rabbit 4697 25 3 26 15 1930 155 35 89 3.78 1 49 VW-Rabbit-Diesel 5397 41 3 26 15 2040 155 35 90 3.78 1 50 VW-Scirocco 6850 25 2 24 16 1990 156 36 97 3.78 1 51 VW-Dasher 7140 23 3 38 12 2160 172 36 97 3.74 1 52 Audi-Fox 6295 23 3 28 11 2070 174 36 97 3.70 1 53 Fiat-Strada 4296 21 3 27 16 2130 161 36 105 3.37 1 54 Renault-Le-Car 3895 26 3 23 10 1830 142 34 79 3.72 1 55 Audi-5000 9690 17 3 27 15 2830 189 37 131 3.20 2 56 Buick-Riviera 10372 16 4 30 17 3880 207 43 231 2.93 2 57 Cad.-Deville 11385 14 4 32 20 4330 221 44 425 2.28 2 58 Cad.-Eldorado 14500 14 4 30 16 3900 204 43 350 2.19 2 59 Cad.-Seville 15906 21 3 30 13 4290 204 45 350 2.24 2 60 Linc.-Continental 11497 12 4 31 22 4840 233 51 400 2.47 2 61 Linc.-Cont-Mark-V 13594 12 3 29 18 4720 230 48 400 2.47 2 62 Linc.-Versailles 13466 14 4 27 15 3830 201 41 302 2.47 2 63 Olds.-98 8814 21 4 32 20 4060 220 43 350 2.41 2 64 Olds.-Tornado 10371 16 4 30 17 4030 206 43 350 2.41 2 65 Volvo-260 11995 17 3 30 14 3170 193 37 163 2.98 2 66 BMW-320i 9735 25 3 26 12 2650 177 34 121 3.64 2
102
Lampiran 10
Langkah-langkah analisis dengan menggunakan SPSS (Data Lampiran 9) :
a. Buka file data analisis diskriminan.sav.
b. Pada menu bar pilih Analyze lalu submenu Classify, kemudian pilih
Discriminant.
c. Muncul kotak dialog Discriminant Analysis, pada kotak Grouping
Variable masukkan variabel C dan pada kotak Independents masukkan
variabel P, M, H, R, Tr, W, L, T, D dan G.
d. Kemudian pilih Use stepwise method
e. Pilih tab statistic, muncul kotak dialog Discriminant Analysis : statistics,
pada pilihan statistics klik Means dan Univariate ANOVAs. Kemudian
pada pilihan Function Coefficients klik Fisher’s dan Unstandardized,
kemudian klik Continue.
f. Pilih tab Classification, muncul kotak dialog Discriminant Analysis:
Classification, pada pilihan Prior Probabilities klik All groups equal,
pada pilihan Display klik Casewise results dan Leave one-out
classification kemudian Continue.
g. Pilih tab Save, muncul kotak dialog Discriminant Analysis: Save, klik
Predicted group membership, Disriminant score dan Probabilities of
group membership, kemudian klik Continue serta OK untuk
mengeksekusi.
103 Lampiran 11
Output Analisis Diskriminan Data Lampiran 9
11. a. Analysis Case Processing Summary
66 100.0
0 .0
0 .0
0 .0
0 .066 100.0
Unweighted CasesValid
Missing or out-of-rangegroup codesAt least one missingdiscriminating variableBoth missing orout-of-range group codesand at least one missingdiscriminating variableTotal
Excluded
Total
N Percent
11. b Group Statistics
5025.2778 1090.37990 54 54.00022.2037 5.80624 54 54.0002.9444 .88310 54 54.000
26.5370 3.01858 54 54.00013.3333 4.42548 54 54.000
2864.2593 699.51358 54 54.000185.3148 21.95091 54 54.00039.5926 4.10944 54 54.000
178.4444 75.09734 54 54.0003.0843 .42884 54 54.000
11777.08 2177.41989 12 12.00016.5833 3.96481 12 12.0003.2500 .54356 12 12.000
29.2917 1.78960 12 12.00016.5833 3.02890 12 12.000
3877.5000 685.89855 12 12.000207.0833 16.63763 12 12.00042.4167 4.73782 12 12.000
297.7500 108.58606 12 12.0002.6408 .44700 12 12.000
6252.8788 2942.38572 66 66.00021.1818 5.90934 66 66.0003.0000 .83666 66 66.000
27.0379 3.01957 66 66.00013.9242 4.37233 66 66.000
3048.4848 796.03680 66 66.000189.2727 22.61214 66 66.00040.1061 4.33280 66 66.000
200.1364 93.50852 66 66.0003.0036 .46202 66 66.000
PMHRTrWLTDGPMHRTrWLTDGPMHRTrWLTDG
C1
2
Total
Mean Std. Deviation Unweighted WeightedValid N (listwise)
104
Analysis 1 Stepwise Statistics
11. c Tests of Equality of Group Means
.205 248.729 1 64 .000
.863 10.129 1 64 .002
.980 1.316 1 64 .256
.874 9.202 1 64 .003
.917 5.828 1 64 .019
.755 20.737 1 64 .000
.860 10.418 1 64 .002
.936 4.388 1 64 .040
.754 20.868 1 64 .000
.861 10.344 1 64 .002
PMHRTrWLTDG
Wilks'Lambda F df1 df2 Sig.
11. d. Variables Entered/Removeda,b,c,d
P 25.334 1 and 2 248.729 1 64.000 9.94E-024Step1
Entered StatisticBetweenGroups Statistic df1 df2 Sig.
Exact F
Min. D Squared
At each step, the variable that maximizes the Mahalanobis distance between the two closest groups is entered.
Maximum number of steps is 20.a.
Minimum partial F to enter is 3.84.b.
Maximum partial F to remove is 2.71.c.
F level, tolerance, or VIN insufficient for further computation.d.
11. e. Variables in the Analysis
1.000 248.729P Step1
Tolerance F to Remove
105
Summary of Canonical Discriminant Functions
11. f. Variables Not in the Analysis
1.000 1.000 248.729 25.334 1 and 21.000 1.000 10.129 1.032 1 and 21.000 1.000 1.316 .134 1 and 21.000 1.000 9.202 .937 1 and 21.000 1.000 5.828 .594 1 and 21.000 1.000 20.737 2.112 1 and 21.000 1.000 10.418 1.061 1 and 21.000 1.000 4.388 .447 1 and 21.000 1.000 20.868 2.125 1 and 21.000 1.000 10.344 1.054 1 and 2.900 .900 .733 25.704 1 and 2
1.000 1.000 .296 25.483 1 and 2.954 .954 .027 25.347 1 and 2.962 .962 .086 25.377 1 and 2.907 .907 .015 25.341 1 and 2.926 .926 .242 25.456 1 and 2.954 .954 .359 25.515 1 and 2.911 .911 .004 25.335 1 and 2.970 .970 .052 25.360 1 and 2
PMHRTrWLTDGMHRTrWLTDG
Step0
1
ToleranceMin.
Tolerance F to EnterMin. D
SquaredBetween Groups
11. h. Eigenvalues
3.886 a 100.0 100.0 .892Function 1
Eigenvalue % of Variance Cumulative %CanonicalCorrelation
First 1 canonical discriminant functions were used in theanalysis.
a.
11. i. Wilks' Lambda
.205 100.740 1 .000Test of Function(s) 1
Wilks'Lambda Chi-square df Sig.
11. j. Standardized CanonicalDiscriminant Function Coefficients
1.000 P1
Function
106
Classification Statistics
11. k. Structure Matrix
1.000 -.317.305 .298 .272 .216 .215 .194
-.172-.004
PMa
Wa
Da
La
Ta
Ra
Tra
Ga
Ha
1 Function
Pooled within-groups correlations between discriminatingvariables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function.
This variable not used in the analysis.a.
11. l. Canonical Discriminant Function Coefficients
.001 -4.661
P(Constant)
1 Function
Unstandardized coefficients
11. m Functions at Group Centroids
-.915 4.118
C12
1 Function
Unstandardized canonical discriminantfunctions evaluated at group means
11. n. Classification Processing Summary
66
0
0
66
ProcessedMissing or out-of-rangegroup codesAt least one missingdiscriminating variable
Excluded
Used in Output
107
11. o. Prior Probabilities for Groups
.500 54 54.000
.500 12 12.0001.000 66 66.000
C12Total
Prior Unweighted WeightedCases Used in Analysis
11. p. Classification Function Coefficients
.003 .007-7.710 -39.232
P(Constant)
1 2C
Fisher's linear discriminant functions
11. r. Classification Resultsb,c
54 0 540 12 12
100.0 .0 100.0.0 100.0 100.054 0 540 12 12
100.0 .0 100.0.0 100.0 100.0
C12121212
Count
%
Count
%
Original
Cross-validated a
1 2
Predicted GroupMembership
Total
Cross validation is done only for those cases in the analysis. Incross validation, each case is classified by the functions derivedfrom all cases other than that case.
a.
100.0% of original grouped cases correctly classified.b.
100.0% of cross-validated grouped cases correctly classified.c.
11. q. Casewise Statistics
1 1 .490 1 1.000 .477 2 .000 32.761 -1.6061 1 .837 1 1.000 .042 2 .000 27.449 -1.1211 1 .876 1 1.000 .024 2 .000 26.928 -1.0711 1 .037 1 .896 4.362 2 .104 8.671 1.1731 1 .570 1 1.000 .323 2 .000 19.933 -.3471 1 .903 1 1.000 .015 2 .000 24.120 -.7931 1 .482 1 1.000 .494 2 .000 32.907 -1.6181 1 .198 1 1.000 1.656 2 .000 39.944 -2.2021 1 .612 1 1.000 .257 2 .000 20.490 -.4081 1 .698 1 1.000 .151 2 .000 29.396 -1.3041 1 .953 1 1.000 .003 2 .000 24.746 -.8561 1 .311 1 1.000 1.025 2 .000 36.552 -1.9281 1 .425 1 1.000 .637 2 .000 34.002 -1.7131 1 .991 1 1.000 .000 2 .000 25.448 -.9271 1 .521 1 1.000 .412 2 .000 19.286 -.2731 1 .326 1 1.000 .963 2 .000 16.416 .0661 1 .532 1 1.000 .391 2 .000 32.015 -1.5401 1 .442 1 1.000 .590 2 .000 33.655 -1.6831 1 .373 1 1.000 .795 2 .000 35.106 -1.8071 1 .792 1 1.000 .070 2 .000 22.749 -.6511 1 .341 1 1.000 .907 2 .000 16.652 .0371 1 .396 1 1.000 .722 2 .000 17.503 -.0661 1 .196 1 1.000 1.671 2 .000 40.019 -2.208
CaseNumber1234567891011121314151617181920212223
Original
ActualGroup
PredictedGroup p df
P(D>d |G=g) P(G=g
| D=d)
SquaredMahalanobisDistance to
Centroid
Highest Group
GroupP(G=g |
D=d)
SquaredMahalanobisDistance to
Centroid
Second Highest Group
Function 1
DiscriminantScores
For the original data, squared Mahalanobis distance is based on canonical functions.For the cross-validated data, squared Mahalanobis distance is based on observations.
108
11. q. Casewise Statistics
1 1 .828 1 1.000 .047 2 .000 27.574 -1.1331 1 .913 1 1.000 .012 2 .000 24.244 -.8061 1 .519 1 1.000 .416 2 .000 19.260 -.2711 1 .529 1 1.000 .396 2 .000 32.065 -1.5451 1 .536 1 1.000 .383 2 .000 31.947 -1.5341 1 .778 1 1.000 .080 2 .000 28.252 -1.1971 1 .655 1 1.000 .200 2 .000 30.038 -1.3631 1 .472 1 1.000 .518 2 .000 33.095 -1.6351 1 .565 1 1.000 .332 2 .000 19.867 -.3391 1 .946 1 1.000 .005 2 .000 26.023 -.9831 1 .883 1 1.000 .022 2 .000 23.879 -.7681 1 .822 1 1.000 .051 2 .000 27.653 -1.1401 1 .525 1 1.000 .405 2 .000 32.141 -1.5511 1 .564 1 1.000 .333 2 .000 19.860 -.3381 1 .695 1 1.000 .154 2 .000 29.437 -1.3071 1 .370 1 1.000 .805 2 .000 17.106 -.0181 1 .745 1 1.000 .106 2 .000 28.713 -1.2401 1 .968 1 1.000 .002 2 .000 24.932 -.8751 1 .021 1 .735 5.353 2 .265 7.396 1.3991 1 .438 1 1.000 .603 2 .000 33.750 -1.6911 1 .360 1 1.000 .837 2 .000 35.380 -1.8301 1 .515 1 1.000 .424 2 .000 19.201 -.2641 1 .341 1 1.000 .907 2 .000 35.825 -1.867
CaseNumber2425262728293031323334353637383940414243444546
Original
ActualGroup
PredictedGroup p df
P(D>d |G=g) P(G=g
| D=d)
SquaredMahalanobisDistance to
Centroid
Highest Group
GroupP(G=g |
D=d)
SquaredMahalanobisDistance to
Centroid
Second Highest Group
Function 1
DiscriminantScores
For the original data, squared Mahalanobis distance is based on canonical functions.For the cross-validated data, squared Mahalanobis distance is based on observations.
109
11. q. Casewise Statistics
1 1 .605 1 1.000 .267 2 .000 20.395 -.3981 1 .807 1 1.000 .060 2 .000 27.857 -1.1601 1 .782 1 1.000 .077 2 .000 22.621 -.6381 1 .174 1 .997 1.850 2 .003 13.491 .4451 1 .115 1 .991 2.485 2 .009 11.949 .6611 1 .344 1 1.000 .896 2 .000 16.701 .0311 1 .587 1 1.000 .296 2 .000 31.102 -1.4591 1 .399 1 1.000 .710 2 .000 34.525 -1.7582 2 .120 1 .992 2.421 1 .008 12.092 2.5622 2 .295 1 .999 1.097 1 .001 15.887 3.0712 2 .770 1 1.000 .085 1 .000 22.477 3.8262 2 .042 1 1.000 4.120 1 .000 49.887 6.1482 2 .002 1 1.000 9.474 1 .000 65.792 7.1962 2 .835 1 1.000 .044 1 .000 23.275 3.9092 2 .176 1 1.000 1.835 1 .000 40.803 5.4732 2 .208 1 1.000 1.585 1 .000 39.593 5.3772 2 .027 1 .825 4.879 1 .175 7.977 1.9092 2 .295 1 .999 1.099 1 .001 15.881 3.0702 2 .871 1 1.000 .026 1 .000 26.995 4.2812 2 .128 1 .993 2.317 1 .007 12.327 2.596
CaseNumber4748495051525354555657585960616263646566
Original
ActualGroup
PredictedGroup p df
P(D>d |G=g) P(G=g
| D=d)
SquaredMahalanobisDistance to
Centroid
Highest Group
GroupP(G=g |
D=d)
SquaredMahalanobisDistance to
Centroid
Second Highest Group
Function 1
DiscriminantScores
For the original data, squared Mahalanobis distance is based on canonical functions.For the cross-validated data, squared Mahalanobis distance is based on observations.
110
11. q. Casewise Statistics
1 1 .484 1 1.000 .491 2 .000 32.4961 1 .835 1 1.000 .043 2 .000 27.0391 1 .875 1 1.000 .025 2 .000 26.5181 1 .029 1 .899 4.790 2 .101 9.1721 1 .564 1 1.000 .332 2 .000 19.7231 1 .902 1 1.000 .015 2 .000 23.7491 1 .475 1 1.000 .509 2 .000 32.6491 1 .187 1 1.000 1.738 2 .000 40.3851 1 .608 1 1.000 .263 2 .000 20.2521 1 .694 1 1.000 .155 2 .000 29.0071 1 .953 1 1.000 .004 2 .000 24.3611 1 .302 1 1.000 1.065 2 .000 36.5781 1 .418 1 1.000 .657 2 .000 33.8131 1 .991 1 1.000 .000 2 .000 25.0511 1 .515 1 1.000 .423 2 .000 19.1101 1 .317 1 1.000 1.000 2 .000 16.4111 1 .526 1 1.000 .402 2 .000 31.7121 1 .435 1 1.000 .608 2 .000 33.4431 1 .364 1 1.000 .823 2 .000 35.0011 1 .790 1 1.000 .071 2 .000 22.4181 1 .332 1 1.000 .941 2 .000 16.6331 1 .388 1 1.000 .746 2 .000 17.4291 1 .185 1 1.000 1.755 2 .000 40.471
CaseNumber1234567891011121314151617181920212223
Cross-validateda
ActualGroup
PredictedGroup p df
P(D>d |G=g) P(G=g
| D=d)
SquaredMahalanobisDistance to
Centroid
Highest Group
GroupP(G=g |
D=d)
SquaredMahalanobisDistance to
Centroid
Second Highest Group
Function 1
DiscriminantScores
For the original data, squared Mahalanobis distance is based on canonical functions.For the cross-validated data, squared Mahalanobis distance is based on observations.
111
11. q. Casewise Statistics
1 1 .826 1 1.000 .049 2 .000 27.1641 1 .912 1 1.000 .012 2 .000 23.8701 1 .513 1 1.000 .427 2 .000 19.0851 1 .523 1 1.000 .407 2 .000 31.7651 1 .530 1 1.000 .394 2 .000 31.6411 1 .775 1 1.000 .081 2 .000 27.8461 1 .650 1 1.000 .205 2 .000 29.6641 1 .465 1 1.000 .534 2 .000 32.8491 1 .559 1 1.000 .341 2 .000 19.6601 1 .945 1 1.000 .005 2 .000 25.6181 1 .882 1 1.000 .022 2 .000 23.5141 1 .820 1 1.000 .052 2 .000 27.2431 1 .519 1 1.000 .416 2 .000 31.8441 1 .559 1 1.000 .342 2 .000 19.6541 1 .691 1 1.000 .158 2 .000 29.0481 1 .361 1 1.000 .834 2 .000 17.0571 1 .742 1 1.000 .108 2 .000 28.3121 1 .968 1 1.000 .002 2 .000 24.5431 1 .014 1 .729 5.980 2 .271 7.9581 1 .430 1 1.000 .622 2 .000 33.5441 1 .352 1 1.000 .867 2 .000 35.2981 1 .509 1 1.000 .436 2 .000 19.0301 1 .332 1 1.000 .940 2 .000 35.782
CaseNumber2425262728293031323334353637383940414243444546
Cross-validateda
ActualGroup
PredictedGroup p df
P(D>d |G=g) P(G=g
| D=d)
SquaredMahalanobisDistance to
Centroid
Highest Group
GroupP(G=g |
D=d)
SquaredMahalanobisDistance to
Centroid
Second Highest Group
Function 1
DiscriminantScores
For the original data, squared Mahalanobis distance is based on canonical functions.For the cross-validated data, squared Mahalanobis distance is based on observations.
112
11. q. Casewise Statistics
1 1 .600 1 1.000 .274 2 .000 20.1621 1 .805 1 1.000 .061 2 .000 27.4481 1 .779 1 1.000 .079 2 .000 22.2951 1 .163 1 .997 1.948 2 .003 13.6831 1 .104 1 .992 2.644 2 .008 12.2471 1 .335 1 1.000 .929 2 .000 16.6781 1 .582 1 1.000 .303 2 .000 30.7611 1 .392 1 1.000 .734 2 .000 34.3742 2 .085 1 .991 2.958 1 .009 12.4162 2 .252 1 .999 1.310 1 .001 15.9362 2 .752 1 1.000 .100 1 .000 22.1582 2 .023 1 1.000 5.191 1 .000 52.8172 2 .000 1 1.000 13.236 1 .000 77.2362 2 .821 1 1.000 .051 1 .000 22.9292 2 .136 1 1.000 2.219 1 .000 41.4622 2 .167 1 1.000 1.909 1 .000 40.0562 2 .013 1 .762 6.234 1 .238 8.5652 2 .252 1 .999 1.312 1 .001 15.9312 2 .860 1 1.000 .031 1 .000 26.5852 2 .093 1 .993 2.826 1 .007 12.633
CaseNumber4748495051525354555657585960616263646566
Cross-validateda
ActualGroup
PredictedGroup p df
P(D>d |G=g) P(G=g
| D=d)
SquaredMahalanobisDistance to
Centroid
Highest Group
GroupP(G=g |
D=d)
SquaredMahalanobisDistance to
Centroid
Second Highest Group
Function 1
DiscriminantScores
For the original data, squared Mahalanobis distance is based on canonical functions.For the cross-validated data, squared Mahalanobis distance is based on observations.
Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all casesother than that case.
a.
113