analisis cluster dan aplikasinya skripsi · menggunakan buku-buku, jurnal-jurnal, makalah-makalah...

ANALISIS CLUSTER DAN APLIKASINYA

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Sains

Program Studi Matematika

Oleh :

Yohanes Eka Adi Sunarso

NIM : 033114001

PROGRAM STUDI MATEMATIKA JURUSAN MATEMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2008

ii

CLUSTER ANALYSIS AND ITS APPLICATIONS

THESIS

Presented As a Partial Fulfillment of The Requirements

To Obtain The Sarjana Sains Degree

In Mathematics

By :

Yohanes Eka Adi Sunarso

Student Number : 033114001

MATHEMATICS STUDY PROGRAM

DEPARTEMENT OF MATHEMATICS

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2008

v

PERNYATAAN KEASLIAN KARYA

Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini

tidak memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan

dalam kutipan dan daftar pustaka, sebagaimana layaknya karya ilmiah.

Yogyakarta, November 2008

Penulis

vi

Ketika ketakutan datang menerpa, ku tahu ku lemah. Hampir terjatuh

& menyerah berjuang kembali, tetapi hal yang membuat ku kuat & te-

rus memperjuangkan apa yang ku impikan, yaitu janji Tuhan ku yang

benar-benar hidup, Dia berkata padaku ‘Aku mau memikul kamu dan

menyelamatkan kamu’ (Yes. 46:4), oleh janji inilah maka aku kuat

menjalani semua & terus berjuang tanpa menyerah.

Ia membuat segala sesuatu indah pada waktunya …

Pkh 3:11

Skripsi ini kupersembahkan kepada :

Bapak, ibu dan adik-adikku tercinta,

Keluarga besarku, dosen-dosenku & sahabatku terkasih.

vii

ABSTRAK

Analisis cluster adalah salah satu teknik analisis statistik yang digunakan

untuk meringkas data dengan cara mengelompokkan obyek-obyek berdasarkan

kesamaan karakteristik tertentu yang dimiliki masing-masing obyek. Kesamaan

karakteristik tersebut dinyatakan dalam ukuran jarak antar obyek. Pembentukan

kelompok-kelompok berdasarkan jarak, obyek yang mirip seharusnya berada da-

lam kelompok yang sama dan mempunyai jarak yang lebih kecil. Sebaliknya ob-

yek yang berbeda berada dalam kelompok yang berbeda dan mempunyai jarak

yang lebih besar.

Pada skripsi ini akan dibahas dua metode dalam analisis cluster, yaitu me-

tode hierarki dan metode nonhierarki. Metode hierarki dibagi menjadi dua kate-

gori yaitu agglomerative dan divisive. Metode nonhierarki yang akan dibahas pa-

da skripsi ini adalah metode K-means cluster.

viii

ABSTRACT

Cluster analysis is one of statistical analysis techniques to summarize data

set by grouping objects based on the same specific characteristics of the objects.

These characteristics similarity is represented by the distance between objects.

The determination of groups is based on the distance of the objects. The identical

objects should be placed in the same group and have shorter distance. Converse-

ly, the nonidentical objects should be placed in different groups and have longer

distance.

This thesis will discuss two methods of cluster analysis, those are hierar-

chical method and nonhierarchical method. Hierarchical method is divided into

two categories, which are agglomerative and divisive. The only nonhierarchical

method which is discussed in this thesis is K-means cluster method.

x

KATA PENGANTAR

Puji Tuhan penulis ucapkan atas selesainya skripsi ini. Skripsi ini merupa-

kan salah satu syarat yang harus ditempuh untuk memperoleh gelar Sarjana Sains

di Program Studi Matematika.

Dalam penyusunan skripsi ini penulis mendapat banyak bantuan yang be-

rupa dorongan, motivasi, bimbingan, sarana maupun materi. Oleh karena itu penu-

lis mengucapkan terima kasih kepada pihak yang telah memberikan bantuan ini,

antara lain :

1. Bapak Ir. Ig. Aris Dwiatmoko, M.Sc, selaku dosen pembimbing yang telah

meluangkan waktu, pikiran dan penuh kesabaran membimbing penulis da-

lam menyusun skripsi ini.

2. Ibu Lusia Krimiyati Budiasih S.Si, M.Si selaku Ketua Program Studi Ma-

tematika.

3. Ibu Ch. Enny Murwaningtyas S.Si, M.Si selaku Dosen Pembimbing Aka-

demik yang dengan sabar mendampingi penulis selama kuliah di USD.

4. Bapak dan Ibu Dosen Program Studi Matematika yang telah memberikan

ilmu yang berguna kepada penulis selama di bangku kuliah.

5. Bapak Tukijo dan Ibu Linda yang telah memberikan pelayanan admini-

strasi dalam urusan-urusan perkuliahan kepada penulis.

6. Perpustakaan USD yang telah memberikan fasilitas dan kemudahan serta

Staf karyawan Perpustakaan USD.

xi

7. Orang tuaku, Romo Y. Sari Jatmiko Pr, Pak Pras dan Mbak Tika yang tak

henti-hentinya memberi dukungan semangat dan doa sehingga penulis da-

pat menyelesaikan skripsi ini.

8. Teman-teman angkatan 2003, Koko, Ridwan, Kamto, Valent, Anin, Ang-

gi, Mery, Septi, Mekar dan Dewi yang telah bersama-sama menjalani ku-

liah di USD.

Penulis menyadari masih banyak kekurangan dan kelemahan dalam skripsi

ini. Oleh karena itu, penulis dengan lapang dada menerima kritik dan saran serta

masukan yang membangun dari pembaca agar skripsi ini menjadi lebih baik dan

dapat menambah pengetahuan.

Yogyakarta, Desember 2008

Penulis

xii

DAFTAR ISI

Halaman

HALAMAN JUDUL........................................................................... i

HALAMAN JUDUL (INGGRIS) ....................................................... ii

HALAMAN PERSETUJUAN PEMBIMBING.................................. iii

HALAMAN PENGESAHAN.............................................................. iv

PERNYATAAN KEASLIAN KARYA.............................................. v

HALAMAN PERSEMBAHAN.......................................................... vi

ABSTRAK........................................................................................... vii

ABSTRACT......................................................................................... viii

PERNYATAAN PUBLIKASI KARYA ILMIAH............................ ix

KATA PENGANTAR......................................................................... x

DAFTAR ISI........................................................................................ xii

DAFTAR TABEL................................................................................ xiv

DAFTAR GAMBAR........................................................................... xv

BAB I PENDAHULUAN

A. Latar Belakang......................................................................... 1

B. Rumusan Masalah.................................................................... 3

C. Pembatasan Masalah................................................................ 4

D. Tujuan Penulisan...................................................................... 4

E. Metode Penulisan..................................................................... 4

F. Manfaat Penulisan.................................................................... 5

G. Sistematika Penulisan............................................................... 5

xiii

BAB II LANDASAN TEORI

A. Skala Data................................................................................. 7

1. Data Kualitatif....................................................................... 7

2. Data Kuantitatif...................................................................... 8

B. Matriks Data Multivariat.......................................................... 9

C. Probabilitas Total dan Teorema Bayes .................................... 10

D. Penduga Kemungkinan Maksimum ......................................... 12

E. Fungsi Densitas Normal Univariat ........................................... 18

F. Fungsi Densitas Normal Multivariat......................................... 19

G. Analisis Diskriminan................................................................ 19

BAB III ANALISIS CLUSTER

A Konsep Jarak antar Obyek......................................................... 27

1. Ukuran Jarak untuk Data Kontinu........................................ 28

2. Ukuran Similaritas untuk Struktur Biner.............................. 32

B. Metode-metode dalam Analisis Cluster.................................. 38

1. Metode Hierarchical........................................................... 39

2. Metode Nonhierarchical..................................................... 51

BAB IV APLIKASI ANALISIS CLUSTER

A. Kasus I..................................................................................... 72

B. Kasus II................................................................................... 74

BAB V KESIMPULAN....................................................................... 80

DAFTAR PUSTAKA........................................................................... 82

LAMPIRAN......................................................................................... 83

xiv

DAFTAR TABEL

Halaman

Tabel 1.1.......................................................................................... 2

Tabel 3.1.......................................................................................... 33

Tabel 3.2.......................................................................................... 34

Tabel 3.3.......................................................................................... 35

Tabel 3.4.......................................................................................... 42

Tabel 3.5.......................................................................................... 49

Tabel 3.6.......................................................................................... 60

Tabel 3.7.......................................................................................... 63

Tabel 3.8.......................................................................................... 64

Tabel 3.9.......................................................................................... 66

Tabel 3.10........................................................................................ 67

Tabel 3.11........................................................................................ 68

Tabel 3.12. ....................................................................................... 68

Tabel 3.13......................................................................................... 69

Tabel 4.1........................................................................................... 74

Tabel 4.2…....................................................................................... 75

Tabel 4.3…........................................................................................ 76

xv

DAFTAR GAMBAR

Halaman

Gambar 2.1....................................................................................... 21

Gambar 3.1...................................................................................... 38

Gambar 3.2...................................................................................... 41

Gambar 3.3...................................................................................... 42

Gambar 3.4...................................................................................... 44

Gambar 3.5...................................................................................... 45

Gambar 3.6...................................................................................... 47

Gambar 3.7...................................................................................... 50

Gambar 3.8...................................................................................... 51

Gambar 3.9...................................................................................... 52

Gambar 3.10.................................................................................... 53

Gambar 3.11.................................................................................... 54

Gambar 3.12.................................................................................... 59

Gambar 3.13.................................................................................... 60

Gambar 3.14.................................................................................... 61

Gambar 3.15.................................................................................... 62

Gambar 3.16..................................................................................... 63

BAB I

PENDAHULUAN

A. Latar Belakang

Dalam kehidupan sehari-hari sering dijumpai pengelompokan suatu obyek,

baik berupa benda atau suatu hal. Misal di bidang Biologi, pengelompokan

makhluk hidup bisa berdasarkan pada beberapa hal, seperti menurut struktur

tubuhnya, cara berkembang biak, habitatnya, dan sebagainya. Sebagai contoh,

makhluk hidup dikelompokkan menjadi beberapa kelompok, yaitu mamalia, aves,

reptil dan pisces. Pengelompokan tersebut tentunya dapat dibuat karena masing-

masing makhluk hidup mempunyai karakteristik yang menjadi dasar dalam

pengelompokan. Umumnya nilai karakteristik merupakan suatu variabel yang

nilainya dapat berubah-ubah.

Sebagai contoh lain, seorang peneliti ingin mengetahui kebiasaan

masyarakat meminum teh. Oleh karena itu dibuat angket yang mengukur tentang

kelompok apa saja yang terbentuk dari masyarakat yang minum teh serta

karakateristik teh apa yang paling banyak diminati masyarakat. Karakteristik teh

yang diukur meliputi harga, rasa melati, kemasan dan warna. Skala pengukuran

angket menggunakan skala likert dengan skor 1-7, di mana :

1. Skor 1 pada variabel harga menunjukkan tidak mahal dan 7

menunjukkan sangat mahal.

2. Skor 1 pada variabel rasa melati artinya tidak suka terasa aroma melati

dan 7 sangat suka aroma melati.

2

3. Skor 1 pada variabel kemasan menunjukkan tidak penting dan 7 sangat

penting.

4. Skor 1 pada variabel warna menunjukkan cenderung warna kekuningan

dan 7 menunjukkan warna kemerahan.

Pada Tabel 1.1 disajikan beberapa sampel dari hasil pengumpulan angket

sebagai ilustrasi, tetapi pada kenyataannya membutuhkan sampel yang lebih

besar.

Obyek ke- Usia Harga Rasa

Melati Kemasan Warna

1 40 1 4 3 5 2 25 7 1 1 1 3 32 2 4 3 4 4 28 6 1 4 2 5 36 2 4 4 2 6 35 2 2 4 4 7 39 2 4 4 2 8 26 6 2 4 5 9 22 5 2 2 2 10 31 5 5 5 5

Tabel 1.1 Data Angket

Dari tabel tersebut dapat diketahui bahwa ada dua kelompok usia yang

mempunyai karakteristik berbeda, yaitu usia kurang dari 30 tahun dan lebih dari

30 tahun. Pada kelompok usia kurang dari 30 tahun cenderung mempunyai ciri

memilih harga teh mahal, kurang suka rasa melati, kurang memperhatikan

kemasan dan lebih suka teh warna kekuningan. Hal itu bisa dilihat sekilas karena

sampel berukuran kecil, pada kenyataannya, sering terdapat sampel yang

berukuran besar. Pada kasus sampel berukuran besar, peneliti belum tentu bisa

mengambil kesimpulan dengan pasti sesuai dengan data yang diperoleh.

3

Berdasarkan ilustrasi di atas diperlukan teknik untuk mengelompokkan

obyek-obyek ke dalam kelompok yang anggota-anggotanya adalah obyek-obyek

yang memiliki kemiripan karakteristik atau variabel yang diteliti secara bersama-

sama. Dalam ilmu statistika terdapat suatu cabang ilmu pengetahuan yaitu analisis

multivariat yang bertujuan untuk mengetahui hubungan lebih dari satu variabel

independen dengan satu atau lebih variabel dependen dan atau perbedaan lebih

dari dua sampel. Salah satu teknik analisis multivariat yang digunakan untuk

mengklasifikasikan obyek atau kasus ke dalam kelompok yang relatif homogen

adalah analisis cluster. Konsep dasar analisis cluster yaitu dapat mengelompokan

suatu obyek, maka diperlukan ukuran untuk mengukur seberapa mirip atau

berbeda masing-masing obyek tersebut. Ukuran tersebut dinyatakan dalam jarak

obyek satu ke jarak obyek lainnya yang akan digunakan dalam membentuk

kelompok dari sampel-sampel yang diketahui dengan bermacam-macam metode

dalam analisis cluster yang terbagi dalam dua macam, yaitu metode hierarki dan

nonhierarki.

B. Rumusan Masalah

Permasalahan yang akan dibahas dalam skripsi ini dapat dirumuskan

sebagai berikut :

1. Bagaimana landasan teori dari analisis cluster ?

2. Bagaimana sistematika analisis cluster dan metode-metodenya ?

3. Bagaimana aplikasi analisis cluster dalam analisis data ?

4

C. Pembatasan Masalah

Dalam skripsi ini, penulis membahas tentang analisis cluster dan

aplikasinya dalam analisis data. Penulisan skripsi ini dibatasi pada beberapa hal

karena sudah diperoleh dalam perkuliahan atau di luar jangkauan skripsi ini. Hal-

hal yang tidak dibahas adalah sebagai berikut :

1. Metode divisive, optimizing thereshold, sequential thereshold dan paralel

thereshold tidak dibahas karena jarang berkembang.

2. Profil cluster tidak dibahas karena telah dibahas di skripsi yang lain.

3. Dasar-dasar teori analisis diskiminan tidak dibahas karena telah dibahas

di skripsi lain.

D. Tujuan Penulisan

Tujuan penulisan skripsi ini adalah :

1. Mempelajari landasan matematis analisis cluster.

2. Memahami penerapan analisis cluster.

E. Metode Penulisan

Penulisan skripsi ini menggunakan metode studi pustaka, yaitu dengan

menggunakan buku-buku, jurnal-jurnal, makalah-makalah yang telah

dipublikasikan dan dengan bantuan perangkat lunak komputer, yaitu Matlab 7.0.1

dan SPSS 13.

5

F. Manfaat Penulisan

Manfaat yang diharapkan dari penulisan skipsi ini adalah :

1. Mengetahui landasan teori analisis cluster.

2. Mengetahui sistematika dan metode-metode yang digunakan dalam

menganalisa data dengan analisis cluster.

G. Sistematika Penulisan

BAB I : PENDAHULUAN

Bab ini berisi gambaran umum tentang isi skripsi ini yang

meliputi latar belakang masalah, perumusan masalah,

pembatasan masalah, tujuan penulisan, manfaat penulisan,

metode penulisan dan sistematika penulisan.

BAB II : LANDASAN TEORI

Bab ini berisi beberapa teori yang melandasi pembahasan bab

selanjutnya, yaitu skala data, matriks data multivariat,

probabilitas total dan teorema Bayes, penduga Kemungkinan

Maksimum (Maximum Likelihood), fungsi densitas normal

univariat, fungsi densitas normal multivariat dan analisis

diskriminan.

6

BAB III : ANALISIS CLUSTER

Bab ini berisi tentang konsep proksimitas antar obyek,

metode-metode analisis cluster yaitu metode hierarki dan

nonhierarki serta contoh-contohnya.

BAB IV : APLIKASI ANALISIS CLUSTER DALAM ANALISIS

DATA

Bab ini berisi tentang kasus dalam menganalisa data yang

akan diselesaikan menggunakan analisis cluster dengan SPSS

13.

BAB V : KESIMPULAN

Bab ini berisi kesimpulan dari keseluruhan materi yang telah

diuraikan.

BAB II

LANDASAN TEORI

Dalam bab ini akan dibahas tentang dasar-dasar teori yang akan digunakan

dalam Bab III. Dasar-dasar teori yang dipergunakan adalah skala data, matriks

data multivariat, probabilitas total dan teorema Bayes, penduga Kemungkinan

Maksimum (Maksimum Likelihood), fungsi densitas normal univariat, fungsi

densitas normal multivariat dan analisis diskriminan.

A. Skala Data

Jenis-jenis data perlu diuraikan karena terkait dengan analisis cluster yang

menggunakan konsep jarak pada Bab. 3. Secara umum ada 2 jenis data yang

digunakan, yaitu data kualitatif dan kuantitatif.

1. Data Kualitatif

Data kualitatif merupakan hasil pengukuran yang sering juga disebut

sebagai data kategorikal. Berdasarkan skala pengukurannya, data yang termasuk

dalam kategori kualitatif adalah :

a. Skala Nominal

Data berskala nominal, diperoleh dari hasil mengkategorikan variabel, tidak

mempunyai jarak, tidak dapat diurutkan dan tidak dapat dikenakan operasi

matematika. Bilangan yang dihasilkan dari pengukuran hanya bersifat memberi

kode atau atribut bagi ciri-ciri pengelompokan. Contoh : gender ( pria, wanita ),

8

jenis mesin (mesin bubut, mesin bor), jenis kendaraan (truk, mobil, motor), dan

lain-lain. Dalam prakteknya, hasil penggolongan tersebut berupa kelompok-

kelompok yang disimbolkan dengan angka. Misal, untuk jenis kelamin, pria diberi

simbol angka ‘0’ dan wanita diberi angka ‘1’ atau angka lainnya.

b. Skala Ordinal

Ciri data ordinal mirip dengan data nominal, perbedaannya adalah data

ordinal dapat diurutkan. Contoh : tingkat pendidikan ( SD, SMP, SMA, Diploma,

Sarjana, Pascasarjana), tingkat kepuasan pelanggan (sangat tidak puas, tidak puas,

biasa saja, puas, sangat puas), dan lain-lain. Seperti pada skala nominal, skala

ordinal juga disimbolkan dalam bentuk lambang bilangan, tetapi bilangan-

bilangan ini memiliki makna urutan sesuai karakteristik yang diwakilinya. Misal,

untuk tingkat pendidikan, SD sampai pascasarjana diberi angka ‘1’ sampai ‘6’

yang menunjukkan tingkatan atau urutan pendidikan dari yang terendah sampai

tertinggi.

2. Data Kuantitatif

Data yang termasuk dalam skala kuantitatif adalah sebagai berikut :

a. Skala Interval

Skala interval lebih mempunyai arti daripada skala ordinal dan skala

nominal. Data interval mempunyai sifat skala ordinal dan skala nominal, namun

pada skala interval jarak antara satu kategori dengan kategori lain terdefinisi

dengan jelas. Ciri lain skala interval adalah tidak mempunyai nilai nol mutlak.

Contoh : suhu, bisa diukur dengan skala Celcius, Fahrenheit Kelvin atau Reamur

9

yang masing-masing mempunyai skala sendiri-sendiri. Suhu tidak mempunyai

nilai nol mutlak, misal suhu 00 C bukan berarti bahwa benda yang diukur tidak

memiliki panas, tetapi hanya sebagai penunjuk tingkat suhu yang rendah setara

dengan suhu air membeku.

b. Data Rasio

Data rasio mempunyai sifat ketiga data di atas, namun data rasio

mempunyai nilai nol mutlak, artinya karakteristik yang diukur benar-benar nol

atau tidak bernilai. Contoh : tinggi dan berat badan.

B. Matriks Data Multivariat

Data multivariat adalah data yang diperoleh dari hasil pengukuran terhadap

n observasi-observasi berdasarkan d variabel-variabel. Secara umum data

multivariat disajikan dalam bentuk matriks X berukuran n x d, dan ditulis sebagai

berikut :

⎥⎥⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢⎢⎢

⎣

⎡

=

ndnjnn

idijii

dj

dj

xxxx

xxxx

xxxx

xxxx

LL

MMMM

LL

MMMM

LL

LL

21

21

222221

111211

X (2.1)

dengan ni ,,2,1 K= dan .,,2,1 dj K=

Data multivariat dinotasikan dengan { }ijX=X , dengan ijx adalah

pengamatan terhadap observasi ke-i pada variabel ke-j. Analisis cluster

menggunakan data multivariat sebagai input.

10

C. Probabilitas Total dan Teorema Bayes

Definisi 2.1 Probabilitas Bersyarat

Teori ini akan digunakan dalam membahas pengklasifikasian yang

dikombinasikan dan pendugaan parameter pada Bab 3 sub bab metode

nonhierarki.

Probabilitas terjadinya suatu kejadian A jika diketahui kejadian B terjadi

disebut probabilitas bersyarat dan dilambangkan dengan P(A|B) serta

didefinisikan sebagai ( )( )BP

BAPBAP ∩=)|( di mana 0)( >BP .

Sebaliknya , P(B|A) adalah probabilitas terjadinya suatu kejadian B jika

diketahui kejadian A terjadi didefinisikan sebagai ( )( )AP

BAPABP ∩=)|( di mana

0)( >AP .

Teorema 2.1 Teorema Probabilitas Total

Andaikan kejadian-kejadian mA,,A,A 21 K adalah partisi-partisi yang saling

asing dari ruang sampel S dengan S==Um

ii

1

A dan B adalah sembarang kejadian

juga dalam ruang sampel S, maka

( ) ( ) ( ) ( )∑∑==

=∩=m

iii

m

ii PPPP

11AA|BBAB .

Bukti :

Dengan sifat irisan himpunan,

11

Karena Ai saling asing, maka iAB ∩ juga saling asing. Jadi,

( ) ( ) ( ) ( ) ( )∑=

∩=∩++∩+∩=m

iim PPPPP

121 BAABABABB K (2.2)

Dari definisi 2.1 diperoleh

( ) ( ) ( )iii PPP AA|BBA =∩ (2.3)

Kemudian subtitusikan ke dalam (2.2), sehingga diperoleh

( ) ( ) ( ) ( )∑∑==

=∩=m

iii

m

ii PPPP

11AA|BBAB ■

Teorema 2.2 Teorema Bayes

Andaikan kejadian-kejadian mA,,A,A 21 K adalah partisi-partisi yang

saling asing dari ruang sampel S dengan S==Um

ii

1

A dan B adalah sembarang

kejadian juga dalam ruang sampel S, maka

( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( )kk

kkk PPPPPP

PPP

ABAABAABAABA

BA2211 +++

=K

Bukti :

Dari definisi probabilitas bersyarat diperoleh

( )( )B

BA)B|A(

PP

P kk

∩= (2.4)

dengan mensubtitusikan (2.3) dan hasil teorema probabilitas total ke dalam

persamaan (2.4), maka diperoleh

( )( ) ( ) ( )m

m

ABABAB AAABSB B

21

21

∩∪∪∩∪∩ =∪∪∪∩=∩=

K

K

12

( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( )kk

kkk PPPPPP

PPP

ABAABAABAABA

BA2211 +++

=K

■

( )B|AkP disebut probabilitas posterior dari kejadian A jika kejadian B terjadi

dan ( )kP A adalah probabilitas prior dari kejadian B.

D. Penduga Kemungkinan Maksimum

Definisi 2.2 Penduga Kemungkinan Maksimum

Penduga kemungkinan maksimum akan berguna dalam membahas mencari

penduga kemungkinan maksimum parameter dari suatu distribusi, pada Bab 3

akan digunakan untuk mencari penduga kemungkinan maksimum untuk μ bila

diketahui sampel random berdistribusi normal multivariat.

Misal ( ) ( ) ( ) ( )θθθθ ,..,.,L 21 nxfxfxf L= adalah fungsi likelihood untuk

variabel random .,,, 21 nXXX K Jika ( )nxxx ,,,ˆˆ21 Lϑθ = adalah sebuah fungsi

dari observasi nXXX ,,, 21 K yang merupakan nilai dari θ yang

memaksimumkan ( )θL , maka ( )nXXX ,,,ˆˆ21 Kϑ=Θ adalah penduga

kemungkinan maksimum dari θ . ( )nxxx ,,,ˆˆ21 Lϑθ = adalah penduga

kemungkinan maksimum dari θ untuk sampel nXXX ,,, 21 K .

Mencari penduga kemungkinan maksimum merupakan masalah mencari

titik maksimum dari suatu fungsi, sehingga penduga kemungkinan maksimum

merupakan penyelesaian dari persamaan

( ) 0=θθ

ddL (2.5)

13

Secara analitis akan lebih mudah untuk mencari nilai maksimum dari

logaritma, sehingga akan dicari penduga kemungkinan maksimum untuk log-

likelihood. Nilai θ yang memaksimumkan log-likelihood juga akan

memaksimumkan fungsi likelihood.

Jika fungsi likelihood mempunyai k parameter, yaitu

( ) ( )∏=

=n

ikxxxf

121k21 ,,,,,,L KK θθθ (2.6)

maka penduga kemungkinan maksimum parameter k21 ,,, θθθ K adalah variabel

random

( ) ( ) ( )nkknn XXXXXXXXX ,,,ˆˆ,,,,,ˆˆ,,,,ˆˆ2121222111 KKKK ϑϑϑ =Θ=Θ=Θ

di mana kϑϑϑ ˆ,,ˆ,ˆ21 K adalah nilai yang memaksimumkan ( )k21 ,,,L θθθ K .

Oleh karena itu, nilai yang dapat memaksimumkan fungsi likelihood-nya adalah

penyelesain dari k persamaan, yaitu

( )

( )

( )0,,,L

0,,,L

0,,,L

k

k21

2

k21

1

k21

=∂

∂

=∂

∂

=∂

∂

θθθθ

θθθθ

θθθθ

K

M

K

K

Contoh 2.1

Diketahui nXXX ...,,, 21 adalah sampel random dari distribusi normal

dengan rata-rata μ dan variansi 2σ akan dicari penduga maksimum untuk μ dan

2σ .

14

2

21

21)(

⎟⎠⎞

⎜⎝⎛ −

−= σ

μ

πσ

x

x exf

Penyelesaian :

Fungsi likelihood untuk variabel random nXXX ,,, 21 K adalah

∏=

⎟⎠⎞

⎜⎝⎛ −

−

⎟⎠⎞

⎜⎝⎛ −

−⎟⎠⎞

⎜⎝⎛ −

−⎟⎠⎞

⎜⎝⎛ −

−

=

⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

=

==

n

i

x

xxx

n

i

e

eee

xfxfxfxxxf

1

21

21

21

21

321

21

2

222

21

21...

21

21

)(...)()()...,,,(L

σμ

σμ

σμ

σμ

πσ

πσπσπσ

( )

( )

( )

( )

( )

21

2

21

2

21

2

2

22

2

2

2

2

1

2

1

21

σ

μ

σ

μ

σ

μ

πσ

πσ

πσ

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

−⎟⎟⎠

⎞⎜⎜⎝

⎛−−

∑

=

∑

=

∑

⎟⎟⎠

⎞⎜⎜⎝

⎛=

=

=

=

n

ii

n

ii

n

ii

x

n

x

nn

xn

e

e

e

karena lebih mudah untuk mencari nilai maksimum dari fungsi logaritma,

sehingga akan dicari penduga maksimum untuk log-likelihood, diperoleh

logaritma dari fungsi likelihood adalah

15

( )

( )

( )( )

21

2

22

2

22

22ln1ln

2

1lnLln 21

2

σ

μπσ

πσσ

μ

⎟⎠⎞⎜

⎝⎛ ∑ −

−⎭⎬⎫

⎩⎨⎧−=

⎪⎪⎭

⎪⎪⎬

⎫

⎪⎪⎩

⎪⎪⎨

⎧ ∑

=

=

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

=

n

iin

x

n

x

e

n

ii

( ){ }( )

( )2

1

2

2

21

2

2

2ln

22ln

2

22ln

2

σ

μσπ

σ

μπσ

⎟⎠⎞⎜

⎝⎛ ∑ −

−−−=

⎟⎠⎞⎜

⎝⎛∑ −

−−=

=

=

n

ii

n

ii

xnn

xn

( ) ( ) 12

1

22

21ln

22ln

2Lln −

=⎟⎠⎞⎜

⎝⎛ ∑ −−−−= σμσπ

n

iixnn

Kemudian dengan menurunkan terhadap μ dan 2σ diperoleh

( ) ( )2

1Llnσ

μ

μ

∑ −=

∂∂ =

n

iix

( ) ( ) ( )

( )4

1

2

2

22

1

222

21

2

211

2Lln

σ

μ

σ

σμσσ

∑ −+⎟

⎠⎞

⎜⎝⎛

⎟⎠⎞

⎜⎝⎛−=

⎟⎠⎞⎜

⎝⎛ ∑ −+⎟

⎠⎞

⎜⎝⎛

⎟⎠⎞

⎜⎝⎛−=

∂∂

=

−

=

n

ii

n

ii

xn

xn

Dengan menyamakan masing-masing turunannya dengan nol diperoleh

( )

Xn

x

nx

x

n

ii

n

ii

n

ii

=

=

=−

=∑ −

∑

∑

=

=

=

μ

μ

μ

σ

μ

ˆ

ˆ

0

0

1

1

21

16

μ merupakan penduga maksimum dari μ . Penduga maksimum untuk 2σ

diperoleh dengan mengganti μ dengan X , sehingga

( )0

21

2 41

2

2 =∑ −

+⎟⎠⎞

⎜⎝⎛

⎟⎠⎞

⎜⎝⎛− =

σσ

n

ii Xxn

( )

( )

( )n

Xx

nXx

nXx

n

ii

n

ii

n

ii

∑

∑

∑

=

=

=

−=

=−

=−

1

2

2

21

2

241

2

ˆ

22

σ

σ

σσ

Jadi, penduga kemungkinan maksimum bagi μ dan 2σ masing-masing adalah

X=μ dan ( )

n

Xxn

ii∑ −

= =1

2

2σ .

Contoh 2.2

Diketahui X berdistribusi eksponensial

⎩⎨⎧ ≥

=−

selainnya,00,

)|(xe

xpxθθ

θ

Tentukan penduga kemungkinan maksimum untuk θ .

Penyelesaian :

Fungsi likelihood untuk variabel random X adalah

( )∑

== =

−

=

−∏n

ii

i

xn

n

i

xnn eexxx 1

121 ,,,L

θθ θθK

17

kemudian dengan menurunkan terhadap θ dan menyamakannya dengan nol

diperoleh

( ) ( )

( ) ( ) 0

L

1

1

1

1

11

11

11

11

=⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛ ∑−

⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛ ∑

⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛ ∑−+

⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛ ∑=

∂∂

∑

∑

=

−−

=

−−

==

==

n

i

x

in

xn

n

i

x

in

xn

n

i

n

i

n

i

n

i

exen

exen

θθ

θθ

θθ

θθθ

( ) ( )

∑

∑

∑

∑

∑

=

=

=

−

=

−

=

−−

=

=

=

=

⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛ ∑=

⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛ ∑==

n

ii

n

ii

n

iin

n

n

ii

nn

n

i

x

in

xn

x

n

xn

xn

xn

exen

n

i

n

i

1

1

1

11

1

1

1

ˆ

11

11

θ

θ

θθ

θθ

θθθθ

Jadi, penduga kemungkinan maksimum untuk θ adalah ∑

=

= n

iix

n

1

θ .

Contoh 2.3

Percobaan Binomial menghasilkan n observasi X1, X2, ..., Xn dimana 1=iX

jika observasi berhasil dan 0=iX bila gagal. Tentukan penduga Kemungkinan

maksimum untuk probabilitas berhasil p.

( ) ( ) ( ) xnxnx ppCxXPxp −−=== 1

Penyelesaian :

Fungsi likelihood dari sampel adalah probabilitas dari observasi X1, X2, ..., Xn.

18

( ) ( ) xnxn ppxxx −−= 1,,,L 21 K dengan ∑

=

=n

iixx

1

Fungsi L tersebut akan diubah dalam bentuk log-likelihood karena lebih mudah

mencari nilai maksimumnya, sehingga diperoleh

( ){ }( ) ( )pxnpx

pp xnx

−−+=−= −

1lnln1lnLln

kemudian menurunkan terhadap p dan menyamakan dengan nol

( ) ( )

( )

( )

( ) ( )( )

0

01

1

01

1

11

11d

Lln

=−

=−

−−−

=−−

−

−−

−=

−−

−+⎟⎟⎠

⎞⎜⎜⎝

⎛=

npxpp

pxnpxpxn

px

pxn

px

pxn

px

pd

nxp

xnp

=

=

ˆ

Jadi, penduga kemungkinan maksimum untuk p adalah nxp =ˆ .

E. Fungsi Densitas Normal Univariat

Fungsi densitas normal univariat ditentukan oleh dua parameter, yaitu rata-

rata μ dan variansi 2σ . Untuk lebih sederhana, fungsi densitas normal (Gauss)

( )2,~ σμNX yang berarti bahwa X berdistribusi normal dengan rata-rata μ dan

variansi 2σ . Fungsi densitas dari x adalah

19

( )⎥⎥⎦

⎤

⎢⎢⎣

⎡⎟⎠⎞

⎜⎝⎛ −

−=2

21exp

21

σμ

σπxxp

dengan nilai harapan untuk x adalah

[ ] ( )dxxxpXE ∫∞

∞−

=≡μ

dan variansinya adalah

( )[ ] ( ) ( )∫∞

∞−

−=−≡ .222 dxxpxXE μμσ

F. Fungsi Densitas Normal Multivariat

Fungsi densitas normal multivariat dalam d dimensi ditulis sebagai

( )( )

( ) ( )⎭⎬⎫

⎩⎨⎧ −′−−= − μxΣμx

Σx 1

212 21exp

21

dp

π

dengan x : vektor kolom d komponen, μ : vektor rata-rata d komponen, Σ :

matriks kovariansi berukuran dd × , Σ : determinan matriks Σ , 1−Σ : invers

matriks Σ dan ( )′−μx : transpose dari ( )μx − . Untuk lebih sederhana, persamaan

densitas normal multivariat sering ditulis ( )ΣμX ,~ N .

G. Analisis Diskriminan

Pada skripsi ini analisis diskriminan hanya dibahas secara ringkas, terutama

langkah-langkah analisis yang akan digunakan untuk menyelesaikan salah satu

kasus di Bab. IV. Dasar-dasar teori tidak dibahas secara rinci karena sudah

dibahas di skripsi yang lain (Prasetya, Analisis Diskriminan K Kelompok).

20

Analisis diskriminan perlu dibahas karena dalam skripsi ini akan digunakan

menganalisa data yang dikelompokkan dengan menggunakan analisis cluster.

Berdasarkan hasil pengelompokan tersebut akan dicari variabel-variabel yang

dapat membedakan kelompok secara efisien dan mengetahui apakah hasil

pengelompokan sudah tepat atau masih ada obyek yang salah pengelompokannya.

Analisis diskriminan merupakan salah satu teknik analisis multivariat yang

digunakan untuk mengelompokkan observasi-observasi ke dalam salah satu

kategori (dalam hal ini kelompok atau populasi) berdasarkan pada variabel-

variabel tertentu. Ada dua macam variabel yang digunakan dalam analisis

diskriminan, variabel bebas (independen) yang berbentuk metrik (skala interval /

rasio) dan variabel tak bebas (dependen) yang berbentuk kategoris (skala ordinal /

nominal), oleh karena itu analisis diskriminan termasuk dalam teknik dependen.

Analisis diskriminan merupakan perluasan dari analisis regresi, perbedaannya

analisis regresi variabel bebasnya bisa berupa metrik maupun nonmetrik.

Bila terdapat dua buah kategori dan observasi-observasi akan

dikelompokkan ke dalam salah satu kelompok, maka digunakan analisis

dskriminan dua kelompok, sedangkan bila terdapat lebih dari dua buah kategori

dan observasi-observasi akan dikelompokkan ke dalam salah satu kelompok,

maka digunakan analisis diskriminan k kelompok. Konsep dasar kedua analisis

diskriminan tersebut sama. Konsep dasar analisis diskriminan dua kelompok


kelompok jika telah didefinisikan dua kelompok. Misal populasi pertama adalah

1π dan populasi kedua adalah 2π , observasi-observasi dikelompokkan

21

berdasarkan pengukuran terhadap p variabel random [ ]dXXXX ,,,,' 321 K=X .

Semua elemen dari vektor pengukuran X adalah ruang sampel. Masalah

diskriminan dan klasifikasi ini adalah membagi ruang sampel menjadi daerah R1

dan R2, kemudian mengklasifikasikan observasi baru x0 ke dalam populasi 1π jika

vektor pengukuran X berada di R1 dan mengklasifikasikan ke dalam 2π jika

vektor pengukuran X berada di R2. Konsep dasar analisis diskriminan k kelompok

merupakan generalisasi dari analisis diskriminan dua kelompok, yaitu membagi

ruang sampel observasi menjadi daerah-daerah, R1, R2, ..., Rg yang saling asing.

Selanjutnya, sebuah observasi baru x0 akan diklasifikasikan ke dalam kπ jika

vektor pengukuran X berada di Rk.

1π

Gambar 2.1. Ilustrasi Analisis Diskriminan

Analisis diskriminan bertujuan memisahkan observasi-observasi ke dalam

populasi-populasi yang berbeda berdasarkan pada variabel-variabel tertentu.

Asumsi yang harus dipenuhi dalam analisis diskriminan adalah matriks-matriks

22

kovarians populasi sama. Output dari analisis diskriminan adalah fungsi yang bisa


populasi atau kelompok disebut fungsi diskriminan linear atau biasa disebut

fungsi diskriminan. Seperti pada analisis regresi, fungsi diskriminan merupakan

kombinasi linear dari variabel-variabel bebas yang dapat digunakan untuk

menduga nilai suatu variabel tak bebas. Secara matematis fungsi diskriminan

tersebut dimodelkan sebagai berikut :

k3322110 XXXXD ki bbbbb +++++= K

Di = nilai skor diskriminan

bk = koefisien diskriminan ke-k

Xk = prediktor atau variabel independen ke-k

Berikut ini uraian tentang langkah-langkah analisis diskriminan secara

ringkas: gagasan Fisher (1936) adalah mentransformasi observasi-observasi

multivariat x ke dalam observasi univariat y sehingga diperoleh kombinasi-

kombinasi linear dari x yang sesuai untuk merepresentasikan populasi-populasi g.

Andaikan

( )( )'1

0 μμμμB −−= ∑=

i

g

ii

di mana ∑=

=g

iig 1

1 μμ adalah vektor rata-rata dari gabungan populasi-populasi dan

kombinasi linear X'lY = yang mempunyai nilai harapan

( ) ( ) ( ) ( ) ii lElEllEYE μXXX '|''' ==== π untuk populasi iπ serta variansi

23

( ) ( ) llllY Σ== 'Cov'Var X untuk semua populasi, maka iiY l μ'μ = akan berubah

seiring dengan perubahan X. Kemudian didefinisikan rata-rata umum :

μμμ '1''1μ1μ1 11

lg

llgg

g

i

g

iii

g

iiYY =⎟⎟

⎠

⎞⎜⎜⎝

⎛=== ∑ ∑∑

= ==

dan rasio

( )

( )

( )( )

ll

ll

ll

ll

Y

g

iii

g

ii

Y

g

iYiY

Σ′

⎟⎟⎠

⎞⎜⎜⎝

⎛ ′−−′

=

Σ′

′−′=

−=

∑

∑

∑

=

=

=

1

1

21

2

variansiumum) rata-(rata ke populasi)-populasi rata-(rata darijarak kuadrat Jumlah

μμμμ

μμ

σ

μμ

atau

llll

Σ=

'' 0B

(2. 7)

Rasio (2. 7) mengukur variabilitas antar kelompok dari nilai-nilai Y relatif

dan variabilitas gabungan dalam kelompok, kemudian dipilih l yang

memaksimumkan rasio ini.

Pada umumnya, Σ dan iμ tidak diketahui, tetapi dapat disediakan sampel

yang berisi observasi-observasi yang benar diklasifikasi. Misal sampel random

berukuran ni yang berasal dari populasi iπ , serta Xi adalah inxp data yang

berasal dari populasi iπ , gi ,,3,2,1 K= dan xij menunjukkan kolom ke-j dari Xi,

maka vektor rata-rata sampel didefinisikan sebagai berikut :

24

∑=

=in

jij

ii n 1

1 xx

dan matriks-matriks kovarians

( )( )′−−−

= ∑=

iij

n

jiij

ii xxxx

n

i

111S .

Didefinisikan juga vektor keseluruhan rata-rata :

∑

∑∑

∑

∑

=

= =

=

= == g

ii

g

i

n

jji

g

ii

g

iii

nn

ni

1

1 1

1

1

xxx

0B didefinisikan sebagai matriks sampel antar kelompok (sample between groups

matrix), yaitu

( )( )′−−= ∑=

xxxxB i

g

ii

10

Juga penduga dari ∑ berdasarkan pada matriks sampel dalam kelompok

(sample within groups matrix), yaitu :

( ) ( )( )′−−=−= ∑∑∑= ==

iji

g

i

n

jijii

g

ii

i

n xxxxSW1 11

1

Akibatnya, gnnnn g

gabungan −++++=

K321(WS adalah penduga dari Σ . W

adalah konstanta )( 21 gnnn g −+++ L dikalikan dengan gabunganS . Jadi l yang

memaksimumkan ll

llˆˆ

ˆˆ

gabungan

0

SB

juga akan memaksimumkan llllˆˆ

ˆˆ0

WB

.

25

Optimasi l , dapat ditulis dalam bentuk eigenvektor-eigenvektor ie dari 01BW − ,

karena jika ee ˆˆˆˆ0

1 λ=− BW maka ( )eeBS ˆˆˆˆ3210

1 gnnnn ggabungan −++++=− Kλ .

Andaikan 0ˆ,,ˆ,ˆ21 >sλλλ L dengan ),1min( pgs −≤ eigennilai-eigennilai tak nol

dari 01BW − dan see ˆ,,ˆ1 K adalah eigenvektor-eigenvektor yang bersesuaian,

(yang diskala, sehingga 1ˆ'ˆ gabungan =eSe ) maka vektor-vektor koefisien l yang

memaksimumkan rasio ( )( )

( )( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛ ′−−′

⎟⎟⎠

⎞⎜⎜⎝

⎛ ′−−=

′

′

∑∑

∑

= =

=

g

i

n

iijij

g

iii

ll

ll

llll

1 1

10

1 ˆˆ

ˆ'ˆ

ˆˆˆˆˆ

xxxx

xxxx

WB

adalah 11 ˆˆ e=l .

Kombinasi linear x1l dinamakan diskriminan pertama sampel (sample first

discriminant). Jika dipilih 21 ˆˆ e=l akan menghasilkan diskriminan kedua sampel

(sample second discriminant), x2l , dan selanjutnya xex kkl ′=′ ˆˆ adalah diskriminan

ke-k sampel (sample k-th discriminant), sk ≤ .

Secara ringkas langkah-analisis dapat dibuat flowchart sebagai berikut :

26

Kesimpulan: Observasi x0

dikelompokkan di populasi ke iπ

Hitung y11, y12, y21, y22, y32, y32

Data

gabungan

i1

i1

SxSSSSxxxx

,,,,,,,

32

32

K

K

Hitung 01BW −

Dicari eigennilai & eigenvalue dari 0

1BW −

Dicari koefisien fungsi diskriminan

Diperoleh fungsi diskriminan

Masukkan data x0 yang akan dikelompokkan

Hitung skor diskriminan

BAB III

ANALISIS CLUSTER

A. Konsep Jarak antar Obyek

Analisis cluster termasuk dalam analisis statistik multivariat metode

interdependen. Analisis cluster merupakan suatu alat analisis yang berguna untuk

meringkas data yang dapat dilakukan dengan jalan mengelompokkan obyek-

obyek berdasarkan kesamaan karakteristik tertentu di antara obyek-obyek yang

hendak diteliti. Kesamaan tersebut dinyatakan dalam ukuran similaritas atau

disimilaritas.

Seorang peneliti ingin mengetahui kebiasaan masyarakat minum teh di

daerah tertentu. Berdasarkan data pada Tabel 1.1, peneliti dapat mengambil

kesimpulan bahwa terdapat dua kelompok usia dengan karakteristik yang berbeda.

Kelompok pertama mempunyai karakteristik usia kurang dari 30 tahun cenderung

memilih harga teh mahal, kurang suka rasa melati, kurang memperhatikan

kemasan dan lebih suka teh warna kekuningan. Pembentukan kelompok-

kelompok observasi berdasarkan jarak, obyek yang mirip seharusnya berada

dalam kelompok yang sama dan sebaliknya obyek yang mempunyai banyak

perbedaan berada dalam kelompok yang berbeda. Pembentukan kelompok

tersebut akan diikuti dengan terjadinya pengelompokan yang menunjukkan

kedekatan kesamaan antar obyek.

Berdasarkan tipe datanya, ukuran similaritas dibedakan menjadi dua, yaitu

dengan sistem metrik dan koefisien asosiasi:

28

1. Ukuran jarak untuk data kontinu

Data obyek yang akan diteliti dapat ditampilkan dalam bentuk matriks

nxdX dengan n banyaknya obyek dan d banyaknya variabel.

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

=

ndnn

d

d

xxx

xxxxxx

d

L

MMMM

L

L

L

21

22221

11211

21variabel

X

Kemiripan antara obyek-obyek yang diteliti dapat dideskripsikan sebagai

matriks nxnD .

⎥⎥⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢⎢⎢

⎣

⎡

=

nnnn

n

n

ddd

dddddddd

LLL

MOMM

MOMM

MOMM

LL

LL

21

2232221

1131211

D

Matriks D berisi ukuran similaritas atau disimilaritas antara n obyek. Ukuran

disimilaritas yang paling umum untuk mengukur dekatnya dua titik adalah

metrikΔdengan pemetaan Rd x Rd onto R1 dan memenuhi aksioma berikut :

a. 0),( ≥Δ yx , untuk semua x dan y di Rd.

b. 0),( =Δ yx jika dan hanya jika yx = .

c. ),(),( xyyx Δ=Δ untuk semua x dan y di Rd.

d. ),(),(),( zyzxyx Δ+Δ≤Δ untuk semua x, y dan z di Rd.

1

2 M

n

obyek

29

Ukuran tersebut dinyatakan dalam jarak dua obyek yang pengukurannya

dapat menggunakan norma-norma berikut :

a. Norma L1 atau “city block” metrik.

1

1

1

1 ⎭⎬⎫

⎩⎨⎧

−=−= ∑=

d

kjkikjiij xxd xx (3.1)

b. Norma L2 yang terkenal dengan nama jarak Euclidean

21

1

2

2 ⎭⎬⎫

⎩⎨⎧

−=−= ∑=

d

kjkikjiij xxd xx (3.2)

b. Square Euclidean yang dirumuskan :

∑=

−=d

kjkikij xxd

1

2 (3.3)

d. Chebychev yang merupakan ukuran jarak dengan maksimum selisih

nilai mutlak

jkikij xxd −= max (3.4)

e. Secara umum, ukuran jarak dapat didefinisikan sebagai norma Lr

dengan 1≥r yang disebut jarak Minkowski

rd

k

r

jkikrjiij xxd

1

1 ⎭⎬⎫

⎩⎨⎧

−=−= ∑=

xx (3.5)

Contoh 3.1

Misal diketahui [ ] [ ]0,1,0,0 2 == xx1 dan [ ]5,53 =x , akan dicari matriks

jarak dengan beberapa norma di atas. Vektor x1, x2 dan x3 dapat ditulis dalam

bentuk matriks :

30

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

550100

X

sehingga dari persamaan 3.1 diperoleh

merupakan elemen baris pertama kolom pertama dari matriks D1,

merupakan elemen baris pertama kolom kedua dari matriks D1,

merupakan elemen baris kedua kolom ketiga, sedangkan elemen lainnya dapat

dihitung dengan cara yang mirip sehingga diperoleh

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

0910901

1010

1D

dari persamaan 3.2 elemen-elemennya diperoleh

01100

12121111

2

1111111

=

−+−=

−+−=

−=−= ∑=

xxxx

xxxxd k

kk

10010

22122111

2

1212112

=

−+−=

−+−=

−=−= ∑=

xxxx

xxxxd k

kk

95051

32223121

2

1323223

=

−+−=

−+−=

−=−= ∑=

xxxx

xxxxd k

kk

31

( )( )0

1100 21

22

21

21212

21111

21

2

1

21121111

=

−+−=

−+−=

⎭⎬⎫

⎩⎨⎧

−=−= ∑=

xxxx

xxdk

kkxx

merupakan elemen baris pertama kolom pertama dari matriks D2,

( )( )1

0010 21

22

21

22212

22111

21

2

1

22122112

=

−+−=

−+−=

⎭⎬⎫

⎩⎨⎧

−=−= ∑=

xxxx

xxdk

kkxx


( )( )

41

5051 21

22

21

23222

23121

21

2

1

2113213

=

−+−=

−+−=

⎭⎬⎫

⎩⎨⎧

−=−= ∑=

xxxx

xxdk

kkxx

merupakan elemen baris kedua kolom ketiga, sedangkan elemen lainnya dapat

dihitung dengan cara yang mirip sehingga diperoleh

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

=

04150

4101

5010

2D

dan dari persamaan 3.3 elemen-elemennya diperoleh

32

10010 22

22212

22111

22

12112

=

−+−=

−+−=−= ∑=

xxxxxxdk

kk


505050 22

23212

23111

22

13113

=

−+−=

−+−=−= ∑=

xxxxxxdk

kk

merupakan elemen baris pertama kolom ketiga dari matriks D3, selengkapnya

matriks yang diperoleh adalah

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

0415041015010

3D

2. Ukuran similaritas untuk struktur biner

Ukuran disimilaritas digunakan untuk data yang bersifat metrik, sedangkan

data dari variabel yang berskala nominal dapat menggunakan ukuran similaritas

yang dikenal sebagai koefisien asosiasi. Contoh variabel yang berskala nominal

adalah variabel yang disajikan dalam struktur biner. Untuk menentukan ukuran

similaritas variabel nominal, setiap obyek diperiksa apakah memiliki ciri yang

ditentukan atau tidak. Bila obyek tersebut memiliki ciri yang ditentukan, maka

obyek diberi nilai 1 dan bila tidak memiliki ciri yang ditentukan, maka diberi nilai

0. Ukuran similaritas ditentukan oleh kedua nilai tersebut dan koefisien similaritas

yang digunakan dapat dilihat beberapa alternatif pada Tabel 3.1.

33

Untuk mengukur similaritas antar obyek selalu dibandingkan pasangan

observasi ( )ji xx , , di mana ( ) ( )jdjjidii xxxx ,,,,, 1T

1T KK == xx dan

{ }1,0, ∈jkik xx , sehingga ada empat macam kasus, yakni

.0,0,1

,1,0,1

==

==

==

==

jkik

jkik

jkik

jkik

xxxx

xxxx

Berikut ini merupakan ukuran similaritas yang sering digunakan

( )3241

41

aaaaaadij +++

+=

λδδ (3.6)

di mana

I merupakan fungsi karakteristik sedangkan δ dan λ adalah faktor pembobot

(weighting factors). Di bawah ini merupakan beberapa koefisien similaritas

beserta faktor pembobotnya.

Nama Koefosien SimilaritasFaktor Pembobot

Definisi Koefisien Similaritas δ λ

Jaccard 0 1 321

1

aaaa++

∑

∑

∑

∑

=

=

=

=

===

===

===

===

d

kjkik

d

kjkik

d

kjkik

d

kjkik

xxa

xxa

xxa

xxa

14

13

12

11

),0(

),0,1(

),1,0(

),1(

I

I

I

I

34

Tanimoto 1 2 ( ) 4321

41

2 aaaaaa

++++

Dice 0 0.5 ( )321

1

5.022

aaaa

++

Tabel 3.1. Beberapa contoh koefisien similaritas.

Contoh 3.2

Di bawah ini diperoleh data 3 merek mobil, ada 8 variabel yang dinilai,

rentang nilai antara 1 (sangat buruk) sampai 6 (sangat bagus), variabel-

variabelnya adalah sebagai berikut :

X1 = ekonomis

X2 = service

X3 = harga jual

X4 = harga, nilai 1 untuk harga mobil paling murah

X5 = desain

X6 = model sporty

X7 = keamanan

X8 = kemudahan perawatan

Merk X1 X2 X3 X4 X5 X6 X7 X8 Renault 2.7 3.3 3.4 3 3.1 3.4 3 2.7 Rover 3.9 2.8 2.6 4 2.6 3 3.2 3 Toyota 2.5 2.9 3.4 3 3.2 3.1 3.2 2.8

kx 3.03 3 3.13 3.33 2.96 3.16 3.13 2.83

Tabel 3.2. Data Karakteristik Mobil

35

Misal data biner dihitung dari data di bawah ini dengan definisi sebagai berikut :

⎩⎨⎧ >

=selainnya0

,jika1 kikik

xxy

Untuk ni ,,2,1 K= , dk ,,2,1 L= dan kx adalah nilai rata-rata variabel ke-k.

Berdasarkan definisi tersebut, diperoleh data biner sebagai berikut :

Merk X1 X2 X3 X4 X5 X6 X7 X8 Renault 0 1 1 0 1 1 0 0 Rover 1 0 0 1 0 0 1 1 Toyota 0 0 1 0 1 0 1 1

Tabel 3.3. Data Biner Karakteristik Mobil

Sebelum menghitung matriks similaritas, perlu dicari 321 ,, aaa dan 4a , berikut

ini beberapa perhitungannya untuk elemen 11d dan 12d .

321 ,, aaa dan 4a untuk 11d diperoleh

( )

( )

( )

( ) .40I

,00,1I

,01,0I

,41I

11

8

14

11

8

13

11

8

12

11

8

11

====

====

====

====

∑

∑

∑

∑

=

=

=

=

kkk

kkk

kkk

kkk

xxa

xxa

xxa

xxa

321 ,, aaa dan 4a untuk 12d diperoleh

( )

( )

( ) ,40,1

,41,0

,01

2

8

13

2

8

12

2

8

11

====

====

====

∑

∑

∑

=

=

=

kikk

kikk

kikk

xxa

xxa

xxa

I

I

I

36

( ) .002

8

14 ====∑

=kik

kxxa I

Maka matriks similaritasnya adalah sebagai berikut :

a. bila menggunakan koefisien Jaccard

0440

0

1004

4

321

112

321

111

=++

=++

=

=++

=++

=

aaaa

d

aaaa

d

sehingga bila dihitung secara lengkap diperoleh matriks

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

133.033.033.01033.001

b. bila menggunakan koefisien Tanimoto

( ) ( ) 140024

4443221

4111 =

++++

=+++

+=

aaaaaad

( ) ( ) 044424

0043221

4112 =

++++

=+++

+=

aaaaaad

sehingga bila dihitung secara lengkap diperoleh matriks

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

133.033.033.01033.001

Untuk variabel kuantitatif, salah satu ukuran similaritas antara xi dan xj,

observasi pada obyek i dan j adalah korelasi berpasangan ),( jkik xx dengan

dk ,,2,1 L= , yakni

37

( ) ( )2/1

2.

2.

.. ))((

⎭⎬⎫

⎩⎨⎧

−−

−−=

∑

∑

kjjkiik

kjjkiik

ik

xxxx

xxxxc (3.7)

Ukuran similaritas dapat didefinisikan sebagai suatu fungsi yang memetakan

P x P ke R1 dengan P adalah populasi obyek dan memenuhi aksioma-aksioma

berikut :

a. ( ) PjijiC di,semuauntuk1,0 ≤≤ .

b. .1),( =iiC

c. .jikahanya1),( jijiC ==

d. ).,(),( ijCjiC =

di mana ijcjiC =),( .

3. Standarisasi Skor

Dalam analisis cluster dapat menggunakan bermacam-macam tipe data

dengan berbagai macam satuan. Oleh karena itu data-data tersebut perlu

distandarisasi agar menghilangkan pengaruh perbedaan satuan. Salah satu

standarisasi skor yang sering digunakan adalah z-score dengan rumus :

SXx

z i −=

sampeldeviasistandarsampel rataratanilai

ke pengamatannilai

=−=

−=

SX

ixi

Data yang distandarisasi dengan menggunakan z-score mempunyai nilai rata-rata

nol dan nilai standar deviasi 1.

38

B. Metode-metode dalam Analisis Cluster

Ada banyak metode yang digunakan dalam analisis cluster, pada umumnya

dibagi dua, yaitu hierarchical cluster dan nonhierarchical cluster. Metode yang

termasuk dalam hierarchical cluster adalah metode agglomerative (agglomerative

method) dan metode divisif (divisive method). Metode agglomerative ada tiga

yaitu metode ketergantungan (linkage method), metode centroid dan metode

variansi. Metode ketergantungan di antaranya yaitu, metode ketergantungan

tunggal (single linkage method) atau dalam SPSS disebut nearest neighbor,

metode ketergantungan lengkap (complete linkage) atau dalam SPSS disebut

furthest neighbor dan metode ketergantungan rata-rata (average linkage). Metode

variansi yang umum digunakan adalah metode Ward’s. Metode yang termasuk

dalam nonhierarchical cluster adalah sequential thereshold, paralel thereshold,

optimizing partitioning (ketiga metode tersebut tidak dibahas dalam skripsi ini

karena kurang berkembang) dan K-means cluster. Hubungan antara metode-

metode dalam analisis cluster tersebut dapat digambar dalam bagan berikut :

Gambar 3.1. Hubungan antara metode-metode dalam analisis cluster

39

1. Metode Hierarchical

a. Metode Agglomerative

Metode agglomerative dimulai dengan menempatkan obyek dalam cluster-

cluster yang berbeda kemudian mengelompokkan obyek secara bertahap ke dalam

cluster-cluster yang lebih besar. Artinya, pertama, setiap obyek dianggap sebagai

cluster, jadi jika ada n obyek, pada tahap pertama ada n cluster. Kemudian, secara

bertahap dilakukan pengelompokan dengan memeriksa satu pasangan obyek

paling mirip, kemudian keduanya digabung menjadi satu cluster, sehingga pada

tahap kedua, jumlah cluster menjadi n-1. Pemeriksaan kemiripan obyek tersebut

melalui pemeriksaan matriks nxnD

yang berisi ukuran similaritas atau disimilaritas.

Proses ini berjalan terus sehingga pada tahap terakhir semua obyek menjadi satu

cluster.

1) Metode single linkage

Jika 1C dan 2C adalah cluster, maka jarak antara cluster tersebut

didefinisikan sebagai jarak terkecil antara anggota 1C dan anggota 2C , yaitu

{ }21))(( ,:min21

CjCidd ijCC ∈∈=

di mana i melambangkan sebagai ‘ obyek i ‘. Di bawah ini contoh sederhana

untuk mendemonstrasikan proses pada metode single linkage.

Contoh 3.3

Misal diketahui matriks disimilaritas 5 buah obyek sebagai berikut:

40

⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢

⎣

⎡

=

047584083978061536078917054321

4D

54321

Minimum ijd nya adalah 1131 == da , sehingga obyek 1 dan 3 digabung dan

diperoleh cluster-nya adalah (1,3), (2), (4) dan (5). Sekarang

{ } { }{ } { }{ } { } ,77,8min,min

,88,9min,min

,66,7min,min

535351)3,1)(5(

434341)3,1)(4(

232321)3,1)(2(

====

====

====

dddd

dddd

dddd

dan matriks jarak untuk cluster tersebut adalah

( )

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

=

04574038530678605423,1

5D

542

)3,1(

Diperoleh masukan paling kecil adalah 3242 == da , sehingga obyek 2 dan 4

digabung dan cluster-nya menjadi (1, 3), (2, 4) dan (5), dengan

{ } { }{ } { } ,44,5min,min

,68,6min,min

545452)4,2)(5(

)3,1)(2()3,1)(4()3,1)(2()4,2)(3,1(

====

====

dddd

dddd


41

( ) ( )

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

04740676054,23,1

5D5

)4,2()3,1(

Diperoleh masukan paling kecil adalah 4)4,2)(5(3 == da , sehingga obyek 5

digabung dengan cluster (2, 4) dan cluster-nya menjadi (1, 3) dan (2, 4, 5) dengan

{ } { } .67,6min,min )4,2)(3,1()5)(3,1()4,2)(3,1()5,4,2)(3,1( ==== dddd

Akhirnya dua cluster tersebut digabung menjadi satu cluster, yaitu (1, 2, 3, 4, 5).

Proses di atas diilustrasikan dengan gambar yang dapat dilihat pada Gambar 3.2

dan diagram dendrogram Gambar 3.3.

Gambar 3.2. Ilustrasi metode Single Linkage

Sumbu vertikal merupakan jarak cluster dan sumbu horizontal merupakan

obyek. Dalam membuat diagram dendrogram, beberapa pemberian label kembali

(relabeling) biasanya diperlukan sehingga masing-masing cluster merupakan

suatu urutan obyek yang berdekatan, contohnya pertukaran 2 dan 3 seperti pada

Gambar 3.3. Proses penggabungan di atas dapat disederhanakan dengan

menuliskan ijd secara urut dari yang terkecil dan cluster yang digabung ke bentuk

tabel ( Tabel 3.4 ).

42

a0= 0

a1= 1

a2= 3

a3= 4

a4= 6

Obyek

Jarak

1 3 2 4 5

Gambar 3.3. Dendrogram single linkage untuk matriks disimilaritas D4

Jarak Terurut Cluster

113 =d ( ) ( ) ( ) ( )5,4,2,3,1

324 =d ( ) ( ) ( )5,4,2,3,1

445 =d ( ) ( )5,4,2,3,1

525 =d ( ) ( )5,4,2,3,1

623 =d ( )5,4,3,2,1

635 =d ( )5,4,3,2,1

815 =d ( )5,4,3,2,1

914 =d ( )5,4,3,2,1

Tabel 3.4. Proses Penggabungan cluster dengan metode single linkage

43

2) Metode Complete Linkage

Metode complete linkage merupakan kebalikan dari metode single linkage

Jarak antara dua cluster didefinisikan sebagai jarak terbesar antara anggota 1C dan

2C , yaitu

{ }21))(( ,:max21

CjCidd ijCC ∈∈=

Pada masing-masing langkah, cluster yang berjarak terkecil digabung menjadi

satu kelompok.

Contoh 3.4

Matriks yang digunakan adalah matriks disimilaritas D4, jarak minimumnya

1131 == da , sehingga obyek 1 dan 3 digabung dan diperoleh cluster-nya adalah

(1,3),(2), (4) dan (5). Sekarang

{ } { }{ } { }{ } { } ,87,8max,max

,98.9max,max

,76,7max,max

515351)3,1)(5(

414341)3,1)(4(

212321)3,1)(2(

====

====

====

dddd

dddd

dddd


( )

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

=

04584039530789705423,1

7D

542

)3,1(

Diperoleh jarak paling kecil adalah 3242 == da , sehingga obyek 2 dan 4

digabung dan cluster-nya menjadi (1,3),(2,4) dan (5) dengan

44

{ } { }{ } { } ,54,5max,max

,99,7max,max

525452)4,2)(5(

)3,1)(4()3,1)(4()3,1)(2()4,2)(3,1(

====

====

dddd

dddd


( ) ( )

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

05850989054,23,1

8D5

)4,2()3,1(

Diperoleh jarak paling kecil adalah 5)4,2)(5(3 == da , sehingga obyek 5 digabung

dengan cluster (2,4) dan cluster-nya menjadi (1,3) dan (2, 4, 5) dengan

{ } { } .98,9max,max )4,2)(3,1()5)(3,1()4,2)(3,1()5,4,2)(3,1( ==== dddd

Akhirnya dua cluster tersebut digabung menjadi satu cluster, yaitu (1, 2, 3, 4, 5).

Diagram dendrogram dapat dilihat pada Gambar 3.4.

a0= 0

a1= 1

a2= 3

a3= 5

a4= 9

1 3 2 4 5

Obyek

Jarak

Gambar 3.4. Dendrogram complete linkage untuk matriks disimilaritas D4

45

Gambar 3.5. Ilustrasi metode complete linkage

3) Metode Average Linkage

Metode average linkage mirip dengan metode single linkage dan complete

linkage. Bedanya, adalah pada metode average linkage, jarak antara kelompok

dan invidu atau jarak antara dua kelompok adalah rata-rata dari jarak antar

individu yang terlibat, didefinisikan

∑ ∑∈ ∈

=1 2

21 21

))((Cr Cs

rsCC dd

Contoh 3.5

Matriks yang digunakan masih sama dengan contoh di atas yaitu matriks

disimilaritas D4, Langkah pertama menentukan menentukan jarak minimumnya,

yaitu 1131 == da , sehingga obyek 1 dan 3 digabung dan diperoleh cluster-nya

adalah (1,3),(2), (4) dan (5). Langkah berikutnya menghitung jarak cluster,

diperoleh

( ) ( )

( ) ( ) 5.88921

21

5.66721

21

4341)3,1)(4(

2321)3,1)(2(

=+=+=

=+=+=

ddd

ddd

( ) ( ) 5.77821

21

5351)3,1)(5( =+=+= ddd

46

sehingga matriks jarak untuk cluster tersebut adalah

( )

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

=

0455.74035.85305.65.75.85.60

5423,1

9D

542

)3,1(

Jarak minimum dari matriks D9 adalah 3242 == da , sehingga obyek 2 dan 4

digabung dan diperoleh cluster-nya menjadi (1,3), (2,4) dan (5) dengan

dan matriks jaraknya

( ) ( )

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

05.45.75.405.75.75.70

54,23,1

10D5

)4,2()3,1(

Dari matriks D10 tampak bahwa jarak minimumnya adalah 5,4)4,2)(5(3 == da ,

sehingga obyek 5 digabung dengan cluster (2, 4) dan diperoleh cluster-nya adalah

(1, 3) dan (2, 4, 5). Akhirnya dua cluster tersebut digabung menjadi satu cluster

(1, 2, 3, 4, 5) dengan

( ) ( )( ) ( ) 5.75.75.721

21

5)3,1(4,2)3,1()5,4,2)(3,1( =+=+= ddd

Proses di atas dapat diilustrasikan dengan Gambar 3. 6.

( ) ( )

( ) ( ) ,5.44521

21

. 5 .8.621

21

5452)4,2)(5(

)3,1)(4()3,1)(2()4,2)(3,1(

=+=+=

=+=+=

ddd

ddd 5 75

47

Gambar 3.6. Ilustrasi metode average linkage 4) Metode Centroid

Metode centroid menggunakan jarak antara dua cluster yang didefinisikan

sebagai jarak antara cluster centroid. Cluster centroid ialah nilai rata-rata variabel

dari semua obyek dalam cluster tertentu. Jika

∑∈

==jCi j

ij j

n2,1

xx

adalah centroid dari n1 anggota C1 dan 2x adalah centroid dari n2 anggota C2 ,

maka

),,()2)(1( 21 xxPd CC =

di mana P adalah ukuran proksimitas, misalnya korelasi berpasangan persamaan

(3.7), norma L1 atau ukuran disimilaritas lainnya. Mula-mula berdasarkan matriks

jarak dengan elemennya ),( ji xxP , dua cluster yang paling dekat digabung dan

digantikan oleh centroid dari cluster baru. Centroid dari ,21 CC ∪ penggabungan

C1 dan C2, diberikan oleh rata-rata terbobot (weight average)

21

21

nnnn

++

= 21 xxx

48

5) Metode Median

Metode median mirip dengan metode centroid, hanya bedanya centroid dari

,21 CC ∪ adalah rata-rata tak terbobot (unweighted average)

)(21

21 xxx += . (3.8)

Metode ini dapat mengatasi kekurangan metode centroid, yaitu bahwa jika sebuah

kelompok kecil bergabung dengan sebuah kelompok besar, kelompok tersebut

akan kehilangan identitasnya dan centroid yang baru akan berada di dalam

kelompok yang besar.

6). Metode Group Average

Metode group average menggunakan jarak antara C1 dan C2 yang

didefinisikan sebagai rata-rata dari n1n2 buah disimilaritas antar semua pasangan :

∑ ∑∈ ∈

=1 2

2121

))((1

Cr CsrsCC d

nnd

7). Metode Ward’s

Metode ward’s menggunakan ide dari kasus data univariat, yaitu jumlah

kuadrat (sum of squares). Dalam metode ini, untuk menggabungan dua cluster

dipilih ))(( 21 CCI yang minimal.

221

21

21

22

1

22

21

221

1 221

)2)(1(

xx

x

xxxxxx

−+

=

−=

⎭⎬⎫

⎩⎨⎧

−+−−−=

∑

∑ ∑∑

=

∈ ∈∪∈

nnnn

xn

ICi Ci

iiCCi

CC

ααα

Secara khusus, untuk obyek r dan s,

49

.21

21 22

))(( rsdxxI srsr =−=

Dimulai dengan D=[(d2rs)], jarak di antara dua cluster didefinisikan

.2 ))(())(( 2121 CCCC Id =

Metode-metode pada sub (1), (2) , (4) dan (5) (dengan

22121 ),( xxxx −=P

pada metode centroid) adalah kasus-kasus khusus dari rumus di bawah ini untuk

jarak di antara cluster C3 dan 21 CC ∪ :

9.3))(())(())(())((2))((1))(( 2313212313213 CCCCCCCCCCCCC dddddd −+++=∪ γβαα

dengan nilai γβαα dan,, 21 dapat diamati pada Tabel 3.5.

Metode iα β γ

Single linkage 21

0 21

−

Complete Linkage 21

0 21

Centroid 21 nn

ni

+ 2

21

21

)( nnnn

+− 0

Ward's 321

3

nnnnni

+++

321

3

nnnn++

−0

Median 21

41

− 0

Group Average 21 nn

ni

+ 0 0

Tabel 3.5. Parameter untuk persamaan 3.9

Dari ketujuh metode yang sudah diuraikan di atas, dapat dibuat algoritma metode

agglomerative secara ringkas sebagai berikut :

1. Menghitung matriks jarak D.

2. Memilih masukan jarak antara dua cluster yang paling dekat.

50

3. Menggabungkan dua cluster yang memiliki jarak paling dekat tersebut.

4. Kembali ke langkah pertama sampai ketiga, hingga semua obyek tergabung

dalam satu cluster.

Flowchart dari algoritma di atas dapat dilihat pada Gambar 3. 7.

Gambar 3.7. Flowchart metode agglomerative

b. Metode Divisive

Pada Gambar 3.1 dapat dilihat bahwa metode hierarchical dibagi menjadi

dua, yaitu metode agglomerative dan metode divisive. Pada metode divisive,

prosesnya kebalikan dari metode agglomerative. Langkah awal, menempatkan

semua obyek sebagai satu cluster, kemudian langkah selanjutnya, secara bertahap,

obyek-obyek dipisahkan ke dalam cluster-cluster yang berbeda sampai semua

51

obyek menjadi cluster sendiri-sendiri (satu cluster hanya terdiri dari satu obyek)

seperti yang dideskripsikan pada Gambar 3. 8.

a b

d e

c d e

a b c d e

Step 2 Step 3 Step 4Step 0Agglomerative

Divisive

Step 1

a

c

b

e

d

Step 2 Step 1 Step 0Step 4 Step 3

Gambar 3.8. Perbedaan agglomerative dan divise

2. Metode Nonhierarchical

Pada skripsi ini, metode nonhierarchical yang akan dibahas hanya metode

K-means cluster karena metode yang lain jarang berkembang. Sebelum membahas

metode K-means cluster, akan diuraikan terlebih dahulu tentang ajar tak

disupervisi (unsupervised learning), pengklasifikasian yang dikombinasikan dan

pendugaan parameter serta konsep densitas campuran (mixture density).

a. Ajar Tak Disupervisi

Sebelum diuraikan lebih banyak tentang ajar tak disupervisi, ada hal yang

perlu diketahui, yaitu perbedaan antara ajar disupervisi dan ajar tak disupervisi.

Perbedaannya adalah bahwa ajar disupervisi diketahui kategori (label kelas) untuk

masing-masing sampel sedangkan ajar tak disupervisi sampel tersebut tidak diberi

label.

Pada bagian ini akan dibahas mengenai masalah pengenalan pola dengan

training set yang tidak berlabel. Misal, notasi training set tersebut adalah uH .

52

Untuk setiap uH∈x , asal kelas atau label tidak diketahui. Tiga atribut yang

diinginkan dari uH adalah :

1. Cardinality uH besar.

2 Semua kelas diwakili pada uH .

3. Subset-subset dari uH bisa dibentuk ke dalam pengelompokan yang wajar

atau cluster, di mana masing-masing cluster hampir bisa dipastikan

berpasangan dengan satu kelas pola dasar.

Unsupervised learning bertujuan untuk mendefinisikan kelompok. Gambar

3.9 dan Gambar 3.10 mengilustrasikan masalah yang ekstrim. Gambar 3.9,

sampel-sampel dapat dikelompokan dengan baik, sedangkan pada Gambar 3.10

sampel-sampel sulit untuk dikelompokan karena beberapa sampel mempunyai ciri

yang hampir mirip.

- 8.00

- 4.00

0.00

8.00

4.00

- 8.00 - 4.00 0.00 4.00 8.00

Gambar 3.9. Sampel-sampel di uH dapat dikelompokkan dengan baik.

53

Gambar 3.10. Sampel-sampel di uH tidak dapat dikelompokan dengan baik.

Ada dua macam pendekatan unsupervised learning, yaitu :

1. Pendekatan parametrik berdasar pada mengetahui bentuk-bentuk

fungsional untuk mendasari distribusi-distribusi kelas beryarat yang

melibatkan pengklasifikasian yang dikombinasikan dan pendugaan

parameter.

2. Pendekatan nonparametrik yang melibatkan membagi data yang tidak

berlabel ke dalam subset-subset.

Pada skripsi ini hanya diuraikan mengenai pendekatan parametrik.

b. Pengklasifikasian yang Dikombinasikan dan Pendugaan Parameter.

Misal iθ adalah vektor parameter untuk kelas ke-i. dan diketahui keadaan

awal berikut :

1. c ( banyaknya kelompok ).

2. Probabilitas prior kelas iw , ciwP i ,,2,1),( L=

3. Bentuk-bentuk untuk fungsi densitas bersyarat , ( )iiwp θx ,| diketahui .

54

4. Training set uH .

iθ adalah vektor parameter untuk kelas ke-i yang akan dicari, dengan

.,,2,1 ci L=

c. Konsep Densitas Campuran ( Mixture Density ).

Misal bahwa semua sampel di uH dihasilkan oleh suatu fungsi densitas

campuran tunggal

( ) ( ) ( )∑=j

jjj wPwpp θxθx ,|| (3.10)

Misal ( )θx |p satu-satunya informasi yang bisa diduga secara langsung dari uH .

Fungsi densitas campuran adalah jumlahan dari nilai densitas-densitas individual

(sering kali bermodus tunggal). Rumus fungsi densitas campuran tidak

berimplikasi bahwa vektor-vektor di uH adalah jumlahan-jumlahan vektor-vektor

random dengan densitas komponen-komponennya. Sebagai contoh, fungsi

densitas dari jumlahan variabel-variabel random Gaussian bukan jumlahan fungsi

densitasnya.

Gambar 3.11. Konsep Densitas Campuran

55

Oleh karena itu, bila diberikan fungsi ( )θx |p , tujuannya adalah menentukan θ ,

dengan cara bekerja mundur untuk menemukan iθ .

Misal n sampel-sampel bersifat bebas, joint density dari training set berasal

dari densitas campuran

( ) ( )θxθ ||1 k

n

ku pHp ∏ == (3.11)

Untuk menemukan penduga maximum likelihood, θ , akan dicari suatu nilai dari

θ yang memaksimalkan (3.11). Pada kasus di mana ( )θ|uHp bermodus tunggal

dan ( )θx |kp terdiferensialkan terhadap θ ,dapat dipilih suatu fungsi monoton

naik yang baik dari ( )θ|uHp , dinotasikan f, dan ambil

( )[ ] 0θθ =∇ |uHpf (3.12)

untuk mencapai suatu batasan bagi θ . Fungsi log dipilih untuk f, sehingga (3.12)

menjadi

( )[ ]{ } ( )[ ] ( )[ ] 0θxθxθ θθθ =∇=∇=∇ ∑∑==

|log|log|log11

k

n

kk

n

ku ppHp (3.14)

Karena rumus diferensiasi

( ){ } ( )( )xxu

xuxu

x ∂∂

=∂∂ 1log (3.15)

berlaku bagi masing-masing unsur vektor pada (3.14), menggunakan (3.10) dan

turunkan terhadap iθ menghasilkan

( )[ ]{ } ( ) ( ) ( ) ,,||

1|log1 1

u 0θxθx

θg θθ =⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

⎭⎬⎫

⎩⎨⎧

∇=∇≡ ∑ ∑= =

n

kj

c

jjjk

k

wPwpp

Hpii (3.16)

dengan ci ,,2,1 K= .

56

Misal iθ dan jθ independen, maka

( ) 0θxθ =∇ jjk wpi

,| kecuali jika ji = (3.17)

Aturan Bayes membolehkan untuk membentuk

( ) ( ) ( )( )θx

θθx

|,|

,|k

iiikki p

wPwxpwP = (3.18)

maka g menjadi

( ) ( ) ( ){ }

( )( ) ( ){ }

( )( ) ( ){ }iik

n

k ik

ki

iik

n

k k

i

iiik

n

k k

wppwP

wpp

wP

wPwpp

i

i

i

θxθxθx

θxθx

θxθx

g

θ

θ

θ

,||

,|

,||

,||

1

1

1

1

∇=

∇=

∇=

∑

∑

∑

=

=

=

berdasarkan (3.15) diperoleh

( ) ( ){ }iik

n

kki wpwP

iθxθxg θ ,|log[,|

1∇=∑

=

(3.19)

Dari definisi pendugaan maximum likelihood diperoleh persamaan pembatas

(constraint equation) untuk iθ , yaitu

( ) ( )[ ]{ } 0θxθx θ =∇∑=

iik

n

kki wpwP

iˆ,|logˆ,|

1 (3.20)

Pada persamaan (3.20) θ adalah vektor parameter densitas campuran sesuai

dengan iθ .

Contoh 3.7

Misal menggunakan densitas Gauss (dengan vektor mean yang tidak

diketahui). Andaikan hanya vektor rata-rata ci ,,2,1 K=μ yang tidak diketahui,

57

maka iθ dan θ terdiri atas unsur-unsur iμ dan μ berturut-turut. Fungsi densitas

campuran dibentuk sebagai jumlahan fungsi densitas Gaussian. Untuk masing-

masing kelas

( )( )

( ) ( )⎭⎬⎫

⎩⎨⎧ −Σ′−−

Σ= −

ikiiki

diik wp μxμxμx 12/12/ 2

1exp||2

1,|π

(3.21)

dengan mengambil logaritma dari persamaan (3.21), sehingga diperoleh

( )( )

( ) ( )

( ) ( ) ( )

( )( )[ ] ( ) ( )

( )( )[ ] ( ) ( ) )22.3(21||2ln

21

21||2ln0

21||2ln1ln

21exp

||21ln,|ln

1

12/1

12/12/

12/12/

ikiikid

ikiikid

ikiikid

ikiiki

diik wp

μxμx

μxμx

μxμx

μxμxx

−Σ′−−Σ−=

−Σ′−−Σ−=

−Σ′−−Σ−=

⎥⎥⎦

⎤

⎢⎢⎣

⎡

⎭⎬⎫

⎩⎨⎧ −Σ′−−

Σ=

−

−

−

−

π

π

π

πμ

kemudian diturunkan terhadap iμ menghasilkan

( ) ( )[ ]

( )( )[ ] ( ) ( )

( )( )[ ] ( )

( )( )

( ) ( )23.3

12120

221||2ln

21

21||2ln

21

,|ln,|

1

1

1

1

ik

ik

ikiid

i

ikiikid

i

ijki

ijkiwpwp

μx

μx

μxμ

μxμxμ

μxμ

μxμ

−Σ=

−−Σ⎟⎠⎞

⎜⎝⎛−+=

⎥⎦⎤

⎢⎣⎡ −Σ−Σ−

∂∂

=

⎥⎦⎤

⎢⎣⎡ −Σ′−−Σ−

∂∂

=

∂∂

=∇

−

−

−

−

π

π

dan dengan menggunakan (3.20) serta menyelesaikan persamaan pembatasnya

diperoleh

( )

( ) 0μx

0μx

=−

=−Σ

∑

∑

=

=

−

n

kik

n

kik

1

1

1

ˆ

ˆ

58

∑

∑

∑

∑∑

=

=

=

==

=

=

=−

=−

n

kki

n

kki

i

n

kk

n

ki

n

kk

n

n

n

1

1

1

11

1ˆ

ˆ

ˆ

ˆ

xμ

xμ

0μx

0μx

d. Clustering untuk Unsupervised Learning dan Pengklasifikasian

Pada kasus Gaussian dengan ( )iwP sama, persamaan (3.18) menjadi

( ){ }

( )θ|exp

,|2

21

1

1

1

k

ikn

kki p

kwP i

x

μxθx

−Σ

−

=

−Σ=∑ (3.23)

Ruas kanan persamaan (3.23) akan besar ketika

21−Σ

−i

ik μx (3.24)

kecil, di mana 21−Σ

−i

ik μx merupakan jarak Mahalanobis kuadrat dari kx ke iμ .

Dengan kata lain, bila jarak kx terhadap iμ yang mewakili cluster ke-i makin

kecil, maka peluang bahwa kx masuk dalam kelas iw menjadi makin besar. Hal

ini menyarankan suatu prosedur untuk menetapkan kx ke kelas { }cmwm ,1∈ di

mana (3.24) paling kecil.

Algoritma K-means :

1. Memilih banyaknya kelas-kelas, c.

2. Memilih ci μμμ ˆ,,ˆ,ˆ 2 K dengan memberikan dugaan awal.

3. Menggolongkan tiap kx .

59

4. Hitung ulang penduga iμ menggunakan hasil dari 3.

5. Jika iμ konsisten, berhenti; jika tidak lanjut ke langkah 1, 2, atau 3

Inti dari pendekatan ini adalah untuk mencapai suatu konsistensi penyekatan data

secara mandiri. Pilihan dari nilai parameter-parameter awal (c dan ( )oiμ ) masih

suatu persoalan yang menantang sehingga menimbulkan satu bidang studi

mengenai validitas cluster.

Data

Menentukan k(jumlah cluster)

Menentukan centroid

Menentukan jaraksetiap obyek ke

centroid

Mengelompokkanobyek berdasarkan

jarak minimum

Ada obyek yangpindah cluster ?

selesai

Ya

Tidak

Gambar 3.12. Flowchart algoritma k-means

60

Contoh 3.8

Diketahui empat macam obat yang mempunyai dua variabel, yaitu indeks

berat dan pH. Empat macam obat tersebut akan dikelompokkan menjadi 2

)2( =k berdasarkan indeks berat dan pH.

Obat Indeks Berat pH A 1 1 B 2 1 C 4 3 D 5 4

Tabel 3.6. Data yang akan dikelompokkan

Gambar 3.13 Koordinat obyek dari Tabel 3.6

Dari tabel di atas, diperoleh matriks jarak dengan menggunakan jarak Euclidean

(3.2), yaitu

⎥⎦

⎤⎢⎣

⎡=

24.483.201561.310

11D

Matriks tersebut digunakan pada iterasi 0. Misal, obat A dan obat B sebagai

centroid yang pertama, yaitu ( )1,1=1c dan ( )1,2=2c .

61

Setiap kolom di dalam matriks jarak merupakan obyek. Baris pertama dari

matriks jarak dapat disamakan dengan jarak dari setiap obyek ke centroid yang

pertama dan baris kedua adalah jarak dari setiap obyek ke centroid kedua.

Sebagai contoh, jarak obat ( )3,4C = ke centroid pertama ( )1,1=1c adalah

( ) ( ) 61.31314 22 =−+− dan jarak ke centroid kedua ( )1,2=2c adalah

( ) ( ) 83.21324 22 =−+− .

Langkah selanjutnya, setiap obyek dikelompokkan berdasarkan jarak

minimum, maka obat A ditempatkan ke dalam cluster pertama, obat B, C dan D

pada cluster kedua.

Gambar 3.14. Iterasi 0 pada proses K-means

Iterasi 0 selesai, lanjut ke iterasi 1. Setelah mengetahui anggota-anggota dari

setiap cluster, centroid baru dapat dihitung berdasarkan keanggotaan yang baru

tersebut. Cluster pertama hanya mempunyai satu anggota, maka centroid-nya

tetap berada pada ( )1,1=1c . Cluster kedua mempunyai 3 anggota, maka centroid-

62

nya berubah, yaitu ⎟⎠⎞

⎜⎝⎛=⎟

⎠⎞

⎜⎝⎛ ++++

=38,

311

3431,

3542

2c . Langkah selanjutnya

adalah menghitung jarak dari semua obyek ke centroid yang baru. Caranya mirip

menghitung matriks D11, diperoleh

⎥⎦

⎤⎢⎣

⎡=

89.147.036.214.3561.310

12D .

Lalu mengelompokkan setiap obyek berdasarkan jarak minimum pada matriks

D12. Berdasarkan matriks tersebut, obat B dipindahkan ke dalam cluster pertama,

sementara obyek yang lain tetap berada pada cluster yang sudah ditentukan pada

iterasi 0.


Iterasi 1 selesai, lanjut ke iterasi 2. Centroid yang baru dihitung kembali

berdasarkan pengelompokkan dari iterasi 1. Cluster pertama dan kedua, masing-

masing mempunyai dua anggota, maka centroid-centroid-nya berubah, yaitu

63

⎟⎠⎞

⎜⎝⎛=⎟

⎠⎞

⎜⎝⎛ ++

= 1,211

211,

221

1c dan ⎟⎠⎞

⎜⎝⎛=⎟

⎠⎞

⎜⎝⎛ ++

=213,

214

243,

254

2c dan diperoleh

matriks jarak yang baru adalah

⎥⎦

⎤⎢⎣

⎡=

71.071.054.330.461.420.350.050.0

13D

Berdasarkan matriks D13, hasil pengelompokan sama pada iterasi 1, sehingga

pada iterasi 2 obyek-obyek tidak ada yang berpindah cluster. Oleh karena itu,

perhitungan pengelompokan k-means telah mencapai kestabilan dan berhenti pada

iterasi 2. Hasil akhir pengelompokan dari data tabel di atas dapat dilihat pada

Tabel 3.7.


Obat Indeks Berat pH Cluster

A 1 1 1

B 2 1 1

C 4 3 2

D 5 4 2

Tabel 3.7 Data hasil pengelompokan

64

Contoh 3.9

Diketahui sampel-sampel pada Tabel 3.8 akan dikelompokan menjadi 2

dengan centroid awal yang berbeda. Pada kasus ini akan ditunjukan bahwa

menentukan centroid awal akan menentukan iterasi yang akan terjadi dan hasil

akhir pengelompokan yang berbeda pula. Centroid awal tersebut adalah :

1. )1,1,1()0(1 =μ dan )1,1,1()0(2 −−=μ

2. )0,0,0()0(1 =μ dan )1,1,1()0(2 −=μ

3. )0(1μ dan )0(2μ dipilih secara random.

Perhitungan dengan centroid awal nomor 1 dan 2 akan menggunakan Microsoft

Excel dan nomor 3 menggunakan program Matlab 7.0.1 serta ketiganya akan

menggunakan jarak Euclidean.

Sampel x1 x2 x3 1 -7.82 -4.58 -3.972 -6.68 3.16 2.713 4.36 -2.19 2.094 6.72 0.88 2.85 -8.64 3.06 3.56 -6.87 0.57 -5.457 4.47 -2.62 5.768 6.73 -2.01 4.189 -7.71 2.34 -6.33

10 -6.91 -0.49 -5.6811 6.18 2.81 5.8212 6.72 -0.93 -4.0413 -6.25 -0.26 0.5614 -6.94 -1.22 1.1315 8.09 0.2 2.2516 6.81 0.17 -4.1517 -5.91 4.24 4.0418 -6.38 -1.74 1.4319 4.08 1.3 5.3320 6.27 0.93 -2.78

Tabel 3.8. Data Contoh 3.9

65

Penyelesaian :

Dari data-data yang diketahui, diperoleh matriks D14 yang akan digunakan

untuk iterasi awal. Setiap baris di dalam matriks jarak tersebut merupakan obyek.

Kolom pertama dari matriks jarak dapat disamakan dengan jarak dari setiap obyek

ke centroid yang pertama, )0(1μ dan kolom kedua adalah jarak dari setiap obyek

ke centroid kedua, )0(2μ . Sebagai contoh, jarak sampel pertama (-7.82, -4.58, -

3.97) ke centroid pertama )1,1,1()0(1 =μ adalah

( ) ( ) ( ) 56.11197.3158.4182.7 222 =−−+−−+−−

dan jarak ke centroid kedua )1,1,1()0(2 −−=μ adalah

( ) ( ) ( ) 30.9197.3158.4182.7 222 =+−+−−++− .

Setelah diperoleh matriks jaraknya langkah selanjutnya adalah mengelompokkan

obyek berdasarkan jarak minimum pada matriks D14. Misalnya, obyek pertama

memiliki jarak minimum 9.30 berarti obyek pertama masuk ke dalam cluster

kedua sedangkan obyek keempat mempunyai jarak minimum 6.00 berarti masuk

ke dalam cluster pertama. Hasil akhir iterasi awal ini dapat dilihat pada Tabel 3.9.

⎥⎦

⎥⎢⎣

⎢

⎥⎥

⎤⎢⎢

⎡=

49.712.851.675.746.869.969.662.549.632.588.722.881.724.725.837.7

52.807.1068.767.878.942.938.710.961.896.612.730.986.730.746.1046.1121.791.618.1017.1000.676.416.856.11

'14D

66

Sampel x1 x2 x3 Jarak Obyek

ke )0(1μ Jarak Obyek

ke )0(2μ Cluster

1 -7.82 -4.58 -3.97 11.56 9.30 2 2 -6.68 3.16 2.71 8.16 7.12 2 3 4.36 -2.19 2.09 4.76 6.96 1 4 6.72 0.88 2.80 6.00 8.61 1 5 -8.64 3.06 3.50 10.17 9.10 2 6 -6.87 0.57 -5.45 10.18 7.38 2 7 4.47 -2.62 5.76 6.91 9.42 1 8 6.73 -2.01 4.18 7.21 9.78 1 9 -7.71 2.34 -6.33 11.46 8.67 2 10 -6.91 -0.49 -5.68 10.46 7.68 2 11 6.18 2.81 5.82 7.30 10.07 1 12 6.72 -0.93 -4.04 7.86 8.52 1 13 -6.25 -0.26 0.56 7.37 5.62 2 14 -6.94 -1.22 1.13 8.25 6.69 2 15 8.09 0.20 2.25 7.24 9.69 1 16 6.81 0.17 -4.15 7.81 8.46 1 17 -5.91 4.24 4.04 8.22 7.75 2 18 -6.38 -1.74 1.43 7.88 6.51 2 19 4.08 1.30 5.33 5.32 8.12 1 20 6.27 0.93 -2.78 6.49 7.49 1

Tabel 3.9 Iterasi Awal dengan )1,1,1()0(1 =μ dan )1,1,1()0(2 −−=μ

Iterasi awal selesai, kemudian selanjutnya menentukan centroid yang baru

berdasarkan pengelompokan yang terjadi pada iterasi awal. Diperoleh

1.73) 0.15,- (6.04,)1(1 =μ dan 0.81)- 0.51, (-7.01,)1(2 =μ , centroid yang baru ini

digunakan untuk menentukan matriks jarak yang akan dipakai untuk

mengelompokkan obyek. Hasil iterasi kedua dapat dilihat dalam Tabel 3.10.

Pada iterasi kedua, obyek-obyek tidak ada yang berpindah cluster, sehingga

centroid tidak berubah dan perhitungan selesai . Kolom paling kanan merupakan

hasil akhir perhitungan pengelompokan k-means. Selanjutnya akan dibandingkan

bila centroid awalnya )0,0,0()0(1 =μ dan ,)1,1,1()0(2 −=μ sehingga diperoleh

67

matriks jarak untuk iterasi awal dan pengelompokan obyek-obyeknya dalam

bentuk tabel yang dapat dilihat pada Tabel 3.11.



ke )1(2μ Cluster

1 -7.82 -4.58 -3.97 15.72 6.05 2 2 -6.68 3.16 2.71 13.11 4.42 2 3 4.36 -2.19 2.09 2.90 12.04 1 4 6.72 0.88 2.80 1.46 14.20 1 5 -8.64 3.06 3.50 15.07 5.27 2 6 -6.87 0.57 -5.45 14.78 4.64 2 7 4.47 -2.62 5.76 5.14 13.59 1 8 6.73 -2.01 4.18 3.34 14.83 1 9 -7.71 2.34 -6.33 16.09 5.86 2 10 -6.91 -0.49 -5.68 14.93 4.97 2 11 6.18 2.81 5.82 4.88 14.94 1 12 6.72 -0.93 -4.04 5.91 14.18 1 13 -6.25 -0.26 0.56 12.35 1.75 2 14 -6.94 -1.22 1.13 13.07 2.60 2 15 8.09 0.20 2.25 2.12 15.41 1 16 6.81 0.17 -4.15 5.93 14.22 1 17 -5.91 4.24 4.04 12.84 6.22 2 18 -6.38 -1.74 1.43 12.57 3.24 2 19 4.08 1.30 5.33 4.26 12.70 1 20 6.27 0.93 -2.78 4.58 13.43 1

Tabel 3.10 Iterasi Kedua dengan 1.73) 0.15,- (6.04,)1(1 =μ dan

0.81)- 0.51, (-7.01,)1(2 =μ

Kemudian pada iterasi kedua dengan centroid )0.660.03,--3.61,()1(1 =μ dan

( ),0.02-0.677,6.80,)1(2 =μ dapat dilihat pada Tabel 3.12. Pada iterasi kedua

obyek ke-3, 7, 8 dan 19 berpindah cluster, sehingga mengakibatkan centroid

masing-masing cluster berubah menjadi )0.81-0.51,-7.01,()2(1 =μ dan

).1.730.15,-6.043,()2(2 =μ Centroid tersebut digunakan dalam iterasi ketiga

yang dapat dilihat pada Tabel 3.13.

68



ke )0(2μ Cluster

1 -7.82 -4.58 -3.97 9.89 10.85 1 2 -6.68 3.16 2.71 7.87 8.80 1 3 4.36 -2.19 2.09 5.31 5.57 1 4 6.72 0.88 2.80 7.33 6.87 2 5 -8.64 3.06 3.50 9.81 10.84 1 6 -6.87 0.57 -5.45 8.79 9.05 1 7 4.47 -2.62 5.76 7.75 8.42 1 8 6.73 -2.01 4.18 8.17 8.29 1 9 -7.71 2.34 -6.33 10.25 10.30 1 10 -6.91 -0.49 -5.68 8.96 9.31 1 11 6.18 2.81 5.82 8.94 8.75 2 12 6.72 -0.93 -4.04 7.90 6.76 2 13 -6.25 -0.26 0.56 6.28 7.52 1 14 -6.94 -1.22 1.13 7.14 8.52 1 15 8.09 0.20 2.25 8.40 7.84 2 16 6.81 0.17 -4.15 7.98 6.66 2 17 -5.91 4.24 4.04 8.32 9.15 1 18 -6.38 -1.74 1.43 6.77 8.24 1 19 4.08 1.30 5.33 6.84 7.05 1 20 6.27 0.93 -2.78 6.92 5.56 2

Tabel 3.11. Iterasi Awal dengan )0,0,0()0(1 =μ dan )1,1,1()0(2 −=μ



ke )1(2μ Cluster

1 -7.82 -4.58 -3.97 7.74 16.03 1 2 -6.68 3.16 2.71 4.88 13.98 1 3 4.36 -2.19 2.09 8.38 4.31 2 4 6.72 0.88 2.80 10.59 2.83 2 5 -8.64 3.06 3.50 6.55 16.02 1 6 -6.87 0.57 -5.45 6.95 14.71 1 7 4.47 -2.62 5.76 9.90 7.05 2 8 6.73 -2.01 4.18 11.10 4.98 2 9 -7.71 2.34 -6.33 8.44 15.91 1 10 -6.91 -0.49 -5.68 7.16 14.88 1 11 6.18 2.81 5.82 11.43 6.25 2 12 6.72 -0.93 -4.04 11.38 4.33 2 13 -6.25 -0.26 0.56 2.65 13.10 1 14 -6.94 -1.22 1.13 3.57 13.92 1 15 8.09 0.20 2.25 11.81 2.65 2

69

16 6.81 0.17 -4.15 11.48 4.16 2 17 -5.91 4.24 4.04 5.91 13.81 1 18 -6.38 -1.74 1.43 3.35 13.48 1 19 4.08 1.30 5.33 9.09 6.03 2 20 6.27 0.93 -2.78 10.51 2.82 2

Tabel 3.12 Iterasi Kedua dengan )0.660.03,--3.61,()1(1 =μ dan

( )0.02-0.677,6.80,)1(2 =μ .

Hasil iterasi ketiga adalah sebagai berikut :



ke )2(2μ Cluster

1 -7.82 -4.58 -3.97 6.05 15.63 1 2 -6.68 3.16 2.71 4.42 13.18 1 3 4.36 -2.19 2.09 12.04 2.67 2 4 6.72 0.88 2.80 14.20 1.63 2 5 -8.64 3.06 3.50 5.27 15.13 1 6 -6.87 0.57 -5.45 4.64 14.79 1 7 4.47 -2.62 5.76 13.59 4.98 2 8 6.73 -2.01 4.18 14.83 3.15 2 9 -7.71 2.34 -6.33 5.86 16.13 1 10 -6.91 -0.49 -5.68 4.97 14.92 1 11 6.18 2.81 5.82 14.94 5.05 2 12 6.72 -0.93 -4.04 14.18 5.86 2 13 -6.25 -0.26 0.56 1.75 12.35 1 14 -6.94 -1.22 1.13 2.60 13.04 1 15 8.09 0.20 2.25 15.41 2.14 2 16 6.81 0.17 -4.15 14.22 5.94 2 17 -5.91 4.24 4.04 6.22 12.94 1 18 -6.38 -1.74 1.43 3.24 12.52 1 19 4.08 1.30 5.33 12.70 4.35 2 20 6.27 0.93 -2.78 13.43 4.64 2

Tabel 3.13 Iterasi Ketiga dengan )0.81-0.51,-7.01,()2(1 =μ dan

).1.730.15,-6.043,()2(2 =μ

Obyek-obyek tidak ada yang berpindah cluster, sehingga perhitungan berhenti

pada iterasi ketiga.

Selanjutnya pengelompokan dengan centroid awal yang dipilih secara

random dilakukan dengan program Matlab 7.0.1. Program yang dibuat di M-File

70

mempunyai input berupa data matriks yang akan dikelompokkan (obyek pada

baris dan atribut pada kolom), jumlah cluster dan bilangan random, sedangkan

outputnya berupa data matriks yang dikelompokkan beserta tambahan satu kolom

hasil pengelompokan tiap obyek. Output program dapat dilihat di Lampiran 2.

Pada kasus ini telah dicoba dengan centroid awal yang berbeda ternyata

hasil akhirnya juga berbeda. Bila menggunakan centroid awal )1,1,1()0(1 =μ dan

,)1,1,1()0(2 −−=μ obyek ke-1, 2, 5, 6, 9, 10, 13, 14, 17 dan 18 masuk ke dalam

cluster kedua sedangkan obyek ke-3, 4, 7, 8, 11, 12, 15, 16, 19 dan 20 masuk ke

dalam cluster pertama. Sebaliknya bila menggunakan centroid awal

)0,0,0()0(1 =μ dan ,)1,1,1()0(2 −=μ obyek yang masuk ke dalam cluster

pertama berada dalam cluster kedua dan obyek yang masuk cluster kedua berada

dalam cluster pertama. Bila menggunakan centroid awal yang dipilih secara

random, hasilnya kebetulan sama dengan hasil pengelompokan dengan

menggunakan centroid awal yang kedua dan melalui dua iterasi. Namun semua

perhitungan yang dilakukan benar karena obyek-obyek tersebut sebetulnya masuk

ke dalam cluster dan memiliki ciri atau profil yang sama. Artinya, cluster pertama

pada perhitungan dengan centroid awal )1,1,1()0(1 =μ dan

)1,1,1()0(2 −−=μ memiliki profil yang sama dengan cluster kedua pada

perhitungan dengan centroid awal )0,0,0()0(1 =μ dan ,)1,1,1()0(2 −=μ begitu

pula sebaliknya. Selain terdapat perbedaan pada hasil akhir pengelompokan,

iterasi perhitungan juga berbeda. Pada perhitungan pertama hanya dua iterasi

sudah tidak terdapat perubahan centroid, sedangkan perhitungan kedua ada tiga

71

iterasi. Hal ini menandakan bahwa penentuan centroid awal sangat penting agar

iterasi lebih cepat stabil.

BAB IV

APLIKASI ANALISIS CLUSTER

Pada bab ini akan dibahas aplikasi analisis cluster pada kasus yang akan

diselesaikan dengan program SPSS 13.

A. Kasus I

Pada Lampiran 3 terdapat data perusahaan di 22 perusahaan listrik di

Amerika Serikat dengan 8 variabel, yaitu :

X1 : rasio biaya tetap (income/debt).

X2 : rata-rata keuntungan.

X3 : biaya per KW.

X4 : faktor beban tahunan.

X5 : puncak pertumbuhan permintaan KWH dari tahun 1974-1975.

X6 : penjualan (KWH yang digunakan per tahun).

X7 : persentase nuklir.

X8 : total biaya bahan bakar (cents per KWH).

Seorang peneliti ingin mengetahui segmentasi perusahaan listrik yang

terbentuk Data tersebut akan dianalisis dengan menggunakan metode single

linkage (nearest neighbor) dan ukuran jarak Euclidean.

Output analisis dapat dilihat pada Lampiran 5 dan interpretasi hasil analisis

adalah sebagai berikut :

Dalam metode hirarki, output yang terpenting adalah grafik dendogram karena

grafik tersebut berguna dalam mengetahui proses pembentukan cluster dan untuk

73

menentukan jumlah cluster yang terbentuk. Dari dendogram tersebut ada

beberapa kemungkinan jumlah cluster-cluster yang terbentuk, bila peneliti

mengambil kesimpulan ada 6 cluster yang terbentuk, maka cluster yang terbentuk

yaitu cluster I: 12, 21, 7, dan 15, cluster II: 4, 10, 13, 20, dan 2, cluster III: 1, 8,

14, 19, 18, 16, 9, 3, dan 6, cluster IV: 17, dan 11, cluster V: 5, dan cluster VI: 22.

Peneliti bisa juga mengambil kesimpulan ada 3 cluster yang terbentuk dengan

menggabungkan cluster III, IV, V dan VI. Ternyata ketiga cluster yang terbentuk

cenderung mencerminkan cluster berdasarkan geografis, yaitu :

1. Cluster I (12, 21, dan 7) merupakan perusahaan-perusahaan yang terletak di

bagian barat / timur pesisir laut.

2. Cluster II (1, 8, 14, 19, 18, 16, 9, 3, 6, 17, 11, 5, dan 22) cenderung terletak di

bagian utara.

3. Cluster III (4, 10, 13, 20, dan 2) terletak di bagian selatan.

Tabel 4.1 di bawah ini merupakan rata-rata masing-masing variabel dari

ketiga cluster, dari tabel tersebut dapat diperoleh ciri-ciri cluster (selain ciri

geografis) yaitu :

1. Cluster I mempunyai ciri rasio biaya tetap (X1), rata-rata keuntungan (X2),

puncak pertumbuhan permintaan (X5), penjualan per tahun (X6), dan persentase

nuklir (X7) paling rendah, sedangkan faktor beban tahunan (X4) dan total biaya

bahan bakar (X8) paling tinggi.

2. Cluster II mempunyai ciri rasio biaya tetap (X1), rata-rata keuntungan (X2),

puncak pertumbuhan permintaan (X5) dan persentase nuklir (X7) paling tinggi,

74

sedangkan biaya per KW (X3), faktor beban tahunan (X4), dan total biaya

bahan bakar (X8) paling rendah.

3. Cluster III mempunyai ciri biaya per KW (X3), dan penjualan per tahun (X6).

Cluster X1 X2 X3 X4 X5 X6 X7 X8 I (Barat/Timur) 1.088 9.82 180.25 63.2 2.33 6728.5 0.23 1.77II (Utara) 1.158 12.52 171.8 55.5 3.64 7046.2 31.2 0.89III (Selatan) 1.105 10.33 272.30 55.63 3.37 10306 8.25 0.98

Tabel 4.1. Rata-rata masing-masing variabel tiap cluster.

B. Kasus II

Diketahui data mobil (Lampiran 6) produk Amerika, Jepang dan Eropa yang

terdiri dari 66 tipe mobil dan 10 variabel-variabel sebagai berikut :

P : harga.

M : konsumsi bahan bakar (dalam mil per gallon).

H : headroom (dalam inchi)

R : jarak antara tempat duduk depan dengan tempat duduk belakang (dalam

inchi)

Tr : volume bagasi (dalam kubik)

W : berat mobil (dalam pound)

L : panjang mobil (dalam inchi)

T : diameter membelok (jarak yang diperlukan untuk membuat putaran U,

dalam feet)

D : displacement (dalam inchi kubik)

G : rasio gear untuk gear tinggi

75

Dari variabel-variabel tersebut akan dicari karakteristik mobil mewah dan mobil

tidak mewah, oleh karena itu akan dikelompokkan menjadi dua kelompok dengan

menggunakan metode K-Means Cluster. Langkah-langkah dan output analisis

dapat diamati pada Lampiran 7 dan 8.

Interpretasi Hasil Analisis :

Dari tabel ANOVA (Lampiran 8.f) diketahui bahwa nilai signifikansi uji F

untuk variabel P, M, R, Tr, W, L, T, D dan G kurang dari 0.05 yang berarti

terdapat perbedaan yang signifikan antara dua cluster yang terbentuk dalam

variabel tersebut. Sedangkan variabel H tidak terdapat perbedaan yang signifikan.

Informasi yang diperoleh dari tabel ANOVA dan Final Cluster Centers

(Lampiran 8.d) dapat digunakan untuk mengetahui karakteristik dari masing-

masing cluster yang terbentuk. Karakteristik masing-masing cluster dapat dilihat

pada tabel di bawah ini, cluster pertama merupakan cluster mobil tidak mewah

sedangkan cluster kedua merupakan cluster mobil mewah :

Variabel Cluster I (Mobil tidak mewah)

Cluster II (Mobil Mewah)

Centroid Cluster

I Cluster

II Harga Murah Mahal 5025 11777Konsumsi bahan bakar Hemat Boros 22 17

Jarak tempat duduk depan-belakang

Sempit Panjang 2.9 3.3

Berat mobil Ringan Berat 26.5 29.3Panjang mobil Kurang panjang Lebih panjang 13 17Diameter membelok

Tidak perlu banyak ruang

Perlu banyak ruang 2864 3878

Displacement Kecil Besar 185 207Rasio gear untuk gear tinggi Besar Kecil 40 42

Tabel 4.2. Karakteristik cluster I dan II

76

Berdasarkan tabel Cluster Membership (Lampiran 8.c) dapat diketahui

pengelompokkan tiap obyek dan berdasarkan model mobil dari data dapat

disimpulkan bahwa mobil-mobil mewah diproduksi dari Amerika dan Eropa,

sedangkan mobil tidak mewah banyak diproduksi dari Jepang.

No. Model Asal 1 Audi-5000 Amerika 2 Buick-Riviera Amerika 3 Cad.-Deville Amerika 4 Cad.-Eldorado Amerika 5 Cad.-Seville Amerika 6 Linc.-Continental Amerika 7 Linc.-Cont-Mark-V Amerika 8 Linc.-Versailles Amerika 9 Olds.-98 Amerika 10 Olds.-Tornado Amerika 11 Volvo-260 Eropa 12 BMW-320i Eropa

Tabel 4.3. Data Mobil Mewah dan Asal Produksi

Pada tabel Number of Cases in each Cluster (Lampiran 8.g) diperoleh

informasi semua obyek dapat dikelompokan dengan baik ke dalam cluster-cluster

yang terbentuk. Berdasarkan hasil interpretasi dan informasi yang diperoleh dari

beberapa tabel output SPSS ternyata data dan hasil pengelompokannya valid.

Hasil akhir pengelompokkan dapat dilihat di Lampiran 9 variabel C menunjukkan

cluster (cluster 1 : mobil tidak mewah dan cluster 2 : mobil mewah).

Berdasarkan data hasil pengelompokan dari analisis cluster (Lampiran 9),

peneliti ingin mengetahui apakah semua obyek benar-benar sudah tepat

dikelompokan dan mencari variabel-variabel yang mampu membedakan

kelompok kemudian menggunakan variabel-variabel tersebut untuk membuat

77

fungsi yang dapat mengelompokan suatu observasi ke dalam salah satu kelompok.

Oleh karena itu peneliti menggunakan analisis diskriminan yang dilakukan dengan

menggunakan metode Stepwise dalam SPSS . Hasil output SPSS dapat dilihat

pada Lampiran 11 dan berikut ini adalah interpretasi hasil outputnya :

Berdasarkan output tabel Group Statistics (Lampiran 11.b) dapat diketahui

bahwa ada perbedaan karakteristik mobil mewah dengan mobil tidak mewah.

Variabel yang paling signifikan adalah harga (P), sedangkan variabel-variabel

lainnya berbeda tetapi kurang signifikan. Untuk mengetahui apakah variabel-

variabel tersebut mengakibatkan perbedaan yang signifikan dapat dilihat pada

tabel Test of Equality of Group Means (Lampiran 11.c). Hasil outputnya sama

dengan hasil pada analisis cluster, variabel P, M, R, Tr, W, L, T, D dan G

mempunyai nilai signifikansi uji F kurang dari 0.05, hal ini berarti variabel-

variabel tersebut membedakan secara signifikan kedua kelompok, sedangkan

variabel headroom (H) tidak signifikan karena nilai signifikansi uji F lebih dari

0.05 yaitu 0.256. Kemudian untuk menunjukkan bahwa kesembilan variabel

tersebut benar-benar berbeda dapat dilihat tabel Lampiran 11.d, 11.e dan 11.f

yaitu Variable Entered/Removeda,b,c,d, Variables in the Analysis dan Variables

Not in the Analysis yang menyajikan proses analisis dengan metode stepwise.

Berdasarkan hasil analisis dengan metode stepwise dan tabel Wilks’ Lambda

Lampiran (11.g) tampak hanya variabel harga (P) saja yang paling efisien didalam

membedakan antara mobil mewah dan mobil tidak mewah dengan nilai signifikasi

0.00, sehingga variabel harga (P) dipakai untuk membentuk fungsi diskriminan.

78

Selanjutnya, tabel Eigenvalues (Lampiran 11.h) terdapat Eigenvalue yang

nilainya 3.886, nilai eigen semakin besar, semakin baik fungsi yang terbentuk.

Nilai Canonical Correlation adalah 0.892. Hal ini berarti bila fungsi dalam model

tersebut digunakan, maka 89.2 % variasi variabel dependen (C) dapat dijelaskan

oleh variabel harga (P), sedangkan sisanya 10.8 % dapat dijelaskan oleh faktor

lain. Pada tabel Wilks’ Lambda (Lampiran 11.i) diperoleh nilai Chi-square

sebesar 100.740 dengan signifikasi 0.000. Hal ini mengindikasikan bahwa ada

perbedaan yang signifikan antara dua kelompok pada model diskriminan. Tabel

Structure Matrix (Lampiran 11.k) menjelaskan korelasi antara variabel

independen dengan fungsi diskriminan yang terbentuk. Variabel yang memiliki

korelasi cukup erat adalah variabel harga (1.000). Fungsi diskriminan tiap

kelompok yang terbentuk dapat diketahui dari hasil output tabel Classification

Function Coefficients (Lampiran 11.p), yaitu

PDPD

007.0232.3903.0710.7

2

1

+−=+−=

Hasil rinci pengelompokan tiap obyek dengan fungsi diskriminan dan apakah

pengelompokannya sudah sesuai dengan hasil pengelompokan dari analisis cluster

dapat dilihat di tabel Casewise Statistics (Lampiran 11.q), diperoleh informasi

bahwa semua obyek dapat dikelompokan sesuai dengan data hasil pengelompokan

dari analisis cluster. Hal ini diperkuat dengan hasil output tabel Classification

Resultsb,c (Lampiran 11.r), tampak bahwa angka ketepatan prediksi sebesar 100%.

Dari uraian hasil output SPSS tersebut dapat disimpulkan bahwa fungsi

diskriminan yang terbentuk layak untuk mengklasifikasikan obyek-obyek yang

79

diamati dan dapat memperkuat hasil output analisis cluster bahwa data serta kedua

kelompok yang terbentuk valid.

BAB V

KESIMPULAN

Analisis cluster termasuk dalam analisis statistik multivariat metode

interdependen, sebagai alat analisis interdependen maka tujuan analisis cluster

tidak untuk menghubungkan ataupun membedakan dengan sampel ataupun

variabel yang lain. Analisis cluster merupakan salah satu alat analisis yang

berguna dalam meringkas. Dalam melakukan proses meringkas data ini dapat di

lakukan dengan jalan mengelompokkan obyek-obyek berdasarkan kesamaan

karakteristik tertentu di antara obyek-obyek yang hendak di teliti.

Pembentukan kelompok-kelompok observasi ini berdasarkan jarak,

observasi yang mirip seharusnya berada dalam kelompok yang sama, dan data

observasi yang jauh seharusnya berada dalam kelompok yang berbeda.

Pembentukan kelompok ini akan diikuti dengan terjadinya pengelompokan yang

menunjukkan kedekatan kesamaan antar kasus. Berdasarkan tipe data, ukuran

kesamaan antar obyek dibedakan menjadi dua, yaitu sistem metrik dan koefisien

asosiasi. Sistem metrik digunakan untuk tipe data kontinu, yang ditampilkan

dalam bentuk matriks nxdX dengan n banyaknya obyek dan d banyaknya variabel

dan dideskripsikan sebagai matriks nxnD yang berisi ukuran kesamaan antar obyek.

Sedangkan koefisien asosiasi digunakan untuk tipe data biner.

Dalam analisis cluster dibagi dua besar metode yaitu metode hierarki dan

metode nonhierarki. Metode hierarki dibagi dua yaitu agglomerative dan divisive.

Metode agglomerative dimulai dengan mengganggap setiap obyek sebagai cluster

81

kemudian menggabungkannya hingga menjadi satu cluster, sebaliknya metode

divisive dimulai dengan menempatkan semua obyek sebagai satu cluster,

kemudian secara bertahap obyek-obyek dipisahkan hingga masing-masing obyek

menjadi satu cluster. Metode nonhierarki yang berkembang adalah metode K-

means cluster. Perbedaan metode hierarki dengan nonhierarki adalah pertama,

pada metode nonhierarki jumlah cluster yang akan terbentuk sudah ditentukan

dahulu, sedangkan metode hierarki baru dapat dilihat setelah melakukan analisis.

Kedua, pada metode nonhierarki, penentuan centroid awal sangat menentukan

iterasi yang akan terjadi, sedangkan metode hierarki tidak ditentukan di awal

analisis dan ketiga, umumnya metode nonhierarki digunakan dalam menganalisa

data yang jumlahnya besar.

82

DAFTAR PUSTAKA

Asmara, Prasetya. (2006). Skripsi : Analisis Diskriminan K Kelompok. Yogyakarta.

Duda, Richard O. Hart, Peter E. dan Stork, David G. (2000). Pattern

Classification. New York : John Wiley & Sons, Inc. Gibbons, Jean Dickinson. (1975). Non Parametic Methods For Quantitative

Analysis. Hair, J. E., Anderson, R.E., Tatham R.L, dan Black, W. (1998). Multivariate Data

Analysis, Fifth Edition. Upper Saddle River : Prentice Hall. Hardle, Simar. Applied Multivariate Statistical Analysis. Didownload pada 3

September 2007 dari : Http://AppliedMultivariateStatisticalAnalysis(HardleSimar)ISBN3-540-

03079.htm Schalchoff, R. J. (1992). Pattern Recognition : Statistical, Structural and Neural

Approaches. Singapore : John Wiley & Sons, Inc. Seber, G.A.F. (1984). Multivariate Observations. New York : John Wiley & Sons.

Supranto, J. (2004). Analisis Multivariat: Arti & Interpretasi. Jakarta : Rineka Cipta.

Simamora Bilson. (2005). Analisis Multivariat Pemasaran. Jakarta : Gramedia

Tim Penelitian dan Pengembangan Wahana. (2005). Pengembangan Analisis Multivariat dengan SPSS 12. Jakarta : Salemba Infotek

www.pdf-search-engine.com/cluster-analysis-pdf.html. Didownload pada tanggal 29 Oktober 2008

83

LAMPIRAN

Lampiran 1

Program untuk Menganalisa Contoh 3.9

function y=kMeansCluster(m,k,isRand) %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %Tujuan : mengelompokan obyek dari data matriks berdasarkan % atribut-atribut. %Kriteria : menggunakan jarak minimal Euclidean antara % centroid dan titik obyek % Input : % - m : data matriks (obyek pada baris dan atribut pada

kolom) % - k : jumlah kelompok % - isrand : bilangan random (centroid awal) % Output : data matriks ditambah satu kolom yang mewakili

kelompok setiap obyek % % Variabel-variabel yang lain : % - c : ukuran koordinat centroid (1:k, 1:maxCol) % - i : skalar iterator % - maxCol : jumlah baris pada matriks m = jumlah atribut % - maxRow : jumlah kolom pada data matriks m = jumlah obyek %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% if nargin<3, isRand=0; end if nargin<2, k=1; end [maxRow, maxCol]=size(m) if maxRow<=k, y=[m, 1:maxRow] else % initial nilai centroid if isRand, p = randperm(size(m,1)); for i=1:k c(i,:)=m(p(i),:) end else for i=1:k c(i,:)=m(i,:) end end

84

temp=zeros(maxRow,1);

while 1, d=DistMatrix(m,c); % menghitung jarak masing-masing

obyek dengan centroid [z,g]=min(d,[],2); if g==temp, break; % iterasi berhenti else temp=g; end for i=1:k f=find(g==i); if f c(i,:)=mean(m(find(g==i),:),1); end end end y=[m,g]; end

function d=DistMatrix(A,B) [hA,wA]=size(A); [hB,wB]=size(B); if wA ~= wB, error(' Perhatikan ukuran

matriks'); end for k=1:wA C{k}= repmat(A(:,k),1,hB); D{k}= repmat(B(:,k),1,hA); end S=zeros(hA,hB); for k=1:wA S=S+(C{k}-D{k}').^2; end

85

Lampiran 2

Output Program 1

>> kMeansCluster([-7.82 -4.58 -3.97;-6.68 3.16 2.71;4.36 -2.19 2.09;6.72 0.88

2.8;-8.64 3.06 3.5;-6.87 0.57 -5.45;4.47 -2.62 5.76;6.73 -2.01 4.18;-7.71 2.34 -

6.33;-6.91 -0.49 -5.68;6.18 2.81 5.82;6.72 -0.93 -4.04;-6.25 -0.26 0.56;-6.94 -1.22

1.13;8.09 0.2 2.25;6.81 0.17 -4.15;-5.19 4.24 4.04;-6.38 -1.74 1.43;4.08 1.3

5.33;6.27 0.93 -2.78],2,0)

maxRow =

20

maxCol =

3

c =

-7.8200 -4.5800 -3.9700

c =

-7.8200 -4.5800 -3.9700

-6.6800 3.1600 2.7100

ans =

-7.8200 -4.5800 -3.9700 1.0000

-6.6800 3.1600 2.7100 1.0000

4.3600 -2.1900 2.0900 2.0000

6.7200 0.8800 2.8000 2.0000

-8.6400 3.0600 3.5000 1.0000

-6.8700 0.5700 -5.4500 1.0000

86

4.4700 -2.6200 5.7600 2.0000

6.7300 -2.0100 4.1800 2.0000

-7.7100 2.3400 -6.3300 1.0000

-6.9100 -0.4900 -5.6800 1.0000

6.1800 2.8100 5.8200 2.0000

6.7200 -0.9300 -4.0400 2.0000

-6.2500 -0.2600 0.5600 1.0000

-6.9400 -1.2200 1.1300 1.0000

8.0900 0.2000 2.2500 2.0000

6.8100 0.1700 -4.1500 2.0000

-5.1900 4.2400 4.0400 1.0000

-6.3800 -1.7400 1.4300 1.0000

4.0800 1.3000 5.3300 2.0000

6.2700 0.9300 -2.7800 2.0000

87

Lampiran 3

Data Perusahaan Listrik di Amerika Serikat

No. Perusahaan X1 X2 X3 X4 X5 X6 X7 X8 1 Arizona Public Service 1.06 9.20 151 54.4 1.6 9077 0 0.6282 Boston Edison Company 0.89 10.3 202 57.9 2.2 5088 25.3 1.5553 Central Lousiana Electric Co. 1.43 15.4 113 53.0 3.4 9212 0 1.0584 Commonwealth Edison Co. 1.02 11.2 168 56.0 0.3 6423 34.3 0.7005 Consolidated Edison Co. (NY) 1.49 8.80 1.92 51.2 1.0 3300 15.6 2.0446 Florida Power and Light 1.32 13.50 111 60.0 -2.2 11127 22.5 1.2417 Hawaiian Electric Co. 1.22 12.20 175 67.6 2.2 7642 0 1.6528 Idaho Power Co. 1.10 9.20 245 57.0 3.3 13082 0 0.3099 Kentucky Utilities Co. 1.34 13.00 168 60.4 7.2 8406 0 0.862

10 Madison Gas & Electric Co. 1.12 12.40 197 53.0 2.7 6455 39.2 0.62311 Nevada Power Co. 0.75 7.50 173 51.5 6.5 17441 0 0.76812 New England Electric Co. 1.13 10.90 178 62.0 3.7 6154 0 1.89713 Northern States Power Co. 1.15 12.70 199 53.7 6.4 7179 50.2 0.52714 Oklahoma Gas and Electric Co. 1.09 12.00 96 49.8 1.4 9673 0 0.58815 Pacific Gas & Electric Co. 0.96 7.60 164 62.2 -0.1 6468 0.9 1.40016 Puget Sound Power & Light Co. 1.16 9.90 252 56.0 9.2 15991 0 0.62017 San Diego Gas & Electric Co. 0.76 6.40 136 61.9 9.0 5714 8.3 1.92018 The Southern Co. 1.05 12.60 150 56.7 2.7 10140 0 1.10819 Texas Utilities Co. 1.16 11.70 104 54.0 -2.1 13507 0 0.63620 Wisconsin Electric Power Co. 1.20 11.80 148 59.9 3.5 7297 41.1 0.70221 United Illuminating Co. 1.04 8.60 204 61.0 3.5 6650 0 2.11622 Virginia Electric & Power Co. 1.07 9.30 1784 54.3 5.9 10093 26.6 1.306

Sumber : www.pdf-search-engine.com\cluster-analysis-pdf.html

88

Lampiran 4

Langkah-langkah analisis dengan menggunakan SPSS untuk data kasus I :

a. Buka file data perusahaan listrik.sav.

b. Pada menu bar pilih Analyze lalu submenu Classify, kemudian pilih

Hierarchical Cluster.

c. Muncul kotak dialog Hierarchical Cluster Analysis, pada kotak

variable(s) masukkan variabel X1-X8 dan pada kotak Label Cases by

masukkan perusahaan.

d. Kemudian pilih tab statistic, muncul kotak dialog Hierarchical Cluster

Analysis: statistics, klik pada proximity matrix dan Continue.

e. Pilih tab Plots, muncul kotak dialog Hierarchical Cluster Analysis: Plots,

klik pada dendogram dan Continue.

f. Pilih tab Method, muncul kotak dialog Hierarchical Cluster Analysis:

Method, pilih Nearest neighbor pada kotak Cluster Method dan Eucliean

distance pada kotak interval. Lalu pilih Z score pada kotak Standardize

dan klik Continue. Kemudian klik OK untuk mengeksekusi.

89

Lampiran 5

Output Analisis Cluster Data Kasus I dengan Metode Single Linkage

5. a. Case Processing Summarya

22 100.0% 0 .0% 22 100.0%N Percent N Percent N Percent

Valid Missing TotalCases

Euclidean Distance useda.

5. b. Agglomeration Schedule

Stage

Cluster Combined

Coefficients

Stage Cluster First Appears

Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2 1 12 21 1.234 0 0 6 2 4 10 1.317 0 0 3 3 4 13 1.406 2 0 7 4 1 8 1.535 0 0 5 5 1 14 1.646 4 0 9 6 7 12 1.658 0 1 8 7 4 20 1.681 3 0 11 8 7 15 1.862 6 0 13 9 1 19 1.866 5 0 10 10 1 18 1.877 9 0 12 11 2 4 2.003 0 7 13 12 1 16 2.195 10 0 14 13 2 7 2.318 11 8 14 14 1 2 2.357 12 13 15 15 1 9 2.389 14 0 16 16 1 3 2.412 15 0 17 17 1 6 2.576 16 0 18 18 1 17 2.625 17 0 19 19 1 11 2.853 18 0 20 20 1 5 3.623 19 0 21 21 1 22 5.075 20 0 0

90

5.cProximity Matrix

.000 2.842 3.563 2.428 4.024 3.475 3.859 1.535 3.228 2.894 3.451 3.157 3.787 1.646 2.574 3.215 4.382 1.877 2.128 3.173 3.208 5.2612.842 .000 4.424 2.003 3.887 3.604 3.386 3.752 3.871 2.703 4.742 2.363 3.434 3.488 2.327 4.685 3.256 2.620 3.988 2.701 2.318 5.0753.563 4.424 .000 3.887 4.049 2.992 3.944 3.845 2.412 3.374 5.723 3.714 3.865 2.711 5.008 4.060 6.332 2.574 3.172 3.636 4.591 6.1162.428 2.003 3.887 .000 4.113 2.892 3.966 3.193 3.754 1.317 4.863 3.490 2.466 2.724 3.189 4.536 4.832 2.616 3.102 1.752 3.786 5.2794.024 3.887 4.049 4.113 .000 4.170 4.604 5.040 4.477 4.082 6.463 3.623 4.788 4.226 4.226 5.677 5.475 4.238 4.677 4.275 3.678 6.3143.475 3.604 2.992 2.892 4.170 .000 2.977 3.703 3.469 3.219 5.816 3.372 4.031 3.450 3.860 4.752 6.070 2.695 2.576 2.771 4.049 6.0533.859 3.386 3.944 3.966 4.604 2.977 .000 4.025 2.791 4.475 5.996 1.658 4.977 4.531 2.918 4.688 4.480 2.887 4.178 3.482 2.582 6.0871.535 3.752 3.845 3.193 5.040 3.703 4.025 .000 3.078 3.487 2.996 3.725 3.989 2.427 3.318 2.195 4.748 2.288 2.306 3.359 3.852 5.1763.228 3.871 2.412 3.754 4.477 3.469 2.791 3.078 .000 3.503 5.174 2.725 3.582 3.399 4.112 3.009 4.840 2.389 3.808 2.908 3.641 5.6142.894 2.703 3.374 1.317 4.082 3.219 4.475 3.487 3.503 .000 5.049 3.915 1.406 2.666 4.189 4.333 5.284 2.854 3.469 1.681 4.359 5.1703.451 4.742 5.723 4.863 6.463 5.816 5.996 2.996 5.174 5.049 .000 5.207 5.273 3.896 4.731 2.853 4.667 3.907 4.205 5.317 4.827 5.7383.157 2.363 3.714 3.490 3.623 3.372 1.658 3.725 2.725 3.915 5.207 .000 4.468 3.859 2.304 4.259 3.348 2.357 4.038 3.354 1.234 5.4723.787 3.434 3.865 2.466 4.788 4.031 4.977 3.989 3.582 1.406 5.273 4.468 .000 3.615 5.033 4.217 5.397 3.592 4.457 1.856 4.936 5.2511.646 3.488 2.711 2.724 4.226 3.450 4.531 2.427 3.399 2.666 3.896 3.859 3.615 .000 3.910 3.546 5.474 1.897 1.866 3.528 4.183 5.6502.574 2.327 5.008 3.189 4.226 3.860 2.918 3.318 4.112 4.189 4.731 2.304 5.033 3.910 .000 4.720 3.332 2.980 3.762 3.763 1.862 5.7033.215 4.685 4.060 4.536 5.677 4.752 4.688 2.195 3.009 4.333 2.853 4.259 4.217 3.546 4.720 .000 4.805 3.122 3.827 4.119 4.420 5.2404.382 3.256 6.332 4.832 5.475 6.070 4.480 4.748 4.840 5.284 4.667 3.348 5.397 5.474 3.332 4.805 .000 4.413 6.041 4.858 2.625 5.8651.877 2.620 2.574 2.616 4.238 2.695 2.887 2.288 2.389 2.854 3.907 2.357 3.592 1.897 2.980 3.122 4.413 .000 2.211 2.921 2.907 5.2792.128 3.988 3.172 3.102 4.677 2.576 4.178 2.306 3.808 3.469 4.205 4.038 4.457 1.866 3.762 3.827 6.041 2.211 .000 3.756 4.349 5.9843.173 2.701 3.636 1.752 4.275 2.771 3.482 3.359 2.908 1.681 5.317 3.354 1.856 3.528 3.763 4.119 4.858 2.921 3.756 .000 3.919 5.3123.208 2.318 4.591 3.786 3.678 4.049 2.582 3.852 3.641 4.359 4.827 1.234 4.936 4.183 1.862 4.420 2.625 2.907 4.349 3.919 .000 5.3715.261 5.075 6.116 5.279 6.314 6.053 6.087 5.176 5.614 5.170 5.738 5.472 5.251 5.650 5.703 5.240 5.865 5.279 5.984 5.312 5.371 .000

Case1:Arizona Public Servi2:Boston Edison Compan3:Central Lousiana Ele4:Commonwealth Edison5:Consolidated Edison6:Florida Power and Li7:Hawaiian Electric Co8:Idaho Power Co.9:Kentucky Utilities C10:Madison Gas & Electr11:Nevada Power Co.12:New England Electric13:Northern States Powe14:Oklahoma Gas and Ele15:Pacific Gas & Electr16:Puget Sound Power &17:San Diego Gas & Elec18:The Southern Co.19:Texas Utilities Co.20:Wisconsin Electric P21:United Illuminating22:Virginia Electric &

1:Arizo

naPubli

cServi

2:Boston

Edison

Compan

3:Central

LousianaEle

4:Commonwealt

hEdison

5:ConsolidatedEdison

6:Florida

Power

andLi

7:HawaiianElect

ricCo

8:Idah

oPower

Co.

9:KentuckyUtilities C

10:MadisonGas

&Elect

r

11:Neva

daPower

Co.

12:NewEngland

Electric

13:NorthernState

sPow

e

14:Oklahom

aGasandEle

15:Pacifi

cGas

&Elect

r

16:Puge

tSoun

dPower &

17:SanDieg

oGas

&Elec

18:TheSouthernCo.

19:Texa

sUtilitiesCo.

20:Wisconsi

nElectric P

21:Unite

dIlluminatin

g

22:Virginia

Electric &

Euclidean Distance

This is a dissimilarity matrix

91

5. d Vertical Icicle

Vertical Icicle

X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X

Number of clusters123456789101112131415161718192021

22:V

irgin

ia E

lect

ric &

5:C

onso

lidat

ed E

diso

n

11:N

evad

a P

ower

Co.

17:S

an D

iego

Gas

& E

lec

6:Fl

orid

a P

ower

and

Li

3:C

entra

l Lou

sian

a E

le

9:K

entu

cky

Util

ities

C

15:P

acifi

c G

as &

Ele

ctr

21:U

nite

d Ill

umin

atin

g

12:N

ew E

ngla

nd E

lect

ric

7:H

awai

ian

Ele

ctric

Co

20:W

isco

nsin

Ele

ctric

P

13:N

orth

ern

Sta

tes

Pow

e

10:M

adis

on G

as &

Ele

ctr

4:C

omm

onw

ealth

Edi

son

2:B

osto

n E

diso

n C

ompa

n

16:P

uget

Sou

nd P

ower

&

18:T

he S

outh

ern

Co.

19:T

exas

Util

ities

Co.

14:O

klah

oma

Gas

and

Ele

8:Id

aho

Pow

er C

o.

1:A

rizon

a P

ublic

Ser

vi

Case

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Dendrogram using Single Linkage

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+

New England Electric 12 òûòòòø

United Illuminating 21 ò÷ ùòòòø

Hawaiian Electric Co 7 òòòòò÷ ùòòòòòø

Pacific Gas & Electr 15 òòòòòòòòò÷ ó

Commonwealth Edison 4 òûòø ó

Madison Gas & Electr 10 ò÷ ùòø ó

Northern States Powe 13 òòò÷ ùòòòòòø ó

Wisconsin Electric P 20 òòòòò÷ ùòòòú

Boston Edison Compan 2 òòòòòòòòòòò÷ ó

Arizona Public Servi 1 òòòûòø ó

Idaho Power Co. 8 òòò÷ ùòòòø ó

Oklahoma Gas and Ele 14 òòòòò÷ ó ó

Texas Utilities Co. 19 òòòòòòòòòôòòòø ó

The Southern Co. 18 òòòòòòòòò÷ ùòôòø

Puget Sound Power & 16 òòòòòòòòòòòòò÷ ó ó

Kentucky Utilities C 9 òòòòòòòòòòòòòòòú ùòø

Central Lousiana Ele 3 òòòòòòòòòòòòòòò÷ ó ùòø

Florida Power and Li 6 òòòòòòòòòòòòòòòòò÷ ó ùòòòòòòòòòø

San Diego Gas & Elec 17 òòòòòòòòòòòòòòòòòòò÷ ó ùòòòòòòòòòòòòòòòòòø

Nevada Power Co. 11 òòòòòòòòòòòòòòòòòòòòò÷ ó ó

Consolidated Edison 5 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó

Virginia Electric & 22 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷

92

93

Lampiran 6

Data Kasus II

No. Model P M H R Tr W L T D G 1 AMC-Concord 4099 22 3 28 11 2930 186 40 121 3.582 AMC-Pacer 4749 17 3 26 11 3350 173 40 258 2.533 Buick-Century 4816 20 5 29 16 3250 196 40 196 2.934 Buick-Electra 7827 15 4 32 20 4080 222 43 350 2.415 Buick-Le-Sabre 5788 18 4 31 21 3670 218 43 231 2.736 Buick-Regal 5189 20 2 29 16 3280 200 42 196 2.937 Buick-Skylark 4082 19 4 27 13 3400 200 42 231 3.088 Chev.-Chevette 3299 29 3 26 9 2110 163 34 231 2.939 Chev.-Impala 5705 16 4 30 20 3690 212 43 250 2.5610 Chev.-Malibu 4504 22 4 29 17 3180 193 41 200 2.7311 Chev.-Monte-Carlo 5104 22 2 29 16 3220 200 41 200 2.7312 Chev.-Monza 3667 24 2 25 7 2750 179 40 151 2.7313 Chev.-Nova 3955 19 4 27 13 3430 197 43 250 2.5614 Dodge-Diplomat 5010 18 4 29 17 3600 206 46 318 2.4715 Dodge-Magnum-XE 5886 16 4 26 16 3870 216 48 318 2.7116 Dodge-St.-Regis 6342 17 5 28 21 3740 220 46 225 2.9417 Ford-Mustang 4187 21 2 23 10 2650 179 42 140 3.0818 Mazda-GLC 3995 30 4 26 11 1980 154 33 86 3.7319 Merc.-Bobcat 3829 22 3 26 9 2580 169 39 140 2.7320 Merc.-Cougar 5379 14 4 30 16 4060 221 48 302 2.7521 Merc.-Cougar-XR-7 6303 14 3 25 16 4130 217 45 302 2.7522 Merc.-Marquis 6165 15 4 31 23 3720 212 44 302 2.2623 Merc.-Zephyr 3291 20 4 29 17 2830 195 43 140 3.0824 Olds.-Cutlass 4733 19 5 28 16 3300 198 42 231 2.9325 Olds.-Cutl-Supr 5172 19 2 28 16 3310 198 42 231 2.9326 Olds.-Delta-88 5890 18 4 29 20 3690 218 42 231 2.7327 Olds.-Omega 4181 19 5 27 14 3370 200 43 231 3.0828 Olds.-Starfire 4195 24 2 26 10 2720 180 40 151 2.7329 Plym.-Arrow 4647 28 2 22 11 2360 170 37 156 3.0530 Plym.-Champ 4425 34 3 23 11 1800 157 37 86 2.9731 Plym.-Volare 4060 18 5 31 16 3330 201 44 225 3.2332 Pont.-Catalina 5798 18 4 29 20 3700 214 42 231 2.7333 Pont.-Firebird 4934 18 2 24 7 3470 198 42 231 3.0834 Pont.-Grand-Prix 5222 19 2 29 16 3210 201 45 231 2.9335 Pont.-Le-Mans 4723 19 4 28 17 3200 199 40 231 2.93

94

36 Pont.-Sunbird 4172 24 2 25 7 2690 179 41 151 2.7337 Honda-Accord 5799 25 3 26 10 2240 172 36 107 3.0538 Honda-Civic 4499 28 3 24 5 1760 149 34 91 3.3039 Datsun-200-SX 6229 23 2 21 6 2370 170 35 119 3.8940 Datsun-210 4589 35 2 24 8 2020 165 32 85 3.7041 Datsun-510 5079 24 3 22 8 2280 170 34 119 3.5442 Datsun-810 8129 21 3 27 8 2750 184 38 146 3.5543 Dodge-Colt 3984 30 2 24 8 2120 163 35 98 3.5444 Subaru 3798 35 3 26 11 2050 164 36 97 3.8145 Toyota-Cecila 5899 18 3 22 14 2410 174 36 134 3.0646 Toyota-Corolla 3748 31 3 25 9 2200 165 35 97 3.2147 Toyota-Corona 5719 18 2 23 11 2670 175 36 134 3.0548 VW-Rabbit 4697 25 3 26 15 1930 155 35 89 3.7849 VW-Rabbit-Diesel 5397 41 3 26 15 2040 155 35 90 3.7850 VW-Scirocco 6850 25 2 24 16 1990 156 36 97 3.7851 VW-Dasher 7140 23 3 38 12 2160 172 36 97 3.7452 Audi-Fox 6295 23 3 28 11 2070 174 36 97 3.7053 Fiat-Strada 4296 21 3 27 16 2130 161 36 105 3.3754 Renault-Le-Car 3895 26 3 23 10 1830 142 34 79 3.7255 Audi-5000 9690 17 3 27 15 2830 189 37 131 3.2056 Buick-Riviera 10372 16 4 30 17 3880 207 43 231 2.9357 Cad.-Deville 11385 14 4 32 20 4330 221 44 425 2.2858 Cad.-Eldorado 14500 14 4 30 16 3900 204 43 350 2.1959 Cad.-Seville 15906 21 3 30 13 4290 204 45 350 2.2460 Linc.-Continental 11497 12 4 31 22 4840 233 51 400 2.4761 Linc.-Cont-Mark-V 13594 12 3 29 18 4720 230 48 400 2.4762 Linc.-Versailles 13466 14 4 27 15 3830 201 41 302 2.4763 Olds.-98 8814 21 4 32 20 4060 220 43 350 2.4164 Olds.-Tornado 10371 16 4 30 17 4030 206 43 350 2.4165 Volvo-260 11995 17 3 30 14 3170 193 37 163 2.9866 BMW-320i 9735 25 3 26 12 2650 177 34 121 3.64Sumber : Applied Multivariate Statistical Analysis (Hardle, Simar)

95

Lampiran 7

Langkah-langkah analisis dengan menggunakan SPSS untuk data kasus II :

a. Buka file data mobil.sav.

b. Pada menu bar pilih Analyze lalu submenu Classify, kemudian pilih K-

Means Cluster.

c. Muncul kotak dialog K-Means Cluster Analysis. Masukkan variabel P, M,

H, R, Tr, W, L, T, D dan G ke kotak Variables. Masukkan variabel model

ke kotak Label Cases by, hal ini cluster akan dilakukan berdasarkan model

mobil. Namun ada tidaknya variabel model ini tidak akan berpengaruh

terhadap proses cluster, karena hanya pemberian label saja. Selanjutnya,

masukkan angka 2 ke dalam kotak Number of Cluster, berarti cluster

yang akan terbentuk sebanyak 2. Untuk Method tetap pada pilihan

Iterate and classify. Kemudian pilih Iterate…, muncul kotak dialog K-

Means Cluster: Iterate, isikan Convergence Criterion : 0 dan Maximum

Iterations : 10 lalu pilih Continue. Lalu pilih Save…, muncul kotak dialog

K-Means Cluster: Save New Variables, aktifkan Cluster membership dan

Distance from cluster center kemudian pilih Continue. Lalu pilih

Options…, aktifkan semua item dalam kelompok Statistics dan pilih

Continue. Untuk mengeksekusi analisis cluster, pilih OK.

96

Lampiran 8

Output Analisis Cluster untuk Kasus II Quick Cluster

8. a. Initial Cluster Centers

3299 1590629 212.5 3.0

26.0 30.09 13

2110 4290163 20434 45

231 3502.93 2.24

PMH R TrWLTD G

1 2Cluster

8. b. Iteration Historya

1956.49 3883.7572.305 269.927

.000 .000

Iteration123

1 2

Change in ClusterCenters

Convergence achieved due to no or smallchange in cluster centers. The maximumabsolute coordinate change for any center is .000. The current iteration is 3. The minimumdistance between initial centers is 12794.722.

a.

97

8.c. Cluster Membership

Case Number

Model Cluster Distance

1 AMC-Concord 1 930.3872 AMC-Pacer 1 564.6133 Buick-Century 1 439.3594 Buick-Electra 1 3059.1805 Buick-Le-Sabre 1 1111.2606 Buick-Regal 1 447.4287 Buick-Skylark 1 1086.1798 Chev.-Chevette 1 1884.7549 Chev.-Impala 1 1072.29110 Chev.-Malibu 1 609.89011 Chev.-Monte-Carlo 1 365.29812 Chev.-Monza 1 1363.38313 Chev.-Nova 1 1212.78114 Dodge-Diplomat 1 749.35415 Dodge-Magnum-XE 1 1331.50016 Dodge-St.-Regis 1 1582.46017 Ford-Mustang 1 866.12118 Mazda-GLC 1 1361.25919 Merc.-Bobcat 1 1230.30420 Merc.-Cougar 1 1253.63821 Merc.-Cougar-XR-7 1 1803.06722 Merc.-Marquis 1 1430.88023 Merc.-Zephyr 1 1735.08024 Olds.-Cutlass 1 527.49125 Olds.-Cutl-Supr 1 472.40026 Olds.-Delta-88 1 1197.28827 Olds.-Omega 1 985.68828 Olds.-Starfire 1 843.19029 Plym.-Arrow 1 631.01630 Plym.-Champ 1 1225.76231 Plym.-Volare 1 1072.92032 Pont.-Catalina 1 1139.83433 Pont.-Firebird 1 615.02134 Pont.-Grand-Prix 1 401.61635 Pont.-Le-Mans 1 455.04936 Pont.-Sunbird 1 871.37337 Honda-Accord 1 996.82538 Honda-Civic 1 1226.97439 Datsun-200-SX 1 1302.73440 Datsun-210 1 955.25741 Datsun-510 1 589.99842 Datsun-810 1 3106.000

98

43 Dodge-Colt 1 1282.68044 Subaru 1 1475.29745 Toyota-Cecila 1 985.84846 Toyota-Corolla 1 1442.16747 Toyota-Corona 1 721.88548 VW-Rabbit 1 994.76649 VW-Rabbit-Diesel 1 909.23150 VW-Scirocco 1 2025.20951 VW-Dasher 1 2230.46652 Audi-Fox 1 1499.94253 Fiat-Strada 1 1037.78154 Renault-Le-Car 1 1535.92255 Audi-5000 2 2341.22756 Buick-Riviera 2 1406.67157 Cad.-Deville 2 612.28958 Cad.-Eldorado 2 2723.51459 Cad.-Seville 2 4149.80660 Linc.-Continental 2 1008.02061 Linc.-Cont-Mark-V 2 2005.49962 Linc.-Versailles 2 1689.60663 Olds.-98 2 2969.19264 Olds.-Tornado 2 1415.29565 Volvo-260 2 752.62066 BMW-320i 2 2389.389

8. d. Final Cluster Centers

5025 1177722 172.9 3.3

26.5 29.313 17

2864 3878185 20740 42

178 2983.08 2.64

P MH RTrWLTD G

1 2Cluster

99

8. g. Number of Cases in each Cluster

54.00012.00066.000

.000

1 2

Cluster

Valid Missing

8. f. ANOVA

447580259 1 1799467.7 64 248.729 .000310.142 1 30.620 64 10.129 .002

.917 1 .697 64 1.316 .25674.500 1 8.096 64 9.202 .003

103.705 1 17.796 64 5.828 .01910079903 1 486077.271 64 20.737 .0004652.526 1 446.603 64 10.418 .002

78.304 1 17.843 64 4.388 .040139750.189 1 6696.868 64 20.868 .000

1.931 1 .187 64 10.344 .002

PMH R TrWLTD G

Mean Square df

ClusterMeanSquare df

Error

F Sig.

The F tests should be used only for descriptive purposes because the clusters havebeen chosen to maximize the differences among cases in different clusters. Theobserved significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.

8. e. Distances between Final Cluster Centers

6828.496828.49

Cluste r12

1 2

100

Lampiran 9

Hasil Pengelompokan dengan Analisis Cluster yang akan dianalisa dengan

Analisis Diskriminan

No. Model P M H R Tr W L T D G C1 AMC-Concord 4099 22 3 28 11 2930 186 40 121 3.58 1 2 AMC-Pacer 4749 17 3 26 11 3350 173 40 258 2.53 1 3 Buick-Century 4816 20 5 29 16 3250 196 40 196 2.93 1 4 Buick-Electra 7827 15 4 32 20 4080 222 43 350 2.41 1 5 Buick-Le-Sabre 5788 18 4 31 21 3670 218 43 231 2.73 1 6 Buick-Regal 5189 20 2 29 16 3280 200 42 196 2.93 1 7 Buick-Skylark 4082 19 4 27 13 3400 200 42 231 3.08 1 8 Chev.-Chevette 3299 29 3 26 9 2110 163 34 231 2.93 1 9 Chev.-Impala 5705 16 4 30 20 3690 212 43 250 2.56 1 10 Chev.-Malibu 4504 22 4 29 17 3180 193 41 200 2.73 1 11 Chev.-Monte-Carlo 5104 22 2 29 16 3220 200 41 200 2.73 1 12 Chev.-Monza 3667 24 2 25 7 2750 179 40 151 2.73 1 13 Chev.-Nova 3955 19 4 27 13 3430 197 43 250 2.56 1 14 Dodge-Diplomat 5010 18 4 29 17 3600 206 46 318 2.47 1 15 Dodge-Magnum-XE 5886 16 4 26 16 3870 216 48 318 2.71 1 16 Dodge-St.-Regis 6342 17 5 28 21 3740 220 46 225 2.94 1 17 Ford-Mustang 4187 21 2 23 10 2650 179 42 140 3.08 1 18 Mazda-GLC 3995 30 4 26 11 1980 154 33 86 3.73 1 19 Merc.-Bobcat 3829 22 3 26 9 2580 169 39 140 2.73 1 20 Merc.-Cougar 5379 14 4 30 16 4060 221 48 302 2.75 1 21 Merc.-Cougar-XR-7 6303 14 3 25 16 4130 217 45 302 2.75 1 22 Merc.-Marquis 6165 15 4 31 23 3720 212 44 302 2.26 1 23 Merc.-Zephyr 3291 20 4 29 17 2830 195 43 140 3.08 1 24 Olds.-Cutlass 4733 19 5 28 16 3300 198 42 231 2.93 1 25 Olds.-Cutl-Supr 5172 19 2 28 16 3310 198 42 231 2.93 1 26 Olds.-Delta-88 5890 18 4 29 20 3690 218 42 231 2.73 1 27 Olds.-Omega 4181 19 5 27 14 3370 200 43 231 3.08 1 28 Olds.-Starfire 4195 24 2 26 10 2720 180 40 151 2.73 1 29 Plym.-Arrow 4647 28 2 22 11 2360 170 37 156 3.05 1 30 Plym.-Champ 4425 34 3 23 11 1800 157 37 86 2.97 1 31 Plym.-Volare 4060 18 5 31 16 3330 201 44 225 3.23 1 32 Pont.-Catalina 5798 18 4 29 20 3700 214 42 231 2.73 1 33 Pont.-Firebird 4934 18 2 24 7 3470 198 42 231 3.08 1

101

34 Pont.-Grand-Prix 5222 19 2 29 16 3210 201 45 231 2.93 1 35 Pont.-Le-Mans 4723 19 4 28 17 3200 199 40 231 2.93 1 36 Pont.-Sunbird 4172 24 2 25 7 2690 179 41 151 2.73 1 37 Honda-Accord 5799 25 3 26 10 2240 172 36 107 3.05 1 38 Honda-Civic 4499 28 3 24 5 1760 149 34 91 3.30 1 39 Datsun-200-SX 6229 23 2 21 6 2370 170 35 119 3.89 1 40 Datsun-210 4589 35 2 24 8 2020 165 32 85 3.70 1 41 Datsun-510 5079 24 3 22 8 2280 170 34 119 3.54 1 42 Datsun-810 8129 21 3 27 8 2750 184 38 146 3.55 1 43 Dodge-Colt 3984 30 2 24 8 2120 163 35 98 3.54 1 44 Subaru 3798 35 3 26 11 2050 164 36 97 3.81 1 45 Toyota-Cecila 5899 18 3 22 14 2410 174 36 134 3.06 1 46 Toyota-Corolla 3748 31 3 25 9 2200 165 35 97 3.21 1 47 Toyota-Corona 5719 18 2 23 11 2670 175 36 134 3.05 1 48 VW-Rabbit 4697 25 3 26 15 1930 155 35 89 3.78 1 49 VW-Rabbit-Diesel 5397 41 3 26 15 2040 155 35 90 3.78 1 50 VW-Scirocco 6850 25 2 24 16 1990 156 36 97 3.78 1 51 VW-Dasher 7140 23 3 38 12 2160 172 36 97 3.74 1 52 Audi-Fox 6295 23 3 28 11 2070 174 36 97 3.70 1 53 Fiat-Strada 4296 21 3 27 16 2130 161 36 105 3.37 1 54 Renault-Le-Car 3895 26 3 23 10 1830 142 34 79 3.72 1 55 Audi-5000 9690 17 3 27 15 2830 189 37 131 3.20 2 56 Buick-Riviera 10372 16 4 30 17 3880 207 43 231 2.93 2 57 Cad.-Deville 11385 14 4 32 20 4330 221 44 425 2.28 2 58 Cad.-Eldorado 14500 14 4 30 16 3900 204 43 350 2.19 2 59 Cad.-Seville 15906 21 3 30 13 4290 204 45 350 2.24 2 60 Linc.-Continental 11497 12 4 31 22 4840 233 51 400 2.47 2 61 Linc.-Cont-Mark-V 13594 12 3 29 18 4720 230 48 400 2.47 2 62 Linc.-Versailles 13466 14 4 27 15 3830 201 41 302 2.47 2 63 Olds.-98 8814 21 4 32 20 4060 220 43 350 2.41 2 64 Olds.-Tornado 10371 16 4 30 17 4030 206 43 350 2.41 2 65 Volvo-260 11995 17 3 30 14 3170 193 37 163 2.98 2 66 BMW-320i 9735 25 3 26 12 2650 177 34 121 3.64 2

102

Lampiran 10

Langkah-langkah analisis dengan menggunakan SPSS (Data Lampiran 9) :

a. Buka file data analisis diskriminan.sav.

b. Pada menu bar pilih Analyze lalu submenu Classify, kemudian pilih

Discriminant.

c. Muncul kotak dialog Discriminant Analysis, pada kotak Grouping

Variable masukkan variabel C dan pada kotak Independents masukkan

variabel P, M, H, R, Tr, W, L, T, D dan G.

d. Kemudian pilih Use stepwise method

e. Pilih tab statistic, muncul kotak dialog Discriminant Analysis : statistics,

pada pilihan statistics klik Means dan Univariate ANOVAs. Kemudian

pada pilihan Function Coefficients klik Fisher’s dan Unstandardized,

kemudian klik Continue.

f. Pilih tab Classification, muncul kotak dialog Discriminant Analysis:

Classification, pada pilihan Prior Probabilities klik All groups equal,

pada pilihan Display klik Casewise results dan Leave one-out

classification kemudian Continue.

g. Pilih tab Save, muncul kotak dialog Discriminant Analysis: Save, klik

Predicted group membership, Disriminant score dan Probabilities of

group membership, kemudian klik Continue serta OK untuk

mengeksekusi.

103 Lampiran 11

Output Analisis Diskriminan Data Lampiran 9

11. a. Analysis Case Processing Summary

66 100.0

0 .0

0 .0

0 .0

0 .066 100.0

Unweighted CasesValid

Missing or out-of-rangegroup codesAt least one missingdiscriminating variableBoth missing orout-of-range group codesand at least one missingdiscriminating variableTotal

Excluded

Total

N Percent

11. b Group Statistics

5025.2778 1090.37990 54 54.00022.2037 5.80624 54 54.0002.9444 .88310 54 54.000

26.5370 3.01858 54 54.00013.3333 4.42548 54 54.000

2864.2593 699.51358 54 54.000185.3148 21.95091 54 54.00039.5926 4.10944 54 54.000

178.4444 75.09734 54 54.0003.0843 .42884 54 54.000

11777.08 2177.41989 12 12.00016.5833 3.96481 12 12.0003.2500 .54356 12 12.000

29.2917 1.78960 12 12.00016.5833 3.02890 12 12.000

3877.5000 685.89855 12 12.000207.0833 16.63763 12 12.00042.4167 4.73782 12 12.000

297.7500 108.58606 12 12.0002.6408 .44700 12 12.000

6252.8788 2942.38572 66 66.00021.1818 5.90934 66 66.0003.0000 .83666 66 66.000

27.0379 3.01957 66 66.00013.9242 4.37233 66 66.000

3048.4848 796.03680 66 66.000189.2727 22.61214 66 66.00040.1061 4.33280 66 66.000

200.1364 93.50852 66 66.0003.0036 .46202 66 66.000

PMHRTrWLTDGPMHRTrWLTDGPMHRTrWLTDG

C1

2

Total

Mean Std. Deviation Unweighted WeightedValid N (listwise)

104

Analysis 1 Stepwise Statistics

11. c Tests of Equality of Group Means

.205 248.729 1 64 .000

.863 10.129 1 64 .002

.980 1.316 1 64 .256

.874 9.202 1 64 .003

.917 5.828 1 64 .019

.755 20.737 1 64 .000

.860 10.418 1 64 .002

.936 4.388 1 64 .040

.754 20.868 1 64 .000

.861 10.344 1 64 .002

PMHRTrWLTDG

Wilks'Lambda F df1 df2 Sig.

11. d. Variables Entered/Removeda,b,c,d

P 25.334 1 and 2 248.729 1 64.000 9.94E-024Step1

Entered StatisticBetweenGroups Statistic df1 df2 Sig.

Exact F

Min. D Squared

At each step, the variable that maximizes the Mahalanobis distance between the two closest groups is entered.

Maximum number of steps is 20.a.

Minimum partial F to enter is 3.84.b.

Maximum partial F to remove is 2.71.c.

F level, tolerance, or VIN insufficient for further computation.d.

11. e. Variables in the Analysis

1.000 248.729P Step1

Tolerance F to Remove

105

Summary of Canonical Discriminant Functions

11. f. Variables Not in the Analysis

1.000 1.000 248.729 25.334 1 and 21.000 1.000 10.129 1.032 1 and 21.000 1.000 1.316 .134 1 and 21.000 1.000 9.202 .937 1 and 21.000 1.000 5.828 .594 1 and 21.000 1.000 20.737 2.112 1 and 21.000 1.000 10.418 1.061 1 and 21.000 1.000 4.388 .447 1 and 21.000 1.000 20.868 2.125 1 and 21.000 1.000 10.344 1.054 1 and 2.900 .900 .733 25.704 1 and 2

1.000 1.000 .296 25.483 1 and 2.954 .954 .027 25.347 1 and 2.962 .962 .086 25.377 1 and 2.907 .907 .015 25.341 1 and 2.926 .926 .242 25.456 1 and 2.954 .954 .359 25.515 1 and 2.911 .911 .004 25.335 1 and 2.970 .970 .052 25.360 1 and 2

PMHRTrWLTDGMHRTrWLTDG

Step0

1

ToleranceMin.

Tolerance F to EnterMin. D

SquaredBetween Groups

11. h. Eigenvalues

3.886 a 100.0 100.0 .892Function 1

Eigenvalue % of Variance Cumulative %CanonicalCorrelation

First 1 canonical discriminant functions were used in theanalysis.

a.

11. i. Wilks' Lambda

.205 100.740 1 .000Test of Function(s) 1

Wilks'Lambda Chi-square df Sig.

11. j. Standardized CanonicalDiscriminant Function Coefficients

1.000 P1

Function

106

Classification Statistics

11. k. Structure Matrix

1.000 -.317.305 .298 .272 .216 .215 .194

-.172-.004

PMa

Wa

Da

La

Ta

Ra

Tra

Ga

Ha

1 Function

Pooled within-groups correlations between discriminatingvariables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function.

This variable not used in the analysis.a.

11. l. Canonical Discriminant Function Coefficients

.001 -4.661

P(Constant)

1 Function

Unstandardized coefficients

11. m Functions at Group Centroids

-.915 4.118

C12

1 Function

Unstandardized canonical discriminantfunctions evaluated at group means

11. n. Classification Processing Summary

66

0

0

66

ProcessedMissing or out-of-rangegroup codesAt least one missingdiscriminating variable

Excluded

Used in Output

107

11. o. Prior Probabilities for Groups

.500 54 54.000

.500 12 12.0001.000 66 66.000

C12Total

Prior Unweighted WeightedCases Used in Analysis

11. p. Classification Function Coefficients

.003 .007-7.710 -39.232

P(Constant)

1 2C

Fisher's linear discriminant functions

11. r. Classification Resultsb,c

54 0 540 12 12

100.0 .0 100.0.0 100.0 100.054 0 540 12 12

100.0 .0 100.0.0 100.0 100.0

C12121212

Count

%

Count

%

Original

Cross-validated a

1 2

Predicted GroupMembership

Total

Cross validation is done only for those cases in the analysis. Incross validation, each case is classified by the functions derivedfrom all cases other than that case.

a.

100.0% of original grouped cases correctly classified.b.

100.0% of cross-validated grouped cases correctly classified.c.

11. q. Casewise Statistics

1 1 .490 1 1.000 .477 2 .000 32.761 -1.6061 1 .837 1 1.000 .042 2 .000 27.449 -1.1211 1 .876 1 1.000 .024 2 .000 26.928 -1.0711 1 .037 1 .896 4.362 2 .104 8.671 1.1731 1 .570 1 1.000 .323 2 .000 19.933 -.3471 1 .903 1 1.000 .015 2 .000 24.120 -.7931 1 .482 1 1.000 .494 2 .000 32.907 -1.6181 1 .198 1 1.000 1.656 2 .000 39.944 -2.2021 1 .612 1 1.000 .257 2 .000 20.490 -.4081 1 .698 1 1.000 .151 2 .000 29.396 -1.3041 1 .953 1 1.000 .003 2 .000 24.746 -.8561 1 .311 1 1.000 1.025 2 .000 36.552 -1.9281 1 .425 1 1.000 .637 2 .000 34.002 -1.7131 1 .991 1 1.000 .000 2 .000 25.448 -.9271 1 .521 1 1.000 .412 2 .000 19.286 -.2731 1 .326 1 1.000 .963 2 .000 16.416 .0661 1 .532 1 1.000 .391 2 .000 32.015 -1.5401 1 .442 1 1.000 .590 2 .000 33.655 -1.6831 1 .373 1 1.000 .795 2 .000 35.106 -1.8071 1 .792 1 1.000 .070 2 .000 22.749 -.6511 1 .341 1 1.000 .907 2 .000 16.652 .0371 1 .396 1 1.000 .722 2 .000 17.503 -.0661 1 .196 1 1.000 1.671 2 .000 40.019 -2.208

CaseNumber1234567891011121314151617181920212223

Original

ActualGroup

PredictedGroup p df

P(D>d |G=g) P(G=g

| D=d)

SquaredMahalanobisDistance to

Centroid

Highest Group

GroupP(G=g |

D=d)


Centroid

Second Highest Group

Function 1

DiscriminantScores

For the original data, squared Mahalanobis distance is based on canonical functions.For the cross-validated data, squared Mahalanobis distance is based on observations.

108


1 1 .828 1 1.000 .047 2 .000 27.574 -1.1331 1 .913 1 1.000 .012 2 .000 24.244 -.8061 1 .519 1 1.000 .416 2 .000 19.260 -.2711 1 .529 1 1.000 .396 2 .000 32.065 -1.5451 1 .536 1 1.000 .383 2 .000 31.947 -1.5341 1 .778 1 1.000 .080 2 .000 28.252 -1.1971 1 .655 1 1.000 .200 2 .000 30.038 -1.3631 1 .472 1 1.000 .518 2 .000 33.095 -1.6351 1 .565 1 1.000 .332 2 .000 19.867 -.3391 1 .946 1 1.000 .005 2 .000 26.023 -.9831 1 .883 1 1.000 .022 2 .000 23.879 -.7681 1 .822 1 1.000 .051 2 .000 27.653 -1.1401 1 .525 1 1.000 .405 2 .000 32.141 -1.5511 1 .564 1 1.000 .333 2 .000 19.860 -.3381 1 .695 1 1.000 .154 2 .000 29.437 -1.3071 1 .370 1 1.000 .805 2 .000 17.106 -.0181 1 .745 1 1.000 .106 2 .000 28.713 -1.2401 1 .968 1 1.000 .002 2 .000 24.932 -.8751 1 .021 1 .735 5.353 2 .265 7.396 1.3991 1 .438 1 1.000 .603 2 .000 33.750 -1.6911 1 .360 1 1.000 .837 2 .000 35.380 -1.8301 1 .515 1 1.000 .424 2 .000 19.201 -.2641 1 .341 1 1.000 .907 2 .000 35.825 -1.867

CaseNumber2425262728293031323334353637383940414243444546

Original

ActualGroup

PredictedGroup p df

P(D>d |G=g) P(G=g

| D=d)


Centroid

Highest Group

GroupP(G=g |

D=d)


Centroid


Function 1

DiscriminantScores


109


1 1 .605 1 1.000 .267 2 .000 20.395 -.3981 1 .807 1 1.000 .060 2 .000 27.857 -1.1601 1 .782 1 1.000 .077 2 .000 22.621 -.6381 1 .174 1 .997 1.850 2 .003 13.491 .4451 1 .115 1 .991 2.485 2 .009 11.949 .6611 1 .344 1 1.000 .896 2 .000 16.701 .0311 1 .587 1 1.000 .296 2 .000 31.102 -1.4591 1 .399 1 1.000 .710 2 .000 34.525 -1.7582 2 .120 1 .992 2.421 1 .008 12.092 2.5622 2 .295 1 .999 1.097 1 .001 15.887 3.0712 2 .770 1 1.000 .085 1 .000 22.477 3.8262 2 .042 1 1.000 4.120 1 .000 49.887 6.1482 2 .002 1 1.000 9.474 1 .000 65.792 7.1962 2 .835 1 1.000 .044 1 .000 23.275 3.9092 2 .176 1 1.000 1.835 1 .000 40.803 5.4732 2 .208 1 1.000 1.585 1 .000 39.593 5.3772 2 .027 1 .825 4.879 1 .175 7.977 1.9092 2 .295 1 .999 1.099 1 .001 15.881 3.0702 2 .871 1 1.000 .026 1 .000 26.995 4.2812 2 .128 1 .993 2.317 1 .007 12.327 2.596

CaseNumber4748495051525354555657585960616263646566

Original

ActualGroup

PredictedGroup p df

P(D>d |G=g) P(G=g

| D=d)


Centroid

Highest Group

GroupP(G=g |

D=d)


Centroid


Function 1

DiscriminantScores


110


1 1 .484 1 1.000 .491 2 .000 32.4961 1 .835 1 1.000 .043 2 .000 27.0391 1 .875 1 1.000 .025 2 .000 26.5181 1 .029 1 .899 4.790 2 .101 9.1721 1 .564 1 1.000 .332 2 .000 19.7231 1 .902 1 1.000 .015 2 .000 23.7491 1 .475 1 1.000 .509 2 .000 32.6491 1 .187 1 1.000 1.738 2 .000 40.3851 1 .608 1 1.000 .263 2 .000 20.2521 1 .694 1 1.000 .155 2 .000 29.0071 1 .953 1 1.000 .004 2 .000 24.3611 1 .302 1 1.000 1.065 2 .000 36.5781 1 .418 1 1.000 .657 2 .000 33.8131 1 .991 1 1.000 .000 2 .000 25.0511 1 .515 1 1.000 .423 2 .000 19.1101 1 .317 1 1.000 1.000 2 .000 16.4111 1 .526 1 1.000 .402 2 .000 31.7121 1 .435 1 1.000 .608 2 .000 33.4431 1 .364 1 1.000 .823 2 .000 35.0011 1 .790 1 1.000 .071 2 .000 22.4181 1 .332 1 1.000 .941 2 .000 16.6331 1 .388 1 1.000 .746 2 .000 17.4291 1 .185 1 1.000 1.755 2 .000 40.471

CaseNumber1234567891011121314151617181920212223

Cross-validateda

ActualGroup

PredictedGroup p df

P(D>d |G=g) P(G=g

| D=d)


Centroid

Highest Group

GroupP(G=g |

D=d)


Centroid


Function 1

DiscriminantScores


111


1 1 .826 1 1.000 .049 2 .000 27.1641 1 .912 1 1.000 .012 2 .000 23.8701 1 .513 1 1.000 .427 2 .000 19.0851 1 .523 1 1.000 .407 2 .000 31.7651 1 .530 1 1.000 .394 2 .000 31.6411 1 .775 1 1.000 .081 2 .000 27.8461 1 .650 1 1.000 .205 2 .000 29.6641 1 .465 1 1.000 .534 2 .000 32.8491 1 .559 1 1.000 .341 2 .000 19.6601 1 .945 1 1.000 .005 2 .000 25.6181 1 .882 1 1.000 .022 2 .000 23.5141 1 .820 1 1.000 .052 2 .000 27.2431 1 .519 1 1.000 .416 2 .000 31.8441 1 .559 1 1.000 .342 2 .000 19.6541 1 .691 1 1.000 .158 2 .000 29.0481 1 .361 1 1.000 .834 2 .000 17.0571 1 .742 1 1.000 .108 2 .000 28.3121 1 .968 1 1.000 .002 2 .000 24.5431 1 .014 1 .729 5.980 2 .271 7.9581 1 .430 1 1.000 .622 2 .000 33.5441 1 .352 1 1.000 .867 2 .000 35.2981 1 .509 1 1.000 .436 2 .000 19.0301 1 .332 1 1.000 .940 2 .000 35.782

CaseNumber2425262728293031323334353637383940414243444546

Cross-validateda

ActualGroup

PredictedGroup p df

P(D>d |G=g) P(G=g

| D=d)


Centroid

Highest Group

GroupP(G=g |

D=d)


Centroid


Function 1

DiscriminantScores


112


1 1 .600 1 1.000 .274 2 .000 20.1621 1 .805 1 1.000 .061 2 .000 27.4481 1 .779 1 1.000 .079 2 .000 22.2951 1 .163 1 .997 1.948 2 .003 13.6831 1 .104 1 .992 2.644 2 .008 12.2471 1 .335 1 1.000 .929 2 .000 16.6781 1 .582 1 1.000 .303 2 .000 30.7611 1 .392 1 1.000 .734 2 .000 34.3742 2 .085 1 .991 2.958 1 .009 12.4162 2 .252 1 .999 1.310 1 .001 15.9362 2 .752 1 1.000 .100 1 .000 22.1582 2 .023 1 1.000 5.191 1 .000 52.8172 2 .000 1 1.000 13.236 1 .000 77.2362 2 .821 1 1.000 .051 1 .000 22.9292 2 .136 1 1.000 2.219 1 .000 41.4622 2 .167 1 1.000 1.909 1 .000 40.0562 2 .013 1 .762 6.234 1 .238 8.5652 2 .252 1 .999 1.312 1 .001 15.9312 2 .860 1 1.000 .031 1 .000 26.5852 2 .093 1 .993 2.826 1 .007 12.633

CaseNumber4748495051525354555657585960616263646566

Cross-validateda

ActualGroup

PredictedGroup p df

P(D>d |G=g) P(G=g

| D=d)


Centroid

Highest Group

GroupP(G=g |

D=d)


Centroid


Function 1

DiscriminantScores


Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all casesother than that case.

a.

113

analisis cluster dan aplikasinya skripsi · menggunakan buku-buku, jurnal-jurnal, makalah-makalah...

Documents