bab ii tinjauan pustaka - sinta.unud.ac.id ii.pdf · gerombol harus memiliki sifat homogen. ......

BAB II

TINJAUAN PUSTAKA

Pada bab ini akan dibahas beberapa konsep yang menjadi dasar dalam

penelitian ini, yaitu analisis peubah ganda, analisis gerombol (cluster analysis),

metode penggerombolan hirarki (hierarchial cluster analysis), jarak Euclidean dan

jarak Pearson, Korelasi serta Analisis Komponen Utama. Kriteria pemilihan pautan

terbaik didasarkan pada Cluster Tightness Measure (CTM).

2.1 Analisis Peubah Ganda

Analisis peubah ganda adalah salah satu metode statistika yang digunakan

untuk melihat hubungan antara lebih dari satu variabel bebas dan lebih dari satu

variabel terikat. Teknik dalam analisis peubah ganda secara umum dapat digunakan

dalam penelitian dengan tujuan sebagai berikut(Johnson, 2007):

1. Memberikan penjelasan mengenai suatu fenomena dengan cara yang sederhana

tanpa menghilangkan informasi penting yang ada di dalamnya.

2. Objek yang memiliki ciri-ciri yang sama dikumpulkan dalam satu kelompok

dan akan ditentukan langkah yang tepat dalam pengelompokan tersebut.

3. Untuk mengamati setiap hubungan pada variabel-variabel yang digunakan.

4. Meramalkan suatu variabel atau lebih berdasarkan hubungan masing-masing

variabel lainnya.

5. Melakukan pengujian hipotesis statistik berdasarkan penelitian sebelumnya.

Salah satu bagian dalam analisis peubah ganda adalah analisis gerombol.

Berikut ini akan dibahas mengenai analisis gerombol.

1.2 Analisis Gerombol (Cluster Analysis)

Analisis gerombol merupakan salah satu teknik statistika yang

mengelompokkan obyek-obyek dalam satu gerombol.Tujuan dari analisis ini adalah

untuk mengelompokkan obyek-obyek yang memiliki kesamaan dalam satu gerombol

dan yang memiliki perbedaan dengan gerombol lain(Hair, 1995).Dalam hal ini,

gerombol harus memiliki sifat homogen.

Pengamatan dalam analisis gerombol dilakukan dengan mencari kesamaan

antar obyek.Dalam berbagai kasus, kesamaan antar obyek didasarkan pada hasil

pengukuran jarak. Ada beberapa cara mengukur jarak kedekatan yaitu jarak

Euclidean, jarak Square Euclidean, jarak Pearson, jarak Korelasi, jarak Mutlak

Korelasi, jarak Manhattan dan jarak Minkowski. Dalam penelitian ini digunakan jarak

Euclidean dan jarak Pearson.

Jarak Euclidean merupakan akar kuadrat dari jumlah perbedaan untuk nilai

setiap variabel (Supranto, 2010). Jarak Euclidean antara obyek dan obyek

didefinisikan sebagai (Rencher, 2002):

√∑

(2.1)

dengan merupakan nilai pengamatan variabel ke- dan obyek ke- , merupakan

nilai pengamatan variabel ke- dan obyek ke- .

Jarak Pearson merupakan perluasan jarak Euclidean yang dirumuskan sebagai

(Sutanto, 2009):

√∑

(2.2)

dengan adalah jarak Pearson antara obyek ke- dan obyek ke- , var ( )

merupakan varian dari variabel k, k = 1,2,3,…,n.

Teknik dalam analisis gerombol sudah banyak diterapkan pada data dalam

bidang kedokteran, psikiatri, sosiologi, kriminologi, antropologi, arkeologi, geologi,

geografi, riset pasar, ekonomi, dan rekayasa.

Salah satu bagian dalam analisis gerombol adalah metode penggerombolan

hirarki.

1.3 Metode Penggerombolan Hirarki (Hierarchial Cluster Analysis)

Metode hirarki terdiri dari dua metode penggerombolan yaitu metode

penggabungan dan metode pemisahan.Di antara kedua metode ini, metode

penggabungan lebih sering digunakan.

Metode penggabungan terdiri dari beberapa metode pautan, yaitu singlelinkage,

complete linkage, average linkage, danward. Berikut ini dibahas masing – masing

metode pautan tersebut.

a) Single linkage

Metode single linkage pertama kali dikenalkan oleh Florek et al. pada tahun

1951(Everitt, 2011).Metode ini ditentukan berdasarkan jarak minimum. Jarak

minimum antara gerombol dengan gerombol dan gerombol dengan gerombol

dinotasikan dan dituliskan sebagai (Johnson, 2007):

{ } (2.3)

dengan dan secara berturut-turut adalah jarak dari gerombol ke gerombol

dan dari gerombol ke gerombol .Berikut diberikan contoh menghitung jarak

minimum.

Misalkan diberikan matriks jarak pada 5 buah obyek.

1 2 3 4 5

1 0

2 9 0

D = 3 3 7 0

4 6 5 9 0

5 11 10 2 8 0

Gerombol dengan jarak terdekat adalah antara gerombol 3 dan 5. Untuk itu dilakukan

perhitungan jarak dari gerombol (35) ke gerombol yang lain, yaitu:

{ } { }

{ } { }

{ } { }

Sehingga diperoleh matriks jarak baru

berikut.

(35) 1 2 4

(35) 0

1 3 0

2 7 9 0

4 8 6 5 0

Pada matrik jarak

, jarak terdekat adalah (35) dan 1. Dari sini, dihitung jarak

antara gerombol 135 dengan 2 dan gerombol 135 dengan gerombol 4.

{ } { }

{ } { }

Sehingga diperoleh matriks jarak tereduksi

.

(135) 2 4

(135) 0

2 7 0

4 6 5 0

Berdasarkan matriks jarak , jarak terdekat selanjunya adalah 2 dan 4. Dari sini

kembali dihitung jarak terdekat dari gerombol (135) ke (24).

{ } { }

Oleh karena itu, pada tahap akhir diperoleh matrik jarak tereduksi .

(135) (24)

(135) 0

(24) 6 0

b) Complete linkage

Metode complete linkage memiliki kemiripan dengan metode single

linkageakan tetapi jarak yang digunakan adalah jarak maksimum. Jarak maksimum

antara gerombol dengan gerombol dan antara gerombol dengan gerombol

disimbolkan dengan dan dituliskan sebagai(Johnson, 2007):

{ } (2.4)

dengan dan secara berturut-turut adalah jarak dari gerombol ke gerombol

dan dari gerombol ke gerombol . Selanjutnya, diberikan contoh perhitungan jarak

dengan metode complete linkage.

Perhatikan matriks jarak D pada contoh terdahulu.Gerombol dengan jarak

terdekat adalah gerombol 3 dan 5. Selanjutnya dihitung jarak maksimum antara

gerombol (35) dengan gerombol-gerombol lain.

{ } { }

{ } { }

{ } { }

Berdasarkan hasil perhitungan di atas disusun matriks jarak

berikut.

(35) 1 2 4

(35) 0

1 11 0

2 10 9 0

4 9 6 5 0

Berdasarkan matriks jarak

, jarak terdekat kedua adalah 2 dan 4

Jarak maksimum antara gerombol (24) dengan gerombol-gerombol dapat dihitung

sebagai berikut.

{ } { }

{ } { }

Dari sini dapat disusun matriks jarak

berikut.

(35) (24) 1

(35) 0

(24) 10 0

1 11 9 0

Lebih lanjut lagi, berdasarkan matriks jarak

diperoleh jarak terdekat ketiga yaitu

1 dan (24). Diperhatikan bahwa:

{ } { }

Sehingga diperoleh matriks jarak

.

(35) (124)

(35) 0

(124) 11 0

c) Average linkage

Metode average linkage memiliki kemiripan dengan single linkage dan

complete linkage, perbedaannya terletak pada perhitungan yang digunakan yaitu jarak

rata-rata. Metode ini memiliki syarat menggabungkan pasangan gerombol dengan

nilai varian terkecil. Jarak rata – rata antara gerombol dengan gerombol lain yaitu

gerombol dituliskan sebagai:

∑ ∑

(2.5)

dengan adalah jarak obyek (pada gerombol dan gerombol dengan gerombol

tersebut membentuk gerombol tunggal ), dengan obyek pada gerombol ,

dan secara berturut – turut merupakan obyek dalam gerombol

dan (Johnson, 2007).

Selanjutnya, perhatikankembali matriks D pada contoh terdahulu gerombol

dengan jarak terdekat adalah antara gerombol 3 dan 5.Jarak rata-rata dari gerombol

(35) dengan gerombol-gerombol lain adalah.

Dari sini dibentuk matriks

.

(35) 1 2 4

(35) 0

1 7 0

2 8,5 9 0

4 8,5 6 5 0

Dari matriks jarak

dilakukan langkah sebelumnya yaitu mencari jarak terdekat

antara gerombol.Jarak terdekat adalah antara gerombol 2 dan 4, maka gerombol

tersebut dan digabungkan menjadi satu gerombol.Selanjutnya dihitung jarak-jarak

gerombol (35) dengan gerombol (35), antara gerombol (24) dengan gerombol (24)

antara (24) dengan gerombol (35) dan 1.

{ }

Berdasarkan perhitungan tersebut dibentuk matriks jarak

.

(35) (24) 1

(35) 1

(24) 8,5 2,5

1 7 7,5 0

Berdasarkan matriks jarak

maka diperoleh jarak terdekat yaitu antara gerombol 1

dan (35). Dari sini jarak rata-rata antara gerombol (135) dengan gerombol lain adalah

Karena itu diperoleh matriks jarak

berikut ini.

(35) (124)

(35) 0

(124) 11 0

d)Ward

Metode Ward adalah metode yang menggabungkan dua gerombol dengan

banyak pengamatan yang kecil.Perhitungan jarak antar gerombol yang digunakan

dalam metode ini adalah jumlah kuadrat antara pasangan gerombol tersebut

berdasarkan jumlah semua variabel dari masing-masing gerombol.misalkan gerombol

merupakan kombinasi gerombol dan gerombol , jumlah jarak gerombol

dituliskan sebagai (Rencher, 2002):

∑

(2.6)

∑ ( ) ( )

(2.7)

∑ ( ) ( )

, (2.8)

dengan , , secara berturut-turut merupakan jumlah jarak gerombol ,

dan , merupakan vektor kolom berupa nilai rata-rata obyek , = 1,2,3,…,n,

, merupakan banyaknya obyek.

Pada masing-masing metode pautan setelah semua pasangan gerombol

bergabung dalam satu gerombol penggabungan tersebut digambarkan dalam bentuk

dendogram.

2.4 Pemilihan Metode Terbaik

CTM merupakan ukuran perkiraan efektivitas dalam kelompok, merancang

ukuran antar kelompok, dan mengukur pemisahan dalam suatu kelompok (Victor,

2010). CTM diukur berdasarkan simpangan baku pada masing-masing kelompok

yang dapat ditulis sebagai (Epps, 2005):

∑ (

∑

)

(2.9)

dengan r : banyaknya kelompok

p : banyaknya variabel

Stm : simpangan baku pada kelompok ke-t untuk variabel ke-m

Sm : simpangan baku variabel ke-m

Pemilihan metode terbaik dilihat berdasarkan nilai CTM terkecil.

2.5 Korelasi

Korelasi merupakan suatu nilai yang digunakan untuk mengetahui hubungan

antara dua variabel yaitu X dan Y(Sembiring, 2003). Misalkan terdapat pasangan

variabel ( ), ( ),…,( ) dengan , , …, dan , ,…,

koefisien korelasi X dan Y dapat dihitung dengan(Sembiring, 2003):

√∑ ∑ (2.10)

Nilai koefisien korelasi berada pada kisaran interval -1 < < 1. Nilai koefisien

korelasi dikatakan sempurna apabila = +1 yang artinya hubungan antara variabel

X dan Y searah. Jika nilai = -1, maka hubungan antara variabel X dan Y

berlawanan. Jika nilai = 0 maka antara variabel X dan Y tidak memiliki hubungan

yang linier. Korelasi dapat diklasifikasikan seperti pada Tabel 2.1.

Tabel 2.1 Klasifikasi Korelasi

Korelasi

rendah

Sedang Tinggi Tidak ada

korelasi

Tinggi Sedang Korelasi

rendah

>-0,4 -0,75-(-

0,4)

<-0,75 0 >0,75 0,4-0,75 < 0,4

Sumber: Sembiring (1995)

2.6 Analisis Komponen Utama (PCA)

PCA merupakan analisis statistika yang digunakan untuk memaksimalkan varian

berdasarkan kombinasi linier variabel(Rencher, 2002). Analisis PCA dapat dilakukan

apabila terdapat variabel ( bilangan asli) dan akan dicari variabel-variabel baru yang

merupakan hasil kombinasi linier dari variabel-variabel sebelumnya tanpa

menghilangkan informasi penting dari variabel sebelumnya.

PCA tersusun berdasarkan kombinasi linier dari variabel acak .

Pemilihan sistem koordinat baru dilakukan dengan merotasi sistem asli dengan

sebagai sumbu koordinat.Sumbu baru tersebut mewakili arah dan

memberikan penjelasan yang lebih sederhana mengenai struktur kovarians.PCA hanya

bergantung pada matriks kovarian dan matriks korelasi.Pembentukannya tidak

tergantung pada asumsi distribusi multivariat normal(Johnson, 2007).

Selanjutnya, misalkan vektor acak [ ] memiliki matriks

kovarian dengan nilai eigen Kombinasi linier vektor tersebut

sebagai berikut(Johnson, 2007):

:

:

(2.11)

Untuk memperoleh bentuk PCA dari dengan teknik perkalian lagrange.

Teknik tersebut digunakan untuk memaksimalkan ∑ dengan

sebagai

berikut(Jolliffe, 1986):

∑

(2.12)

merupakan pengali lagrange selanjutnya dari persamaan (2.12) diturunkan terhadap

kemudian hasil turunannya dibuat sama dengan 0 seperti pada persamaan (2.13)

∑ (2.13)

atau

(∑ )

dengan adalah matrik identitas berukuran ( ), adalah nilai eigen. Jika p eigen

vektor dimaksimalkan dengan maka dapat dinotasikan,

∑

(2.14)

Hal ini berlaku juga pada pembentukan komponen sampai dengan komponen

.

Faktor dengan nilai eigen lebih besar dari 1 yang dianggap signifikan, sedangkan

faktor-faktor lain yang memilliki nilai eigen kurang dari 1 dianggap tidak signifikan atau

diabaikan(Hair, 1995).

bab ii tinjauan pustaka - sinta.unud.ac.id ii.pdf · gerombol harus memiliki sifat homogen. ......

Documents