bab ii tinjauan pustaka - sinta.unud.ac.id ii.pdf · gerombol harus memiliki sifat homogen. ......
TRANSCRIPT
BAB II
TINJAUAN PUSTAKA
Pada bab ini akan dibahas beberapa konsep yang menjadi dasar dalam
penelitian ini, yaitu analisis peubah ganda, analisis gerombol (cluster analysis),
metode penggerombolan hirarki (hierarchial cluster analysis), jarak Euclidean dan
jarak Pearson, Korelasi serta Analisis Komponen Utama. Kriteria pemilihan pautan
terbaik didasarkan pada Cluster Tightness Measure (CTM).
2.1 Analisis Peubah Ganda
Analisis peubah ganda adalah salah satu metode statistika yang digunakan
untuk melihat hubungan antara lebih dari satu variabel bebas dan lebih dari satu
variabel terikat. Teknik dalam analisis peubah ganda secara umum dapat digunakan
dalam penelitian dengan tujuan sebagai berikut(Johnson, 2007):
1. Memberikan penjelasan mengenai suatu fenomena dengan cara yang sederhana
tanpa menghilangkan informasi penting yang ada di dalamnya.
2. Objek yang memiliki ciri-ciri yang sama dikumpulkan dalam satu kelompok
dan akan ditentukan langkah yang tepat dalam pengelompokan tersebut.
3. Untuk mengamati setiap hubungan pada variabel-variabel yang digunakan.
4. Meramalkan suatu variabel atau lebih berdasarkan hubungan masing-masing
variabel lainnya.
5. Melakukan pengujian hipotesis statistik berdasarkan penelitian sebelumnya.
Salah satu bagian dalam analisis peubah ganda adalah analisis gerombol.
Berikut ini akan dibahas mengenai analisis gerombol.
1.2 Analisis Gerombol (Cluster Analysis)
Analisis gerombol merupakan salah satu teknik statistika yang
mengelompokkan obyek-obyek dalam satu gerombol.Tujuan dari analisis ini adalah
untuk mengelompokkan obyek-obyek yang memiliki kesamaan dalam satu gerombol
dan yang memiliki perbedaan dengan gerombol lain(Hair, 1995).Dalam hal ini,
gerombol harus memiliki sifat homogen.
Pengamatan dalam analisis gerombol dilakukan dengan mencari kesamaan
antar obyek.Dalam berbagai kasus, kesamaan antar obyek didasarkan pada hasil
pengukuran jarak. Ada beberapa cara mengukur jarak kedekatan yaitu jarak
Euclidean, jarak Square Euclidean, jarak Pearson, jarak Korelasi, jarak Mutlak
Korelasi, jarak Manhattan dan jarak Minkowski. Dalam penelitian ini digunakan jarak
Euclidean dan jarak Pearson.
Jarak Euclidean merupakan akar kuadrat dari jumlah perbedaan untuk nilai
setiap variabel (Supranto, 2010). Jarak Euclidean antara obyek dan obyek
didefinisikan sebagai (Rencher, 2002):
√∑
(2.1)
dengan merupakan nilai pengamatan variabel ke- dan obyek ke- , merupakan
nilai pengamatan variabel ke- dan obyek ke- .
Jarak Pearson merupakan perluasan jarak Euclidean yang dirumuskan sebagai
(Sutanto, 2009):
√∑
(2.2)
dengan adalah jarak Pearson antara obyek ke- dan obyek ke- , var ( )
merupakan varian dari variabel k, k = 1,2,3,…,n.
Teknik dalam analisis gerombol sudah banyak diterapkan pada data dalam
bidang kedokteran, psikiatri, sosiologi, kriminologi, antropologi, arkeologi, geologi,
geografi, riset pasar, ekonomi, dan rekayasa.
Salah satu bagian dalam analisis gerombol adalah metode penggerombolan
hirarki.
1.3 Metode Penggerombolan Hirarki (Hierarchial Cluster Analysis)
Metode hirarki terdiri dari dua metode penggerombolan yaitu metode
penggabungan dan metode pemisahan.Di antara kedua metode ini, metode
penggabungan lebih sering digunakan.
Metode penggabungan terdiri dari beberapa metode pautan, yaitu singlelinkage,
complete linkage, average linkage, danward. Berikut ini dibahas masing – masing
metode pautan tersebut.
a) Single linkage
Metode single linkage pertama kali dikenalkan oleh Florek et al. pada tahun
1951(Everitt, 2011).Metode ini ditentukan berdasarkan jarak minimum. Jarak
minimum antara gerombol dengan gerombol dan gerombol dengan gerombol
dinotasikan dan dituliskan sebagai (Johnson, 2007):
{ } (2.3)
dengan dan secara berturut-turut adalah jarak dari gerombol ke gerombol
dan dari gerombol ke gerombol .Berikut diberikan contoh menghitung jarak
minimum.
Misalkan diberikan matriks jarak pada 5 buah obyek.
1 2 3 4 5
1 0
2 9 0
D = 3 3 7 0
4 6 5 9 0
5 11 10 2 8 0
Gerombol dengan jarak terdekat adalah antara gerombol 3 dan 5. Untuk itu dilakukan
perhitungan jarak dari gerombol (35) ke gerombol yang lain, yaitu:
{ } { }
{ } { }
{ } { }
Sehingga diperoleh matriks jarak baru
berikut.
(35) 1 2 4
(35) 0
1 3 0
2 7 9 0
4 8 6 5 0
Pada matrik jarak
, jarak terdekat adalah (35) dan 1. Dari sini, dihitung jarak
antara gerombol 135 dengan 2 dan gerombol 135 dengan gerombol 4.
{ } { }
{ } { }
Sehingga diperoleh matriks jarak tereduksi
.
(135) 2 4
(135) 0
2 7 0
4 6 5 0
Berdasarkan matriks jarak , jarak terdekat selanjunya adalah 2 dan 4. Dari sini
kembali dihitung jarak terdekat dari gerombol (135) ke (24).
{ } { }
Oleh karena itu, pada tahap akhir diperoleh matrik jarak tereduksi .
(135) (24)
(135) 0
(24) 6 0
b) Complete linkage
Metode complete linkage memiliki kemiripan dengan metode single
linkageakan tetapi jarak yang digunakan adalah jarak maksimum. Jarak maksimum
antara gerombol dengan gerombol dan antara gerombol dengan gerombol
disimbolkan dengan dan dituliskan sebagai(Johnson, 2007):
{ } (2.4)
dengan dan secara berturut-turut adalah jarak dari gerombol ke gerombol
dan dari gerombol ke gerombol . Selanjutnya, diberikan contoh perhitungan jarak
dengan metode complete linkage.
Perhatikan matriks jarak D pada contoh terdahulu.Gerombol dengan jarak
terdekat adalah gerombol 3 dan 5. Selanjutnya dihitung jarak maksimum antara
gerombol (35) dengan gerombol-gerombol lain.
{ } { }
{ } { }
{ } { }
Berdasarkan hasil perhitungan di atas disusun matriks jarak
berikut.
(35) 1 2 4
(35) 0
1 11 0
2 10 9 0
4 9 6 5 0
Berdasarkan matriks jarak
, jarak terdekat kedua adalah 2 dan 4
Jarak maksimum antara gerombol (24) dengan gerombol-gerombol dapat dihitung
sebagai berikut.
{ } { }
{ } { }
Dari sini dapat disusun matriks jarak
berikut.
(35) (24) 1
(35) 0
(24) 10 0
1 11 9 0
Lebih lanjut lagi, berdasarkan matriks jarak
diperoleh jarak terdekat ketiga yaitu
1 dan (24). Diperhatikan bahwa:
{ } { }
Sehingga diperoleh matriks jarak
.
(35) (124)
(35) 0
(124) 11 0
c) Average linkage
Metode average linkage memiliki kemiripan dengan single linkage dan
complete linkage, perbedaannya terletak pada perhitungan yang digunakan yaitu jarak
rata-rata. Metode ini memiliki syarat menggabungkan pasangan gerombol dengan
nilai varian terkecil. Jarak rata – rata antara gerombol dengan gerombol lain yaitu
gerombol dituliskan sebagai:
∑ ∑
(2.5)
dengan adalah jarak obyek (pada gerombol dan gerombol dengan gerombol
tersebut membentuk gerombol tunggal ), dengan obyek pada gerombol ,
dan secara berturut – turut merupakan obyek dalam gerombol
dan (Johnson, 2007).
Selanjutnya, perhatikankembali matriks D pada contoh terdahulu gerombol
dengan jarak terdekat adalah antara gerombol 3 dan 5.Jarak rata-rata dari gerombol
(35) dengan gerombol-gerombol lain adalah.
Dari sini dibentuk matriks
.
(35) 1 2 4
(35) 0
1 7 0
2 8,5 9 0
4 8,5 6 5 0
Dari matriks jarak
dilakukan langkah sebelumnya yaitu mencari jarak terdekat
antara gerombol.Jarak terdekat adalah antara gerombol 2 dan 4, maka gerombol
tersebut dan digabungkan menjadi satu gerombol.Selanjutnya dihitung jarak-jarak
gerombol (35) dengan gerombol (35), antara gerombol (24) dengan gerombol (24)
antara (24) dengan gerombol (35) dan 1.
{ }
Berdasarkan perhitungan tersebut dibentuk matriks jarak
.
(35) (24) 1
(35) 1
(24) 8,5 2,5
1 7 7,5 0
Berdasarkan matriks jarak
maka diperoleh jarak terdekat yaitu antara gerombol 1
dan (35). Dari sini jarak rata-rata antara gerombol (135) dengan gerombol lain adalah
Karena itu diperoleh matriks jarak
berikut ini.
(35) (124)
(35) 0
(124) 11 0
d)Ward
Metode Ward adalah metode yang menggabungkan dua gerombol dengan
banyak pengamatan yang kecil.Perhitungan jarak antar gerombol yang digunakan
dalam metode ini adalah jumlah kuadrat antara pasangan gerombol tersebut
berdasarkan jumlah semua variabel dari masing-masing gerombol.misalkan gerombol
merupakan kombinasi gerombol dan gerombol , jumlah jarak gerombol
dituliskan sebagai (Rencher, 2002):
∑
(2.6)
∑ ( ) ( )
(2.7)
∑ ( ) ( )
, (2.8)
dengan , , secara berturut-turut merupakan jumlah jarak gerombol ,
dan , merupakan vektor kolom berupa nilai rata-rata obyek , = 1,2,3,…,n,
, merupakan banyaknya obyek.
Pada masing-masing metode pautan setelah semua pasangan gerombol
bergabung dalam satu gerombol penggabungan tersebut digambarkan dalam bentuk
dendogram.
2.4 Pemilihan Metode Terbaik
CTM merupakan ukuran perkiraan efektivitas dalam kelompok, merancang
ukuran antar kelompok, dan mengukur pemisahan dalam suatu kelompok (Victor,
2010). CTM diukur berdasarkan simpangan baku pada masing-masing kelompok
yang dapat ditulis sebagai (Epps, 2005):
∑ (
∑
)
(2.9)
dengan r : banyaknya kelompok
p : banyaknya variabel
Stm : simpangan baku pada kelompok ke-t untuk variabel ke-m
Sm : simpangan baku variabel ke-m
Pemilihan metode terbaik dilihat berdasarkan nilai CTM terkecil.
2.5 Korelasi
Korelasi merupakan suatu nilai yang digunakan untuk mengetahui hubungan
antara dua variabel yaitu X dan Y(Sembiring, 2003). Misalkan terdapat pasangan
variabel ( ), ( ),…,( ) dengan , , …, dan , ,…,
koefisien korelasi X dan Y dapat dihitung dengan(Sembiring, 2003):
√∑ ∑ (2.10)
Nilai koefisien korelasi berada pada kisaran interval -1 < < 1. Nilai koefisien
korelasi dikatakan sempurna apabila = +1 yang artinya hubungan antara variabel
X dan Y searah. Jika nilai = -1, maka hubungan antara variabel X dan Y
berlawanan. Jika nilai = 0 maka antara variabel X dan Y tidak memiliki hubungan
yang linier. Korelasi dapat diklasifikasikan seperti pada Tabel 2.1.
Tabel 2.1 Klasifikasi Korelasi
Korelasi
rendah
Sedang Tinggi Tidak ada
korelasi
Tinggi Sedang Korelasi
rendah
>-0,4 -0,75-(-
0,4)
<-0,75 0 >0,75 0,4-0,75 < 0,4
Sumber: Sembiring (1995)
2.6 Analisis Komponen Utama (PCA)
PCA merupakan analisis statistika yang digunakan untuk memaksimalkan varian
berdasarkan kombinasi linier variabel(Rencher, 2002). Analisis PCA dapat dilakukan
apabila terdapat variabel ( bilangan asli) dan akan dicari variabel-variabel baru yang
merupakan hasil kombinasi linier dari variabel-variabel sebelumnya tanpa
menghilangkan informasi penting dari variabel sebelumnya.
PCA tersusun berdasarkan kombinasi linier dari variabel acak .
Pemilihan sistem koordinat baru dilakukan dengan merotasi sistem asli dengan
sebagai sumbu koordinat.Sumbu baru tersebut mewakili arah dan
memberikan penjelasan yang lebih sederhana mengenai struktur kovarians.PCA hanya
bergantung pada matriks kovarian dan matriks korelasi.Pembentukannya tidak
tergantung pada asumsi distribusi multivariat normal(Johnson, 2007).
Selanjutnya, misalkan vektor acak [ ] memiliki matriks
kovarian dengan nilai eigen Kombinasi linier vektor tersebut
sebagai berikut(Johnson, 2007):
:
:
(2.11)
Untuk memperoleh bentuk PCA dari dengan teknik perkalian lagrange.
Teknik tersebut digunakan untuk memaksimalkan ∑ dengan
sebagai
berikut(Jolliffe, 1986):
∑
(2.12)
merupakan pengali lagrange selanjutnya dari persamaan (2.12) diturunkan terhadap
kemudian hasil turunannya dibuat sama dengan 0 seperti pada persamaan (2.13)
∑ (2.13)
atau
(∑ )
dengan adalah matrik identitas berukuran ( ), adalah nilai eigen. Jika p eigen
vektor dimaksimalkan dengan maka dapat dinotasikan,
∑
(2.14)
Hal ini berlaku juga pada pembentukan komponen sampai dengan komponen
.
Faktor dengan nilai eigen lebih besar dari 1 yang dianggap signifikan, sedangkan
faktor-faktor lain yang memilliki nilai eigen kurang dari 1 dianggap tidak signifikan atau
diabaikan(Hair, 1995).