tugas cluster analysis

21
CLUSTER DATA ANALYSIS Fallen Wicaksono - 041141047

Upload: fallen-wicaksono

Post on 25-Jul-2015

275 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Tugas Cluster Analysis

CLUSTER DATA ANALYSIS

Fallen Wicaksono - 041141047

Page 2: Tugas Cluster Analysis

Definisi

Analisis cluster adalah analisis yang dilakukan untuk mengelompokkan objek-objek berdasarkan kesamaan karakteristik di antara objek – objek tersebut.

Diharapkan dengan terbentuknya kelompok-kelompok tersebut akan lebih mudah dalam menganalisa dan lebih tepat pengambilan keputusan yang sehubungan dengan masalah tersebut.

Perbedaan analisis cluster dengan analisis faktor adalah bahwa analisis cluster terfokus pada pengelompokan objek sedangkan analisis faktor terfokus pada kelompok variabel.

Page 3: Tugas Cluster Analysis

Tujuan Analisis Cluster

1. Menyederhanakan data dan untuk menyajikan nya ke dalam bentuk grafik atau dendogram.

2. Mengelompokkan obyek-obyek menjadi kelom pok-kelompok yang mempunyai sifat yang homogen atau variasi obyek yang terbentuk sekecil mungkin.

3. Digunakan untuk membedakan dengan jelas antara satu kelompok cluster dengan kelompok yang lain.

Page 4: Tugas Cluster Analysis

CLUSTER ANALYSIS(1) Ukuran kemiripan

Ukuran jarak yang sering digunakan adalah jarak euclidean (d)

22122

2111221 )()(),( XXXXPPd

)()'(......)()(),( xyxyxyxyxyd 222

211

(2) Asumsi Analisis Gerombol Data antar pengamatan (case) independen Sampel diambil secara random Antar variabel saling bebas (tidak berkorelasi) Data untuk seluruh variabel minimal memiliki skala interval

(terutama bila ukuran kemiripan yang digunakan adalah jarak)

Page 5: Tugas Cluster Analysis

Contoh…

Klaster 3

Page 6: Tugas Cluster Analysis

Data utama apa yg digunakan untuk mengelompokkan?

• Data tentang “kesamaan” (similarity) nilai.

• Untuk mengukur “kesamaan” tersebut sering digunakan “jarak” antar titik data yang diukur dengan Eucledian distance:

2 2

1

( )p

ij ik jkk

D X X

Page 7: Tugas Cluster Analysis

Jenis analisis klaster

Hirarkikal• Nearest neighbor • Farthest neighbor• Average linkage• Centroid• Ward• Median Clustering

Nonhirarkikal• K-means

Page 8: Tugas Cluster Analysis

Nearest neighbor Vs. Farthest neighbor

Page 9: Tugas Cluster Analysis

Ilustrasi: nearest –neighbor (single linkage) method

Page 10: Tugas Cluster Analysis

Langkah 1: hitung dulu jaraknya (similarity). Inilah hasilnya

Catatan: Tabel ini sengaja “dipotong” agar tidak panjang.

Page 11: Tugas Cluster Analysis

Langkah 2: lakukan pengelompokkan dg memilih dua titik data yg jaraknya paling dekat. Dalam hal ini kita memilih obyek 1 dan 2 sbb

Memilih antara 117 atau 130

Page 12: Tugas Cluster Analysis

Langkah 3: Lakukan lagi penggabungan antara obyek 3 dan 4 (yang memiliki jarak terdekat)

Page 13: Tugas Cluster Analysis

Langkah 4, dst: ulang terus langkah pengelompokkan sesuai jarak terdekat tsb. Sehingga akhirnya mendapatkan tabel ini.

Akhirnya kita bisa membuat 3 kelompok. Tapi sebetulnya masih bisa dilanjutkan terus (lihat dendrogram)

Page 14: Tugas Cluster Analysis

Contoh Hasil Pengelompokan secara Visual

Page 15: Tugas Cluster Analysis

Ingat..bila dikehendaki kita masih bisa terus membuat pengelompokkan. Oleh sebab itu perlu dipikirkan: kapan kita berhenti mengelompokkan…

Page 16: Tugas Cluster Analysis

Dendrogram untuk data di tabel 1

Contoh batas “cut-off” kapan kita berhenti melakukan klasterisasi…

Page 17: Tugas Cluster Analysis

Metode WARD

• Sering dianggap sebagai metode “terbaik”• Dalam metode Ward kita memakai ESS

(error sum square) – menunjukkan homoginitas dalam klaster

• Dalam metode Ward kita ingin memaksimalkan homoginitas dlm klaster

• ESS hanya dapat diukur jika ada > 1 item2

1

( )k

ii

ESS X X

Page 18: Tugas Cluster Analysis

Beberapa isu penting

• Pemahaman mengenai ukuran ‘jarak’. Ada beberapa alternatif untuk mengukur ‘jarak’ dalam rangka menemukan kesamaan, yaitu:– Eucledian distance– Manhatan distance– Mahalanobis distance

• Metode seperti “nearest neighbor’ sensitif terhadap outliers. Oleh sebab itu perlu dicek dulu dan bila ada harus dihilangkan.

Page 19: Tugas Cluster Analysis

Kekuatan pembagian kelompok

• Seberapa tinggi mutu klasterisasi? Ada beberapa cara mengestimasi…– ANOVA– Jarak antar klaster– R-Squared (R2) – Root mean square total sample standard

deviation (RMSSTD) 2 2

1 1( 1)

( 1)

p pj jj j

n s sRMSSTD

p n p

Page 20: Tugas Cluster Analysis

Hasil output dari analisis cluster terdapat beberapa tabel. Yaitu Case Processing Summary, matrix priority, average linkage between group, Cluster membership, dan bagan dendogram. Dari masing – masing tabel dapat ditarik kesimpulannya sesuai dengan jenis analisisnya. Setelah itu diambil keputusannya berdasarkan ketentuan yang digunakan.

Dengan tabel-tabel hasil output, maka didapatkan cluster – cluster yang telah memiliki anggota masing-masing sesuai dengan kesamaan karakteristiknya. Dari output analisis yang dilakukan dapat dilihat pembagian clusternya, ada yang terbagi menjadi 2, terbagi menjad 3 atau terbagi menjadi 4. Masing-masing data salon telah menjadi anggota dari cluster -cluster yang terbentuk.

Hasil output analisis pun didapat sebuah dendogram. Dengan dendogram ini, dapat diketahui juga kelompok – kelompok atau cluster – cluster yang terbentuk. Hanya, pada dendogram bentuknya berupa garis – garis, agar lebih mudah memahami. Dari data yang didapat dari dendogram, maka tampak bahwa dari data – data yang dianalisis akan tergabung menajdi satu cluster.

Page 21: Tugas Cluster Analysis