tugas cluster analysis

Post on 25-Jul-2015

275 Views

Category:

Documents

4 Downloads

Preview:

Click to see full reader

TRANSCRIPT

CLUSTER DATA ANALYSIS

Fallen Wicaksono - 041141047

Definisi

Analisis cluster adalah analisis yang dilakukan untuk mengelompokkan objek-objek berdasarkan kesamaan karakteristik di antara objek – objek tersebut.

Diharapkan dengan terbentuknya kelompok-kelompok tersebut akan lebih mudah dalam menganalisa dan lebih tepat pengambilan keputusan yang sehubungan dengan masalah tersebut.

Perbedaan analisis cluster dengan analisis faktor adalah bahwa analisis cluster terfokus pada pengelompokan objek sedangkan analisis faktor terfokus pada kelompok variabel.

Tujuan Analisis Cluster

1. Menyederhanakan data dan untuk menyajikan nya ke dalam bentuk grafik atau dendogram.

2. Mengelompokkan obyek-obyek menjadi kelom pok-kelompok yang mempunyai sifat yang homogen atau variasi obyek yang terbentuk sekecil mungkin.

3. Digunakan untuk membedakan dengan jelas antara satu kelompok cluster dengan kelompok yang lain.

CLUSTER ANALYSIS(1) Ukuran kemiripan

Ukuran jarak yang sering digunakan adalah jarak euclidean (d)

22122

2111221 )()(),( XXXXPPd

)()'(......)()(),( xyxyxyxyxyd 222

211

(2) Asumsi Analisis Gerombol Data antar pengamatan (case) independen Sampel diambil secara random Antar variabel saling bebas (tidak berkorelasi) Data untuk seluruh variabel minimal memiliki skala interval

(terutama bila ukuran kemiripan yang digunakan adalah jarak)

Contoh…

Klaster 3

Data utama apa yg digunakan untuk mengelompokkan?

• Data tentang “kesamaan” (similarity) nilai.

• Untuk mengukur “kesamaan” tersebut sering digunakan “jarak” antar titik data yang diukur dengan Eucledian distance:

2 2

1

( )p

ij ik jkk

D X X

Jenis analisis klaster

Hirarkikal• Nearest neighbor • Farthest neighbor• Average linkage• Centroid• Ward• Median Clustering

Nonhirarkikal• K-means

Nearest neighbor Vs. Farthest neighbor

Ilustrasi: nearest –neighbor (single linkage) method

Langkah 1: hitung dulu jaraknya (similarity). Inilah hasilnya

Catatan: Tabel ini sengaja “dipotong” agar tidak panjang.

Langkah 2: lakukan pengelompokkan dg memilih dua titik data yg jaraknya paling dekat. Dalam hal ini kita memilih obyek 1 dan 2 sbb

Memilih antara 117 atau 130

Langkah 3: Lakukan lagi penggabungan antara obyek 3 dan 4 (yang memiliki jarak terdekat)

Langkah 4, dst: ulang terus langkah pengelompokkan sesuai jarak terdekat tsb. Sehingga akhirnya mendapatkan tabel ini.

Akhirnya kita bisa membuat 3 kelompok. Tapi sebetulnya masih bisa dilanjutkan terus (lihat dendrogram)

Contoh Hasil Pengelompokan secara Visual

Ingat..bila dikehendaki kita masih bisa terus membuat pengelompokkan. Oleh sebab itu perlu dipikirkan: kapan kita berhenti mengelompokkan…

Dendrogram untuk data di tabel 1

Contoh batas “cut-off” kapan kita berhenti melakukan klasterisasi…

Metode WARD

• Sering dianggap sebagai metode “terbaik”• Dalam metode Ward kita memakai ESS

(error sum square) – menunjukkan homoginitas dalam klaster

• Dalam metode Ward kita ingin memaksimalkan homoginitas dlm klaster

• ESS hanya dapat diukur jika ada > 1 item2

1

( )k

ii

ESS X X

Beberapa isu penting

• Pemahaman mengenai ukuran ‘jarak’. Ada beberapa alternatif untuk mengukur ‘jarak’ dalam rangka menemukan kesamaan, yaitu:– Eucledian distance– Manhatan distance– Mahalanobis distance

• Metode seperti “nearest neighbor’ sensitif terhadap outliers. Oleh sebab itu perlu dicek dulu dan bila ada harus dihilangkan.

Kekuatan pembagian kelompok

• Seberapa tinggi mutu klasterisasi? Ada beberapa cara mengestimasi…– ANOVA– Jarak antar klaster– R-Squared (R2) – Root mean square total sample standard

deviation (RMSSTD) 2 2

1 1( 1)

( 1)

p pj jj j

n s sRMSSTD

p n p

Hasil output dari analisis cluster terdapat beberapa tabel. Yaitu Case Processing Summary, matrix priority, average linkage between group, Cluster membership, dan bagan dendogram. Dari masing – masing tabel dapat ditarik kesimpulannya sesuai dengan jenis analisisnya. Setelah itu diambil keputusannya berdasarkan ketentuan yang digunakan.

Dengan tabel-tabel hasil output, maka didapatkan cluster – cluster yang telah memiliki anggota masing-masing sesuai dengan kesamaan karakteristiknya. Dari output analisis yang dilakukan dapat dilihat pembagian clusternya, ada yang terbagi menjadi 2, terbagi menjad 3 atau terbagi menjadi 4. Masing-masing data salon telah menjadi anggota dari cluster -cluster yang terbentuk.

Hasil output analisis pun didapat sebuah dendogram. Dengan dendogram ini, dapat diketahui juga kelompok – kelompok atau cluster – cluster yang terbentuk. Hanya, pada dendogram bentuknya berupa garis – garis, agar lebih mudah memahami. Dari data yang didapat dari dendogram, maka tampak bahwa dari data – data yang dianalisis akan tergabung menajdi satu cluster.

top related