clustering

4
1. Definisi : Clustering adalah suatu metode pengelompokan berdasarkan ukuran kedekatan(kemiripan).Clustering beda dengan group, kalau group berarti kelompo yang sama,kondisinya kalau tidak ya pasti bukan kelompoknya.Tetapi kalau clust tidak harus sama akan tetapi pengelompokannya berdasarkan pada kedekatan dari suatu karakteristik sample yang ada, salah satunya dengan menggunakan rumus jarak ecluidean.Aplikasinya cluster ini sangat banyak, karena hamper dalam mengidentifikasi permasalahan atau pengambilan keputusan selalu tidak s persis akan tetapi cenderung memiliki kemiripan saja. 2.Manfaat Identifikasi obyek (Recognition) !alam bidang mage "rocessing , Computer #ision atau robot $ision !ecission %upport %ystem dan data mining %egmentasi pasar, pemetaan &ilayah, 'anajemen marketing dll. 3. Prinsip dasar : %imilarity 'easures (ukuran kedekatan) !istances dan %imilarity Coeficients untuk beberapa sepasang dari item cluidean !istance 2 2 2 2 2 1 1 ) ( ... ) ( ) ( ) , ( p p y x y x y x y x d + + + = Atau

Upload: gusnadip12101212

Post on 03-Nov-2015

215 views

Category:

Documents


1 download

DESCRIPTION

cluster

TRANSCRIPT

1. Definisi :Clustering adalah suatu metode pengelompokan berdasarkan ukuran kedekatan(kemiripan).Clustering beda dengan group, kalau group berarti kelompok yang sama,kondisinya kalau tidak ya pasti bukan kelompoknya.Tetapi kalau cluster tidak harus sama akan tetapi pengelompokannya berdasarkan pada kedekatan dari suatu karakteristik sample yang ada, salah satunya dengan menggunakan rumus jarak ecluidean.Aplikasinya cluster ini sangat banyak, karena hamper dalam mengidentifikasi permasalahan atau pengambilan keputusan selalu tidak sama persis akan tetapi cenderung memiliki kemiripan saja.

2.Manfaat1. Identifikasi obyek (Recognition) :Dalam bidang mage Processing , Computer Vision atau robot vision1. Decission Support System dan data miningSegmentasi pasar, pemetaan wilayah, Manajemen marketing dll.3. Prinsip dasar : 1. Similarity Measures (ukuran kedekatan)1. Distances dan Similarity Coeficients untuk beberapa sepasang dari itemEcluidean Distance:

Atau :

KLASIFIKASIClustering algoritma dapat diklasifikasikan sebagai berikut: 1. Exclusive Clustering 0. Data dikelompokkan ke dalam suatu cara yang eksklusif, sehingga jika suatu fakta milik suatu cluster maka tidak dapat dipakai (menjadi anggota) di cluster lain1. Overlapping Clustering 1. Menggunakan fuzzy set untuk cluster data sehingga titik kemungkinan memiliki dua atau lebih kelompok yang berbeda sesuai derajat keanggotaannya. Dalam hal ini data akan dihubungkan dengan nilai keanggotaannya.1. Hierarchical Clustering 2. Didasarkan pada kesatuan antara dua kelompok terdekat. Permulaan kondisi diwujudkan dengan menetapkan setiap datum sebagai cluster. Setelah beberapa iterasi mencapai final kelompok yang diinginkan.1. Probabilistic Clustering 3. Sepenuhnya menggunakan pendekatan probabilisticK-Means K-Means algoritma merupakan algoritma untuk cluster n objek berdasarkan atribut menjadi k partisi, dimana k < n. Gambar berikut ini menunjukkan k-means clustering algoritma dalam tindakan, untuk kasus dua dimensi. Pusat awal yang dihasilkan secara acak untuk menunjukkan tahapan lebih rinci. Background ruang partisi hanya untuk ilustrasi dan tidak dihasilkan oleh algoritma k-means.Kelemahan dari K-Means Clustering K-means clustering memiliki banyak kelemahan, antara lain:1. Bila jumlah data tidak terlalu banyak, mudah untuk menentukan cluster awal. 1. Jumlah cluster, sebanyak K, harus ditentukan sebelum dilakukan perhitungan.1. tidak pernah mengetahui real cluster dengan menggunakan data yang sama, namun jika dimasukkan dengan cara yang berbeda mungkin dapat memproduksi cluster yang berbeda jika jumlah datanya sedikit. 1. tidak tahu kontribusi dari atribut dalam proses pengelompokan karena dianggap bahwa setiap atribut memiliki bobot yang sama. Algoritma K-Means Clustering0. Menentukan jumlah cluster0. Menentukan nilai centroidJika nilai centroid merupakan awal iterasi, maka nilai awal centroid dilakukan secara acak. Sedangkan jika nilai centroid merupakan tahap dari iterasi, maka digunakan rumus rata-rata centroid, yaitu

, dimana N = jumlah anggota cluster0. Menghitung jarak antara titik centroid dengan titik tiap objek

Menggunakan Euclidean Distance , dimana i adalah banyaknya objek, (x,y) merupakan koordinat object dan (s,t) merupakan koordinat centroid.0. Pengelompokan objectUntuk menentukan anggota cluster adalah dengan memperhitungkan jarak minimum objek dalam tiap cluster yang disimbolkan dengan angka 1.0. Kembali ke tahap 2, lakukan perulangan hingga nilai centroid yang dihasilkan tetap dan anggota cluster tidak berpindah ke cluster lain.Flowchart K-Means Clustering