(1) clustering

17
 LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA Modul II N LISIS LUST R  2.1. TUJUAN PRAKTIKUM 1. Mahasiswa mempunyai pengetahuan dan kemampuan dasar dalam melakukan dan menerapkan Analisis Cluster 2. Mahasiswa dapat mengetahui dan memahami arti dan garis besar dari Analisis Cluster dalam Data Mining, mulai dari pengambilan data, pengolahan data sampai dengan tahap  pengelompokan, serta mengaplikasikannya dalam kasus-kasus yang dihadapi. 2.2. LANDASAN TEORI 2.2.1.  Konsep Clustering Analisis cluster merupakan salah satu teknik multivariat yang digunakan dalam data mining  yang bertujuan untuk mengidentifikasi sekelompok obyek yang mempunyai kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yang berada dalam kelompok yang sama relatif lebih homogen (sama) daripada obyek yang berada pada kelompok yang berbeda. Jumlah kelompok yang dapat diidentifikasi tergantung pada banyak dan variasi data obyek. Tujuan dari pembentukan cluster ini adalah untuk analisis dan interpretasi lebih lanjut sesuai dengan tujuan penelitian yang dilakukan. Solusi cluster secara keseluruhan bergantung  pada variabel-variabel yang digunakan sebagai dasar untuk menilai kesamaan. Penambahan atau pengurangan variabel-variabel yang relevan dapat mempengaruhi substansi hasil analisis cluster. 2.2.2.  Penerapan Analisis Cluster Analisis cluster dapat diterapkan pada bidang apa saja. Namun pemakaian teknik ini lebih familiar pada bidang pemasaran karena memang salah satu kegiatan yang dilakukan dalam pemasaran adalah pengelompokan, yang disebut segmentasi pasar. Penerapan analisis cluster di dalam pemasaran adalah sebagai berikut : 1. Membuat segmen pasar (segmenting the market) Pelanggan atau pembeli sering diklasterkan berdasarkan manfaat atau keuntungan yang diperoleh dari pembelian barang. Setiap cluster akan terdiri dari pelanggan/pembeli yang relatif homogen, dinyatakan dalam manfaat yang dicari. 2. Memahami perilaku pembeli

Upload: rarautis-mademoisselle

Post on 21-Jul-2015

263 views

Category:

Documents


1 download

TRANSCRIPT

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA Modul II ANALISIS CLUSTER 2.1. TUJUAN PRAKTIKUM 1.Mahasiswamempunyaipengetahuandankemampuandasardalammelakukandan menerapkan Analisis Cluster 2.MahasiswadapatmengetahuidanmemahamiartidangarisbesardariAnalisisCluster dalam Data Mining, mulai dari pengambilan data, pengolahan data sampai dengan tahap pengelompokan, serta mengaplikasikannya dalam kasus-kasus yang dihadapi. 2.2. LANDASAN TEORI 2.2.1.Konsep ClusteringAnalisis cluster merupakan salah satu teknikmultivariatyang digunakan dalamdata miningyangbertujuanuntukmengidentifikasisekelompokobyekyangmempunyai kemiripankarakteristiktertentuyangdapatdipisahkandengankelompokobyeklainnya, sehinggaobyekyangberadadalamkelompokyangsamarelatiflebihhomogen(sama) daripada obyek yang berada pada kelompok yang berbeda. Jumlahkelompokyangdapatdiidentifikasitergantungpadabanyakdanvariasidata obyek. Tujuan dari pembentukan cluster ini adalah untuk analisis dan interpretasi lebih lanjut sesuai dengan tujuan penelitian yang dilakukan. Solusi cluster secara keseluruhan bergantung padavariabel-variabelyangdigunakansebagaidasaruntukmenilaikesamaan.Penambahan atau pengurangan variabel-variabel yang relevan dapat mempengaruhi substansi hasil analisis cluster. 2.2.2.Penerapan Analisis Cluster Analisis cluster dapat diterapkan pada bidang apa saja. Namun pemakaian teknik ini lebihfamiliarpadabidangpemasarankarenamemangsalahsatukegiatanyangdilakukan dalam pemasaran adalah pengelompokan, yang disebut segmentasi pasar.Penerapan analisis cluster di dalam pemasaran adalah sebagai berikut : 1.Membuat segmen pasar (segmenting the market) Pelangganataupembeliseringdiklasterkanberdasarkanmanfaatataukeuntunganyang diperoleh dari pembelian barang. Setiap cluster akan terdiri dari pelanggan/pembeli yang relatif homogen, dinyatakan dalam manfaat yang dicari. 2.Memahami perilaku pembeli Analisisclusterdigunakanuntukmengenali/mengidentifikasikelompokpembeliyang homogen/relatif homogen. Kemudian perilaku dalam untuk setiap kelompok perlu dikaji secaraterpisah.Responden(pembeli)dikelompokkandidasarkanpadaself-reported importanceyangterkaitpadasetiapfaktorpilihanyangdigunakanuntukmemilihtoko atau mall di mana para pembeli membeli barang yang dibutuhkan. 3.Mengenali peluang produk baru Denganmengklasterkanmerkdanproduk,competitivesetdidalampasarbisa ditentukan.Merekdidalamklasteryangsamabersaingsengitsatusamalain,daripada merek dari klaster lain. 2.2.3.Cara Kerja Analisis Cluster Secaragarisbesaradatigahalyangharusterjawabdalamproseskerjaanalisiscluster, yaitu : 1.Bagaimana mengukur kesamaan ? Dalam analisis cluster, pengukuran kesamaan menggunakan konsep pengukuran jarak (distance).Distancemerupakanukurantentangjarakpisahantarobyekyangpada akhirnya akan menunjukkan mana kelompok yang homogen.2.Bagaimana membentuk cluster ? Proseduryangditerapkanharusdapatmengelompokkanobjek-objekyangmemiliki kesamaan(homogenitas)yangtinggikedalamsuatuclusteryangsama,dan memisahkankelompokantarclusteryangberbedadenganketidaksamaan (heterogenitas) yang tinggi. 3.Berapa banyak cluster/kelompok yang akan dibentuk ?Padaprinsipnyajikajumlahclusterberkurangmakahomogenitasdalamcluster secara otomatis akan menurun. 2.2.4.Tahap-tahap dalam Analisis Cluster Ada beberapa tahapan dalam malekukan Analisis Cluster, diantaranya yaitu: 1.Tujuan Analisis Cluster 2.Desain Penelitian dalam Analisis Cluster 3.Asumsi-asumsi dalam Analisis Cluster 4.Proses Mendapatkan Cluster dan Menilai kelayakan secara keseluruhan (overall fit) 5.Interpretasi terhadap Culster 6.Proses Validasi dan Pembuatan Profil (profiling) Cluster Tahap Pertama : Tujuan Analisis Cluster Tujuanutamaanalisisclusteradalahmemisahkansuatuhimpunanobjekmenjadidua kelompok atau lebih berdasarkan kesamaan karakteristik khusus yang dimilikinya. Sedangkan tujuan analisis cluster secara khusus, antara lain: a.Penyederhanaan Data Penyederhanaandatamerupakanbagiandarisuatutaksonomi.Denganstruktur yang terbatas observasi/objek dapat dikelompokkan untuk analisis selanjutnya. b.Identifikasi Hubungan (Relationship Identification) Hubungan antar objek diidentifikasi secara empiris. Struktur analisis cluster yang sederhana dapat menggambarkan adanya hubungan atau kesamaan dan perbedaan yang tidak dinyatakan sebelumnya. c.Pemilihan pada Pengelompokan Variabel Tujuananalisisclustertidakdapatdipisahkandenganpemilihanvariabelyang digunakanuntukmenggolongkanobjekkedalamclucter-cluster.Clusteryang terbentukmerefleksikanstrukturyangmelekatpadadatasepertiyang didefinisikan oleh variabel-variabel. Pemilihan variabel harus sesuai dengan teori dan konsep yang umum digunakan dan harus rasional. Rasionalitas ini didasarkan padateori-teorieksplisitataupenelitiansebelumnya.Variabel-variabelyang dipilih hanyalah variabel yang dapat mencirikan objek yang akan dikelompokkan dansecara spesifik harus sesuai dengan tujuan analisis cluster. Tahap Kedua : Desain Penelitian dalam Analisis Cluster Tiga hal penting dalam tahap ini adalahpendeteksian outlier, mengukur kesamaan. A.Pendeteksian Outliers Outlier adalah suatu objek yang sangat berbeda dengan objek lainnya.Outliers dapat terjadi karena: 1.Observasi menyimpang yang tidak mewakili populasi 2.Suatuundersamplingkelompok-kelompokdalampopulasiyangmenyebabkan underrepresentation kelompok-kelompok dalam sampel Dalamkeduakasustersebut,outliersdapatmengubahstruktursebenarnyadalam populasisehinggakitaakanmemperolehcluster-clusteryangtidaksesuaidengan struktur sebenarnya dari populasi tersebut dan tidak representatif. B.Mengukur Kesamaan antar Objek Konsepkesamaanadalahhalyangsangatpentingdalamanalisiscluster.Kesamaan antarobjekmerupakanukurankedekatanantarobjek.Kesamaandapatdiketahui denganmelakukanpengukuranjarakantarsetiapindividu.Ukuranjarakmerupakan ukuranketidakmiripan,dimanajarakyangbesarmenunjukkansedikitkesamaan sebaliknyajarakyangpendek/kecilmenunjukkanbahwasuatuobjekmakinmirip dengan objek lain. Gambar 2.1 Ilustrasi pengukuran jarak Metode untuk mengukur kesamaan obyek antara lain : 1)Euclidean Distance Jarak euclidean antara dua titik i dan j merupakan sisi miring (sisi terpanjang) dari segitiga ABC. 22 221 12 2 2) ( ) ( Yi) (Xi j) D(i,j i j iX X X X B A + = = + = 2)Squared Euclidean Distance Merupakan pengukuran kuadrat jarak euclidean antara dua titik i dan j. 22 221 12 2 2) ( ) ( Yi) (Xi j) D(i,j i j iX X X X B A + = = + = 3)Chebychev i i iY X max ) Y , X ( D =4)City Block Distance =i iY X Y X D ) , ( j i j i iX X X X Y B A2 2 1 1 iX j) D(i, + = = + = Tahap Ketiga : Asumsi-asumsi dalam Analisis Cluster Seperti hal teknik analisis lain,analisis cluster juga menetapkan adanya suatu asumsi. Ada dua asumsi dalam analisis cluster, yaitu : A.Kecukupan Sampel untuk merepresentasikan/mewakili Populasi Biasanyasuatupenelitiandilakukanterhadappopulasidiwakiliolehsekelompok sampel.Sampelyangdigunakandalamanalisisckusterharusdapatmewakili populasiyangingindijelaskan,karenaanalisisinibaikjikasampelrepresentatif. Jumlahsampelyangdiambiltergantungpenelitinya,seorangpenelitiharusyakin bahwa sampel yang diambil representatif terhadap populasi. B.Pengaruh Multikolinieritas Ada atau tidaknya multikolinieritas antar variabel sangat diperhatikan dalam analisis clusterkarenahalituberpengaruh,sehinggavariabel-variabelyangbersifat multikolinieritas secara eksplisit dieprtimbangkan dengan lebih seksama. TahapKeempat:ProsesMendapatkanClusterdanMenilaikelayakansecara keseluruhan (overall fit) Adaduaprosespentingyaitualgoritmaclusterdalampembentukanclusterdan menentukanjumlahclusteryangakandibentuk.Keduanyamempunyaiimplikasi substansial tidak hanya pada hasil yang diperoleh tetapi juga pada interpretasi yang akan dilakukan terhadap hasil tersebut. Gambar 1.1. algoritma dalam analisis cluster METODE HIRARKITeknik hirarki (hierarchical methods) adalah teknik clustering membentuk kontruksi hirarkiatauberdasarkantingkatantertentusepertistrukturpohon(strukturpertandingan). Dengandemikianprosespengelompokkannyadilakukansecarabertingkatataubertahap. Hasildaripengelompokaninidapatdisajikandalambentukdendogram.Metode-metode yang digunakan dalam teknik hirarki: 1.Agglomerative Methods 2.Divisive Methods 1)Agglomerative Methods Metode ini dimulai dengan kenyatan bahwa setiap obyek membentuk clusternya masing-masing. Kemudian dua obyek dengan jarak terdekat bergabung. Selanjutnya obyek ketiga akan bergabung dengan cluster yang ada atau bersama obyek lain dan membentuk cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar obyek. Proses akan berlanjut hingga akhirnya terbentuk satu cluster yang terdiri dari keseluruhan obyek. Ada beberapa teknik dalam Agglomerative methods yaitu: a)Single linkage (nearest neighbor methods) Metodeinimenggunakanprinsipjarakminimumyangdiawalidenganmencaridua obyek terdekat dan keduanya membentuk cluster yang pertama. Pada langkah selanjutnya terdapat dua kemungkinan, yaitu : -obyek ketiga akan bergabung dengan cluster yang telah terbentuk, atau -dua obyek lainnya akan membentu cluster baru. Proses ini akan berlanjut sampai akhirnya terbentuk cluster tunggal. Pada metode ini jarak antar cluster didefinisikan sebagai jarak terdekat antar anggotanya. Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu : ABCDE A0.01.05.06.08.0 B1.00.03.08.07.0 C5.03.00.04.06.0 D6.08.04.00.02.0 E8.07.06.02.00.0 Langkah penyelesaiannya : 1.Mencari obyek dengan jarak minimum AdanBmempunyaijarakterdekat,yaitu1.0makaobyekAdanAbergabung menjadi satu cluster. 2.Menghitung jarak antara cluster AB dengan obyek lainnya. D(AB)C= min {dAC, dBC}= dBC = 3.0 D(AB)D= min {dAD, dBD}= dAD = 6.0 D(AB)E= min {dAE, dBE}= dBE = 7.0 Dengan demikian terbentuk matriks jarak yang baru ABCDE AB0.03.06.07.0 C3.00.04.06.0 D6.04.00.02.0 E7.06.02.00.0 3.Mencari obyek dengan jarak terdekat DdanEmempunyaijarakyangterdekatyaitu2.0makaobyekDdanE bergabung menjadi satu cluster. 4.menghitung jarak antara cluster dengan obyek lainnya. D(AB)C = 3.0 D(AB)(DE) = min {dAD, dAE, dBD, dBE} = dAD = 6.0 D(DE)C= min {dCD, dCE} = dCD = 4.0 5.MencarijarakterdekatantaraclusterdenganobyekdandiperolehobyekC bergabung dengan cluster AB 6.Padalangkahyangterakhir,clusterABCbergabungdenganDEsehingga terbentuk cluster tunggal. b)Completelinkage (furthest neighbor methods) Metodeinimerupakankebalikandaripendekatanyangdigunakanpadasingle linkage. Prinsip jarak yang digunakan adalah jarak terjauh antar obyek. Contoh :Terdapat matriks jarak antara lima buah obyek yaitu : ABCDE A0.01.05.06.08.0 B1.00.03.08.07.0 C5.03.00.04.06.0 D6.08.04.00.02.0 E8.07.06.02.00.0 Langkah penyelesaiannya : 1.Mencari obyek dengan jarak minimum AdanBmempunyaijarakterdekatyaitu1.0makaobyekAdanBbergabung menjadi satu cluster. 2.Menghitung jarak antara cluster AB dengan obyek lainnya. D(AB)C= max {dAC, dBC}= dAC = 5.0 D(AB)D= max {dAD, dBD}= dBD = 8.0 D(AB)E= max {dAE, dBE}= dAE = 8.0 Dengan demikian terbentuk matriks jarak yang baru ABCDE AB0.05.08.08.0 C5.00.04.06.0 D8.04.00.02.0 E8.06.02.00.0 3.Mencari obyek dengan jarak terdekat. DdanEmempunyaijarakterdekatyaitu2.0makaobyekDdanEbergabung menjadi satu cluster 4.Menghitung jarak antar cluster dengan obyek lainnya. D(AB)C = 5.0 D(AB)(DE) = max {dAD, dAE, dBD, dBE} = dAE = dBD = 8.0 D(DE)C = max {dCD, dCE}= dCE = 6.0 5.Maka terbentuklah matriks jarak yang baru, yaitu : ABCDE AB0.05.08.0 C5.00.06.0 DE8.06.00.0 6.MencarijarakterdekatantaraclusterdenganobyekdandiperolehobyekC bergabung dengan cluster AB 7.PadalangkahyangterakhirclusterABCbergabungdenganDEsehingga terbentuk cluster tunggal. c)Average linkage methods ( between groups methods) Metode ini mengikuti prosedur yang sama dengan kedua metode sebelumnya. Prinsip ukuranjarakyangdigunakanadalahjarakrata-rataantartiappasanganobyekyang mungkin Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu : ABCDE A0.01.05.06.08.0 B1.00.03.08.07.0 C5.03.00.04.06.0 D6.08.04.00.02.0 E8.07.06.02.00.0 Langkah penyelesaiannya : 1.Mencari obyek dengan jarak minimum AdanBmempunyaijarakterdekat,yaitu1,0makaobyekAdanBbergabung menjadi satu cluster. 2.Menghitung jarak antara cluster AB dengan obyek lainnya d(AB)C =max {dAC, dBC}=dAC =5,0 d(AB)D =max {dAD, dBD}=dBD =8,0 d(AB)E =max {dAE, dBE}=dAE =8,0 Dengan demikian terbentuk matriks jarak yang baru : ABCDE AB 0.05.08.08.0 C5.00.04.06.0 D8.04.00.02.0 E8.06.02.00.0 3.Mencari obyek dengan jarak terdekat. DdanEmempunyaijarakterdekat,yaitu2,0makaobyekDdanEbergabung menjadi satu cluster. 4.Menghitung jarak antara cluster dengan obyek lainnya. d(AB)C= 4,0 d(AB)(DE)= 1/2{dAD, dAE, dBD, dBE} = 7,25 d(DE)C= 1/2{dCD, dCE,}= dCE =5,00 Maka terbentuklah matrik jarak yang baru, yaitu : ABCDE AB0.04.07.25 C4.00.05.00 DE7.255.00.00 5.MencarijarakterdekatantaraclusterdenganobyekdandiperolehobyekC bergabung dengan clster AB. 6.Padalangkahyangterakhir,clusterABCbergabungdenganDEsehingga terbentuk cluster tunggal. d)Wards error sum of squares methods Wardmengajukansuatumetodepembentukanclusteryangdidasariolehhilangnya informasi akibat penggabungan obyek menjadi cluster. Hal ini diukur dengan jumlah total dari deviasi kuadrat pada mean cluster untuk tiap observasi. Errorsumofsquares(ESS)digunakansebagaifungsiobyektif.Duaobyekakan digabungkan apabila mempunyai fungsi obyektif terkecil diantara kemungkinan yang ada.ESS = ( )2ij j2ijX n1 X Dengan Xij adalah nilai untuk obyek ke-i pada cluster ke-j. 2)Divisive Methods Metodedivisiveberlawanandenganmetodeagglomerative.Metodeinipertama-tama diawalidengansatuclusterbesaryangmencakupsemuaobservasi(obyek).Selanjutnya obyekyangmempunyaiketidakmiripanyangcukupbesarakandipisahkansehingga membentukclusteryanglebihkecil.Pemisahaninidilanjutkansehinggamencapai sejumlah cluster yang diinginkan.a)Splinter average distance methods Metode ini didasarkan pada perhitungan jarak rata-rata masing-masing obyek dengan obyekpadagrupsplinterdanjarakrata-rataobyektersebutdenganobyeklainpada grupnya.Prosestersebutdimulaidenganmemisahkanobyekdenganjarakterjauh sehinggaterbentuklanduagroup.Kemudiandibandingkandenganjarakrata-rata masing-masing obyek dengangroup splinter dengan groupnya sendiri. Apabila suatu obyekmempunyaijarakyanglebihdekatkegroupsplinterdaripadakegroupnya sendiri,makaobyektersebutharuslahdikeluarkandarigroupnyadandipisahkanke groupsplinter.Apabilakomposisinyasudahstabil,yaitujaraksuatuobyekke groupnyaselalulebihkecildaripadajarakobyekitukegroupsplinter,makaproses berhenti dan dilanjutkan dengan tahap pemisahan dalam group.Contoh :Terdapat matriks jarak antara 5 buah obyek, yaitu : ABCDE A01293231 B12092527 C9902324 D32252309 E31272490 Perhitungan : 1.Menghitung jarak rata-rata antar obyekA = (12+9+32+31) = 21D = (32+25+23+9) = 22.25 B = (12+9+25+27) = 18.25E = (31+27+24+9) = 22.75 C = (9+9+23+24) = 16.25 Terlihat bahwa E mempunyai nilai jarak terjauh, yaitu 22.75, maka E dipisahkan dari group utama dan membentuk group splinter. 2.Menghitung jarak rata-rata obyek dengan group utama dengan group splinter Obyek JarakRata-ratadengan Group Splinter (x) Jarak Rata-rata dengan Group Utama (y) x - y A3117.67-13.33 B2715.33-11.67 C2413.67-10.33 D926.6717.67 PadaD,jarakrata-ratadengangroupsplinterlebihdekatdaripadadengangroup utama.DengandemikianDharusdikeluarkandarigrouputamadanmasukke group splinter. 3.Perhitungan jarak rata-rata Obyek JarakRata-ratadengan Group Splinter (x) Jarak Rata-rata dengan Group Utama (y) x - y A31.510.5-21.0 B2610.5-15.5 C23.59.0-14.5 Karena jarak semua obyek ke group utama sudah lebih besar daripada jaraknya ke group splinter, maka komposisinya sudah stabil. METODE NON-HIRARKIBerbedadenganmetodehirarkikal,prosedurnonhirarkikal(K-meansClustering) dimulaidenganmemilihsejumlahnilaiclusterawalsesuaidenganjumlahyangdiinginkan dan kemudian obyek digabungkan ke dalam cluster-cluster tersebut. 1)Sequential Threshold Procedure Metode ini melakukan pengelompokan dengan terlebih dahulu memilih satu obyek dasar yangakandijadikannilaiawalcluster,kemudiansemuaobyekyangadadidalamjarak terdekatdenganclusteriniakanbergabunglaludipilihclusterkeduadansemuaobyek yangmempunyaikemiripandimasukkandalamclusterini.Demikianseterusnyahingga terbentuk beberapa cluster dengan keseluruhan obyek didalamnya. 2)Parallel Threshold Prosedure Secaraprinsipsamadenganprosedursequentialthreshold,hanyasajadilakukan pemilihanterhadapbeberapaobyekawalclustersekaligusdankemudianmelakukan penggabungan obyek ke dalamnya secara bersamaan. 3)OptimizingMerupakanpengembangandarikeduametodediatasdenganmelakukanoptimasipada penempatanobyekyangditukaruntukclusterlainnyadenganpertimbangankrteria optimasi. Tahap Kelima : Interpretasi terhadap Cluster Tahapinterpretasimeliputipengujiantiapclusterdalamtermuntukmenamaidan menandai dengan suatu label yang secara akurat dapat menjelaskan kealamian cluster. Membuatprofildaninterpretasiclustertidakhanyauntukmemperolehsuatugambaran sajamelainkanpertama,menyediakansuaturata-ratauntukmenilaikorespondensipada clusteryangterbentuk,kedua,profilclustermemberikan arahabagipenilainanterhadap signifikansipraktis.Namundemikianyangperludiperhatikanpadatahapaninterpretasi adalahkarakteristikyangmembedakanmasing-masingclustersehinggakitadapat memberikan label pada masing-masing cluster tersebut. Tahap Keenam: Proses Validasi dan Pembuatan Profil (profiling) Cluster A.Proses validasi solusi cluster Proses validasi bertujuan menjamin bahwa solusi yang dihasilkan dari analisis cluster dapatmewakilipopulasidandapatdigeneralisasiuntukobjeklain.Pendekatanini membandingkansolusiclusterdanmenilaikorespondensihasil.Terkadangtidak dapatdipraktekkankarenaadanyakendalawaktudanbiayaatauketidaktersediaan objek untuk analisis cluster ganda. B. Pembuatan Profil ( profiling) solusi cluster Tahap ini menggambarkan karakteristik tiap cluster untuk menjelaskan cluster-cluster tersebutdapatdapatberbedapadadimensiyangrelevan.Titikberatntapada karakteristikyangsecarasignifikanberbedaantarclustredanmemprediksianggota dalam suatu cluster khusus. 2.3. Studi Kasus FiziShopmerupakantokoyangbergerakdibidangretail.Pihakperusahaaningin meningkatkanpelayananterhadapkonsumenyangberkunjungmelaluiwebmereka. Denganmenyebarkankuesioner,danmenggunakanclustering,pihakperusahaaningin mengetahuiselerakonsumendanfaktorfaktoryangpalingberpengaruhterhadap kemajuan bisnisnya. Berikutadalahhasilkuesioneryangtelahdibagikankepada100konsumenyangtelah berkunjung ke toko. Data Kuesioner 1 : Data kuesioner 2 : Lakukanprosedurpengclusterandenganmenggunakanmetodehirarkidannon-hirarki! Tentukan berapa jumlah cluster yang terbentuk, dan analisislah hasil profilisasi customernya! NoNamaJenis Kelamin UsiaPekerjaanUang Keluar IntensitasLama Berlangganan 1Doni144444 2Hesti244445 3Rizka244442 4Sukma233232 5Windy244454 6Edo144454 7Mega234333 8Topan223323 9Desi143233 10Oky125312 11Taman133323 12Jesikha232422 13Puthut124213 14Latifah145121 15Evita143213 16Hifni224232 17Sardi222321 18Rangga135125 19Ajoex232122 20Woyo135425 no Nama kecepatan pelayanankelengkapan barangHarga Pemberian Promo/diskon Kenyamanan tempatLuas parkir1Pipit233432 2Minyak123451 3Vida145421 4Temon333333 5Karina555555 6Rinda344333 7Tetha434434 8Sinta343433 9Santo234342 10Prima344343 11Jatu122231 12Anggit223222 13Aldi333413 14Pari234432 15Nena232332 16Yosi115221 17Ipank334233 18Adib123221 19Vei322123 20Ines122221 KUISIONER 1 Nama: Jenis kelamin: Berilah tanda silang pada salah satu option berikut, sesuai dengan jawaban anda! 1.Berapakah usia anda saat ini? a. 16 tahun b.17 21 tahun c.22 30 tahun d.31 50 tahun e. 51 tahun2.Apakah profesi anda saat ini ? a. Pelajar b. Mahasiswa c. PNS d. Wiraswasta e. dll ____________3.Berapa banyak anda biasanya menghabiskan uang untuk berbelanja di toko retail SOGA?a. 20.000 b.20.001 50.000 c.50.001 100.000 d.100.001 - 250.000 e. 250.000 4.seberapa seringkah anda berbelanja di toko retail SOGA?a.Sangat sering b.sering c.sedang d.jarang e.jarang sekali5.Sudah berapa lama anda menjadi pelanggan di toko retail SOGA?a. 1 bulan b.2 4 bulan c.5 8 bulan d.9 11 bulan e. 12 tahun KUISIONER 2 Jawablah pertanyaan berikut dengan menberikan tanda silang sesuai tingkat kepuasan anda! NoPertanyaanSPPCPTPSTP 1Kecepatan pelayanan (X1) 2Kelengkapan barang (X2)3Harga yang ditawarkan (X3) 4Pemberian promo atau diskon (X4) 5Kenyamanan Tempat (X5) 6Luas Parkir (X6) Keterangan: -SP: sangat puas(1) -P: puas (2) -CP : cukup puas (3) -TP: tidak puas(4) -STP : sangat tidak puas(5) 2.4. Langkah Penyelesaian 1. Input Data ( Data View )P : nama respondenX : Variabel tingkat kepuasanY : varibel profilisasi NamaTipe Label Value measureP Nama respondenString Nama None NominalX Xi Xn Numeric Nama tiap variabelNone NominalY Yi Yn Numeric Nama tiap variabelNone Nominal 2.Clustering Metode Hirarki 1.Pilih analyze klik Clasify lelu pilih Hirarchical Cluster 2.Variabel : Letakkan semua Variabel yang valid 3.Label case by : Letakkan nama responden 4.Cluster : Case5.Display : statistic, plot6.Statistik : agglomeration schedule7.Plots : klik Dendogram8.I ccicle : none 9.Method : Cluster Method Pilih nearest neighbor measureInterval pilih Squared Euqliden Distance 10. Klik saveCluster membership : none 3.Profilisasi Costumer1.Pilih Analyze, klik Descriptive Statistik pilih crosstab2.Rows : Letakkan semua variabel profil ( variable Y )3.Coloumns : Cluster member 4.Statistik : Correlation 5.Cells : Counts : observedPercentage : total6.Format :Row order : ascending 2.5. DAFTAR PUSTAKA 1.Han,Jiawei.DataMiningConceptandTechnique.Presentation. http://www.cse.msu.edu/~cse980 2.Bertalya, Konsep Data Mining. Universitas Gunadarma, 2009. 3.Walpole, Ronald E. Probability and Statistics for Engineers and Scientists.