laporan_kelompok

15
 BAB I PENDAHULUAN 1.1 Lata r Be laka ng. Data Mining (DM) adalah salah satu bidang yang berkembang pesat karena  besarn ya kebu tuhan ak an nilai tambah dari d atabase s kala bes ar yang makin ban yak terakumulasi sejalan dengan pertumbuhan teknologi informasi. Definisi umum dari DM itu sendiri adalah ser ang kaia n pro ses unt uk men ggali nila i tamb ah ber upa  penge tahuan yang selama ini tidak diketahu i secara manual dari suatu kump ulan.  Mining berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah  besar material dasar. Karena itu DM sebenarnya memiliki akar yang panjang dari  bidang ilmu seperti kecerd asan buatan (artificial intelligent), machine learning,  statistic dan database . Beberapa teknik yang sering disebut-sebut dalam literatur DM antara lain : clustering, classification, association rule mining, neural network,  genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap DM adalah  perkembanga n teknik -teknik DM un tuk apl ikasi pad a databa se skala b esar. Se belum  popul ernya DM, teknik -teknik tersebut hanya dapat dipakai untuk data skala kecil saja. Data Clustering merupakan salah satu metode  Data Mining yang bersifat ta np a arahan (unsupervised ). Ada dua je nis da ta cl us te ri ng ya ng se ri ng dipergunakan dalam proses pengelompokan data yaitu hierarchical (hirarki) data clustering dan non-hierarchical (non hirarki) data clustering.  K-Means merupakan salah satu metode data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster atau kelompok. Metode ini mempartisi data ke dalam cluster atau kelompok sehingga data yang memiliki karakteristik ya ng sama di ke lomp okka n ke dal am sat u clu ste r ya ng sama dan da ta ya ng mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain . Ada pun tuju an dari dat a clu ster ing ini adal ah unt uk mem inimalis asik an obje ctiv e func tion ya ng di se t da lam pro ses cl us ter ing , ya ng pa da umumny a  berus aha memini malisasi kan variasi di dalam suatu cluster dan memaksimalisasikan variasi antar cluster.

Upload: arwiti-aja

Post on 19-Jul-2015

167 views

Category:

Documents


0 download

TRANSCRIPT

5/17/2018 laporan_kelompok - slidepdf.com

http://slidepdf.com/reader/full/laporankelompok 1/15

BAB I

PENDAHULUAN

1.1 Latar Belakang.

Data Mining (DM) adalah salah satu bidang yang berkembang pesat karena

 besarnya kebutuhan akan nilai tambah dari database skala besar yang makin banyak 

terakumulasi sejalan dengan pertumbuhan teknologi informasi. Definisi umum dari

DM itu sendiri adalah serangkaian proses untuk menggali nilai tambah berupa

 pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan.

 Mining  berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu DM sebenarnya memiliki akar yang panjang dari

 bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning,

 statistic dan database. Beberapa teknik yang sering disebut-sebut dalam literatur 

DM antara lain : clustering, classification, association rule mining, neural network,

 genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap DM adalah

 perkembangan teknik-teknik DM untuk aplikasi pada database skala besar. Sebelum

 populernya DM, teknik-teknik tersebut hanya dapat dipakai untuk data skala kecil

saja.

Data Clustering merupakan salah satu metode  Data Mining yang bersifat

tanpa arahan (unsupervised ). Ada dua jenis data clustering yang sering

dipergunakan dalam proses pengelompokan data yaitu hierarchical  (hirarki) data

clustering dan non-hierarchical (non hirarki) data clustering.  K-Means merupakan

salah satu metode data clustering non hirarki yang berusaha mempartisi data yang

ada ke dalam bentuk satu atau lebih cluster atau kelompok. Metode ini mempartisi

data ke dalam cluster atau kelompok sehingga data yang memiliki karakteristik 

yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang

mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang

lain. Adapun tujuan dari data clustering ini adalah untuk meminimalisasikan

objective function yang diset dalam proses clustering, yang pada umumnya

 berusaha meminimalisasikan variasi di dalam suatu cluster dan

memaksimalisasikan variasi antar cluster.

5/17/2018 laporan_kelompok - slidepdf.com

http://slidepdf.com/reader/full/laporankelompok 2/15

1.2 Rumusan Masalah.

Sesuai dengan latar belakang di atas, permasalahan yang timbul adalah

sebagai berikut.

1. Bagaimanakah metode K-Means Clustering itu?

1.3 Batasan Masalah.

Mengingat luasnya jangkauan masalah diatas, laporan ini dibatasi

 berdasarkan hal-hal sebagai berikut.

1 Pengertian Clustering.2 Pengertian K-Means.

3 Contoh perhitungan k-means.

1.4 Tujuan.

Dari rumusan masalah di atas, tujuan yang ingin dicapai adalah sebagai

 berikut..

1. Mengetahui dan memahami metode Clustering  dalam data mining

khususnya K-Means Clustering .

2

5/17/2018 laporan_kelompok - slidepdf.com

http://slidepdf.com/reader/full/laporankelompok 3/15

BAB II

PEMBAHASAN

Definisi sederhana dari data mining  adalah ekstraksi informasi atau pola

yang penting atau menarik dari data yang ada di database yang besar (Yudho,

2003:1). Dalam jurnal ilmiah, data mining  juga dikenal dengan nama Knowledge

 Discovery in Databases (KDD). Menurut Taufik Abidin, data mining atau juga

dikenal dengan sebutan knowledge discovery in database lahir karena data yang

terkumpul sekarang ini sudah mencapai terrabyte (1000 gigabytes). Data mining

merupakan proses mencari pola-pola menarik dalam data.

Beberapa teknik yang sering disebut-sebut dalam literatur DM antara lain :

Clustering, Classification, Association Rule Mining (ARM), Neural Network,

Genetic Algorithm dan lain-lain.

2.1 Classification.

Classification adalah proses untuk menemukan model atau fungsi yang

menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat

memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu

sendiri bisa berupa aturan “jika-maka”, berupa decision tree, formula matematis

atau neural network .

 Decision tree adalah salah satu metode classification yang paling populer 

karena mudah untuk diinterpretasi oleh manusia. Algoritma decision tree yang

 paling terkenal adalah C4.5, tetapi akhir-akhir ini telah dikembangkan algoritma

yang mampu menangani data skala besar yang tidak dapat ditampung di main

memori seperti  RainForest . Metode-metode classification yang lain adalah

 Bayesian, neural network, genetic algorithm, fuzzy, case-based reasoning, dan

k-nearest neighbor .

Proses classification biasanya dibagi menjadi dua fase : learning dan test .

Pada fase learning , sebagian data yang telah diketahui kelas datanya diumpankan

untuk membentuk model perkiraan. Kemudian pada fase test  model yang sudah

terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model

3

5/17/2018 laporan_kelompok - slidepdf.com

http://slidepdf.com/reader/full/laporankelompok 4/15

tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data

yang belum diketahui.

2.2 Clustering.

Berbeda dengan association rule mining dan classification dimana kelas data

telah ditentukan sebelumnya, clustering  melakukan pengelompokan data tanpa

 berdasarkan kelas data tertentu. Pengklasteran (clustering) merupakan salah satu

 bentuk dari proses pembelajaran data yang tidak terbimbing, dimana obyek yang

akan dikelompokkan tidak memiliki label atau tanda. Klasterisasi berupaya untuk 

melakukan pengaturan agar obyek yang dikelompokkan berada dalam kelompok 

yang anggotanya serupa atau homogen. Clustering  dapat didefinisikan sebagai

 proses mengelompokkan sekumpulan objek sedemikian hingga objek dalam satu

grup lebih serupa karakteristiknya dibandingkan dengan objek-objek di grup-grup

yang lain. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data

yang belum diketahui. Karena itu clustering  sering digolongkan sebagai metode

unsupervised learning . Analisa grup sangat bermanfaat untuk mengetahui dan

memahami distribusi data dan sering sekali digunakan sebagai proses awal sebelum

teknik-teknik data mining lain digunakan.

Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu

kelas dan meminimumkan kesamaan antar kelas atau cluster . Clustering  dapat

dilakukan pada data yang memiliki beberapa atribut yang dipetakan sebagai

multidimensi. Secara garis besar teknik-teknik clustering dapat dikategorikan dalam

2 kelompok. Teknik  clustering  berdasarkan hirarki (hierarchy-based) dan

 berdasarkan partisi ( Distance-based ).

 Hierarchy-based clustering  terbagi menjadi 2 jenis yaitu agglomerative dan

divisive. Pendekatan secara agglomerative (bottom-up) memulai clustering dengan

mengambil setiap objek sebagai objek yang terpisah satu sama lainnya dan

menggabungkannya satu persatu berdasarkan suatu metric (measurement ) atau lebih

singkatnya menggabungkan cluster kecil menjadi cluster  lebih besar. Sebaliknya,

divisive (top-down) memulai clustering dengan menganggap bahwa semua objek 

 berada dalam satu cluster kemudian memecahkannya satu persatu sehingga pada

4

5/17/2018 laporan_kelompok - slidepdf.com

http://slidepdf.com/reader/full/laporankelompok 5/15

akhirnya setiap objek merupakan suatu cluster  tersendiri atau dengan kata lain

memecah cluster besar menjadi cluster yang lebih kecil.

 Nonhierarchical  atau  partitional clustering  membuat clusters dalam satu

langkah sebagai lawan dari beberapa langkah. Hanya satu set clusters yang dibuat,

walaupun beberapa set berbeda dari cluster mungkin dibuat secara internal dengan

 berbagai algoritma. Masalah dengan algoritma  partitional adalah mereka berbeda

dari combinatorial explosion dalam kaitan dengan banyaknya kemungkinan

 pemecahan masalah.

Banyak algoritma clustering  memerlukan fungsi jarak untuk mengukur 

kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam atribut

yang dimiliki data. Beberapa kategori algoritma clustering  yang banyak dikenal

adalah metode partisi dimana pemakai harus menentukan jumlah k  partisi yang

diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi.

2.3 K-Means Clustering.

K-means adalah suatu iterasi algoritma clustering dimana items

dipindahkan antar set clustering sampai set yang diinginkan tercapai. Seperti yang

dijelaskan bagian sebelumnya,  K-Means merupakan salah satu metode data

clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk 

satu atau lebih cluster . Metode ini mempartisi data ke dalam cluster sehingga data

yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang

sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke

dalam kelompok yang lain. Adapun tujuan dari data clustering  ini adalah untuk 

meminimalisasikan objective function yang diset dalam proses clustering, yang

 pada umumnya berusaha meminimalisasikan variasi di dalam suatu cluster  danmemaksimalisasikan variasi antar cluster . Data clustering menggunakan metode K-

 Means ini secara umum dilakukan dengan algoritma dasar sebagai berikut:

5

5/17/2018 laporan_kelompok - slidepdf.com

http://slidepdf.com/reader/full/laporankelompok 6/15

 K-means Algorithm

 Input: D = (t 1 , t 2 ,…...,t n ) // Set of elements

 K // Number of desired clusters

Output:

 K // Set of clusters

 K-means algoritma:

assign initial values for means m1 ,m2 ,…..mk ;

repeat 

assign each item t 1 to the cluster which has the closest mean;

calculate new mean for each cluster;

until convergence criteria is met;

Penjelasan Algoritma K-Means

1. Tentukan jumlah cluster 

2. Alokasikan data ke dalam cluster secara random

3. Hitung centroid  rata-rata dari data yang ada di masing-masing

cluster 

4. Alokasikan masing-masing data ke centroid /rata-rata terdekat

5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai centroid .

 Distance space diimplementasikan dalam menghitung jarak (distance)

antara data dan centroid termasuk di antaranya L1 ( Manhattan/City Block ) distance

 space[9], L2 ( Euclidean) distance space[3], dan Lp (Minkowski) distance space[9].

Jarak antara dua titik  x1 dan x2 pada Manhattan/City Block distance space dihitung

dengan menggunakan rumus sebagai berikut:

(1)

dimana:

 p : Dimensi data

| . | : Nilai absolut

Sedangkan untuk  L2 ( Euclidean) distance space, jarak antara dua titik dihitung

menggunakan rumus sebagai berikut[3]:

6

5/17/2018 laporan_kelompok - slidepdf.com

http://slidepdf.com/reader/full/laporankelompok 7/15

(2)

dimana:

 p : Dimensi data

 Lp ( Minkowski) distance space yang merupakan generalisasi dari beberapa

distance space yang ada seperti  L1 ( Manhattan/City Block ) dan  L2 ( Euclidean),

 juga telah diimplementasikan. Tetapi secara umum distance space yang sering

digunakan adalah  Manhattan dan  Euclidean.  Euclidean sering digunakan karena

 penghitungan jarak dalam distance space ini merupakan jarak terpendek yang bisa

didapatkan antara dua titik yang diperhitungkan, sedangkan  Manhattan sering

digunakan karena kemampuannya dalam mendeteksi keadaan khusus seperti

keberadaaan outliers dengan lebih baik.

Ada dua cara pengalokasian data kembali ke dalam masing-masing cluster 

 pada saat proses iterasi clustering . Kedua cara tersebut adalah pengalokasian

dengan cara tegas (hard ), dimana data item secara tegas dinyatakan sebagai anggota

cluster yang satu dan tidak menjadi anggota cluster lainnya, dan dengan cara fuzzy,

dimana masing-masing data item diberikan nilai kemungkinan untuk bisa

 bergabung ke setiap cluster yang ada. Kedua cara pengalokasian tersebut

diakomodasikan pada dua metode  Hard K-Means dan Fuzzy K-Means. Perbedaan

di antara kedua metode ini terletak pada asumsi yang dipakai sebagai dasar 

 pengalokasian.

 Hard K-Means

Pengalokasian kembali data ke dalam masing-masing cluster dalam metode  Hard 

 K-Means didasarkan pada perbandingan jarak antara data dengan centroid  setiap

cluster yang ada. Data dialokasikan ulang secara tegas ke cluster yang mempunyai

centroid terdekat dengan data tersebut. Pengalokasian ini dapat dirumuskan sebagai

 berikut:

7

5/17/2018 laporan_kelompok - slidepdf.com

http://slidepdf.com/reader/full/laporankelompok 8/15

(3)

dimana:

ik a : Keanggotaan data ke-k ke cluster ke-i

i v : Nilai centroid cluster ke-i

 Fuzzy K-Means

Metode  Fuzzy K-Means (atau lebih sering disebut sebagai  Fuzzy C-Means)

mengalokasikan kembali data ke dalam masing-masing cluster  dengan

memanfaatkan teori  Fuzzy. Teori ini mengeneralisasikan metode pengalokasian

yang bersifat tegas (hard ) seperti yang digunakan pada metode  Hard K-Means.

Dalam metode  Fuzzy K-Means dipergunakan variable membership function, ik u ,

yang merujuk pada seberapa besar kemungkinan suatu data bisa menjadi anggota ke

dalam suatu cluster. Pada  Fuzzy K-Means yang diusulkan oleh Bezdek,

diperkenalkan juga suatu variabel m yang merupakan weighting exponent  dari

membership function. Variabel ini dapat mengubah besaran pengaruh dari

membership function, ik u, dalam proses clustering menggunakan metode Fuzzy K-

 Means. m mempunyai wilayah nilai m>1. Sampai sekarang ini tidak ada ketentuan

yang jelas berapa besar nilai m yang optimal dalam melakukan proses optimasi

suatu permasalahan clustering. Nilai m yang umumnya digunakan adalah 2.

 Membership function untuk suatu data ke suatu cluster tertentu dihitung

menggunakan rumus sebagai berikut:

(4)

dimana:

ik u : Membership function data ke-k ke cluster ke-i

i v : Nilai centroid cluster ke-i

m : Weighting Exponent 

 Membership function, ik u , mempunyai wilayah nilai 0≤ ik u ≤1. Data item yang

mempunyai tingkat kemungkinan yang lebih tinggi ke suatu kelompok akan

8

5/17/2018 laporan_kelompok - slidepdf.com

http://slidepdf.com/reader/full/laporankelompok 9/15

mempunyai nilai membership function ke kelompok tersebut yang mendekati angka

1 dan ke kelompok yang lain mendekati angka 0.

Diagram Aktivitas K-Means Clustering.

2.4 K-Means Numerical Example.

Misalkan kita memiliki beberapa objek (4 jenis obat-obatan) dan obyek 

masing-masing memiliki dua atribut atau fitur seperti yang ditunjukkan dalam tabel

di bawah ini. Tujuan pengelompokan adalah kelompok benda-benda ke dalam K =

2 kelompok obat yang didasarkan pada dua fitur (pH dan indeks berat).

Object attribute 1 (X): weight index attribute 2 (Y): pHMedicine A 1 1

Medicine B 2 1

Medicine C 4 3

Medicine D 5 4

Setiap obat merupakan salah satu titik dengan dua atribut (X, Y) yang kita dapat

merepresentasikan sebagai koordinat dalam ruang atribut seperti yang ditunjukkan

 pada gambar di bawah ini.

9

5/17/2018 laporan_kelompok - slidepdf.com

http://slidepdf.com/reader/full/laporankelompok 10/15

Gambar 1.

1. nilai awal dari centroid: Misalkan kita menggunakan obat A dan obat B sebagai

centroid pertama. Biarkan c1 dan c2 menunjukkan koordinat dari centroid, lalu

c1 (1,1) dan c2 (2,1).

Gambar 2.

2. Objek-centroid jarak: kami menghitung jarak antara cluster centroid untuk tiap

objek. Mari kita gunakan jarak Euclidean, maka kita memiliki matriks jarak 

 pada iterasi 0 adalah

10

5/17/2018 laporan_kelompok - slidepdf.com

http://slidepdf.com/reader/full/laporankelompok 11/15

Setiap kolom dalam matriks jarak melambangkan objek. Baris pertama dari

matriks jarak sesuai dengan jarak tiap objek ke centroid pertama dan baris

kedua adalah jarak tiap objek ke centroid kedua. Sebagai contoh, jarak dari

obat C = (4, 3) untuk centroid yang pertama c1 (1,1) adalah

dan dengan jarak ke pusat kedua c2 (2,1) adalah

dan seterusnya.

3. Objek clustering: Kami menetapkan setiap obyek berdasarkan jarak minimal.

Jadi, obat A diberikan untuk kelompok 1, B obat untuk kelompok 2, C obat ke

grup 2 dan obat D untuk kelompok 2. Unsur Grup matriks di bawah ini adalah

1 jika dan hanya jika objek diberikan ke grup tersebut.

4. Iterasi-1, menentukan centroid: Mengetahui anggota masing-masing kelompok,

sekarang kita menghitung centroid baru setiap kelompok berdasarkan

keanggotaan baru ini. Kelompok 1 hanya memiliki satu anggota centroid

sehingga tetap. Grup 2 kini memiliki tiga anggota, sehingga centroid adalah

rata-rata koordinasi antara tiga anggota yaitu:

11

5/17/2018 laporan_kelompok - slidepdf.com

http://slidepdf.com/reader/full/laporankelompok 12/15

Gambar 3.

5. Iterasi-1, Obyek-centroid jarak: Langkah selanjutnya adalah menghitung jarak 

dari semua obyek ke centroid baru. Serupa dengan langkah 2, kita telah matriks

 jarak pada iterasi 1 adalah

6. Iterasi-1, clustering Objects: Serupa dengan langkah 3, kita memberikan setiap

obyek berdasarkan jarak minimal. Berdasarkan matriks jarak yang baru, kita bergerak B obat ke grup 1 sementara semua benda lainnya tetap. Grup matriks

ditunjukkan di bawah ini

7. Iterasi 2, menentukan centroid: Sekarang kita ulangi langkah 4 untuk 

menghitung koordinat centroid baru berdasarkan pengelompokan iterasi

12

5/17/2018 laporan_kelompok - slidepdf.com

http://slidepdf.com/reader/full/laporankelompok 13/15

sebelumnya. Group1 dan kelompok 2 keduanya memiliki dua anggota,

sehingga centroid baru dan

Gambar 4.

8. Iterasi-2, Benda-centroid jarak: Ulangi langkah 2 lagi, kita telah jarak baru

matriks pada iterasi 2 sebagai

9. Iterasi-2, Objek clustering: Sekali lagi, kita memberikan setiap obyek 

 berdasarkan jarak minimal.

13

5/17/2018 laporan_kelompok - slidepdf.com

http://slidepdf.com/reader/full/laporankelompok 14/15

10. Kami mendapatkan hasil itu G1=G2. Membandingkan pengelompokan iterasi

terakhir dan iterasi ini menunjukkan bahwa benda-benda tidak bergerak lagi

kelompok. Dengan demikian, perhitungan pengelompokan k-berarti telah

mencapai stabilitas dan tidak iterasi lebih dibutuhkan. Kami mendapatkan hasil

 pengelompokan akhir sebagai berikut.

Object attribute 1 (X):

weight index

attribute 2 (Y):

 pH

Group

(Result)

Medicine A 1 1 1

Medicine B 2 1 1

Medicine C 4 3 2

Medicine D 5 4 2

14

5/17/2018 laporan_kelompok - slidepdf.com

http://slidepdf.com/reader/full/laporankelompok 15/15

BAB III

PENUTUP

3.1 Simpulan.

Clustering dapat didefinisikan sebagai proses mengelompokkan sekumpulan

objek sedemikian hingga objek dalam satu grup lebih serupa karakteristiknya

dibandingkan dengan objek-objek di grup-grup yang lain. Prinsip dari clustering 

adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan

kesamaan antar kelas atau cluster . K-means adalah suatu iterasi algoritma clustering

dimana items dipindahkan antar set clustering sampai set yang diinginkan tercapai.

 K-Means merupakan salah satu metode data clustering non hirarki yang berusaha

mempartisi data yang ada ke dalam bentuk satu atau lebih cluster . Metode ini

mempartisi data ke dalam cluster sehingga data yang memiliki karakteristik yang

sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai

karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain. Adapun

tujuan dari data clustering ini adalah untuk meminimalisasikan objective function

yang diset dalam proses clustering, yang pada umumnya berusaha

meminimalisasikan variasi di dalam suatu cluster dan memaksimalisasikan variasi

antar cluster.

15