bab 2 tinjauan pustaka -...
TRANSCRIPT
5
Bab 2
Tinjauan Pustaka
2.1 Penelitian Terdahulu
Adapun penelitian terdahulu yang berkaitan dalam
penelitian ini berjudul “Penentuan Wilayah Usaha Pertambangan
Menggunakan Metode Fuzzy K-Mean Clustering Berbasis Sistem
Informasi Geografi”. Pada penelitian ini, metode Fuzzy K-Mean
Clustering diterapkan pada penentuan wilayah usaha
pertambangan di Kabuapten Trenggalek, Jawa Timur. Hasil dari
penerapan metode tersebut adalah segmentasi wilayah usaha
pertambangan yang dapat menggambarkan karakteristik bahan
galian pada setiap kelompoknya, sehingga selain dapat
mempermudah penetapan rencana umum tata ruang daerah dalam
pengalokasian wilayah usaha pertambangan bahan galian, hasil
segmentasi ini juga dapat mempermudah peminat dan pelaku
usaha tambang dalam memilih wilayah kegiatan usaha tambang
yang prospek di Kabupaten Trenggalek, Jawa Timur (Suryana,
2010).
Penelitian yang berjudul “Sistem Market Basket Untuk
Menentukan Tata Letak Produk Pada Suatu Swalayan
Menggunakan Algoritma K-Means Clustering” juga merupakan
salah satu penilitian yang berkaitan dengan penilitian ini. Market
basket analysis adalah salah satu teknik data mining yang dapat
menemukan pola yang berupa produk-produk yang sering dibeli
bersamaan dalam sebuah transaksi. Dalam penelitian tersebut,
6
dijelaskan bagaimana market basket analysis dengan
menggunakan Algoritma K-Means clustering berdasarkan
kebiasaan konsumen berbelanja untuk menghasilkan suatu model
tata letak produk. Algoritma K-Means clustering digunakan
untuk membagi data ke dalam cluster sehingga data yang
memiliki karakteristik yang sama dikelompokkan ke dalam satu
cluster yang sama dan data yang mempunyai karakteristik
berberda dikelompokkan ke dalam cluster lain. Hasil dari
penelitian tersebut adalah sebuah model tata letak produk yang
dapat digunakan oleh pihak manajemen swalayan (Sebayang,
2012).
Penelitian lain yang berkaitan dalam penelitian ini
berjudul “Implementasi Metode Heatmap 2-D Untuk Visualisasi
Data Terdistribusi”. Penelitian ini membuat aplikasi sebagai alat
bantu untuk menampilkan data terdistribusi dalam bentuk visual
sehingga lebih menarik dan mudah dibaca. Adapun aplikasi ini
dibuat dengan tujuan mempermudah pengguna dalam mencari
data dalam basis data XML serta mudah dalam mengambil
kesimpulan dan atau keputusan manajerial (Lisana dan Praman,
2013).
Mengacu pada penelitian terdahulu, maka akan dilakukan
penelitian yang berjudul Perancangan dan Implementasi
Clustering Data Menggunakan Algoritma K-Means Berbasis
Heatmap. Dalam penelitian ini, data yang akan dikelompokkan
7
adalah potensi bahan tambang di Provinsi Papua Barat kemudian
disajikan dalam sebuah aplikasi web menggunakan Heat Map.
2.2 Clustering
Clustering merupakan salah satu teknik dalam data
mining. Clustering membagi objek ke dalam kelompok atau
cluster tertentu, sehingga objek dalam suatu cluster memiliki
kemiripan dengan objek lain dalam cluster yang sama dan
berbeda dengan objek pada cluster yang lain. Kemiripan objek
umumnya didefinisikan berdasarkan jarak kedekatan antar objek
yang ditentukan melalui fungsi jarak (Han dkk, 2011).
Gambar 2.1 Clustering Dalam Ruang Dua Dimensi.
(a) Inisialisasi Data;(b) Data dalam tiga cluster;
(c) Data dalam empat cluster (Kantardzic, 2011)
Pada Gambar 2.1 terdapat sembilan objek yang akan
dikelompokkan. Gambar 2.1(b) menggambarkan kesembilan
objek tersebut dikelompokkan menjadi tiga cluster, objek yang
saling berdekatan dikelompokkan dalam satu cluster yang sama.
8
Sedangkan pada Gambar 2.1(c), terlihat kesembilan objek yang
ada dikelompokkan menjadi empat cluster.
Clustering telah diterapkan pada beberapa bidang seperti
berikut ini (Zaiane, 2007):
1. Bidang Pemasaran
Dalam bidang pemasaran, algoritma clustering digunakan
untuk membantu menemukan perbedaan kelompok pelanggan
dan kemudian mengembangkan program pemasaran yang
ditargetkan.
2. Bidang Biologi
Algoritma clustering ini digunakan dalam bidang biologi
untuk menemukan gen-gen yang memiliki fungsi yang serupa
untuk digolongkan menjadi suatu cluster tertentu.
3. Bidang Land Use
Algoritma clustering ini digunakan dalam bidang land use
untuk mengidentifikasi bidang tanah yang sama yang digunakan
dalam pengamatan bumi.
4. Bidang Asuransi
Algoritma clustering ini digunakan dalam bidang asuransi
untuk mengidentifikasi kelompok pemegang polis asuransi motor
dengan rata-rata klaim biaya yang tinggi.
5. Bidang Perencanaan Tata Kota
Algoritma clustering ini digunakan dalam bidang
perencanaan tata kota untuk mengidentifikasi kelompok dari
rumah ke rumah sesuai jenis, nilai dan geografis lokasi.
9
Secara umum metode clustering dapat dibagi menjadi
beberapa kategori, antara lain metode parsial dan metode hirarki
(Han dkk, 2011).
1. Metode Parsial
Metode parsial adalah metode clustering yang sederhana
dan merupakan konsep dasar dari analisis cluster. Metode parsial
mengorganisir sejumlah data tertentu ke dalam kelompok yang
lebih spesifik atau cluster. Jumlah cluster yang diberikan
merupakan parameter dalam untuk memulai metode parsial.
Secara formal, pemberian sejumlah data (D) dari n objek
dan jumlah cluster (K) untuk melakukan proses clustering.
Sebuah algortima partisi mengorganisir objek ke dalam partisi K
dengan K ≤ n, sehingga setiap partisi mewakili sebuah cluster.
Cluster dibentuk untuk mengoptimalkan sebuah tujuan
pembagian kriteria, seperti fungsi perbedaan berdasarkan jarak,
sehingga objek dalam satu cluster mirip dengan objek lain dalam
cluster tersebut, dan berbeda dengan objek di cluster lain.
Algoritma yang sering digunakan dalam metode parsial ini adalah
algoritma K-Medoids dan K-Means.
2. Metode Hirarki
Metode hirarki dalam clustering mengelompokkan objek
data ke dalam sebuah hirarki atau pohon cluster. Menampilkan
objek data dalam bentuk sebuah hirarki berguna untuk
penyimpulan atau peringkasan serta penyajian data. Sebagai
contoh, seorang manajer sumber daya manusia di perusahaan X
10
dapat mengatur karyawannya ke dalam kelompok besar seperti
eksekutif, manajer dan staf. Selain itu, pengelompokkan tersebut
dapat dilanjutkan menjadi sub kelompok yang lebih kecil.
Misalnya untuk kelompok umum untuk semua staf dapat dibagi
menjadi sub kelompok pegawai senior, pegawai dan pegawai
yang masih dalam masa percobaan. Setelah melakukan
pengelompokkan, maka sebuah hirarki dapat terbentuk.
Berdasarkan hirarki tersebut, proses penarikan kesimpulan atau
klasifikasi data dapat dilakukan dengan mudah.
2.3 Euclidean Distance
Euclidean distance adalah metrika yang sering digunakan
untuk menghitung kesamaan dua vektor. Euclidean distance
menghitung akar dari kuadrat perbedaan dua vektor. Rumus
Euclidean distance adalah sebagai berikut (Putra, 2010) :
√∑( )
Gambar 2.2 Rumus Euclidean Distance (Putra, 2010)
dengan :
= distance
= 1, 2, 3, ……, p
= 1, 2, 3, ……, p
= merepresentasikan nilai atribut
= dimensi data
= objek data
11
Berikut ini adalah contoh penggunaan rumus Euclidean
distance :
Terdapat dua vektor A dan B, vektor A = [0, 3, 4, 5] dan
vector B = [7, 6, 3, -1]. Euclidean distance dari vector A dan B
adalah :
√( ) ( ) ( ) ( )
√( ) ( ) ( ) ( ( ))
√( ) ( ) ( ) ( )
√
√
Semakin besar jarak antara dua vektor, maka tingkat
kesamaan atau kemiripannya kecil. Sebaliknya, semakin kecil
jarak antara dua vektor, maka tingkat kesamaan atau
kemiripannya besar.
2.4 Algoritma K-Means
Algoritma K-Means merupakan salah satu teknik
pengelompokan data yang sering digunakan. K-Means
mengelompokkan objek yang mirip dalam cluster yang sama.
Gambaran umum dari algoritma tersebut adalah sebagai berikut
(Aggarwal & Reddy, 2013) :
1. Menentukan nilai K atau jumlah cluster yang diinginkan
serta menentukan centroid atau pusat cluster. Centroid
12
ditentukan secara acak dari objek data yang ada sesuai
dengan nilai K, jika nilai K adalah dua maka centroid
yang ditentukan juga dua.
2. Membagi setiap objek ke dalam cluster yang paling mirip.
Cluster yang paling mirip adalah cluster dengan centroid
terdekat. Perhitungan kedekatan antara objek dengan
centroid dapat dilakukan menggunakan fungsi jarak,
seperti Euclidean Distance.
3. Menghitung ulang K cluster dengan rata-rata dari semua
objek yang diberikan untuk tiap cluster.
4. Ulangi langkah kedua dan ketiga sampai tidak ada lagi
objek yang berpindah cluster.
2.5 Heatmap
Heatmap digunakan untuk menggambarkan distribusi dan
kepadatan titik pada peta. Heatmap memudahkan viewer untuk
memahami distribusi dan intensitas relatif titik data pada peta.
Distribusi data pada Heatmap diwakilkan menggunakan warna
(Google, 2014).