implementasi algoritma k-means dalam menentukan barang yang laris-libre
DESCRIPTION
PengpolTRANSCRIPT
-
IMPLEMENTASI ALGORITMA K-MEANS DALAM PENCATATAN BARANG YANG LAKU TERJUAL PADA CV.RUMAH DECOR
LAPORAN PRAKTEK KERJA LAPANGAN
TEKNIK INFORMATIKA STRATA 1
OLEH :
DEVID SUDIRMAN 11101152630262
DIKRI HIDAYATULLAH 11101152630263
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER
UNIVERSITAS PUTRA INDONESIA YPTK
PADANG
2014
-
21
LEMBAR PENGESAHAN PENGUJI
Devid Sudirman 1110115260262
Dikri Hidayatullah 1110115260263
PROGRAM STUDI TEKNIK INFORMATIKA
Praktek Kerja Lapangan ini telah dinyatakan LULUS oleh
Penguji Materi Program Studi Strata 1 Ilmu Komputer
Program Studi Teknik Informatika
Universitas Putra Indonesia YPTK Padang
Padang, Mei 2014
Mengetahui, Disetujui Oleh
Ketua Program Studi, Penguji Materi,
(Rini Sovia,S.kom,M.kom) (Eka Praja Wiyata Mandala,S.kom,M.kom)
NIDN : NIDN :
-
22
ABSTRACT
This report describe about Tanagra software application on data
mining.Tanagra is data mining software wivhcan be use to access some existing data
mining method.Data is built using excel with text type.This application use the
dataset of input.
In implementing this program algorithm test data used is the data item in the
RUMAH DEKOR.In this application,use in the application of clustering using K-
means algorithm.
Keyword : K-means,Clustering,Data Mining.
-
23
ABSTRAK
Laporan menjelaskan tentang aplikasi perangkat lunak tanagra pada data
mining. Tanagra adalah software data mining yang dapat digunakan untuk
mengakses beberapa metode data mining yang ada. Data dibangun menggunakan
excel deengan jenis teks data. Aplikasi ini menggunakan dataset input dataset input.
Dalam melaksanakan pengujian algoritma ini data yang dipakai adalah data
barang di CV.RUMAH DEKOR. Dalam penerapan ini, digunakan penerapan
clustering dengan menggunakan algoritma K-means.
Kata kunci : K-means, Clustering, Data Mining.
-
24
KATA PENGANTAR
Segala puji hanya milik Allah SWT. Shalawat dan salam selalu
tercurahkan kepada Rasulullah SAW. Berkat limpahan dan rahmat-Nya penulis
telah mampu menyelesaikan laporan praktek kerja lapangan.
Dalam penyusunan laporan ini, tidak sedikit hambatan yang kami hadapi.
Namun kami menyadari bahwa kelancaran dalam penyusunan materi ini tidak lain
berkat bantuan, dorongan dari berbagai pihak dan kami ucapkan terima kasih kepada
kepada berbagai pihak yang telah membantu kelancaran dalam penyelesaian laporan
praktek kerja lapangan ini, diantaranya:
1. Bapak H. Herman Nawas selaku ketua Yayasan Perguruan Tinggi
Komputer Padang.
2. Bapak Dr. Sarjon Defit,S.kom,M.sc selaku rektor Universitas Putra
Indonesia YPTK Padang.
3. Bapak Julius Santony,S.kom,M.kom selaku Dekan Fakultas Ilmu
Komputer.
4. Ibu Rini Sovia,S.kom,M.kom selaku Ketua Program Studi Teknik
Informatika.
5. Bapak Eka Praja Wiyata Mandala,S.kom,M.kom selaku Sekretaris
Program Studi Teknik Informatika dan pembimbing penulis dalam
menyelesaikan laporan praktek kerja lapangan (PKL) ini.
-
25
6. Orang Tua penulis yang selalu memberikan semangat dan dukungan
kepada penulis dalam penyelesaian laporan praktek kerja lapangan
(PKL) ini.
7. Teman-teman Teknik Informatika yang sama-sama memberikan
bantuan, masukan, dan sarannya demi penyelesaian laporan praktek
kerja laporan (PKL) ini.
Dan masih banyak lagi pihak-pihak lain yang tidak mungkin penulis
sebutkan satu persatu atas semua bantuan yang telah diberikan kepada penulis.
Penulis mengharapkan semoga laporan kerja lapangan (PKL) ini dapat
memberikan manfaat bagi penulis sendiri dan par pembaca. Semoga Allah SWT
selalu mencurahkan rahmat dan karunia-Nya kepada kita semua.
Padang ,Mei 2014
Penulis
-
26
DAFTAR ISI
HALAMAN JUDUL i
HALAMAN PENGESAHAN PENGUJI ii
ABSTRACT iii
ABSTRAK iv
KATA PENGANTAR v
DAFTAR ISI vii
DAFTAR GAMBAR x
DAFTAR TABEL xii
DAFTAR LAMPIRAN
BAB I PENDAHULUAN 1
1.1 Latar Belakang Masalah 1
1.2 Perumusan Masalah 1
1.3 Hipotesa 2
1.4 Batasan Masalah 2
1.5 Tujuan Penelitian 2
1.6 Manfaat Penelitian 2
1.7 Gambaran Umum Perusahaan 3
1.7.1 Latar Belakang CV.Rumah Decor 3
1.7.2 Visi dan Misi Toko Rumah Decor 3
1.7.3 Struktur Organisasi CV.Rumah Decor 5
BAB II LANDASAN TEORI 7
2.1 Konsep Dasar Data Mining 7
-
27
2.1.1 Defenisi Data Mining 7
2.1.2 Kategori Data Mining 7
2.1.3 Proses Data Mining 7
2.2 Clustering 9
2.2.1 Proses Clustering 9
2.2.2 Karakteristik Clustering 11
2.2.3 Metode Pengelompokan 13
2.2.4 Analisa Cluster 13
2.3 Algoritma K-Means 14
2.3.1 Defenisi K-Means 14
2.3.2 Proses K-Means 15
BAB III METODOLOGI PENELITIAN 17
3.1 Kerangka Penelitian 17
3.2 Tahapan Penelitian 18
3.2.1 Penelitian Pendahuluan 18
3.2.2 Pengumpulan Data 18
3.2.3 Analisa 18
3.2.4 Perancangan 19
3.2.5 Implementasi 19
3.2.6 Pengujian 19
BAB IV ANALISA DAN PERANCANGAN 20
4.1 Analisa Penjualan pada CV.Rumah Decor 20
4.2 Analisis Clustering dengan Algoritma K-Means 20
4.3 Perancangan dan Proses Clustering 22
-
28
BAB V IMPLEMENTASI DAN PENGUJIAN 29
5.1 Analisis Software Data mining Tanagra 1.4.50 29
5.1.1 Pengenalan Tampilan Dari Tanagra 29
5.1.2 Pengujian Sistem dan Penjelasan Bentuk data yang di olah 32
5.2 Panduan Penggunaan (User Guide) 32
5.3 Spesifikasi Minimum Software Data Mining Tanagra 1.4.50 33
5.4 Tahap Instalasi Software Tanagra 1.4.50 33
5.5 Pengujian Sistem dan Penjelasan 37
5.5.1 Input Dataset 37
5.5.2 Descriptive statistics 38
5.5.3 The Active Variables 40
5.5.4 K-Means 41
5.5.5 Interpretation Of Groups 43
5.5.6 Export Dataset 49
BAB VI PENUTUP 52
6.1 Kesimpulan 52
6.2 Keterbatasan Sistem 52
6.3 Saran 53
DAFTAR PUSTAKA 54
-
29
DAFTAR GAMBAR
Gambar 1.1 Struktur Organisasi CV.Rumah Decor 5
Gambar 2.1 Proses Data Mining 8
Gambar 2.2 Data Sebelum di Klasterisasi 10
Gambar 2.3 Klasterisasi Berdasarkan Kesamaan Warna 10
Gambar 2.4 Klasterisasi Berdasarkan Kesamaan Bentuk 10
Gambar 2.5 Klasterisasi Berdasarkan Kesamaan Jarak 11
Gambar 2.6 Karakteristik Klasterisasi 12
Gambar 3.1 Kerangka Penelitian 17
Gambar 4.1 Flowchart Proses K-Means 23
Gambar 5.1 Bentuk GUI 30
Gambar 5.2 Input Data 30
Gambar 5.3 Komponen Tanagra 31
Gambar 5.4 Diagram Tanagra 31
Gambar 5.5 Output Tanagra 31
Gambar 5.6 Tanagra 1.4.50 Setup 34
Gambar 5.7 License Agreemant 34
Gambar 5.8 Choose Install Location 35
Gambar 5.9 Ready to Install 35
Gambar 5.10 Installing Progres 36
Gambar 5.11 Tanagra 1.4.50 Finishing 36
Gambar 5.12 Input Dataset 37
Gambar 5.13 Data Description 38
Gambar 5.14 Define Status Define 1 Target 39
-
30
Gambar 5.15 Define Status 1 Input 39
Gambar 5.16 Tampilan UNIVARIATE CONT STAT 40
Gambar 5.17 Tampilan Standardize 41
Gambar 5.18 Define Status 2 Input 41
Gambar 5.19 Parameter K-Means 42
Gambar 5.20 View K-Means 42
Gambar 5.21 View Dataset 43
Gambar 5.22 Define Status 3 Target 44
Gambar 5.23 Define Status 3 input 44
Gambar 5.24 View Group Characterization 45
Gambar 5.25 Define Status 4 Target 45
Gambar 5.26 Define Status 4 Input 46
Gambar 5.27 View Contingensy Chi Square 1 47
Gambar 5.28 View Scatterplot 1 47
Gambar 5.29 Principal Component Analysis 48
Gambar 5.30 View Scatterplot 2 49
Gambar 5.31 Define Status 5 Input 50
Gambar 5.32 Parameters Export Dataset 1 50
Gambar 5.33 View Output 51
Gambar 5.34 Tampilan Output 51
-
31
DAFTAR TABEL
Tabel 2.1 Perbedaan Klasifikasi dan Klasterisasi 11
Tabel 4.1 Data penjualan yang akan di hitung 24
-
32
BAB I
PENDAHULUAN
1.1 Latar Belakang Masalah
Dengan kemajuan perekonomian yang sangat pesat pada saat sekarang ini
membuat orang-orang berlomba-belomba untuk meningkatkan fasilitas dalam
rumahnya. Banyak sekali toko-toko atau pun perusahaan-perusahaan yang menjual
berbagai macam fasilitas tersebut, salah satunya CV.Rumah Decor.
Dalam hal ini rumah decor menyediakan berbagai macam furnitur untuk
memperindah rumah seperti gorden, karpet, kursi, wallpaper dan lain sebagainya.
Semakin banyak nya konsumen yang selalu memesan barang-barang yang
disediakan membuat para karyawannya tidak sempat melakukan pencatatan terhadap
persediaan barang.
Sehingga menyebabkan para karyawan kebingungan dalam hal menyiapkan
laporan yang akan disampaikan kepada atasan nya terhadap penjualan yang terus
terjadi, dan tidak sedikit para karyawan yang mendapatkan teguran dari atasannya.
Maka dari itu kami menangkat judul diatas agar kami bisa membantu
menyelesaikan masalah yang di hadapi oleh toko Rumah Decor terkait dengan
pencatatan barang-barang yang laku terjual maupun barang-barang yang tidak laku
terjual agar atasannya bisa menerima data yang akurat.
1.2 Perumusan Masalah
Masalah yang akan diteliti berkaitan dengan proses pengolahan data
penjualan tentang bagaimana menghasilkan informasi serta pengetahuan yang
bermanfaat melalui software data mining menggunakan metode clustering dengan
algoritma K-means pada data penjualan dari CV.RUMAH DECOR.
-
33
1.3 Hipotesa
Pengolahan data penjualan berdasarkan jenis barang dengan menggunakan
Algoritma K-means ini diharapkan dapat membantu pihak CV.RUMAH DECOR
dalam proses pengolahan data.
1.4 Batasan Masalah
Batasan masalah yang digunakan dalam penelitian ini adalah:
1. Data penjualan yang akan diteliti tercatat pada tahun 2013.
2. Data yang diolah hanya sebagai sampel dengan software data mining yaitu
dengan data penjualan selama 1 tahun dengan atribut tertentu.
3. Metode Algoritma K-means dilakukan berdasarkan jenis barang yang
dipasarkan
4. Data yang diolah hanya data pembeliandalam bentuk cash atau tunai.
1.5 Tujuan Penelitian
Pelaksanaan praktek kerja lapangan ini bertujuan untuk :
1. Memberikan informasi kepada pihak CV.RUMAH DECOR di Padang
mengenai pengelompokan data penjualan berdasarkan jenis barang.
2. Mengetahui jenis barang yang dipasarkan dari waktu ke waktu.
3. Sebagai sarana belajar untuk mengetahui cara pengolahan data penjualan
pada sebuah software data mining.
1.6 Manfaat Penelitian
Manfaat dari penelitian dari praktek kerja lapangan ini adalah :
1. Dapat menjadi informasi dan pengetahuan baru bagi pihak CV.RUMAH
DECOR.
2. Sebagai sistem pendukung keputusan daalam menentukan karakteristik dari
jenis barang.
-
34
3. Dapat memberikan informasi bagi pihak CV.RUMAH DECOR tentang
penjualan yang dapat dalam pertahunnya.
1.7 Gambaran Umum Perusahaan
1.7.1 Latar Belakang CV.Rumah Decor
Di era pembangunan saat ini sangat dibutuhkan hadirnya tempat
tinggal yang berorientasi kepada kenyamanan serta keserasian antara
lingkungan dan rumah tinggal dalam hal konteks tersebut sangat dituntut
hadirnya tenaga profesinal untuk menangani penataan decorasi baik interior
maupun exterior. Kenyamanan lingkungan serta tempat tinggal yang tertata
dengan baik tidak terlepas dari keahlian yang profesional dalam penanganannya.
Penataan tempat tinggal yang rapi, dapat menimbulkan efek terhadap pikiran
serta kenyamanan bagi si penghuni. Adapun aspek lainnya menimbulkan
keindahan dilingkungan tempat tinggal tersebut.
Rumah Decor hadir di Padang untuk menjawab dari kebutuhan akan
penataan ruangan ( Interior ) yang didukung oleh tenaga tenaga professional
dibidangnya hingga menghadirkan apa yang menjadi idaman para penghuni
tempat tinggal. Dengan motto yang kami miliki Unggul Dalam Design dan
Mutu adalah motivator yang besar dalam memenuhi kepuasan pelanggan
1.7.2 Visi dan Misi Toko Rumah Decor
Visi :
1. Menjadikan perusahaan handal dan selalu menggali kemampuan
Sumber Daya Manusia
2. Selalu menjaga komitmen yang sudah digariskan perusahaan yaitu
Unggul Dalam Design dan Mutu.
-
35
3. Selalu menjaga Kualitas dan Disiplin Waktu
Misi :
1. Menciptakan Sumber Daya Manusia yang beriman dan bertaqwa
kepada Tuhan Yang Maha Esa dan Responsibility
2. Menjadikan karya yang dihasilkan selalu maksimal dan dapat
dinikmati pelanggan
3. Menggali kemampuan serta kineja yang terukur dan terarah sesuai
prosedur yang digariskan perusahaan
4. Meningkatkan pendapatan perusahaan serta Sumber Daya Manusia
yang mendukung setiap kegiatan perusahaan
-
36
1.7.3 Struktur Organisasi CV.Rumah Decor
Gambar 1.1 Struktur Organisasi CV.Rumah Decor
D i r e k t u r
David
General Manager
Ratulani Juwita, S.Pd
Mgr. Marketing
Susi Rahmatul F.
Mgr. Operasional
Dayat
Mgr. Keuangan Normalisa
Mgr. Produksi
Boy Alexa
Ass. Marketing 1 Titiek
Aan Fajar Bento Zul
Ismet Aini Riri Doni
Ass. Keu
Hayati
Raka Lina Listra Yusprina
-
37
BAB II
LANDASAN TEORI
2.1 Konsep Dasar Data Mining
2.1.1 Defenisi Data Mining
Data Mining merupakan proses pencarian pola dan relasi-relasi yang
tersembungi dalam sejumlah data yang besar dengan tujuan untuk melakukan
klasifikasi, estimasi, prediksi, association rule, clustering dan visualisasi.
2.1.2 Kategori Data Mining
Secara garis besar data mining dapat dikelompokan menjadi 2
kategori utama, yaitu :
1. Deskripsi Mining, yaitu proses untuk menemukan karakteristik
penting dari datta dalam suatu basis data. Teknik data mning yang
termasuk deskripsi mining adalah clustering, association, dan squental
mining.
2. Prediksi Mining, yaitu proses untuk menemukan pola dari data
dengan menggunakan variabel lain dimasa depan. Salah satu teknik
yang terdapat dalam prediksi mining adalah klasifikasi.
2.1.3 Proses Data Mining
Secara sederhana data mining biasa dikatakan sebagai proses
menyaring atau menambang pengetahuan dari sejumlah data yang sangat
besar. Istilah lain untuk data mining adalah Knowledge Discovery In
Database atau KDD. Walaupun sebenarnya data mining sendiri adalah bagian
dari tahapan proses dalam KDD seperti yang terlihat pada gambar :
-
38
Sumber : Jiawei Han dan Micheline kamber, Data mining: Concept and
Techniques,(San Fransisco: Morgan Kaufmann,2001).
Gambar 2.1. Proses Data Mining
Keterangan :
1. Database merupakan koleksi data yang saling berhubungan dipergunakan
secara bersama, dirancang untuk memenuhi kebutuhan informasi organisasi.
2. Pembersihan Data (Data Cleaning), pada tahap ini dilakukan pembersihan
data, meliputi data yang mengandung missing value dan data yang tidak
konsisten (inconsisten data) pada database. Keluaran tahapan ini adalah data
yang telah bersih dan siap digunakan pada proses selanjutnya, karena pada
daata mining hanya akan dapat menghasilkan nilai yang valid jika data telah
bersih. Jika ditemukan data yang mengandung missing value dan data yang
tidak konsisten lebih besar jumlahnya.
3. Integrasi Data (integration data), proses integrasi data dilakukan untuk
menggabungkan data yang sudah bersih dari missing value dan inconsistent
data dari berbagai sumber menjadi bentuk sebuah bentuk penyimpanan data
yang konheren, seperti data warehouse.
4. Task Relevan Data, tahap ini melakukan seleksi relevansi atribut dari data.
-
39
Setelah seleksi data, tahap selanjutnya adalah transformasi.
5. Data Mining, merupakan proses mengeksplorasi dan menganalisa daata
dalam jumlah yang besar yang bertujuan untuk menemukan suatu pola yang
menarik dari data yang tersimpan dalam jumlah besar dan aturan yang
berarti. Tahap ini merupakan inti dari tahapan KDD yang dilakukan untuk
menganalisis data yang telah dibersihkan.
6. Evalusi merupakan tahapan yang dikerjakan dalam penelitian dengan tujuan
untuk memperoleh informasi yang terdapat pada hasil data yang di proses
dari Algoritma K-means.
7. Knowledge, tahapan ini adalah penggunaan visualisasi untuk menunjukan
hasil dari pengolahan data kepada pengguna yang berupa model atau
karakteristik data sehingga mudah dipahami oleh pengguna.
2.2 Clustering
Clustering merupakan salah satu bagian dari teknik data mining yaitu
sekumpulan objek yang mempunyai kesamaan diantara anggotanya dan memiliki
ketidaksamaan dengan objek lain pada cluster lainnya, dengan kata lain sebuah
cluster adalah sekumpulan objek yang digabung bersama karena persamaan atau
kedekatannya.
2.2.1 Proses Clustering
Clustering adalah proses membuat pengelompokkan sehingga semua
anggota dari setiap partisi mempunyai persamaan berdasarkan matrik
tertentu.
Berikut menunjukkan contoh data yang akan dilakukan klasterisasi :
-
40
Gambar 2.2 Data Sebelum di Klasterisasi
Jika data dilakukan clustering (pengelompokkan) berdasarkan warna,
maka pengelompokkannya seperti yang terlihat pada gambar
Gambar 2.3 Klasterisasi Berdasarkan Kesamaan Warna
Jika data dilakukan clustering (pengelompokkan) berdasarkan bentuk,
maka pengelompokannya dapat dilihat seperti gambar
Gambar 2.4 Klasterisasi Berdasarkan Kesamaan Bentuk
Selain dengan menggunakan similaritas (kesamaan) berdasarkan
bentuk dan warna, clustering juga bisa dilakukan dengan menggunakan
similaritas berdasarkan jarak, artinya data yang memiliki jarak berdekatan
akan membentuk satu cluster, contohnya seperti dapat dilihat pada gambar
-
41
Gambar 2.5 Klasterisasi Berdasarkan Kesamaan Jarak
Ada beberapa perbedaan antara metode klasifikasi dan metode
clustering, dimana pada dasarnya terdapat tiga poin perbedaan yaitu :
data,label dan analisa hasil.
Perbedaan tersebut dapat ditabelkan seperti table berikut:
Tabel 2.1 Perbedaan Klasifikasi dan Klasterisasi
Data supervised pada klasifikasi artinya data melalui pembelajaran
terbimbing, sedangkan data unsupervised pada klasterisasi artinya data tidak
melalui pembelajaran terbimbing. Analisa hasil pada klasterisasi dinyatakan
dengan variance yang menunjukkan variansi data dalam satu cluster,
sedangkan klasifikasi analisa hasil diukur menggunakan rasio kesalahan
(error ratio). Pada dataset yang digunakan oleh klasifikasi terdapat satu
attribut (label) yang berfungsi sebagai attribut target, sedangkan dataset pada
klasterisasi tidak terdapat attribut (label) sebagai attribut target.
2.2.2 Karakteristik Clustering
Ada beberapa karakteristik dari clustering, masing-masing akan
dijelaskan berikut ini
-
42
1. Partitioning Clustering.
a. Disebut juga exclusive clustering
b. Setiap data harus termasuk dalam cluster tertentu
c. Memungkinkan bagi setiap data yang termasuk cluster tertentu pada
suatu tahapan proses, pada tahapan berikutnya berpindah ke cluster
yang lain. Contoh :K-Means, residual analysis.
2. Hierarchical Clustering.
a. Setiap data harus masuk ke dalam cluster tertentu
b. Suatu data yang masuk kedalam cluster tertentu pada suatu tahapan
proses, tidak dapat berpindah ke cluster lain. Contoh: Single Linkage,
Centroid Linkage, Complete Linkage
3. Overlapping Clustering.
a. Setiap data memungkinkan termasuk ke beberapa cluster
b. Data mempunyai nilai keanggotaan (membership) pada beberapa
cluster. Contoh : Fuzzy C-means, Gaussian Mixture
4. Hybrid merupakan kombinasi dari karakteristik partitioning, overlapping
dan hierarchical.
Sumber : Jiawei Han dan Micheline kamber, Data mining: Concept and
Techniques,(San Fransisco: Morgan Kaufmann,2001).
-
43
Gambar 2.6 Karakteristik Klasterisasi
2.2.3 Metode Pengelompokan
Metode pengelompokan pada dasarnya ada dua, yaitu metode
pengelompokan Hirarki (Hirarchical Clustering Method) dan metode non
Hirarki (Non Hirarchical Clustering Method). Metode pengelompokan hirarki
digunakan apabila belum ada informasi jumlah kelompok yang akan dipilih.
Sedangkan metode pengelompokan Non Hirarki bertujuan untuk
mengelompokkan n objek kedalam k kelompok (k
-
44
3. Berapa banyak cluster yang akan kita bentuk ?
Pengambilan keputusan dengan analisis cluster memiliki 6 tahapan,
yaitu : menentukan tujuan analisis cluster, menentukan desain penelitian
analisis cluster, menentukan asumsi analisis cluster, menurunkan cluster-
cluster dan memperkirakan overall fit, menginterpretasi hasil analisis cluster,
mengukur tingkat validasi hasil analisis cluster.
2.3 Algoritma K-Means
2.3.1 Defenisi K-Means
Algorima K-Means adalah metode clustering non hierarchical
berbasis jarak yang membagi data kedalam cluster dan algoritma ini bekerja
pada atribut numerik. Algoritma K-Means termasuk dalaam partitioning
clustering yang memisahkan data ke daerah bagian yang terpisah. Algoritma
K-Means sangat terkenal karena kemudahannya dan kemampuannya untuk
mengklaster data besar dan outlier dengan sangat cepat.
K-Means merupakan metode klasterisasi yang sangat terkenal dan
banyak digunakan di berbagai bidang karena sederhana, mudah
diimplementasikan, memiliki kemampuan untuk mengkluster data yang
besar, mampu menangani data outlier dan kompleksitas waktunya linear
O(nKT) dengan n adaalah jumlah dokumen, K adaalah jumlah kluster, dan T
adalah jumlah iterasi. Dalam Algoritma K-Means, setiap data harus termasuk
dapat berpindah ke cluster yang lain. Pada dasaarnya penggunaan Algoritma
K-Means dalam melakukan proses clustering tergantung dari data yang ada
dan konklusi yang ingin dicapai. Untuk itu digunakan Algoritma K-Means
yang di dalamnya memuat aturan sebagai berikut :
-
45
1. Jumlah cluster yang perlu diinputkan
2. Hanya memiliki atribut bertipe numerik
Algoritma K-Means pada awalnya mengambil sebagian dari
banyaknya komponen dari populasi untuk dijadikan pusat cluster awal. Pada
step ini pusat cluster dipilih secara acak dari sekumpulan populasi data.
Berikutnya K-Means menguji masing-masing komponen didalam populasi
data dan menandai komponen tersebut ke salah satu pusat cluster yang telah
didefenisikan tergantung dari jarak minimum antar komponen dengan tiap-
tiap pusat cluster. Posisi pusat cluster akan dihitung kembali sampai semua
komponen data digolongkan kedalam tiap-tiap cluster dan terakhir akan
terbentuk posisi cluster baru.
2.3.2 Proses K-Means
Algoritma K-Means pada dasarnya melakukan 2 proses yakni proses
pendeteksian lokasi pusat cluster dan proses pencarian anggota dari tiap-tiap
cluster dan proses pencarian anggota dari tiap-tiap cluster. Proses Algoritma
K-Means sebagai berikut :
1. Tentukan K sebagai jumlah cluster yang ingin dibentuk.
2. Bangkitkan K centroids (titik pusat cluster) awal secara random.
3. Hitung jarak setiap data ke masing-masing centroids.
4. Setiap data memilih centroids yang terdekat.
5. Tentukan posisi centroids baru dengan cara menghitung nilai rata-rata
dari data-data yang terletak pada centroids yang sama.
6. Kembali ke langkah 3 jika posisi centroids baru dengan centroids
lama tidak sama.
-
46
Berdasarkan cara kerjanya Algoritma K-Means memiliki karakteristik
sebagai berikut :
1. K-Means sangat cepat dalam proses clustering.
2. K-Means sangat sensitif dalam pada proses pembangkitan centroids
awal secara random.
3. Memungkinkan suatu cluster tidak mempunyai anggota.
4. Hasil clustering dengan K-Means bersifat tidak unik (selalu berubah-
ubah) terkadang baik, terkadang jelek.
Adapun tujuan daari daata clustering ini adalah untuk meminimalisasikan
objective function yang diset daalam proses clustering, yang padaa umumnya
berusaha meminimalisasikan variasi didalam suatu cluster dan memaksimalkan
variasi antar cluster. Ada dua cara pengalokasian data kembali ke dalam masing-
masing cluster padaa saat proses iterasi clustering. K-Means dalam
pengalokasian data ke dalam masing-masing cluster dapat dilakukan dengan 2
cara yaitu Hard K-Means dan Fuzzy K-Means. Perbedaan dari kedua metode
tersebut terletak pada asumsi yang dipakai sebagai dasar dari pengalokasian data.
Hard disini dalam artian suatu data secara tegas atau pasti dinyatakan sebagai
anggota satu cluster tertentu daan tidak menjadi anggota cluster yang lain.
Sedangkan fuzzy diartikan masing-masing data mempunyai nilai kemungkinan
untuk dapat bergabung ke setiap cluster yang ada.
-
47
BAB IV
ANALISA DAN PERANCANGAN
4.1 Analisa Data Penjualan pada CV.Rumah Decor
CV.Rumah Decor memiliki data-data yang berkaitan dengan aktifitas di
perusahaan tersebut. Salah satuya adalah data yang digunakan untuk mencatat
transaksi yang terjadi di perusahaan tersebut. Terdiri dari beberapa atribut misal
nama-nama barang, jumlah barang, harga barang, total penjualan selama bulan juli
desember 2013
4.2 Analisis Clustering dengan Algoritma K-Means
K-Means termasuk dalam metode data mining partitioning clustering yaitu
setiap data harus masuk dalam cluster tertentu dan memungkinkan bagi setiap data
yang masuk dalam cluster tertentu pada suatu tahapan proses, pada tahapan
berikutnya berpindah ke cluster yang lain. K-means memisahkan data ke K daerah
bagian terpisah, dimana K adalah bilangan integer positif. Algoritma K-means sangat
terkenal karena kemudahan dan kemampuanna untuk mengkasifikasi data besar dan
outlier dengan sangat cepat.
Berikut ini adalah langkah-langkah algoritma K-means :
1. Penentuan Cluster Awal
Dalam menentukan n buah pusat cluster awal dilakukan
pembangkitan bilangan random yang merepresentasikan urutan data
input. Pusat awal cluster didapatkan dari data sendiri bukan dengan
menentukan titik baru, yaitu dengan random pusat awal dari data.
-
48
2. Perhitungan Jarak dengan Pusat Cluster
Untuk mengukur jarak antar data dengan pussat cluster digunakan
Euclidian distance, algoritma perhitungan jarak data dengan pusat
cluster:
1. Ambil nilai data dan nilai pusat cluster
2. Hitung Euclidian distance data dengan tiap pusat cluster.
3. Pengelompokan Data
Jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak
terdekat antara data dengan pusat cluster, jarak ini menunjukkan
bahwa data tersebut berada dalam satu kelompok dengan pusat cluster
terdekat.
Algoritma pengelompokkan data :
a. Ambil nilai jarak tiap pusat cluster dengan data
b. Cari nilai jarak terkecil
c. Kelompokkan data dengan pusat cluster yang memiliki jarak
terkecil.
4. Penentuan Pusat Cluster Baru
Untuk mendapatkan pusat cluster baru bisa dihitung dari rata-rata
nilai anggota cluster dan pusat cluster. Pusat cluster yang baru
digunakan untuk melakukan iterasi selanjutnya, jika hasil yang
didapatkan belum konvergen. Proses iterasi akan berhenti jika telah
-
49
memenuhi maksimum iterasi yang dimasukkan oleh user atau hasil
yang dicapai sudah konvergen (pusat cluster baru sama dengan pusat
cluster lama).
Algoritma penentuan pusat cluster :
a. Cari jumlah anggota tiap cluster
b. Hitung pusat baru dengan rumus
Dimana :
X1, X2, X3,.... Xn = anggota cluster
Xp = pusat lama
4.3 Perancangan dan Proses Clustering
Pada tahap ini akan dilakukan proses utama yaitu segmentasi atau
pengelompokkan data Penjualan barang yang diakses dari database, yaitu sebuah
metode clustering algoritma K-Means. Berikut ini merupakan diagram flowchart dari
algoritma K-Means dengan asumsi bahwa parameter input adalah jumlah data set
sebanyak n data dan jumlah inisialisasi centroid K=3 sesuai dengan penelitian.
Dari banyak data penjualan yang diperoleh, diambil 14 jenis barang untuk dijadikan
sampel untuk penerapan algoritma k-means dalam penjurusan mahasiswa. Percobaan
dilakukan dengan menggunakan parameter-parameter berikut :
-
50
Jumlah cluster : 2
Jumlah data :14
Jumlah atribut :2
Gambar 4.1 Flowchart Proses K-Means
Pada table dibawah ini merupakan sampel data yang digunakan untuk melakukan
percobaan perhitungan manual.
Start
Input m record, k (jumlahcluster)
Tentukan k record sbgcentroid
Hitungsimilaritas
Hitungnilai rata-rata masing2 cluster
Nilai rata2
Centroid
Set of k clusters
End
-
51
Tabel 4.1 Data penjualan yang akan di hitung
Nama Barang Harga
Barang(*Rp1000) Total
Gordyn Black Out 130 600
Gordyn Standard 60 700 Gordyn Beludru 120 570
Gordyb Silk 110 590 Vitrase Tile 85 300
Vitrase Organdi 115 650 Vitrase Turkie 120 550 Blind Roller 130 585
Blind Vertical 140 70 Blind Slim 125 90
Carpet Crown 400 79 Carpet Sandrio 160 120 Carpet Treasure 950 105 Carper Spontini 1750 30
Iterasi ke-1
1. Penentuan pusat awal cluster
Pusatawal cluster atau centroid didapatkansecara random,
untukpenentuanawal cluster di asumsikan :
Pusat Cluster 1: (52. 28)
Pusat Cluster 2: (50. 30)
2. Perhitungan jarak pusat cluster
Untuk mengukur jarak antara data dengan pusat cluster digunakan
Euclidian distance, kemudian akan didapatkan matrik jarak sebagai berikut :
Rumus euclidian distance : ni ii yxyxd 1 2|| X = Pusat cluster
-
52
Y = data
Dari 5 data yang dijadikan sampel telah dipilih pusa tawal cluster
yaituC1(52 , 28), dan C2 (50 , 30). Lalu dilakukan penghitungan jarak dari
sisa sampel data dengan pusat cluster yang dimisalkan dengan M(a,b),
dimana a merupakan total penjualan,dan b harga barang yang diperkecil
menjadi angka puluhan juta agar cara penghitungan lebih mudah.
M1= (130,600)
M2= (60,700)
M3= (120,570)
M4= (110,590)
M5= (85,300)
M6= (115,650)
M7=(120,550)
M8= (130,585)
M9= (140,70)
M10= (125,90)
M11= (400, 79)
M12= (160,120)
M13= (950,105)
M14= (1750,30)
-
53
Hitung Euclidean distance dari semua data ketiap titik pusat pertama :
1698,002830521750114
901,292810552950113
141,872812052160112
351,71287952400111
95,77289052125110
97,5028705214019
562,43285855213018
526,41285505212017
625,18286505211516
273,9928300528515
620,71285905211014
601,85285705212013
672,0428700526012
577,29286005213011
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
-
54
Dengan cara yang sama hitung jarak tiap titik ketitik pusat ke-2 dan kita akan
mendapatkan :
17003030501750214
903,123010550950213
142,123012050160212
353,41307950400211
96,04309050125210
98,4830705014029
560,73305855013028
524,69305505012027
623,39306505011526
272,2530300508525
563,20305905011024
544,51305705012023
670,07530700506022
575,58306005013021
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
-
18
Dari hasil penghitungan Euclidean distance, kita dapat membandingkan :
Tabel 4.2 Hasil Iterasi 1
{M9,M10,M11,M12,M13,M14} :anggota C1
{M1,M2,M3,M4,M5,M6,M7,M8} :anggota C2
Iterasi ke-2
1. Hitung titik pusat baru
Tentukan posisi centroid baru (Ck ) dengan cara menghitung nilai
rata-rata dari data-data yang ada pada centroid yang sama.
11 dnC kk
C1 C2
M1 577,29369 575,587
M2 672,04762 670,075
M3 601,8538 544,518
M4 620,71572 563,205
M5 273,99453 272,259
M6 625,18237 623,398
M7 526,41049 524,69
M8 562,43489 560,736
M9 97,508974 98,4886
M10 95,77578 96,0469
M11 351,71722 353,413
M12 141,87318 142,127
M13 901,29518 903,12
M14 1698,0012 1700
-
19
Dimana nk adalah jumlah dokumen dalam cluster k dan di adalah
dokumen dalam cluster k.
Sehingga didapatkan titik pusat atau centroid yang baru yaitu :
C1= (587,5 , 82,3) C2= (108,75 , 568,1)
2. Perhitungan jarak pusat cluster
Hitung Euclidean distance dari semua data ketitik pusat yang baru
(C1, C2) seperti yang telah dilakukan pada tahap 1 Setelah hasil perhitungan
kita dapatkan, kemudian bandingkan hasil tersebut. Jika hasil posisi cluster
pada iterasi ke 2 sama dengan posisi iterasi pertama, maka proses dihentikan,
namun jika tidak proses dilanjutkan ke iterasi ke 3.
-
20
1163,673,82305,5871750114
363,213,821055,587950113
429,153,821205,587160112
187,523,82795,587400111
468,273,82905,587125110
447,843,82705,58714019
679,713,825855,58713018
661,283,825505,58712017
738,603,826505,58711516
618,573,823005,5878515
849,253,825905,58711014
675,573,825705,58712013
812,283,827005,5876012
690,883,826005,58713011
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
Dengan cara yang sama hitung jarak tiap titik ketitik pusat baru ke-2 dan kita
akan mendapatkan :
-
21
1727,221,5683075,1081750214
960,301,56810575,108950213
451,041,56812075,108160212
569,271,5687975,108400211
559,361,5689075,108125210
469,161,5687075,10814029
27,131,56858575,10813028
21,331,56855075,10812027
82,111,56865075,10811526
286,261,56830075,1088525
51,891,56859075,10811024
11,401,56857075,10812023
307,711,56870075,1086022
38,3091,56860075,10813021
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
22211
211
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
yyxx
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
CMCMD
-
22
Karena pada Iterasi ke-2 posisi cluster tidak berubah/sama dengan
posisi cluster pada iterasi pertama maka proses iterasi dihentikan.
Tabel 4.3 Hasil Iterasi 2
{M9,M10,M11,M12,M13,M14} :anggota C1
{M1,M2,M3,M4,M5,M6,M7,M8} :anggota C2
C1 C2
M1 690,88316 38,309
M2 812,28661 307,716
M3 675,57941 11,4052
M4 849,25352 51,8901
M5 618,5744 286,254
M6 738,60649 82,1132
M7 661,28628 21,3326
M8 679,71578 27,1354
M9 447,84991 469,167
M10 468,27251 559,361
M11 187,52904 569,271
M12 429,15911 451,046
M13 363,21005 960,305
M14 1163,6759 1727,22
-
23
Gambar 4.2 Hasil Pengelompokan data
Kesimpulan
Barang dengan jenis Blind Roller, Blind Vertical, Blind Slim, Carpet Crown,
Carpet Sandrio, Carpet Treasure, Carpet Spontini merupakan anggota C1 dan
termasuk barang yang tidak laris.
Barang dengan jenis Gordyn Black Out, Gordyn Standard, Gordyn
Beludru.Gordyn Silk, Vitrase Tile, Vitrase Organdi, Vitrase Turkie
merupakan anggota C2 dan termasuk barang yang laris.
-
24
BAB V
IMPLEMENTASI DAN PENGUJIAN
5.1 Analisis Software Data mining Tanagra 1.4.50
Tanagra 1.4.50 adalah software data mining yang diperlukan untuk keperluan
akademik dan riset. Di dalamnya disediakan beberapa metoda data mining mulai dari
mengekplorasi dan mengelompokkan analisis data, pembelajaran statistik,
pembelajaran mesin, dan database.
Software ini merupakan suksesor dari sebuah software lain yang bernama
SPINA yang mengimplementasikan bermacam algoritma pembelajaran terkontrol,
khususnya konstruksi pohon keputusan visual yang interaktif. Unjuk kerja Tanagra
1.4.50 lebih baik, di mana selain memiliki beberapa pembelajaran terkontrol juga
paradigma lain seperti clustering, analisis faktorial, statistik parametrik dan non
parametrik, aturan asosiasi, feature selection, dan construction algorithms. Tanagra
1.4.50 merupakan suatu proyek open source di mana semua peneliti dapat
mengakses source codenya, dan menambahkan algoritma mereka sendiri,sejauh dia
setuju dan menyesuaikan dengan lisensi pendistribusian softwarenya.
5.1.1 Pengenalan Tampilan Dari Tanagra
Bentuk GUI dari Tanagra 1.4.50
-
25
Gambar 5.1 Bentuk GUI
Input Data
Gambar 5.2 Input Data
Komponen / Operator Tanagra 1.4.50
-
26
Gambar 5.3 Komponen Tanagra
Diagram Data Mining
Gambar 5.4 Diagram Tanagra
Output / Hasil
Gambar 5.5 Output Tanagra
-
27
5.1.2. Pengujian Sistem dan Penjelasan Bentuk data yang di olah
Format data yang di import untuk di jadikan sumber oleh Tanagra
1.4.50 ada 3 jenis :
1. Microssoft Excel (*xls)
2. Text (*txt)
3. Arff
Kebanyakan data yang diolah oleh Tanagra bersumber dari data yang
di tulis dari Microssoft Excel.
Data yang di import menggunakan format TXT berupa data yang
dibuat dengan menggunakan Microssoft Excel kemudian di ekspor ke
dalam notepad (txt).Data yang formatnya Arff (Attribute-Relation File
Format) ini merupakan format yang digunakan oleh Weka dan Tanagra
juga bisa digunakan langsung.
5.2 Panduan Penggunaan (User Guide)
Berikut ini adalah cara penggunaan program data mining Tanagra 1.4.50
menggunakan metode clustering dengan Algoritma K-means.
1. Buka Tanagra 1.4.50, lalu pilih File kemudian New.
2. Inputkan data set yang ingin diolah. Data yang bisa di inputkan berformat
*xls(Microsoft Excel), *txt (Text) dan *aff.
3. Kemudian data set akan muncul pada kolom diagram analysis.
4. Klik Define status untuk memilih atribut diinput atau dijadikan target dan
ilustratif.
5. Kemudian pilih komponen tanagra sesuai metode yang diinginkan.
-
28
5.3 Spesifikasi Minimum Software Data Mining Tanagra 1.4.50
Spesifikasi perangkat keras (hardware) yang dibutuhkan dalam menginstal
sofware Tanagra 1.4.50 dengan minimum spesifikasi :
1. Processor Pentium dengan kecepatan 2 Ghz
2. Monitor 14
3. Harddisk Drive 80 Gb
4. RAM 512MB
5. CD ROM drive
6. Keyboard
7. Mouse
8. Printer
Perangkat lunak yang dibutuhkan untuk menginstal Tanagra 1.4.50 adalah :
1. Sistem operasi menggunakan Windows XP / 7.
2. Software data mining Tanagra 1.4.50.
3. Pengolahan data siswa menggunakan Microsoft Excel.
5.4 Tahap Instalasi Software Tanagra 1.4.50
1. Setelah klik master tanagra 1.4.50 akan keluar tampilan sebagai berikut:
Gambar 5.6. tanagra 1.4.50 Setup
-
29
2. Anda telah memasuki halaman awaldari tanagra 1.4.50, lalu Klik tombol
Next!
3. Setelah itu akan keluar halaman License Agreement dari tanagra 1.4.50.
Gambar 5.7. License Agreemant
4. Pilih bottom I accept the agreement dan klik tombol Next setelah itu akan
keluar tampilan sebagai berikut:
Gambar 5.8. Choose Install Location
5. Aturlah Destination Folder sesuai keinginan anda,dan klik tombol Next
-
30
Gambar 5.9. Ready to Install
6. Proses instalasi sedang berlangsung seperti tampilan di bawah ini.
Gambar 5.10. Installing Progres
7. Setelah proses instalasi selesai, maka muncul tampilan seperti di bawah
ini.
-
31
Gambar 5.11. tanagra 1.4.50 Finishing
5.5 Pengujian Sistem dan Penjelasan
Berikut langkah-langkah pemakaian software data mining Tanagra 1.4.50
dalam pengolahan data penjualan berdasarkan jenis barang menggunakan clustering
dengan algoritma K-means berikut :
5.5.1 Input Dataset
Penulis menggunakan data penjualan furnitur pada CV.Rumah Decor
sebagai dataset, file data menggambarkan karektaristik dari data CV.Rumah
Decor. Variabel aktif yang ikut penciptaaan cluster adalah nama barang, jenis
barang, harga barang,dan penjualan barang selama enam bulan. Yang
digunakan untuk memperkuat interpretasi dari cluster adalah jumlah
penjualan perbulan selama enam bulan. Data yang di inputkan hanya berupa
sampel pada tahun 2013.
Setelah Tanagra 1.4.50 dijalankan, masukkan data dengan cara klik
File => New, maka akan menampilkan data acces atau dataset.
-
32
Gambar 5.12. Input Dataset
Kemudian klik kanan pada dataset dan klik execute, sehingga keluar tampilan
berikut
Gambar 5.13. Data Description
5.5.2 Descriptive statistics
Descriptive statistics adalah gambaran dari karakteristik utama dari
data set. Dalam mengolah data tersebut penulis menambahkan Define Status
kedalam diagram dari komponen Tanagra, dengan cara drag ke arah data set.
Kemudian klik kanan Define Status pilih parameter, lalu inputkan atribut yang
berkategori Continue (C) dan target yang berkategori (D).
-
33
Gambar 5.14 Define Status Define 1 Target
Gambar 5.15 Define Status 1 Input
Tambahkan komponen More Univariate Cont Stat (tab Statistis). Tarik More
Univariate Cont Stat dan letakkan di Difine Status 1 kemudian klik kanan view.
-
34
Gambar 5.16 Tampilan Univariate
5.5.3The Active Variables
Kita standarisasikan variabel sebelum menampilkan pendekatan K-
means. Tujuannya adalah untuk mengeliminasi ketidaksesuaian antara
variabel. Tambahkan komponen Standarizedi Feature Construction tab ke
diagram. Lalu klik kanan padaStandarize pilih menu view.
Gambar 5.17 Tampilan Standardize
5.5.4 K-Means
Kita ingin mentransformasikan variabel untuk menganalisis. Masukkan
komponen Difine Status baru ke diagram, atur input.
-
35
Gambar 5.18 Define Status 2 Input
Insert komponen K-means di Clustering tab. Klik kanan pilih
Parameters.
Gambar 5.19 Parameter K-Means
Atur nilai cluster menjadi 2 grup.Pada DistanceNormalization, pilih
none, lalu ok. Klik kanan pada K-means, pilih view.
-
36
Gambar 5.20 View K-Means
5.5.5 Interpretation Of Groups
Pada tahap ini merupakan langkah awal pada proses clustering. Yang mana
kita akan menginterpretasikan kelompok dan menentukan karakteristik setiap
cluster dan membedakan satu sama lain.
Tambahkan View Dataset (tab Data Visualization) Tarik ke K-means 1 Klik kanan view
Gambar 5.21 View Dataset
-
37
Masukkan komponen Difine Status baru ke dalam diagram, sehingga
terbentuk Difine Status 3, klik kanan Parameters. Data awal sebagai input
dan Cluster K-Means 1 menjadi target.
Gambar 5.22 Define Status 3 Target
Gambar 5.23 Define Status 3 input
-
38
Tambahkan Komponen GroupCharacterization pada tab Statistic.
Gambar 5.24 View Group Characterization
Tambahkan lagi komponen Difine Status baru ke dalam diagram,
sehingga terbentuk Difine Status 4. Data nama dijadikan target dan Cluster
K-Means 1 dijadikan input.
Gambar 5.25 Define Status 4 Target
-
39
Gambar 5.26 Define Status 4 Input
Tambahkan komponen Contigency Chi-Square pada Non parametic
Statisticstab ke diagram. Klik kanan lalu pilih menu view.
Hasilnya tentu saja konsisten dengan komponen GROUP
CHARACTERIZATION. Disini terdapat informasi yang berkaitan tentang
asosiasi. Kita dapat memeriksa jika asosiasinya signifikan dengan statistik
dan juga bisa menampilkan hasil dari presentasi baris dan kolom.
Gambar 5.27 View Contingensy Chi Square 1
-
40
Scatter plot berguna untuk mendapatkan posisi kelompok sesuai dua
variabel secara bersamaan. Cara lain menyorot kesimpulan adalah dengan
representasi grafik. Scatter plot perangkat yang sangat mudah digunakan di
konteks ini. Kita dapat memposisikan cluster menurut suatu variabel. Kita
dapat memeriksa interaksi antara variabel.
Tambahkan komponen Scatterplot pada data visualitation tab.Klik
kanan view.
Gambar 5.28 View Scatterplot 1
Untuk mengambil pertimbangan interaksi antara dua variabel, kita
gunakan principal component analysis (PCA) dan atur representasi grafik di
dua faktor. Tambahkan komponen Principal Componen Analysis (tab
Factorial Analysis).
-
41
Gambar 5.29 Principal Component Analysis 1
Setelah itu tambahkan lagi komponen scatterplot 2
Gambar 5.30 View Scatterplot 2
5.5.6 Export Dataset
Langkah terakhir dari analisis ini, kita ingin mengekspor dataset
dengan penambahan kolom yang mengindikasikan setiap anggota cluster.
Tanagra dapat membuat file data dalam format Text File dengan tab separator.
Tapi sebelumnya tambahkan komponen Define Status atur input dan
outputnya.
-
42
Gambar 5.31 Define Status 5 Input
Tambahkan komponen Export dataset pada Data Visualization tab ke
diagram. Klik kanan setting parameter pastikan atribut input yang harus di
eksport, kita juga bisa mengganti nama file lalu validasikan dan klik kanan
view.
Gambar 5.32 Parameters Export Dataset 1
Hasil data berupa text field yang dapat kita tentukan tempat
penyimpanan dan formatnya.
-
43
Gambar 5.33 View Output
File data baru output.txt
Gambar 5.34 Tampilan Output
-
44
-
45
BAB VI
PENUTUP
6.1 Kesimpulan
Dari hasil penelitian, dapat disimpulkan bahwa pengolahan data
penjualan pada CV.Rumah Decor menggunakan metode Clustering dengan
algoritma K-means dapat digunakan untuk mengelompokkan data penjualan
berdasarkan jenis barang.
Dari data yang diolah berdasarkan jenis barang, diinputkan sampel data
sebanyak 14 data dengan. Jumlah penjualan selama enam bulan(x) dan harga barang
yang ada untuk dipasarkan kepada konsumen (y) diperoleh 2 (dua) kelompok data
telah tercluster, sebagai berikut:
1. Cluster 1 (C1) terdiri dari enam data
Barang dengan jenis Blind Roller, Blind Vertical, Blind Slim, Carpet
Crown, Carpet Sandrio, Carpet Treasure, Carpet Spontini
yang kurang laku terjual, karna angka penjualan dalam perhitungan
selama enam bulan dengan total 1.079 meter (juli-desember 2013)
2. Cluster 2 (C2) terdiri dari delapan data
Barang dengan jenis Gordyn Black Out, Gordyn Standard, Gordyn
Beludru.Gordyn Silk, Vitrase Tile, Vitrase Organdi, Vitrase Turkie
yang laku terjual, karna angka penjualan dalam enam bulan mencapai
total 3960 meter (juli-desember 2013).
6.2 Keterbatasan Sistem
Berdasarkan penelitian yang telah dilakukan penggunaan software data
mining Tanagra 1.4.38 kurang efektif dilakukan, karena data yang dapat diolah
-
46
berdasarkan algoritma K-means atribut data yang dijadikan sebagai input harus
mempunyai kategori sama. Sehingga apabila data yang diinputkan mempunyai
kategori diskrete dancontinue pengolahan data tidak dapat dilakukan.
6.3 Saran
Dari hasil penelitian dan pengolahan data yang telah di lakukan maka
kami menyarankan kepada pihak CV.Rumah Decor , agar bisa mengelompokkan
barang-barang yang ada berdasarkan jenis dan mencatat setiap penjualan yang terjadi
pada setiap jenis barang tersebut, sehingga dapat memudahkan nantinya dalam
melakukan laporan kepada atasannya terhadap barang mana yang laku terjual dan
barang yang tidak laku terjual.
-
47
DAFTAR PUSTAKA
http://www.metris-community.com/pengertian-data-mining-konsep-pdf/
http://prayudho.wordpress.com/2008/12/30/analisis-cluster/
(http://sartika1603.wordpress.com/)
http://ammarawirausaha.blogspot.com/2009/10/pengertian-pelanggan.html
http://www.metris-community.com/pengertian-data-mining-konsep-pdf/http://prayudho.wordpress.com/2008/12/30/analisis-cluster/http://sartika1603.wordpress.com/http://ammarawirausaha.blogspot.com/2009/10/pengertian-pelanggan.html
-
48
LAMPIRAN
-
49