837-1902-1-sm
DESCRIPTION
jurnalTRANSCRIPT
Seminar Nasional Teknologi Informasi dan Multimedia 2015STMIK AMIKOM Yogyakarta, 6-8 Februari 2015
ISSN : 2302-3805
2.1-73
PENERAPAN K-MEANS CLUSTERING PADA DATA PENERIMAANMAHASISWA BARU
(STUDI KASUS : UNIVERSITAS POTENSI UTAMA)
Fina Nasari1), Surya Darma2)
1),2) Sistem Informasi Universitas Potensi UtamaJl. K.L. Yos Sudarso Km 6,5 No. 3A Tanjung Mulia-Medan
Email : [email protected]), [email protected])
Abstrak
Pembentukan cluster merupakan salah satu teknik yangdigunakan dalam mengekstrak pola kecenderungan suatu data.Teknik ini ini digunakan dalam proses Knowledge discovery indatabase (KDD). Data mining biasanya identik dengan prosespenggalian data-data yang cukup besar dan dikelompokkanmenjadi data yang tersusun rapi. Dalam hal ini penulismengelompokkan data mahasiswa baru tahun ajaran2014/2015 dengan teknik clustering. Pengelompokkan yangpenulis terapkan menggunakan algoritma K-Means Clustering,algoritma K-Means Clustering mampu mengelompokkan datapada kelompok yang sama dan data yang berbeda padakelompok yang berbeda. Sehingga akan terlihat kelompok datamahasiswa baru tahun ajaran 2014/2015 pada UniversitasPotensi Utama yang tidak terstruktur menjadi terstruktur.Tujuan dari penelitian ini adalah menerapkan algoritam K-Means Clustering pada data penerimaan mahasiswa barutahun ajaran 2014/2015(studi kasus : Universitas PotensiUtama). Hasil K-Means Clustering yang diperoleh ada duakelompok, pusat cluster dengan Cluster 1 = 1 ; 1.75; 1.5dan Cluster 2 = 2.95; 1.65; 1.4, Cluster pertama jikaasal sekolaha dalah SMA atau Sekolah MenengahPertama maka rata-rata jurusan yang diambil adalahSistem Informasi dan kedua jika asal Sekolahnya adalahSMK rata-rata jurusan yang diambil adalah TeknikInformatika.
Kata kunci : Data Mining, K-Means Clustering,Pengelompokkan Data Mahasiswa Baru.
1. Pendahuluan
Pengertian mahasiswa secara umum yaitu suatuperan tertinggi dalam dunia pendidikan yang mengaturpola tingkah laku manusia dari remaja menuju keperansesungguhnya, bisa dikatakan mahasiswa adalah prosesdimana pola pikiran mengarah kelebih tinggi atau lebihserius dalam menjalani peran tersebut.
Data mining adalah proses mencari pola atauinformasi menarik dalam data terpilih denganmenggunakan teknik atau metode tertentu. Teknik,metode, atau algoritma dalam data mining sangatbervariasi. Pemilihan metode atau algoritma yang tepatsangat bergantung pada tujuan dan proses KDD secarakeseluruhan. [jurnal bu fina snif) Salah satu metode yangterdapat dalam data mining yang digunakan dalampenelitian ini adalah pengelompokan (Clustering)
dimana metode tersebut mengidentifikasi objek yangmemiliki kesamaan karakteristik tertentu, dan kemudianmenggunakan karakteristik tersebut sebagai “vektorkarakteristik” atau “centroid”. [6]
Beberapa penulis terdahulu telah menerapakanteknik K-Means Clustering sebagai penelitian dalam halPengelompokkan data, diantaranya :
Ediyanto, dkk (2013) Dalam Penelitiannya yangberjudul “Pengklasifikasian Karakteristik DenganMetode K-Means Cluster Analysis”. Penulis dalampenelitian ini menjelaskan bahwa metode K-MeansCluster Analysis cukup efektif diterapkan dalam prosespengklasifikasian karakteristik terhadap objek penelitian.Algoritma K-Means juga tidak terpengaruh terhadapurutan objek yang digunakan, hal ini dibuktikan ketikapenulis mencoba menentukan secara acak titik awalpusat cluster dari salah satu objek pada permulaanperhitungan [1].
Ong Johan Oscar (2013) dengan penelitiannyayang mengangkat judul “Implementasi Algoritma K-Means Clustering Untuk Menentukan Strategi MarketingPresident University”. Tujuan penulisan yang dijelaskanpenulis dalam makalah ini menunjukkan bahwa hasildari pengolahan data mahasiswa membantu pihakmarketing President Unversity dalam melakukanpemasaran dan mencari calon mahasiswa baru dariberbagai kota di Indonesia. Dan hasilnya cukup efisiendan efektif [5].
T. Gomasathit (2013) melakukan penelitian untukmengidentifikasi cakupan awan di atas wilayah Thailanddengan menggunakan data satelit dan Algoritma K-means clustering. Namun, hasilnya dijelaskan dalampenelitian memberikan beberapa informasi awal tentangkemungkinan analisis cuaca dari perkiraan awan , danakan berguna untuk studi lanjut ketika data lainnyatersedia [7].
Dari penelitian yang dilakukan oleh Ediyanto(2013), oleh Ong Johan Oscar (2013), serta penelitianyang dilakukan T. Gomasathit (2013) disimpulkanbahwa Algoritma K-Means clustering dapat digunakandalam mengelompokkan data dengan efisien dan efektifdengan hasil yang diharapkan. Hal inilah yang mendasaripenulis dalam melakukan penelitian dalam halpenerapaan Algoritma K-Means Clustering pada datapenerimaan mahasiswa baru tahun ajaran 2014/2015dengan studi kasus langsung ke target yang ditujuhdalam hal ini melakukan studi kasus pada UniversitasPotensi Utama.
Seminar Nasional Teknologi Informasi dan Multimedia 2015STMIK AMIKOM Yogyakarta, 6-8 Februari 2015
ISSN : 2302-3805
2.1-74
Pada penelitian ini penulis menggunakan dataanalisa seperti No Formulir, No Ujian USM, NamaMahasiswa Baru, Nilai UAN, dan Asal Sekolah,diharapkan dalam hal ini dapat mengelompokkankelompok data dengan sangat efektif.
2. Dasar Teori
2.1. KDD ( Knowledge Discovery In Database )
Menurut Fayyad dalam buku (kusrini, 2009)Istilah data mining dan knowledge discovery in database(KDD) sering kali digunakan secara bergantian untukmenjelaskan proses penggalian informasi tersembunyidalam suatu basis data yang besar. Sebenarnya keduaistilah tersebut memiliki konsep yang berbeda, tetapiberkaitan satu sama lain. Dan salah satu tahapan dalamkeseluruhan proses KDD adalah data mining. ProsesKDD secara garis besar dapat dijelaskan sebagai berikut:1. Data Selection
Pemilihan (seleksi) data dari sekumpulan dataoperasional perlu dilakukan sebelum tahappenggalian informasi dalam KDD dimulai. Data hasilseleksi yang akan digunakan untuk proses datamining disimpan dalam suatu berkas, terpisah daribasis data operasional.
2. Pre- processing / CleaningSebelum proses data mining dapat dilaksanakan,perluh dilakukan proses pembersihan pada data yangmenjadi focus KDD. Proses pembersihan mencakupantara lain membuang duplikasi data, memeriksadata yang inkosisten, dan memperbaiki kesalahanpada data, seperti kesalahan cetak (tipografi).
3. TransformationCoding adalah transformasi pada data yang telahdipilih, sehingga data tersebut sesuai untuk prosesdata mining. Proses coding dalam KDD merupakanproses kreatif dan sangat tergantung pada jenis ataupola informasi yang akan dicari dalam basis data.
4. Data miningData mining adalah proses mencari pola atauinformasi menarik dalam data terpilih denganmenggunakan teknik atau metode tertentu. Teknik,metode, atau algoritma dalam data mining sangatbervariasi. Pemilihan metode atau algoritma yangtepat sangat bergantung pada tujuan dan proses KDDsecara keseluruhan.
5. Interpretation / EvaluationPola informasi yang dihasilkan dari proses datamining perlu ditampilkan dalam bentuk yang mudahdimengerti oleh pihak yang berkepentingan. Tahapini merupakan bagian dari proses KDD yang disebutinterpretation. Tahap ini mencakup pemeriksaanapakah pola atau informasi yang ditemukanbertentangan dengan fakta atau hipotesis yang adasebelumnya[4].
Gambar 1. Aliran Informasi dalam data mining
2.2. Algoritma K-Means
Pengertian dari K-Means Clustering adalah, Kdimaksudkan sebagai konstanta jumlah cluster yangdiinginkan, Means dalam hal ini berarti nilai suatu rata-rata dari suatu grup data yang dalam hal ini didefinisikansebagai cluster, sehingga K-Means Clustering adalahsuatu metode penganalisaan data atau metode datamining yang melakukan proses pemodelan tanpasupervisi (unsupervised) dan merupakan salah satumetode yang melakukan pengelompokan data dengansistem partisi. Metode K-Means berusahamengelompokkan data yang ada kedalam beberapakelompok, dimana data dalam satu kelompokmempunyai karakteristik yang sama satu sama lainnyadan mempunyai karakteristik yang berbeda dengan datayang ada didalam kelompok yang lain. Dasar algoritmaK-means adalah sebagai berikut : [2]1. Tentukan nilai k sebagai jumlah klaster yang ingin
dibentuk.2. Inisialisasi k sebagai centroid yang dapat
dibangkitkan secara random.3. Hitung jarak setiap data ke masing-masing centroid
menggunakan persamaan Euclidean Distance yaitusebagai berikut :
4. Kelompokkan setiap data berdasarkan jarak terdekatantara data dengan centroidnya.
5. Tentukan posisi centroid baru (k)6. kembali ke langkah 3 jika posisi centroid baru
dengan centroid lama tidak sama.
3. Metodologi Penelitian
Penelitian ini bertujuan untuk mengelompokkandata mahasiswa baru tahun ajaran 2014/2015 denganmenggunakan Algoritma K-Means Clustering. Untuk
(1)
Seminar Nasional Teknologi Informasi dan Multimedia 2015STMIK AMIKOM Yogyakarta, 6-8 Februari 2015
ISSN : 2302-3805
2.1-75
mencapai tujuan tersebut, penulis akan melakukanpengujian dengan menggunakan data mahasiswa barutahun ajaran 2014/2015 pada Universitas Potensi Utama.
Adapun Pengelompokan data tersebut digunakanlangkah-langkah sebagai berikut :a. Sumber Data
Sumber data dalam penelitian ini langsungdiambil dari Universita Potensi Utama dimana datatersebut merupakan data sekunder yang terdiri atas datamahasiswa baru tahun ajaran 2014-2015 dengan banyakdata 279 data dengan field yaitu data daftar, gel. USM,No. Formulir, No. Ujian USM, Nama Mahasiswa Baru,Prodi, Nilai UAN, Asal Sekolah, berikut adalah contohdata pendaftaram mahasiswa baru.
Tabel 1. Data Pendaftaran Mahasiswa Baru
b. Transformasi DataPada tahap ini dilakukan proses perubahan data,
tujuannya adalah agar data dapat diolah denganmenggunakan algoritma K-Means Clustering.
Variabel Yang dipilih pada data Pendaftaranmahasiswa baru yaitu data Nilai UAN, Asal Sekolah danProgram Studi yang dipilih.
Untuk variable Nilai UAN dikelompokkanmenjadi 3 Kelompok, yang pertama untuk nilai UANdengan rata-rata <=5 ditransformasikan dengan nilai 1,>5 dan data <= 7 ditransformasikan dengan nilai 2 dan>= 7 ditransformasikan dengan nilai 3.
Untuk Varibael asal Sekolah dikelompokkanmenjadi 3 Kelompok yang pertama untuk Asal SekolahAdalah SMA ditransformasikan dengan nilai 1, AsalSekolah SMK ditransformasikan dengan nilai 2 dan AsalPerguruan Sebelumnya Selain 2 data diatasditransformasikan menjadi nilai 3.
Untuk data Program Studi dikelompokkanmenjadi 3 kelompok, jika program studi sistem informasi
di transformasikan dengan nilai 1, program studi teknikinformatika ditransformasikan dengan nilai 2 danprogram studi manajemen informatika ditransformasikanmenjadi nilai 3.
Hasil transformasi dapat dilihat pada tabel.2berikut ini:
Tabel 2. Data Hasil Transformasi
NILAIUAN
AsalSekolah PRODI
1 1 11 2 11 2 21 2 22 2 22 2 22 2 22 2 12 1 12 1 22 1 22 2 12 2 2
c. Pengolahan DataSetelah proses transformasi langkah selanjutnya
adalah proses pengolahan data menggunakan algoritmaK-Means Clustering.
Tahapan proses algoritma K-Means Clusteringadalah sebagai berikut:1. Tentukan nilai k dari jumlah cluster yang ingin
dibentuk. Cluster yang akan dibuat adalah 2 Cluster.2. Tentukan titik pusat awal dari setiap cluster. Dalam
penelitian ini titik pusat awal ditentukan secararandom dan didapat titik pusat dari setiap clusterdapat dilihat pada tabel 3.
Tabel 3. Titik Pusat Awal Setelah Cluster
Titik PusatCluster
Nama NilaiUAN
AsalSekolah
Prodi
Cluster 1 Musliana 1 1 1Cluster 2 Sinta
Anggarini2 2 1
3. Dalam penelitian ini digunakan metode hard k-meansuntuk mengalokasikan setiap data ke dalam suatucluster yang memiliki jarak paling dekat dengan titikpusat setiap cluster. Untuk mengetahui cluster manayang paling dekat dengan data, maka perlu dihitungjarak setiap data dengan titik pusat setiap cluster.
Seminar Nasional Teknologi Informasi dan Multimedia 2015STMIK AMIKOM Yogyakarta, 6-8 Februari 2015
ISSN : 2302-3805
2.1-76
Sebagai contoh, akan dihitung jarak dari datamahasiswa pertama ke pusat cluster pertama:D(1,1) = = 0Dari hasil perhitungan di atas di dapatkan hasilbahwa jarak data mahasiswa pertama dengan pusatcluster pertama adalah 0.
4. Jarak data mahasiswa pertama ke pusat clusterkedua:D(1,2) = = 1.414214
Dari hasil perhitungan di atas didapatkan hasilbahwa jarak data mahasiswa pertama dengan pusatcluster ketiga adalah 1.414214.
Berdasarkan hasil kedua perhitungan di atasdapat disimpulkan bahwa jarak data mahasiswapertama yang paling dekat adalah dengan cluster1, sehingga data mahasiswa pertama dimasukkan kedalam cluster 1. Hasil perhitungan selengkapnyauntuk 20 data mahasiswa pertama dapat di lihat padatabel 4 di bawah ini.
Tabel 4. Hasil Perhitungan Setiap Data ke Setiap Cluster Iterasi 1
No Nim Nama NilaiUAN
AsalSekolah Prodi
Jarak Ke JarakTerdekat
Ke ClusterC1 C2
1234567891011121314151617181920
1421003714210060141100401413002414130040141300331431004114210057142100431411002314110038142300461411004414220008142300391413002814210031142100101413002914130029
MuslianaRaudhahFauzul Azmal SiraitHandika Putra EffendyAnzas Putra IlhamDeni SetiawanRizal LihadiSinta AnggrainiErwinsyah PutraSimatupangArdiansahSiti MirzawatiCut Nuraini SariDicky HardiantoMaulida YaniMelati Suci RamadhaniAlit BennoPutri WulandariAyu Lestari. PDevi Nurmayang Sari
11112222222222222222
12222222111222211121
11222221122121121121
0
1
1.414213562
1.414213562
1.732050808
1.732050808
1.732050808
1.414213562
1
1.414213562
1.414213562
1.414213562
1.732050808
1.414213562
1.414213562
1.414213562
1
1
1.732050808
1
11.4142141.7320511.7320511.4142141.4142141.414214
10111
1.41421411100
1.4142140
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
222
5. Setelah semua data ditempat ke dalam clusteryang terdekat, kemudian hitung kembali pusatcluster yang baru berdasarkan rata-rata angggotayang ada pada cluster tersebut. Dalam hal ini jikacentroid yang baru konvergen dengan centroid yanglama maka hentikan iterasi, jika tidak maka lanjutkan
iterasi berikutnya. Penghentian iterasi dilakukankarena saat centroid baru yang dibangkitkan dengancentroid yang lama akan menyebabkan konvergensipada grup atau cluster sehingga tidak perlumenghitung distance space (menghitung jarak) dataterhadap centroid-nya lagi.
Seminar Nasional Teknologi Informasi dan Multimedia 2015STMIK AMIKOM Yogyakarta, 6-8 Februari 2015
ISSN : 2302-3805
2.1-77
6. Pengelompokan hasil cluster pada iterasi pertamabelum kovergen, dalam hal ini bangkitkan ulangcentroid baru dengan rumus :
Sumber: Larose, 2005:153
Dimana :C : centroid datam : anggota data yang termasuk kedalam centroid
tertentun : jumlah data yang menjadi anggota centroid
tertentu
Pada pengelompokan data diatas didapat titik clusterdengan nilai sebagai berikut :
Tabel 5. Titik Pusat iterasi-1 Setelah Cluster
Titik PusatCluster Nilai
Cluster 1 1 ; 1.75; 1.5Cluster 2 2.907216495; 1.654639175; 1.474226804
Centroid baru yang dibangkitkan ternyata belumkonvergen, sehingga iterasi harus dilanjutkan. Dalampenelitian ini, iterasi clustering data mahasiswaterjadi sebanyak 2 kali iterasi. Adapun rincian hasilakhir clustering dapat dilihat pada tabel 6 di bawahini :
Tabel 6. Hasil Perhitungan Setiap Data ke Setiap Cluster Iterasi 2
No Nim Nama NilaiUAN
AsalSekolah Prodi
Jarak Ke JarakTerdekat
Ke ClusterC1 C2
1234567891011121314151617181920
1421003714210060141100401413002414130040141300331431004114210057142100431411002314110038142300461411004414220008142300391413002814210031142100101413002914130029
MuslianaRaudhahFauzul Azmal SiraitHandika Putra EffendyAnzas Putra IlhamDeni SetiawanRizal LihadiSinta AnggrainiErwinsyah PutraSimatupangArdiansahSiti MirzawatiCut Nuraini SariDicky HardiantoMaulida YaniMelati Suci RamadhaniAlit BennoPutri WulandariAyu Lestari. PDevi Nurmayang Sari
11112222222222222222
12222222111222211121
11222221122121121121
0.9013878190.5590169940.5590169940.5590169941.3462912021.3462912021.3462912021.3462912021.3462912021.3462912021.3462912021.3462912022.1937410972.1937410972.1937410972.1937410972.1937410972.1937410972.1937410972.193741097
2.0714531781.9954047012.008279442.00827944
1.2151071061.2361357821.2361357821.2361357821.2151071061.2151071061.2151071061.2151071060.8136659570.8447477030.8136659570.8136659570.8136659570.8136659570.8447477030.813665957
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2Pada iterasi ke-2 ini, titik pusat dari setiapcluster sudah tidak berubah dan tidak ada lagi data
(2)
Seminar Nasional Teknologi Informasi dan Multimedia 2015STMIK AMIKOM Yogyakarta, 6-8 Februari 2015
ISSN : 2302-3805
2.1-78
yang berpindah dari satu cluster ke cluster yang lain..Maka pusat cluster pada iterasi 2 adalah sebagaiberikut :Cluster1 = 1 ; 1.75; 1.5Cluster2 = 2.907216495; 1.654639175; 1.474226804
3. Analisa dan Pembahasan
Pada tahap ini penulis mengaplikasikan datapendaftaran mahasiswa baru menggunkanan algoritmaK-Means Clustering pada Aplikas Matlab 6.1, untuk 2kelompok data. Kelompok pertama terlihat pada titik-titik penyebaran yang ditandai dengan warna hijau danpusat cendroid pertama terletak pada titik 2.907216495;1.654639175; 1.474226804 yang ditandai dengan kotakhitam disudut gambar. Kelompok kedua ditandai dengantitik-titik penyebaran warna merah dengan pusatclusternya pada titik 1 ; 1.75; 1.5 dan ditandai dengankotak hitam sebelah tengah gambar. Hasil clusteringyang terlihat pada gambar.2 berikut ini:
Gambar.2 Hasil Clustering Menggunakan AplikasiMatlab
4. Kesimpulan
Dari hasil penelitian yang dilakukan, makapenulis dapat menarik beberapa kesimpulan, antara lainsebagai berikut :1. Pengujian yang dilakukan dalam penelitian ini,
iterasi clustering data mahasiswa terjadi sebanyak 2kali iterasi.
2. Pengujian yang dilakukan ditemukan pusat clusterdengan Cluster 1 = 1 ; 1.75; 1.5 dan Cluster 2 =2.907216495; 1.654639175; 1.474226804
3. Berhadarkan dari hasil Cluster kesimpulan yangdapat diambil adalah bahwa jika asal sekolahadalah SMA atau Sekolah Menengah Pertama makarata-rata jurusan yang diambil adalah SistemInformasi dan jika asal Sekolahnya adalah SMK
rata-rata jurusan yang diambil adalah TeknikInformatika.
4. Hasil cluster juga dipengaruhi dari nilai cendroidawal yang dipakai dan jumlah data yang dipakai,perbedaan pengambilan data pusat cendroid awalyang dipakai juga akan mempengaruhi hasilcendroid ahirnya.
Daftar Pustaka[1] Ediyanto, dkk, “Pengklasifikasian Karakteristik Dengan Metode
K-Means Cluster Analysis”, Buletin Ilmiah Mat. Stat danTerapannya (Bimaster) Volume 02, No. 2 (2013), hal 133-136
[2] Himamunanto Agustinus Rudatyo, Mendrova Hendrik,“Perbandingan Algoritma Binerisadi Pada Citra Tulang AbnormalTelapak Tangan Manusia”, Prosiding Konferensi Nasional SistemInformasi 2012 (KNSI 2012), STIKOM Bal 23-25 Pebruari 2012.
[3] Larose, Daniel, Discovery Knowledge in Data, A Jhon Wiley &Sons, Inc Publication. Canada: 2005
[4] Nasari Fina, “Penerapan Algoritma c4.5 Dalam Pemilihan BidangPeminatan Program Studi Sistem Informasi di STMIK PotensiUtama Medan” Prosiding Seminar Nasional Informatika 2014(SNIf 2014), STMIK Potensi Utama, Medan – Sumatera Utara.
[5] Ong Johan Oscar, “Implementasi Algoritma K-Means ClusteringUntuk Menentukan Strategi Marketing President University”,Jurnal Ilmiah Teknik Industri, Vol. 12, No. 1, Juni 2013.
[6] Tanjung Muhammad Rusdi, Erlinda Ningsih, “PerbandinganPenggunaan Data Real dan Data Hasil Normalisasi PadaPengelompokkan Data Dengan Menggunakan Metode Clustering(Studi Kasus PT. PHP Motor)”, Prosiding KeTIK 2014 UIN.Universitas Islam Negeri Medan – Sumatera Utara.
[7] T. Gomasathit. “Cloud Coverage Identification Using Satellite Dataand K-mean Clustering Algorithm”. Journal of Global Research inComputer Science, Volume 4, No. 7, July 2013.
Biodata Penulis
Fina Nasari, memperoleh gelar Sarjana Komputer(S.Kom), Program Studi Sistem Informasi UniversitasPotensi Utama, lulus tahun 2012. Memperoleh gelarMagister Komputer (M.Kom) Program Pasca SarjanaMagister Sistem Informasi Universitas Putra IndonesiaYPTK Padang, lulus tahun 2014. Saat ini menjadi Dosendi Universitas Potensi Utama.
Surya Darma, mahasiswa Fakultas Teknik dan IlmuKomputer Program Studi Sistem Informasi, Angkatan2011. Saat ini menjadi mahasiswa Semester VII diFakultas Teknik dan Ilmu Komputer Program StudiSistem Informasi Universitas Potensi Utama.