k-means
TRANSCRIPT
Pengelompokan Penjurusan Calon Siswa Baru SMK Berdasarkan Nilai Ujian
Nasional Dan Ujian Masuk Dengan Algoritma K-Means
Nama : Muslichun Alcharis T
NIM : P31.2011.01114
Kelas : weekend XX
Abstraksi
Pada penelitian ini, penulis berusaha menambang data(data mining) calon siswa baru sebuah Sekolahan Menengah Kejuruan untuk mengelompokkan calon siswa baru yang akan di masukkan ke dalam 3 jurusan Teknik Otomotif, Teknik Mesin Perkakas dan Teknik Listrik. Data yang ada dianalisis menggunakan pendekatan K-means. Dengan algoritma ini dapat diketahui data calon siswa baru yang akan dikelompokkan ke dalam jurusan Teknik Otomotif, Teknik Mesin Perkakas dan Teknik Listrik.
Kata Kunci: data mining, algoritma k-means.
1. Latar Belakang Masalah
Seiring dengan perkembangan
jaman, peran komputer semakin banyak
di dalam kehidupan masyarakat. Hampir
semua bidang kehidupan telah
menggunakan komputer sebagai alat
bantu. Diharapkan pada
perkembangannya, computer dapat
langsung dirasakan manfaatnya oleh
masyarakat.
Nilai ujian nasional dan ujian tes
masuk sekolah merupakan kemampuan
dasar yang harus diakui, Dari nilai tes
masuk dan nilai ujian nasional itu bisa
diklasifikasikan siswa dengan untuk
menempati jurusan otomotif, mesin
perkakas, dan listrik.
Sehingga dari kasus ini akan diuji dengan
melakukan clustering atau pengelompokan siswa
berdasarkan nilai ujian nasional dan nilai tes
sekolah, Agar bisa diketahui kelompok siswa yang
berkemampuan kurang, sedang, dan baik. Dengan
demikian seorang panitia bisa mengambil kebijakan
untuk memberikan penjurusan pada calon siswa
yang masuk.
K-Means merupakan salah satu metode data
clustering non hirarki yang berusaha mempartisi
data yang ada ke dalam bentuk satu atau lebih
cluster/kelompok. Metode ini mempartisi data ke
dalam cluster/kelompok sehingga data yang
memiliki karakteristik yang sama dikelompokkan
ke dalam satu cluster yang sama dan data yang
mempunyai karakteristik yang berbeda
dikelompokkan ke dalam kelompok yang lain.
2. Tinjauan Pustaka
Pengelompokan siswa
Siswa dikelompokan dari hasil tes rata2 nilai
tes ujian nasial dan ujian tes masuk, batasan nilai
mulai dari 0 sampai 10 dengan batas
pengelompokan sebagai berikut :
< 5.9 : Jurusan Listrik
6 – 8.9 : Jurusan Mesin Perkakas
>9 : Jurusan Otomotif
Algoritma klasifikasi K-Means
K-Means merupakan algoritma clustering
yang berulang-ulang. Algoritma K-Means dimulai
dengan pemilihan secara acak K, K disini
merupakan banyaknya cluster yang ingin dibentuk.
Kemudian tetapkan nilai-nilai K secara random,
untuk sementara nilai tersebut menjadi pusat dari
cluster atau biasa disebut dengan centroid, mean
atau “means”. Hitung jarak setiap data yang ada
terhadap masing-masing centroid menggunakan
rumus Euclidian hingga ditemukan jarak yang
paling dekat dari setiap data dengan centroid.
Klasifikasikan data berdasarkan kedekatanya
dengan centroid. Lakukan langkah tersebut hingga
nilai centroid tidak berubah (stabil).[2]
3. Metodologi Penelitian
Data pengujian
Contoh data awal sebelum dilakukan klasifikasi
adalah sebagai berikut :
Tabel 1. Contoh kemampuan siswa
Siswa ke
UAN UTes
1 5 72 8 83 6,5 54 10 95 7,5 8
Pengelompokkan
Dari contoh dokumen yang sudah diperoleh,
selanjutnya akan digunakan algoritma klasifikasi K-
Means untuk mengelompokkan data yang ada. Data
yang ada akan dikelompokkan menjadi 3 kelompok,
adapun langkah dari pengelompokkan data adalah
sebagai berikut :
1. Tentukan pusat cluster secara acak, misalkan,
kita tentukan c₁ = (5;8), c₂ = (7;9), dan c₃ =
(8;10)
2. Hitung jarak setiap data yang ada terhadap setiap
pusat cluster. Misalkan untuk menghitung jarak
data siswa pertama dengan pusat cluster pertama
adalah :
d₁₁ = ∑ √ (5-5)² + (7-8)² = 1
d₁₂ = ∑ √ (5-7)² + (7-9)² = 2,83
d₁₃ = ∑ √ (5-8)² + (7-10)² = 4,24
Tabel 2. Hasil perhitungan pada iterasi pertama
Siswa ke
UAN UTes c₁ c₂ c₃
1 5 7 1 2,83 4,24
2 8 8 3 1,41 2
3 6,5 5 3,35 4,03 5,22
4 10 9 5,10 3 2
5 7,5 8 2,5 1,12 2,06
3. Suatu data akan menjadi anggota dari
suatu cluster yang memiliki jarak
terkecil dari pusat clusternya. Misalkan
untuk data pertama, jarak terkecil
diperoleh pada cluster pertama,
sehingga data pertama akan menjadi
anggota dari cluster pertama.
Demikian juga untuk data kedua, jarak
terkecil ada pada cluster kedua, maka
data tersebut akan masuk pada cluster
kedua. Posisi cluster selengkapnya
dapat dilihat pada Tabel 3
Tabel 3. Hasil cluster pada iterasi pertama
Siswa ke
UAN UTes c₁ c₂ c₃
1 5 7 *
2 8 8 *
3 6,5 5 *
4 10 9 *
5 7,5 8 *
4. Hitung pusat cluster baru. Untuk cluster pertama,
ada 2 data yaitu data ke-1 dan data ke-3,
sehingga:
C11 = (5+6,5) / 2 = 5,75
C12 = (7+5) / 2 = 6
Untuk cluster kedua, ada 2 data yaitu data ke-2 dan
data ke-5, sehingga:
C21 = (8+7,5)/2 = 7,75
C22 = (8+8)/2 = 8
Untuk cluster ketiga, ada 1 data yaitu data ke-4.
C31= 10
C32= 9
Ulangi langkah 2 hingga posisi data sudah tidak
mengalami perubahan.
Tabel 4. Hasil perhitungan pada iterasi ke-2
Siswa ke
UAN Utes c₁ c₂ c₃
1 5 7 1,25 2,92 5,38
2 8 8 3,10 0,25 2,24
3 6,5 5 1,25 3,25 6,10
4 10 9 5,20 2,46 0
5 7,5 8 2,66 0,25 2,69
Tabel 5. Hasil cluster pada iterasi ke-2
Siswa ke
UAN Utes c₁ c₂ c₃
1 5 7 *
2 8 8 *
3 6,5 5 *
4 10 9 *
5 7,5 8 *
Karena pada iterasi ke-1 dan ke-2 (Tabel 3 &5)
posisi cluster tidak berubah, maka iterasi dihentikan
dan hasil akhir yang diperoleh adalah 3 cluster :
• Cluster pertama memiliki pusat (5.7,6) yang dapat
diartikan sebagai kelompok siswa dengan nilai
kurang pada UAN dan sedang pada Nilai UTes
maka akan dimasukkan ke jurusan Listrik.
• Cluster kedua memiliki pusat (7.75,8) yang dapat
diartikan sebagai kelompok siswa yang akan masuk
jurusan mesin perkakas karena nilainya rata dari
UAN dan UTes.
• Cluster ketiga memiliki pusat (10,9) yang dapat
diartikan sebagai kelompok siswa dengan nilai
bagus pada UAN dan UTes dan akan dimasukkan
ke Jurusan Otomotif.
Daftar pustaka :
[1] Agusta, Yudi. Pebruari 2007. “K-Means-Penerapan,
Permasalahan dan Metode Terkait”. Jurnal Sistem dan
Informatika Vol.3 : 47-60.
[2] Witten, Ian H. dan Frank, Eibe. 2005. Data Mining Practical Machine Learning Tools and Techniques, Second Edition. Morgan Kaufmann, San Fransisco.
Referensi :
Tedi Rismawan dan Sri Kusumadewi, 2008. Aplikasi K-Means
Untuk Pengelompokkan Mahasiswa berdasarkan Nilai Bodi
Mass Index (BMI) dan Ukuran Kerangka. FTI,UII,
Yogyakarta.