perbandingan 3 metode dalam data miningeprints.ums.ac.id/39922/20/02. naskah...
TRANSCRIPT
PERBANDINGAN 3 METODE DALAM DATA MINING
UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI
DI SMA NEGERI 6 SURAKARTA
Naskah Publikasi
Program Studi Informatika
Fakultas Komunikasi dan Informatika
Oleh :
Veronica Andriyana
Yusuf Sulistyo Nugroho, S.T., M.Eng
PROGRAM STUDI INFORMATIKA
FEKULTAS KOMUNIKASI DAN INFORMATIKA
UNIVERSITAS MUHAMMADIYAH SURAKARTA
MARET, 2015
PERBANDINGAN 3 METODE DALAM DATA MINING
UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI
DI SMA NEGERI 6 SURAKARTA
Veronica Andriyana, Yusuf Sulistyo Nugroho
Program Studi Informatika, Fakultas Komunikasi dan Informatika
Universitas Muhammadiyah Surakarta
Email : [email protected]
Abstraksi
Dalam rangka meningkatkan akses dan minat belajar siswa serta mengangkat
mutu sekolah, SMA N 6 Surakarta mengalokasikan dana beasiswa dalam bentuk apresiasi
untuk siswa berprestasi. Namun masih ada hal yang menjadi permasalahan yang sering
muncul, yaitu kurang tepatnya penyaluran beasiswa terhadap siswa. Beasiswa untuk
siswa berprestasi bertujuan memotivasi siswa untuk selalu meningkatkan prestasi
akademik maupun non akademik dan membantu siswa yang kurang mampu tetapi
berprestasi. Untuk mengatasi permasalahan tersebut adalah dengan cara menerapkan
proses data mining.
Dalam memprediksi siswa yang menerima beasiswa berdasarkan prestasi
menggunakan metode Naive Bayes, Decision Tree Algoritma ID3, dan Regresi Linear.
Atribut yang digunakan terdiri dari Nilai rata-rata, Gender, Ekstrakurikuler, Jurusan,
Semester, Jumlah Tanggungan Orang Tua, Gaji Orang Tua, dan Beasiswa. Untuk
melakukan proses data mining tersebut di perlukan tools pembantu yaitu RapidMiner 5.
Pengimplementasian data mining menggunakan perbandingan 3 metode dapat
diketahui bahwa berdasarkan dari jumlah sampel 305 siswa hasil nilai precision metode
Decision Tree Algoritma ID3 lebih baik digunakan untuk penelitian ini dibandingkan
dengan metode yang lain. Sedangkan berdasarkan nilai recall dan accuracy, Regresi
Linear lebih baik digunakan dibandingkan metode lain. Tetapi apabila dilihat dari hasil
secara keseluruhan prediksi penerima beasiswa variabel yang paling berpengaruh adalah
Nilai rata-rata.
Kata kunci : Algoritma ID3, Data mining, Decision Tree, Naive Bayes, Regresi Linear
PENDAHULUAN
Dalam dunia pendidikan, data
yang berlimpah dan berkesinam-
bungan mengenai siswa yang dibina
dan alumni terus dihasilkan. Menurut
Jing (2004) dan Merceron (2005)
dalam Nugroho (2014), data yang
berlimpah membuka peluang
diterapkannya data mining untuk
pengelolaan pendidikan yang lebih
baik dan data mining dalam
pelaksanaan pembelajaran ber-
bantuan komputer yang lebih efektif.
Dalam rangka meningkatkan
akses dan minat belajar siswa serta
mengangkat mutu sekolah, SMA
Negeri 6 Surakarta mengalokasikan
dana beasiswa dalam bentuk
apresiasi untuk siswa berprestasi.
Namun masih ada permasalahan
yang sering muncul, yaitu kurang
tepatnya penyaluran beasiswa
terhadap siswa, misalnya siswa yang
sebenarnya tidak layak mendapatkan
beasiswa tetapi mendapatkan
beasiswa, sebaliknya siswa yang
berhak mendapatkan beasiswa baik
itu beasiswa beprestasi maupun
beasiswa kurang mampu tetapi tidak
mendapatkan beasiswa. Tujuan dari
adanya beasiswa untuk siswa
berprestasi tersebut yaitu memotivasi
siswa untuk selalu meningkatkan
prestasi akademik maupun non
akademik, membantu siswa yang
kurang mampu tetapi berprestasi, dan
menumbuhkan rasa percaya diri
siswa untuk berkompetitif dalam
mengembangkan potensinya.
Berdasarkan permasalahan
tersebut dapat diambil solusi
dengan cara memanfaatkan teknik
data mining dengan
membandingkan 3 metode untuk
prediksi siswa penerima beasiswa
berdasarkan prestasi yaitu Naïve
Bayes, Decision Tree Algoritma
ID3, Regresi Linear. Dengan
analisis perbandingan tersebut,
diharapkan dapat membantu
menemukan informasi tentang
siswa yang menerima beasiswa
berdasarkan prestasi sehingga
membantu pihak sekolah dalam
mencari solusi dapat mengetahui
tingkat prestasi siswa dan lebih
meningkatkan lagi mutu pendidikan
sekolah dengan adanya siswa-siswa
yang berprestasi.
LANDASAN TEORI
1. Prediksi / Peramalan
Menurut susanto dalam Mauriza
(2014) Prediksi adalah
memperkirakan sesuatu yang
akan terjadi pada masa yang
mendatang. Prediksi juga dapat
digunakan dalam pengklasifi-
kasian, tidak hanya untuk
memprediksi time series, karena
sifatnya yang bisa menghasilkan
class berdasarkan atribut yang
ada.
2. Data Mining
Data Mining sering disebut
KDD (Knowledge discovery in
database). KDD adalah kegiatan
yang meliputi pengumpulan,
pemakaian data, historis, untuk
menemukan keteraturan, pola
atau hubungan dalam set data
berukuran besar. (Santoso, 2007)
3. Naive Bayes
Naive Bayes adalah teknik
prediksi berbasis probabilitic
sederhana yang berdasar pada
penerapan Teorema Bayes
(aturan Bayes) dengan asumsi
independensi
(ketidakketergantungan) yang
kuat. (Prasetyo, 2012)
4. Decision Tree Algoritma ID3
Decision Tree adalah metode
untuk menemukan fungsi
pendekatan yang bernilai diskrit
dan tahan terhadap data-data
yang memiliki kesalahan (noisy
data) serta mampu mempelajari
ekspresi-ekspresi disjunctive
seperti OR. Iterative
Dychotomizer version 3 (ID3)
adalah salah satu jenis decision
tree yang umumnya digunakan
untuk menemukan aturan yang
diharapkan bisa berlaku untuk
data-data tidak lengkap atau
belum pernah kita ketahui.
(Lesmana, 2012)
5. Regresi Linear
Analisis regresi adalah teknik
statistik untuk permodelan dan
investigasi hubungan dua atau
lebih variabel. (Santosa, 2007)
METODE PENELITIAN
a. Penentuan Atribut
Tahap yang pertama adalah
menganalisis dan menyeleksi
data keseluruhan untuk
mendapatkan atribut dengan
record yang relevan terhadap
keluaran yang diinginkan.
Atribut yang digunakan dalam
prediksi penerima beasiswa
terdapat dalam tabel 1
Tabel 1 Daftar Atribut
Atribut Variabel
Beasiswa Y
Nilai rata – rata X1
Gender X2
Ekstrakurikuler X3
Jurusan X4
Semester X5
Jumlah tanggungan orang tua X6
Gaji orang tua X7
b. Implementasi Data Mining
1. Naive Bayes
Klaifikasi Bayesian adalah
klasifikasi statistik yang bisa
memprediksi probabilitas
sebuah class. Klasifikasi ini
dihitung berdasarkan Teoema
Bayes. (Widiastuti, 2010)
Persamaan dari teorema Bayes
dirumuskan seperti Persamaan
1 berikut ini :
.......... (1)
2. Decision Tree Algoritma ID3
Hal yang harus dilakukan
dalam metode decision tree
adalah menghitung entrophy
dan information gain. (Ranny
dkk, 2012)
Persamaan 2 Rumus entrophy :
.........(2)
Persamaan 3 Rumus Information Gain
..................(3)
3. Regresi Linear
Analisis regresi adalah teknik
statistik untuk permodelan dan
investigasi hubungan dua atau
lebih variabel. (Santosa, 2007)
Persamaan 4 Rumus Regresi
Linear :
...............................................(4)
HASIL DAN PEMBAHASAN
1. Penentuan Sampel
Untuk mendapatkan sampel yang
dapat menggambarkan dan
mewakili jumlah populasi, maka
dalam penentuan sampel
penelitian ini digunakan rumus
Slovin (Umar, 2004)
Rumus Slovin dirumuskan seperti
Persamaan 5 berikut ini :
.......................... (5)
n = 1290 / 1 + 1290 (0,05)2
n = 305,325 siswa
Jadi dibulatkan menjadi 305
siswa yang digunakan sebagai
data sampel.
Gambar 1 Scatter Plot NaiveBayes menggunakan data testing
2. Hasil Implementasi Naive
Bayes menggunakan
RapidMiner 5
Berdasarkan scatter plot pada
gambar 1 menunjukkan bahwa
penerima beasiswa dengan nilai rata-
rata nilai≥8 dan jurusan BAHASA
sebagian ada yang menerima
beasiswa. Sedangkan nilai≥8 dan
jurusan IPA hasilnya tidak ada yang
menerima beasiswa.
3. Hasil Implementasi Decision
Tree Algortima ID3
menggunakan RapidMiner 5
Berdasarkan scatter plot dalam
gambar 2 menunjukkan bahwa
6<nilai≤8 dan Jurusan IPA hasilnya
mayoritas TIDAK MENERIMA.
Sedangkan nilai≥8 dan Jurusan IPS
hasilnya mayoritas TIDAK
MENERIMA tetapi ada beberapa
siswa yang MENERIMA beasiswa
tersebut.
4. Hasil Implementasi Regresi
Linear menggunakan
RapidMiner 5
Berdasarkan scatter plot dalam
gambar 3 menunjukkan bahwa
6<nilai≤8 (3) dan Jurusan IPA (0)
hasilnya mayoritas TIDAK
MENERIMA. Sedangkan nilai≥8 (4)
dan Jurusan IPS (1) hasilnya
mayoritas TIDAK MENERIMA
tetapi ada beberapa siswa yang
MENERIMA beasiswa tersebut.
Gambar 2 Tampilan hasil decision tree pada Scatter Plot
Gambar 3 Scatter view Regresi Linear
5. Perhitungan Naive Bayes
Sebagai contoh penulis
mengambil salah satu data uji
yang memiliki ciri sebagai
berikut :
nilai ≥ 8, PEREMPUAN,
OLAHRAGA, IPA, semester 5,
tanggungan ≤ 4, gaji ≤ 1500000.
Apakah siswa tersebut Menerima
atau Tidak Menerima beasiswa ?
Fakta menunjukkan :
P( Y =MENERIMA)= 31 / 305
= 0,10164
P( Y =TIDAK MENERIMA)=
274 / 305 = 0,89836
Fakta :
P (X1= nilai≥ 8 |Y=
MENERIMA)= 25 / 31 =
0,80645
P (X1= nilai≥ 8 |Y= TIDAK
MENERIMA)= 125 / 274 =
0,45620
P (X2= PEREMPUAN |Y=
MENERIMA)= 19 / 31 =
0,61290
P (X2= PEREMPUAN |Y=
TIDAK MENERIMA)= 90 / 274
= 0,32847
P (X3= OLAHRAGA |Y=
MENERIMA)= 3 / 31 = 0,09677
P (X3= OLAHRAGA |Y=
TIDAK MENERIMA)= 22 / 274
= 0,08029
P (X4= IPA |Y= MENERIMA)=
2 / 31 = 0,06452
P (X4= IPA |Y= TIDAK
MENERIMA)= 7 / 274 =
0,02555
P (X5= 5 |Y= MENERIMA)= 1 /
31 = 0,03226
P (X5= 5 |Y=TIDAK
MENERIMA)= 4 / 274 =
0,01460
P (X6= tanggungan≤ 4 |Y=
MENERIMA)= 1 / 31 = 0,03226
P (X6= tanggungan≤ 4 |Y=
TIDAK MENERIMA)= 2 / 274 =
0,00730
P (X7= gaji ≤ 1500000 |Y=
MENERIMA)= 1 / 31 = 0,03226
P (X7= gaji ≤ 1500000|Y=
TIDAK MENERIMA)= 1 / 274 =
0,00365
HMAP dari keadaan ini dapat
dihitung dengan :
P(X1= nilai ≥ 8, X2=
PEREMPUAN, X3=
OLAHRAGA, X4= IPA, X5= 5,
X6= tanggungan≤ 4, X7 = gaji ≤
1500000 | Y = MENERIMA)
= 0,00105287
P(X1= nilai ≥ 8, X2= PEREMPUAN,
X3= OLAHRAGA, X4= IPA, X5= 5,
X6= tanggungan≤ 4, X7 = gaji ≤
1500000 | Y = TIDAK
MENERIMA)
= 0,0000107389
KEPUTUSAN PREDIKSI
BEASISWA = MENERIMA.
6. Perhitungan Decision Tree
Algoritma ID3
a) Menentukan Root Node
Root Node adalah atribut yang
memiliki nilai information gain
paling tinggi.
Tabel 2 Information gain
tertinggi
Atribut Nilai gain
Gender 0,001
Nilai rata - rata 0,035
Ekstrakurikuler 0,028
Jurusan 0,000
Semester 0,015
Tanggungan
orang tua
0,002
Gaji orang tua 0,009
b) Menentukan Internal Node
pertama
Menentukan internal node pada
Nilai rata-rata 6 < nilai ≤ 8
didapatkan nilai information gain
seperti pada tabel 3.
Tabel 3 Nilai Information gain
Atribut Nilai Gain rata-
rata
6 < nilai ≤ 8
Gender 0,005
Ekstrakurikuler 0,017
Jurusan 0,039
Semester 0,033
Tanggungan
orang tua
0,001
Gaji orang tua 0,018
c) Menentukan Internal Node kedua
Menentukan internal node pada
Nilai rata-rata 6 < nilai ≤ 8 dan
jurusan BAHASA didapatkan
nilai information gain seperti pada
tabel 4.
Tabel 4 Nilai Information gain
Atribut Nilai Gain
6 < nilai ≤ 8
BAHASA
Gender 0,061
Ekstrakurikuler 0,075
Semester 0,026
Tanggungan
orang tua
0,075
Gaji orang tua 0,048
d) Menentukan Leaf Node
Menentukan leaf node pada Nilai
rata-rata 6 < nilai ≤ 8, jurusan
BAHASA dengan ekstrakurikuler
Olahraga didapatkan nilai
information gain seperti pada
tabel 5.
Tabel 5 Nilai Information gain
Atribut Nilai Gain
6 < nilai ≤ 8,
BAHASA,
Olahraga
Gender 0,000
Semester 0,000
Tanggungan
orang tua
0,000
Gaji orang tua 0,000
Dari hasil tabel 5 dapat disimpulkan
bahwa ekstrakurikuler Olahraga
menghasilkan leaf node, karena hasil
dari information gain bernilai 0.
7. Perhitungan Regresi Linear
Dari perhitungan implementasi
Regresi Linear menggunakan
RapidMiner menghasilkan sebuah
persamaan sebagai berikut :
Y = (0,136 × NILAI RATA –
RATA) – ( 0,078 × SEMESTER)
+ (0,021 × JUMLAH
TANGGUNGAN ORANG TUA)
+ 0,858
Dari persamaan tersebut
dibuktikan dengan perhitungan
manual dengan mengambil
beberapa sampel data seperti di
bawah ini :
Pengujian penghitungan siswa
yang MENERIMA BEASISWA :
Y = (0,136 × 4) – (0,078 × 2) +
(0,021 × 0) + (0,015 × 0) + 0,858
= 1,246
Karena hasilnya mendekati 1
maka hasilnya MENERIMA.
KESIMPULAN
Berdasarkan penjelasan dan analisis
yang telah diuraikan, maka dapat
ditarik kesimpulan bahwa :
1. Variabel yang paling
mempengaruhi dari hasil
perhitungan 3 metode (Naive
Bayes, Decision Tree Algoritma
ID3, dan Regresi Linear) adalah
nilai rata – rata.
2. Berdasarkan dari nilai precision,
metode Decision Tree Algoritma
ID3 lebih baik digunakan dalam
penelitian ini karena memiliki
nilai lebih baik dari pada
algoritma yang lainnya.
3. Berdasarkan nilai recall dan
accuracy, Regresi Linear lebih
baik digunakan dalam penelitian
ini karena memiliki nilai lebih
baik dari metode yang lain.
4. Hasil dari nilai precision, recall,
dan accuracy nya adalah sebagai
berikut:
a. Naive Bayes hasil precision
89,90% , recall 99,64%, dan
accuracy 89,51%.
b. Decision Tree Algoritma ID3
hasil precision 90,04% , recall
82,48%, dan accuracy 76,07%.
c. Regresi Linear hasil precision
89,84% , recall 100,00%, dan
accuracy 89,84%.
DAFTAR PUSTAKA
Lesmana, Dody Putu. 2012. ‘Perbandingan Kinerja Decision Tree J48 dan ID3
Dalam Pengklasifikasian Diagnosis Penyakit Diabetes Mellitus’. Jurnal
Teknologi dan Informatika, Vol. 2, no. 2.
Mauriza, Ahmad Fikri. 2014. ‘Implementasi Data Mining Untuk Memprediksi
Kelulusan Mahasiswa Fakultas Komunikasi dan Informatika UMS
Menggunakan Metode Naïve Bayes’, Skripsi.Fakultas Komunikasi Dan
Informatika, Universitas Muhammadiyah Surakarta.
Nugroho, Yusuf Sulistyo. 2014. ‘Klasifikasidan Prediksi Masa Studi dan Prestasi
Mahasiswa Fakultas Komunikasi dan Informatika Universitas
Muhammadiyah Surakarta’, Jurnal KomuniTI, Vol VI, No 1, Maret 2014.
Prasetyo, Eko. 2012. Data Mining konsep dan aplikasi menggunakan matlab.
Yogyakarta: Andi.
Ranny dkk. 2012. ‘Pemilihan Diet Nutrien bagi Penderita Hipertensi
Menggunakan Metode Klasifikasi Decision Tree’, Jurnal Teknik ITS, Vol.
1, No.1.
Santosa, Budi. 2007. Data Mining Terapan dengan Matlab. Yogyakarta: Graha
Ilmu.
Santoso, Budi. 2007. Data Mining Teknik Pemanfaatan Data untuk Keperluan
Bisnis. Yogyakarta: GrahaIlmu.
Umar, Husein (2014). Metode Penelitian Untuk Skripsi Dan Tesis Bisnis.
Cetakanke – 6.Jakarta : PT Raja GrafindoPersada.
Widiastuti, Dwi. 2010. ‘Analisa Perbandingan Algoritma SVM, Naive Bayes, dan
Decision Tree dalam Mengklasifikasikan Serangan (Attacks) pada Sistem
Pendeteksi Instrusi’, Jurnal Jurusan Sistem Informasi , Universitas
Gunadarma.
BIODATA PENULIS
Nama : Veronica Andriyana
NIM : L200110086
Tempat Lahir : Surakarta
Tanggal Lahir : 8 Februari 1993
Jenis Kelamin : Perempuan
Agama : Islam
Pendidikan : S1
Fakultas : Jurusan Informatika/Fakultas Komunikasi dan Informatika
Universitas : Universitas Muhammadiyah Surakarta
Alamat : Jl. Tarumanegara Utara II, Tempel RT 5 RW 7,
Banyuanyar, Banjarsari, Surakarta
Nomor Telepon : 085799480482
Email : [email protected]