analisis perbandingan algoritma decision tree …
Post on 25-May-2022
21 Views
Preview:
TRANSCRIPT
JURNAL LENTERA ICT Volume 5 Nomor 2, November 2019
11
ANALISIS PERBANDINGAN ALGORITMA DECISION TREE
DENGAN SUPPORT VECTOR MACHINE
UNTUK MENDETEKSI KOMPETENSI MAHASISWA
KONSENTRASI INFORMATIKA KOMPUTER
STUDI KASUS : POLITEKNIK LP3I JAKARTA, KAMPUS DEPOK
Oleh: 1Karno Ganjar Prasetyo,
2Said Mirza Pahlevi
1Program Studi Manajemen Informatika, Politeknik LP3I Jakarta
Gedung Centra Kramat Jalan Kramat Raya No.7-9 Jakarta Pusat 10450
Telp. 021-31904598 Fax. 021-31904599
2Program Pascasarjana Magister Ilmu Komputer
Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri (STMIK Nusa Mandiri)
Jl. Salemba Raya No. 5 Jakarta Pusat
email:
1karnogp@gmail.com,
2smirzap@gmail.com
ABSTRACT
Detection of computer informatics student competence is indispensable for anticipating
students who have a very poor performance in following the learning process in an
educational institution for the purpose of all educational institutions are creating a
qualified student. It can be seen in the results of the 5th and 6th semester students who
have gained employment. Polytechnic LP3I Jakarta Depok one vocational education
institution founded to create a human being who has the ability / skills required by the
company so that the concept is to offer education that have Link and Match. Competitors
who have the same goals is one of the challenges to be faced by the agency so we need a
solution to overcome it. One solution is the detection of computer informatics student
competence of students. This can be done by using data mining techniques. One data
mining techniques used are support vector machines (SVM). Support vector machine
method is able to overcome the problem of high-dimensional, addressing the problem of
classification and regression with linear or nonlinear kernel that can be the ability of
learning algorithms for classification and regression, but the support vector machine has
a problem in the appropriate parameters. To overcome these problems required method of
decision tree as a comparison, for the selection of appropriate parameters. Several
experiments were conducted to obtain optimum accuracy. Experiments using support
vector machine and decision tree which is used to optimize the parameters C, and ε
population. Training data used computer informatics student data from 2012 to 2014
academic year. The experimental results show the decision tree method of data that is
equal to 92.50% with a ratio of 60 training data were compared with data vector machine
that is equal to an accuracy of 92.56% and the second T-Test metod done that method has
a probability value of < 0.05 which algorithm C4.5.
Keywords: Detection, Competence, Support Vector Machine, Decision Tree
PENDAHULUAN
Dalam Peraturan Pemerintah No.60
tahun 1999 tentang Pendidikan Tinggi di
perguruan tinggi atau yang biasa disebut
pendidikan kampus adalah pendidikan
pada jalur pendidikan sekolah pada
jenjang yang lebih tinggi daripada
JURNAL LENTERA ICT Volume 5 Nomor 2, November 2019
12
pendidikan menengah di jalur pendidikan
sekolah. Perguruan tinggi adalah satuan
pendidikan yang menyelenggarakan
pendidikan tinggi. Tujuan Pendidikan
Tinggi Menurut PP No. 60 Tahun 1999
tentang Pendidikan Tinggi (PT), Pasal 2,
adalah :
1. Menyiapkan peserta didik menjadi
anggota masyarakat yang memiliki
kemampuan akademik dan/atau
profesional yang dapat menerapkan,
mengembangkan dan/atau
memperkaya khasanah ilmu
pengetahuan, teknologi dan/atau
kesenian;
2. Mengembangkan dan
menyebarluaskan ilmu pengetahuan,
teknologi dan/atau kesenian serta
mengupayakan penggunaannya untuk
meningkatkan taraf kehidupan
masyarakat dan memperkaya
kebudayaan nasional.
Beberapa pergeseran dalam hal
kompetensi dunia kerja yang terjadi
dewasa ini meliputi dinamika hubungan
antara pendidikan tinggi dan dunia kerja.
Observasi Teichler (1997; 1999); Yorke
dan Knight (2006) terutama terkait
dengan jurang antara outcome pendidikan
tinggi dan tuntutan kompetensi di dunia
kerja. Beberapa pergeseran penting yang
terjadi meliputi terjadinya peningkatan
pengangguran terdidik baik
pengangguran terbuka maupun
terselubung sebagai akibat dari
massifikasi pendidikan tinggi,
berubahnya struktur sosio-ekonomi dan
politik global yang mempengaruhi pasar
dunia kerja dan perkembangan ilmu
pengetahuan dan teknologi yang pesat
sehingga menyebabkan terjadinya
bebagai perubahan-perubahan mendasar
dalam hal kualifikasi, kompetensi, dan
persyaratan untuk memasuki dunia kerja.
SVM merupakan salah satu teknik
data mining yang dapat digunakan untuk
berbagai macam tujuan diantaranya pada
bidang bahasa yang dilakukan oleh
Saraswati, komputer yang dilakukan oleh
Jacobus, perbankan yang dilakukan oleh
Satsiou.
Algoritma Decision Tree atau C45
merupakan teknik data mining yang
mengubah fakta yang sangat besar
menjadi pohon keputusan yang
merepresentasikan aturan. Aturan dapat
dengan mudah dipahami dengan bahasa
alami.
LANDASAN TEORI
Pengertian Mahasiswa
Menurut UU No. 12 tahun 2012,
adalah “peserta didik pada jenjang
pendidikan tinggi”. Sedangkan menurut
(Azwar, 2004), Mahasiswa adalah elite
masyarakat yang mempunyai
intelektualitas yang komplek
dibandingkan dengan kelompok
seusianya,dibawah maupun diatasnya
yang bukan mahasiswa. Ciri
intelektualitas tersebut adalah
kemampuan mahasiswa menghadapi,
memahami dan mencari cara pemecahan
masalah secara lebih sistematis.
Kompetensi Dunia Kerja
Beberapa pergeseran dalam hal
kompetensi dunia kerja yang terjadi
dewasa ini meliputi dinamika hubungan
antara pendidikan tinggi dan dunia kerja.
Observasi Teichler (1997; 1999); Yorke
dan Knight (2006) terutama terkait
dengan jurang antara outcome pendidikan
tinggi dan tuntutan kompetensi di dunia
kerja. Beberapa pergeseran penting yang
terjadi meliputi terjadinya peningkatan
pengangguran terdidik baik
pengangguran terbuka maupun
terselubung sebagai akibat dari
massifikasi pendidikan tinggi,
berubahnya struktur sosio-ekonomi dan
politik global yang mempengaruhi pasar
dunia kerja dan perkembangan ilmu
pengetahuan dan teknologi yang pesat
sehingga menyebabkan terjadinya
bebagai perubahan-perubahan mendasar
JURNAL LENTERA ICT Volume 5 Nomor 2, November 2019
13
dalam hal kualifikasi, kompetensi, dan
persyaratan untuk memasuki dunia kerja.
Teichler (1997; 1998)
menyampaikan hasil survei di Eropa
yang menunjukkan bahwa terlepas dari
spesialisasi pendidikannya, lulusan
perguruan tinggi diharapkan dapat
fleksibel mampu dan mau memberikan
kontribusi terhadap inovasi, mampu
mengatasi ketidakpastian, siap untuk
belajar sepanjang hidup, memiliki
sensitifitas sosial dan keterampilan
komunikasi, mampu bekerja dalam
kelompok bertanggung jawab,
menyiapkan diri untuk menghadapi
kompetisi internasional, memiliki
pengetahuan di luar wilayah spesifik
keahliannya, mengerti bagaimana cara
mengkombinasikan berbagai disiplin, dan
kreatif.
Dalam kaitannya dengan
keberhasilan pendidikan tinggi
menembus dunia kerja, Teichler (1999)
menyebutkan 5 kriteria utama
keberhasilan yaitu: (Hasil Tracer Study
FKM UI Tahun 2006).
1. Transisi yang mulus dari pendidikan
tinggi kedunia kerja meliputi masa
tunggu kerja yang singkat dan upaya
pencarian kerja yang sederhana
2. Rasio pengangguran yang rendah
3. Rasio pekerjaan non reguler yang
rendah
4. Kesuksesan lulusan secara vertikal
dalam arti investasi pendidikan
memperoleh keuntungan atau
pendapatan lulusan lebih tinggi
dibanding bukan lulusan atau rasio
bekerja lulusan yang tinggi
Kesuksesan lulusan secara
horizontal dalam arti hubungan yang erat
antara bidang studi dan jenis pekerjaan
atau tingginya utilisasi pengetahuan yang
diperoleh selama pendidikan tinggi dalam
pekerjaan.
Data Mining
Ada beberapa definisi yang
diberikan oleh para ahli mengenai data
mining diantaranya adalah bahwa data
mining merupakan proses yang
mempekerjakan satu atau lebih teknik
pembelajaran komputer (machine
learning) untuk menganalisis dan
mengekstraksi pengetahuan (knowledge)
secara otomatis. Data mining, sering juga
disebut knowledge discovery in database
(KDD), adalah kegiatan yang meliputi
pengumpulan, pemakaian data historis
untuk menemukan pola keteraturan, pola
hubungan dalam set data berukuran besar
dan keluaran dari data mining ini dapat
dijadikan untuk memperbaiki
pengambilan keputusan di masa depan.
Berikut ini tahapan proses penemuan
pengetahuan dijelaskan menurut adalah
sebagai berikut :
1. Cleaning
Pembersihan data yang tidak konsisten
dan noise.
2. Integration
Penggabungan data dari berbagai sumber
baik tabel maupun database.
3. Selection
Data yang ada pada database sering kali
tidak semuanya dipakai, oleh karena itu
hanya data yang sesuai untuk dianalisis
yang akan diambil dari database.
4. Transformation
Data diubah atau digabung ke dalam
format yang sesuai untuk diproses dalam
data mining.
5. Data mining
Merupakan suatu proses utama saat
metode diterapkan untuk menemukan
pengetahuan berharga dan tersembunyi
dari data.
6. Pattern evaluation
Hasil data yang telah ditemukan berupa
pola –pola tertentu sesuai dengan
hipotesa di evaluasi jika tidak sesuai
dikembalikan untuk diperbaiki proses
data miningnya atau Hasil dapat
langsung dijadikan hasil akhir yang
mungkin bermanfaat.
7. Presentation
Presentasi pola yang ditemukan untuk
menghasilkan aksi dan memformulasikan
JURNAL LENTERA ICT Volume 5 Nomor 2, November 2019
14
keputusan atau aksi dari hasil analisa
yang didapat. Berdasarkan tugasnya, data mining
dikelompokkan menjadi:
1. Deskripsi
Mencari cara untuk menggambarkan pola
dan trend yang terdapat dalam data.
2. Estimasi
Estimasi mirip seperti klasifikasi tapi
variabel sasaran adalah numerik. Model
dibuat menggunakan record yang lengkap,
juga ada variable targetnya. Kemudian
untuk data baru, estimasi nilai variable
target dibuat berdasarkan nilai prediktor.
3. Prediksi
Prediksi mirip seperti klasifikasi dan
estimasi, tapi hasilnya untuk memprediksi
masa depan.
4. Klasifikasi
Dalam klasifikasi, sasarannya adalah
variabel kategori, misalkan atribut
penghasilan, yang bisa dikategorikan
menjadi tiga kelas atau kategori yaitu,
tinggi, sedang, dan rendah. Model data
mining membaca sejumlah besar record
tiap record berisi informasi pada variabel
target.
5. Clustering
Clustering mengacu pada
pengelompokkan record-record,
observasi, atau kasus-kasus ke dalam
kelas-kelas dari objek yang mirip. Pada
clustering tidak ada variabel sasaran.
Sebuah cluster adalah koleksi record yang
mirip satu sama lain, dan tidak mirip
dengan record pada cluster. Tidak seperti
klasifikasi, pada clustering tidak ada
variabel target.
6. Asosiasi
Tugas asosiasi untuk data mining adalah
kegiatan untuk mencari atribut yang “go
together”. Dalam dunia bisnis, asosiasi
dikenal sebagai affinity analysis atau
market basket analysis, tugas asosiasi
adalah membuka rules untuk pengukuran
hubungan antara dua atribut atau lebih.
Algoritma Support Vector Machine
(SVM)
SVM adalah usaha mencari
hyperplane terbaik yang berfungsi
sebagai pemisah dua buah class pada
input space.
Gambar 1.
SVM mencari hyperplane terbaik
Input data dapat berupa linear dan
non linear. Jika input data berupa linear
maka maka pemisahan hyperplane dapat
diberikan dalam persamaan :
f(X) =wTx+b(3) (1)
dimana w adalah n-dimensi bobot
vektor dan b adalah pengali skala atau
nilai bias. Persamaan ini menemukan
maksimum margin untuk memisahkan
kelas dari kelas positif dari kelas negatif.
Fungsi keputusan ditunjukkan dalam
persamaan. Contoh untuk data linear
terpisah ditunjukkan pada Gambar 2 :
yi(w ·xi+b) ≥1 i=1. ..k (2)
Pemillihan Parameter pada Support
Vector Machine
Untuk mendapatkan tingkat kinerja
yang tinggi, beberapa parameter dari
algoritma SVM harus diperbaiki,
termasuk:
1. Pemilihan Fungsi Kernel
2. Kinerja SVM tergantung pada pilihan
fungsi kernel, besaran parameter
kernel dan penentuan parameter C.
Fungsi kernel yang berbeda
memperoleh tingkat keberhasilan
yang berbeda untuk berbagai jenis
data aplikasi. Ketika nilai penentuan
parameter C yang dipilih terlalu besar
atau terlalu kecil, generalisasi SVM
mungkin berkurang. Jika parameter
kernel dan penentuan parameter yang
tepat dipilih, kinerja SVM akan
optimal.
3. Parameter kernel(s);
4. Parameter regularisasi (C, ν, ε) untuk
tradeoff antara kompleksitas model
dan akurasi mode.
JURNAL LENTERA ICT Volume 5 Nomor 2, November 2019
15
Algoritma Decision Tree (C4.5)
Decision tree merupakan metode
klasifikasi dan prediksi yang sangat kuat
dan terkenal. Metode decision tree
mengubah fakta yang sangat besar
menjadi pohon keputusan yang
merepresentasikan aturan. Aturan dapat
dengan mudah dipahami dengan bahasa
alami. Proses pada decision tree adalah
mengubah bentuk data (tabel) menjadi
model pohon, mengubah model pohon
menjadi rule, dan menyederhanakan rule.
Saat menyusun sebuah decision
tree pertama yang harus dilakukan adalah
menentukan atribut mana yang akan
menjadi simpul akar dan atribut mana
yang akan menjadi simpul selanjutnya.
Pemilihan atribut yang baik adalah
atribut yang memungkinkan untuk
mendapatkan decision tree yang paling
kecil ukurannya. Atau atribut yang bisa
memisahkan obyek menurut kelasnya.
Secara heuristik atribut yang dipilih
adalah atribut yang menghasilkan simpul
yang paling ”purest” (paling bersih).
Ukuran purity dinyatakan dengan tingkat
impurity, dan untuk menghitungnya,
dapat dilakukan dengan menggunakan
konsep Entropy, Entropy menyatakan
impurity suatu kumpulan objek. Jika
diberikan sekumpulan objek dengan
label/output y yang terdiri dari objek
berlabel 1, 2 sampai n, Entropy dari
objek dengan n kelas ini dapat dihitung
dengan rumus berikut.
(3)
1. Kemudian setelah menghitung
Entropy, hitung Information Gain :
2. Information gain adalah kriteria yang
paling populer untuk pemilihan
atribut. Information gain dapat
dihitung dari output data atau
variabel dependent y yang
dikelompokkan berdasarkan atribut
A, dinotasikan dengan gain (y,A).
Information gain, gain (y,A), dari
atribut A relatif terhadap output data
y adalah : Dimana nilai(A) adalah
semua nilai yang mungkin dari
atribut A, dan adalah subset dari y
dimana A mempunyai nilai c.
Algortima C4.5 sendiri merupakan
pengembangan dari algortima ID3,
dimana pengembangan dilakukan dalam
hal: bisa mengatasi missing data, bisa
mengatasi data kontinyu, pruning. Secara
umum langkah algoritma C4.5 untuk
membangun pohon keputusan adalah
sebagai berikut:
a. Pilih atribut sebagai akar
b. Buat cabang untuk tiap-tiap nilai
c. Bagi kasus dalam cabang
d. Ulangi proses untuk setiap cabang
sampai semua kasus pada cabang
memiliki kelas yang sama.
Pengujian dan Evaluasi serta Validasi
Algoritma Data Mining
1. Pengujian K-fold Cross-validation
K-Fold Cross Validation adalah
teknik validasi yang membagi data ke
dalam k bagian dan kemudian masing-
masing bagian akan dilakukan proses
klasifikasi. Dengan menggunakan K-Fold
Cross Validation akan dilakukan
percobaan sebanyak k. Tiap percobaan
akan menggunakan satu data testing dan
k-1 bagian akan menjadi data training,
kemudian data testing itu akan ditukar
dengan satu buah data training sehingga
untuk tiap percobaan akan didapatkan
data testing yang berbeda-beda. Data
training adalah data yang akan dipakai
dalam melakukan pembelajaran
sedangkan data testing adalah data yang
belum pernah dipakai sebagai
pembelajaran dan akan berfungsi sebagai
data pengujian kebenaran atau
keakurasian hasil pembelajaran.
JURNAL LENTERA ICT Volume 5 Nomor 2, November 2019
16
2. Evaluasi & Validasi Metode
a. Confusion Matrik
Confusion Matrix adalah alat
(tools) visualisasi yang biasa digunakan
pada supervised learning. Tiap kolom
pada matriks adalah contoh kelas
prediksi, sedangkan tiap baris mewakili
kejadian di kelas yang sebenarnya.
Confusion matrix berisi informasi aktual
(actual) dan prediksi (predicted) pada
sisitem klasifikasi.
b. ROC (Reciever Operating
Characteristic)
Kurva ROC menunjukan akurasi
dan membandingkan klasifikasi secara
visual. ROC mengekspresikan confusion
matrix. ROC adalah grafik dua dimensi
dengan false positives sebagai garis
horizontal dan true positives untuk
mengukur perbedaaan performasi metode
yang digunakan. ROC Curve adalah cara
lain untuk menguji kinerja
pengklasifikasian.
Performance keakurasian AUC
dapat diklasifikasikan menjadi lima
kelompok yaitu:
0.90 – 1.00 = Exellent Clasification
0.80 – 0.90 = Good Clasification
0.70 – 0.80 = Fair Clasification
0.60 – 0.70 = Poor Clasification
0.50 – 0.60 = Failure
Frame Work
Model kerangka pemikiran yang
digunakan adalah adalah method
improvement (perbaikan metode), yang
sering digunakan pada penelitian di
bidang sains dan teknik, termasuk bidang
computing didalamnya. Komponen dari
model kerangka pemikiran perbaikan
metode (mehode improvement) adalah
Indicators, Proposed Method,
Objectives, dan Measurements.
Kerangka pemikiran pada penelitian ini
dimulai dari prediksi hasil pemilihan
umum. Maka dengan ini penulis mencoba
membuat sebuah soft computing dengan
mengunakan support vector machine
dengan teknik optimasi decision tree
(C4.5).
Model Prediksi
Gambar 2.
Model Prediksi
METODOLOGI PENELITIAN
Desain Penelitian
Pengertian penelitian dalam
akademik yaitu digunakan untuk
mengacu pada aktivitas yang rajin dan
penyelidikan sistematis atau investigasi
di suatu daerah, dengan tujuan
menemukan atau merevisi fakta, teori,
aplikasi dan tujuannya adalah untuk
menemukan dan menyebarkan
pengetahuan baru (Berndtssom, 2008).
Menurut (Dawson, 2009) ada
empat metode penelitian yang umum
digunakan yaitu tindakan penelitian,
eksperimen, studi kasus dan survey
(Dawson, 2009).
Dalam penelitian ini penulis
menggunakan metode penelitian
eksperimen dengan beberapa langkah
yang dilakukan adalah sebagai berikut :
Pengumpulan data
Teknik pengumpulan data ialah
teknik atau cara-cara yang dapat
digunakan untuk menggunakan data
(Riduwan, 2008). Dalam pengumpulan
data terdapat sumber data, sumber data
yang terhimpun langsung oleh peneliti
disebut denga sumber primer, sedangkan
apabila melalui tangan kedua disebut
sumber sekunder (Riduwan, 2008). Data
yang dikumpulkan penulis merupakan
data sekunder karena diperoleh dari
JURNAL LENTERA ICT Volume 5 Nomor 2, November 2019
17
database mahasiswa yang terkumpul pada
file-file yang terpisah dalam format
microsoft excel pada bagian pendidikan
yang merupakan salah satu struktur
dalam fungsi organisasi di LP3I Jakarta
khususnya kampus Depok.
Dataset yang dikumpulkan adalah
dataset yang telah melalui proses
preprosesing berupa data mahasiswa
jurusan informatika komputer 1 periode
tahun ajaran mulai dari tahun ajaran
2012-2014 dimana atribut yang diambil
adalah nilai per mata kuliah bidang
informatika komputer dari semester 1
(satu) s/d semester 4 (empat), nilai
seleksi masuk dari bagian maketing dan
nilai kompetensi yang diperoleh dari
bagian penempatan kerja.
Jumlah data awal yang diperoleh
dari pengumpulan data yaitu sebanyak
126 data, namun tidak semua data dapat
digunakan dan tidak semua atribut
digunakan karena harus melalui beberapa
tahap pengolahan awal data (preparation
data). Untuk mendapatkan data yang
berkualitas, beberapa teknik yang
dilakukan sebagai berikut (Vercellis,
2009) :
1. Data validation
Adalah untuk mengidentifikasikan
dan menghapus data yang ganjil
(outlier/noise), data yang tidak
konsisten, dan data yang tidak
lengkap (missing value).
2. Data integration and transformation.
Adalah untuk meningkatkan akurasi
dan efisiensi algoritma. Data yang
digunakan dalam penulisan ini
bernilai kategorikal. Data
ditransformasikan kedalam software
Rapidminer.
3. Data size reduction and discritization
Adalah untuk memperoleh data set
dengan jumlah atribut dan record
yang lebih sedikit tetapi bersifat
informatif.
Tabel 1.
Dataset akademik
Tes_Sele
ksi
Algoritma_Pe
mrogra
man
Perancangan_
Basis_
Data
Dasar_dasar_
Kompu
ter
Aplikasi_Ko
mputer
1
Administrasi_Basi
sData
75 65.82 71.50 77.20 78.42 69.58
77 61.57 67.25 77.70 82.33 69.58
74 60.25 70.75 71.70 61.00 69.42
70 60.25 66.10 76.75 80.92 70.67
76 72.25 81.75 72.30 81.83 69.25
74 61.75 74.25 74.50 79.17 70.83
80 75.75 88.45 66.30 89.57 73.08
78 73.00 79.80 78.10 82.28 71.00
76 62.75 73.55 77.70 79.50 70.83
68 72.89 69.75 76.25 81.08 71.00
80 74.75 85.00 78.10 86.20 80.83
74 61.75 77.30 74.05 78.83 71.00
76 73.03 78.75 68.65 80.95 71.00
77 65.03 79.00 65.00 82.05 75.75
81 70.32 76.00 81.20 82.83 77.33
73 60.64 71.50 76.25 80.42 72.58
62 60.25 60.00 69.10 63.50 56.33
78 74.25 71.25 76.15 88.00 75.75
75 68.50 70.75 66.15 79.50 72.75
74 66.78 72.65 76.25 79.36 75.25
76 77.64 86.25 76.70 84.75 70.83
72 60.50 71.25 78.65 78.00 72.58
64 65.75 65.25 76.80 78.90 72.58
76 72.71 68.75 75.30 81.00 70.67
75 74.00 71.00 75.45 77.90 70.83
70 65.89 66.50 74.75 81.00 70.83
80 67.29 84.75 74.25 81.00 72.08
71 64.75 67.50 74.25 73.50 70.67
73 63.36 72.75 77.45 81.00 70.83
84 88.50 89.50 82.10 81.00 86.50
79 75.46 85.25 74.65 79.40 79.00
64 61.83 68.25 76.10 79.40 74.00
76 66.04 84.00 80.20 81.00 77.25
74 67.78 78.50 71.75 81.00 73.08
77 71.83 78.25 75.30 81.00 74.33
76 71.47 74.75 77.80 81.00 72.75
77 75.14 86.00 84.65 81.00 60.00
73 77.87 73.50 80.29 73.52 77.14
75 81.65 70.75 86.25 74.80 83.00
82 85.60 83.75 89.00 80.25 93.75
77 78.85 65.75 83.00 76.00 86.00
70 73.12 66.25 80.09 66.09 71.39
75 79.64 68.25 86.29 71.57 87.75
52 32.85 60.50 34.07 66.26 53.21
80 81.20 81.75 81.84 79.64 90.75
80 76.39 83.50 93.25 83.89 90.75
JURNAL LENTERA ICT Volume 5 Nomor 2, November 2019
18
79 79.30 77.75 86.50 77.75 87.25
86 84.95 90.75 94.50 94.10 96.75
77 76.59 64.25 86.82 78.88 82.43
83 86.85 88.25 94.25 84.85 90.64
72 81.67 62.00 45.21 75.20 67.96
76 83.85 72.75 86.29 74.57 83.29
77 78.81 65.50 82.54 70.31 81.14
78 82.85 73.25 96.30 77.50 90.25
79 81.65 78.75 90.04 75.50 89.75
71 79.00 75.50 81.00 65.82 62.95
77 77.57 80.50 87.24 66.55 62.75
72 72.82 62.25 78.74 64.93 67.17
75 75.79 76.25 88.00 65.93 62.75
73 80.59 70.75 81.50 67.38 65.47
85 88.29 90.95 95.50 90.63 78.88
75 73.86 65.75 87.00 70.91 64.70
80 85.44 85.00 93.59 81.88 63.55
73 79.79 74.75 80.25 68.79 66.35
72 85.15 74.75 82.00 63.63 63.32
74 77.25 69.25 80.25 66.79 63.15
73 77.61 76.70 85.49 81.23 64.73
61 90.04 85.50 57.49 72.61 63.18
Tabel 2.
Atribut data training dataset akademik Sumber
Data No
Variabel Ket
Bag.
Marketin
g
1 Tes Seleksi
Nilai seleksi
bidang informatika
komputer
Bag.
Akademi
k
2 Algoritma_Pemrograman Mata Kuliah
Bidang Infotmatika
Komputer
Semester 1
3 Perancangan_Basis_Data
4 Dasar_dasar_Komputer
5 Aplikasi_Komputer1
6 Administrasi_BasisData Mata Kuliah
Bidang Infotmatika
Komputer
Semester 2
7 Pemograman_Web1
8 Komputer_Jaringan1
9 Desain_Grafis
10
Aplikasi_Komputer2
1
1
Animasi_Grafis1
Mata Kuliah
Bidang Infotmatika
Komputer
Semester 3
12
Analisa_Perancangan_Sistem
1
3
Pemrograman_Web2
14
Desain_Web
1
5
Administrasi_BasisData1
16
PemrogramanDatabaseBerbasisWeb1
1
7
Pemrograman_Web3
Mata Kuliah
Bidang
Infotmatika Komputer
Semester 4
18
Jaringan_Komputer2
1
9
Pemrograman_Visual2
20
Administrasi_BasisData2
2
1
Application_Project
Bag. Penempat
an Kerja
22
Status Kompetensi
Nilai evaluasi yang
diberikan
perusahaan setelah 1
bulan
penempatan kerja
Metode yang diusulkan
Pada tahap modeling ini dilakukan
pemprosesan data training sehingga akan
membahas metode algoritma yang diuji
dengan memasukan data mahasiswa
kemudian dianalisa dan dikomparasi.
Gambar 3 Metode yang Diusulkan
HASIL PENELITIAN DAN
PEMBAHASAN
Support Vector Machine ( SVM )
Nilai training cycles dalam
penelitian ini ditentukan dengan cara
melakukan uji coba memasukkan C,
epsilon. Berikut ini adalah hasil dari
percobaan yang telah dilakukan untuk
penentuan nilai training cycles:
Evaluasi: confusion
matrx, kurva ROC
Pengujian: Cross
Valdation
Model: SVM SVM
Data Mahaswa Informatika Komputer
Algoritma C4.5
Model: Algoritma
C4.5
Pengujian: Cross
Validaton
Evaluasi: confusion
matrx, kurva ROC
Komparasi kurva ROC
JURNAL LENTERA ICT Volume 5 Nomor 2, November 2019
19
Tabel 3.
Hasil uji coba penentuan nilai training dengan
SVM
C ε
Angkatan 2012-2014
Semester 1 s/d 4
ACC % AUC
1.0 0.0 79.44 0.927
0.0 1.0 65.89 0.500
0.5 0.5 92.56 0.985
0.6 0.6 92.56 0.990
0.7 0.7 90.56 0.995
0.8 0.8 89.67 0.985
0.9 0.9 89.56 0.990
Hasil terbaik pada eksperiment
SVM diatas adalah dengan C=0.5 dan
Epsilon=0.7 dihasilkan accuracy 92.56%
dan AUCnya 0.985 dan C=0.6 dan
Epsilon=0.6 dihasilkan accuracy 92.56%
dan AUCnya 0.990.
Decision Tree (C4.5)
Nilai training cycles dalam
penelitian ini ditentukan dengan cara
melakukan uji coba memasukkan data
mahasiswa sebanyak 97 data, metode
validation yang digunakan dalam
penelitian adalah cross validation, dengan
ketentuan cross relative dan sampling
type shuffled sampling. Berikut ini adalah
hasil dari percobaan yang telah dilakukan
untuk penentuan nilai training cycles:
Tabel 4.
Hasil uji coba penentuan nilai training dengan
Decision Tree Number of Validations
10 20 30 40 50 60 70 80 90
Ak
uras
i
90
.6
7
89
.0
0
89
.7
2
92
.5
0
90
.0
0
92
.5
0
89
.2
9
90
.6
2
91
.1
1
AU
C
0.
55
5
0.
50
6
0.
50
0
0.
50
0
0.
46
0
0.
41
7
0.
37
9
0.
34
4
0.
34
4
Tabel diatas menunjukan hasil
akurasi dari percobaan dengan Number of
Validations yang berbeda akurasi terbaik
adalah 92.50% dengan Number of
Validations 60.
Evaluasi dan Validasi Hasil
Hasil Pengujian Support Vector
Machine ( SVM )
Hasil dari pengujian model yang
dilakukan adalah untuk mendeteksi
kompetensi mahasiswa jurusan
informatika komputer dengan
perbandingan metode support vector
machine dan Decision Tree untuk
menentukan nilai accuracy dan AUC.
Metode pengujiannya menggunakan
cross validation dengan desain modelnya
sebagai berikut.
Gambar 4.
Desain model Validasi support vector machine
Pada penelitian penentuan hasil
kompetensi mahasiswa jurusan
informatika komputer menggunakan
algoritma Support Vector Machine
berbasis pada framework RapidMiner
sebagai berikut.
Gambar 5.
Model pengujian validasi support vector machine
Nilai accuracy, precision, dan
recall dari data training dapat dihitung
dengan menggunakan RapidMiner. Hasil
pengujian dengan menggunakan model
JURNAL LENTERA ICT Volume 5 Nomor 2, November 2019
20
Support Vector Machine didapatkan hasil
pada gambar 6
1. Confusion Matrix
Gambar 6
Model Confusion Matrik dengan Metode SVM
Diketahui dari 97 data, 60
diklasifikasikan ya sesuai dengan
prediksi yang dilakukan dengan metode
svm, lalu 3 data diprediksi ya tetapi
ternyata hasilnya prediksi tidak, 30 data
class tidak diprediksi sesuai, dan 4 data
diprediksi tidak ternyata hasil prediksinya
ya.
Berdasarkan gambar 6 tersebut
menunjukan bahwa, tingkat akurasi
dengan menggunakan algoritma SVM
adalah sebesar 92.56 %, dan dapat
dihitung untuk mencari nilai accuracy,
sensitivity, specificity, ppv, dan npv
hasilnya dan dapat dihitung untuk
mencari nilai accuracy, sensitivity,
specificity, ppv, dan npv.
Berdasarkan hasil tersebut dapat
diketahui pula perhitungan nilai
accuracy, sensitivity, specificity, ppv,
npv dengan menggunakan persamaan
sebagai berikut :
1. Accuracy =
0,927835051546392
2. Sensitivity =
3. Specificity =
4. PPV =
5. NPV =
Dari hasil perhitungan diatas dapat
disimpulkan sebagaimana yang
terkumpul dalam tabel 4.1 berikut ini :
Tabel 5.
Hasil Perhitungan Accuracy, Sensitivity,
Specificity, PPV dan NPV dengan Metode SVM
untuk data terpilih.
Nilai ( % )
Accuracy 0,927835051546392
Sensitivity 0,952380952380952
Specificity 0,882352941176471
PPV 0,9375
NPV 0,909090909090909
2. Kurva ROC
Hasil perhitungan divisualisasikan
dengan kurva ROC. Perbandingan kedua
metode komparasi bisa dilihat pada
Gambar 7 yang merupakan kurva ROC
untuk algoritma Support Vector
Machines. Kurva ROC pada gambar 7
mengekspresikan confusion matrix dari
gambar 7. Garis horizontal adalah false
positives dan garis vertikal true positives.
Gambar 7.
Kurva ROC dengan Metode Support Vector
Machines
Hasil Pengujian Decision Tree (C4.5)
Pada tabel di bawah ini
implementasi perhitungan kasus
algoritma C4.5 untuk menentukan
kompetensi mahasiswa informatika
komputer berdasarkan mata kuliah
konsentrasi bidang informatika komputer
dari semester 1 s/d 4 untuk tahun 2012-
2014 Dengan nilai masing-masing mata
JURNAL LENTERA ICT Volume 5 Nomor 2, November 2019
21
kuliah adalah 0-100. Mata kuliah ini
dijadikan atribut awal dalam
implementasi algoritma C4.5. dan aribut
tujuannya adalah status kompetensi
dengan nilai dari atribut status
kompetensi adalah kompetensi dan tidak
kompetensi.
Berikut langkah dalam pembuatan
pohon keputusan, yaitu:
1. Menyiapkan data training
2. Hitung nilai entropy keseluruhan
total kasus “KOMPETEN” dan
“TIDAK KOMPETEN”. Dari
data training yang ada diketahui
jumlah kasus yang
“KOMPETEN” pada sebanyak 64
record, dan jumlah kasus yang
“TIDAK KOMPETEN” adalah
sebanyak 33 record total kasus
keseluruhan adalah 97 kasus.
Sehingga didapat entropy
keseluruhan:
(4)
= -64/97 * log 64/97 + (-33/97 * log 33/97)
= 0,9250
Nilai gain tertinggi ada pada atribut
Tes Seleksi yakni 0,7267 sehingga dapat
atribut fakultas adalah akar dari pohon
keputusan.
Gambar 8.
Pohon Keputusan C45
Dari pohon keputusan pada gambar
8 didapat rule untuk prediksi data
kompetensi mahasiswa informatika
komputer, berikut rule:
Tes Seleksi > 68.734
| Dasar_dasar_Komputer > 45.064
| | Administrasi_BasisData2 > 82.410
| | | Tes Seleksi > 74.138: Kompeten
{Kompeten=3, Tidak Kompeten=0}
| | | Tes Seleksi ≤ 74.138: Tidak
Kompeten {Kompeten=0, Tidak
Kompeten=2}
| | Administrasi_BasisData2 ≤ 82.410:
Kompeten {Kompeten=61, Tidak
Kompeten=0}
| Dasar_dasar_Komputer ≤ 45.064:
Tidak Kompeten {Kompeten=0, Tidak
Kompeten=2}
Tes Seleksi ≤ 68.734: Tidak Kompeten
{Kompeten=0, Tidak Kompeten=29}
Tujuan utama dari penelitian ini
adalah menganalisa prediksi mahasiswa
berpotensi kompeten dengan menerapkan
teknik klasifikasi data mining dengan
algoritma decision tree C4.5. Pada tahap
pengujian model ini data yang digunakan
telah melewati tahap preprocessing.
Berikut adalah desain model yang akan
digunakan.
Gambar 9.
Desain Model Decision Tree Main Proses
Gambar 10.
Desain Model Decision Tree Training dan
Testing
1 Retreiving
Data
Operator ini digunakan untuk
mengimport dataset yang akan
digunakan, pada penelitian ini
data diimport dari file excel.
n
i
pipiSEntropy1
2log*)(
JURNAL LENTERA ICT Volume 5 Nomor 2, November 2019
22
2 Replace
Missing
Value
Operator ini digunakan untuk
mengganti nilai yang kosong
yang ada pada dataset. Pada
penelitian ini menggunakan
model average yaitu
mengganti nilai yang kosong
dengan nilai rataan yang
muncul.
3 Validation Metode validation yang
digunakan dalam penelitian
adalah Cross Validation
sampling type startified
sampling, validation ini hanya
membagi total dari
keseluruhan dataset menjadi
data training dan data testing
berdasar ratio yang telah
ditentukan.
Gambar 11. Penggunaan
validasi data training
4 Decision
Tree
Metode klasifikasi yang
digunakan dalam penelitian
ini.
5 Apply
Model
Operator yang digunakan
menjalankan metode yang
digunakan dalam penelitian ini
C4.5
6 Performanc
e
Operator yang digunakan
untuk mengukur performa
akurasi dari model
1. Confusion Matrix
Gambar 12
Model Confusion Matrik dengan Metode
Decision Tree
Diketahui dkiari 97 data, 61
diklasifikasikan ya sesuai dengan
prediksi yang dilakukan dengan metode
decision tree, lalu 5 data diprediksi ya
tetapi ternyata hasilnya prediksi tidak, 28
data class tidak diprediksi sesuai, dan 3
data diprediksi tidak ternyata hasil
prediksinya ya.
2. Kurva ROC
Kurva ROC pada gambar 13
mengekspresikan confusion matrix dari
gambar 12. Garis horizontal adalah false
positives dan garis vertikal true positives.
Gambar 13.
Kurva ROC dengan Metode Decision Tree
Analisis Hasil Komparasi
Pada pengujian t-test akan
dibandingkan antara dua metode secara
bergantian sehingga didapatkan hasil
perbandingan keseluruhan seperti pada
tabel berikut:
Tabel 6.
Hasil Uji Statistik T-Test
C4.5 SVM
Accuracy 91.67 92.56
AUC 0.417 0.990
Hasil Tabel 6 diatas didapat dari
pengujian T-Test dengan
membandingkan dua metode secara
JURNAL LENTERA ICT Volume 5 Nomor 2, November 2019
23
bergantian seperti pada salah satu model
dibawah ini:
Gambar 14
Pengujian T-Test pada Support Vector Machine
dan Algoritma C4.5
Hasil dari model diatas adalah
perhitungan statistik seperti Tabel 6.
berikut adalah contoh dari hasil
menjalankan model diatas:
Gambar 15
T-Test Significance
Dari Gambar 4.12 diatas dapat
didapat dianalisa bahwa metode yang
memiliki nilai probabilitas < 0.05 yaitu
Algoritma C4.5.
Implikasi Penelitian
Implikasi penelitian merupakan
suatu penjelasan tentang tindak lanjut
penelitian yang terkait dengan aspek
sistem, aspek manajerial maupun aspek
penelitian lanjutan. Implikasi penelitian
ini pada :
1. Aspek Penelitan
Hasil pengujian dataset mahasiswa
Politeknik LP3I Jakarta Kampus
Depok baik data berupa hasil tes
minat dan bakat, nilai mahasiswa
semester 1 s/d 4 dan evaluasi kinerja
mahasiswa, menunjukkan bahwa
metode SVM memiliki akuras lebh
tinggi daripada Decision Tree dalam
mengklasifikasikan mahasiswa yang
kompeten dan tidak kompeten.
Sehingga diharapkan metode metode
ini dapat diwujudkan dalam bentuk
prototipe aplikasi deteksi kompetensi
mahasiswa jurusan informatika
komputer agar dapat membantu
penanganan terhadap mahasiswa
yang bermasalah dengan kinerja
akademiknya.
2. Aspek Manajerial
Metode SVM- Decision Tree
selanjutnya dapat diwujudkan dalam
bentuk prototipe deteksi kompetensi
mahasiswa jurusan informatika
komputer dapat membantu pihak
manajemen dalam hal ini adalah
bagian akademik untuk dapat
mengambil tindakan preventif
terhadap mahasiswa yang mengalami
tidak kompeten. Jika hal tersebut
dilakukan dengan baik oleh
manajemen diharapkan akan dapat
meminimalisir penurunan angka
mahasiswa yang tidak kompeten.
3. Penelitian Lanjutan
Penelitian berikutnya dalam hal
pengujian metode terhadap data
akademik untuk mengklasifikasikan
kinerja mahasiswa dapat dilakukan
dengan menggunakan metode
lainnya seperti metode Algoritma
C4.5 – Neural Network atau
membuat suatu perbandingan kinerja
akurasi atara metode Algoritma C4.5
– Neural Network dan Naïve Bayes
sehingga akan dapat diketahui secara
pasti metode yang memiliki akurasi
yang lebih unggul dari metode
diatas dan dapat diterapkan untuk
mengklasifikasikan dataset akademik
mahasiswa.
Saran
Pada penelitian ini untuk
membandingkan metode mana yang
terbaik untuk mengambil keputusan
kompetensi antara metode Algoritma
Support Vector Machine dan Algoritma
Decision Tree. Oleh karena itu untuk
mendapatkan akurasi yang lebih baik dari
metode optimasi lainnya seharusnya
diadakan pengujian data training dengan
JURNAL LENTERA ICT Volume 5 Nomor 2, November 2019
24
menggunakan metode optimasi lainnya
sehingga akan diketahui metode optimasi
yang paling baik diantara metode
optimasi lainnya.
DAFTAR PUSTAKA
Ahmad Syafiq, Sandra Fikawati (22 Feb
2007).Seminar Terbuka
“Kompetensi Yang Dibutuhkan
Dalam Dunia Kerja”(Hasil Tracer
Study FKM UI Tahun 2006),
Ruang Sidang Doktor Gedung G
FKMUI
A. Basuki and I. Syarif, Decision
Tree.Surabaya: Politeknik
Elektronika Negeri Surabaya- ITS,
2003.
Ahmed. (2014). Data Mining : A
Prediction for Student’s
Perfomance Using Classification
Method. World Journal of
Computer Aplication and
Technology 2 , (2) 43-47.
Azwar, S. (2004). Penyusunan Skala
Psikologi. Yogyakarta: Pustaka
Pelajar.
BAN-PT. (2011). Akreditasi Institusi
Perguruan Tinggi - Buku III
Pedoman Penyusunan Borang.
Basari, A. S. (2013). Opinion Mining of
Movie Review using Hybrid
Method of Support Vector Machine
and Particle Swarm Optimization.
Procedia Engineering , 53, 453–
462.
doi:10.1016/j.proeng.2013.02.059.
Berndtssom, M. H. (2008). A Guide For
Students In Computer Science And
Information Systems. London:
Springer.
Dawson, C. W. (2009). Projects In
Computing And Information System
A Student's Guide. England:
Addison - Wesley.
Ernastuti, S. &. (2010). Graduation
Prediction of Gunadarma
University Students Using
Algorithm and Naive Bayes C4.5
Algoritmh.
Gorunescu, F. (2011). Data Mining:
Concepts and Techniques. Verlag
berlin Heidelberg: Springer.
Han, J. &. (2007). Data Mining Concepts
and Techniques. San Fransisco:
Mofgan Kaufan Publisher.
Haupt, R. L. (2004). Practical Genetic
Algorithms. United State of
America: A John Wiley & Sons Inc
Publication.
Hermawati, F. (2013). Data Mining.
Yogyakarta: Andi Offset.
Ispandi. (2014). Penerapan Algoritma
Genetika untuk Optimasi Parameter
pada Support Vector Machines
Untuk Meningkatkan Prediksi
Pemasaran Langsung. In TESIS.
STMIK Nusa Mandiri.
Jacobus, A. ( 2014). Penerapan Metode
Support Vector Machine pada
Sistem Deteksi Intrusi secara Real-
time. IJCCS , Vol.8, No.1, January
2014, pp. 13~24.
Jacobus, A. (2014). Penerapan Metode
Support Vector Machine pada
Sistem Deteksi Intrusi secara Real-
time. IJCCS , Vol.8, No.1 January
2014 pp. 13~24.
Jing Wang, P. L. (2014). Mood States
Recognition of Rowing Athletes
Based on Multi-Physiological
Signals Using PSO-SVM. E-Health
JURNAL LENTERA ICT Volume 5 Nomor 2, November 2019
25
Telecommunication Systems and
Networks , 9-17.
Kabag Marketing & C N P. (2014).
Laporan Perkembangan
Mahasiswa LP3i Depok TA. 2009
s/d 2013. Depok.
Kopertis3. (2014). Peraturan
Perundangan. Retrieved june 10,
2014, from
http://www.dikti.go.id/id/peraturan-
perundangan/
Larose, D. T. (2005). Discovering
Knowledge in Data: An
Introduction to Data Mining. John
Willey & Sons. Inc.
Liu, Y. W. (2011). An Improved Particle
Swarm Optimization for Feature
Selection. Journal of Bionic
Engineering, , 8(2), 191–200.
doi:10.1016/S1672-
6529(11)60020-6.
M. N. Quadri and N. V Kalyankar, “Drop
Out Feature of Student Data for
Academic Performance Using
Decision Tree Techniques,”Glob. J.
Comput. Sci. Technol., vol. 10, no.
2, pp.2–5, 2010.
Maimon, O. (2010). Data Mining And
Knowledge Discovery Handbook.
New York Dordrecht Heidelberg
London: Springer.
Nugroho, A. S. (2008). Support Vector
Machine: Paradigma Baru Dalam
Softcomputing. Konferensi
Nasional Sistem Dan Informatika ,
92-99.
Oyelade, A. J., Oladipupo, O. O., &
Obagbuwa, I. C. (2010).
Application of k-means Clustering
algorithm for predicting of Students
Academic Performace.
International Journal of Computer
Science and Information Security ,
292-295.
Polancic, G. (2007). Empirical Research
Method Poster.
Pramudiono, I. (2006). Retrieved january
16, 2007, from Apa itu data
mining?,:
http://datamining.japati.net/cgi-
bin/indodm.cgi?bacaarsip&115552
7614&artikel
Riduwan. (2008). Metode dan Teknik
Menyusun Tesis. Bandung:
Alfabeta.
Santosa, B. (2007). Data Mining Teknik
Pemanfaat Data Untuk Keperluan
Bisnis. Yogyakarta : Graha Ilmu.
Saraswati, N. W. (2014). Text mining
dengan metode naïve bayes
classifier dan support vector
machines untuk sentiment analysis.
Satsiou, a. (2002). Genetic Algorithms
for the Optimization of Support
Vector Machines in Credit Risk
Rating,.
Shao, S. (2014). Construction and
Application of Performance
Prediction Model for Aerobics
Athletes Based on Online-SVM.
International Journal of Hybrid
Information Technology , Vol.7,
No.4 (2014), pp.43-54.
Siregar. (2006). Motivasi Belajar
Mahasiswa ditinjau dari Pola
Asuh. Medan: USU : Repository.
Sugiyono, P. (2011). Metode Penelitian
Kuantitatif Kualitatif dan R & D.
Bandung: Alfabeta.
Sujana. (2002). Metode Statistika.
Bandung: PT. Tarsito.
JURNAL LENTERA ICT Volume 5 Nomor 2, November 2019
26
Tekin, A. (2014). Early Prediction of
Students’ Grade Point Averages at
Graduation: A Data Mining
Approach. Eurasian Journal of
Educational Research , Issue 54,
2014, 207-226.
Turban, E. d. (2005). Decicion Support
Systems and Intelligent Systems.
Andi Offset.
Vercellis, C. (2009). Business
Intelligence Data Mining And
Optimization For Decision Making.
United Kingdom: A John Wiley
And Sons, Ltd., Publication.
Vrettos, K. &. (2008). An Artificial
Neural Network for Predicting
Student Graduation Outcomes.
Preceeding of World Congress on
Engineering and Computer
Science. 978-988-98671-02.
Witten, H. I., Eibe, F., & Hall, A. M.
(2011). Data Mining Machine
Learning Tools and Techiques.
Burlington: Morgan Kaufmann
Publisher.
Wu, X. &. (2009). The Top Ten
Algorithms in Data Mining. Boca
Raton: CRC Press.
Yenaeng, S. (2014). Automatic Medical
Case Study Essay Scoring by
Support Vector Machine and
Genetic Algorithms. IJIET , Vol. 4,
No. 2.
Yingkuachat, J., Praneetpolgrang, P., &
Kijsirikul, B. (2007). An
Application Probabilitic Model to
the Prediction of Student
Graduation Using Bayesian Belief
Network. ECTI Transaction on
Computer and Technology , 63-71.
top related