prediksi kelulusan mahasiswa fakultas sains dan … · prediksi kelulusan mahasiswa fakultas sains...

PREDIKSI KELULUSAN MAHASISWA FAKULTAS SAINS

DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA

MENGGUNAKAN METODE KLASIFIKASI NAÏVE BAYES

SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Informatika

Oleh:

Artha Dian Sinaga

165314073

PROGRAM STUDI INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2020

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

STUDENTS GRADUATION PREDICTION AT THE FACULTY

OF SCIENCE AND TECHNOLOGY OF THE UNIVERSITY OF

SANATA DHARMA USING NAÏVE BAYES CLASSIFICATION

THESIS

Present as Partial Fulfillment of the Requirements

to Obtain Sarjana Komputer Degree

in Informatics Study Program

Created by :

Artha Dian Sinaga

165314073

INFORMATICS STUDY PROGRAM

INFORMATICS DEPARTMENT

FACULTY OF SCIENCE OF TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2020


iii

HALAMAN PERSEMBAHAN

“I can do all this through Him who gives me strength.”

(Philippians 4:13)


vi

ABSTRAK

Kelulusan mahasiswa merupakan salah satu bidang yang termasuk ke

dalam Standar Penjaminan Mutu Internal (SPMI) suatu perguruan tinggi. Salah

satu standar yang ditetapkan oleh perguruan tinggi untuk menghasilkan lulusan

tepat waktu yaitu mahasiswa dapat menempuh kuliah maksimal 8 semester

dengan total beban studi minimal 144 SKS.

Penelitian ini mencoba untuk memprediksi kelulusan mahasiswa agar

pihak akademik dapat meminimalisir mahasiswa yang lulus tidak tepat waktu.

Data yang digunakan dalam penelitian ini adalah data mahasiswa Fakultas Sains

dan Teknologi Universitas Sanata Dharma lulusan tahun 2010 sampai 2018.

Metode yang digunakan adalah metode klasifikasi dengan menerapkan

algoritma naïve bayes. Percobaan dilakukan pada 1630 data menggunakan 3-

Fold Cross Validation dengan hasil akurasi tertinggi sebesar 80.5402%.

Kata kunci: Kelulusan, Naive Bayes, klasifikasi, K-Fold Cross Validation,

Confusion Matrix.


vii

ABSTRACT

Graduation of college students is one of the factors that is included into

college’s internal quality assurance standards (SPMI). One of the standards used

for college in higher education is for the institution to produce students that

graduated on time where they finished their college courses with maximum 8

semesters and minimum 144 credit hours.

The objective of this research was to evaluate and predict college

student’s graduation rate for the academic administration to utilize this

information and minimize the rate of students who were not graduating on time.

The data used for this research derived from 2010-2018 graduation data of

students from the Faculty of Science and Technology of The University of

Sanata Dharma.

The method used was the classification method using the naïve bayes

algorithm. The testing was done on 1630 data using 3-fold cross validation

which resulted in the highest result of 80.5402%.

Key words: Graduation, Naïve Bayes, Clarification, K-Fold Cross Validation,

Confusion Matrix.


viii

KATA PENGANTAR

Puji dan syukur saya ucapkan kepada Tuhan Yesus atas berkat dan

rahmatnya sehingga penulis dapat menyelesaikan skripsi ini dengan baik.

Penulis menyadari bahwa penelitian ini tidak dapat terselesaikan dengan

baik tanpa bimbingan dan dukungan dari berbagai pihak. Oleh karena itu, penulis

ingin menyampaikan ucapan terima kasih kepada semua pihak yang telah

membantu dalam penyusunan skripsi ini terutama kepada:

1. Kedua orang tua, kakak, dan adik tercinta yang senantiasa memberikan

dukungan dan doa kepada penulis.

2. Dr. Cyprianus Kuntoro Adi, S.J. M.A., M.Sc. selaku dosen pembimbing

skripsi saya yang dengan sabar memberikan masukkan dan

membimbing saya dalam penyusunan skripsi.

3. Bapak Robertus Adi Nugroho S.T., M.Eng., selaku Ketua Program

Studi Informatika Universitas Sanata Dharma Yogyakarta.

4. Bapak Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D selaku Dekan Fakultas

Sains dan Teknologi Universitas Sanata Dharma Yogyakarta.

5. Ibu Agnes Maria Polina S.Kom., M.Sc. selaku Dosen Pembimbing

Akademik yang sering memberikan perhatian dan masukkan selama

perkuliahan.

6. Valen, Dodi, Hananto, Caroline, Alfri, Indah, Yiyin, Yuni, Arsa,

Maretha yang membantu dan menemani penyusunan skripsi.

7. Sahabat-sahabat yang saling menguatkan ketika sama-sama merasa

down yaitu Gabby, Meisi, Dila, Jason, dan Chanley.

8. Teman-teman pejuang skripsi yang saling memberikan semangat yaitu

Fica, Retno, Lauren, Clara, Vicky, dan Winda.

9. Teman-teman Informatika angkatan 2016 yang saling menyemangati

dalam menyelesaikan skripsi.

10. Semua pihak yang tidak dapat disebutkan satu-persatu yang telah

membantu penulis dalam menyelesaikan skripsi ini.


ix

DAFTAR ISI

HALAMAN PERSETUJUAN PEMBIMBING ...................................................... i

HALAMAN PENGESAHAN ................................................................................ ii

HALAMAN PERSEMBAHAN ............................................................................ iii

PERNYATAAN KEASLIAN KARYA ................................................................ iv

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI ................................ v

ABSTRAK ............................................................................................................. vi

ABSTRACT ............................................................................................................ vii

KATA PENGANTAR ......................................................................................... viii

DAFTAR ISI .......................................................................................................... ix

DAFTAR TABEL ................................................................................................. xii

DAFTAR GAMBAR ........................................................................................... xiii

BAB I PENDAHULUAN ....................................................................................... 1

1.1 Latar Belakang .............................................................................................. 1

1.2 Rumusan Masalah ......................................................................................... 2

1.3 Tujuan ............................................................................................................ 2

1.4 Manfaat .......................................................................................................... 2

1.5 Batasan Masalah ............................................................................................ 2

1.6 Metodologi Penelitian ................................................................................... 3

1.7 Sistematika Penulisan .................................................................................... 3

BAB II LANDASAN TEORI ................................................................................. 5

2.1 Kelulusan Studi Mahasiswa .......................................................................... 5

2.2 Data Mining .................................................................................................. 6

2.2.1 Pengertian Data Mining .......................................................................... 6

2.2.2 Pengelompokkan Data Mining ............................................................... 8


x

2.2.3 Klasifikasi ............................................................................................... 9

2.2.4 Naïve bayes ........................................................................................... 10

2.3 Information Gain ......................................................................................... 11

2.4 Normalisasi Min-Max .................................................................................. 12

2.5 Cross Validation .......................................................................................... 13

2.6 Confusion Matrix ......................................................................................... 13

BAB III METODE PENELITIAN ....................................................................... 15

3.1 Gambaran Umum ........................................................................................ 15

3.1.2 Data ....................................................................................................... 17

3.1.3 Preprocessing ....................................................................................... 19

3.1.3.1 Data Cleaning ................................................................................ 19

3.1.3.2 Data Selection ................................................................................ 20

3.1.3.3 Data Transformation ..................................................................... 21

3.1.4 Modelling Naïve Bayes ......................................................................... 22

3.1.5 Akurasi .................................................................................................. 26

3.2 Peralatan Penelitian ..................................................................................... 27

3.3 Perancangan Interface ................................................................................. 28

BAB IV HASIL DAN ANALISIS ....................................................................... 30

4.1 Preprocessing .............................................................................................. 30

4.1.1 Data Cleaning ....................................................................................... 30

4.1.2 Data Selection ....................................................................................... 30

4.1.3 Data Transformation ............................................................................ 31

4.2 Klasifikasi .................................................................................................... 32

4.3 Uji Data ....................................................................................................... 36

4.3.1 Uji Data Tunggal .................................................................................. 36


xi

4.3.2 Uji Data Kelompok ............................................................................... 37

BAB V PENUTUP ............................................................................................... 39

5.1 Kesimpulan .................................................................................................. 39

5.2 Saran ............................................................................................................ 39

DAFTAR PUSTAKA ........................................................................................... 40

LAMPIRAN .......................................................................................................... 42


xii

DAFTAR TABEL

Tabel 2. 1 Confusion Matrix ................................................................................. 14

Tabel 3. 1 Contoh Data Awal ............................................................................... 17

Tabel 3. 2 Contoh Data Training .......................................................................... 22

Tabel 3. 3 Contoh Data Testing ............................................................................ 22

Tabel 3. 4 Prior Kelas ........................................................................................... 23

Tabel 3. 5 Mean dan Standar Deviasi IPS 2 ......................................................... 23

Tabel 3. 6 Mean dan Standar Deviasi SKS Semester 4 ........................................ 23

Tabel 3. 7 Mean dan Standar Deviasi Lama TA ................................................... 24

Tabel 3. 8 Probabilitas Data Testing No. 9 ........................................................... 24

Tabel 3. 9 Probabilitas Data Testing No.10 .......................................................... 24

Tabel 3. 10 Probabilitas Data Testing No. 11 ....................................................... 24

Tabel 3. 11 Probabilitas Data Testing No. 12 ....................................................... 25

Tabel 3. 12 Posterior Fold Pertama ....................................................................... 25

Tabel 3. 13 Hasil Klasifikasi Fold Pertama .......................................................... 25

Tabel 3. 14 Hasil Klasifikasi Fold Kedua ............................................................. 26

Tabel 3. 15 Hasil Klasifikasi Fold Ketiga ............................................................. 26

Tabel 3.16 Confusion Matrix Fold Pertama.......................................................... 26

Tabel 3. 17 Confusion Matrix Fold Kedua ........................................................... 27

Tabel 3. 18 Confusion Matrix Fold Ketiga ........................................................... 27

Tabel 4. 1 Hasil Perankingan Atribut.................................................................... 30

Tabel 4. 2 Contoh Transformasi Data Awal ......................................................... 31

Tabel 4. 3 Contoh Transformasi Data Akhir......................................................... 31

Tabel 4. 4 Hasil Pengujian Akurasi ...................................................................... 32

Tabel 4. 5 Data Testing Uji Data Tunggal ............................................................ 36

Tabel 4. 6 Data Testing Uji Data Kelompok ........................................................ 37


xiii

DAFTAR GAMBAR

Gambar 2. 1 Knowledge Discovery Database (KDD) ............................................ 6

Gambar 2. 2 3-Fold Cross Validation ................................................................... 13

Gambar 3. 1 Diagram Blok ................................................................................... 15

Gambar 3. 2 Contoh Data Sebelum Proses Data Cleaning ................................... 19

Gambar 3. 3 Contoh Data Sesudah Proses Data Cleaning .................................... 20

Gambar 3. 4 Contoh Data Selection ..................................................................... 20

Gambar 3. 5 Contoh Data Pakai ........................................................................... 21

Gambar 3. 6 Perancangan Interface ...................................................................... 28

Gambar 3. 7 Confusion Matrix Fold Pertama ....................................................... 34

Gambar 3. 8 Confusion Matrix Fold Kedua ......................................................... 35

Gambar 3. 9 Confusion Matrix Fold Ketiga ......................................................... 35

Gambar 3. 10 Akurasi Total .................................................................................. 35

Gambar 4. 1 Akurasi Rata-rata ............................................................................. 34

Gambar 4. 2 Uji Data Tunggal Tepat .................................................................... 36

Gambar 4. 3 Uji Data Tunggal Tidak Tepat ......................................................... 37

Gambar 4. 4 Upload Uji Data Kelompok ............................................................. 38

Gambar 4. 5 Hasil Uji Data Kelompok ................................................................. 38


1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Kelulusan mahasiswa merupakan salah satu bidang yang termasuk ke dalam

Standar Penjaminan Mutu Internal (SPMI) suatu perguruan tinggi. Salah satu

standar yang ditetapkan oleh perguruan tinggi untuk menghasilkan lulusan tepat

waktu yaitu mahasiswa dapat menempuh kuliah maksimal 8 semester dengan total

beban studi minimal 144 SKS.

Dalam proses akreditasi suatu perguruan tinggi, salah satunya di Universitas

Sanata Dharma, ketepatan kelulusan mahasiswa merupakan hal yang penting

karena dapat mempengaruhi penilaian akreditasi. Untuk mengurangi jumlah

mahasiswa yang tidak lulus tepat waktu, perlu adanya suatu sistem yang dapat

digunakan untuk memprediksi kelulusan mahasiswa. Sistem tersebut memerlukan

data atau informasi untuk menentukan mahasiswa tersebut lulus tepat waktu atau

tidak. Jika kelulusan mahasiswa dapat diprediksi sejak awal, maka pihak akademik

dapat menerapkan suatu kebijakan untuk meminimalisir jumlah mahasiswa yang

tidak lulus tepat waktu.

Salah satu cara memanfaatkan data mahasiswa adalah dengan

mengelolahnya menggunakan teknik data mining untuk menghasilkan informasi

yaitu prediksi kelulusan mahasiswa. Teknik data mining yang akan digunakan

adalah metode klasifikasi dengan menggunakan algoritma naïve bayes.

Dalam dunia pendidikan, algoritma naïve bayes telah banyak digunakan

pada beberapa penelitian, salah satunya yang dilakukan oleh Yuda Septian Nugroho

(2014) dengan judul “Data Mining Menggunakan Algoritma Untuk Klasifikasi

Kelulusan Mahasiswa Universitas Dian Nuswantoro”. Pada penelitian tersebut,

atribut yang digunakan adalah NIM, nama, jenjang, program studi, nama provinsi,

jenis kelamin, SKS yang telah ditempuh, IPK, dan tahun kelulusan. Berdasarkan

proses klasifikasi tersebut dengan menggunakan algoritma naïve bayes, dihasilkan

tingkat akurasi sebesar 82,08%.


2

Dari hasil penelitian tersebut, maka penulis juga ingin menggunakan

metode klasifikasi dengan algoritma naïve bayes dalam memprediksi kelulusan

mahasiswa karena penelitian yang telah dilakukan sebelumnya mendapatkan

tingkat akurasi yang tergolong baik.

1.2 Rumusan Masalah

1. Bagaimana metode naïve bayes mampu dengan tepat memprediksi

kelulusan mahasiswa?

2. Berapa hasil akurasi yang didapatkan dengan menggunakan metode

naïve bayes?

1.3 Tujuan

1. Mampu memprediksi kelulusan mahasiswa secara tepat dengan

menggunakan metode naïve bayes.

2. Mengetahui tingkat akurasi metode naïve bayes dalam memprediksi

kelulusan mahasiswa.

1.4 Manfaat

1. Dapat memprediksi mahasiswa yang lulus tepat waktu dan tidak tepat

waktu.

2. Dapat membantu pihak akademik dalam meminimalisir mahasiswa

yang lulus tidak tepat waktu.

1.5 Batasan Masalah

1. Data hanya berasal dari mahasiswa Fakultas Sains dan Teknologi

Universitas Sanata Dharma lulusan tahun 2010 sampai 2018.

2. Data yang digunakan dalam penelitian ini adalah data akademik dan

data pribadi mahasiswa yang meliputi program studi, jenis kelamin,

daerah asal, Indeks Prestasi Semester 1 sampai 4, jumlah SKS yang

telah ditempuh pada saat semester 4, jumlah poin, lama tugas akhir, dan

masa studi.


3

1.6 Metodologi Penelitian

Penelitian ini menggunakan beberapa tahap sebagai berikut:

1. Studi Pustaka

Pada tahap ini, peneliti mempelajari teori-teori yang berkaitan

dengan data mining dan algoritma naïve bayes melalui jurnal, buku, dan

artikel.

2. Pengumpulan data

Data yang diperoleh mempunyai beberapa atribut dan record. Data

tersebut kemudian akan diintegrasikan dan dijadikan sebagai dataset

yang akan diproses lebih lanjut.

3. Pengolahan awal data

Pada tahap ini, data akan diseleksi dan dibersihkan dari noise.

Selanjutnya data akan ditransformasi untuk mendapatkan bentuk atau

format yang valid.

4. Pengujian model

Model yang akan diuji pada tahap ini adalah dengan menggunakan

algoritma naïve bayes dan beberapa metode lainnya.

5. Evaluasi dan validasi hasil

Evaluasi pada model dilakukan pada tahap ini sebagai hasil untuk

mengetahui tingkat akurasi.

1.7 Sistematika Penulisan

Sistematika penulisan pada penelitian ini dibagi menjadi 5 bab, yaitu:

BAB I PENDAHULUAN

Bab ini menjelaskan tentang latar belakang, rumusan masalah, tujuan,

manfaat, batasan masalah, metodologi penelitian, dan sistematika

penulisan.


4

BAB II LANDASAN TEORI

Bab ini berisi mengenai teori-teori yang akan digunakan sebagai dasar

dalam penelitian klasifikasi dengan menggunakan algoritma naïve bayes.

BAB III METODOLOGI PENELITIAN

Bab ini berisi tentang gambaran umum sistem yang akan dibangun, data

yang digunakan dan tahap-tahap prediksi kelulusan dengan menggunakan

metode naïve bayes.

BAB IV IMPLEMENTASI DAN ANALISA HASIL

Bab ini menjelaskan tentang hasil dari perancangan sistem dan pengujian

metode klasifikasi naïve bayes.

BAB V PENUTUP

Bab ini akan menjelaskan tentang hasil kesimpulan dari analisa dan saran-

saran untuk pengembangan lebih lanjut.


5

BAB II

LANDASAN TEORI

Bab ini akan menjelaskan secara singkat teori-teori yang digunakan pada

penelitian, antara lain, kelulusan studi mahasiswa, data mining, k-fold cross

validation dan confusion matrix. Teori-teori tersebut antara lain:

2.1 Kelulusan Studi Mahasiswa

Kriteria kelulusan mahasiswa dari suatu program studi dirumuskan dalam

bentuk Standar Kompetensi Lulusan yang yang terdapat dalam rancangan

kurikulum. Secara khusus, Pasal 1 butir 4 Peraturan Pemerintah No. 19 tahun 2005

tentang Standar Nasional Pendidikan, menyebutkan bahwa “Standar Kompetensi

Lulusan” adalah kualifikasi kemampuan lulusan yang mencakup sikap,

pengetahuan, dan keterampilan.

Pada suatu perguruan tinggi contohnya Universitas Sanata Dharma Fakultas

Sains dan Teknologi, jumlah mahasiswa yang lulus tidak tepat waktu tergolong

lebih banyak daripada mahasiswa yang lulus tepat waktu. Mahasiswa dapat

dikatakan lulus tepat waktu jika mampu menyelesaikan masa studinya tidak lebih

dari 4 tahun, sedangkan mahasiswa yang menyelesaikan masa studinya lebih dari 4

tahun termasuk dalam mahasiswa yang lulus tidak tepat waktu.

Terdapat beberapa faktor yang mempengaruhi lama masa studi mahasiswa,

diantaranya faktor eksternal dan internal. Faktor internal penyebab lamanya masa

studi mahasiswa antara lain: (1) kuliah karena keterpaksaan dan (2) salah memilih

jurusan. Sedangkan faktor eksternal penyebab lamanya masa studi mahasiswa

antara lain: (1) terlalu menikmati kebebasan karena jauh dari orang tua, (2) terlalu

aktif mengikut organisasi kemahasiswaan, (3) menekuni hobi secara berlebihan, (4)

bekerja, dan (5) tidak adanya jaminan mendapatkan pekerjaan setelah lulus

(Wahyu, 2010).


6

Menurut buku panduan akademik Universitas Sanata Dharma yang

mengacu pada peraturan akademik Universitas Sanata Dharma tahun 2010, BAB

VI, Pasal 30, mahasiswa dinyatakan lulus program sarjana apabila:

a. Telah menyelesaikan 144 satuan kredit;

b. Mencapai IPK sekurang-kurangnya 2,00;

c. Proporsi nilai D tidak melebihi 15% dari jumlah satuan kredit program

studi yang bersangkutan.

d. Tidak ada nilai E;

e. Mencapai nilai sekurang-kurangnya C untuk mata kuliah wajib

Universitas yang diatur dengan SK Rektor.

f. Lulus ujian akhir

g. Memenuhi jumlah poin softskills yang ditetapkan Universitas

2.2 Data Mining

2.2.1 Pengertian Data Mining

Data mining merupakan proses yang menggunakan teknik statistik,

matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi

dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang

terkait dari berbagai database besar (Turban dkk, 2005).

Gambar 2.1 Knowledge Discovery Database (KDD)

Han, Jiawei (2011)


7

Data mining mengacu pada mining knowledge dari data dalam

jumlah besar (Han & Kamber, 2006). Secara umum data mining dikenal

dengan proses Knowledge Discovery from Data (KDD). Proses KDD

sebagai berikut:

1. Pembersihan data (Data Cleaning).

Proses pembersihan data atau data cleaning dilakukan untuk

menghilangkan noise dan data yang tidak konsisten.

2. Integrasi data (Data Integration).

Proses data integrasi adalah proses menggabungkan data dari

sumber data yang berbeda.

3. Seleksi data (Data Selection).

Seleksi data adalah proses memilih data atau atribut yang

relevan untuk atribut ini. Pada tahap ini dilakukan analisis

korelasi atribut data. Atribut – atribut data tersebut dicek apakah

relevan untuk dilakukan penambangan data.

4. Transformasi data (Data Transformation).

Transformasi atau data transformation proses

menggabungkan data ke dalam bank yang sesuai untuk

ditambang.

5. Penambangan data (Data Mining).

Langkah ini adalah langkah paling penting yaitu melakukan

pengaplikasian metode yang tepat untuk pola data.

6. Evaluasi pola (Pattern Evaluation).

Pada langkah ini dilakukan identifikasi pola dalam bentuk

pengetahuan berdasarkan beberapa pengukuran yang penting.

7. Presentasi pengetahuan (Knowledge Presentation).

Pada langkah ini dilakukan proses penyajian pengetahuan

dari hasil penambangan data. hasil klasifikasi data nasabah akan

ditampilkan ke dalam bentuk yang mudah dipahami

user/pengguna.


8

2.2.2 Pengelompokkan Data Mining

Data mining dibagi menjadi beberapa kelompok berdasarkan

tugas yang dapat dilakukan (Larose, 2005), yaitu:

a. Deskripsi

Terkadang peneliti dan analisis secara sederhana ingin

mencoba mencari cara untuk menggambarkan pola dan

kecendrungan yang terdapat dalam data.

b. Estimasi

Estimasi hampir sama dengan klasifikasi, kecuali

variabel target estimasi lebih ke arah numerik dari pada ke

arah kategori.

c. Prediksi

Prediksi hampir sama dengan klasifikasi dan estimasi,

kecuali bahwa dalam prediksi nilai dari hasil akan ada di

masa mendatang.

d. Klasifikasi

Dalam klasifikasi, terdapat target variabel kategori.

Model data mining memeriksa serangkaian record yang

besar, masing-masing record berisi informasi tentang target

variabel serta serangkaian input atau prediktor variabel.

e. Pengklusteran

Clustering merupakan suatu metode untuk mencari dan

mengelompokkan data yang memiliki kemiripan

karakteriktik (similarity) antara satu data dengan data yang

lain. Clustering merupakan salah satu metode data mining

yang bersifat tanpa arahan (unsupervised).

f. Asosiasi

Tugas asosiasi dalam data mining adalah menemukan

atribut yang muncul dalam suatu waktu. Dalam dunia bisnis

lebih umum disebut analisis keranjang belanja.


9

Dalam melakukan proses data mining, terdapat teknik-teknik

dengan 2 pendekatan yang berbeda yaitu supervised learning dan

unsupervised learning. Berikut penjelasan dari supervised learning dan

unsupervised learning (Jiawei, 2011).

a. Supervised learning

Supervised learning merupakan sebuah pendekatan yang

pada umumnya disebut dengan teknik klasifikasi. Pada

supervised learning, pembelajaran model berasal dari label

dan juga data yang digunakan sebagai training.

b. Unsupervised Learning

Unsupervised learning merupakan sebuah pendekatan

yang pada umumnya disebut dengan teknik klaster. Input

yang digunakan pada unsupervised learning tidak diberi

label kelas, biasanya pengguna teknik ini menggunakan

teknik clustering untuk menemukan kelas pada data.

Pada penelitian ini, penulis menggunakan pendekatan

supervised learning dengan menerapkan metode klasifikasi dimana

algoritma yang digunakan adalah algoritma naïve bayes.

2.2.3 Klasifikasi

Klasifikasi adalah proses penemuan model (atau fungsi) yang

menggambarkan dan membedakan kelas data atau konsep yang bertujuan

agar bisa digunakan untuk memprediksi kelas dari objek yang label

kelasnya tidak diketahui.

Klasifikasi data terdiri dari 2 langkah proses. Pertama adalah

learning (fase training), dimana algoritma klasifikasi dibuat untuk

menganalisa data training lalu direpresentasikan dalam bentuk rule

klasifikasi. Proses kedua adalah klasifikasi, dimana data tes digunakan

untuk memperkirakan akurasi dari rule klasifikasi (Kamber & Han, 2006).


10

2.2.4 Naïve Bayes

Naïve bayes merupakan salah satu metode yang digunakan untuk

pengklasifikasian sebuah data dengan berdasarkan teorema bayes dengan

mengasumsikan bahwa suatu data memiliki sifat tidak saling terkait antar

satu dengan yang lain atau disebut independent. Teknik penggunaan naïve

bayes sangat sederhana dan cepat dengan penggunaan probabilistik.

Algoritma ini menggunakan metode probabilitas dan statistik yang

dikemukakan oleh ilmuan Inggris Thomas Bayes yaitu memprediksi

peluang di masa depan berdasarkan pengalaman sebelumnya (Tan &

Kumar, 2006).

Berikut persamaan dari teorema Bayes:

𝑃(𝐻|𝑋) = 𝑃(𝑋|𝐻). 𝑃(𝐻)

𝑃(𝑋) (2.1)

Keterangan :

X : Data dengan class yang belum diketahui

H : Hipotesis data merupakan suatu class spesifik

P(H|X) : Probabilitas hipotesis H berdasar kondisi X (posterior

Probabilitas)

P(H) : Probabilitas hipotesis H (prior probabilitas)

P(X|H) : Probabilitas X berdasarkan kondisi pada hipotesis H

P(X) : Probabilitas X

Atau dengan kata lain dapat ditulis:

𝑃𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 = 𝑝𝑟𝑖𝑜𝑟 𝑥 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑

𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑒

(2.2)

Nilai Evidence selalu tetap untuk setiap kelas pada satu sampel.

Nilai dari posterior tersebut nantinya akan dibandingkan dengan nilai-nilai

posterior kelas lainnya untuk menentukan ke kelas apa suatu sampel akan

diklasifikasikan.


11

Untuk klasifikasi dengan data kontinyu, digunakan rumus densitas

gauss sebagai berikut:

P(𝑋𝑖 = 𝑥𝑖|𝑌 = 𝑌𝑗) =1

√2𝜋𝜎𝑒

−(𝑥𝑖−𝜇)2

2(𝜎)2 (2.3)

Keterangan :

𝑃 : Peluang

𝑋𝑖 : Atribut ke-i

𝑥𝑖 : Nilai atribut ke-i

𝑌 : Kelas yang dicari

𝜇 : mean, menyatakan rata-rata dari seluruh atribut

𝜎 : Standar deviasi

2.3 Information Gain

Information Gain merupakan metode seleksi fitur paling sederhana dengan

melakukan perangkingan atribut dan banyak digunakan dalam aplikasi kategorisasi

teks, analisis data microarray dan analisis data citra. (Chormunge & Jena, 2016).

Information gain digunakan pada tahap preprocessing untuk mengurangi noise

yang disebabkan oleh atribut-atribut yang tidak sesuai.

Untuk menghitung information gain digunakan persamaan (2.4), persamaan

(2.5) dan persamaan (2.6) sebagai berikut (Han et al., 2012):

𝑖𝑛𝑓𝑜(𝐷) = ∑ − 𝑃𝑖

𝑚

𝑖=1𝑙𝑜𝑔2(𝑃𝑖) (2.4)

Keterangan:

𝐷 : Jumlah seluruh sampel data

𝑚 : Jumlah nilai yang ada pada kelas klasifikasi

𝑖 : Maksimal nilai yang ada pada kelas klasifikasi

𝑃𝑖 : Jumlah sampel untuk kelas i


12

𝑖𝑛𝑓𝑜𝐴(𝐷) = 𝐸(𝐴) = ∑|𝐷𝑗|

|𝐷|

𝑣

𝑗=1

𝑥 𝑖𝑛𝑓𝑜 (𝐷𝑖) (2.5)

Keterangan:

𝐴 : Atribut

𝑣 : Suatu nilai yang mungkin untuk atribut A

𝑗 : Maksimal nilai yang mungkin untuk atribut A

𝐷 : Jumlah seluruh sampel data

𝐷𝑗 : Jumlah sampel untuk nilai j

𝐷𝑖 : Jumlah sampel untuk nilai i

𝐺𝑎𝑖𝑛(𝐴) = |𝑖𝑛𝑓𝑜(𝐷) − 𝑖𝑛𝑓𝑜𝐴(𝐷)| (2.6)

Keterangan:

𝐴 : Atribut

𝑖𝑛𝑓𝑜(𝐷) : Entropi untuk kelas D

𝑖𝑛𝑓𝑜𝐴(𝐷) : Entropi untuk kelas D pada atribut A

2.4 Normalisasi Min-Max

Tahap preprocessing lainnya ialah normalisasi data. Tujuan normalisasi

data adalah untuk memberikan tiap atribut bobot yang sama. Contohnya data minA

dan maxA adalah nilai minimum dan maksimum atribut. Normalisasi min-max

memetakan nilai, vi, dari A ke v0 i dalam kisaran [minA baru, maks baru] (Han et

al., 2012).Berikut rumus dari normalisasi min-max:

𝑉𝑖 =𝑋 − min(𝑋)

max(𝑋) − min(𝑋)(𝑛𝑒𝑤_𝑚𝑎𝑥𝐴 − 𝑛𝑒𝑤_𝑚𝑖𝑛𝐴) + 𝑛𝑒𝑤_𝑚𝑖𝑛𝐴 (2.7)


13

Keterangan:

𝑋 : Data yang akan di normalisasi

Min(𝑋) : Jumlah minimum data

Max(𝑋) : Jumlah maksimum data

𝑁𝑒𝑤_𝑚𝑖𝑛𝐴 : range minimum data

𝑁𝑒𝑤_𝑚𝑎𝑥𝐴 : range maximum data

2.5 Cross Validation

Pada pendekatan ini, setiap data digunakan dalam jumlah yang sama untuk

pelatihan dan tepat satu kali untuk pengujian. Bentuk umum pendekatan ini disebut

dengan k-fold cross validation, yang memecah set data menjadi k bagian set data

dengan ukuran yang sama. Setiap kali berjalan, satu pecahan berperan sebagai data

set data latih sedangkan pecahan lainnya menjadi set data latih. Prosedur tersebut

dilakukan sebanyak k kali sehingga setiap data kesempatan menjadi data uji tepat

satu kali dan menjadi data latih sebanyak k1 kali. Total error didapatkan dengan

menjumlahkan semua error yang didapatkan dari k kali proses (Prasetyo, 2014).

Gambar 2.2 3-Fold Cross Validation

Ketika pengujian dilakukan sebanyak k kali iterasi, maka rata-rata akurasi

tiap pengujian akan dihitung untuk mendapatkan tingkat akurasi keseluruhan.

Tingkat akurasi dapat dihasilkan dari perhitungan metode confusion matrix.

2.6 Confusion Matrix

Confusion matrix adalah suatu metode yang digunakan untuk melakukan

perhitungan akurasi pada konsep data mining. Evaluasi dengan confusion matrix


14

menghasilkan nilai akurasi, presisi dan recall. Akurasi dalam klasifikasi adalah

persentase ketepatan record data yang diklasifikasikan secara benar setelah

dilakukan pengujian pada hasil klasifikasi (Jiawei, Kamber, & Pei, 2006).

Dalam penelitian ini, pengukuran akurasi dilakukan dengan metode

pengujian confusion matrix yang dapat dilihat pada tabel berikut:

Tabel 2.1 Confusion Matrix

Kategori Nilai Sebenarnya

Nilai Prediksi

Benar Salah

Benar TP FP

Salah FN TN

Keterangan:

TP : Klasifikasi bernilai benar menurut prediksi dan benar menurut nilai

sebenarnya

FP : Klasifikasi bernilai benar menurut prediksi dan salah menurut nilai

Sebenarnya

FN : Klasifikasi bernilai salah menurut prediksi dan benar menurut nilai

sebenarnya

TN : Klasifikasi bernilai salah menurut prediksi dan salah menurut nilai

sebenarnya

Untuk menghitung tingkat akurasi digunakan rumus perhitungan sebagai

berikut:

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =𝑇𝑃 + 𝑇𝑁

𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 𝑥 100% (2.8)


15

BAB III

METODE PENELITIAN

Bab ini akan menjelaskan tentang gambaran umum sistem, peralatan

penelitian, dan perancangan interface untuk prediksi kelulusan mahasiswa Fakultas

Sains dan Teknologi Universitas Sanata Dharma menggunakan metode klasifikasi

naïve bayes.

3.1 Gambaran Umum

Gambar 3.1 Diagram Blok

Gambar 3.1 diatas merupakan proses sistem dalam mengolah data. Berikut

alur sistem yang dibangun dengan menggunakan algoritma naïve bayes:

1. Sistem membaca file bertipe .xlsx atau .xls yang di-upload melalui

direktori komputer.

2. File yang telah di-upload akan melalui tahap preprocessing untuk

menghilangkan noise. Tahap preprocessing yang digunakan adalah data

cleaning, data selection, dan data transformation.

3. Pada tahap data cleaning, data yang memiliki missing value akan

dihapus dengan melakukan cek terhadap kolom/atribut, jika salah satu

kolom atau lebih memiliki nilai kosong, maka baris data tersebut akan

dihapus dari tabel.


16

4. Pada tahap data selection, dilakukan seleksi atribut dimana atribut akan

diranking menggunakan info gain untuk mendapatkan variasi atribut

paling optimal, dan hasil perankingan akan dimasukkan secara manual

pada program.

5. Pada tahap data transformation, tiap kolom/atribut yang ingin diubah

ke nilai tertentu akan diambil untuk dilakukan transformasi data.

Transformasi data dilakukan pada atribut masa studi dengan membuat

kategori tepat dan tidak tepat, serta dilakukan normalisasi min-max pada

atribut SKS semester 4 untuk mengubah rentang nilai dari 0 sampai 1.

6. Setelah data awal melalui tahap preprocessing, maka sistem akan

menghasilkan dataset atau data yang siap dipakai untuk proses

pembentukan model naïve bayes.

7. Kemudian dataset akan dibagi menjadi data training dan data testing

berdasarkan 3-fold cross validation. Data tersebut memiliki 3 bagian set

dimana 1/3 data akan dijadikan sebagai data testing dan 2/3 data akan

digunakan sebagai data training.

8. Tahap selanjutnya adalah melakukan perhitungan untuk mencari

probabilitas tiap atribut dan probabilitas kelas (prior).

9. Untuk mencari probabilitas atribut, tiap kolom pada data training akan

dihitung mean dan standar deviasinya terlebih dahulu, kemudian

probabilitas dihitung menggunakan rumus densitas gauss atau

persamaan (2.3) berdasarkan nilai data testing.

10. Setelah probabilitas didapatkan, maka probabilitas tiap atribut akan

dikali untuk menghitung likelihood berdasarkan kelas tepat dan tidak

tepat.

11. Selanjutnya rumus naïve bayes pada persamaan (2.2) akan diterapkan

untuk mencari nilai posterior dari kelas tepat dan tidak tepat dengan

memasukkan nilai likelihood, probabilitas kelas/prior, dan nilai

evidence.

12. Setelah nilai posterior tiap kelas didapatkan, maka hasil posterior

tersebut akan dibandingkan untuk dicari nilai tertingginya, jika salah


17

satu kelas memiliki nilai posterior terbesar, maka kelas tersebut akan

menjadi label dari data testing. Pada tahap ini model dari naïve bayes

telah dibentuk.

13. Setelah model naïve bayes telah dibentuk, tahap selanjutnya adalah

membandingkan hasil klasifikasi dengan label testing, kemudian

menguji akurasi dengan menggunakan confusion matrix dengan

menggunakan persamaan (2.8).

14. Selanjutnya akan dilakukan uji data tunggal dengan memasukkan data

baru sebagai data test. Setelah melalui tahap perhitungan model naïve

bayes, maka sistem akan menampilkan hasil prediksi yakni tepat atau

tidak tepat.

3.1.2 Data

Data awal yang digunakan merupakan data mahasiswa Fakultas

Sains dan Teknologi Universitas Sanata Dharma lulusan tahun 2010 sampai

2018 yang diambil dari BAPSI kampus 3 Universitas Sanata Dharma. Dari

data tersebut diperoleh 1630 data record dan terdapat 10 atribut serta 1 kelas

yang digunakan sebagain inputan dalam perhitungan metode klasifikasi

naïve bayes. Atribut-atribut tersebut antara lain program studi, jenis

kelamin, daerah asal, Indeks Prestasi Semester 1, Indeks Prestasi Semester

2, Indeks Prestasi Semester 3, Indeks Prestasi Semester 4, SKS yang telah

ditempuh selama semester 1 sampai 4, poin, lama tugas akhir dan masa

studi.

Berikut merupakan contoh data awal yang belum melalui tahap

preprocessing:

Tabel 3.1 Contoh Data Awal

No. IPS 2 SKS S4 Lama TA Masa studi

1. 1.55 66 2 7

2. 3.47 81 1 4

3. 2.55 81 7 5


18

4. 3.88 81 1 4

5. 3.64 79 1 4

6. 1.95 78 5 6

7. 2.77 83 1 6

8. 3.37 81 2 4

9. 2.32 65 3 5

10. 3.24 77 1 4

11. 2.33 69 2 5

12. 3.17 83 1 4

13. 2.91 2 6

Berikut penjelasan masing-masing atribut yang digunakan pada penelitian

ini:

1. Prodi : Program studi atau disingkat prodi merupakan

kesatuan rencana belajar yang digunakan sebagai

pedoman jalannya pendidikan akademik yang

penyelenggaraannya berdasarkan suatu kurikulum.

Data prodi terdiri dari TM, TE, INF, dan MAT.

2. JK : JK merupakan singkatan dari jenis kelamin yang

terdiri dari laki-laki dan perempuan.

3. Daerah asal : Daerah asal yang digunakan adalah nama asal

provinsi mahasiswa.

4. IPS 1 : Indeks Prestasi mahasiswa pada saat semester 1.




8. SKS S4 : Jumlah SKS yang telah ditempuh pada saat

semester 4.

9. Poin : Jumlah poin kegiatan kemahasiswaan.

10. Lama TA : Lama pengerjaan tugas akhir mahasiswa dalam


19

satuan semester.

11. Masa studi : Jangka waktu penyelesaian studi mahasiswa dalam

satuan tahun.

3.1.3 Preprocessing

Pada tahap ini data akan melalui tahap preprocessing untuk

menghilangkan noise sehingga sistem menghasilkan dataset yang siap

dipakai untuk proses klasifikasi selanjutnya. Jenis Preprocessing yang ada

pada sistem ini adalah data cleaning, data selection, dan data

transformation.

3.1.3.1 Data Cleaning

Proses pembersihan data dilakukan untuk menghilangkan

noise dan data yang tidak konsisten. Jika terdapat nilai kosong pada

salah satu atribut maka baris data tersebut akan dihapus atau

dihilangkan dari tabel. Pada tabel 3.1 terdapat field kosong pada

baris ke-13 yaitu atribut SKS semester 4, maka baris data tersebut

akan dihapus dari tabel.

Gambar 3. 2 Contoh Data Sebelum Proses Data Cleaning

Pada gambar 3.2 diatas, data awal yang telah di-upload

ditampilkan pada tabel dan terdapat field kosong pada baris nomor

13 yaitu atribut SKS semester 4 sehingga sistem mengembalikan

nilai nan.


20

Gambar 3. 3 Contoh Data Sesudah Proses Data Cleaning

Pada gambar 3.3, setelah tombol preprocessing dijalankan,

maka baris nomor 13 akan dihapus dari tabel dan menyisakan 12

data.

3.1.3.2 Data Selection

Pada tahap seleksi data, semua atribut akan diranking

dengan menerapkan metode information gain. Untuk mendapatkan

hasil information gain, penulis menggunakan weka tools versi 3.9

dan jumlah atribut dengan akurasi tertinggi akan digunakan untuk

proses klasifikasi selanjutnya.

Pada tabel 3.1, contoh data awal memiliki tiga atribut

dimana seluruh atribut tersebut digunakan untuk proses klasifikasi.

Jumlah atribut akan dimasukkan secara manual dan menghasilkan

tabel seperti gambar 3.4 berikut:

Gambar 3. 4 Contoh Data Selection


21

3.1.3.3 Data Transformation

Transformasi data adalah proses perubahan data ke dalam

kategori atau nilai tertentu yang sesuai untuk proses data mining.

Pada tahap ini data yang akan ditransformasikan adalah atribut SKS

semester 4 dengan menggunakan normalisasi min-max dan atribut

masa studi dengan mengkategorikan nilai menjadi 1 dan 0.

a. Transformasi kelas masa studi

Pada kelas masa studi terdapat nilai yang terdiri dari

2, 3, 4, 5, 6, 7, 8 dan 9. Nilai-nilai tersebut akan

dikelompokkan menjadi 1 dan 0 atau tepat dan tidak

tepat berdasarkan syarat berikut:

• Masa studi <= 4 tahun : 1

• Masa studi > 4 tahun : 0

b. Normalisasi min-max SKS semester 4

Normalisasi min-max digunakan pada atribut SKS

semester 4 karena atribut tersebut memiliki nilai yang

rentangnya cukup jauh dibandingkan dengan atribut

lainnya. Untuk melakukan proses normalisasi data,

dilakukan perhitungan min-max dengan menggunakan

persamaan (2.7).

Setelah melalui tahap data cleaning, data selection,

dan data transformation maka sistem menghasilkan data

pakai sebagai berikut:

Gambar 3. 5 Contoh Data Pakai


22

3.1.4 Modelling Naïve Bayes

Dalam tahap pembentukan model, data yang telah melalui tahap

preprocessing akan dibentuk modelnya terlebih dahulu dengan

menggunakan algoritma naïve bayes. Sebelum masuk ke perhitungan

modelling naïve bayes, data pakai dibagi menjadi 3 bagian terlebih dahulu

dengan menggunakan metode 3-fold cross validation. Selanjutnya 2/3 data

partisi tersebut akan digunakan sebagai data training dan 1/3 lainnya akan

digunakan sebagai data testing. Berikut contoh pembagian data training

dan data testing pada fold pertama:

Tabel 3. 2 Contoh Data Training

No. IPS 2 SKS S4 Lama TA Masa Studi

1. 1.55 0.777777778 2 0

2. 3.47 0.722222222 1 1

3. 2.55 1 7 0

4. 3.88 0.888888889 1 1

5. 3.64 0 1 1

6. 1.95 0.666666667 5 0

7. 2.77 0.222222222 1 0

8. 3.37 1 2 1

Tabel 3. 3 Contoh Data Testing


9. 2.32 0.055555556 3 0

10. 3.24 0.888888889 1 1

11. 2.33 0.888888889 2 0

12. 3.17 0.888888889 1 1

Setelah data training dan data testing didapatkan, selanjutnya

adalah mencari prior dan probabilitas tiap atribut. Pada data pakai, atribut


23

yang digunakan adalah IPS 2, SKS semester 4, dan lama tugas akhir dimana

nilai tiap atribut bersifat kontinu, maka untuk mencari probabilitas atribut-

atribut tersebut, digunakan perhitungan mean dan standar deviasi terlebih

dahulu.

Tabel 3. 4 Prior Kelas

Masa studi P(masa studi)

1 4/8

0 4/8

Untuk menghitung mean, digunakan rumus sebagai berikut:

�̅� =𝐽𝑢𝑚𝑙𝑎ℎ 𝑛𝑖𝑙𝑎𝑖

𝐵𝑎𝑛𝑦𝑎𝑘 𝑑𝑎𝑡𝑎 (3.1)

Untuk menghitung standar deviasi, digunakan rumus sebagai

berikut:

𝑆 = √∑ (𝑥𝑖 − 𝑥)2𝑛

𝑖=1

𝑛 − 1 (3.2)

Berikut hasil perhitungan mean dan standar deviasi tiap atribut:

Tabel 3. 5 Mean dan Standar Deviasi IPS 2

IPS 2 Tepat Tidak Tepat

Mean 3.59 2.205

Standar Deviasi 1.377717902 1.427983203

Tabel 3. 6 Mean dan Standar Deviasi SKS Semester 4

SKS S4 Tepat Tidak Tepat

Mean 0.861111111 0.666666667

Standar Deviasi 0.435025813 0.452515562


24

Tabel 3. 7 Mean dan Standar Deviasi Lama TA

Lama TA Tepat Tidak Tepat

Mean 1.25 3.75

Standar Deviasi 1.841115391 1.872792819

Jika mean dan standar deviasi telah dihitung, selanjutnya

menggunakan data testing pada tabel 3.5 untuk mencari nilai probabilitas

tiap atribut. Hasil akan dihitung berdasarkan persamaan (2.3) atau

menggunakan rumus densitas gauss dengan memasukkan mean, standar

deviasi, dan nilai data testing. Berikut hasil probabilitas tiap atribut

berdasarkan data testing:

Tabel 3. 8 Probabilitas Data Testing No. 9

Data testing no.9 Tepat Tidak Tepat

IPS 2 0.189334928 0.278470144

SKS S4 0.377385952 0.613584785

lama TA 0.137924966 0.196605123

Tabel 3. 9 Probabilitas Data Testing No.10

Data testing no.10 Tepat Tidak Tepat

IPS 2 0.280372566 0.214838644

SKS S4 0.463987358 0.69365332

lama TA 0.214696645 0.072478771


Data testing no.11 Tepat TidakTepat

IPS 2 0.190600971 0.278306316

SKS S4 0.405558222 0.641024052

lama TA 0.199432008 0.137662238


25


Data testing no.12 Tepat TidakTepat

IPS 2 0.276419863 0.222341729

SKS S4 0.509170704 0.641024052

lama TA 0.214696645 0.072478771

Setelah nilai probabilitas seluruh atribut terhadap kelas didapatkan,

nilai posterior untuk kelas tepat dan tidak tepat akan dicari berdasarkan data

testing dengan menggunakan persamaan (2.2). Jika salah satu posterior

kelas memiliki nilai paling tinggi, maka kelas pada posterior tersebut adalah

label dari data testing yang diuji. Berikut hasil perhitungan naïve bayes

berdasarkan persamaan (2.2):

Tabel 3. 12 Posterior Fold Pertama

Posterior Tepat Tidak Tepat

Data testing no. 9 0.004927531 0.016796471

Data testing no. 11 0.013964871 0.005400521

Data testing no. 12 0.007708026 0.012279543

Data testing no. 13 0.015108728 0.005165069

Setelah melakukan perhitungan yang sama pada data testing fold

kedua dan ketiga, maka didapatkan hasil klasifikasi sebagai berikut:

Tabel 3. 13 Hasil Klasifikasi Fold Pertama

No. IPS 2 SKS S4 Lama TA Masa Studi Klasifikasi

9. 2.32 0.2814 3 0 0

10. 3.24 0.3533 1 1 1

11. 2.33 0.3054 2 0 0

12. 3.17 0.3892 1 1 1


26

Tabel 3. 14 Hasil Klasifikasi Fold Kedua


5. 3.64 0.3653 1 1 1

6. 1.95 0.3593 5 0 0

7. 2.77 0.3892 1 0 1

8. 3.37 0.3772 2 1 1

Tabel 3. 15 Hasil Klasifikasi Fold Ketiga


1. 1.55 0.2874 2 0 0

2. 3.47 0.3772 1 1 1

3. 2.55 0.3772 7 0 0

4. 3.88 0.3772 1 1 1

3.1.5 Akurasi

Untuk mencari hasil akurasi dari hasil perhitungan naïve bayes,

digunakan perhitungan confusion matrix yakni dengan menjumlahkan data

yang diprediksi benar dan dibagi dengan seluruh data yang diprediksi benar

maupun salah lalu dikali dengan 100%. Pada kasus diatas, pengujian

dilakukan sebanyak 3 kali sehingga menghasilkan akurasi sebagai berikut:

Tabel 3.16 Confusion Matrix Fold Pertama

Masa Studi Tepat Tidak Tepat

Tepat 2 0

Tidak Tepat 0 2

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 2 + 2

2 + 0 + 0 + 2𝑥 100% = 100%


27

Tabel 3. 17 Confusion Matrix Fold Kedua


Tepat 2 0

Tidak Tepat 1 1


2 + 0 + 1 + 1𝑥 100% = 75%

Tabel 3. 18 Confusion Matrix Fold Ketiga


Tepat 2 0

Tidak Tepat 0 2


2 + 0 + 0 + 2𝑥 100% = 100%

Setelah mendapatkan hasil akurasi tiap pengujian, selanjutnya hasil

akurasi tersebut dihitung rata-ratanya untuk mendapatkan tingkat akurasi

keseluruhan. Berikut tingkat akurasi keseluruhan dengan menggunakan

rumus rata-rata:

𝑇𝑖𝑛𝑔𝑘𝑎𝑡 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =100 + 75 + 100

3= 91,6%

3.2 Peralatan Penelitian

Penelitian ini menggunakan beberapa peralatan untuk membangun sistem,

yaitu sebagai berikut:

1. Perangkat keras

a. Merk : Asus

b. Type : X505Z

c. Processor : AMD Quad Core R5, 3.6 GHz

d. RAM : 8,00 GB

e. HDD : 1 TB


28

2. Perangkat Lunak

a. Windows 10 Home

b. Microsoft Excel 2013

c. Weka Tools 3.9

d. Matlab R2014B

3.3 Perancangan Interface

Gambar 3.6 Perancangan Interface

Pada perancangan interface yang dibuat, terdapat bagian untuk

pembentukan model dan uji data. Untuk membuat model, terdapat tombol upload

pada area 2 untuk membuka file excel dari direktori komputer dan data yang dipilih

akan ditampilkan dalam bentuk tabel pada area 1. Sebelum masuk pada tahap

preprocessing terdapat field pada area 3 untuk memasukkan jumlah atribut yang

akan digunakan. Kemudian tombol preprocessing pada area 5 akan menghasilkan

dataset yang ditampilkan pada area 4. Setelah data hasil preprocessing ditampilkan,

tombol hitung pada area 7 akan menghitung tingkat akurasi dan menampilkannya

pada area 6. Kemudian hasil confusion matrix dari tiap pengujian akan ditampilkan

pada area 8, area 9, dan area 10 .

Untuk melakukan uji data tunggal, data tiap atribut diinputkan satu persatu

terlebih dahulu di area 13. Kemudian ketika tombol klasifikasi pada area 14

dijalankan, maka hasil prediksi masa studi yakni tepat atau tidak tepat akan


29

ditampilkan pada area 15. Ketika tombol hapus pada area 16 dijalankan, maka isi

dari tiap field uji data tunggal akan dihapus.

Untuk melakukan uji data dengan data yang berjumlah banyak, maka

pengguna melakukan upload data terlebih dahulu pada area 17 dan hasil data akan

ditampilkan di area 11. Setelah itu ketika tombol klasifikasi pada area 18

dijalankan, hasil klasifikasi tiap data akan ditampilkan pada area 12.


30

BAB IV

HASIL DAN ANALISIS

Bab ini akan membahas hasil implementasi dari sistem yang telah dibuat

serta menganalisa hasil pengujian yang telah dilakukan.

4.1 Preprocessing

4.1.1 Data Cleaning

Pada tahapan data cleaning, baris data yang memiliki missing value

akan dihapus dari tabel sehingga tidak terdapat data kosong. Dari data yang

berjumlah 1630, terdapat satu data yang mengandung nilai kosong. Karena

jumlah data yang bernilai kosong hanya sebesar 0,06135%, maka baris data

tersebut dihapus dari tabel. Penelitian ini hanya menggunakan data yang

memiliki nilai pada setiap atribut agar tidak terdapat noise pada saat proses

klasifikasi.

4.1.2 Data Selection

Tahap ini akan melakukan seleksi atribut dengan menggunakan

Weka Tools 3.9 dan hasil seleksi atribut didapatkan berdasarkan infomation

gain dengan hasil sebagai berikut:

Tabel 4. 1 Hasil Perankingan Atribut

Ranking Atribut

1 SKS semester 4

2 Lama tugas akhir

3 IPS 2

4 IPS 3

5 IPS 4

6 IPS 1

7 Prodi

8 Poin


31

9 Daerah asal

10 Jenis kelamin

4.1.3 Data Transformation

Pada tahap ini, atribut yang memiliki rentang nilai yang jauh atau

tidak seimbang terhadap atribut lain akan ditransformasi menggunakan

normalisasi min-max. Salah satu atribut yang rentang nilainya cukup jauh

adalah SKS Semester 4 dengan nilai terendah yaitu 18 dan nilai tertinggi

yaitu 185. Kemudian nilai dari atribut masa studi akan diubah menjadi 1 dan

0, dimana nilai 1 merupakan masa studi <= 4 tahun dan nilai 0 merupakan

masa studi > 4 tahun. Berikut contoh data awal pada tahap transformasi

data:

Tabel 4. 2 Contoh Transformasi Data Awal

No. SKS Semester 4 Masa Studi

1. 66 5

2. 81 4

3. 107 5

Setelah melalui tahap transformasi data, atribut SKS semester 4

dan masa studi akan menghasilkan contoh data akhir seperti pada tabel 4.4

berikut:

Tabel 4. 3 Contoh Transformasi Data Akhir

No. SKS Semester 4 Masa Studi

1. 0.2874 0

2. 0.3772 1

3. 0.5329 0

Keterangan:

a. Masa studi = 1 : Tepat

b. Masa studi = 0 : Tidak Tepat


32

4.2 Klasifikasi

Setelah melalui tahap preprocessing, sistem akan menghasilkan dataset

atau data pakai dengan jumlah keseluruhan yaitu 1629 data. Penelitian ini

menggunakan seluruh atribut yang berjumlah 10 untuk diuji pada proses klasifikasi.

Penulis mencoba melakukan variasi terhadap tiap atribut untuk mencari hasil

akurasi yang optimal dan atribut dengan hasil paling optimal akan digunakan pada

uji data tunggal. Variasi atribut akan diurut berdasarkan hasil ranking atribut pada

tabel 4.3. Pengujian dilakukan menggunakan 3-fold cross validation dengan

membagi data menjadi 3 bagian dimana 2/3 data akan menjadi data training dan

1/3 data akan menjadi data testing. Berikut merupakan hasil variasi dan akurasi

dari tiap atribut:

Tabel 4. 4 Hasil Pengujian Akurasi

Jumlah Atribut Nama Atribut Akurasi

1 SKS semester 4 66.1142%

2 SKS semester 4

lama tugas akhir 80.4788%

3

SKS semester 4

lama tugas akhir

IPS 2

80.5402%

4

SKS semester 4

lama tugas akhir

IPS 2

IPS 3

79.6808%

5

SKS semester 4

lama tugas akhir

IPS 2

IPS 3

IPS 4

78.9441%

6

SKS semester 4

lama tugas akhir

IPS 2

IPS 3

IPS 4

IPS 1

78.0233%

7

SKS semester 4

lama tugas akhir

IPS 2

80.3560%


33

IPS 3

IPS 4

IPS 1

prodi

8

SKS semester 4

lama tugas akhir

IPS 2

IPS 3

IPS 4

IPS 1

Prodi

poin

80.1150%

9

SKS semester 4

lama tugas akhir

IPS 2

IPS 3

IPS 4

IPS 1

Prodi

poin

daerah asal

79.8036%

10

SKS semester 4

lama tugas akhir

IPS 2

IPS 3

IPS 4

IPS 1

Prodi

poin

daerah asal

jenis kelamin

79.9263%

Tabel 4.6 merupakan hasil akurasi dari 10 kali percobaan terhadap variasi

atribut. Setelah penulis melakukan percobaan tersebut, didapatkan hasil akurasi

yang berbeda-beda pada tiap variasi atribut dengan tingkat akurasi tertinggi sebesar

80.5402% dan akurasi terendah sebesar 66.1142%. Tingkat akurasi tertinggi

terdapat pada atribut berjumlah 3 yaitu SKS semester 4, lama tugas akhir, dan IPS

2 sedangkan tingkat akurasi terendah terdapat pada atribut yang berjumlah 1 yaitu

SKS semester 4. Hal ini menunjukkan bahwa atribut SKS semester 4, lama tugas

akhir, dan IPS 2 merupakan variasi atribut paling optimal dan sudah tepat dalam

memprediksi kelulusan mahasiswa karena memiliki tingkat akurasi paling baik.


34

Berdasarkan penelitian ini, jenis atribut yang baik dalam menentukan

kelulusan adalah atribut dengan tipe numerik. Hal ini dapat dilihat dari hasil ranking

atribut dimana atribut bertipe numerik berada diatas atribut bertipe kategorik.

Grafik tingkat akurasi tiap variasi atribut akan ditampilkan pada gambar 4.1 berikut:

Gambar 4. 1 Akurasi Rata-rata

Berikut hasil confusion matrix dengan menggunakan 3 atribut untuk 3-fold

cross validation:

Gambar 3. 7 Confusion Matrix Fold Pertama

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 255 + 184

255 + 58 + 46 + 184𝑥100% = 80.8471%

60.00%

65.00%

70.00%

75.00%

80.00%

85.00%

90.00%

0 1 2 3 4 5 6 7 8 9 10 11

Tin

gkat

Aku

rasi

Jumlah Atribut

Akurasi


35

Gambar 3. 8 Confusion Matrix Fold Kedua

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 269 + 40

269 + 40 + 51 + 183𝑥100% = 83.2413%

Gambar 3. 9 Confusion Matrix Fold Ketiga

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 264 + 64

264 + 64 + 58 + 157𝑥100% = 77.5322%

Gambar 3. 10 Akurasi Total

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 𝑇𝑜𝑡𝑎𝑙 = 80.8471 + 83.2413 + 77.5322

3𝑥100% = 80.5402%


36

4.3 Uji Data

4.3.1 Uji Data Tunggal

Pada tahap uji data tunggal, sistem akan menentukan hasil klasifikasi

berdasarkan data yang dimasukkan oleh pengguna. Untuk melakukan validasi,

penulis menggunakan model yang telah dibentuk dari pengujian pertama atau

fold pertama. Data training yang digunakan adalah 2/3 dari jumlah data dan

data testing yang digunakan adalah 1/3 dari jumlah data dimana data testing

berada pada set bawah. Inputan yang digunakan dalam proses klasifikasi hanya

atribut dengan tingkat akurasi tertinggi yaitu SKS semester 4, lama tugas akhir,

dan IPS 2. Berikut merupakan dua dari data testing yang akan diuji:

Tabel 4. 5 Data Testing Uji Data Tunggal


1. 3.17 81 1 1

2. 3.00 78 3 0

a. Data 1

Gambar 4. 2 Uji Data Tunggal Tepat

Pada gambar 4.2 diatas, data diklasifikasikan sebagai label tepat. Hasil

klasifikasi tersebut sesuai dengan label baris pertama pada tabel 4.5


37

b. Data 2

Gambar 4. 3 Uji Data Tunggal Tidak Tepat

Pada gambar 4.3 diatas, data diklasifikasikan sebagai label tidak tepat.

Hasil klasifikasi tersebut sesuai dengan label baris kedua pada tabel 4.5

4.3.2 Uji Data Kelompok

Pada tahap ini sistem akan melakukan klasifikasi terhadap data

dalam jumlah banyak. Data yang di-upload adalah data bertipe .xls atau

.xlsx dengan label yang belum diketahui. Ketika tombol klasifikasi

dijalankan, maka masing-masing data uji akan ditampilkan kembali beserta

label hasil klasifikasi. Pada uji data kelompok, penulis kembali melakukan

validasi dengan cara yang sama pada tahap uji data tunggal. Berikut

merupakan tiga dari data testing yang akan diuji:

Tabel 4. 6 Data Testing Uji Data Kelompok


1. 3.17 81 1 1

2. 3.00 78 3 0

3. 3.79 85 2 1


38

a. Data

Data yang dijadikan input pada uji data kelompok dapat

memiliki jumlah atribut yang lebih dari tiga, maka sistem memilih

dan melakukan ranking terlebih dahulu terhadap data dengan

memilih atribut SKS semester 4, lama tugas akhir, dan IPS 2.

Gambar 4.4 berikut merupakan tampilan uji data kelompok yang

datanya telah di-upload pada sistem:

Gambar 4. 4 Upload Uji Data Kelompok

Setelah data di-upload dan tombol klasifikasi dijalankan,

sistem akan menampilkan kembali data ke tabel beserta label hasil

klasifikasi pada tiap data uji seperti pada gambar 4.5 berikut:

Gambar 4. 5 Hasil Uji Data Kelompok

Pada gambar 4.5, label hasil klasifikasi akan ditampilkan di kolom 11, hasil

tersebut telah sesuai dengan data testing yang digunakan pada tabel 4.6.


39

BAB V

PENUTUP

5.1 Kesimpulan

Berdasarkan hasil penelitian yang telah dilakukan penulis dengan judul

prediksi kelulusan mahasiswa Fakultas Sains dan Teknologi Universitas Sanata

Dharma menggunakan metode klasifikasi naïve bayes, didapatkan kesimpulan

sebagai berikut:

1. Metode klasifikasi dengan menggunakan algoritma naïve bayes sudah

cukup tepat dalam memprediksi kelulusan mahasiswa.

2. Tingkat akurasi tertinggi terdapat pada 3 atribut yaitu SKS semester 4,

lama tugas akhir, dan Indeks Prestasi Semester 2 dengan hasil akurasi

sebesar 80.5402%. Hal ini menunjukkan bahwa atribut-atribut tersebut

dapat digunakan dalam menentukan pengklasifikasian.

5.2 Saran

Saran yang diberikan untuk penelitian selanjutnya adalah:

1. Sistem untuk memprediksi kelulusan mahasiswa dapat dikembangkan

menggunakan metode yang berbeda.

2. Penelitian selanjutnya dapat menambahkan atribut-atribut lain yang

lebih mempengaruhi kelulusan mahasiswa.


40

DAFTAR PUSTAKA

Anggreani, D., Herman, & Astuti, W. (2018). Kinerja Metode Naive Bayes dalam

Prediksi Lama Studi Mahasiswa Fakultas Ilmu Komputer. Seminar Ilmu

Komputer dan Teknologi Informasi, Vol.3 No.2.

Bustami. (2013). Penerapan Algoritma Untuk Mengklasifikasi Data Nasabah

Asuransi. Jurnal Penelitian Teknik Informatika, Vol.3, No.2.

Chormunge, S., & S., J. (2016). Efficient Feature Subset Selection Algorithm for

High Dimensional Data. International Journal of Electrical and Computer

Engineering (IJECE), Vol. 6, 1880-1888.

Kamber, M., & Han, J. (2006). Data Mining Concept and Techniques. San

Fransisco: Morgan Kauffman.

Larose, Daniel T. (2005). Discovering Knowledge in Data: An Introduction to

Data Mining. John Willey & Sons. Inc.

Nugroho, Y. S. (2014). Data Mining Menggunakan Algoritma Untuk Klasifikasi

Kelulusan Mahasiswa Universitas Dian Nuswantoro. Skripsi.

Santoso, B. (2007). Data Mining Teknik Pemanfaatan Data untuk Keperluan

Bisnis (1st ed.). Yogyakarta, Indonesia.

Tim Dosen Teknik Informatika. (2015). Panduan Akademik 2016/2017 Program

Studi Teknik Informatika. Yogyakarta: Universitas Sanata Dharma.

Turban, E., Aronson, J., & Liang, T. (2005). Decision Support System and

Intelligent Systems - 7th ed. Pearson Education, Inc. In Sistem Pendukung

Keputusan dan Sistem Cerdas (D. Prabantini, Trans.). Yogyakarta: ANDI.

Universitas Sanata Dharma. (2008). Manual Mutu Lulusan. Yogyakarta: Lembaga

Penjaminan Mutu Universitas Sanata Dharma.

Wahyu. (2010). Penyebab Lama Kuliah (Online). Dipetik July 1, 2020, dari

(http://blog.umy.ac.id/anharwahyu/2010/12/07/penyebab-lama-kuliah)


41

Widaningsih, S. (2019). Perbandingan Metode Data Mining untuk Prediksi Nilai

dan Waktu Kelulusan Mahasiswa Prodi Teknik Informatika dengan

Algoritma C4.5, Naive Bayes, KNN, dan SVM. Jurnal Tekno Insentif,

Vol.13, No.1, 16-25.


42

LAMPIRAN


43

A. Lampiran Percobaan Menggunakan Weka Tools 3.9

1. Information Gain

B. Lampiran Program

1. Preprocessing

clear; clc; [num, text, data] = xlsread('DATA AWAL.xlsx');

revenue = data(:,11); [m,n] = size(revenue);

% transformasi kelas lama studi data2 = cell2mat(data(:,11));

for i=1:m if (data2(i)<= 4) data{i, 11} = 1; else data{i,11} = 0; end end

%normalisasi atribut SKS S4 sks4 = Min_Max(cell2mat(data(:,8))); norm = data;

%memanggil data kembali for i=1:m norm{i,8} = sks4(i); end xlswrite('dataset.xls', norm, 1);


44

2. Main

3. Tigafold

clear; clc; [num,text,data] = xlsread('dataset.xls'); jumlahAtribut = 3; revenue = data(:,11); [m,~] = size(revenue);

rangking = [8, 10, 5, 6, 7, 4, 1, 9, 3, 2]; kategorikal = [1,2,3]; nonKategorikal = [4,5,6,7,8,9,10];

j = 0; k = 0;

atributKategorikal = 0; atributNonKategorikal = 0;

for i = 1:jumlahAtribut if ismember(rangking(i),kategorikal) j=j+1; atributKategorikal(j) = rangking(i); elseif ismember(rangking(i), nonKategorikal) k=k+1; atributNonKategorikal(k) = rangking(i); end end

tigafold;

ukurandata = size(data,2); X = data(:,1:ukurandata-1); Y = data(:,ukurandata); jmlhdata = size(X);

range = jmlhdata(1)/3;

data1 = X(1:range,:); data2 = X(range+1:range*2,:); data3 = X(range*2+1:jmlhdata(1),:);

dataTr1 = [data2;data3]; dataTs1 = data1;



atributKategorikal(j) = rangking(i); elseif ismember(rangking(i), nonKategorikal) k=k+1; atributNonKategorikal(k) = rangking(i); end end

tigafold;


45

like1 = Y(1:range); like2 = Y(range+1:range*2); like3 = Y(range*2+1:jmlhdata(1));

labelTr1 = [like2; like3]; labelTs1 = like1;



a = atributKategorikal; b = atributNonKategorikal;

for i=1:size(dataTs1, 1) if (a == 0) naiveKat = [1;1]; naiveNum = naiveNumerikal(dataTr1(:,b),

labelTr1, dataTs1(i,b)); hasil(i,1) = naiveBayes (naiveKat,

naiveNum, labelTr1); elseif (b==0) naiveNum = [1;1]; naiveKat =

naiveKategorikal(dataTr1(:,kategorikal),

labelTr1, dataTs1(i,kategorikal), a); hasil(i,1) = naiveBayes (naiveKat,

naiveNum, labelTr1); else naiveKat =


labelTr1, dataTs1(i,kategorikal), a); naiveNum = naiveNumerikal(dataTr1(:,b),

labelTr1, dataTs1(i,b)); hasil(i,1) = naiveBayes (naiveKat, naiveNum,

labelTr1); end end labelTs1 = cell2mat(labelTs1); confmat1 = confusionmat(hasil,labelTs1); output1 =

(sum(diag(confmat1))/sum(sum(confmat1)))*100;

for i = 1:size(dataTs2, 1) if (a == 0) naiveKat = [1;1]; naiveNum = naiveNumerikal(dataTr2(:,b),

labelTr2, dataTs2(i,b)); hasil(i,1) = naiveBayes (naiveKat,

naiveNum, labelTr2); elseif (b==0) naiveNum = [1;1]; naiveKat =



naiveNum, labelTr2);


46

elseif (b==0) naiveNum = [1;1]; naiveKat =









for i = 1:size(dataTs3, 1) if (a == 0) naiveKat = [1;1]; naiveNum = naiveNumerikal(dataTr3(:,b),


labelTr3); elseif (b==0) naiveNum = [1;1]; naiveKat =









akurasi = (output1 + output2 + output3)/3


47

4. NaïveKategorikal

function output = naiveKategorikal (B, labelTr,

testData, atributKategorikal)

labelTr = cell2mat(labelTr(:,:)); Tepat = find(labelTr(:) == 1); TidakTepat = find(labelTr(:) == 0); [m,~] = size(B);

%berdasar prodi if(ismember(1,atributKategorikal)) prodi = zeros(4,2); for i=1:m if(isequal(B{i,1},

'TM')&&isequal(labelTr(i,1), 1)) prodi(1,1) = prodi(1,1) + 1; elseif(isequal(B{i,1},

'TM')&&isequal(labelTr(i,1), 0)) prodi(1,2) = prodi(1,2) + 1; elseif(isequal(B{i,1},

'INF')&&isequal(labelTr(i,1), 1)) prodi(2,1) = prodi(2,1) + 1; elseif(isequal(B{i,1},

'INF')&&isequal(labelTr(i,1), 0)) prodi(2,2) = prodi(2,2) + 1; elseif(isequal(B{i,1},

'MAT')&&isequal(labelTr(i,1), 1)) prodi(3,1) = prodi(3,1) + 1; elseif(isequal(B{i,1},

'MAT')&&isequal(labelTr(i,1), 0)) prodi(3,2) = prodi(3,2) + 1; elseif(isequal(B{i,1},

'TE')&&isequal(labelTr(i,1), 1)) prodi(4,1) = prodi(4,1) + 1; elseif(isequal(B{i,1},

'TE')&&isequal(labelTr(i,1), 0)) prodi(4,2) = prodi(4,2) + 1; end end %model prodiM = [prodi(:,1)/length(Tepat)

prodi(:,2)/length(TidakTepat)]; end


48

%berdasar jenis kelamin if(ismember(2,atributKategorikal)) jk = zeros(2,2); for i=1:m if(isequal(B{i,2},

'L')&&isequal(labelTr(i,1), 1)) jk(1,1) = jk(1,1) + 1; elseif(isequal(B{i,2},

'L')&&isequal(labelTr(i,1), 0)) jk(1,2) = jk(1,2) + 1; elseif(isequal(B{i,2},

'P')&&isequal(labelTr(i,1), 1)) jk(2,1) = jk(2,1) + 1; elseif(isequal(B{i,2},

'P')&&isequal(labelTr(i,1), 0)) jk(2,2) = jk(2,2) + 1; end end %model jkM = [jk(:,1)/length(Tepat)

jk(:,2)/length(TidakTepat)]; end

%berdasar daerah asal if(ismember(3,atributKategorikal)) daerah = zeros(30,2); for i=1:m if(isequal(B{i,3}, 'Sumatera

Utara')&&isequal(labelTr(i,1), 1)) daerah(1,1) = daerah(1,1) + 1; elseif(isequal(B{i,3}, 'Sumatera

Utara')&&isequal(labelTr(i,1), 0)) daerah(1,2) = daerah(1,2) + 1; elseif(isequal(B{i,3}, 'Sumatera

Selatan')&&isequal(labelTr(i,1), 1)) daerah(2,1) = daerah(2,1) + 1; elseif(isequal(B{i,3}, 'Sumatera

Selatan')&&isequal(labelTr(i,1), 0)) daerah(2,2) = daerah(2,2) + 1; elseif(isequal(B{i,3}, 'Sumatera

Barat')&&isequal(labelTr(i,1), 1)) daerah(3,1) = daerah(3,1) + 1; elseif(isequal(B{i,3}, 'Sumatera

Barat')&&isequal(labelTr(i,1), 0)) daerah(3,2) = daerah(3,2) + 1; elseif(isequal(B{i,3}, 'Sulawesi

Utara')&&isequal(labelTr(i,1), 1)) daerah(4,1) = daerah(4,1) + 1; elseif(isequal(B{i,3}, 'Sulawesi

Utara')&&isequal(labelTr(i,1), 0)) daerah(4,2) = daerah(4,2) + 1; elseif(isequal(B{i,3}, 'Sulawesi

Tenggara')&&isequal(labelTr(i,1), 1)) daerah(5,1) = daerah(5,1) + 1;


49

elseif(isequal(B{i,3}, 'Sulawesi

Tenggara')&&isequal(labelTr(i,1), 0)) daerah(5,2) = daerah(5,2) + 1; elseif(isequal(B{i,3}, 'Sulawesi

Tengah')&&isequal(labelTr(i,1), 1)) daerah(6,1) = daerah(7,1) + 1; elseif(isequal(B{i,3}, 'Sulawesi

Tengah')&&isequal(labelTr(i,1), 0)) daerah(6,2) = daerah(7,2) + 1; elseif(isequal(B{i,3}, 'Sulawesi

Selatan')&&isequal(labelTr(i,1), 1)) daerah(7,1) = daerah(7,1) + 1; elseif(isequal(B{i,3}, 'Sulawesi

Selatan')&&isequal(labelTr(i,1), 0)) daerah(7,2) = daerah(7,2) + 1; elseif(isequal(B{i,3},

'Riau')&&isequal(labelTr(i,1), 1)) daerah(8,1) = daerah(8,1) + 1; elseif(isequal(B{i,3},

'Riau')&&isequal(labelTr(i,1), 0)) daerah(8,2) = daerah(8,2) + 1; elseif(isequal(B{i,3}, 'Papua

Barat')&&isequal(labelTr(i,1), 1)) daerah(9,1) = daerah(9,1) + 1; elseif(isequal(B{i,3}, 'Papua

Barat')&&isequal(labelTr(i,1), 0)) daerah(9,2) = daerah(9,2) + 1; elseif(isequal(B{i,3}, 'Nusa Tenggara

Timur')&&isequal(labelTr(i,1), 1)) daerah(10,1) = daerah(10,1) + 1; elseif(isequal(B{i,3}, 'Nusa Tenggara

Timur')&&isequal(labelTr(i,1), 0)) daerah(10,2) = daerah(10,2) + 1; elseif(isequal(B{i,3}, 'Nusa Tenggara

Barat')&&isequal(labelTr(i,1), 1)) daerah(11,1) = daerah(11,1) + 1; elseif(isequal(B{i,3}, 'Nusa Tenggara

Barat')&&isequal(labelTr(i,1), 0)) daerah(11,2) = daerah(11,2) + 1; elseif(isequal(B{i,3},

'Maluku')&&isequal(labelTr(i,1), 1)) daerah(12,1) = daerah(12,1) + 1; elseif(isequal(B{i,3},

'Maluku')&&isequal(labelTr(i,1), 0)) daerah(12,2) = daerah(12,2) + 1; elseif(isequal(B{i,3}, 'Luar Negeri

(Abroad)')&&isequal(labelTr(i,1), 1)) daerah(13,1) = daerah(13,1) + 1; elseif(isequal(B{i,3}, 'Luar Negeri

(Abroad)')&&isequal(labelTr(i,1), 0)) daerah(13,2) = daerah(13,2) + 1; elseif(isequal(B{i,3},

'Lampung')&&isequal(labelTr(i,1), 1)) daerah(14,1) = daerah(14,1) + 1; elseif(isequal(B{i,3},

'Lampung')&&isequal(labelTr(i,1), 0)) daerah(14,2) = daerah(14,2) + 1;


50

elseif(isequal(B{i,3}, 'Kepulauan

Riau')&&isequal(labelTr(i,1), 1)) daerah(15,1) = daerah(15,1) + 1; elseif(isequal(B{i,3}, 'Kepulauan

Riau')&&isequal(labelTr(i,1), 0)) daerah(15,2) = daerah(15,2) + 1; elseif(isequal(B{i,3}, 'Kalimantan

Timur')&&isequal(labelTr(i,1), 1)) daerah(16,1) = daerah(16,1) + 1; elseif(isequal(B{i,3}, 'Kalimantan

Timur')&&isequal(labelTr(i,1), 0)) daerah(16,2) = daerah(16,2) + 1; elseif(isequal(B{i,3}, 'Kalimantan

Tengah')&&isequal(labelTr(i,1), 1)) daerah(17,1) = daerah(17,1) + 1; elseif(isequal(B{i,3}, 'Kalimantan

Tengah')&&isequal(labelTr(i,1), 0)) daerah(17,2) = daerah(17,2) + 1; elseif(isequal(B{i,3}, 'Kalimantan

Selatan')&&isequal(labelTr(i,1), 1)) daerah(18,1) = daerah(18,1) + 1; elseif(isequal(B{i,3}, 'Kalimantan

Selatan')&&isequal(labelTr(i,1), 0)) daerah(18,2) = daerah(18,2) + 1; elseif(isequal(B{i,3}, 'Kalimantan

Barat')&&isequal(labelTr(i,1), 1)) daerah(19,1) = daerah(19,1) + 1; elseif(isequal(B{i,3}, 'Kalimantan

Barat')&&isequal(labelTr(i,1), 0)) daerah(19,2) = daerah(19,2) + 1; elseif(isequal(B{i,3}, 'Jawa

Timur')&&isequal(labelTr(i,1), 1)) daerah(20,1) = daerah(20,1) + 1; elseif(isequal(B{i,3}, 'Jawa

Timur')&&isequal(labelTr(i,1), 0)) daerah(20,2) = daerah(20,2) + 1; elseif(isequal(B{i,3}, 'Jawa

Tengah')&&isequal(labelTr(i,1), 1)) daerah(21,1) = daerah(21,1) + 1; elseif(isequal(B{i,3}, 'Jawa

Tengah')&&isequal(labelTr(i,1), 0)) daerah(21,2) = daerah(21,2) + 1; elseif(isequal(B{i,3}, 'Jawa

Barat')&&isequal(labelTr(i,1), 1)) daerah(22,1) = daerah(22,1) + 1; elseif(isequal(B{i,3}, 'Jawa

Barat')&&isequal(labelTr(i,1), 0)) daerah(22,2) = daerah(22,2) + 1; elseif(isequal(B{i,3},

'Jambi')&&isequal(labelTr(i,1), 1)) daerah(23,1) = daerah(23,1) + 1; elseif(isequal(B{i,3},

'Jambi')&&isequal(labelTr(i,1), 0)) daerah(23,2) = daerah(23,2) + 1;


51

elseif(isequal(B{i,3}, 'Irian Jaya/

Papua')&&isequal(labelTr(i,1), 1)) daerah(24,1) = daerah(24,1) + 1; elseif(isequal(B{i,3}, 'Irian Jaya/

Papua')&&isequal(labelTr(i,1), 0)) daerah(24,2) = daerah(24,2) + 1; elseif(isequal(B{i,3}, 'Daerah Khusus

Ibukota Jakarta')&&isequal(labelTr(i,1), 1)) daerah(25,1) = daerah(25,1) + 1; elseif(isequal(B{i,3}, 'Daerah Khusus

Ibukota Jakarta')&&isequal(labelTr(i,1), 0)) daerah(25,2) = daerah(25,2) + 1; elseif(isequal(B{i,3}, 'Daerah Istimewa

Yogyakarta')&&isequal(labelTr(i,1), 1)) daerah(26,1) = daerah(26,1) + 1; elseif(isequal(B{i,3}, 'Daerah Istimewa

Yogyakarta')&&isequal(labelTr(i,1), 0)) daerah(26,2) = daerah(26,2) + 1; elseif(isequal(B{i,3},

'Bengkulu')&&isequal(labelTr(i,1), 1)) daerah(27,1) = daerah(27,1) + 1; elseif(isequal(B{i,3},

'Bengkulu')&&isequal(labelTr(i,1), 0)) daerah(27,2) = daerah(27,2) + 1; elseif(isequal(B{i,3},

'Banten')&&isequal(labelTr(i,1), 1)) daerah(28,1) = daerah(28,1) + 1; elseif(isequal(B{i,3},

'Banten')&&isequal(labelTr(i,1), 0)) daerah(28,2) = daerah(28,2) + 1; elseif(isequal(B{i,3}, 'Bangka

Belitung')&&isequal(labelTr(i,1), 1)) daerah(29,1) = daerah(29,1) + 1; elseif(isequal(B{i,3}, 'Bangka

Belitung')&&isequal(labelTr(i,1), 0)) daerah(29,2) = daerah(29,2) + 1; elseif(isequal(B{i,3},

'Bali')&&isequal(labelTr(i,1), 1)) daerah(30,1) = daerah(30,1) + 1; elseif(isequal(B{i,3},

'Bali')&&isequal(labelTr(i,1), 0)) daerah(30,2) = daerah(30,2) + 1;

end end

%model daerahM =[daerah(:,1)/length(Tepat)

daerah(:,2)/length(TidakTepat)]; end

%Testing data = zeros(1,length(atributKategorikal)); output1 = 1; output2 = 1;


52

%prodi if(ismember(1,atributKategorikal)) switch testData{1,1} case 'TM' data(1,1) = 1; case 'INF' data(1,1) = 2; case 'MAT' data(1,1) = 3; case 'TE' data(1,1) = 4; end output1 = output1 * prodiM(data(1,1),1); output2 = output2 * prodiM(data(1,1),2); end

%JenisKelamin if(ismember(2,atributKategorikal)) switch testData{1,2} case 'L' data(1,2) = 1; case 'P' data(1,2) = 2; end output1 = output1 * jkM(data(1,2),1); output2 = output2 * jkM(data(1,2),2); end

%AsalDaerah if(ismember(3,atributKategorikal)) switch testData{1,3} case 'Sumatera Utara' data(1,3) = 1; case 'Sumatera Selatan' data(1,3) = 2; case 'Sumatera Barat' data(1,3) = 3; case 'Sulawesi Utara' data(1,3) = 4; case 'Sulawesi Tenggara' data(1,3) = 5; case 'Sulawesi Tengah' data(1,3) = 6; case 'Sulawesi Selatan' data(1,3) = 7; case 'Riau' data(1,3) = 8; case 'Papua Barat' data(1,3) = 9; case 'Nusa Tenggara Timur' data(1,3) = 10;

case 'Nusa Tenggara Barat' data(1,3) = 11; case 'Maluku' data(1,3) = 12;


53

case 'Luar Negeri (Abroad)' data(1,3) = 13; case 'Lampung' data(1,3) = 14; case 'Kepulauan Riau' data(1,3) = 15; case 'Kalimantan Timur' data(1,3) = 16; case 'Kalimantan Tengah' data(1,3) = 17; case 'Kalimantan Selatan' data(1,3) = 18; case 'Kalimantan Barat' data(1,3) = 19; case 'Jawa Timur' data(1,3) = 20; case 'Jawa Tengah' data(1,3) = 21; case 'Jawa Barat' data(1,3) = 22; case 'Jambi' data(1,3) = 23; case 'Irian Jaya/ Papua' data(1,3) = 24; case 'Daerah Khusus Ibukota

Jakarta' data(1,3) = 25; case 'Daerah Istimewa Yogyakarta' data(1,3) = 26; case 'Bengkulu' data(1,3) = 27; case 'Banten' data(1,3) = 28; case 'Bangka Belitung' data(1,3) = 29; case 'Bali' data(1,3) = 30;

end output1 = output1 * daerahM(data(1,3),1); output2 = output2 * daerahM(data(1,3),2); end

output = [output1; output2];

end


54

5. NaiveNumerikal

6. NaiveBayes

function output = naiveNumerikal (B,

labelTr,testData)

%------------------------------Numerik----------

-------------------------% labelTr = cell2mat(labelTr(:,:)); %likelihood kelas = [1,0];

dataTr = cell2mat(B (:,:)); % labelTr = labelTr(:,4:end); for i = 1:length(kelas(1,:)) mn(i,:) = mean(dataTr(labelTr ==

kelas(1,i),:)); st_dev(i,:) = std(dataTr(labelTr ==

kelas(1,i),:)); end

%posterior Uji = cell2mat(testData(1,:)); for j = 1:size(kelas,2) likelihood = normpdf(Uji,

mn(j,:),st_dev(j,:)); posterior(j) = prod(likelihood); end

output = posterior;

end

function output = naiveBayes (naiveKat,

naiveNum, labelTr)

labelTr = cell2mat(labelTr(:,:)); Tepat = find(labelTr(:) == 1); TidakTepat = find(labelTr(:) == 0);

%prior prob_T = length(Tepat)/length(labelTr); prob_TT = length(TidakTepat)/length(labelTr); prob = [prob_T, prob_TT];

%perhitungan L Tepat Ly = naiveKat(1)*naiveNum(1)*prob(1); %perhitungan L TidakTepat Ln = naiveKat(2)*naiveNum(2)*prob(2);


55

7. Min_Max

function [newValue] = Min_Max (data)

[m,n] = size(data); min_ = min(data); max_ = max(data); nmin = 0; nmax = 1; newValue = data;

for i = 1:m newValue(i) = nmin + (((data(i) - min_) *

(nmax - nmin))/(max_ - min_)); end end

pye = (Ly/(Ly+Ln))*100; pne = (Ln/(Ly+Ln))*100;

if(pye > pne) output = 1; else output = 0; end

end


prediksi kelulusan mahasiswa fakultas sains dan … · prediksi kelulusan mahasiswa fakultas sains...

Documents