prediksi kelulusan mahasiswa fakultas sains dan teknologi...

66
PREDIKSI KELULUSAN MAHASISWA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA MENGGUNAKAN METODE KLASIFIKASI NAÏVE BAYES SKRIPSI Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Informatika Oleh: Artha Dian Sinaga 165314073 PROGRAM STUDI INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2020 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Upload: others

Post on 19-Oct-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

  • PREDIKSI KELULUSAN MAHASISWA FAKULTAS SAINS

    DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA

    MENGGUNAKAN METODE KLASIFIKASI NAÏVE BAYES

    SKRIPSI

    Diajukan Untuk Memenuhi Salah Satu Syarat

    Memperoleh Gelar Sarjana Komputer

    Program Studi Informatika

    Oleh:

    Artha Dian Sinaga

    165314073

    PROGRAM STUDI INFORMATIKA

    FAKULTAS SAINS DAN TEKNOLOGI

    UNIVERSITAS SANATA DHARMA

    YOGYAKARTA

    2020

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • STUDENTS GRADUATION PREDICTION AT THE FACULTY

    OF SCIENCE AND TECHNOLOGY OF THE UNIVERSITY OF

    SANATA DHARMA USING NAÏVE BAYES CLASSIFICATION

    THESIS

    Present as Partial Fulfillment of the Requirements

    to Obtain Sarjana Komputer Degree

    in Informatics Study Program

    Created by :

    Artha Dian Sinaga

    165314073

    INFORMATICS STUDY PROGRAM

    INFORMATICS DEPARTMENT

    FACULTY OF SCIENCE OF TECHNOLOGY

    SANATA DHARMA UNIVERSITY

    YOGYAKARTA

    2020

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • iii

    HALAMAN PERSEMBAHAN

    “I can do all this through Him who gives me strength.”

    (Philippians 4:13)

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • vi

    ABSTRAK

    Kelulusan mahasiswa merupakan salah satu bidang yang termasuk ke

    dalam Standar Penjaminan Mutu Internal (SPMI) suatu perguruan tinggi. Salah

    satu standar yang ditetapkan oleh perguruan tinggi untuk menghasilkan lulusan

    tepat waktu yaitu mahasiswa dapat menempuh kuliah maksimal 8 semester

    dengan total beban studi minimal 144 SKS.

    Penelitian ini mencoba untuk memprediksi kelulusan mahasiswa agar

    pihak akademik dapat meminimalisir mahasiswa yang lulus tidak tepat waktu.

    Data yang digunakan dalam penelitian ini adalah data mahasiswa Fakultas Sains

    dan Teknologi Universitas Sanata Dharma lulusan tahun 2010 sampai 2018.

    Metode yang digunakan adalah metode klasifikasi dengan menerapkan

    algoritma naïve bayes. Percobaan dilakukan pada 1630 data menggunakan 3-

    Fold Cross Validation dengan hasil akurasi tertinggi sebesar 80.5402%.

    Kata kunci: Kelulusan, Naive Bayes, klasifikasi, K-Fold Cross Validation,

    Confusion Matrix.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • vii

    ABSTRACT

    Graduation of college students is one of the factors that is included into

    college’s internal quality assurance standards (SPMI). One of the standards used

    for college in higher education is for the institution to produce students that

    graduated on time where they finished their college courses with maximum 8

    semesters and minimum 144 credit hours.

    The objective of this research was to evaluate and predict college

    student’s graduation rate for the academic administration to utilize this

    information and minimize the rate of students who were not graduating on time.

    The data used for this research derived from 2010-2018 graduation data of

    students from the Faculty of Science and Technology of The University of

    Sanata Dharma.

    The method used was the classification method using the naïve bayes

    algorithm. The testing was done on 1630 data using 3-fold cross validation

    which resulted in the highest result of 80.5402%.

    Key words: Graduation, Naïve Bayes, Clarification, K-Fold Cross Validation,

    Confusion Matrix.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • viii

    KATA PENGANTAR

    Puji dan syukur saya ucapkan kepada Tuhan Yesus atas berkat dan

    rahmatnya sehingga penulis dapat menyelesaikan skripsi ini dengan baik.

    Penulis menyadari bahwa penelitian ini tidak dapat terselesaikan dengan

    baik tanpa bimbingan dan dukungan dari berbagai pihak. Oleh karena itu, penulis

    ingin menyampaikan ucapan terima kasih kepada semua pihak yang telah

    membantu dalam penyusunan skripsi ini terutama kepada:

    1. Kedua orang tua, kakak, dan adik tercinta yang senantiasa memberikan

    dukungan dan doa kepada penulis.

    2. Dr. Cyprianus Kuntoro Adi, S.J. M.A., M.Sc. selaku dosen pembimbing

    skripsi saya yang dengan sabar memberikan masukkan dan

    membimbing saya dalam penyusunan skripsi.

    3. Bapak Robertus Adi Nugroho S.T., M.Eng., selaku Ketua Program

    Studi Informatika Universitas Sanata Dharma Yogyakarta.

    4. Bapak Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D selaku Dekan Fakultas

    Sains dan Teknologi Universitas Sanata Dharma Yogyakarta.

    5. Ibu Agnes Maria Polina S.Kom., M.Sc. selaku Dosen Pembimbing

    Akademik yang sering memberikan perhatian dan masukkan selama

    perkuliahan.

    6. Valen, Dodi, Hananto, Caroline, Alfri, Indah, Yiyin, Yuni, Arsa,

    Maretha yang membantu dan menemani penyusunan skripsi.

    7. Sahabat-sahabat yang saling menguatkan ketika sama-sama merasa

    down yaitu Gabby, Meisi, Dila, Jason, dan Chanley.

    8. Teman-teman pejuang skripsi yang saling memberikan semangat yaitu

    Fica, Retno, Lauren, Clara, Vicky, dan Winda.

    9. Teman-teman Informatika angkatan 2016 yang saling menyemangati

    dalam menyelesaikan skripsi.

    10. Semua pihak yang tidak dapat disebutkan satu-persatu yang telah

    membantu penulis dalam menyelesaikan skripsi ini.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • ix

    DAFTAR ISI

    HALAMAN PERSETUJUAN PEMBIMBING ...................................................... i

    HALAMAN PENGESAHAN ................................................................................ ii

    HALAMAN PERSEMBAHAN ............................................................................ iii

    PERNYATAAN KEASLIAN KARYA ................................................................ iv

    LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI ................................ v

    ABSTRAK ............................................................................................................. vi

    ABSTRACT ............................................................................................................ vii

    KATA PENGANTAR ......................................................................................... viii

    DAFTAR ISI .......................................................................................................... ix

    DAFTAR TABEL ................................................................................................. xii

    DAFTAR GAMBAR ........................................................................................... xiii

    BAB I PENDAHULUAN ....................................................................................... 1

    1.1 Latar Belakang .............................................................................................. 1

    1.2 Rumusan Masalah ......................................................................................... 2

    1.3 Tujuan ............................................................................................................ 2

    1.4 Manfaat .......................................................................................................... 2

    1.5 Batasan Masalah ............................................................................................ 2

    1.6 Metodologi Penelitian ................................................................................... 3

    1.7 Sistematika Penulisan .................................................................................... 3

    BAB II LANDASAN TEORI ................................................................................. 5

    2.1 Kelulusan Studi Mahasiswa .......................................................................... 5

    2.2 Data Mining .................................................................................................. 6

    2.2.1 Pengertian Data Mining .......................................................................... 6

    2.2.2 Pengelompokkan Data Mining ............................................................... 8

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • x

    2.2.3 Klasifikasi ............................................................................................... 9

    2.2.4 Naïve bayes ........................................................................................... 10

    2.3 Information Gain ......................................................................................... 11

    2.4 Normalisasi Min-Max .................................................................................. 12

    2.5 Cross Validation .......................................................................................... 13

    2.6 Confusion Matrix ......................................................................................... 13

    BAB III METODE PENELITIAN ....................................................................... 15

    3.1 Gambaran Umum ........................................................................................ 15

    3.1.2 Data ....................................................................................................... 17

    3.1.3 Preprocessing ....................................................................................... 19

    3.1.3.1 Data Cleaning ................................................................................ 19

    3.1.3.2 Data Selection ................................................................................ 20

    3.1.3.3 Data Transformation ..................................................................... 21

    3.1.4 Modelling Naïve Bayes ......................................................................... 22

    3.1.5 Akurasi .................................................................................................. 26

    3.2 Peralatan Penelitian ..................................................................................... 27

    3.3 Perancangan Interface ................................................................................. 28

    BAB IV HASIL DAN ANALISIS ....................................................................... 30

    4.1 Preprocessing .............................................................................................. 30

    4.1.1 Data Cleaning ....................................................................................... 30

    4.1.2 Data Selection ....................................................................................... 30

    4.1.3 Data Transformation ............................................................................ 31

    4.2 Klasifikasi .................................................................................................... 32

    4.3 Uji Data ....................................................................................................... 36

    4.3.1 Uji Data Tunggal .................................................................................. 36

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • xi

    4.3.2 Uji Data Kelompok ............................................................................... 37

    BAB V PENUTUP ............................................................................................... 39

    5.1 Kesimpulan .................................................................................................. 39

    5.2 Saran ............................................................................................................ 39

    DAFTAR PUSTAKA ........................................................................................... 40

    LAMPIRAN .......................................................................................................... 42

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • xii

    DAFTAR TABEL

    Tabel 2. 1 Confusion Matrix ................................................................................. 14

    Tabel 3. 1 Contoh Data Awal ............................................................................... 17

    Tabel 3. 2 Contoh Data Training .......................................................................... 22

    Tabel 3. 3 Contoh Data Testing ............................................................................ 22

    Tabel 3. 4 Prior Kelas ........................................................................................... 23

    Tabel 3. 5 Mean dan Standar Deviasi IPS 2 ......................................................... 23

    Tabel 3. 6 Mean dan Standar Deviasi SKS Semester 4 ........................................ 23

    Tabel 3. 7 Mean dan Standar Deviasi Lama TA ................................................... 24

    Tabel 3. 8 Probabilitas Data Testing No. 9 ........................................................... 24

    Tabel 3. 9 Probabilitas Data Testing No.10 .......................................................... 24

    Tabel 3. 10 Probabilitas Data Testing No. 11 ....................................................... 24

    Tabel 3. 11 Probabilitas Data Testing No. 12 ....................................................... 25

    Tabel 3. 12 Posterior Fold Pertama ....................................................................... 25

    Tabel 3. 13 Hasil Klasifikasi Fold Pertama .......................................................... 25

    Tabel 3. 14 Hasil Klasifikasi Fold Kedua ............................................................. 26

    Tabel 3. 15 Hasil Klasifikasi Fold Ketiga ............................................................. 26

    Tabel 3.16 Confusion Matrix Fold Pertama.......................................................... 26

    Tabel 3. 17 Confusion Matrix Fold Kedua ........................................................... 27

    Tabel 3. 18 Confusion Matrix Fold Ketiga ........................................................... 27

    Tabel 4. 1 Hasil Perankingan Atribut.................................................................... 30

    Tabel 4. 2 Contoh Transformasi Data Awal ......................................................... 31

    Tabel 4. 3 Contoh Transformasi Data Akhir......................................................... 31

    Tabel 4. 4 Hasil Pengujian Akurasi ...................................................................... 32

    Tabel 4. 5 Data Testing Uji Data Tunggal ............................................................ 36

    Tabel 4. 6 Data Testing Uji Data Kelompok ........................................................ 37

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • xiii

    DAFTAR GAMBAR

    Gambar 2. 1 Knowledge Discovery Database (KDD) ............................................ 6

    Gambar 2. 2 3-Fold Cross Validation ................................................................... 13

    Gambar 3. 1 Diagram Blok ................................................................................... 15

    Gambar 3. 2 Contoh Data Sebelum Proses Data Cleaning ................................... 19

    Gambar 3. 3 Contoh Data Sesudah Proses Data Cleaning .................................... 20

    Gambar 3. 4 Contoh Data Selection ..................................................................... 20

    Gambar 3. 5 Contoh Data Pakai ........................................................................... 21

    Gambar 3. 6 Perancangan Interface ...................................................................... 28

    Gambar 3. 7 Confusion Matrix Fold Pertama ....................................................... 34

    Gambar 3. 8 Confusion Matrix Fold Kedua ......................................................... 35

    Gambar 3. 9 Confusion Matrix Fold Ketiga ......................................................... 35

    Gambar 3. 10 Akurasi Total .................................................................................. 35

    Gambar 4. 1 Akurasi Rata-rata ............................................................................. 34

    Gambar 4. 2 Uji Data Tunggal Tepat .................................................................... 36

    Gambar 4. 3 Uji Data Tunggal Tidak Tepat ......................................................... 37

    Gambar 4. 4 Upload Uji Data Kelompok ............................................................. 38

    Gambar 4. 5 Hasil Uji Data Kelompok ................................................................. 38

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 1

    BAB I

    PENDAHULUAN

    1.1 Latar Belakang

    Kelulusan mahasiswa merupakan salah satu bidang yang termasuk ke dalam

    Standar Penjaminan Mutu Internal (SPMI) suatu perguruan tinggi. Salah satu

    standar yang ditetapkan oleh perguruan tinggi untuk menghasilkan lulusan tepat

    waktu yaitu mahasiswa dapat menempuh kuliah maksimal 8 semester dengan total

    beban studi minimal 144 SKS.

    Dalam proses akreditasi suatu perguruan tinggi, salah satunya di Universitas

    Sanata Dharma, ketepatan kelulusan mahasiswa merupakan hal yang penting

    karena dapat mempengaruhi penilaian akreditasi. Untuk mengurangi jumlah

    mahasiswa yang tidak lulus tepat waktu, perlu adanya suatu sistem yang dapat

    digunakan untuk memprediksi kelulusan mahasiswa. Sistem tersebut memerlukan

    data atau informasi untuk menentukan mahasiswa tersebut lulus tepat waktu atau

    tidak. Jika kelulusan mahasiswa dapat diprediksi sejak awal, maka pihak akademik

    dapat menerapkan suatu kebijakan untuk meminimalisir jumlah mahasiswa yang

    tidak lulus tepat waktu.

    Salah satu cara memanfaatkan data mahasiswa adalah dengan

    mengelolahnya menggunakan teknik data mining untuk menghasilkan informasi

    yaitu prediksi kelulusan mahasiswa. Teknik data mining yang akan digunakan

    adalah metode klasifikasi dengan menggunakan algoritma naïve bayes.

    Dalam dunia pendidikan, algoritma naïve bayes telah banyak digunakan

    pada beberapa penelitian, salah satunya yang dilakukan oleh Yuda Septian Nugroho

    (2014) dengan judul “Data Mining Menggunakan Algoritma Untuk Klasifikasi

    Kelulusan Mahasiswa Universitas Dian Nuswantoro”. Pada penelitian tersebut,

    atribut yang digunakan adalah NIM, nama, jenjang, program studi, nama provinsi,

    jenis kelamin, SKS yang telah ditempuh, IPK, dan tahun kelulusan. Berdasarkan

    proses klasifikasi tersebut dengan menggunakan algoritma naïve bayes, dihasilkan

    tingkat akurasi sebesar 82,08%.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 2

    Dari hasil penelitian tersebut, maka penulis juga ingin menggunakan

    metode klasifikasi dengan algoritma naïve bayes dalam memprediksi kelulusan

    mahasiswa karena penelitian yang telah dilakukan sebelumnya mendapatkan

    tingkat akurasi yang tergolong baik.

    1.2 Rumusan Masalah

    1. Bagaimana metode naïve bayes mampu dengan tepat memprediksi

    kelulusan mahasiswa?

    2. Berapa hasil akurasi yang didapatkan dengan menggunakan metode

    naïve bayes?

    1.3 Tujuan

    1. Mampu memprediksi kelulusan mahasiswa secara tepat dengan

    menggunakan metode naïve bayes.

    2. Mengetahui tingkat akurasi metode naïve bayes dalam memprediksi

    kelulusan mahasiswa.

    1.4 Manfaat

    1. Dapat memprediksi mahasiswa yang lulus tepat waktu dan tidak tepat

    waktu.

    2. Dapat membantu pihak akademik dalam meminimalisir mahasiswa

    yang lulus tidak tepat waktu.

    1.5 Batasan Masalah

    1. Data hanya berasal dari mahasiswa Fakultas Sains dan Teknologi

    Universitas Sanata Dharma lulusan tahun 2010 sampai 2018.

    2. Data yang digunakan dalam penelitian ini adalah data akademik dan

    data pribadi mahasiswa yang meliputi program studi, jenis kelamin,

    daerah asal, Indeks Prestasi Semester 1 sampai 4, jumlah SKS yang

    telah ditempuh pada saat semester 4, jumlah poin, lama tugas akhir, dan

    masa studi.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 3

    1.6 Metodologi Penelitian

    Penelitian ini menggunakan beberapa tahap sebagai berikut:

    1. Studi Pustaka

    Pada tahap ini, peneliti mempelajari teori-teori yang berkaitan

    dengan data mining dan algoritma naïve bayes melalui jurnal, buku, dan

    artikel.

    2. Pengumpulan data

    Data yang diperoleh mempunyai beberapa atribut dan record. Data

    tersebut kemudian akan diintegrasikan dan dijadikan sebagai dataset

    yang akan diproses lebih lanjut.

    3. Pengolahan awal data

    Pada tahap ini, data akan diseleksi dan dibersihkan dari noise.

    Selanjutnya data akan ditransformasi untuk mendapatkan bentuk atau

    format yang valid.

    4. Pengujian model

    Model yang akan diuji pada tahap ini adalah dengan menggunakan

    algoritma naïve bayes dan beberapa metode lainnya.

    5. Evaluasi dan validasi hasil

    Evaluasi pada model dilakukan pada tahap ini sebagai hasil untuk

    mengetahui tingkat akurasi.

    1.7 Sistematika Penulisan

    Sistematika penulisan pada penelitian ini dibagi menjadi 5 bab, yaitu:

    BAB I PENDAHULUAN

    Bab ini menjelaskan tentang latar belakang, rumusan masalah, tujuan,

    manfaat, batasan masalah, metodologi penelitian, dan sistematika

    penulisan.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 4

    BAB II LANDASAN TEORI

    Bab ini berisi mengenai teori-teori yang akan digunakan sebagai dasar

    dalam penelitian klasifikasi dengan menggunakan algoritma naïve bayes.

    BAB III METODOLOGI PENELITIAN

    Bab ini berisi tentang gambaran umum sistem yang akan dibangun, data

    yang digunakan dan tahap-tahap prediksi kelulusan dengan menggunakan

    metode naïve bayes.

    BAB IV IMPLEMENTASI DAN ANALISA HASIL

    Bab ini menjelaskan tentang hasil dari perancangan sistem dan pengujian

    metode klasifikasi naïve bayes.

    BAB V PENUTUP

    Bab ini akan menjelaskan tentang hasil kesimpulan dari analisa dan saran-

    saran untuk pengembangan lebih lanjut.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 5

    BAB II

    LANDASAN TEORI

    Bab ini akan menjelaskan secara singkat teori-teori yang digunakan pada

    penelitian, antara lain, kelulusan studi mahasiswa, data mining, k-fold cross

    validation dan confusion matrix. Teori-teori tersebut antara lain:

    2.1 Kelulusan Studi Mahasiswa

    Kriteria kelulusan mahasiswa dari suatu program studi dirumuskan dalam

    bentuk Standar Kompetensi Lulusan yang yang terdapat dalam rancangan

    kurikulum. Secara khusus, Pasal 1 butir 4 Peraturan Pemerintah No. 19 tahun 2005

    tentang Standar Nasional Pendidikan, menyebutkan bahwa “Standar Kompetensi

    Lulusan” adalah kualifikasi kemampuan lulusan yang mencakup sikap,

    pengetahuan, dan keterampilan.

    Pada suatu perguruan tinggi contohnya Universitas Sanata Dharma Fakultas

    Sains dan Teknologi, jumlah mahasiswa yang lulus tidak tepat waktu tergolong

    lebih banyak daripada mahasiswa yang lulus tepat waktu. Mahasiswa dapat

    dikatakan lulus tepat waktu jika mampu menyelesaikan masa studinya tidak lebih

    dari 4 tahun, sedangkan mahasiswa yang menyelesaikan masa studinya lebih dari 4

    tahun termasuk dalam mahasiswa yang lulus tidak tepat waktu.

    Terdapat beberapa faktor yang mempengaruhi lama masa studi mahasiswa,

    diantaranya faktor eksternal dan internal. Faktor internal penyebab lamanya masa

    studi mahasiswa antara lain: (1) kuliah karena keterpaksaan dan (2) salah memilih

    jurusan. Sedangkan faktor eksternal penyebab lamanya masa studi mahasiswa

    antara lain: (1) terlalu menikmati kebebasan karena jauh dari orang tua, (2) terlalu

    aktif mengikut organisasi kemahasiswaan, (3) menekuni hobi secara berlebihan, (4)

    bekerja, dan (5) tidak adanya jaminan mendapatkan pekerjaan setelah lulus

    (Wahyu, 2010).

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 6

    Menurut buku panduan akademik Universitas Sanata Dharma yang

    mengacu pada peraturan akademik Universitas Sanata Dharma tahun 2010, BAB

    VI, Pasal 30, mahasiswa dinyatakan lulus program sarjana apabila:

    a. Telah menyelesaikan 144 satuan kredit;

    b. Mencapai IPK sekurang-kurangnya 2,00;

    c. Proporsi nilai D tidak melebihi 15% dari jumlah satuan kredit program

    studi yang bersangkutan.

    d. Tidak ada nilai E;

    e. Mencapai nilai sekurang-kurangnya C untuk mata kuliah wajib

    Universitas yang diatur dengan SK Rektor.

    f. Lulus ujian akhir

    g. Memenuhi jumlah poin softskills yang ditetapkan Universitas

    2.2 Data Mining

    2.2.1 Pengertian Data Mining

    Data mining merupakan proses yang menggunakan teknik statistik,

    matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi

    dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang

    terkait dari berbagai database besar (Turban dkk, 2005).

    Gambar 2.1 Knowledge Discovery Database (KDD)

    Han, Jiawei (2011)

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 7

    Data mining mengacu pada mining knowledge dari data dalam

    jumlah besar (Han & Kamber, 2006). Secara umum data mining dikenal

    dengan proses Knowledge Discovery from Data (KDD). Proses KDD

    sebagai berikut:

    1. Pembersihan data (Data Cleaning).

    Proses pembersihan data atau data cleaning dilakukan untuk

    menghilangkan noise dan data yang tidak konsisten.

    2. Integrasi data (Data Integration).

    Proses data integrasi adalah proses menggabungkan data dari

    sumber data yang berbeda.

    3. Seleksi data (Data Selection).

    Seleksi data adalah proses memilih data atau atribut yang

    relevan untuk atribut ini. Pada tahap ini dilakukan analisis

    korelasi atribut data. Atribut – atribut data tersebut dicek apakah

    relevan untuk dilakukan penambangan data.

    4. Transformasi data (Data Transformation).

    Transformasi atau data transformation proses

    menggabungkan data ke dalam bank yang sesuai untuk

    ditambang.

    5. Penambangan data (Data Mining).

    Langkah ini adalah langkah paling penting yaitu melakukan

    pengaplikasian metode yang tepat untuk pola data.

    6. Evaluasi pola (Pattern Evaluation).

    Pada langkah ini dilakukan identifikasi pola dalam bentuk

    pengetahuan berdasarkan beberapa pengukuran yang penting.

    7. Presentasi pengetahuan (Knowledge Presentation).

    Pada langkah ini dilakukan proses penyajian pengetahuan

    dari hasil penambangan data. hasil klasifikasi data nasabah akan

    ditampilkan ke dalam bentuk yang mudah dipahami

    user/pengguna.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 8

    2.2.2 Pengelompokkan Data Mining

    Data mining dibagi menjadi beberapa kelompok berdasarkan

    tugas yang dapat dilakukan (Larose, 2005), yaitu:

    a. Deskripsi

    Terkadang peneliti dan analisis secara sederhana ingin

    mencoba mencari cara untuk menggambarkan pola dan

    kecendrungan yang terdapat dalam data.

    b. Estimasi

    Estimasi hampir sama dengan klasifikasi, kecuali

    variabel target estimasi lebih ke arah numerik dari pada ke

    arah kategori.

    c. Prediksi

    Prediksi hampir sama dengan klasifikasi dan estimasi,

    kecuali bahwa dalam prediksi nilai dari hasil akan ada di

    masa mendatang.

    d. Klasifikasi

    Dalam klasifikasi, terdapat target variabel kategori.

    Model data mining memeriksa serangkaian record yang

    besar, masing-masing record berisi informasi tentang target

    variabel serta serangkaian input atau prediktor variabel.

    e. Pengklusteran

    Clustering merupakan suatu metode untuk mencari dan

    mengelompokkan data yang memiliki kemiripan

    karakteriktik (similarity) antara satu data dengan data yang

    lain. Clustering merupakan salah satu metode data mining

    yang bersifat tanpa arahan (unsupervised).

    f. Asosiasi

    Tugas asosiasi dalam data mining adalah menemukan

    atribut yang muncul dalam suatu waktu. Dalam dunia bisnis

    lebih umum disebut analisis keranjang belanja.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 9

    Dalam melakukan proses data mining, terdapat teknik-teknik

    dengan 2 pendekatan yang berbeda yaitu supervised learning dan

    unsupervised learning. Berikut penjelasan dari supervised learning dan

    unsupervised learning (Jiawei, 2011).

    a. Supervised learning

    Supervised learning merupakan sebuah pendekatan yang

    pada umumnya disebut dengan teknik klasifikasi. Pada

    supervised learning, pembelajaran model berasal dari label

    dan juga data yang digunakan sebagai training.

    b. Unsupervised Learning

    Unsupervised learning merupakan sebuah pendekatan

    yang pada umumnya disebut dengan teknik klaster. Input

    yang digunakan pada unsupervised learning tidak diberi

    label kelas, biasanya pengguna teknik ini menggunakan

    teknik clustering untuk menemukan kelas pada data.

    Pada penelitian ini, penulis menggunakan pendekatan

    supervised learning dengan menerapkan metode klasifikasi dimana

    algoritma yang digunakan adalah algoritma naïve bayes.

    2.2.3 Klasifikasi

    Klasifikasi adalah proses penemuan model (atau fungsi) yang

    menggambarkan dan membedakan kelas data atau konsep yang bertujuan

    agar bisa digunakan untuk memprediksi kelas dari objek yang label

    kelasnya tidak diketahui.

    Klasifikasi data terdiri dari 2 langkah proses. Pertama adalah

    learning (fase training), dimana algoritma klasifikasi dibuat untuk

    menganalisa data training lalu direpresentasikan dalam bentuk rule

    klasifikasi. Proses kedua adalah klasifikasi, dimana data tes digunakan

    untuk memperkirakan akurasi dari rule klasifikasi (Kamber & Han, 2006).

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 10

    2.2.4 Naïve Bayes

    Naïve bayes merupakan salah satu metode yang digunakan untuk

    pengklasifikasian sebuah data dengan berdasarkan teorema bayes dengan

    mengasumsikan bahwa suatu data memiliki sifat tidak saling terkait antar

    satu dengan yang lain atau disebut independent. Teknik penggunaan naïve

    bayes sangat sederhana dan cepat dengan penggunaan probabilistik.

    Algoritma ini menggunakan metode probabilitas dan statistik yang

    dikemukakan oleh ilmuan Inggris Thomas Bayes yaitu memprediksi

    peluang di masa depan berdasarkan pengalaman sebelumnya (Tan &

    Kumar, 2006).

    Berikut persamaan dari teorema Bayes:

    𝑃(𝐻|𝑋) = 𝑃(𝑋|𝐻). 𝑃(𝐻)

    𝑃(𝑋) (2.1)

    Keterangan :

    X : Data dengan class yang belum diketahui

    H : Hipotesis data merupakan suatu class spesifik

    P(H|X) : Probabilitas hipotesis H berdasar kondisi X (posterior

    Probabilitas)

    P(H) : Probabilitas hipotesis H (prior probabilitas)

    P(X|H) : Probabilitas X berdasarkan kondisi pada hipotesis H

    P(X) : Probabilitas X

    Atau dengan kata lain dapat ditulis:

    𝑃𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 = 𝑝𝑟𝑖𝑜𝑟 𝑥 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑

    𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑒

    (2.2)

    Nilai Evidence selalu tetap untuk setiap kelas pada satu sampel.

    Nilai dari posterior tersebut nantinya akan dibandingkan dengan nilai-nilai

    posterior kelas lainnya untuk menentukan ke kelas apa suatu sampel akan

    diklasifikasikan.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 11

    Untuk klasifikasi dengan data kontinyu, digunakan rumus densitas

    gauss sebagai berikut:

    P(𝑋𝑖 = 𝑥𝑖|𝑌 = 𝑌𝑗) =1

    √2𝜋𝜎𝑒

    −(𝑥𝑖−𝜇)2

    2(𝜎)2 (2.3)

    Keterangan :

    𝑃 : Peluang

    𝑋𝑖 : Atribut ke-i

    𝑥𝑖 : Nilai atribut ke-i

    𝑌 : Kelas yang dicari

    𝜇 : mean, menyatakan rata-rata dari seluruh atribut

    𝜎 : Standar deviasi

    2.3 Information Gain

    Information Gain merupakan metode seleksi fitur paling sederhana dengan

    melakukan perangkingan atribut dan banyak digunakan dalam aplikasi kategorisasi

    teks, analisis data microarray dan analisis data citra. (Chormunge & Jena, 2016).

    Information gain digunakan pada tahap preprocessing untuk mengurangi noise

    yang disebabkan oleh atribut-atribut yang tidak sesuai.

    Untuk menghitung information gain digunakan persamaan (2.4), persamaan

    (2.5) dan persamaan (2.6) sebagai berikut (Han et al., 2012):

    𝑖𝑛𝑓𝑜(𝐷) = ∑ − 𝑃𝑖𝑚

    𝑖=1𝑙𝑜𝑔2(𝑃𝑖) (2.4)

    Keterangan:

    𝐷 : Jumlah seluruh sampel data

    𝑚 : Jumlah nilai yang ada pada kelas klasifikasi

    𝑖 : Maksimal nilai yang ada pada kelas klasifikasi

    𝑃𝑖 : Jumlah sampel untuk kelas i

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 12

    𝑖𝑛𝑓𝑜𝐴(𝐷) = 𝐸(𝐴) = ∑|𝐷𝑗|

    |𝐷|

    𝑣

    𝑗=1

    𝑥 𝑖𝑛𝑓𝑜 (𝐷𝑖) (2.5)

    Keterangan:

    𝐴 : Atribut

    𝑣 : Suatu nilai yang mungkin untuk atribut A

    𝑗 : Maksimal nilai yang mungkin untuk atribut A

    𝐷 : Jumlah seluruh sampel data

    𝐷𝑗 : Jumlah sampel untuk nilai j

    𝐷𝑖 : Jumlah sampel untuk nilai i

    𝐺𝑎𝑖𝑛(𝐴) = |𝑖𝑛𝑓𝑜(𝐷) − 𝑖𝑛𝑓𝑜𝐴(𝐷)| (2.6)

    Keterangan:

    𝐴 : Atribut

    𝑖𝑛𝑓𝑜(𝐷) : Entropi untuk kelas D

    𝑖𝑛𝑓𝑜𝐴(𝐷) : Entropi untuk kelas D pada atribut A

    2.4 Normalisasi Min-Max

    Tahap preprocessing lainnya ialah normalisasi data. Tujuan normalisasi

    data adalah untuk memberikan tiap atribut bobot yang sama. Contohnya data minA

    dan maxA adalah nilai minimum dan maksimum atribut. Normalisasi min-max

    memetakan nilai, vi, dari A ke v0 i dalam kisaran [minA baru, maks baru] (Han et

    al., 2012).Berikut rumus dari normalisasi min-max:

    𝑉𝑖 =𝑋 − min(𝑋)

    max(𝑋) − min(𝑋)(𝑛𝑒𝑤_𝑚𝑎𝑥𝐴 − 𝑛𝑒𝑤_𝑚𝑖𝑛𝐴) + 𝑛𝑒𝑤_𝑚𝑖𝑛𝐴 (2.7)

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 13

    Keterangan:

    𝑋 : Data yang akan di normalisasi

    Min(𝑋) : Jumlah minimum data

    Max(𝑋) : Jumlah maksimum data

    𝑁𝑒𝑤_𝑚𝑖𝑛𝐴 : range minimum data

    𝑁𝑒𝑤_𝑚𝑎𝑥𝐴 : range maximum data

    2.5 Cross Validation

    Pada pendekatan ini, setiap data digunakan dalam jumlah yang sama untuk

    pelatihan dan tepat satu kali untuk pengujian. Bentuk umum pendekatan ini disebut

    dengan k-fold cross validation, yang memecah set data menjadi k bagian set data

    dengan ukuran yang sama. Setiap kali berjalan, satu pecahan berperan sebagai data

    set data latih sedangkan pecahan lainnya menjadi set data latih. Prosedur tersebut

    dilakukan sebanyak k kali sehingga setiap data kesempatan menjadi data uji tepat

    satu kali dan menjadi data latih sebanyak k1 kali. Total error didapatkan dengan

    menjumlahkan semua error yang didapatkan dari k kali proses (Prasetyo, 2014).

    Gambar 2.2 3-Fold Cross Validation

    Ketika pengujian dilakukan sebanyak k kali iterasi, maka rata-rata akurasi

    tiap pengujian akan dihitung untuk mendapatkan tingkat akurasi keseluruhan.

    Tingkat akurasi dapat dihasilkan dari perhitungan metode confusion matrix.

    2.6 Confusion Matrix

    Confusion matrix adalah suatu metode yang digunakan untuk melakukan

    perhitungan akurasi pada konsep data mining. Evaluasi dengan confusion matrix

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 14

    menghasilkan nilai akurasi, presisi dan recall. Akurasi dalam klasifikasi adalah

    persentase ketepatan record data yang diklasifikasikan secara benar setelah

    dilakukan pengujian pada hasil klasifikasi (Jiawei, Kamber, & Pei, 2006).

    Dalam penelitian ini, pengukuran akurasi dilakukan dengan metode

    pengujian confusion matrix yang dapat dilihat pada tabel berikut:

    Tabel 2.1 Confusion Matrix

    Kategori Nilai Sebenarnya

    Nilai Prediksi

    Benar Salah

    Benar TP FP

    Salah FN TN

    Keterangan:

    TP : Klasifikasi bernilai benar menurut prediksi dan benar menurut nilai

    sebenarnya

    FP : Klasifikasi bernilai benar menurut prediksi dan salah menurut nilai

    Sebenarnya

    FN : Klasifikasi bernilai salah menurut prediksi dan benar menurut nilai

    sebenarnya

    TN : Klasifikasi bernilai salah menurut prediksi dan salah menurut nilai

    sebenarnya

    Untuk menghitung tingkat akurasi digunakan rumus perhitungan sebagai

    berikut:

    𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =𝑇𝑃 + 𝑇𝑁

    𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 𝑥 100% (2.8)

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 15

    BAB III

    METODE PENELITIAN

    Bab ini akan menjelaskan tentang gambaran umum sistem, peralatan

    penelitian, dan perancangan interface untuk prediksi kelulusan mahasiswa Fakultas

    Sains dan Teknologi Universitas Sanata Dharma menggunakan metode klasifikasi

    naïve bayes.

    3.1 Gambaran Umum

    Gambar 3.1 Diagram Blok

    Gambar 3.1 diatas merupakan proses sistem dalam mengolah data. Berikut

    alur sistem yang dibangun dengan menggunakan algoritma naïve bayes:

    1. Sistem membaca file bertipe .xlsx atau .xls yang di-upload melalui

    direktori komputer.

    2. File yang telah di-upload akan melalui tahap preprocessing untuk

    menghilangkan noise. Tahap preprocessing yang digunakan adalah data

    cleaning, data selection, dan data transformation.

    3. Pada tahap data cleaning, data yang memiliki missing value akan

    dihapus dengan melakukan cek terhadap kolom/atribut, jika salah satu

    kolom atau lebih memiliki nilai kosong, maka baris data tersebut akan

    dihapus dari tabel.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 16

    4. Pada tahap data selection, dilakukan seleksi atribut dimana atribut akan

    diranking menggunakan info gain untuk mendapatkan variasi atribut

    paling optimal, dan hasil perankingan akan dimasukkan secara manual

    pada program.

    5. Pada tahap data transformation, tiap kolom/atribut yang ingin diubah

    ke nilai tertentu akan diambil untuk dilakukan transformasi data.

    Transformasi data dilakukan pada atribut masa studi dengan membuat

    kategori tepat dan tidak tepat, serta dilakukan normalisasi min-max pada

    atribut SKS semester 4 untuk mengubah rentang nilai dari 0 sampai 1.

    6. Setelah data awal melalui tahap preprocessing, maka sistem akan

    menghasilkan dataset atau data yang siap dipakai untuk proses

    pembentukan model naïve bayes.

    7. Kemudian dataset akan dibagi menjadi data training dan data testing

    berdasarkan 3-fold cross validation. Data tersebut memiliki 3 bagian set

    dimana 1/3 data akan dijadikan sebagai data testing dan 2/3 data akan

    digunakan sebagai data training.

    8. Tahap selanjutnya adalah melakukan perhitungan untuk mencari

    probabilitas tiap atribut dan probabilitas kelas (prior).

    9. Untuk mencari probabilitas atribut, tiap kolom pada data training akan

    dihitung mean dan standar deviasinya terlebih dahulu, kemudian

    probabilitas dihitung menggunakan rumus densitas gauss atau

    persamaan (2.3) berdasarkan nilai data testing.

    10. Setelah probabilitas didapatkan, maka probabilitas tiap atribut akan

    dikali untuk menghitung likelihood berdasarkan kelas tepat dan tidak

    tepat.

    11. Selanjutnya rumus naïve bayes pada persamaan (2.2) akan diterapkan

    untuk mencari nilai posterior dari kelas tepat dan tidak tepat dengan

    memasukkan nilai likelihood, probabilitas kelas/prior, dan nilai

    evidence.

    12. Setelah nilai posterior tiap kelas didapatkan, maka hasil posterior

    tersebut akan dibandingkan untuk dicari nilai tertingginya, jika salah

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 17

    satu kelas memiliki nilai posterior terbesar, maka kelas tersebut akan

    menjadi label dari data testing. Pada tahap ini model dari naïve bayes

    telah dibentuk.

    13. Setelah model naïve bayes telah dibentuk, tahap selanjutnya adalah

    membandingkan hasil klasifikasi dengan label testing, kemudian

    menguji akurasi dengan menggunakan confusion matrix dengan

    menggunakan persamaan (2.8).

    14. Selanjutnya akan dilakukan uji data tunggal dengan memasukkan data

    baru sebagai data test. Setelah melalui tahap perhitungan model naïve

    bayes, maka sistem akan menampilkan hasil prediksi yakni tepat atau

    tidak tepat.

    3.1.2 Data

    Data awal yang digunakan merupakan data mahasiswa Fakultas

    Sains dan Teknologi Universitas Sanata Dharma lulusan tahun 2010 sampai

    2018 yang diambil dari BAPSI kampus 3 Universitas Sanata Dharma. Dari

    data tersebut diperoleh 1630 data record dan terdapat 10 atribut serta 1 kelas

    yang digunakan sebagain inputan dalam perhitungan metode klasifikasi

    naïve bayes. Atribut-atribut tersebut antara lain program studi, jenis

    kelamin, daerah asal, Indeks Prestasi Semester 1, Indeks Prestasi Semester

    2, Indeks Prestasi Semester 3, Indeks Prestasi Semester 4, SKS yang telah

    ditempuh selama semester 1 sampai 4, poin, lama tugas akhir dan masa

    studi.

    Berikut merupakan contoh data awal yang belum melalui tahap

    preprocessing:

    Tabel 3.1 Contoh Data Awal

    No. IPS 2 SKS S4 Lama TA Masa studi

    1. 1.55 66 2 7

    2. 3.47 81 1 4

    3. 2.55 81 7 5

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 18

    4. 3.88 81 1 4

    5. 3.64 79 1 4

    6. 1.95 78 5 6

    7. 2.77 83 1 6

    8. 3.37 81 2 4

    9. 2.32 65 3 5

    10. 3.24 77 1 4

    11. 2.33 69 2 5

    12. 3.17 83 1 4

    13. 2.91 2 6

    Berikut penjelasan masing-masing atribut yang digunakan pada penelitian

    ini:

    1. Prodi : Program studi atau disingkat prodi merupakan

    kesatuan rencana belajar yang digunakan sebagai

    pedoman jalannya pendidikan akademik yang

    penyelenggaraannya berdasarkan suatu kurikulum.

    Data prodi terdiri dari TM, TE, INF, dan MAT.

    2. JK : JK merupakan singkatan dari jenis kelamin yang

    terdiri dari laki-laki dan perempuan.

    3. Daerah asal : Daerah asal yang digunakan adalah nama asal

    provinsi mahasiswa.

    4. IPS 1 : Indeks Prestasi mahasiswa pada saat semester 1.

    5. IPS 2 : Indeks Prestasi mahasiswa pada saat semester 2.

    6. IPS 3 : Indeks Prestasi mahasiswa pada saat semester 3.

    7. IPS 4 : Indeks Prestasi mahasiswa pada saat semester 4.

    8. SKS S4 : Jumlah SKS yang telah ditempuh pada saat

    semester 4.

    9. Poin : Jumlah poin kegiatan kemahasiswaan.

    10. Lama TA : Lama pengerjaan tugas akhir mahasiswa dalam

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 19

    satuan semester.

    11. Masa studi : Jangka waktu penyelesaian studi mahasiswa dalam

    satuan tahun.

    3.1.3 Preprocessing

    Pada tahap ini data akan melalui tahap preprocessing untuk

    menghilangkan noise sehingga sistem menghasilkan dataset yang siap

    dipakai untuk proses klasifikasi selanjutnya. Jenis Preprocessing yang ada

    pada sistem ini adalah data cleaning, data selection, dan data

    transformation.

    3.1.3.1 Data Cleaning

    Proses pembersihan data dilakukan untuk menghilangkan

    noise dan data yang tidak konsisten. Jika terdapat nilai kosong pada

    salah satu atribut maka baris data tersebut akan dihapus atau

    dihilangkan dari tabel. Pada tabel 3.1 terdapat field kosong pada

    baris ke-13 yaitu atribut SKS semester 4, maka baris data tersebut

    akan dihapus dari tabel.

    Gambar 3. 2 Contoh Data Sebelum Proses Data Cleaning

    Pada gambar 3.2 diatas, data awal yang telah di-upload

    ditampilkan pada tabel dan terdapat field kosong pada baris nomor

    13 yaitu atribut SKS semester 4 sehingga sistem mengembalikan

    nilai nan.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 20

    Gambar 3. 3 Contoh Data Sesudah Proses Data Cleaning

    Pada gambar 3.3, setelah tombol preprocessing dijalankan,

    maka baris nomor 13 akan dihapus dari tabel dan menyisakan 12

    data.

    3.1.3.2 Data Selection

    Pada tahap seleksi data, semua atribut akan diranking

    dengan menerapkan metode information gain. Untuk mendapatkan

    hasil information gain, penulis menggunakan weka tools versi 3.9

    dan jumlah atribut dengan akurasi tertinggi akan digunakan untuk

    proses klasifikasi selanjutnya.

    Pada tabel 3.1, contoh data awal memiliki tiga atribut

    dimana seluruh atribut tersebut digunakan untuk proses klasifikasi.

    Jumlah atribut akan dimasukkan secara manual dan menghasilkan

    tabel seperti gambar 3.4 berikut:

    Gambar 3. 4 Contoh Data Selection

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 21

    3.1.3.3 Data Transformation

    Transformasi data adalah proses perubahan data ke dalam

    kategori atau nilai tertentu yang sesuai untuk proses data mining.

    Pada tahap ini data yang akan ditransformasikan adalah atribut SKS

    semester 4 dengan menggunakan normalisasi min-max dan atribut

    masa studi dengan mengkategorikan nilai menjadi 1 dan 0.

    a. Transformasi kelas masa studi

    Pada kelas masa studi terdapat nilai yang terdiri dari

    2, 3, 4, 5, 6, 7, 8 dan 9. Nilai-nilai tersebut akan

    dikelompokkan menjadi 1 dan 0 atau tepat dan tidak

    tepat berdasarkan syarat berikut:

    • Masa studi 4 tahun : 0

    b. Normalisasi min-max SKS semester 4

    Normalisasi min-max digunakan pada atribut SKS

    semester 4 karena atribut tersebut memiliki nilai yang

    rentangnya cukup jauh dibandingkan dengan atribut

    lainnya. Untuk melakukan proses normalisasi data,

    dilakukan perhitungan min-max dengan menggunakan

    persamaan (2.7).

    Setelah melalui tahap data cleaning, data selection,

    dan data transformation maka sistem menghasilkan data

    pakai sebagai berikut:

    Gambar 3. 5 Contoh Data Pakai

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 22

    3.1.4 Modelling Naïve Bayes

    Dalam tahap pembentukan model, data yang telah melalui tahap

    preprocessing akan dibentuk modelnya terlebih dahulu dengan

    menggunakan algoritma naïve bayes. Sebelum masuk ke perhitungan

    modelling naïve bayes, data pakai dibagi menjadi 3 bagian terlebih dahulu

    dengan menggunakan metode 3-fold cross validation. Selanjutnya 2/3 data

    partisi tersebut akan digunakan sebagai data training dan 1/3 lainnya akan

    digunakan sebagai data testing. Berikut contoh pembagian data training

    dan data testing pada fold pertama:

    Tabel 3. 2 Contoh Data Training

    No. IPS 2 SKS S4 Lama TA Masa Studi

    1. 1.55 0.777777778 2 0

    2. 3.47 0.722222222 1 1

    3. 2.55 1 7 0

    4. 3.88 0.888888889 1 1

    5. 3.64 0 1 1

    6. 1.95 0.666666667 5 0

    7. 2.77 0.222222222 1 0

    8. 3.37 1 2 1

    Tabel 3. 3 Contoh Data Testing

    No. IPS 2 SKS S4 Lama TA Masa Studi

    9. 2.32 0.055555556 3 0

    10. 3.24 0.888888889 1 1

    11. 2.33 0.888888889 2 0

    12. 3.17 0.888888889 1 1

    Setelah data training dan data testing didapatkan, selanjutnya

    adalah mencari prior dan probabilitas tiap atribut. Pada data pakai, atribut

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 23

    yang digunakan adalah IPS 2, SKS semester 4, dan lama tugas akhir dimana

    nilai tiap atribut bersifat kontinu, maka untuk mencari probabilitas atribut-

    atribut tersebut, digunakan perhitungan mean dan standar deviasi terlebih

    dahulu.

    Tabel 3. 4 Prior Kelas

    Masa studi P(masa studi)

    1 4/8

    0 4/8

    Untuk menghitung mean, digunakan rumus sebagai berikut:

    �̅� =𝐽𝑢𝑚𝑙𝑎ℎ 𝑛𝑖𝑙𝑎𝑖

    𝐵𝑎𝑛𝑦𝑎𝑘 𝑑𝑎𝑡𝑎 (3.1)

    Untuk menghitung standar deviasi, digunakan rumus sebagai

    berikut:

    𝑆 = √∑ (𝑥𝑖 − 𝑥)2𝑛𝑖=1

    𝑛 − 1 (3.2)

    Berikut hasil perhitungan mean dan standar deviasi tiap atribut:

    Tabel 3. 5 Mean dan Standar Deviasi IPS 2

    IPS 2 Tepat Tidak Tepat

    Mean 3.59 2.205

    Standar Deviasi 1.377717902 1.427983203

    Tabel 3. 6 Mean dan Standar Deviasi SKS Semester 4

    SKS S4 Tepat Tidak Tepat

    Mean 0.861111111 0.666666667

    Standar Deviasi 0.435025813 0.452515562

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 24

    Tabel 3. 7 Mean dan Standar Deviasi Lama TA

    Lama TA Tepat Tidak Tepat

    Mean 1.25 3.75

    Standar Deviasi 1.841115391 1.872792819

    Jika mean dan standar deviasi telah dihitung, selanjutnya

    menggunakan data testing pada tabel 3.5 untuk mencari nilai probabilitas

    tiap atribut. Hasil akan dihitung berdasarkan persamaan (2.3) atau

    menggunakan rumus densitas gauss dengan memasukkan mean, standar

    deviasi, dan nilai data testing. Berikut hasil probabilitas tiap atribut

    berdasarkan data testing:

    Tabel 3. 8 Probabilitas Data Testing No. 9

    Data testing no.9 Tepat Tidak Tepat

    IPS 2 0.189334928 0.278470144

    SKS S4 0.377385952 0.613584785

    lama TA 0.137924966 0.196605123

    Tabel 3. 9 Probabilitas Data Testing No.10

    Data testing no.10 Tepat Tidak Tepat

    IPS 2 0.280372566 0.214838644

    SKS S4 0.463987358 0.69365332

    lama TA 0.214696645 0.072478771

    Tabel 3. 10 Probabilitas Data Testing No. 11

    Data testing no.11 Tepat TidakTepat

    IPS 2 0.190600971 0.278306316

    SKS S4 0.405558222 0.641024052

    lama TA 0.199432008 0.137662238

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 25

    Tabel 3. 11 Probabilitas Data Testing No. 12

    Data testing no.12 Tepat TidakTepat

    IPS 2 0.276419863 0.222341729

    SKS S4 0.509170704 0.641024052

    lama TA 0.214696645 0.072478771

    Setelah nilai probabilitas seluruh atribut terhadap kelas didapatkan,

    nilai posterior untuk kelas tepat dan tidak tepat akan dicari berdasarkan data

    testing dengan menggunakan persamaan (2.2). Jika salah satu posterior

    kelas memiliki nilai paling tinggi, maka kelas pada posterior tersebut adalah

    label dari data testing yang diuji. Berikut hasil perhitungan naïve bayes

    berdasarkan persamaan (2.2):

    Tabel 3. 12 Posterior Fold Pertama

    Posterior Tepat Tidak Tepat

    Data testing no. 9 0.004927531 0.016796471

    Data testing no. 11 0.013964871 0.005400521

    Data testing no. 12 0.007708026 0.012279543

    Data testing no. 13 0.015108728 0.005165069

    Setelah melakukan perhitungan yang sama pada data testing fold

    kedua dan ketiga, maka didapatkan hasil klasifikasi sebagai berikut:

    Tabel 3. 13 Hasil Klasifikasi Fold Pertama

    No. IPS 2 SKS S4 Lama TA Masa Studi Klasifikasi

    9. 2.32 0.2814 3 0 0

    10. 3.24 0.3533 1 1 1

    11. 2.33 0.3054 2 0 0

    12. 3.17 0.3892 1 1 1

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 26

    Tabel 3. 14 Hasil Klasifikasi Fold Kedua

    No. IPS 2 SKS S4 Lama TA Masa Studi Klasifikasi

    5. 3.64 0.3653 1 1 1

    6. 1.95 0.3593 5 0 0

    7. 2.77 0.3892 1 0 1

    8. 3.37 0.3772 2 1 1

    Tabel 3. 15 Hasil Klasifikasi Fold Ketiga

    No. IPS 2 SKS S4 Lama TA Masa Studi Klasifikasi

    1. 1.55 0.2874 2 0 0

    2. 3.47 0.3772 1 1 1

    3. 2.55 0.3772 7 0 0

    4. 3.88 0.3772 1 1 1

    3.1.5 Akurasi

    Untuk mencari hasil akurasi dari hasil perhitungan naïve bayes,

    digunakan perhitungan confusion matrix yakni dengan menjumlahkan data

    yang diprediksi benar dan dibagi dengan seluruh data yang diprediksi benar

    maupun salah lalu dikali dengan 100%. Pada kasus diatas, pengujian

    dilakukan sebanyak 3 kali sehingga menghasilkan akurasi sebagai berikut:

    Tabel 3.16 Confusion Matrix Fold Pertama

    Masa Studi Tepat Tidak Tepat

    Tepat 2 0

    Tidak Tepat 0 2

    𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 2 + 2

    2 + 0 + 0 + 2𝑥 100% = 100%

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 27

    Tabel 3. 17 Confusion Matrix Fold Kedua

    Masa Studi Tepat Tidak Tepat

    Tepat 2 0

    Tidak Tepat 1 1

    𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 2 + 1

    2 + 0 + 1 + 1𝑥 100% = 75%

    Tabel 3. 18 Confusion Matrix Fold Ketiga

    Masa Studi Tepat Tidak Tepat

    Tepat 2 0

    Tidak Tepat 0 2

    𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 2 + 2

    2 + 0 + 0 + 2𝑥 100% = 100%

    Setelah mendapatkan hasil akurasi tiap pengujian, selanjutnya hasil

    akurasi tersebut dihitung rata-ratanya untuk mendapatkan tingkat akurasi

    keseluruhan. Berikut tingkat akurasi keseluruhan dengan menggunakan

    rumus rata-rata:

    𝑇𝑖𝑛𝑔𝑘𝑎𝑡 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =100 + 75 + 100

    3= 91,6%

    3.2 Peralatan Penelitian

    Penelitian ini menggunakan beberapa peralatan untuk membangun sistem,

    yaitu sebagai berikut:

    1. Perangkat keras

    a. Merk : Asus

    b. Type : X505Z

    c. Processor : AMD Quad Core R5, 3.6 GHz

    d. RAM : 8,00 GB

    e. HDD : 1 TB

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 28

    2. Perangkat Lunak

    a. Windows 10 Home

    b. Microsoft Excel 2013

    c. Weka Tools 3.9

    d. Matlab R2014B

    3.3 Perancangan Interface

    Gambar 3.6 Perancangan Interface

    Pada perancangan interface yang dibuat, terdapat bagian untuk

    pembentukan model dan uji data. Untuk membuat model, terdapat tombol upload

    pada area 2 untuk membuka file excel dari direktori komputer dan data yang dipilih

    akan ditampilkan dalam bentuk tabel pada area 1. Sebelum masuk pada tahap

    preprocessing terdapat field pada area 3 untuk memasukkan jumlah atribut yang

    akan digunakan. Kemudian tombol preprocessing pada area 5 akan menghasilkan

    dataset yang ditampilkan pada area 4. Setelah data hasil preprocessing ditampilkan,

    tombol hitung pada area 7 akan menghitung tingkat akurasi dan menampilkannya

    pada area 6. Kemudian hasil confusion matrix dari tiap pengujian akan ditampilkan

    pada area 8, area 9, dan area 10 .

    Untuk melakukan uji data tunggal, data tiap atribut diinputkan satu persatu

    terlebih dahulu di area 13. Kemudian ketika tombol klasifikasi pada area 14

    dijalankan, maka hasil prediksi masa studi yakni tepat atau tidak tepat akan

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 29

    ditampilkan pada area 15. Ketika tombol hapus pada area 16 dijalankan, maka isi

    dari tiap field uji data tunggal akan dihapus.

    Untuk melakukan uji data dengan data yang berjumlah banyak, maka

    pengguna melakukan upload data terlebih dahulu pada area 17 dan hasil data akan

    ditampilkan di area 11. Setelah itu ketika tombol klasifikasi pada area 18

    dijalankan, hasil klasifikasi tiap data akan ditampilkan pada area 12.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 30

    BAB IV

    HASIL DAN ANALISIS

    Bab ini akan membahas hasil implementasi dari sistem yang telah dibuat

    serta menganalisa hasil pengujian yang telah dilakukan.

    4.1 Preprocessing

    4.1.1 Data Cleaning

    Pada tahapan data cleaning, baris data yang memiliki missing value

    akan dihapus dari tabel sehingga tidak terdapat data kosong. Dari data yang

    berjumlah 1630, terdapat satu data yang mengandung nilai kosong. Karena

    jumlah data yang bernilai kosong hanya sebesar 0,06135%, maka baris data

    tersebut dihapus dari tabel. Penelitian ini hanya menggunakan data yang

    memiliki nilai pada setiap atribut agar tidak terdapat noise pada saat proses

    klasifikasi.

    4.1.2 Data Selection

    Tahap ini akan melakukan seleksi atribut dengan menggunakan

    Weka Tools 3.9 dan hasil seleksi atribut didapatkan berdasarkan infomation

    gain dengan hasil sebagai berikut:

    Tabel 4. 1 Hasil Perankingan Atribut

    Ranking Atribut

    1 SKS semester 4

    2 Lama tugas akhir

    3 IPS 2

    4 IPS 3

    5 IPS 4

    6 IPS 1

    7 Prodi

    8 Poin

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 31

    9 Daerah asal

    10 Jenis kelamin

    4.1.3 Data Transformation

    Pada tahap ini, atribut yang memiliki rentang nilai yang jauh atau

    tidak seimbang terhadap atribut lain akan ditransformasi menggunakan

    normalisasi min-max. Salah satu atribut yang rentang nilainya cukup jauh

    adalah SKS Semester 4 dengan nilai terendah yaitu 18 dan nilai tertinggi

    yaitu 185. Kemudian nilai dari atribut masa studi akan diubah menjadi 1 dan

    0, dimana nilai 1 merupakan masa studi 4 tahun. Berikut contoh data awal pada tahap transformasi

    data:

    Tabel 4. 2 Contoh Transformasi Data Awal

    No. SKS Semester 4 Masa Studi

    1. 66 5

    2. 81 4

    3. 107 5

    Setelah melalui tahap transformasi data, atribut SKS semester 4

    dan masa studi akan menghasilkan contoh data akhir seperti pada tabel 4.4

    berikut:

    Tabel 4. 3 Contoh Transformasi Data Akhir

    No. SKS Semester 4 Masa Studi

    1. 0.2874 0

    2. 0.3772 1

    3. 0.5329 0

    Keterangan:

    a. Masa studi = 1 : Tepat

    b. Masa studi = 0 : Tidak Tepat

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 32

    4.2 Klasifikasi

    Setelah melalui tahap preprocessing, sistem akan menghasilkan dataset

    atau data pakai dengan jumlah keseluruhan yaitu 1629 data. Penelitian ini

    menggunakan seluruh atribut yang berjumlah 10 untuk diuji pada proses klasifikasi.

    Penulis mencoba melakukan variasi terhadap tiap atribut untuk mencari hasil

    akurasi yang optimal dan atribut dengan hasil paling optimal akan digunakan pada

    uji data tunggal. Variasi atribut akan diurut berdasarkan hasil ranking atribut pada

    tabel 4.3. Pengujian dilakukan menggunakan 3-fold cross validation dengan

    membagi data menjadi 3 bagian dimana 2/3 data akan menjadi data training dan

    1/3 data akan menjadi data testing. Berikut merupakan hasil variasi dan akurasi

    dari tiap atribut:

    Tabel 4. 4 Hasil Pengujian Akurasi

    Jumlah Atribut Nama Atribut Akurasi

    1 SKS semester 4 66.1142%

    2 SKS semester 4

    lama tugas akhir 80.4788%

    3

    SKS semester 4

    lama tugas akhir

    IPS 2

    80.5402%

    4

    SKS semester 4

    lama tugas akhir

    IPS 2

    IPS 3

    79.6808%

    5

    SKS semester 4

    lama tugas akhir

    IPS 2

    IPS 3

    IPS 4

    78.9441%

    6

    SKS semester 4

    lama tugas akhir

    IPS 2

    IPS 3

    IPS 4

    IPS 1

    78.0233%

    7

    SKS semester 4

    lama tugas akhir

    IPS 2

    80.3560%

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 33

    IPS 3

    IPS 4

    IPS 1

    prodi

    8

    SKS semester 4

    lama tugas akhir

    IPS 2

    IPS 3

    IPS 4

    IPS 1

    Prodi

    poin

    80.1150%

    9

    SKS semester 4

    lama tugas akhir

    IPS 2

    IPS 3

    IPS 4

    IPS 1

    Prodi

    poin

    daerah asal

    79.8036%

    10

    SKS semester 4

    lama tugas akhir

    IPS 2

    IPS 3

    IPS 4

    IPS 1

    Prodi

    poin

    daerah asal

    jenis kelamin

    79.9263%

    Tabel 4.6 merupakan hasil akurasi dari 10 kali percobaan terhadap variasi

    atribut. Setelah penulis melakukan percobaan tersebut, didapatkan hasil akurasi

    yang berbeda-beda pada tiap variasi atribut dengan tingkat akurasi tertinggi sebesar

    80.5402% dan akurasi terendah sebesar 66.1142%. Tingkat akurasi tertinggi

    terdapat pada atribut berjumlah 3 yaitu SKS semester 4, lama tugas akhir, dan IPS

    2 sedangkan tingkat akurasi terendah terdapat pada atribut yang berjumlah 1 yaitu

    SKS semester 4. Hal ini menunjukkan bahwa atribut SKS semester 4, lama tugas

    akhir, dan IPS 2 merupakan variasi atribut paling optimal dan sudah tepat dalam

    memprediksi kelulusan mahasiswa karena memiliki tingkat akurasi paling baik.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 34

    Berdasarkan penelitian ini, jenis atribut yang baik dalam menentukan

    kelulusan adalah atribut dengan tipe numerik. Hal ini dapat dilihat dari hasil ranking

    atribut dimana atribut bertipe numerik berada diatas atribut bertipe kategorik.

    Grafik tingkat akurasi tiap variasi atribut akan ditampilkan pada gambar 4.1 berikut:

    Gambar 4. 1 Akurasi Rata-rata

    Berikut hasil confusion matrix dengan menggunakan 3 atribut untuk 3-fold

    cross validation:

    Gambar 3. 7 Confusion Matrix Fold Pertama

    𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 255 + 184

    255 + 58 + 46 + 184𝑥100% = 80.8471%

    60.00%

    65.00%

    70.00%

    75.00%

    80.00%

    85.00%

    90.00%

    0 1 2 3 4 5 6 7 8 9 10 11

    Tin

    gkat

    Aku

    rasi

    Jumlah Atribut

    Akurasi

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 35

    Gambar 3. 8 Confusion Matrix Fold Kedua

    𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 269 + 40

    269 + 40 + 51 + 183𝑥100% = 83.2413%

    Gambar 3. 9 Confusion Matrix Fold Ketiga

    𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 264 + 64

    264 + 64 + 58 + 157𝑥100% = 77.5322%

    Gambar 3. 10 Akurasi Total

    𝐴𝑘𝑢𝑟𝑎𝑠𝑖 𝑇𝑜𝑡𝑎𝑙 = 80.8471 + 83.2413 + 77.5322

    3𝑥100% = 80.5402%

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 36

    4.3 Uji Data

    4.3.1 Uji Data Tunggal

    Pada tahap uji data tunggal, sistem akan menentukan hasil klasifikasi

    berdasarkan data yang dimasukkan oleh pengguna. Untuk melakukan validasi,

    penulis menggunakan model yang telah dibentuk dari pengujian pertama atau

    fold pertama. Data training yang digunakan adalah 2/3 dari jumlah data dan

    data testing yang digunakan adalah 1/3 dari jumlah data dimana data testing

    berada pada set bawah. Inputan yang digunakan dalam proses klasifikasi hanya

    atribut dengan tingkat akurasi tertinggi yaitu SKS semester 4, lama tugas akhir,

    dan IPS 2. Berikut merupakan dua dari data testing yang akan diuji:

    Tabel 4. 5 Data Testing Uji Data Tunggal

    No. IPS 2 SKS S4 Lama TA Masa Studi

    1. 3.17 81 1 1

    2. 3.00 78 3 0

    a. Data 1

    Gambar 4. 2 Uji Data Tunggal Tepat

    Pada gambar 4.2 diatas, data diklasifikasikan sebagai label tepat. Hasil

    klasifikasi tersebut sesuai dengan label baris pertama pada tabel 4.5

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 37

    b. Data 2

    Gambar 4. 3 Uji Data Tunggal Tidak Tepat

    Pada gambar 4.3 diatas, data diklasifikasikan sebagai label tidak tepat.

    Hasil klasifikasi tersebut sesuai dengan label baris kedua pada tabel 4.5

    4.3.2 Uji Data Kelompok

    Pada tahap ini sistem akan melakukan klasifikasi terhadap data

    dalam jumlah banyak. Data yang di-upload adalah data bertipe .xls atau

    .xlsx dengan label yang belum diketahui. Ketika tombol klasifikasi

    dijalankan, maka masing-masing data uji akan ditampilkan kembali beserta

    label hasil klasifikasi. Pada uji data kelompok, penulis kembali melakukan

    validasi dengan cara yang sama pada tahap uji data tunggal. Berikut

    merupakan tiga dari data testing yang akan diuji:

    Tabel 4. 6 Data Testing Uji Data Kelompok

    No. IPS 2 SKS S4 Lama TA Masa Studi

    1. 3.17 81 1 1

    2. 3.00 78 3 0

    3. 3.79 85 2 1

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 38

    a. Data

    Data yang dijadikan input pada uji data kelompok dapat

    memiliki jumlah atribut yang lebih dari tiga, maka sistem memilih

    dan melakukan ranking terlebih dahulu terhadap data dengan

    memilih atribut SKS semester 4, lama tugas akhir, dan IPS 2.

    Gambar 4.4 berikut merupakan tampilan uji data kelompok yang

    datanya telah di-upload pada sistem:

    Gambar 4. 4 Upload Uji Data Kelompok

    Setelah data di-upload dan tombol klasifikasi dijalankan,

    sistem akan menampilkan kembali data ke tabel beserta label hasil

    klasifikasi pada tiap data uji seperti pada gambar 4.5 berikut:

    Gambar 4. 5 Hasil Uji Data Kelompok

    Pada gambar 4.5, label hasil klasifikasi akan ditampilkan di kolom 11, hasil

    tersebut telah sesuai dengan data testing yang digunakan pada tabel 4.6.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 39

    BAB V

    PENUTUP

    5.1 Kesimpulan

    Berdasarkan hasil penelitian yang telah dilakukan penulis dengan judul

    prediksi kelulusan mahasiswa Fakultas Sains dan Teknologi Universitas Sanata

    Dharma menggunakan metode klasifikasi naïve bayes, didapatkan kesimpulan

    sebagai berikut:

    1. Metode klasifikasi dengan menggunakan algoritma naïve bayes sudah

    cukup tepat dalam memprediksi kelulusan mahasiswa.

    2. Tingkat akurasi tertinggi terdapat pada 3 atribut yaitu SKS semester 4,

    lama tugas akhir, dan Indeks Prestasi Semester 2 dengan hasil akurasi

    sebesar 80.5402%. Hal ini menunjukkan bahwa atribut-atribut tersebut

    dapat digunakan dalam menentukan pengklasifikasian.

    5.2 Saran

    Saran yang diberikan untuk penelitian selanjutnya adalah:

    1. Sistem untuk memprediksi kelulusan mahasiswa dapat dikembangkan

    menggunakan metode yang berbeda.

    2. Penelitian selanjutnya dapat menambahkan atribut-atribut lain yang

    lebih mempengaruhi kelulusan mahasiswa.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 40

    DAFTAR PUSTAKA

    Anggreani, D., Herman, & Astuti, W. (2018). Kinerja Metode Naive Bayes dalam

    Prediksi Lama Studi Mahasiswa Fakultas Ilmu Komputer. Seminar Ilmu

    Komputer dan Teknologi Informasi, Vol.3 No.2.

    Bustami. (2013). Penerapan Algoritma Untuk Mengklasifikasi Data Nasabah

    Asuransi. Jurnal Penelitian Teknik Informatika, Vol.3, No.2.

    Chormunge, S., & S., J. (2016). Efficient Feature Subset Selection Algorithm for

    High Dimensional Data. International Journal of Electrical and Computer

    Engineering (IJECE), Vol. 6, 1880-1888.

    Kamber, M., & Han, J. (2006). Data Mining Concept and Techniques. San

    Fransisco: Morgan Kauffman.

    Larose, Daniel T. (2005). Discovering Knowledge in Data: An Introduction to

    Data Mining. John Willey & Sons. Inc.

    Nugroho, Y. S. (2014). Data Mining Menggunakan Algoritma Untuk Klasifikasi

    Kelulusan Mahasiswa Universitas Dian Nuswantoro. Skripsi.

    Santoso, B. (2007). Data Mining Teknik Pemanfaatan Data untuk Keperluan

    Bisnis (1st ed.). Yogyakarta, Indonesia.

    Tim Dosen Teknik Informatika. (2015). Panduan Akademik 2016/2017 Program

    Studi Teknik Informatika. Yogyakarta: Universitas Sanata Dharma.

    Turban, E., Aronson, J., & Liang, T. (2005). Decision Support System and

    Intelligent Systems - 7th ed. Pearson Education, Inc. In Sistem Pendukung

    Keputusan dan Sistem Cerdas (D. Prabantini, Trans.). Yogyakarta: ANDI.

    Universitas Sanata Dharma. (2008). Manual Mutu Lulusan. Yogyakarta: Lembaga

    Penjaminan Mutu Universitas Sanata Dharma.

    Wahyu. (2010). Penyebab Lama Kuliah (Online). Dipetik July 1, 2020, dari

    (http://blog.umy.ac.id/anharwahyu/2010/12/07/penyebab-lama-kuliah)

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 41

    Widaningsih, S. (2019). Perbandingan Metode Data Mining untuk Prediksi Nilai

    dan Waktu Kelulusan Mahasiswa Prodi Teknik Informatika dengan

    Algoritma C4.5, Naive Bayes, KNN, dan SVM. Jurnal Tekno Insentif,

    Vol.13, No.1, 16-25.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 42

    LAMPIRAN

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 43

    A. Lampiran Percobaan Menggunakan Weka Tools 3.9

    1. Information Gain

    B. Lampiran Program

    1. Preprocessing

    clear; clc; [num, text, data] = xlsread('DATA AWAL.xlsx');

    revenue = data(:,11); [m,n] = size(revenue);

    % transformasi kelas lama studi data2 = cell2mat(data(:,11));

    for i=1:m if (data2(i)

  • 44

    2. Main

    3. Tigafold

    clear; clc; [num,text,data] = xlsread('dataset.xls'); jumlahAtribut = 3; revenue = data(:,11); [m,~] = size(revenue);

    rangking = [8, 10, 5, 6, 7, 4, 1, 9, 3, 2]; kategorikal = [1,2,3]; nonKategorikal = [4,5,6,7,8,9,10];

    j = 0; k = 0;

    atributKategorikal = 0; atributNonKategorikal = 0;

    for i = 1:jumlahAtribut if ismember(rangking(i),kategorikal) j=j+1; atributKategorikal(j) = rangking(i); elseif ismember(rangking(i), nonKategorikal) k=k+1; atributNonKategorikal(k) = rangking(i); end end

    tigafold;

    ukurandata = size(data,2); X = data(:,1:ukurandata-1); Y = data(:,ukurandata); jmlhdata = size(X);

    range = jmlhdata(1)/3;

    data1 = X(1:range,:); data2 = X(range+1:range*2,:); data3 = X(range*2+1:jmlhdata(1),:);

    dataTr1 = [data2;data3]; dataTs1 = data1;

    dataTr2 = [data1;data3]; dataTs2 = data2;

    dataTr3 = [data1;data2]; dataTs3 = data3;

    atributKategorikal(j) = rangking(i); elseif ismember(rangking(i), nonKategorikal) k=k+1; atributNonKategorikal(k) = rangking(i); end end

    tigafold;

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 45

    like1 = Y(1:range); like2 = Y(range+1:range*2); like3 = Y(range*2+1:jmlhdata(1));

    labelTr1 = [like2; like3]; labelTs1 = like1;

    labelTr2 = [like1; like3]; labelTs2 = like2;

    labelTr3 = [like1; like2]; labelTs3 = like3;

    a = atributKategorikal; b = atributNonKategorikal;

    for i=1:size(dataTs1, 1) if (a == 0) naiveKat = [1;1]; naiveNum = naiveNumerikal(dataTr1(:,b),

    labelTr1, dataTs1(i,b)); hasil(i,1) = naiveBayes (naiveKat,

    naiveNum, labelTr1); elseif (b==0) naiveNum = [1;1]; naiveKat =

    naiveKategorikal(dataTr1(:,kategorikal),

    labelTr1, dataTs1(i,kategorikal), a); hasil(i,1) = naiveBayes (naiveKat,

    naiveNum, labelTr1); else naiveKat =

    naiveKategorikal(dataTr1(:,kategorikal),

    labelTr1, dataTs1(i,kategorikal), a); naiveNum = naiveNumerikal(dataTr1(:,b),

    labelTr1, dataTs1(i,b)); hasil(i,1) = naiveBayes (naiveKat, naiveNum,

    labelTr1); end end labelTs1 = cell2mat(labelTs1); confmat1 = confusionmat(hasil,labelTs1); output1 =

    (sum(diag(confmat1))/sum(sum(confmat1)))*100;

    for i = 1:size(dataTs2, 1) if (a == 0) naiveKat = [1;1]; naiveNum = naiveNumerikal(dataTr2(:,b),

    labelTr2, dataTs2(i,b)); hasil(i,1) = naiveBayes (naiveKat,

    naiveNum, labelTr2); elseif (b==0) naiveNum = [1;1]; naiveKat =

    naiveKategorikal(dataTr2(:,kategorikal),

    labelTr2, dataTs2(i,kategorikal), a); hasil(i,1) = naiveBayes (naiveKat,

    naiveNum, labelTr2);

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 46

    elseif (b==0) naiveNum = [1;1]; naiveKat =

    naiveKategorikal(dataTr2(:,kategorikal),

    labelTr2, dataTs2(i,kategorikal), a); hasil(i,1) = naiveBayes (naiveKat,

    naiveNum, labelTr2); else naiveKat =

    naiveKategorikal(dataTr2(:,kategorikal),

    labelTr2, dataTs2(i,kategorikal), a); naiveNum = naiveNumerikal(dataTr2(:,b),

    labelTr2, dataTs2(i,b)); hasil(i,1) = naiveBayes (naiveKat, naiveNum,

    labelTr2); end end labelTs2 = cell2mat(labelTs2); confmat2 = confusionmat(hasil,labelTs2); output2 =

    (sum(diag(confmat2))/sum(sum(confmat2)))*100;

    for i = 1:size(dataTs3, 1) if (a == 0) naiveKat = [1;1]; naiveNum = naiveNumerikal(dataTr3(:,b),

    labelTr3, dataTs3(i,b)); hasil(i,1) = naiveBayes (naiveKat, naiveNum,

    labelTr3); elseif (b==0) naiveNum = [1;1]; naiveKat =

    naiveKategorikal(dataTr3(:,kategorikal),

    labelTr3, dataTs3(i,kategorikal), a); hasil(i,1) = naiveBayes (naiveKat,

    naiveNum, labelTr3); else naiveKat =

    naiveKategorikal(dataTr3(:,kategorikal),

    labelTr3, dataTs3(i,kategorikal), a); naiveNum = naiveNumerikal(dataTr3(:,b),

    labelTr3, dataTs3(i,b)); hasil(i,1) = naiveBayes (naiveKat, naiveNum,

    labelTr3); end end labelTs3 = cell2mat(labelTs3); confmat3 = confusionmat(hasil,labelTs3); output3 =

    (sum(diag(confmat3))/sum(sum(confmat3)))*100;

    akurasi = (output1 + output2 + output3)/3

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 47

    4. NaïveKategorikal

    function output = naiveKategorikal (B, labelTr,

    testData, atributKategorikal)

    labelTr = cell2mat(labelTr(:,:)); Tepat = find(labelTr(:) == 1); TidakTepat = find(labelTr(:) == 0); [m,~] = size(B);

    %berdasar prodi if(ismember(1,atributKategorikal)) prodi = zeros(4,2); for i=1:m if(isequal(B{i,1},

    'TM')&&isequal(labelTr(i,1), 1)) prodi(1,1) = prodi(1,1) + 1; elseif(isequal(B{i,1},

    'TM')&&isequal(labelTr(i,1), 0)) prodi(1,2) = prodi(1,2) + 1; elseif(isequal(B{i,1},

    'INF')&&isequal(labelTr(i,1), 1)) prodi(2,1) = prodi(2,1) + 1; elseif(isequal(B{i,1},

    'INF')&&isequal(labelTr(i,1), 0)) prodi(2,2) = prodi(2,2) + 1; elseif(isequal(B{i,1},

    'MAT')&&isequal(labelTr(i,1), 1)) prodi(3,1) = prodi(3,1) + 1; elseif(isequal(B{i,1},

    'MAT')&&isequal(labelTr(i,1), 0)) prodi(3,2) = prodi(3,2) + 1; elseif(isequal(B{i,1},

    'TE')&&isequal(labelTr(i,1), 1)) prodi(4,1) = prodi(4,1) + 1; elseif(isequal(B{i,1},

    'TE')&&isequal(labelTr(i,1), 0)) prodi(4,2) = prodi(4,2) + 1; end end %model prodiM = [prodi(:,1)/length(Tepat)

    prodi(:,2)/length(TidakTepat)]; end

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 48

    %berdasar jenis kelamin if(ismember(2,atributKategorikal)) jk = zeros(2,2); for i=1:m if(isequal(B{i,2},

    'L')&&isequal(labelTr(i,1), 1)) jk(1,1) = jk(1,1) + 1; elseif(isequal(B{i,2},

    'L')&&isequal(labelTr(i,1), 0)) jk(1,2) = jk(1,2) + 1; elseif(isequal(B{i,2},

    'P')&&isequal(labelTr(i,1), 1)) jk(2,1) = jk(2,1) + 1; elseif(isequal(B{i,2},

    'P')&&isequal(labelTr(i,1), 0)) jk(2,2) = jk(2,2) + 1; end end %model jkM = [jk(:,1)/length(Tepat)

    jk(:,2)/length(TidakTepat)]; end

    %berdasar daerah asal if(ismember(3,atributKategorikal)) daerah = zeros(30,2); for i=1:m if(isequal(B{i,3}, 'Sumatera

    Utara')&&isequal(labelTr(i,1), 1)) daerah(1,1) = daerah(1,1) + 1; elseif(isequal(B{i,3}, 'Sumatera

    Utara')&&isequal(labelTr(i,1), 0)) daerah(1,2) = daerah(1,2) + 1; elseif(isequal(B{i,3}, 'Sumatera

    Selatan')&&isequal(labelTr(i,1), 1)) daerah(2,1) = daerah(2,1) + 1; elseif(isequal(B{i,3}, 'Sumatera

    Selatan')&&isequal(labelTr(i,1), 0)) daerah(2,2) = daerah(2,2) + 1; elseif(isequal(B{i,3}, 'Sumatera

    Barat')&&isequal(labelTr(i,1), 1)) daerah(3,1) = daerah(3,1) + 1; elseif(isequal(B{i,3}, 'Sumatera

    Barat')&&isequal(labelTr(i,1), 0)) daerah(3,2) = daerah(3,2) + 1; elseif(isequal(B{i,3}, 'Sulawesi

    Utara')&&isequal(labelTr(i,1), 1)) daerah(4,1) = daerah(4,1) + 1; elseif(isequal(B{i,3}, 'Sulawesi

    Utara')&&isequal(labelTr(i,1), 0)) daerah(4,2) = daerah(4,2) + 1; elseif(isequal(B{i,3}, 'Sulawesi

    Tenggara')&&isequal(labelTr(i,1), 1)) daerah(5,1) = daerah(5,1) + 1;

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 49

    elseif(isequal(B{i,3}, 'Sulawesi Tenggara')&&isequal(labelTr(i,1), 0)) daerah(5,2) = daerah(5,2) + 1; elseif(isequal(B{i,3}, 'Sulawesi

    Tengah')&&isequal(labelTr(i,1), 1)) daerah(6,1) = daerah(7,1) + 1; elseif(isequal(B{i,3}, 'Sulawesi

    Tengah')&&isequal(labelTr(i,1), 0)) daerah(6,2) = daerah(7,2) + 1; elseif(isequal(B{i,3}, 'Sulawesi

    Selatan')&&isequal(labelTr(i,1), 1)) daerah(7,1) = daerah(7,1) + 1; elseif(isequal(B{i,3}, 'Sulawesi

    Selatan')&&isequal(labelTr(i,1), 0)) daerah(7,2) = daerah(7,2) + 1; elseif(isequal(B{i,3},

    'Riau')&&isequal(labelTr(i,1), 1)) daerah(8,1) = daerah(8,1) + 1; elseif(isequal(B{i,3},

    'Riau')&&isequal(labelTr(i,1), 0)) daerah(8,2) = daerah(8,2) + 1; elseif(isequal(B{i,3}, 'Papua

    Barat')&&isequal(labelTr(i,1), 1)) daerah(9,1) = daerah(9,1) + 1; elseif(isequal(B{i,3}, 'Papua

    Barat')&&isequal(labelTr(i,1), 0)) daerah(9,2) = daerah(9,2) + 1; elseif(isequal(B{i,3}, 'Nusa Tenggara

    Timur')&&isequal(labelTr(i,1), 1)) daerah(10,1) = daerah(10,1) + 1; elseif(isequal(B{i,3}, 'Nusa Tenggara

    Timur')&&isequal(labelTr(i,1), 0)) daerah(10,2) = daerah(10,2) + 1; elseif(isequal(B{i,3}, 'Nusa Tenggara

    Barat')&&isequal(labelTr(i,1), 1)) daerah(11,1) = daerah(11,1) + 1; elseif(isequal(B{i,3}, 'Nusa Tenggara

    Barat')&&isequal(labelTr(i,1), 0)) daerah(11,2) = daerah(11,2) + 1; elseif(isequal(B{i,3},

    'Maluku')&&isequal(labelTr(i,1), 1)) daerah(12,1) = daerah(12,1) + 1; elseif(isequal(B{i,3},

    'Maluku')&&isequal(labelTr(i,1), 0)) daerah(12,2) = daerah(12,2) + 1; elseif(isequal(B{i,3}, 'Luar Negeri

    (Abroad)')&&isequal(labelTr(i,1), 1)) daerah(13,1) = daerah(13,1) + 1; elseif(isequal(B{i,3}, 'Luar Negeri

    (Abroad)')&&isequal(labelTr(i,1), 0)) daerah(13,2) = daerah(13,2) + 1; elseif(isequal(B{i,3},

    'Lampung')&&isequal(labelTr(i,1), 1)) daerah(14,1) = daerah(14,1) + 1; elseif(isequal(B{i,3},

    'Lampung')&&isequal(labelTr(i,1), 0)) daerah(14,2) = daerah(14,2) + 1;

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 50

    elseif(isequal(B{i,3}, 'Kepulauan

    Riau')&&isequal(labelTr(i,1), 1)) daerah(15,1) = daerah(15,1) + 1; elseif(isequal(B{i,3}, 'Kepulauan

    Riau')&&isequal(labelTr(i,1), 0)) daerah(15,2) = daerah(15,2) + 1; elseif(isequal(B{i,3}, 'Kalimantan

    Timur')&&isequal(labelTr(i,1), 1)) daerah(16,1) = daerah(16,1) + 1; elseif(isequal(B{i,3}, 'Kalimantan

    Timur')&&isequal(labelTr(i,1), 0)) daerah(16,2) = daerah(16,2) + 1; elseif(isequal(B{i,3}, 'Kalimantan

    Tengah')&&isequal(labelTr(i,1), 1)) daerah(17,1) = daerah(17,1) + 1; elseif(isequal(B{i,3}, 'Kalimantan

    Tengah')&&isequal(labelTr(i,1), 0)) daerah(17,2) = daerah(17,2) + 1; elseif(isequal(B{i,3}, 'Kalimantan

    Selatan')&&isequal(labelTr(i,1), 1)) daerah(18,1) = daerah(18,1) + 1; elseif(isequal(B{i,3}, 'Kalimantan

    Selatan')&&isequal(labelTr(i,1), 0)) daerah(18,2) = daerah(18,2) + 1; elseif(isequal(B{i,3}, 'Kalimantan

    Barat')&&isequal(labelTr(i,1), 1)) daerah(19,1) = daerah(19,1) + 1; elseif(isequal(B{i,3}, 'Kalimantan

    Barat')&&isequal(labelTr(i,1), 0)) daerah(19,2) = daerah(19,2) + 1; elseif(isequal(B{i,3}, 'Jawa

    Timur')&&isequal(labelTr(i,1), 1)) daerah(20,1) = daerah(20,1) + 1; elseif(isequal(B{i,3}, 'Jawa

    Timur')&&isequal(labelTr(i,1), 0)) daerah(20,2) = daerah(20,2) + 1; elseif(isequal(B{i,3}, 'Jawa

    Tengah')&&isequal(labelTr(i,1), 1)) daerah(21,1) = daerah(21,1) + 1; elseif(isequal(B{i,3}, 'Jawa

    Tengah')&&isequal(labelTr(i,1), 0)) daerah(21,2) = daerah(21,2) + 1; elseif(isequal(B{i,3}, 'Jawa

    Barat')&&isequal(labelTr(i,1), 1)) daerah(22,1) = daerah(22,1) + 1; elseif(isequal(B{i,3}, 'Jawa

    Barat')&&isequal(labelTr(i,1), 0)) daerah(22,2) = daerah(22,2) + 1; elseif(isequal(B{i,3},

    'Jambi')&&isequal(labelTr(i,1), 1)) daerah(23,1) = daerah(23,1) + 1; elseif(isequal(B{i,3},

    'Jambi')&&isequal(labelTr(i,1), 0)) daerah(23,2) = daerah(23,2) + 1;

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 51

    elseif(isequal(B{i,3}, 'Irian Jaya/ Papua')&&isequal(labelTr(i,1), 1)) daerah(24,1) = daerah(24,1) + 1; elseif(isequal(B{i,3}, 'Irian Jaya/

    Papua')&&isequal(labelTr(i,1), 0)) daerah(24,2) = daerah(24,2) + 1; elseif(isequal(B{i,3}, 'Daerah Khusus

    Ibukota Jakarta')&&isequal(labelTr(i,1), 1)) daerah(25,1) = daerah(25,1) + 1; elseif(isequal(B{i,3}, 'Daerah Khusus

    Ibukota Jakarta')&&isequal(labelTr(i,1), 0)) daerah(25,2) = daerah(25,2) + 1; elseif(isequal(B{i,3}, 'Daerah Istimewa

    Yogyakarta')&&isequal(labelTr(i,1), 1)) daerah(26,1) = daerah(26,1) + 1; elseif(isequal(B{i,3}, 'Daerah Istimewa

    Yogyakarta')&&isequal(labelTr(i,1), 0)) daerah(26,2) = daerah(26,2) + 1; elseif(isequal(B{i,3},

    'Bengkulu')&&isequal(labelTr(i,1), 1)) daerah(27,1) = daerah(27,1) + 1; elseif(isequal(B{i,3},

    'Bengkulu')&&isequal(labelTr(i,1), 0)) daerah(27,2) = daerah(27,2) + 1; elseif(isequal(B{i,3},

    'Banten')&&isequal(labelTr(i,1), 1)) daerah(28,1) = daerah(28,1) + 1; elseif(isequal(B{i,3},

    'Banten')&&isequal(labelTr(i,1), 0)) daerah(28,2) = daerah(28,2) + 1; elseif(isequal(B{i,3}, 'Bangka

    Belitung')&&isequal(labelTr(i,1), 1)) daerah(29,1) = daerah(29,1) + 1; elseif(isequal(B{i,3}, 'Bangka

    Belitung')&&isequal(labelTr(i,1), 0)) daerah(29,2) = daerah(29,2) + 1; elseif(isequal(B{i,3},

    'Bali')&&isequal(labelTr(i,1), 1)) daerah(30,1) = daerah(30,1) + 1; elseif(isequal(B{i,3},

    'Bali')&&isequal(labelTr(i,1), 0)) daerah(30,2) = daerah(30,2) + 1;

    end end

    %model daerahM =[daerah(:,1)/length(Tepat)

    daerah(:,2)/length(TidakTepat)]; end

    %Testing data = zeros(1,length(atributKategorikal)); output1 = 1; output2 = 1;

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 52

    %prodi if(ismember(1,atributKategorikal)) switch testData{1,1} case 'TM' data(1,1) = 1; case 'INF' data(1,1) = 2; case 'MAT' data(1,1) = 3; case 'TE' data(1,1) = 4; end output1 = output1 * prodiM(data(1,1),1); output2 = output2 * prodiM(data(1,1),2); end

    %JenisKelamin if(ismember(2,atributKategorikal)) switch testData{1,2} case 'L' data(1,2) = 1; case 'P' data(1,2) = 2; end output1 = output1 * jkM(data(1,2),1); output2 = output2 * jkM(data(1,2),2); end

    %AsalDaerah if(ismember(3,atributKategorikal)) switch testData{1,3} case 'Sumatera Utara' data(1,3) = 1; case 'Sumatera Selatan' data(1,3) = 2; case 'Sumatera Barat' data(1,3) = 3; case 'Sulawesi Utara' data(1,3) = 4; case 'Sulawesi Tenggara' data(1,3) = 5; case 'Sulawesi Tengah' data(1,3) = 6; case 'Sulawesi Selatan' data(1,3) = 7; case 'Riau' data(1,3) = 8; case 'Papua Barat' data(1,3) = 9; case 'Nusa Tenggara Timur' data(1,3) = 10;

    case 'Nusa Tenggara Barat' data(1,3) = 11; case 'Maluku' data(1,3) = 12;

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 53

    case 'Luar Negeri (Abroad)' data(1,3) = 13; case 'Lampung' data(1,3) = 14; case 'Kepulauan Riau' data(1,3) = 15; case 'Kalimantan Timur' data(1,3) = 16; case 'Kalimantan Tengah' data(1,3) = 17; case 'Kalimantan Selatan' data(1,3) = 18; case 'Kalimantan Barat' data(1,3) = 19; case 'Jawa Timur' data(1,3) = 20; case 'Jawa Tengah' data(1,3) = 21; case 'Jawa Barat' data(1,3) = 22; case 'Jambi' data(1,3) = 23; case 'Irian Jaya/ Papua' data(1,3) = 24; case 'Daerah Khusus Ibukota

    Jakarta' data(1,3) = 25; case 'Daerah Istimewa Yogyakarta' data(1,3) = 26; case 'Bengkulu' data(1,3) = 27; case 'Banten' data(1,3) = 28; case 'Bangka Belitung' data(1,3) = 29; case 'Bali' data(1,3) = 30;

    end output1 = output1 * daerahM(data(1,3),1); output2 = output2 * daerahM(data(1,3),2); end

    output = [output1; output2];

    end

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 54

    5. NaiveNumerikal

    6. NaiveBayes

    function output = naiveNumerikal (B,

    labelTr,testData)

    %------------------------------Numerik----------

    -------------------------% labelTr = cell2mat(labelTr(:,:)); %likelihood kelas = [1,0];

    dataTr = cell2mat(B (:,:)); % labelTr = labelTr(:,4:end); for i = 1:length(kelas(1,:)) mn(i,:) = mean(dataTr(labelTr ==

    kelas(1,i),:)); st_dev(i,:) = std(dataTr(labelTr ==

    kelas(1,i),:)); end

    %posterior Uji = cell2mat(testData(1,:)); for j = 1:size(kelas,2) likelihood = normpdf(Uji,

    mn(j,:),st_dev(j,:)); posterior(j) = prod(likelihood); end

    output = posterior;

    end

    function output = naiveBayes (naiveKat,

    naiveNum, labelTr)

    labelTr = cell2mat(labelTr(:,:)); Tepat = find(labelTr(:) == 1); TidakTepat = find(labelTr(:) ==