klasifikasi akreditasi sma di pulau sumatera …repository.usd.ac.id/37836/2/165314124_full.pdf ·...

91
I KLASIFIKASI AKREDITASI SMA DI PULAU SUMATERA MENGGUNAKAN METODE NAÏVE BAYES SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Informatika Oleh: Dodi Fernando Tambunan 165314124 PROGRAM STUDI INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2020 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Upload: others

Post on 20-Oct-2020

12 views

Category:

Documents


0 download

TRANSCRIPT

  • I

    KLASIFIKASI AKREDITASI SMA DI PULAU

    SUMATERA MENGGUNAKAN METODE NAÏVE

    BAYES

    SKRIPSI

    Diajukan untuk Memenuhi Salah Satu Syarat

    Memperoleh Gelar Sarjana Komputer

    Program Studi Informatika

    HALAMAN JUDUL

    Oleh:

    Dodi Fernando Tambunan

    165314124

    PROGRAM STUDI INFORMATIKA

    FAKULTAS SAINS DAN TEKNOLOGI

    UNIVERSITAS SANATA DHARMA

    YOGYAKARTA

    2020

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • ii

    CLASSIFICATION OF HIGH SCHOOL

    ACCREDITATION IN SUMATERA ISLAND USING

    NAÏVE BAYES METHOD

    THESIS

    Present as Patrial Fullfillment of the Requirements

    to Obtain Sarjana Komputer Degree

    in Informatics Study Program

    Created by:

    Dodi Fernando Tambunan

    Student ID : 165314124

    INFORMATICS STUDY PROGRAM

    INFORMATICS DEPARTMENT

    FACULTY OF SCIENCE AND TECHNOLOGY

    SANATA DHARMA UNIVERSITY

    YOGYAKARTA

    2020

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • v

    v

    HALAMAN PERSEMBAHAN

    “Sebab TUHAN, Dia sendiri akan berjalan di depanmu, Dia sendiri akan

    menyertai engkau, Dia tidak akan membiarkan engkau dan tidak akan

    meninggalkan engkau; janganlah takut dan janganlah patah hati”

    Ulangan 31:8

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • vii

    vii

    ABSTRAK

    Akreditasi adalah pengakuan terhadap lembaga pendidikan setelah dinilai bahwa

    lembaga itu memenuhi syarat kebakuan atau kriteria yang telah ditentukan.

    Akreditasi ini biasanya dikategorikan ke dalam 4 kategori yaitu A (Sangat baik), B

    (Baik), C (cukup), dan Tidak terakreditasi.

    Dalam dunia pendidikan, akreditasi sangatlah penting dan tidak jarang dijadikan

    sebagai tolak ukur bagi banyak orang untuk mengenyam pendidikan disuatu

    sekolah karena tujuan dari akreditasi adalah menentukan tingkat kelayakan suatu

    sekolah dalam menyelenggarakan layanan pendidikan dan memperoleh gambaran

    tentang kinerja sekolah. dalam penilaian akreditasi tentunya di perlukan sistem

    yang dapat melakukan penilaian atau pengklasifikasian dengan tepat dan benar.

    Metode yang digunakan adalah naive bayes, metode ini adalah metode

    probabilistik yang menghitung probabilitas setiap atribut yang telah ditentukan.

    Sebelum menghitung probabilitas, data dibagi menggunakan 3-fold cross-

    validation, dan untuk mengetahui akurasi dari klasifiakasi mengggunakan

    confusion matrix.

    Penggunaan metode naive bayes pada penelitian ini dengan 1511 data

    menghasilkan akurasi 94,165% dengan menggunakan 8 dan 9 attribut yaitu Standar

    kopetensi lulusan, Standar pendidik dan tenaga pendidikan, Standar sarana dan

    prasarana, Standar isi, Standar pengelolaan, Standar penilaian pendidikan, Standar

    proses, Standar pembiayaan dan total ruang kelas.

    Kata kunci: Klasifikasi, Akreditasi, naive bayes, cross-validation, confusion

    matrix

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • viii

    ABSTRACT

    Accreditation is a recognition to an educational institution after it meets the

    rigid requirements or the predetermined criteria. There a 4 categories of

    accreditation, there are A grade for very good accreditation, B grade for good

    accreditation, C grade for enough accreditation and Not accredited.

    In the world of education, accreditation is important and it also used as the

    benchmark for every person who wants to get an education in a school or the other

    educational institutions. Because the objective of accreditation is to determine the

    level of eligibility of an educational institution in organizing educational services

    and receiving the visualization of the performance. In doing the accreditation

    grading process, an accurate and correct methods are needed to classify and will

    resulting in the right value.

    The method that used in grading or accrediting is naive bayes method. This is

    a probabilistic method that will counts the probability of every predetermined

    attribute. Before computing for the probability, every data will be divided using 3-

    fold cross-validation, and will be using the confusion matrix in classifying.

    Applying naive bayes method in this research with allocating 1511 data

    resulting in 94,165% of accuracy by using 8 and 9 attributes, there are graduation

    competence standard, standard of Teacher’s and element of teaching, facilities and

    infrastructure standard, content standard, management standard, education grading

    standard, progress standard, financing standard and classroom total.

    Key words: Classification, Accreditation, naive bayes, cross-validation,

    confusion matrix

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • xii

    DAFTAR ISI

    HALAMAN JUDUL ................................................................................................ i

    HALAMAN PERSETUJUAN PEMBIMBING .................................................... iii

    HALAMAN PENGESAHAN ................................................................................ iv

    HALAMAN PERSEMBAHAN ............................................................................. v

    PERNYATAAN KEASLIAN KARYA ................................................................ vi

    ABSTRAK ............................................................................................................ vii

    LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI................................. ix

    KATA PENGANTAR ............................................................................................ x

    DAFTAR ISI ......................................................................................................... xii

    DAFTAR GAMBAR ............................................................................................ xv

    DAFTAR TABEL ................................................................................................ xvi

    BAB I PENDAHULUAN ....................................................................................... 1

    1.1 Latar Belakang .............................................................................................. 1

    1.2 Rumusan Masalah ......................................................................................... 3

    1.3 Tujuan ............................................................................................................ 3

    1.4 Manfaat .......................................................................................................... 3

    1.5 Batasan Masalah ............................................................................................ 3

    1.6 Metodologi Penelitian ................................................................................... 4

    1.7 Sistematika Penulisan .................................................................................... 4

    BAB II LANDASAN TEORI ................................................................................. 6

    2.1 Standar Nasional Pendidikan ......................................................................... 6

    2.1.1 Akreditasi ................................................................................................ 6

    2.2 Data Mining .................................................................................................. 7

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • xiii

    xiii

    2.2.1 Pengertian Data Mining .......................................................................... 7

    2.2.2 Pengelompokan Data Mining ................................................................. 9

    2.2.3 Supervised and Unsupervised Learning ............................................... 10

    2.2.3.1 Supervised learning ........................................................................ 10

    2.2.3.2 Unsupervised learning ................................................................... 11

    2.3 Naive bayes .................................................................................................. 12

    2.3.1 Persamaan Metode Naive Bayes ........................................................... 12

    2.4 Cross validation .......................................................................................... 14

    2.5 Akurasi dengan Confusion Matix ................................................................ 15

    BAB III METODE PENELITIAN........................................................................ 16

    3.1 Gambaran Umum ........................................................................................ 16

    3.1.1 Algoritma Naive bayes .................................................................... 17

    3.2 Tahap-tahap Penelitian ................................................................................ 19

    3.2.1 Pengumpulan Data ................................................................................ 19

    3.2.2 Pengolahan Awal Data.......................................................................... 19

    3.2.3 Pembuatan model .................................................................................. 19

    3.2.4 Evaluasi dan Validasi Hasil .................................................................. 20

    3.3 Data ............................................................................................................. 21

    3.4 Perhitungan menggunakan naive bayes....................................................... 24

    3.4.1 Preprocessing ....................................................................................... 24

    3.4.2 Modelling Naive Bayes ......................................................................... 25

    3.4.3 Uji Akurasi dengan Confusion Matrix .................................................. 36

    3.5 Variasi percobaan ........................................................................................ 37

    3.6 Peralatan Penelitian ..................................................................................... 38

    3.7 Desain User Interface .................................................................................. 39

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • xiv

    BAB IV HASIL DAN ANALISIS ........................................................................ 41

    4.1 Data Preprocessing ...................................................................................... 41

    4.1.1 Attribut Selection .................................................................................. 41

    4.1.2 Data transformation ............................................................................. 42

    4.1.3 Data Cleaning ....................................................................................... 43

    4.1.4 Normalisasi data ................................................................................... 44

    4.2 Klasifikasi .................................................................................................... 47

    4.3 Klasifikasi Optimal ...................................................................................... 51

    4.3.1 Penggunaan 8 atribut ............................................................................ 51

    4.3.2 Penggunaan 9 atribut ............................................................................ 52

    4.4 Outlier .......................................................................................................... 53

    4.5 Uji Data ....................................................................................................... 54

    4.5.1 Uji data tunggal ..................................................................................... 55

    4.5.2 Uji data dalam jumlah banyak .............................................................. 57

    BAB V PENUTUP ................................................................................................ 55

    5.1 Kesimpulan .................................................................................................. 55

    5.2 Saran ............................................................................................................ 56

    DAFTAR PUSTAKA ........................................................................................... 57

    LAMPIRAN .......................................................................................................... 59

    1. Perangkingan atribut ...................................................................................... 59

    2. Akurasi Setiap Atribut ................................................................................... 60

    3. Source Code Program .................................................................................... 65

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • xv

    xv

    DAFTAR GAMBAR

    Gambar 2. 1 Knowledge Discovery Database (KDD) (Han & Kamber, 2006) ...... 7

    Gambar 2. 2 3-Fold Validation ............................................................................. 15

    Gambar 3. 1 Diagram Blok Gambaran Umum Klasifikasi Akreditasi ................. 16

    Gambar 3. 2 Diagram Flowchart Uji sistem ......................................................... 18

    Gambar 3. 3 flowchart uji data tunggal ................................................................. 19

    Gambar 3. 4 Tahap Preprocessing ........................................................................ 19

    Gambar 3. 5 Tahap Pembuatan Model .................................................................. 20

    Gambar 3. 6 Alur confusion matrix ...................................................................... 21

    Gambar 3. 7 Desain User Interface ....................................................................... 39

    Gambar 4. 1 Grafik akurasi setiap attribut ............................................................ 50

    Gambar 4. 2 Confusion matrix 8 dan 9 atribut ..................................................... 50

    Gambar 4. 3 outlier ............................................................................................... 54

    Gambar 4. 4 Uji data tunggal akreditasi A ............................................................ 55

    Gambar 4. 5 Uji data tunggal akreditasi B ............................................................ 56

    Gambar 4. 6 Uji data tunggal akreditasi C ............................................................ 56

    Gambar 4. 7 Uji data tunggal Tidak terakreditasi ................................................. 57

    Gambar 4. 8 Tampilan uji data banyak ................................................................. 58

    Gambar 4. 9 Tampilan hasil akreditasi dari uji data banyak ................................. 58

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

    file:///D:/kuliah/semester%208/Peryaratan%20pendadaran/Folder%20pendadaran/Skripsi%20v.4.docx%23_Toc45290409

  • xvi

    DAFTAR TABEL

    Tabel 2. 1 Confusion Matrix 2 Kelas (Tan, Steinbach, & Kumar, 2006) ............. 15

    Tabel 3. 1 Contoh data .......................................................................................... 21

    Tabel 3. 2 Penjelasan atribut (PP 19 tahun 2005) ................................................. 22

    Tabel 3. 3 ketentuan transformasi data ................................................................. 24

    Tabel 3. 4 Data training ......................................................................................... 26

    Tabel 3. 5 Hasil rata-rata (mean) dan Standar Deviasi A1 ................................... 27

    Tabel 3. 6 Hasil rata-rata (mean) dan Standar Deviasi A2 ................................... 27

    Tabel 3. 7 Hasil rata-rata (mean) dan Standar Deviasi A3 ................................... 27

    Tabel 3. 8 Hasil rata-rata (mean) dan Standar Deviasi A4 ................................... 27

    Tabel 3. 9 Hasil rata-rata (mean) dan Standar Deviasi A5 ................................... 28

    Tabel 3. 10 Hasil rata-rata (mean) dan Standar Deviasi A6 ................................. 28

    Tabel 3. 11 Hasil rata-rata (mean) dan Standar Deviasi A7 ................................. 28

    Tabel 3. 12 Hasil rata-rata (mean) dan Standar Deviasi A8 ................................. 28

    Tabel 3. 13 Probabilitas untuk setiap kategori pada kelas .................................... 28

    Tabel 3. 14 Data testing ........................................................................................ 29

    Tabel 3. 15 Probabilitas setiap atribut ................................................................... 34

    Tabel 3. 16 Hasil Pengujian Data .......................................................................... 36

    Tabel 3. 17 Perhitungan Confusion Matrix ........................................................... 37

    Tabel 3. 18 akurasi setiap model dari 3-fold cross validation............................... 37

    Tabel 4. 1 Atribut yang akan dihapus ................................................................... 41

    Tabel 4. 2 Hasil Perangkingan 10 Attribut teratas ................................................ 42

    Tabel 4. 3 Data Transformasi ................................................................................ 42

    Tabel 4. 4 Data cleaning........................................................................................ 43

    Tabel 4. 5 Normalisasi data ................................................................................... 44

    Tabel 4. 6 Akurasi Pada daya listrik(29) dan luas tanah(56) ................................ 45

    Tabel 4. 7 Akurasi 8 standar pendidikan sebelum dan sesudah normalisasi ........ 45

    Tabel 4. 8 Hasil Percobaan 1 sampai 10 atribut .................................................... 47

    Tabel 4. 9 Confusion matrix 1 menggunakan 8 atribut ......................................... 51

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • xvii

    xvii

    Tabel 4. 10 Confusion matrix 2 menggunakan 8 atribut ....................................... 51

    Tabel 4. 11 Confusion matrix 3 menggunakan 8 atribut ....................................... 52

    Tabel 4. 12 Confusion matrix 1 menggunakan 9 atribut ....................................... 52

    Tabel 4. 13 Confusion matrix 2 menggunakan 9 atribut ....................................... 52

    Tabel 4. 14 Confusion matrix 3 menggunakan 9 atribut ...................................... 53

    Tabel 4. 15 Keluaran uji data banyak.................................................................... 58

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 1

    BAB I

    PENDAHULUAN

    1.1 Latar Belakang

    Akreditasi adalah pengakuan terhadap lembaga pendidikan yang diberikan

    oleh badan yang berwenang setelah dinilai bahwa lembaga itu memenuhi syarat

    kebakuan atau kriteria tertentu (KBBI). Akreditasi ini biasanya dikategorikan ke

    dalam 4 kategori yaitu A (Sangat baik), B (Baik), C (cukup), dan Tidak

    terakreditasi. Berdasarkan pengertian tersebut masyarakat dapat memperoleh

    gambaran kualitas pendidikan maupun kinerja di suatu lembaga pendidikan.

    Dalam dunia pendidikan akreditasi sangatlah penting dan tak jarang dijadikan

    sebagai tolak ukur bagi banyak orang untuk mengenyam pendidikan disuatu

    sekolah karena tujuan dari akreditasi adalah menentukan tingkat kelayakan suatu

    sekolah dalam menyelenggarakan layanan pendidikan dan memperoleh gambaran

    tentang kinerja sekolah. Penilaian akreditasi disuatu sekolah tentu saja

    mempertimbangkan poin-poin tertentu sebagai tolak ukurnya. Melihat dari

    penjelasan diatas kita bisa lihat bagaimana akreditasi itu dianggap penting karena

    bisa berdampak pada penentu pilihan seseorang untuk masuk dan menempuh

    pendidikan di suatu sekolah, sehingga harus berhati-hati dalam melakukan

    penilaian dan dibutuhkan suatu sistem yang dapat melakukan pengklasifikasian

    akreditasi secara tepat dan efisen melalui variabel-variabel yang menjadi penentu.

    Indonesia terdiri dari beberapa pulau dan tentunya di masing-masing pulau

    terdapat sekolah-sekolah baik dari jenjang TK, SD, SMP, SMA/SMK, dan

    Universitas. Pada penelitian ini penulis berfokus pada jenjang SMA di Pulau

    Sumatera. Karena banyaknya data dan juga variabel penentu tentunya akan

    menyulitkan tim penilai dalam melakukan penilaian dan tidak bisa dihindari jika

    terjadi kesalahan(human error) dalam proses penilaian. Prediksi tersebut dapat

    diketahui dengan proses pendekatan matematik hingga diketahui polanya, proses

    itu dinamakan data mining.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 2

    Ketepatan dalam pengklasifikasian objek sangat penting, metode klasifikasi

    yang baik adalah metode yang menghasilkan kesalahan yang kecil (Johnson. R.

    A., 2007). Ada beberapa metode pengklasifikasian salah satunya adalah Naive

    bayes. Keuntungan penggunaan Naive Bayes adalah bahwa metode ini hanya

    membutuhkan jumlah data pelatihan (Training Data) yang kecil untuk menentukan

    estimasi paremeter yang diperlukan dalam proses pengklasifikasian. Naive Bayes

    sering bekerja jauh lebih baik dalam kebanyakan situasi dunia nyata yang kompleks

    dari pada yang diharapkan (Pattekari, Shadab Adam, & Asma Parveen, 2012).

    Penelitian ini akan menggunakan metode Naive bayes dengan data DAPODIK

    SMA tahun 2018 di Pulau Sumatera. Data Pokok Pendidikan (DAPODIK) adalah

    sistem pendataan skala nasional yang terpadu, dan merupakan sumber data

    utama pendidikan nasional, yang merupakan bagian dari Program perancanaan

    pendidikan nasional dalam mewujudkan insan Indonesia yang Cerdas dan

    Kompetitif (KBBI).

    Adapun penilitian sebelumnya terkait dengan akreditasi yang dilakukan oleh

    Octaviani, P. A., Wilandari, Y., & Ispriyanti, D. (2014) dalam jurnal nya yang

    berjudul “Penerapan Metode Klasifikasi Support Vector Machine (SVM) pada

    Data Akreditasi Sekolah Dasar (SD) di Kabupaten Magelang” mendapat akurasi

    93.90%. Melihat hal tersebut peneliti ingin mencoba menggunakan metode naive

    bayes dengan data DAPODIK SMA tahun 2018 di Pulau Sumatera karena

    penelitian-penelitian yang menggunakan metode naive bayes mendapat akurasi

    yang baik.

    Berikut ini adalah beberapa judul serta akurasi penelitian klasifikasi yang

    menggunakan metode naive bayes. Yang pertama adalah penelitian yang dilakukan

    Kusumadewi, S. (2009) dengan judul penelitian Klasifikasi Status Gizi

    Menggunakan Naive Bayesian Classification dan menghasilkan akurasi 93,2% ,

    penelitian yang kedua dilakukan oleh Ting, S. L., Ip, W. H., & Tsang, A. H. (2011)

    dengan judul penelitian Is Naïve Bayes a Good Classifier for Document

    Classification mendapatkan akurasi sebesar 97% , dan penelitian terakhir yang

    dilakukan oleh Widiastuti, N. A., Santosa, S., & Supriyanto, C. (2014) dengan judul

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

    https://id.wikipedia.org/w/index.php?title=Sistem_pendataan&action=edit&redlink=1https://id.wikipedia.org/wiki/Nasionalhttps://id.wikipedia.org/w/index.php?title=Pendidikan_nasional&action=edit&redlink=1https://id.wikipedia.org/wiki/Indonesia

  • 3

    Algoritme Klasifikasi data mining naïve bayes berbasis Particle Swarm

    Optimization untuk deteksi penyakit jantung menghasilkan akurasi 82,14%.

    1.2 Rumusan Masalah

    1. Bagaimana metode naive bayes mampu mengkasifikasikan akreditasi SMA

    di Pulau Sumatera dengan baik?

    2. Berapa besar akurasi yang didapat dalam klasifikasi akreditasi SMA di

    pulau Sumatera menggunakan metode naive bayes?

    1.3 Tujuan

    1. Mengetahui hasil klasifikasi akreditasi SMA di Pulau Sumatera

    menggunakan algoritme naive bayes.

    2. Mengetahui besar akurasi dari sistem yang dibangun dalam

    pengklasifikasian akreditasi.

    1.4 Manfaat

    Dengan adanya tujuan dari penelitian diatas maka diharapkan dapat bermanfaat

    bagi semua pihak. Manfaat penelitian ini yaitu:

    1. Membantu BAN maupun orang yang berkepentingan dalam dibidang

    akreditasi dalam mengetahui sistem pengkasifikasian Akreditasi sekolah

    dengan menggunakan algoritme Naive Bayes

    2. Menambah pengalaman dan pengetahuan mengenai klasifikasi akreditasi

    dari data DAPODIK menggunakan metode naive bayes

    3. Hasil dari penelitian ini dapat dijadikan bahan rujuan dan referensi bagi

    semua ilmu yang berhubungan dan melakukan kajian menggunakan metode

    naive bayes.

    1.5 Batasan Masalah

    Terdapat beberapa batasan masalah yang dijadikan dasar dalam pengerjaannya:

    1. Algoritme yang digunakan dalam penelitian adalah naive bayes.

    2. Data yang digunakan dalam penelitian ini adalah data DAPODIK SMA

    tahun 2018 di pulau Sumatera meliputi 10 provinsi yaitu: (1) Provinsi Aceh,

    (2) Provinsi Bangka Belitung, (3) Provinsi Bengkulu, (4) Provinsi Jambi,

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 4

    (5) Provinsi Kepulauan Riau, (6) Provinsi Lampung, (7) Provinsi Riau, (8)

    Provinsi Sumatera Barat, (9) Provinsi Sumatera Selatan, (10) Provinsi

    Sumatera Utara.

    1.6 Metodologi Penelitian

    Penelitian ini menggunakan beberapa tahap sebagai berikut:

    1. Studi Pustaka

    Pada tahap ini, peneliti mempelajari teori-teori yang berkaitan

    dengan Data Mining, Proses penilaian akreditasi SMA, Undang-undang

    yang berkaitan dan algoritme Naïve Bayes melalui jurnal, buku, artikel, dan

    web dari Badan akreditasi nasional (BAN).

    2. Pengumpulan data

    Data yang diperoleh mempunyai beberapa atribut dan record. Data

    tersebut kemudian akan diintegrasikan dan dijadikan sebagai data set yang

    nantinya akan diproses lebih lanjut menggunakan metode naive bayes.

    3. Pengolahan awal data

    Pada tahap ini melakukan preprocessing, dimana data akan melalui

    tahap data selection, data tranformation, dan data cleaning. Setelah data

    melewati tahap preprocessing data tersebut dianggap siap pakai.

    4. Pengujian model

    Model yang akan diuji pada tahap ini adalah dengan menggunakan

    algoritme Naïve Bayes.

    5. Evaluasi dan validasi hasil

    Evaluasi pada model dilakukan pada tahap ini dimana untuk

    mengetahui tingkat akurasi dari data, untuk mengetahui akurasi pada

    penelitian ini menggunakan confusion matrix.

    1.7 Sistematika Penulisan

    Untuk memberikan gambaran dan kerangka yang jelas pada tiap bab dalam

    penelitian, maka diperlukan sistematika penulisan. Berikut gambaran

    sistematika penulisan masing-masing bab:

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 5

    BAB I PENDAHULUAN

    Bab ini berisi tentang latar belakang, rumusan masalah, tujuan penelitian,

    manfaat penelitian, batasan masalah dan sistematika penulisan.

    BAB II LANDASAN TEORI

    Bab ini menjelaskan tentang landasan teori yang berhubungan dengan

    penelitian yang akan dilakukan untuk memecahkan masalah yang diteliti.

    BAB III METODE PENELITIAN

    Bab ini berisi tentang Gambaran umum, tahap-tahap peneliian, data,

    perhitungan naive bayes, variasi percobaaan, peralatan penelitian, dan desain

    user interface.

    BAB IV HASIL DAN ANALISI

    Bab ini berisi tentang hasil dari setiap percobaan-percobaan yang dilakukan

    dalam penelitian seperti percobaan yang dilakukan mulai dari data

    preprocessing, klasifikasi, klasifikasi optimal, outlier, dan uji data

    BAB V KESIMPULAN DAN SARAN

    Bab ini berisi tentang Kesimpulan dan saran dari penelitian yang telah

    dilakukan.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 6

    BAB II

    LANDASAN TEORI

    Bab ini berisi tentang teori teori yang berhubungan dengan penulisan tugas

    akhir, seperti Standar nasional pendidikan, Akreditasi, Data mining,

    Pengelompokan data mining, Superviced and Unsuperviced learning, Naive bayes,

    Cross validation, Akurasi dengan Confusion matrix

    2.1 Standar Nasional Pendidikan

    Standar Nasional Pendidikan adalah kriteria minimal tentang sistem pendidikan

    di seluruh wilayah hukum Negara Kesatuan Republik Indonesia. Pemerintah ikut

    serta dalam proses peningkatan kualitas pendidikan yang ada di Indonesia dengan

    menujuk Badan Akreditasi Nasional Sekolah/Madrasah (BAN-S/M) sebagai tim

    penilai kelayakan suatu sekolah dengan peraturan Mendiknas Nomor 29 Tahun

    2005 yang hasilnya diwujudkan dalam bentuk pengakuan peringkat kelayakan.

    Dengan ada nya standar nasional pendidikan dapat menjadi patokan ataupun

    landasan dalam suatu penilaian kelayakan suatu sekolah untuk menciptatakan

    kualitas pendidikan yang baik dan berkualitas. Adanya standar nasional pendidikan

    ini dapat menjadi menjadi motivasi juga patokan bagi sekolah-sekolah untuk

    meningkatkan kualitas masing-masing agar sesuai dengan standar nasional

    pendidikan yang ada di Indonesia. Hasil dari penilaian tersebut disebut akreditasi.

    2.1.1 Akreditasi

    Akreditasi Menurut Kamus Besar Bahasa Indonesia adalah pengakuan

    terhadap lembaga pendidikan yang diberikan oleh badan yang berwenang

    setelah dinilai bahwa lembaga itu memenuhi syarat kebakuan atau kriteria

    tertentu. Dalam Peraturan Pemerintah(PP) No.19 tahun 2005 disebutkan

    bahwa penilaian dilakukan berdasar 8 komponen standar nasional

    pendidikan meliputi: (1) Standar isi, (2) Standar proses, (3) Standar

    kopetensi lulusan, (4) Standar pendidik dan tenaga pendidikan, (5) Standar

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 7

    sarana dan prasarana, (6) Standar pengelolaan, (7) Standar pembiayaan, dan

    (8) Standar penilaian pendidikan.

    Menurut UU No 29 Tahun 2005 Pelaksanaan akreditasi

    sekolah/madrasah dilakukan setiap 5 tahun sekali tetapi dapat juga

    dilakukan kurang dari 5 tahun apabila sekolah/madrasah yang bersangkutan

    mengajukan permohonan untuk akreditasi ulang.

    Data yang akan digunakan tentu harus melalui tahap proses dimana pada

    tahap proses ini kita melihat lebih jauh masing masing variable atau atribut

    yang akan digunakan. Proses tersebut disebut data mining.

    2.2 Data Mining

    2.2.1 Pengertian Data Mining

    Data Mining merupakan proses pengekstraksian informasi dari

    sekumpulan data yang sangat besar melalui penggunaan algoritme dan

    teknik penarikan dalam bidang statistik, pembelajaran mesin dan sistem

    manajemen basis data (Taruna R., 2013). Data Mining merupakan proses

    ataupun kegiatan untuk mengumpulkan data yang berukuran besar

    kemudian mengekstraksi data tersebut menjadi informasi -informasi yang

    nantinya dapat digunakan (Saleh, 2015).

    Gambar 2. 1 Knowledge Discovery Database (KDD) (Han & Kamber, 2006)

    Data mining mengacu pada mining knowledge dari data dalam

    jumlah besar (Han & Kamber, 2006). Secara umum data mining

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 8

    dikenal dengan proses Knowledge Discovery from Data (KDD).

    Proses KDD sebagai berikut :

    1. Pembersihan data (Data Cleaning).

    Proses pembersihan data atau data cleaning dilakukan untuk

    menghilangkan noise dan data yang tidak konsisten.

    2. Integrasi data (Data Integration).

    Proses data integrasi adalah proses menggabungkan data dari

    sumber data yang berbeda.

    3. Seleksi data ( Data Selection).

    Seleksi data atau data selection adalah proses memilih data

    atau atribut yang relevan untuk atribut ini. Pada tahap ini

    dilakukan analisis korelasi atribut data. Atribut – atribut data

    tersebut dicek apakah relevan untuk dilakukan penambangan

    data.

    4. Transformasi data (Data Transformation).

    Transformasi atau data transformation proses

    menggabungkan data ke dalam bank yang sesuai untuk

    ditambang.

    5. Penambangan data (Data Mining).

    Langkah ini adalah langkah paling penting yaitu melakukan

    pengaplikasian metode yang tepat untuk pola data.

    6. Evaluasi pola (Pattern Evaluation).

    Pada langkah ini dilakukan identifikasi pola dalam bentuk

    pengetahuan berdasarkan beberapa pengukuran yang penting.

    7. Presentasi pengetahuan (Knowledge Presentation).

    Pada langkah ini dilakukan proses penyajian pengetahuan

    dari hasil penambangan data. hasil klasifikasi data nasabah akan

    ditampilkan ke dalam bentuk yang mudah dipahami

    user/pengguna.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 9

    2.2.2 Pengelompokan Data Mining

    Penambangan data dibagi menjadi beberapa kelompok berdasarkan

    tugas yang dapat dilakukan, yaitu (Kusrini & Luthfi, E.T, 2019):

    1. Deskripsi

    Tugas deskripsi pada penambangan data adalah

    menggambarkan pola dan keenderungan sering memberikan

    kemungkinan penjelasan untuk suatu pola atau kecenderungan.

    2. Estimasi

    Estimasi hampir sama dengan klasifikasi, namun pada

    variable target, estimasi lebih kearah numerik dari pada kearah

    kategori. Peninjauan estimasi nilai dari variable target dibuat

    berdasarkan nilai prediksi. Sebagai contoh, estimasi nilai indeks

    prestasi kumulatif mahasiswa program pascasarjana dengan melihat

    nilai indeks prestasi mahasiswa tersebut pada saat mengikuti

    program sarjana.

    3. Prediksi

    Prediksi hampir sama dengan klasifikasi dan estimasi.

    Namun dalam prediksi niali dari hasil akan merujuk ke masa

    mendatang. Contoh prediksi dalam bisnis dan penelitian adalah

    prediksi harga beras dalam 6 bulan yang akan datang.

    4. Klasifikasi

    Klasifikasi adalah proses penemuan model atau fungsi yang

    menjelaskan atau membedakan konsep atau kelas data, dengan

    tujuan untuk dapat memperkirakan kelas dari suatu objek yang

    labelnya tidak diketahui. Dalam klasifikasi, terdapat target variable

    kategori. Sebagai contoh, penggolongan pendapatan dapat

    dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan

    sedang, dan pendapatan rendah.

    5. Pengklusteran

    Pengklusteran merupakan pengelompokan record,

    pengamatan, atau memprihatinkan dan membentuk kelas objek –

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 10

    objek yang memiliki kemiripan. Contoh pengklusteran dalam dunia

    bisnis atau penelitian adalah mendapatkan kelompok – kelompok

    konsumen untuk target pemasaran dari suatu produk sebuah

    perusahaan yang tidak memiliki dana pemasaran yang besar.

    6. Asosiasi

    Tugas asosiasi dalam penambangan data adalah menemukan

    atribut yang muncul satu waktu. Dalam dunia bisnis lebih umum

    disebut analisis keranjang belanja. Contoh asosiasi dalam dunia

    bisnis atau penelitian adalah menemukan barang dalam supermarket

    yang dibeli secara bersamaan dan barang yang tidak pernah dibeli

    secara samaan.

    2.2.3 Supervised and Unsupervised Learning

    2.2.3.1 Supervised learning

    Supervised learning adalah sebuah pendekatan dimana

    sudah terdapat data yang dilatih, dan terdapat variable yang

    ditargetkan sehingga tujuan dari pendekatan ini adalah

    mengkelompokan suatu data ke data yang sudah ada. Algoritme

    supervised learning:

    1) K-Nearest Neighbor(KNN)

    Algoritme K-Nearest neighbor(KNN) adalah sebuah metode

    untuk melakukan klasifikasi terhadap objek berdasar data

    pembelajaran yang jaraknya paling dekat dengan objek tersebut

    (Liantoni, 2015)

    2) Decision tree

    Decision tree atau pohon keputusan adalah pohon yang

    digunakan sebagai prosedur penalaran untuk mendapat jawaban

    dari dari masalah yang dimasukkan(Prasetyo,2012).

    3) Naive Bayes

    Metode naive bayes bekerja secara vitur independent yang

    artinya sebuah fitur dalam sebuah data tidak berkaitan dengan

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 11

    ada atau tidaknya fitur yang lain dalam data yang sama(Prasetyo,

    2012).

    4) Support Vector Machine (SVM)

    Metode ini berakar dari teori pembelajaran statistik dan

    menggunakan teknik karnel yang harus memetakan data asli dari

    dimensi asal menjadi dimensi lain yang relative tinggi(Prasetyo,

    2012).

    5) Jaringan saraf Tiruan(JST)

    Jaringan Syaraf Tiruan (JST) merupakan suatu sistem

    pemrosesan informasi yang mempunyai karakteristik

    menyerupai jaringan syaraf biologi (Siang, 2009).

    2.2.3.2 Unsupervised learning

    Unsupervised learning merupakan suatu pendekatan dimana

    tidak terdapat data latih sehingga mengharuskan kita

    mengelompokkan data yang ada menjadi 2 kategori, tiga kategori

    dan seterusnya. Algoritme Unsupervised learning:

    1) Hierarchical clustering

    Merupakan metode pengelompokkan berbasis hierarki

    dengan pendekatan bottom up, yaitu proses pengelompokkan

    dimulai dari masing-masing data sebagai satu buah cluster,

    kemudian secara rekursif mencari cluster terdekat sebagai pasangan

    untuk bergabung sebagai satu cluster yang lebih besar (Prasetyo,

    2013)

    2) K-Means

    Algortima K-Means merupakan algoritme pengelompokan

    iteratif yang melakukan partisi set data ke dalam sejumlah K cluster

    yang sudah ditetapkan di awal. Algortima K-Means sederhana untuk

    diimplementasikan dan dijalankan, relatif cepat, mudah beradaptasi,

    umum penggunaannya dalam praktek (Wulan dan Kumar, 2009).

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 12

    3) Fuzzy C-Means

    Fuzzy C-Means adalah suatu teknik peng-cluster-an yang

    mana keberadaannya tiap-tiap titik data dalam suatu cluster

    ditentukan oleh derajat keanggotaan (Bezdek, Jim,1981).

    2.3 Naive bayes

    Algoritma Naive Bayes adalah pengelompokan probabilistik sederhana yang

    menghitung sekumpulan probabilitas dengan menghitung frekuensi dan kombinasi

    nilai-nilai dalam suatu kumpulan data yang diberikan. Algoritme menggunakan

    teorema Bayes mengasumsikan semua atribut bersifat independen (Patil, Tina R &

    S. S. Sherekar, 2013).

    2.3.1 Persamaan Metode Naive Bayes

    Persamaan dari teorema naive bayes adalah:

    𝑃(H|X) =𝑃(𝑋|𝐻). 𝑃(𝐻)

    𝑃(𝑋) (2.1)

    Dimana:

    X :Data dengan class yang belum diketahui.

    H :Hipotesis data merupakan suatu class spesifik.

    P(H|X) :Probabilitas hipotesis H berdasar kondisi X (Posteriori

    Probabilitas).

    P(H) :Probabilitas hipotesis H (prior probabilitas).

    P(X|H) :Probabilitas X berdaasarkan kondisi pada hipotesis H.

    P(X) :Probabilitas X.

    Untuk menjelaskan metode Naive Bayes, perlu diketahui bahwa

    proses klasifikasi memerlukan sejumlah petunjuk untuk menentukan kelas

    apa yang cocok bagi sampel yang dianalisis tersebut. Karena itu, metode

    Naive Bayes di atas disesuaikan sebagai berikut:

    𝑃(𝐶|𝐹1 … 𝐹𝑛) =𝑃(𝐶)𝑃(𝐹1 … 𝐹𝑛|𝐶)

    𝑃(𝐹1 … 𝐹𝑛) (2.2)

    Di mana Variabel C merepresentasikan kelas, sementara variabel F1

    ... Fn merepresentasikan karakteristik petunjuk yang dibutuhkan untuk

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 13

    melakukan klasifikasi. Maka rumus tersebut menjelaskan bahwa peluang

    masuknya sampel karakteristik tertentu dalam kelas C (Posterior) adalah

    peluang munculnya kelas C (sebelum masuknya sampel tersebut, seringkali

    disebut prior), dikali dengan peluang kemunculan karakteristik-

    karakteristik sampel pada kelas C (disebut juga likelihood), dibagi dengan

    peluang kemunculan karakteristik-karakteristik sampel secara global

    (disebut juga evidence). Atau dengan kata lain dapat ditulis dengan

    sederhana seperti rumus dibawah ini:

    𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟𝑦 =𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 𝑥 𝑝𝑟𝑖𝑜𝑟

    𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑒 (2.3)

    Evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai dari

    posterior tersebut nantinya akan dibandingkan dengan nilai-nilai posterior

    kelas lainnya untuk menentukan ke kelas apa suatu sampel akan

    diklasifikasikan.

    Untuk klasifikasi dengan data kontinyu digunakan rumus densitas

    gauss:

    P(𝑋𝑖 = 𝑥𝑖|𝑌 = 𝑌𝑗) =1

    √2𝜋𝜎𝑒

    −(𝑥𝑖−𝜇)2(𝜎)2 (2.4)

    Dimana:

    P = Peluang

    Xi = Atribut ke-i

    xi = Nilai atribut ke-i

    Y = Kelas yang dicari

    µ = mean, menyatakan rata-rata dari seluruh atribut

    σ = Standar Deviasi

    Menghitung rata-rata digunakan rumus:

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 14

    𝑛𝑖𝑙𝑎𝑖 𝑟𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 =𝑗𝑢𝑚𝑙𝑎ℎ 𝑛𝑖𝑙𝑎𝑖

    𝑏𝑎𝑛𝑦𝑎𝑘 𝑑𝑎𝑡𝑎 (2.5)

    Untuk menghitung standar deviasi gunakan rumus dibawah:

    𝑆 = √∑𝑖=1

    𝑛 (𝑥𝑖 − 𝑥−)2

    𝑛 − 1 (2.6)

    Dimana:

    S = Standar deviasi

    xi = Nilai x ke-i

    x- = Rata-rata

    n = Ukuran sampel

    2.4 Cross validation

    Pada pendekatan ini, setiap data digunakan dalam jumlah yang sama untuk

    pelatihan dan tepat satu kali untuk pengujian. Bentuk umum pendekatan ini disebut

    dengan k-fold cross–validation, yang memecah set data menjadi k bagian set data

    dengan ukuran yang sama. Setiap kali berjalan, satu pecahan berperan sebagai data

    set data latih sedangkan pecahan lainnya menjadi set data latih. Prosedur tersebut

    dilakukan sebanyak k kali sehingga setiap data kesempatan menjadi data uji tepat

    satu kali dan menjadi data latih sebanyak k-1 kali. Total error didapatkan dengan

    menjumlahkan semua error yang didapatkan dari k kali proses (Prasetyo, 2014)

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 15

    Gambar 2. 2 3-Fold Validation

    2.5 Akurasi dengan Confusion Matix

    Data pelatihan dan pengujian merupakan data yang berbeda sehingga klasifikasi

    dapat diuji dengan benar. Nilai akurasi berdasarkan hasil klasifikasi dihitung dari

    jumlah data yang dikenali sesuai dengan target kelasnya. Perhitungan akurasi pada

    klasifikasi data dihitung menggunakan tabel yang bernama Confusion Matrix (Tan,

    Steinbach, dan Kumar, 2006)

    Tabel 2. 1 Confusion Matrix 2 Kelas (Tan, Steinbach, & Kumar, 2006)

    Hasil Pengujian

    1 0

    Target

    kelas

    1 F11 F10

    0 F01 F00

    Fij adalah jumlah data yang dikenali sebagai kelas ke-j dengan target kelas ke-i.

    Persamaan untuk menghitung akurasi klasifikasi

    akurasi =𝐹11 + 𝐹00

    𝐹11 + 𝐹10 + 𝐹01 + 𝐹00∗ 100 (2.7)

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 16

    BAB III

    METODE PENELITIAN

    Bagian ini menguraikan mengenai rencana langkah-langkah yang akan

    dilakukan dalam penelitian. Termasuk bagaimana cara mendapatkan data, cara

    mengolah data, cara membuat alat uji jika diperlukan, cara analisis data, cara

    pengujian, dan di bagian akhir diberikan desain alat uji serta user interface dari alat

    uji yang akan dibangun.

    3.1 Gambaran Umum

    Gambar 3. 1 Diagram Blok Gambaran Umum Klasifikasi Akreditasi

    Berdasarkan gambar 3.1 adalah tahap-tahap bagaimana data diproses. Adapun

    tahapnya dimana data masuk ke dalam tahap preprocessing yang dimana

    melakukan seleksi atribut, transformasi data, dan cleaning data. Setelah melewati

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 17

    tahap preprocessing data dianggap siap pakai dimana data akan masuk ke tahap

    pembentukan model.

    Pada tahap pembentukan model, data dipisah menjadi 2 bagian yaitu data

    training dan data testing dengan menggunakan 3-fold validation. Setelah itu pada

    setiap atribut dihitung rata-rata (mean) dan standar deviasinya, lalu hitung

    menggunakan perhitungan naive bayes jika sudah terbentuk model uji data testing

    terhadap model yang didapat, setelah dihitung akan mendapatkan hasil. Hasil yang

    didapat yang telah diproses menggunakan naive bayes tadi di bandingkan terhadap

    label testing, setelah dibandingkan akan mendapat akurasi menggunakan confusion

    matrix. Setelah itu kita melakukan uji data tunggal dimana kita memasukkan data

    baru sebagai data test. Data test yang dimasukkan diuji terhadap model dan akan

    mendapat hasil klasifikasi dari data yang diuji.

    3.1.1 Algoritma Naive bayes

    Untuk algoritme naive bayes yang dibangun pada sistem seperti

    tapat-tahap dibawah ini:

    1. Tahap pertama sistem yang dibangun membaca data masukkan file

    bertipe .xlsx atau .xls

    2. Data tersebut di dilakukan preprocessing, yaitu seleksi data,

    transformasi data dan cleaning data.

    3. Mendapat hasil preprocessing, Data yang sudah dipreprocessing

    dianggap menjadi data siap pakai.

    4. Lakukan k-fold cross validation terhadap data siap pakai.

    5. Tahap permodelan, pada tahap ini perhitungan menggunakan naive

    bayes dilakukan, yaitu menghitung probabilitas-probabilitas pada setiap

    atribut dan membandingkan probabilitas

    6. Hasil probabilitas tertinggi diambil dan dijadikan kelas dari data yang

    diuji.

    7. Menguji akurasi dengan confusion matrix , Label testing dibandingkan

    dengan label yang didapat setelah dilakukan nya perhitungan naive

    bayes dan dimasukkan ke hasilnya dimasukkan ke dalam matrix

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 18

    8. Dilakukan perhitungan untuk menggunakan rumus confusion matrix

    hingga diketahui besar akurasi,

    Gambar 3. 2 Diagram Flowchart Uji sistem

    Untuk uji data tunggal dilakukan dengan langkah-langkah seperti dibawah

    1. Siapkan uji data tunggal

    2. Lakukan pengujian data tunggal terhadap modeling, modeling yang

    dimaksud disini adalah modeling yang didapat pada Gambar 3.2

    Diagram Flowchart Uji Sistem

    3. Menghitung probabilitas-probabilitas dari data tunggal terhadap

    masinng-masing kelas, probabilitas tertinggi akan dijadikan kelas (hasil

    klasifikasi) dari data tunggal yang diuji.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 19

    Gambar 3. 3 flowchart uji data tunggal

    3.2 Tahap-tahap Penelitian

    3.2.1 Pengumpulan Data

    Data yang digunakan pada penelitian ini adalah data DAPODIK

    (Data pokok pendidikan) tahun 2018 SMA di Pulau Sumatera.

    3.2.2 Pengolahan Awal Data

    Pada tahap ini, data akan diolah terlebih dahulu sebelum data

    tersebut siap dipakai. Tahap preprocessing nya adalah seleksi data. Tahap-

    tahap nya akan seperti gambar dibawah

    Gambar 3. 4 Tahap Preprocessing

    Setelah tahap tersebut data dianggap siap pakai dan di proses ke tahap

    berikutnya pembuatan model naive bayes.

    3.2.3 Pembuatan model

    Pada tahap ini, proses pembuatan modelnya akan dijelaskan dalam

    tahap-tahap seperti dibawah:

    1. Sebelum ke tahap pembuatan model ada proses yang dinamakan cross-

    validation dimana ini membagi data menjadi 2 yaitu data training dan

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 20

    data testing. Menggunakan 3-fold cross validation seperti pada Gambar

    2.2 3-Fold Validation.

    2. Setelah itu akan masuk ke dalam perhitungan naive bayes, dikarenakan

    data nya kontinyu hitung rata-rata (mean) dan standar deviasi setiap

    atribut menggunakan rumus persamaan 2.5 dan persamaan 2.6.

    3. Hitung probabilitas setiap atribut menggunakan persamaan 2.4

    4. Cari likelihood setiap kelas dengan cara mengkalikan hasil yang didapat

    pada langkah ke-3 pada setiap kelas.

    5. Bandingkan hasil setiap kelas, probabilitas tertinggi itu adalah kelas dari

    data testing yang diuji.

    Tahap-tahap nya seperti gambar dibawah:

    Gambar 3. 5 Tahap Pembuatan Model

    3.2.4 Evaluasi dan Validasi Hasil

    Pada tahap ini untuk mengetahui akurasi dari data yang diuji

    menggunakan confusion matix. Tahap-tahap confusion matrix:

    1. Label (kelas) pada data testing di bandingkan dengan label (kelas) yang

    didapat setelah dilakukan perhitungan dengan metode naive bayes

    2. Hasil perbandingannya di masukkan ke dalam matrix, pada kasus

    pengklasifikasian ini karna label (kelas) ada 4 yaitu A, ,B ,C, dan TT

    maka confusion matrix nya adalah 4*4

    3. Setelah itu hitung akurasi dengan menggunakan persamaan 2.7

    4. Hasil akurasi akan diketahui

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 21

    Gambar 3. 6 Alur confusion matrix

    3.3 Data

    Data yang digunakan dalam penelitian ini adalah data DAPODIK (data

    pokok pendidikan) SMA tahun 2018 di Pulau Sumatera yang diberasal dari

    Kemdikbud dengan jumlah 1511 data.

    Untuk contoh data menggunakan 8 atribut sesuai dengan Peraturan

    Pemerintah(PP) No.19 tahun 2005 dan 1 atribut kelas dimana disebutkan bahwa

    mengenai komponen-komponen yang dipakai dalam penilaian Akreditasi

    dilakukan berdasar 8 komponen standar nasional pendidikan meliputi:

    1. Standar isi

    2. Standar proses

    3. Standar kopetensi lulusan

    4. Standar pendidik dan tenaga pendidikan

    5. Standar sarana dan prasarana

    6. Standar pengelolaan

    7. Standar pembiayaan

    8. Standar penilaian pendidikan.

    Berikut merupakan contoh data dan atribut yang akan digunakan pada penelitian

    ini:

    Tabel 3. 1 Contoh data

    No Standar

    Sarana

    Prasarana

    Standar

    Isi

    Standar

    Penilaian

    Standar

    Pengelolaan

    Standar

    Kelulusan

    Standar

    Tenaga

    Pendidik

    Standar

    Pembiayaan

    Standar

    Proses

    Akre

    ditasi

    1 56 50 78 60 63 68 82 64 C

    2 86 83 75 84 82 70 93 81 B

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 22

    3 79 81 80 88 73 88 85 83 B

    4 91 92 96 94 91 91 91 94 A

    5 52 50 59 56 51 54 67 44 TT

    6 57 67 61 66 61 63 59 67 C

    7 90 92 86 91 84 88 93 89 A

    8 65 71 78 68 54 64 92 61 C

    9 74 88 86 79 76 78 82 86 B

    10 92 75 88 95 82 68 90 75 B

    11 7 15 30 23 17 28 30 25 TT

    12 56 58 63 60 57 58 57 58 C

    13 76 89 83 95 86 90 95 92 A

    14 98 99 95 98 97 99 92 100 A

    15 89 94 93 99 87 79 98 92 A

    16 39 44 34 38 39 29 45 53 TT

    17 80 99 96 88 97 96 96 92 A

    18 71 94 91 88 74 71 80 78 B

    19 59 78 74 73 74 69 86 72 B

    20 40 68 68 58 56 50 85 72 C

    21 58 60 63 71 62 71 63 67 C

    Berikut adalah penjelasan masing-masing atribut yang digunakan dalam penelitian

    ini:

    Tabel 3. 2 Penjelasan atribut (PP 19 tahun 2005)

    No Atribut Keterangan

    1 Standar isi Ruang lingkup materi dan tingkat kompetensi yang

    dituangkan dalam kriteria tentang kompetensi tamatan,

    kompetensi bahan kajian, kompetensi mata pelajaran,

    dan silabus pembelajaran yang harus dipenuhi oleh

    peserta didik pada jenjang dan jenis pendidikan

    tertentu.

    2 Standar proses Standar nasional pendidikan yang berkaitan dengan

    pelaksanaan pembelajaran pada satu satuan pendidikan

    untuk mencapai standar kompetensi lulusan.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 23

    3 Standar

    kopetensi

    lulusan

    Kualifikasi kemampuan lulusan yang mencakup sikap,

    pengetahuan, dan keterampilan

    4 Standar

    pendidik dan

    tenaga

    pendidikan

    Kriteria pendidikan prajabatan dan kelayakan fisik

    maupun mental, serta pendidikan dalam jabatan.

    5 Standar sarana

    dan prasarana

    Standar nasional pendidikan yang berkaitan dengan

    kriteria minimal tentang ruang belajar, tempat

    berolahraga, tempat beribadah, perpustakaan,

    laboratorium, bengkel kerja, tempat bermain, tempat

    berkreasi dan berekreasi, serta sumber belajar lain,

    yang diperlukan untuk menunjang proses

    pembelajaran, termasuk penggunaan teknologi

    informasi dan komunikasi.

    6 Standar

    pengelolaan

    Standar nasional pendidikan yang berkaitan dengan

    perencanaan, pelaksanaan, dan pengawasan kegiatan

    pendidikan pada tingkat satuan pendidikan,

    kabupaten/kota, provinsi, atau nasional agar tercapai

    efisiensi dan efektivitas penyelenggaraan pendidikan.

    7 Standar

    pembiayaan

    Standar yang mengatur komponen dan besarnya biaya

    operasi satuan pendidikan yang berlaku selama satu

    tahun.

    8 Standar

    penilaian

    pendidikan

    Standar nasional pendidikan yang berkaitan dengan

    mekanisme, prosedur, dan instrumen penilaian hasil

    belajar peserta didik.

    9 Akeditasi Kegiatan penilaian kelayakan program dan/atau satuan

    pendidikan berdasarkan kriteria yang telah ditetapkan.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 24

    3.4 Perhitungan menggunakan naive bayes

    3.4.1 Preprocessing

    Tahap ini akan dilakukan Proses Preprocessing

    Atribut Selection

    Seleksi atribut melakukan dua tahapan, tahap yang pertama adalah

    melakukan penghapusan terlebih dahulu terhadap atribut-atribut yang

    dianggap tidak penting dan juga atribut-atribut yang tidak memiliki nilai

    pembanding. Maksud dari nilai pembanding dalam penelitian ini adalah

    dimana atribut dalam data harus mempunyai nilai yang berbeda. Contoh

    atribut(x) memiliki isian true/false, tahap ini mengharuskan dalam

    atribut(x) harus memiliki kedua nilai tidak boleh hanya memiliki salah

    satu nilai saja. Tahap yang kedua adalah melakukan perangkingan

    atribut berdasarkan information gain menggunakan Weka Tool 3.9

    Transformasi data

    Pada tahap ini melakukan tranformasi data, dimana data ber-type

    string akan di ubah ke number agar dapat diproses pada mathlab. Atribut-

    atribut yang akan di transformasi sebagai berikut:

    Tabel 3. 3 ketentuan transformasi data

    Atribut Data asli Data transformasi

    Provinsi Nama-nama provinsi

    dipulau sumatera,

    terdiri dari 10 provinsi

    1 sampai 10

    Jenis sekolah Negeri/Swasta 1/0

    Akses internet True/False 1/0

    Sumber listrik True/False 1/0

    Akreditasi A/B/C/Tidak

    Terakreditasi

    1/2/3/4

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 25

    Cleaning data

    Pada tahap ini melakukan cleaning data, cleaning data ini bertujuan

    untuk menghapus data kosong(missing value).

    Normalisasi data

    Tahap ini melakukan normalisasi menggunakan normalissasi min-

    max dimana normalisasi ini akan dilakukan pada data yang memiliki

    rentang jauh. Maksud rentang jauh dalam penelitian ini adalah ketika

    data memiliki rentang yang perbedaan nya jauh dari data-data pada

    atribut lain seperti pada atribut daya listrik dan luas tanah. Pada daya

    listrik memiliki rentang 0 sampai 529.999 dan pada atribut luas tanah

    memiliki rentang 0 sampai 2.528.390.

    3.4.2 Modelling Naive Bayes

    Pada tahap ini kita akan melakukan perhitungan data dengan

    menggunakan metode naive bayes. Data yang akan kita gunakan adalah data

    pada tabel 3.1 Contoh data adapun perhitungannya melalui tahap-tahap

    berikut:

    1. Data terlebih dahulu dibagi menjadi 2 bagian yaitu data training dan

    data testing dimana pembagian data tersebut disebut cross validation

    dimana menggunakan 3-fold validation.

    2. Setelah itu hitung probabilitas dari masing-masing atribut menggunakan

    algoritme perhitungan naive bayes.

    3. Hitung confusion matrix

    Berikut ini adalah contoh perhitungan untuk mencari nilai

    probabilitas, data yang akan diuji terlebih dahulu kita bagi 2 dengan

    ketentuan data training adalah data 1-14 dan data testing adalah 15-21 pada

    tabel 3.1 Contoh data

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 26

    Tabel 3. 4 Data training

    No A1 A2 A3 A4 A5 A6 A7 A8 Kelas

    1 56 50 78 60 63 68 82 64 C

    2 86 83 75 84 82 70 93 81 B

    3 79 81 80 88 73 88 85 83 B

    4 91 92 96 94 91 91 91 94 A

    5 52 50 59 56 51 54 67 44 TT

    6 57 67 61 66 61 63 59 67 C

    7 90 92 86 91 84 88 93 89 A

    8 65 71 78 68 54 64 92 61 C

    9 74 88 86 79 76 78 82 86 B

    10 92 75 88 95 82 68 90 75 B

    11 7 15 30 23 17 28 30 25 TT

    12 56 58 63 60 57 58 57 58 C

    13 76 89 83 95 86 90 95 92 A

    14 98 99 95 98 97 99 92 100 A

    Keterangan:

    A1: Standar Sarana dan Prasarana

    A2: Standar Isi

    A3: Standar Penilaian Pendidikan

    A4: Standar Pengelolahan

    A5:Standar Kelulusan

    A6: Standar Pendidikan dan Tenaga Pendidikan

    A7: Standar Pembiayaan

    A8: Standar Proses

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 27

    Berikut ini penyelesaian contoh kasus menggunakan algoritme naive bayes.

    a. Menghitung rata-rata (mean) menggunakan persamaan 2.5 dan standar

    deviasi menggunakan persamaan 2.6 pada setiap atribut.

    Berikut ini merupakan hasil perhitungan rata-rata(mean) dan standar deviasi

    dari setiap atribut

    Tabel 3. 5 Hasil rata-rata (mean) dan Standar Deviasi A1

    A1 A B C TT

    Rata-rata 88,75 82,75 58,5 29,5

    Standar Deviasi 9,215024 7,889867 4,358899 31,81981

    Tabel 3. 6 Hasil rata-rata (mean) dan Standar Deviasi A2

    A2 A B C TT

    Rata-rata 93 81,75 61,5 32,5

    Standar Deviasi 4,242641 5,377422 9,398581 24,74874

    Tabel 3. 7 Hasil rata-rata (mean) dan Standar Deviasi A3

    A3 A B C TT

    Rata-rata 90 82,25 70 44,5

    Standar Deviasi 6,480741 5,909033 9,273618 20,5061

    Tabel 3. 8 Hasil rata-rata (mean) dan Standar Deviasi A4

    A4 A B C TT

    Rata-rata 94,5 86,5 63,5 39,5

    Standar Deviasi 2,886751 6,757712 4,123106 23,33452

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 28

    Tabel 3. 9 Hasil rata-rata (mean) dan Standar Deviasi A5

    A5 A B C TT

    Rata-rata 89,5 78,25 58,75 34

    Standar Deviasi 5,802298 4,5 4,031129 24,04163

    Tabel 3. 10 Hasil rata-rata (mean) dan Standar Deviasi A6

    A6 A B C TT

    Rata-rata 92 76 63,25 41

    Standar Deviasi 4,830459 9,092121 4,112988 18,38478

    Tabel 3. 11 Hasil rata-rata (mean) dan Standar Deviasi A7

    A7 A B C TT

    Rata-rata 92,75 87,5 72,5 48,5

    Standar Deviasi 1,707825 4,932883 17,25302 26,16295

    Tabel 3. 12 Hasil rata-rata (mean) dan Standar Deviasi A8

    A8 A B C TT

    Rata-rata 93,75 81,25 62,5 34,5

    Standar Deviasi 4,645787 4,645787 3,872983 13,43503

    b. Menghitung Probabilitas dari kelas(A9)

    Tabel 3. 13 Probabilitas untuk setiap kategori pada kelas

    Jumlah Kategori Akreditasi Probabilitas kategori Akreditasi

    A B C TT A B C TT

    Jumlah 4 4 4 2 4/14 4/14 4/14 2/14

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 29

    c. Melakukan perhitungan probabilitas terhadap data testing yang telah

    ditentukan yaitu pada data 15- 21

    Tabel 3. 14 Data testing

    No A1 A2 A3 A4 A5 A6 A7 A8 Kelas

    15 89 94 93 99 87 79 98 92 A

    16 39 44 34 38 39 29 45 53 TT

    17 80 99 96 88 97 96 96 92 A

    18 71 94 91 88 74 71 80 78 B

    19 59 78 74 73 74 69 86 72 B

    20 40 68 68 58 56 50 85 72 C

    21 58 60 63 71 62 71 63 67 C

    Perhitungan pada data testing no.15

    Untuk A1=89, maka hitung berdasarkan persamaan 2.4

    P(A1=89 | Akreditasi = A)

    =1

    √2𝜋(9,215)𝑒

    −(89−88,75)2

    2(9,215)2 = 0,043277

    P(A1=89 | Akreditasi = B)

    =1

    √2𝜋(7,890)𝑒

    −(89−82,75)2

    2(7,890)2 = 0,036947

    P(A1=89 | Akreditasi = C)

    =1

    √2𝜋(4,359)𝑒

    −(89−58,5)2

    2(4,359)2 = 0,0000000000021

    P(A1=89 | Akreditasi = TT)

    =1

    √2𝜋(31,820)𝑒

    −(89−29,5)2

    2(31,820)2 = 0,002182

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 30

    Untuk A2=94, maka hitung berdasarkan persamaan 2.4

    P(A2=94 | Akreditasi = A)

    =1

    √2𝜋(4,243)𝑒

    −(94−93)2

    2(4,243)2 = 0,091456

    P(A2=94 | Akreditasi = B)

    =1

    √2𝜋(5,377)𝑒

    −(94−81,75)2

    2(5,377)2 = 0,005539

    P(A2=94 | Akreditasi = C)

    =1

    √2𝜋(9,399)𝑒

    −(94−61,5)2

    2(9,399)2 = 0,000107

    P(A2=94 | Akreditasi = TT)

    =1

    √2𝜋(24,749)𝑒

    −(94−32,5)2

    2(24,749)2 = 0,000735

    Untuk A3=93, maka hitung berdasarkan persamaan 2.4

    P(A3=93 | Akreditasi = A)

    =1

    √2𝜋(6,481)𝑒

    −(93−90)2

    2(6,481)2 = 0,055304

    P(A3=93 | Akreditasi = B)

    =1

    √2𝜋(5,909)𝑒

    −(93−82,25)2

    2(5,909)2 = 0,012904

    P(A3=93 | Akreditasi = C)

    =1

    √2𝜋(9,274)𝑒

    −(93−70)2

    2(9,274)2 = 0,001986

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 31

    P(A3=93 | Akreditasi = TT)

    =1

    √2𝜋(20,506)𝑒

    −(93−44,5)2

    2(20,506)2 = 0,001187

    Untuk A4=99, maka hitung berdasarkan persamaan 2.4

    P(A4=99 | Akreditasi = A)

    =1

    √2𝜋(2,887)𝑒

    −(99−94,5)2

    2(2,887)2 = 0,041005

    P(A4=99 | Akreditasi = B)

    =1

    √2𝜋(6,758)𝑒

    −(99−86,5)2

    2(6,758)2 = 0,010669

    P(A4=99 | Akreditasi = C)

    =1

    √2𝜋(4,123)𝑒

    −(99−63,5)2

    2(4,123)2 = 0,000000000000000008

    P(A4=99 | Akreditasi = TT)

    =1

    √2𝜋(23,335)𝑒

    −(99−39,5)2

    2(23,335)2 = 0,000662

    Untuk A5=87, maka hitung berdasarkan persamaan 2.4

    P(A5=87 | Akreditasi = A)

    =1

    √2𝜋(5,802)𝑒

    −(87−89,5)2

    2(5,802)2 = 0,062661

    P(A5=87 | Akreditasi = B)

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 32

    =1

    √2𝜋(4,500)𝑒

    −(87−78,25)2

    2(4,500)2 = 0,013387

    P(A5=87 | Akreditasi = C)

    =1

    √2𝜋(4,031)𝑒

    −(87−58,75)2

    2(4,031)2 = 0,0000000000021

    P(A5=87 | Akreditasi = TT)

    =1

    √2𝜋(24,042)𝑒

    −(87−35,66667)2

    2(24,042)2 = 0,001461

    Untuk A6=79, maka hitung berdasarkan persamaan 2.4

    P(A6=79 | Akreditasi = A)

    =1

    √2𝜋(4,830)𝑒

    −(79−92)2

    2(4,830)2 = 0,002209

    P(A6=79| Akreditasi = B)

    =1

    √2𝜋(9,092)𝑒

    −(79−76)2

    2(9,092)2 = 0,041553

    P(A6=79 | Akreditasi = C)

    =1

    √2𝜋(4,113)𝑒

    −(79−63,25)2

    2(4,113)2 = 0,000063

    P(A6=79 | Akreditasi = TT)

    =1

    √2𝜋(18,385)𝑒

    −(79−41)2

    2(18,385)2 = 0,002563

    Untuk A7=98, maka hitung berdasarkan persamaan 2.4

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 33

    P(A7=98 | Akreditasi = A)

    =1

    √2𝜋(1,708)𝑒

    −(98−92,75)2

    2(1,708)2 = 0,002072

    P(A7=98| Akreditasi = B)

    =1

    √2𝜋(4,933)𝑒

    −(98−87,5)2

    2(4,933)2 = 0,008394

    P(A7=98 | Akreditasi = C)

    =1

    √2𝜋(17,253)𝑒

    −(98−72,5)2

    2(17,253)2 = 0,007757

    P(A7=98 | Akreditasi = TT)

    =1

    √2𝜋(26,163)𝑒

    −(98−48,5)2

    2(26,163)2 = 0,002546

    Untuk A8=92, maka hitung berdasarkan persamaan 2.4

    P(A7=92 | Akreditasi = A)

    =1

    √2𝜋(4,646)𝑒

    −(92−93,75)2

    2(4,646)2 = 0,079991

    P(A8=92| Akreditasi = B)

    =1

    √2𝜋(4,646)𝑒

    −(92−81,25)2

    2(4,646)2 = 0,005905

    P(A8=92 | Akreditasi = C)

    =1

    √2𝜋(3,873)𝑒

    −(92−62,5)2

    2(3,873)2 = 0,00000000000003

    P(A8=92 | Akreditasi = TT)

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 34

    =1

    √2𝜋(13,435)𝑒

    −(92−34,5)2

    2(13,435)2 = 0,000003

    Dibawah ini adalah hasil probabilitas yang didapat dari perhitungan diatas

    yang ditampilkan dalam bentuk tabel

    Tabel 3. 15 Probabilitas setiap atribut

    A B C TT

    A1 0,043277 0,036947 0,0000000000021 0,002182

    A2 0,091456 0,005539 0,000107 0,000735

    A3 0,055304 0,012904 0,001986 0,001187

    A4 0,041005 0,010669 0,000000000000000008 0,000662

    A5 0,062661 0,013387 0,0000000000021 0,001461

    A6 0,002209 0,041553 0,000063 0,002563

    A7 0,002072 0,008394 0,007757 0,002546

    A8 0,079991 0,005905 0,00000000000003 0,000003

    A9 0,285714 0,285714 0,285714 0,142857

    d. Menghitung likelihood, lakukan perhitungan likelihood dari probabilitas

    yang didapat. Nilai likelihood yang akan dihitung ada 4 yaitu likelihoot

    untuk kelas A, B. C, dan TT.

    Likelihood A

    LA = P(A1) * P(A2) * P(A3) * P(A4) * P(A5) * P(A6) * P(A7) * P(A8) * P(A9)

    = 0,043277 * 0,091456 * 0,055304 * 0,041005 * 0,062661 * 0,002209 *

    0,002072 * 0,079991 * 0,285714

    = 0,000000000000058830

    Likelihood B

    LB = P(A1) * P(A2) * P(A3) * P(A4) * P(A5) * P(A6) * P(A7) * P(A8) * P(A9)

    = 0,036947 * 0,005539 * 0,012904 * 0,010669 * 0,013387 * 0,041553 *

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 35

    0,008394 * 0,005905 * 0,285714

    = 0,00000000000000022

    Likelihood C

    LC = P(A1) * P(A2) * P(A3) * P(A4) * P(A5) * P(A6) * P(A7) * P(A8) * P(A9)

    = 0,0000000000021 * 0,000107 * 0,001986 * 0,000000000000000008 *

    0,0000000000021 * 0,000063 * 0,007757* 0,00000000000003 * 0,285714

    = 2,76132E-68

    Likelihood TT

    LTT = P(A1) * P(A2) * P(A3) * P(A4) * P(A5) * P(A6) * P(A7) * P(A8) * P(A9)

    = 0,002182 * 0,000735 * 0,001187 * 0,000662 * 0,001461 * 0,002563 *

    0,002546 * 0,000003* 0,142857

    = 0,0000000000000000000000000054

    Nilai probabilitas yang didapat dihitung dengan melakukan normalisasi

    terhadap likelihood tersebut sehingga jumlah nilai yang diperoleh =1

    PA =0,000000000000058830

    0,000000000000058830+0,00000000000000022 +2,76132𝐸−68+0,0000000000000000000000000054

    = 0,996241509

    PB =0,00000000000000022

    0,000000000000058830+0,00000000000000022 +2,76132𝐸−68+0,0000000000000000000000000054

    = 0,003758

    PC = 2,76132E−68

    0,000000000000058830+0,00000000000000022 +2,76132𝐸−68+0,0000000000000000000000000054

    = 4,67607E-55

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 36

    PTT=0,000000000000058830

    0,000000000000058830+0,00000000000000022 +2,76132𝐸−68+0,0000000000000000000000000054

    = 0,00000000000009097115

    Dari hasil tersebut terlihat bahwa nilai probabilitas tertinggi adalah pada

    status akreditasi A dengan nilai probabilitas 0,996241509. Sehingga dapat

    disimpulkan bahwa data testing nomor 15 diklasifikasikan ke dalam kelas A.

    Lakukan perhitungan yang sama pada langkah c untuk data 16-21. Hingga

    ditemukan masing-masing kelas nya. Berikut adalah hasil pengklasifikasian data

    testing

    Tabel 3. 16 Hasil Pengujian Data

    No A1 A2 A3 A4 A5 A6 A7 A8 Kelas

    Hasil

    pengklasifikasian

    menggunakan

    metode naive

    bayes

    15 89 94 93 99 87 79 98 92 A A

    16 39 44 34 38 39 29 45 53 TT TT

    17 80 99 96 88 97 96 96 92 A A

    18 71 94 91 88 74 71 80 78 B B

    19 59 78 74 73 74 69 86 72 B B

    20 40 68 68 58 56 50 85 72 C TT

    21 58 60 63 71 62 71 63 67 C C

    3.4.3 Uji Akurasi dengan Confusion Matrix

    Akurasi akan diuji menggunakan confusion matrix dimana, pada

    tabel 3.15 Hasil Pengujian Data kita lakukan perhitungan untuk mendapat

    akurasi. Kita menggunakan rumus pada persamaan 2.7

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 37

    Tabel 3. 17 Perhitungan Confusion Matrix

    A B C TT

    A 2 0 0 0

    B 0 2 0 0

    C 0 0 1 1

    TT 0 0 0 1

    𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =2 + 2 + 1 + 1

    7∗ 100 = 85,71

    Pada hasil yang didapat kita bisa lihat dengan banyak data 21 (training 14

    dan testing 7) didapat akurasi sebesar 85,71%.

    Karena kita menggunakan 3-fold cross validation kita harus

    menghitung terhadap 2 model lagi yaitu data testing berada dibagian tengah

    dan data testing berada di bagian atas. Dibawah ini adalah hasil akurasi yang

    didapat dalam setiap model menggunakan 3-fold cross validation.

    Tabel 3. 18 akurasi setiap model dari 3-fold cross validation

    Akurasi data testing

    berada dibawah

    Akurasi data testing

    berada ditengah

    Akurasi data testing

    berada diatas

    85,71% 100% 85,71

    Hitung rata-rata akurasi

    𝑟𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 𝑎𝑘𝑢𝑟𝑎𝑠𝑖 =85,71 + 100 + 85,71

    3= 90,43

    3.5 Variasi percobaan

    Pada penelitian ini variasi percobaan akan dilakukan sebanyak jumlah

    atribut, dimana nantinya hasil akurasi yang didapat pada setiap atribut akan

    dibandingkan. Untuk akurasi tertinggi akan dijadikan sebagai atribut untuk

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 38

    melakukan uji data tunggal. Setiap atribut yang akan diuji tentunya melewati

    preprocesing dan menggunakan 3-fold validation dimana nantinya data dibagi

    menjadi 3 bagian, 2 bagian akan dijadikan traning dan 1 bagian lainnya akan

    dijadikan testing.

    3.6 Peralatan Penelitian

    Dalam proses pembuatan dokumen dan penelitian Klasifikasi akreditasi

    SMA di pulau Sumatra menggunakan metode naive bayes ini tidak terlepas dari

    dukungan hardware dan software yang akan digunakan, berikut adalah hardware

    dan software yang akan digunakan:

    Hardware

    1. Laptop

    Merk : Lenovo

    Type : G40-70

    Processor : Intel(R) Core(TM) i3-4030U CPU

    @1.90GHz

    Ram : 6Gb

    OS : Windows 8.1 Pro

    Software

    1. Matlab2018a

    2. Microsoft Office (Versi: 2016)

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 39

    3.7 Desain User Interface

    Gambar 3. 7 Desain User Interface

    Ini adalah Desain User Interface yang akan dibuat, desain ini dibuat dengan

    tujuan memudah kan user dalam melakukan proses pengklasifikasian akreditasi

    baik dalam inputan dan melihat output. Pada Gambar 3.7 Desain User Interface

    terdapat 15 Area yang masing masing akan dijelaskan sebagai berikut:

    Area 1 : Tombol Pilih file yang berfungsi untuk melakukan pemilihan file

    data yang hendak diproses.

    Area 2 : Menampilkan data yang dipilih pada area 1.

    Area 3 : tempat inputan memasukkan jumlah atribut yang hendak di proses.

    Area 4 : Tombol preprocessing, melakukkan seleksi data,tranformasi data

    dan cleaning data, dan normalisasi .

    Area 5 : Tabel yang menampilkan hasil dari preprocessing.

    Area 6 : Tombol akurasi, berfungsi sebagai menghitung akurasi dari data.

    Area 7 : Sebuah tempat yang menampilkan hasil akurasi dari data yang

    diproses.

    Area 8 : Tabel menampilkan hasil confusion matrix, dimana pada sistem

    yang dibuat menggunakan 3-fold cross validation sehingga mempunyai 3

    matrix.

    Area 9 : Melakukan pemilihan file untuk uji data banyak

    Area 10 : Menampilkan Hasil data yang dipilih pada area 9.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 40

    Area 11 : Tombol klasifikasi, melakukan perhitungan menggunakan metode

    naive bayes terhadap data yang di upload pada area 9.

    Area 12 : Manampilkan hasil klasifikasi dari data uji banyak

    Area 13 : Tempat melakukan inputan uji data tunggal.

    Area 14 : Tombol klasifikasi, adalah tombol yang mencari kelas dari data

    yang diuji.

    Area 15: Sebuah tempat yang berfungsi untuk menampilkan hasil

    Klasifikasi dari data yang diinputkan pada Area 13. Hasilnya dalam bentuk

    Akreditasi yaitu A, B, C, atau tidak terakreditasi.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 41

    BAB IV

    HASIL DAN ANALISIS

    Pada bab ini akan dibahas hal-hal yang berkaitan dengan hasil implementasi sistem

    hasil yang didapat dari pengujian-pengujian yang dilakukan serta analisis dari hasil

    pengujian

    4.1 Data Preprocessing

    4.1.1 Attribut Selection

    Seleksi atribut pada penelitian ini dilakukan melalui 2 tahapan.

    Tahap pertama adalah menghapus atribut, dari total 82 atribut yang akan

    dihapus adalah atribut yang betipe unik maupun tidak memiliki nilai

    pembanding. berikut adalah atribut yang dihapus dalam penelitian ini:

    Tabel 4. 1 Atribut yang akan dihapus

    No Atribut Keterangan

    1 NPSN (nomor pokok sekolah

    nasional)

    -

    2 Nama sekolah -

    3 Semester data -

    4 Kepala sekolah -

    5 Operator -

    6 Manajemen Berbasis sekolah TRUE & FALSE. Pada data tidak

    mempunyai nilai true.

    7 Email -

    8 Alamat -

    9 Kab/kota -

    10 Kecamatan -

    11 Jenjang SMA

    12 Penyelenggaraan -

    13 Kurikulum KTSP

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 42

    14 Lat -

    15 Lng -

    Langkah selanjutnya adalah melakukan rangking attribut, untuk

    mendapatkan rangking atribut berdasarkan infomation gain menggunakan

    Weka Tool 3.9 . Berikut adalah hasil perangkingan 10 atribut teratas, untuk

    hasil perangkingan seluruh atribut dapat dilihat pada lampiran

    Tabel 4. 2 Hasil Perangkingan 10 Attribut teratas

    Ranking Attribut/fitur

    1 Standar Kelulusan

    2 Standar Tenaga Pendidik

    3 Standar Sarana Prasarana

    4 Standar Isi

    5 Standar Pengelolaan

    6 Standar Penilaian

    7 Standar Proses

    8 Standar Pembiayaan

    9 Total Ruang Kelas

    10 Total Rombongan Belajar

    4.1.2 Data transformation

    Transformasi data dilakukan seperti ketentuan ketentuan yang sudah

    dijelaskan pada bab 3, transformasi data dapat dilihat pada tabel berikut:

    Tabel 4. 3 Data Transformasi

    Atribut Data awal Hasil transformasi

    Provinsi Aceh

    Bangka belitung

    Bengkulu

    1

    2

    3

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 43

    Jambi

    Kepulauan riau

    Lampung

    Riau

    Sumatera barat

    Sumatera selatan

    Sumatera utara

    4

    5

    6

    7

    8

    9

    10

    Jenis sekolah Negeri

    Swasta

    1

    0

    Akses internet True

    False

    1

    0

    Sumber listrik True

    False

    1

    0

    Akreditasi A

    B

    C

    Tidak terakriditasi

    1

    2

    3

    4

    4.1.3 Data Cleaning

    Pada tahap data cleaning, data yang mempunyai missing value

    dihapus. Tahap ini mengharuskan semua kolom dan baris pada data harus

    mempunyai nilai.

    Tabel 4. 4 Data cleaning

    Attribut (x) Attribut (x) Attribut (x) Attribut (x)

    66 78 22 90

    54 77 88

    Pada tabel diatas kita bisa lihat dimana pada data baris ke-2 kolom

    ke-2 tidak mempunyai nilai yang nantinya semua data pada baris ke-2 akan

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 44

    dihapus , pada penelitian ini data-data yang tidak mempunyai nilai akan

    dihapus sehingga data yang akan diproses yaitu data yang masing-masing

    kolom dan baris mempunyai nilai.

    4.1.4 Normalisasi data

    Tahap normalisasi data, pada tahap ini melakukan normalisasi

    menggunakan normalisasi min-max. Atribut-atribut yang dilakukan

    normalisasi hanyalah atribut yang mempunyai rentang antar data yang jauh.

    Atribut –atribut yang dinormalisasi adalah daya listrik dan luas tanah. Pada

    tabel dibawah akan ditampilkan hasil sebelum normalisasi dan sesudah

    normalisasi pada setiap atribut

    Tabel 4. 5 Normalisasi data

    Atribut /Rentang data Data awal Hasil normalisasi

    Daya listrik/ 0 sampai

    529.999

    7000

    1200

    3500

    0,01320

    0,00226

    0,00660

    Luas tanah (M²)/ 0 sampai

    2.528.390

    1577187

    1972475

    2000000

    0,62379

    0,78013

    0,79101

    Adapun perbandingan hasil yang didapat sebelum dan sesudah melakukan

    normalisasi dapat dilihat seperti pada tabel dibawah, dikarenakan munculnya

    atribut yang dinormalisasi yaitu pada saat penggunaan atribut sebanyak 29 atribut

    untuk daya listrik dan 56 atribut untuk luas tanah berdasarkan ranking dengan

    information gain sehingga pada tabel langsung pengujian atribut dengan jumlah

    atribut sebanyak 29 dan 56 atribut. Untuk mengetahui variasi atribut apa yang

    digunakan dalam penggunaan 29 atribut dan 56 atribut dapat dilihat pada lampiran

    poin ke-2.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 45

    Tabel 4. 6 Akurasi Pada daya listrik(29) dan luas tanah(56)

    Jumlah atribut Akurasi sebelum

    normalisasi

    Akurasi sesudah

    normalisasi

    29 44,6531% 44,7531%

    56 0,46948% 0,46948%

    Pada tabel diatas dapat kita lihat penggunaan normalisasi terhadap daya

    listrik dan luas tanah sebenarnya tidak terlalu berdampak pada peningkatan akurasi

    yang signifikan. Hanya terdapat perbedaan sedikit tingkat akurasi dan itu hanya

    terdapat pada penggunaan jumlah atribut sebanyak 29(daya listrik).

    Berikut akan akan ditampilkan juga hasil akurasi dari penggunaan 8 standar

    pendidikan sebelum dinormalisasi dan sesudah dinormalisasi.

    Tabel 4. 7 Akurasi 8 standar pendidikan sebelum dan sesudah normalisasi

    Jumlah

    atribut Atribut

    Akurasi Sebelum

    di normalisasi

    Akurasi

    setelah di

    normalisasi

    1 Standar kelulusan 78,672% 78,672%

    2 Standar kelulusan

    Standar tenaga pendidik 83,7693% 83,7693%

    3

    Standar kelulusan

    Standar tenaga pendidik

    Standar sarana prasasrana

    87,0557% 87,0557%

    4

    Standar kelulusan

    Standar tenaga pendidik

    Standar sarana prasasrana

    Standar isi

    88,7324% 88,7324%

    5 Standar kelulusan

    Standar tenaga pendidik 91,0798% 91,0798%

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 46

    Standar sarana prasasrana

    Standar isi

    Standar pengelolaan

    6

    Standar kelulusan

    Standar tenaga pendidik

    Standar sarana prasasrana

    Standar isi

    Standar pengelolaan

    Standar penilaian

    92,6895% 92,6895%

    7

    Standar kelulusan

    Standar tenaga pendidik

    Standar sarana prasasrana

    Standar isi

    Standar pengelolaan

    Standar penilaian

    Standar proses

    92,3541% 92,3541%

    8

    Standar kelulusan

    Standar tenaga pendidik

    Standar sarana prasasrana

    Standar isi

    Standar pengelolaan

    Standar penilaian

    Standar proses

    Standar pembiayaan

    94,165% 94,165%

    Berdasarkan hasil percobaan yang dilakukan pada tabel diatas dapat dilihat

    penggunaan normalisasi terhadap data yang digunakan pada penelitian ini

    menghasilkan akurasi yang sama. Berdasarkan hal tersebut penggunaan normalisasi

    pada data bersifat opsional dalam arti dapat digunakan atau tidak karena

    menghasilkan akurasi yang sama pada penggunaan 8 atribut.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 47

    4.2 Klasifikasi

    Pengujian dilakukan sebanyak jumlah atribut dimana jumlah atribut yang

    akan diuji sebanyak 66 atribut. Variasi dari atribut berdasarkan hasil dari

    information gain yang diuji menggunakan Weka Tool 3.9. uji atribut menggunakan

    3-fold validation dimana nantinya data dibagi menjadi 3 bagian, 2 bagian dijadikan

    sebagai traning dan 1 bagian lainnya sebagai testing. Berikut merupakan hasil 10

    akurasi tertinggi yang telah diuji, untuk hasil akurasi seluruh atribut dapat dilihat

    pada lampiran.

    Tabel 4. 8 Hasil Percobaan 1 sampai 10 atribut

    Jumlah

    Atribut Atribut Akurasi(%)

    1 Standar kelulusan 78,672

    2 Standar kelulusan

    Standar tenaga pendidik 83,7693

    3

    Standar kelulusan

    Standar tenaga pendidik

    Standar sarana prasasrana

    87,0557

    4

    Standar kelulusan

    Standar tenaga pendidik

    Standar sarana prasasrana

    Standar isi

    88,7374

    5

    Standar kelulusan

    Standar tenaga pendidik

    Standar sarana prasasrana

    Standar isi

    Standar pengelolaan

    91,0798

    6

    Standar kelulusan

    Standar tenaga pendidik

    Standar sarana prasasrana

    Standar isi

    92,6895

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 48

    Standar pengelolaan

    Standar penilaian

    7

    Standar kelulusan

    Standar tenaga pendidik

    Standar sarana prasasrana

    Standar isi

    Standar pengelolaan

    Standar penilaian

    Standar proses

    92,3541

    8

    Standar kelulusan

    Standar tenaga pendidik

    Standar sarana prasasrana

    Standar isi

    Standar pengelolaan

    Standar penilaian

    Standar proses

    Standar pembiayaan

    94,165*

    9

    Standar kelulusan

    Standar tenaga pendidik

    Standar sarana prasasrana

    Standar isi

    Standar pengelolaan

    Standar penilaian

    Standar proses

    Standar pembiayaan

    Total ruang kelas

    94,165*

    10

    Standar kelulusan

    Standar tenaga pendidik

    Standar sarana prasasrana

    Standar isi

    93.159

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 49

    Standar pengelolaan

    Standar penilaian

    Standar proses

    Standar pembiayaan

    Total ruang kelas

    Total rombongan belajar

    * = Akurasi Tertinggi

    Tabel 4.8 merupakan hasil tabel akurasi dari 10 percobaan yang dilakukan,

    masing-masing percobaan memiliki tingkat akurasi yang berbeda. Jika dilihat pada

    lampiran dimana percobaan dilakukan sebanyak atribut yaitu 66 kali akurasi

    tertingggi terdapat pada 2 atribut. Atribut dengan akurasi tertinggi pertama yaitu 8

    meliputi Standar Kelulusan, Standar Tenaga Pendidik, Standar Sarana Prasarana,

    Standar Isi, Standar Pengelolaan, Standar Penilaian, Standar Proses, dan Standar

    Pembiayaan dengan akurasi sebesar 94,165 % . Atribut dengan akurasi tertinggi

    kedua yaitu 9 meliputi Standar Kelulusan, Standar Tenaga Pendidik, Standar Sarana

    Prasarana, Standar Isi, Standar Pengelolaan, Standar Penilaian, Standar Proses,

    Standar Pembiayaan dan total ruang kelas dengan akurasi sebesar 94,165%. Kita

    bisa melihat dari persentase akurasi mulai menurun setelah penambahan atribut

    secara terus menerus dimana pada atribut ke49 sampai atribut ke-66 tidak membuat

    perubahan terhadap akurasi pada sistem lagi dengan akurasi terendah yaitu

    0,46948%. Grafik akurasi akan ditampilkan pada Gambar dibawah

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 50

    Gambar 4. 1 Grafik akurasi setiap attribut

    Gambar 4.1 Merupakan akurasi dari setiap atribut yang dalam percobaan

    dimana pada gambar tersebut telah dilakukan percobaan sebanyak 66 kali

    menggunakan 3-fold validation. Pada Gambar 4.2 adalah confusion matrix dari

    atribut akurasi tertinggi yaitu 8 dan 9 attribut dengan akurasi sebesar 94,165%.

    8; 94,165

    9; 94,165

    49; 0,46948

    0

    20

    40

    60

    80

    100

    1 3 5 7 9 11131517192123252729313335373941434547495153555759616365

    Aku

    rasi

    Atribut

    Akurasi setiap atribut

    Jumlah atribut 8 Jumlah atribut 9

    Gambar 4. 2 Confusion matrix 8 dan 9 atribut

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 51

    4.3 Klasifikasi Optimal

    Setelah dilakukannya pengujian sebanyak jumlah atribut yaitu 66 kali

    dengan variasi atribut yang telah dilampiran pada lampiran dengan jumlah 1510

    data di dapat klasifikasi optimal yaitu penggunaan 8 atau 9 atribut sebagai atribut

    penentu klasifikasi akreditasi SMA di pulau Sumatera.

    4.3.1 Penggunaan 8 atribut

    Atribut yang digunakan adalah Standar Kelulusan, Standar Tenaga

    Pendidik, Standar Sarana Prasarana, Standar Isi, Standar Pengelolaan,

    Standar Penilaian, Standar Proses, dan Standar Pembiayaan dengan

    menggunakan 3-fold validation dimana data dibagi menjadi 3 bagian, 2

    bagian dijadikan sebagai traning dan 1 bagian lainnya dijadikan sebagai

    testing hingga didapat akurasi sebesar 94,165 % . Berikut hasil confusion

    matrix dari penggunaan 8 atribut:

    Tabel 4. 9 Confusion matrix 1 menggunakan 8 atribut

    Luaran Akreditasi

    A

    Akreditasi

    B

    Akreditasi

    C

    Tidak

    Terakreditasi

    Akreditasi A 231 11 0 0

    Akreditasi B 7 171 0 0

    Akreditasi C 0 23 52 0

    Tidak Terakreditasi 0 0 0 2

    Tabel 4. 10 Confusion matrix 2 menggunakan 8 atribut

    Luaran Akreditasi

    A

    Akreditasi

    B

    Akreditasi

    C

    Tidak

    Terakreditasi

    Akreditasi A 275 5 0 0

    Akreditasi B 5 165 1 0

    Akreditasi C 0 9 34 0

    Tidak Terakreditasi 0 0 0 3

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 52

    Tabel 4. 11 Confusion matrix 3 menggunakan 8 atribut

    Luaran Akreditasi

    A

    Akreditasi

    B

    Akreditasi

    C

    Tidak

    Terakreditasi

    Akreditasi A 287 14 0 0

    Akreditasi B 6 143 2 0

    Akreditasi C 0 4 39 0

    Tidak Terakreditasi 0 0 0 2

    4.3.2 Penggunaan 9 atribut

    Atribut yang digunakan adalah Standar Kelulusan, Standar Tenaga

    Pendidik, Standar Sarana Prasarana, Standar Isi, Standar Pengelolaan,

    Standar Penilaian, Standar Proses, Standar Pembiayaan dan total ruang

    kelas dengan menggunakan 3-fold validation dimana data dibagi menjadi 3

    bagian, 2 bagian dijadikan sebagai traning dan 1 bagian lainnya dijadikan

    sebagai testing hingga didapat akurasi sebesar 94,165 % . Berikut hasil

    confusion matrix dari penggunaan 9 atribut:

    Tabel 4. 12 Confusion matrix 1 menggunakan 9 atribut

    Luaran Akreditasi

    A

    Akreditasi

    B