laporan akhir penelitian disertasi doktor · 2020. 8. 1. · kekhususan kondisi data tersebut akan...

86
i Kode/Nama Rumpun Ilmu : 122/Statistika Bidang Fokus : Sosial Humaniora-Seni Budaya-Pendidikan LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR Pengembangan Hibermimo Menggunakan Bayesian MCMC Untuk Pemodelan Data Bidikmisi Propinsi Jawa Tengah Penyusun: WAHYUNI SURYANINGTYAS, M.Si. NIDN. 0705118301 Dibiayai oleh: Direktorat Riset dan Pengabdian Masyarakat Direktorat Jenderal Penguatan Riset dan Pengembangan Kementerian Riset, Teknologi dan Pendidikan Tinggi Sesuai dengan Kontrak Penelitian Nomor: 011/SP2H/LT/K7/KM/2018 Tanggal 24 April 2018 LEMBAGA PENELITIAN DAN PENGABDIAN KEPADA MASYARAKAT UNIVERSITAS MUHAMMADIYAH SURABAYA NOVEMBER 2018

Upload: others

Post on 26-Nov-2020

17 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

i

Kode/Nama

Rumpun Ilmu

: 122/Statistika

Bidang Fokus : Sosial Humaniora-Seni

Budaya-Pendidikan

LAPORAN AKHIR

PENELITIAN DISERTASI DOKTOR

Pengembangan Hibermimo Menggunakan Bayesian MCMC

Untuk Pemodelan Data Bidikmisi Propinsi Jawa Tengah

Penyusun:

WAHYUNI SURYANINGTYAS, M.Si.

NIDN. 0705118301

Dibiayai oleh:

Direktorat Riset dan Pengabdian Masyarakat

Direktorat Jenderal Penguatan Riset dan Pengembangan

Kementerian Riset, Teknologi dan Pendidikan Tinggi

Sesuai dengan Kontrak Penelitian

Nomor: 011/SP2H/LT/K7/KM/2018

Tanggal 24 April 2018

LEMBAGA PENELITIAN DAN PENGABDIAN KEPADA MASYARAKAT

UNIVERSITAS MUHAMMADIYAH SURABAYA

NOVEMBER 2018

Page 2: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

ii

HALAMAN PENGESAHAN

Page 3: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

iii

RINGKASAN

Pengembangan Hibermimo Menggunakan Bayesian MCMC Untuk

Pemodelan Data Bidikmisi Propinsi Jawa Tengah

Implementasi Bidikmisi diberikan khusus bagi mayarakat marginal, namun

pelaksanaannya terkendala masalah pemerataan karena letak georafis dan

kemampuan masyarakat untuk mengakses informasi. Oleh karena itu perlu

dilakukan pengembangan model penyelenggaran Bidikmisi dalam rangka

meningkatkan kualitas SDM siap berkompetisi Masyarakat Ekonomi ASEAN

(MEA). Penelitian bertujuan melakukan pengembangan model linear hirarki dua level

untuk pemodelan data Bidikmisi dilakukan dengan memperhatikan adanya kekhususan

dalam data penerimaan beasiswa Bidikmisi prototype Provinsi Jawa Tengah. Bidikmisi

memiliki struktur data hirarki dengan respon biner (0 dan 1) berdistribusi Bernoulli

mixture. Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari

penelitian ini. Pemodelan dilakukan dengan mengembangkan model linear hirarki dua

level menggunakan respon status penerimaan beasiswa Bidikmisi yang berdistribusi

Bernoulli mixture yang merupakan finite mixture karena memiliki 2 (dua) komponen

yang telah ditentukan. Pengembangan analisis data berhirarki dengan

menggabungkan konsep Bernoulli mixture menghasilkan pemodelan baru yang

disebut dengan Hierarchical Bernoulli Mixture Model (Hibermimo). Proses

estimasi Hibermimo dua level dilakukan melalui pendekatan Bayesian menggunakan

Markov Chain Monte Carlo (MCMC) dan algoritma Gibbs Sampling. Penelitian

pengembangan Hibermimo dua level menghasilkan model dan peta tematik untuk

memprediksi jumlah siswa yang diterima program Beasiswa Bidikmisi pada

Kabupaten/Kota Provinsi Jawa Tengah. Hasil penelitian diharapkan dapat dijadikan

pertimbangan dalam pengambilan kebijakan yang berhubungan penerimaan

beasiswa Bidikmisi. Target luaran dalam penelitian ini di seminarkan di seminar

nasional dan internasional serta dipublikasikan pada jurnal internasional yaitu

Journal Communications in Statistics-Theory and Methods. Penyelesaian

studi s3 di targetkan pada awal tahun 2019.

Kata Kunci : Bernoulli mixture, finite mixture, Bayesian, MCMC, Gibbs Sampling,

Bidikmisi

Page 4: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

iv

PRAKATA

Puji syukur kehadirat Allah SWT yang telah memberikan hidayah, kekuatan,

rahman dan rahim, serta kesehatan sehingga dapat terselesaikan laporan akhir hibah

Penelitian Disertasi Doktor (PDD) Tahun 2018. Penelitian yang berjudul

“Pengembangan Hibermimo Menggunakan Bayesian MCMC untuk Pemodelan

Data Bidikmisi Propinsi Jawa Tengah” atas bantuan baik secara material maupun

moril dari berbagai pihak yang tidak mungkin kami sebutkan satu persatu. Namun

demikian merupakan sebuah kehormatan jika kami diperkenankan menyampaikan

ucapan terima kasih kepada:

1. Direktur Riset dan Pengabdian Masyarakat (DRPM), Kementrian Riset dan

Teknologi Pendidikan Tinggi, Usulan Program Hibah Penelitian Disertasi

Doktor (PDD) Tahun 2018, atas fasilitas dan khususnya pendanaan dalam

penelitian hibah, sehingga memberikan kesempatan kepada peneliti untuk dapat

berusaha untuk mengembangkan potensi diri.

2. Dr. Sukadiono, MM., Rektor Universitas Muhammadiyah Surabaya, yang telah

memberikan petunjuk serta memotivasi peneliti untuk menyusun proposal dan

melaksanakan penelitian.

3. Prof. Drs. Nur Iriawan, MIKom., Ph.D, Promotor Program Doktor Departemen

Statistika, Fakultas Matematika, Komputasi dan Sains Data (FMKSD) Institut

Teknologi Sepuluh Nopember, yang telah banyak memberikan bimbingan dan

petunjuk dalam menyusun disertasi.

4. Endah Hendarwati, SE., M.Pd., Dekan Fakultas Keguruan dan Ilmu Pendidikan,

yang telah memotivasi peneliti.

5. Dr. Sujinah, M.Pd., Ketua Lembaga Penelitian dan Pengabdian Masyarakat

Universitas Muhammadiyah Surabaya, yang telah memberikan petunjuk dan

bimbingan untuk melaksanakan penelitian dan menyusun laporan kemajuan

serta laporan akhir.

6. Mahasiswa S2 Statistika ITS Tim Hibah Hibah PDD Tahun 2018 yang telah

mendukung dan membantu pelaksanaan kegiatan penelitian.

Peneliti menyadari bahwa laporan akhir Hibah PDD Tahun 2018 ini masih

jauh dari sempurna, karena itu, segala kritik, tanggapan, komentar-komentar dari

segenap pembaca sangat diharapkan, serta bimbingan dari pakar sangat penulis

harapkan, demi perbaikan yang akan digunakan untuk menyusun disertasi dan

laporan hibah penelitian.

Surabaya, November 2018

Peneliti

Page 5: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

v

DAFTAR ISI

HALAMAN PENGESAHAN ................................................................................. ii

RINGKASAN ........................................................................................................ iii

PRAKATA ............................................................................................................. iv

DAFTAR ISI ........................................................................................................... v

DAFTAR TABEL .................................................................................................. vi

DAFTAR GAMBAR ............................................................................................. ix

BAB 1 PENDAHULUAN .................................................................................... 1

1.1 Latar Belakang ......................................................................................... 1

1.2 Kebaruan .................................................................................................. 2

1.3 Tujuan Khusus .......................................................................................... 3

1.4 Urgensi / Keutamaan Penelitian ............................................................... 3

1.5 Kaitan Penelitian dengan Penyelesaian Desertasi .................................... 4

1.6 Luaran Penelitian ...................................................................................... 4

BAB 2 TINJAUAN PUSTAKA ........................................................................... 6

2.1 Skema Penelitian Relevan ........................................................................ 6

2.2 Road Map Penelitian ................................................................................ 8

2.3 Metode Bayesian ...................................................................................... 9

2.4 Deviance Information Criterion ............................................................... 9

BAB 3 TUJUAN DAN MANFAAT PENELITIAN .......................................... 10

3.1 Tujuan Penelitian .................................................................................... 10

3.2 Manfaat Penelitian .................................................................................. 10

BAB 4 METODOLOGI PENELITIAN.............................................................. 11

4.1 Kajian Teori (Pengembangan Teori) ...................................................... 11

4.2 Kajian Empiris (Penelitian Aplikatif) ..................................................... 12

4.2.1 Sumber Data ........................................................................................... 12

4.2.2 Skema Struktur Hirarki .......................................................................... 12

4.2.3 Variabel Penelitian ................................................................................. 12

BAB 5 HASIL DAN LUARAN YANG DICAPAI ............................................ 14

BAB 6 RENCANA TAHAPAN BERIKUTNYA .............................................. 69

BAB 7 KESIMPULAN DAN SARAN............................................................... 74

DAFTAR PUSTAKA ........................................................................................... 75

Page 6: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

vi

DAFTAR TABEL

Tabel 1.1 Rencana Target Capaian Luaran Penelitian Hibah PDD ..................... 5

Tabel 5.1 Kabupaten/Kota Provinsi Jawa Tengah ............................................. 15

Tabel 5.2 Data Pendaftar Beasiswa Bidikmisi Provinsi Jawa Tengah 2015

Berdasarkan Jenis Kelamin ................................................................ 15

Tabel 5.3 Rekapitulasi Jumlah Pendaftar Bidikmisi Provinsi Jawa Tengah 2015

............................................................................................................ 16

Tabel 5.4 Rekapitulasi Penerimaan Beasiswa Bidikmisi Provinsi Jawa Tengah

Tahun 2015 ......................................................................................... 17

Tabel 5.5 Rekapitulasi Penerimaan Bidikmisi Provinsi Jawa Tengah 2015 per

Kabupaten/Kota .................................................................................. 17

Tabel 5.6 Rincian Variabel Penelitian ................................................................ 22

Tabel 5.7 Klasifikasi berdasarkan Kondisi Penerimaan Beasiswa Bidikmisi

Indonesia 2015 ................................................................................... 24

Tabel 5.8 Klasifikasi Polytomous Penerimaan Beasiswa Bidikmisi Indonesia

2015 .................................................................................................... 24

Tabel 5.9 Signifikansi Parameter Model Regresi Dummy Provinsi Kepulauan

Jawa Tengah ....................................................................................... 27

Tabel 5.10 Ketepatan Klasifikasi Model Regresi Dummy Provinsi Kepulauan Jawa

Tengah ................................................................................................ 28

Tabel 5.11 Signifikansi Parameter Model Regresi Polytomous Provinsi Kepulauan

Jawa Tengah ....................................................................................... 29

Tabel 5.12 Ketepatan Klasifikasi Model Regresi Polytomous Provinsi Kepulauan

Jawa Tengah ....................................................................................... 30

Tabel 5.13 Signifikansi Parameter Model Regresi Bernoulli Mixture Bayesian

Provinsi Jawa Tengah......................................................................... 32

Tabel 5.14 Ketepatan Klasifikasi Model Regresi Bernoulli Mixture Bayesian

Provinsi Jawa Tengah......................................................................... 33

Tabel 5.15 Confussion Matrix AdaBoost.M2 untuk Masing-masing Iterasi ....... 35

Tabel 5.16 Confussion Matrix SMOTE-Boosting untuk Masing-masing Iterasi . 38

Tabel 5.17 Confussion Matrix SMOTE-Bagging untuk Masing-masing Iterasi.. 40

Page 7: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

vii

Tabel 5.18 Perbandingan Kinerja Performansi Klasifikasi Data Bidikmisi ......... 43

Tabel 5.19 Identifikasi Kondisi Klasifikasi Data Bidikmisi ................................ 45

Tabel 5.20 Identifikasi Kondisi Klasifikasi Data Bidikmisi dengan Tiga Metode

............................................................................................................ 46

Tabel 5.21 Tingkat Kinerja AUC, G-Mean, dan Akurasi Data Testing dan Data

Training 1 Hidden Layer .................................................................... 49

Tabel 5.22 Ketepatan Klasifikasi 10-Fold Cross Validation Neural Network..... 50

Tabel 5.23 Rata-rata Ketepatan Klasifikasi Perkatagori Untuk 10-Fold Data

Training Pada Model Neural Network Backpropagation (1 Hidden

Layer) ................................................................................................. 51

Tabel 5.24 Ketepatan Klasifikasi 10-Fold Cross Validation Neural Network

Backpropagation Pada Data Testing dengan 1 Hidden Layer ........... 52

Tabel 5.25 Rata-rata Ketepatan Klasifikasi Perkatagori Untuk 10-Fold Data

Testing Pada Model Neural Network Backpropagation (1 Hidden

Layer) ................................................................................................. 54

Tabel 5.26 Hasil Kinerja Kasifikasi dengan Jumlah Neuron 4 Pada 1 hidden layer

............................................................................................................ 55

Tabel 5.27 Tingkat Kinerja AUC, G-Mean, dan Akurasi Data Testing dan Data

Training dengan 2 Hidden Layer ....................................................... 56

Tabel 5.28 Ketepatan Klasifikasi dengan 2 Hidden layer 10-Fold Cross Validation

Neural Network Backpropagation Pada Data Training .................... 57

Tabel 5.29 Rata-rata Ketepatan Klasifikasi Perkatagori Untuk 10-Fold Data

Training Pada Model Neural Network Backpropagation (2 Hidden

Liayer) ................................................................................................ 59

Tabel 5.30 Ketepatan Klasifikasi denga 2 Hidden layer 10-Fold Cross Validation

Neural Network Backpropagation Pada Data Testing ...................... 60

Tabel 5.31 Rata-rata Ketepatan Klasifikasi Perkatagori Untuk 10-Fold Data

Testing Pada Model Neural Network Backpropagation (2 Hidden

Layer) ................................................................................................. 61

Tabel 5.32 Hasil Kinerja Klasifikasi 10-Fold dengan Jumlah Neuron (10-4)

dengan 2 Hidden Layer Pada Data Training Dan Testing ................. 63

Page 8: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

viii

Tabel 5.33 Hasil Kinerja Klasifikasi BPN-GA dengan 4 Neuron Pada 1 Hidden

Layer................................................................................................... 66

Tabel 5.34 Kinerja Hasil Klasifikasi Tanpa dan dengan Optimasi Bobot dan Bias

Pada Neural Network Backpropagation ............................................. 67

Tabel 6.1 Target Capaian Luaran PDD .............................................................. 72

Page 9: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

ix

DAFTAR GAMBAR

Gambar 2.1 Skema dan Posisi Penelitian .............................................................. 6

Gambar 4.1 Skema Struktur hirarki data Bidikmisi dalam pembentukan model

hirarki penerimaan beasiswa Bidikmisi di seluruh kabupaten/kota

Provinsi Jawa Tengah ...................................................................... 12

Gambar 5.1 Peta Provinsi Jawa Tengah .............................................................. 14

Gambar 5.2 Persentase Penerimaan Bidikmisi per Kabupaten/Kota Provinsi Jawa

Tengah Tahun 2015 ......................................................................... 19

Gambar 5.3 Kerangka Konseptual Variabel-Variabel Penelitian ........................ 21

Gambar 5.4 Doodle Regresi Bernoulli Mixture Bayesian-Level_1 ..................... 26

Gambar 5.5 Plot ACF pada Regresi Bernoulli Mixture Bayesian-Level_1 Provinsi

Jawa Tengah .................................................................................... 31

Gambar 5.6 Serial Plot 10.000 iterasi thin 40 Model Regresi Bernoulli Mixture

Bayesian-Level_1 Provinsi Jawa Tengah ........................................ 31

Gambar 5.7 Error Klasifikasi Random Forest Berukuran Pohon k Untuk Setiap

Prediktor m ....................................................................................... 34

Gambar 5.8 Error Klasifikasi Random Forest Prediktor m Untuk Setiap Pohon k

......................................................................................................... 34

Gambar 5.9 Nilai Kinerja Performansi pada Beberapa Iterasi AdaBoost.M2 ..... 36

Gambar 5.10 Nilai G-Mean dan AUC pada Beberapa Iterasi AdaBoost.M2

......................................................................................................... 37

Gambar 5.11 Nilai Kinerja Performansi pada Beberapa Iterasi SMOTE-Boosting

......................................................................................................... 39

Gambar 5.12 Nilai G-Mean dan AUC pada Beberapa Iterasi SMOTE-Boosting

......................................................................................................... 39

Gambar 5.13 Nilai Kinerja Performansi pada Beberapa Iterasi SMOTE-Bagging

......................................................................................................... 41

Gambar 5.14 Nilai G-Mean dan AUC pada Beberapa Iterasi SMOTE-Bagging

......................................................................................................... 42

Gambar 5.15 Boxplot Nilai Kinerja Performansi G-Mean.................................... 43

Gambar 5.16 Boxplot Nilai Kinerja Performansi AUC ........................................ 44

Page 10: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

x

Gambar 5.17 Pie Chart Identifikasi Kondisi Klasifikasi Data Bidikmisi

......................................................................................................... 46

Gambar 5.18 Kondisi “Benar Klasifikasi” Data Bidikmisi Metode AdaBoost.M2

......................................................................................................... 47

Gambar 5.19 Kondisi “Benar Klasifikasi” Data Bidikmisi Metode SMOTE-

Boosting ........................................................................................... 47

Gambar 5.20 Kondisi “Benar Klasifikasi” Data Bidikmisi Metode SMOTE-

Bagging ............................................................................................ 48

Gambar 5.21 Sebaran Hasil Klasifikasi Neural Network Backpropagation dengan

1 Hidden layer 10-fold Data Training ............................................. 52

Gambar 5.22 Sebaran Hasil Klasifikasi Neural Network Backpropagation dengan

1 Hidden layer 10-fold Data Testing. .............................................. 55

Gambar 5.23 Sebaran Hasil Klasifikasi Neural Network Backpropagation dengan

2 Hidden layer 10-fold Data Training ............................................. 59

Gambar 5.24 Sebaran Hasil Klasifikasi Neural Network Backpropagation dengan

2 Hidden layer 10-fold Data Testing ................................................ 62

Gambar 5.25 Pembentukan Kromosom Algoritma Genetika ............................... 65

Gambar 6.1 Doodle Regresi Bernoulli Mixture Bayesian-Level_1 ..................... 71

Gambar 6.2 Roadmap PDD Tahun 2018 ............................................................. 73

Page 11: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

1

BAB 1

PENDAHULUAN

1.1 Latar Belakang

Program bantuan biaya pendidikan Bidikmisi diluncurkan mulai tahun

2010 oleh pemerintah melalui Direktorat Jenderal Pendidikan Tinggi Kelembagaan,

bertujuan agar dapat mencapai pemerataan akses dan kesempatan belajar pada

jenjang perguruan tinggi serta menghasilkan lulusan yang mandiri, produktif dan

memiliki kepedulian sosial yang mampu berperan dalam upaya pemutusan rantai

kemiskinan sehingga dapat berpartisipasi dalam meningkatkan daya saing bangsa

di era kompetisi global. Implementasi Bidikmisi diberikan khusus bagi mayarakat

marginal, namun pelaksanaannya terkendala masalah pemerataan karena letak

georafis dan kemampuan masyarakat untuk mengakses informasi. Oleh karena itu

perlu dilakukan pengembangan model penyelenggaran Bidikmisi dalam rangka

meningkatkan kualitas SDM siap berkompetisi Masyarakat Ekonomi ASEAN

(MEA) (Direktorat Jenderal Pembelajaran dan Kemahasiswaan, 2016).

Data Bidikmisi berdasarkan konsep Hox (2002), memiliki struktur data

hirarki. Pendekatan model hirarki pada data Bidikmisi diaplikasikan karena model

hirarki dapat digunakan untuk menganalisis informasi dari beberapa level yang

berbeda, yaitu pada level-1 merupakan informasi individu-individu tersarang

(nested) dalam kabupaten/kota dan level-2 merupakan informasi dari

kabupaten/kota dalam wilayah Provinsi. Informasi dari beberapa level yang

berbeda dalam struktur hirarki data dapat dianalisis menjadi satu analisis statistik

secara simulltan (Goldstein , 1995; Hox, 1995). Penelitian bertujuan melakukan

pengembangan model linear hirarki dua level untuk pemodelan data Bidikmisi

dilakukan dengan memperhatikan adanya kekhususan dalam data penerimaan beasiswa

Bidikmisi prototype Provinsi Jawa Tengah. Bidikmisi memiliki struktur data hirarki

dengan respon biner (0 dan 1) berdistribusi Bernoulli mixture. Respon status

penerimaan beasiswa Bidikmisi yang berdistribusi Bernoulli mixture merupakan finite

mixture karena memiliki 2 (dua) komponen yang telah ditentukan. Pengembangan

analisis data Bidikmisi berhirarki selanjutnya dilakukan dengan menggabungkan

konsep mixture. Mixture pada data Bidikmisi berstruktur hirarki terdapat pada

level-1 yang memuat data diskrit respon Bidikmisi bernilai biner. Perkembangan

Page 12: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

2

pemodelan mixture data diskrit bernilai biner merupakan salah satu tantangan besar

dalam analitik statistik yang dihadapi oleh para peneliti, karena sebagian besar

literatur banyak membahas tentang pemodelan mixture pada data kontinu.

Pengembangan pemodelan mixture data diskrit pertama kali dilakukan oleh Celeux

dan Govaert (1991) membahas tentang clustering data diskrit dengan menggunakan

classification maximum likelihood (CML). Pada perkembangannya dilakukan di

bidang Biologi yang berhubungan dengan genetik manusia (Abel dkk., 1993),

mikrobiologi (Gyllenberg dkk., 1997) dan komputasi DNA (Fränti dkk., 2003).

Sebagian besar referensi data biner memiliki sejarah yang berada di area text mining

(Wang dan Kabán, 2005). Data text mining berdistribusi Bernoulli, dalam pemodelan

mixture disebut dengan Bernoulli Mixture Model (BMM). Struktur hirarki yang

dipadukan dengan Bernoulli mixture untuk pemodelan data Bidikmisi, diharapkan

akan menghasilkan cara pemodelan baru yang disebut dengan Hierarchical

Bernoulli Mixture Model (Hibermimo). Analisis Hibermimo merupakan model

yang kompleks, sehingga estimasi parameter model menggunakan analisis klasik

dengan keterbatasannya akan sulit untuk diterapkan. Analisis pendekatan Bayesian

pada Hibermimo akan memberikan alternatif solusi mengatasi keterbatasan metode

estimasi klasik. Hibermimo dengan pendekatan Bayesian komputasinya

menggunakan software BUGS (Bayesian Using Gibbs Sampler). Estimasi

parameter model menggunakan proses Markov Chain Monte Carlo (MCMC)

dengan algoritma Gibbs Sampler (Iriawan, 2010).

Penelitian pengembangan Hibermimo dua level menghasilkan model dan

peta tematik untuk memprediksi jumlah siswa yang diterima program Beasiswa

Bidikmisi pada Kabupaten/Kota Provinsi Jawa Tengah yang diharapkan dapat

memenuhi prinsip 3T, yaitu Tepat sasaran, Tepat jumlah, dan Tepat Waktu. Hasil

penelitian diharapkan dapat dijadikan pertimbangan dalam pengambilan kebijakan

yang berhubungan penerimaan beasiswa Bidikmisi.

1.2 Kebaruan

Pengembangan analisis data berhirarki dilakukan dengan menggabungkan

konsep Bernoulli mixture. Struktur hirarki yang dipadukan dengan Bernoulli

mixture menghasilkan cara pemodelan baru yang disebut dengan Hierarchical

Page 13: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

3

Bernoulli Mixture Model (Hibermimo). Analisis Hibermimo akan menghadapi

model yang kompleks, sehingga digunakan pendekatan Bayesian pada Hibermimo

untuk memberikan alternatif solusi mengatasi keterbatasan metode estimasi klasik.

Kebaruan dalam penelitian adalah pengembangan secara teoritis model Hibermimo

dua level sebagai model yang unik dalam mengatasi permasalahan respon Bernoulli

mixture. Penaksiran parameter-parameter Hibermimo dua level menggunakan

pendekatan Bayesian sebagai solusi terhadap masalah-masalah estimasi interval,

prediksi dan inferensi. Penelitian juga mengembangkan algoritma komputasi dalam

pengestimasian model Hibermimo dua level aplikasi data Bidikmisi Jawa Tengah

dan pemilihan model terbaik dengan menggunakan pendekatan Bayesian.

Sehingga, kebaruan penelitian diharapkan dapat memudahkan pengguna

Hibermimo untuk mengimplementasikan model dalam kasus yang lain.

1.3 Tujuan Khusus

Tujuan khusus penelitian yang diajukan adalah pengembangan Hibermimo

dua level aplikasi data penerimaan beasiswa Bidikmisi prototype Provinsi Jawa

Tengah diberikan sebagai berikut:

1. Memperoleh algoritma komputasi penaksir parameter-parameter Hibermimo

dua level dengan menggunakan pendekatan Bayesian.

2. Memperoleh model optimal Hibermimo dua level aplikasi data Bidikmisi Jawa

Tengah dengan menggunakan pendekatan Bayesian.

3. Menghasilkan peta tematik geografi penerimaan beasiswa Bidikmisi pada

Kabupaten/Kota Provinsi Jawa Tengah.

1.4 Urgensi / Keutamaan Penelitian

Data Bidikmisi yang memiliki struktur hirarki dua level dipadukan dengan

Bernoulli mixture menghasilkan cara pemodelan baru disebut dengan Hierarchical

Bernoulli Mixture Model yang kemudian diakronimkan Hibermimo. Urgensi atau

keutamaan penelitian pengembangan Hibermimo dua level aplikasi data

penerimaan beasiswa Bidikmisi prototype Provinsi Jawa Tengah diberikan sebagai

berikut:

Page 14: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

4

1. Memberikan sumbangan secara akademik dalam bentuk algoritma komputasi

dalam penaksir parameter-parameter model Hibermimo dua level aplikasi data

Bidikmisi Jawa Tengah serta pemilihan model terbaik dengan menggunakan

pendekatan Bayesian MCMC.

2. Memberikan sumbangan peta tematik informasi persebaran mahasiswa

penerima beasiswa Bidikmisi sesuai pengaruh faktor dua level dalam

pemodelan Hibermimo yang bisa dimanfaatkan pengambil kebijakan pada

setiap level hirarki (Camat, Bupati, Direktorat Jenderal Pembelajaran dan

Kemahasiswaan serta Kementerian Riset Teknologi dan Pendidikan Tinggi).

1.5 Kaitan Penelitian dengan Penyelesaian Desertasi

Hasil penelitian pengembangan Hibermimo dua level studi kasus Bidikmisi

Provinsi Jawa Tengah merupakan data pelengkap untuk tahap simulasi pada kajian

empiris bagian tahapan penelitian disertasi yang sudah dilakukan yaitu kajian

teoritis estimasi parameter-parameter model Hibermimo dua level. Kajian empiris

Hibermimo dengan pendekatan Bayesian komputasinya menggunakan software

BUGS (Bayesian Using Gibbs Sampler). Estimasi parameter model menggunakan

proses Markov Chain Monte Carlo (MCMC) dengan algoritma Gibbs Sampler.

1.6 Luaran Penelitian

Luaran yang dapat diperoleh dari hasil penelitian ini adalah:

1. Model Hibermimo dua level dan peta tematik informasi persebaran mahasiswa

penerima beasiswa Bidikmisi sesuai pengaruh faktor dua level.

2. Makalah yang disampaikan pada seminar nasional dan internasional.

3. Artikel ilmiah yang dimuat dalam jurnal internasional Journal

Communications in Statistics-Theory and Methods.

Page 15: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

5

Rencana target capaian tahunan sesuai luaran penelitian yang dihasilkan

disajikan pada Tabel 1.1.

Tabel 1.1 Rencana Target Capaian Luaran Penelitian Hibah PDD

No Jenis Luaran

Indikator

Capaian

Kategori Sub Kategori Wajib Tambahan TS1)

1 Artikel ilmiah

dimuat di jurnal

Internasional bereputasi accepted/published

Nasional Terakreditasi

2 Artikel Ilmiah

dimuat di

prosiding

Internasional Terindeks sudah dilaksanakan

Nasional

3 Invited Speaker

dalam temu ilmiah

Internasional

Nasional

4 Visiting Lecturer Internasional

5 Hak Atas

Kekayaan

Intelektual (HKI)

Paten

Paten sederhana

Hak Cipta

Merek dagang

Rahasia dagang

Desain Produk Industri

Indikasi Geografis

Perlindungan Varietas

Tanaman

Perlindungan Topografi

Sirkuit Terpadu

6 Teknologi Tepat Guna

7 Model/Purwarupa/Desain/Karya seni/Rekayasa

Sosial

8 Buku Ajar (ISBN)

9 Tingkat Kesiapan Teknologi (TKT) Skala 3

Page 16: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

6

BAB 2

TINJAUAN PUSTAKA

2.1 Skema Penelitian Relevan

Skema dan posisi penelitian disertasi doktor dapat disajikan pada Error!

Reference source not found.. berikut:

Keterangan:

= sudah dilakukan

= belum dilakukan (akan diteliti)

Gambar 2.1 Skema dan Posisi Penelitian

Hierarchical Bernoulli Mixture Models (Hibermimo) dua Level dengan Pendekatan Bayesian

- Pengembangan Hibermimo dua level.

- Penaksir parameter-parameter Hibermimo dua level menggunakan pendekatan Bayesian.

- Algoritma dan komputasi penaksiran parameter-parameter Himimo dua level studi kasus data Bidikmisi

Provinsi Jawa Tengah dengan menggunakan pendekatan Bayesian.

Pemodelan Hirarki dua level

menggunakan respon Biner

- Estimasi parameter model

hirarki menggunakan metode

PQL (Park dan Kim, 2015;

2016)

Pemodelan Hirarki data biner

menggunakan Pendekatan

Bayesian

- Raftery (1988); Shkedy, dkk.

(2005); Hardin, dkk. (2008);

Morgan, dkk. (2014)

Pemodelan Hirarki data biner

Pendekatan Klasik

Pendekatan Bayesian

Bernoulli Mixture Model

(BMM)

- Grim, dkk. (2000); González,

dkk. (2001); Juan dan Vidal

(2002; 2004); Patrikainen dan

Manilla (2004); Zhu, dkk.

(2007); Sun, dkk. (2007);

Tikka, dkk. (2007); Jollmen

dan Tikka (2007);

Myllykangas, dkk. (2008);

Bouguila (2010); Saeed, dkk.

(2013)

Data Respon Biner

Data biner berdistribusi

Bernoulli

Agrawal dan Srikant (1994),

Wang dan Kabán (2005), Li

(2006), Bishop (2006) dan

Kamthe, dkk. (2011)

Data respon biner berstruktur

hirarki

Page 17: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

7

Data respon Bidikmisi bernilai biner. Sebagian besar referensi data biner

berada di area text mining (Wang dan Kabán, 2005), yaitu klasifikasi dokumen (Li,

2006), pengenalan digit pada tulisan tangan (Bishop, 2006; Grim dkk., 2000),

pengurutan paket dalam jaringan sensor (Kamthe dkk., 2011) dan identifikasi

aturan asosiasi barang obral (Agrawal dan Srikant, 1994). Data text mining

berdistribusi Bernoulli, dalam pemodelan mixture disebut dengan Bernoulli

Mixture Model (BMM). Penelitian BMM pertama kali dilakukan oleh Duda dan

Hart (1973). Pada perkembangannya penelitian-penelitian yang berhubungan

dengan BMM dilakukan oleh Grim, dkk. (2000), González, dkk. (2001), Juan dan

Vidal (2002; 2004), Patrikainen dan Manilla (2004), Zhu, dkk. (2007), Sun, et.al.

(2007), Tikka, dkk. (2007), Hollmen dan Tikka (2007), Myllykangas, dkk. (2008),

Bouguila (2010) dan Saeed, dkk. (2013). Bidikmisi berdasarkan konsep Hox

(2002), memiliki struktur data hirarki dengan respon biner. Penelitian pemodelan

data hirarki diskrit dengan respon biner dilakukan oleh Park dan Kim (2015; 2016)

menggunakan metode estimasi klasik penalized quasi-likelihood (PQL).

Pengembangan analisis data berhirarki selanjutnya dilakukan dengan

menggabungkan konsep Bernoulli mixture. Struktur hirarki yang dipadukan dengan

Bernoulli mixture menghasilkan cara pemodelan baru yang disebut dengan

Hierarchical Bernoulli Mixture Model (Hibermimo). Analisis Hibermimo akan

menghadapi model yang kompleks, sehingga digunakan pendekatan Bayesian pada

Hibermimo untuk memberikan alternatif solusi mengatasi keterbatasan metode

estimasi klasik. Penelitian-penelitian pemodelan hirarki dengan pendekatan

Bayesian dilakukan oleh Raftery (1988), Shkedy, dkk. (2005), Hardin, dkk. (2008)

dan Morgan, dkk. (2014).

Kebaruan dalam penelitian adalah pengembangan secara teoritis model

Hibermimo dua level sebagai model yang unik dalam mengatasi permasalahan

respon Bernoulli mixture. Penaksiran parameter-parameter Hibermimo dua level

menggunakan pendekatan Bayesian MCMC sebagai solusi terhadap masalah-

masalah estimasi interval, prediksi dan inferensi. Penelitian juga mengembangkan

algoritma komputasi dalam pengestimasian model Hibermimo dua level aplikasi

data Bidikmisi Jawa Tengah dan pemilihan model terbaik dengan menggunakan

pendekatan Bayesian.

Page 18: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

8

2.2 Road Map Penelitian

Secara utuh road map penelitian diberikan sebagai berikut:

Page 19: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

9

2.3 Metode Bayesian

Teorema Bayes menjadi distribusi posterior sebagaimana formula berikut:

||

|

p x pp x

p x

p x p

, (2.1)

dengan p adalah distribusi prior, |p x adalah likelihood dan |p x adalah distribusi

posterior. Distribusi prior dalam metode Bayesian dapat dikategorikan menjadi Conjugate

prior, Proper prior dan Informative Prior ( (Gelman dkk., 2014) dan (Carlin

dan Chib, 1995)). Keputusan pemodelan didasarkan pada posterior yang diperoleh (Iriawan,

2001).

2.4 Deviance Information Criterion

Ukuran kelayakan model yag digunakan dalam mengevaluasi kecocokan model Bayes

adalah deviance information crierion (DIC). Kriteria model menurut (Ntzoufras, 2009) adalah:

2 , , , 2c cc cDIC c D c D c D c p , (2.2)

Nilai DIC yang semakin kecil mengindikasikan model yang lebih cocok untuk digunakan

(Iriawan, 2000).

Page 20: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

10

BAB 3

TUJUAN DAN MANFAAT PENELITIAN

3.1 Tujuan Penelitian

Tujuan dari penelitian ini adalah:

1. Mengkaji algoritma teoritis dan komputasi penaksir parameter-parameter Hibermimo

dua level dengan menggunakan pendekatan Bayesian.

2. Mendesain model optimal Hibermimo dua level aplikasi data Bidikmisi Jawa Tengah

dengan menggunakan pendekatan Bayesian.

3.2 Manfaat Penelitian

Hasil penelitian ini diharapkan dapat bermanfaat sebagai berikut adalah:

1. Memberikan sumbangan dalam mengembangkan analisis Bayesian Hirarki, khususnya

dalam algoritma teoritis penaksir parameter-parameter Hibermimo dua level

menggunakan pendekatan Bayesian.

2. Memberikan sumbangan secara akademik dalam bentuk algoritma komputasi dalam

pengestimasian model Hibermimo dua level aplikasi data Bidikmisi Jawa Tengah dan

pemilihan model terbaik dengan menggunakan pendekatan Bayesian. Pengolahan data

Bidikmisi dengan data sebenarnya belum pernah dilakukan oleh peneliti-peneliti

sebelumnya.

3. Memberikan sumbangan peta tematik informasi persebaran mahasiswa penerima

beasiswa Bidikmisi sesuai pengaruh faktor dua level dalam pemodelan Hibermimo

yang bisa dimanfaatkan pengambil kebijakan pada setiap level hirarki (Camat, Bupati,

Direktorat Jenderal Pembelajaran dan Kemahasiswaan serta Kementerian Riset

Teknologi dan Pendidikan Tinggi).

Page 21: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

11

BAB 4

METODOLOGI PENELITIAN

4.1 Kajian Teori (Pengembangan Teori)

Kajian teori pada penelitian merupakan pengembangan teori dilakukan langkah-

langkah penelitian sebagai berikut:

1. Susun Directed Acyclic Graph (DAG) untuk menyatakan hubungan antara data yang

digunakan, parameter dan ditribusi prior serta hyperprior dalam model Hibermimo dua

level dengan pendekatan Bayesian

2. Gunakan ijy yaitu variabel respon status penerimaan beasiswa Bidikmisi individu ke- i

kabupaten- j , dimana ijy berdistribusi Bernoullli Mixture yang dinotasikan dengan

ij ijy Be .

3. Bentuk fungsi Likelihood

4. Bentuk distribusi posterior gabungan dari perkalian fungsi Likelihood, fungsi distribusi

prior dan fungsi distribusi hyperprior.

1 2, τ | | | τ , τ

| | τ τ

L

L

p p p p

p p p p

β γ y y β β γ γ

y β β γ γ

dengan

|Lp y β adalah fungsi Likelihood

1 | τp

β γ adalah fungsi distribusi prior tahap pertama (first stage prior)

2 τp

γ adalah fungsi distribusi prior tahap kedua (second stage prior)

5. Bentuk full conditional posterior distribution untuk setiap parameter yang akan diestimasi

berdasarkan distribusi posterior gabungan yang diperoleh pada langkah (4).

6. Tentukan nilai awal untuk setiap parameter yang akan diestimasi

0 0 0dan τ

β γ

7. Bangkitkan sampel parameter dengan menggunakan full conditional posterior distribution

yang diperoleh dalam langkah (6) secara iteratif sampai tercapai kondisi equilibrium,

sehingga akan diperoleh karakteristik penaksir parameter-parameter Hibermimo dua level.

Page 22: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

12

4.2 Kajian Empiris (Penelitian Aplikatif)

4.2.1 Sumber Data

Data yang digunakan dalam penelitian ini adalah: data Bidikmisi seluruh kabupaten di

Provinsi Jawa Tengah tahun 2015, data Indikator Kesejahteraan Sosial Provinsi Jawa Tengah

tahun 2016 (publikasi 2015) dan data Statistik Kesejahteraan Rakyat, Provinsi Jawa Tengah

tahun 2016 (publikasi 2015).

4.2.2 Skema Struktur Hirarki

Skema struktur hirarki data yang digunakan dalam pembentukan model hirarki untuk

estimasi penerimaan beasiswa Bidikmisi di Propinsi Jawa Tengah dijelaskan pada Gambar 4.1.

Gambar 4.1 Skema Struktur hirarki data Bidikmisi dalam pembentukan model hirarki penerimaan beasiswa

Bidikmisi di seluruh kabupaten/kota Provinsi Jawa Tengah

Terdapat dua tingkatan data dengan unit observasi untuk tingkat pertama dari struktur

hierarki data adalah data pendaftar beasiswa Bidikmisi. Sedangkan data untuk unit tingkat

kedua dari struktur hierarki data adalah kabupaten/kota. Setiap kabupaten/kota terdiri dari

beberapa sampel pendaftar beasiswa Bidikmisi. Pada struktur hierarki dapat diketahui bahwa

pendaftar beasiswa Bidikmisi tersarang (nested) pada wilayah di kabupaten/kota tempat

tinggal.

4.2.3 Variabel Penelitian

1. Variabel respon Y

Y = Status Penerimaan Beasiswa Bidikmisi (1 = diterima, 0 = tidak diterima)

𝑦11 𝑦12 … 𝑦1𝑛 𝑦21 𝑦22 … 𝑦2𝑛 𝑦𝑚1 𝑦𝑚2 … 𝑦𝑚𝑛

Kab/kota (1) Kab/kota (2) … Kab/kota (m)

Jawa Tengah

Level 1

Level 2

Page 23: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

13

2. Variabel Prediktor Mikro X

1X = Pekerjaan Ayah; 2X = Pekerjaan Ibu;

3X = Jumlah Tanggungan Keluarga; 4X = Pendidikan Ayah;

5X

= Pendidikan Ibu; 6X = Kepemilikan Rumah;

7X = Sumber Listrik yang digunakan; 8X = Luas Tanah Rumah;

9X = Luas Bangunan Rumah; 10X = Kepemilikan Fasilitas MCK;

11X = Sumber Air yang digunakan; 12X

= Jarak dari Rumah ke Kab/Kota; 13X = Penghasilan Ayah;

14X = Penghasilan Ibu

3. Variabel Prediktor Makro W

1W = Persentase Penduduk Miskin pada setiap kabupaten/kota Provinsi Jawa Tengah; 2W = Persentase

penduduk usia 19-24 yang tidak sekolah lagi; 3W = Persentase Rumah Tangga dengan Jenis atas Rumah yang

Menggunakan Asbes/Seng+Bambu/Kayu+Jerami/Ijuk/Daun-daunan/Lainnya; 4W = Persentase Rumah

Tangga dengan Jenis dinding Kayu/Batang Kayu; 5W = Persentase Rumah Tangga yang menerima subsidi

BBM; 6W = Persentase Rumah Tangga yang menerima Bantuan Siswa Miskin (BSM) SMA Sederajat

Kajian empiris untuk memperoleh model optimal Hibermimo dua level dilakukan

dengan langkah-langkah berikut:

1. Gunakan ijy yaitu variabel respon

2. Tentukan distribusi prior dan hyperprior dari parameter dan hyperparameter yang akan

diestimasi.

3. Bentuk distribusi posterior gabungan dari perkalian fungsi Likelihood, fungsi dstribusi

prior dan fungsi distribusi hyperprior

4. Bentuk full conditional posterior distribution untuk setiap parameter yang akan diestimasi

berdasarkan distribusi posterior gabungan.

5. Lakukan proses loading data dan kompilasi program untuk mengecek kesesuaian antara

model dengan data dan tetapkan nilai awal (initial value) untuk setiap parameter yang akan

diestimasi.

6. Tentukan banyaknya iterasi (T) untuk membangkitkan sampel tiap parameter.

7. Bangkitkan sampel parameter dengan menggunakan full conditional posterior

distribution yang diperoleh dalam langkah (6) secara iteratif sampai tercapai kondisi

equilibrium.

8. Lakukan proses burn in dengan meng-cut off sebanyak B sampel pertama.

Burn in akan berakhir sampai kondisi equilibrium tercapai.

9. Lakukan monitoring output dan evaluasi model.

10. Pilih model mixture terbaik diantara beberapa jumlah komponen mixture dengan cara

menghitung DIC model Hibermimo dua level untuk data Bidikmisi berdasarkan distribusi

Bernoulli Mixture.

Page 24: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

14

BAB 5

HASIL DAN LUARAN YANG DICAPAI

5. 1 Deskripsi Data Bidikmisi Provinsi Jawa Tengah 2015

Pada bagian ini akan dilakukan eksplorasi data Bidikmisi Provinsi Jawa Tengah Tahun

2015. Analisis statistika meliputi: deskripsi pendaftar Bidikmisi dan deskripsi penyebaran

pendaftar beasiswa Bidikmisi per Kabupaten/Kota Provinsi Jawa Tengah Tahun 2015

(Bidikmisi Indonesia 2015). Adapun karakteristik data siswa pendaftar beasiswa Bidikmisi

Provinsi Jawa Tengah 2015 disajikan sebagai berikut:

Provinsi Jawa Tengah

Jawa Tengah adalah sebuah provinsi Indonesia yang terletak di bagian tengah Pulau

Jawa. Ibu kotanya adalah Semarang. Provinsi ini berbatasan dengan Provinsi Jawa Barat di

sebelah barat, Samudra Hindia dan Daerah Istimewa Yogyakarta di sebelah selatan, dan Laut

Jawa di sebelah utara. Luas wilayahnya 32.548 km², atau sekitar 28,94% dari luas pulau Jawa.

Gambar 5.1 Peta Provinsi Jawa Tengah

Berikut di bawah ini adalah daftar nama-nama kota dan kabupaten di Provinsi Jawa Tengah.

Saat ini jumlah kabupaten yang ada di Jawa Tengah adalah 29 Kabupaten, dan jumlah kota

yang ada di Jawa Tengah adalah 6 Kota.

Page 25: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

15

Tabel 5.1 Kabupaten/Kota Provinsi Jawa Tengah

No. Kabupaten/Kota No. Kabupaten/Kota

1 Kab. Banjarnegara 19 Kab. Pemalang

2 Kab. Banyumas 20 Kab. Purbalingga

3 Kab. Batang 21 Kab. Purworejo

4 Kab. Blora 22 Kab. Rembang

5 Kab. Boyolali 23 Kab. Semarang

6 Kab. Brebes 24 Kab. Sragen

7 Kab. Cilacap 25 Kab. Sukoharjo

8 Kab. Demak 26 Kab. Tegal

9 Kab. Grobogan 27 Kab. Temanggung

10 Kab. Jepara 28 Kab. Wonogiri

11 Kab. Karanganyar 29 Kab. Wonosobo

12 Kab. Kebumen 30 Kota Magelang

13 Kab. Kendal 31 Kota Pekalongan

14 Kab. Klaten 32 Kota Salatiga

15 Kab. Kudus 33 Kota Semarang

16 Kab. Magelang 34 Kota Surakarta

17 Kab. Pati 35 Kota Tegal

18 Kab. Pekalongan

Adapun karakteristik data siswa pendaftar beasiswa Bidikmisi Provinsi Jawa Tengah 2015

berdasarkan jenis kelamin dalam penelitian ini dapat disajikan sebagai berikut:

Tabel 5.2 Data Pendaftar Beasiswa Bidikmisi Provinsi Jawa Tengah 2015 Berdasarkan Jenis Kelamin

Jenis kelamin Jumlah Persentase (%)

Laki-laki 8923 27,44%

Perempuan 23597 72,56%

Total Pendaftar 32520 100,00%

Pada tabel dapat diketahui bahwa jumlah keseluruhan pendaftar Bidikmisi Provinsi Jawa

Tengah 2015 adalah 32.520 siswa. Pendaftar Bidikmisi dengan jenis kelamin laki-laki sedikit

dibandingkan perempuan yaitu sebanyak 8.923 siswa laki-laki dengan proporsi 27,44 dan

23.597 siswa perempuan dengan proporsi sebesar 72,56%. Berdasarkan data sekunder yang

diperoleh dari Direktorat Jenderal Pembelajaran dan Mahasiswa, Kementerian Pendidikan

Tinggi, kanal Beasiswa Bidikmisi, diketahui bahwa siswa pendaftar beasiswa tersebar pada 10

Page 26: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

16

Kabupaten/Kota Provinsi Jawa Tengah. Deskripsi karakteristik pendaftar Bidikmisi Provinsi

Jawa Tengah 2015 per Kabupaten/Kota disajikan sebagai berikut.

Tabel 5.3 Rekapitulasi Jumlah Pendaftar Bidikmisi Provinsi Jawa Tengah 2015

No. Kabupaten/Kota Pendaftar

Jml %

1 Kab. Banjarnegara 579 1,78%

2 Kab. Banyumas 1645 5,06%

3 Kab. Batang 591 1,82%

4 Kab. Blora 830 2,55%

5 Kab. Boyolali 1181 3,63%

6 Kab. Brebes 1000 3,07%

7 Kab. Cilacap 1305 4,01%

8 Kab. Demak 988 3,04%

9 Kab. Grobogan 821 2,52%

10 Kab. Jepara 1438 4,42%

11 Kab. Karanganyar 1005 3,09%

12 Kab. Kebumen 2103 6,47%

13 Kab. Kendal 771 2,37%

14 Kab. Klaten 1681 5,17%

15 Kab. Kudus 881 2,71%

16 Kab. Magelang 1225 3,77%

17 Kab. Pati 1452 4,46%

18 Kab. Pekalongan 653 2,01%

19 Kab. Pemalang 1049 3,23%

20 Kab. Purbalingga 1101 3,39%

21 Kab. Purworejo 1145 3,52%

22 Kab. Rembang 601 1,85%

23 Kab. Semarang 983 3,02%

24 Kab. Sragen 592 1,82%

25 Kab. Sukoharjo 1154 3,55%

26 Kab. Tegal 899 2,76%

27 Kab. Temanggung 582 1,79%

28 Kab. Wonogiri 828 2,55%

29 Kab. Wonosobo 575 1,77%

30 Kota Magelang 241 0,74%

31 Kota Pekalongan 221 0,68%

32 Kota Salatiga 175 0,54%

33 Kota Semarang 976 3,00%

34 Kota Surakarta 989 3,04%

35 Kota Tegal 262 0,81%

Page 27: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

17

Pada tabel jumlah pendaftar serta persentase siswa pendaftar beasiswa Bidikmisi Provinsi

Jawa Tengah 2015 per Kabupaten/Kota menunjukkan bahwa pendaftar yang paling banyak

adalah pada Kabupaten Kebumen dengan jumlah pendaftar sebesar 2103 siswa atau 6.47%,

sedangkan pendaftar yang paling sedikit adalah pada Kota Salatiga dengan jumlah pendaftar

sebanyak 175 siswa atau 0.54% pendaftar. Rekapitulasi jumlah serta persentase proporsi siswa

pendaftar beasiswa Bidikmisi Provinsi Jawa Tengah Tahun 2015 yang diterima dan tidak

diterima disajikan pada tabel berikut:

Tabel 5.4 Rekapitulasi Penerimaan Beasiswa Bidikmisi Provinsi Jawa Tengah

Tahun 2015

Penerimaan Bidikmisi Jawa

Tengah

Pendaftar

Diterima Tidak Diterima

Status 7.678 24.844

23,61% 76,39%

Total 32.522

(100,00%)

Hasil analisis deskriptif menunjukkan bahwa dengan jumlah pendaftar Bidikmisi Provinsi Jawa

Tengah 2015 sebesar 32.522 terdapat 23,61% yang diterima, sedangkan yang tidak diterima

adalah sebesar 76,39%. Penyajian data penerimaan Bidikmisi Provinsi Jawa Tengah 2015 per

Kabupaten/Kota dapat dilihat pada tabel berikut:

Tabel 5.5 Rekapitulasi Penerimaan Bidikmisi Provinsi Jawa Tengah 2015 per Kabupaten/Kota

No. Kabupaten/Kota Jml

Pendaftar

Tidak

Diterima

% Tdk

Diterima Diterima

%

Diterima

1

Kab.

Banjarnegara 579 455 78,58% 124 21,42%

2 Kab. Banyumas 1645 1229 74,71% 416 25,29%

3 Kab. Batang 591 467 79,02% 124 20,98%

4 Kab. Blora 830 670 80,72% 160 19,28%

5 Kab. Boyolali 1181 879 74,43% 302 25,57%

6 Kab. Brebes 1000 856 85,60% 144 14,40%

7 Kab. Cilacap 1305 998 76,48% 307 23,52%

8 Kab. Demak 988 796 80,57% 192 19,43%

9 Kab. Grobogan 821 645 78,56% 176 21,44%

Page 28: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

18

No. Kabupaten/Kota Jml

Pendaftar

Tidak

Diterima

% Tdk

Diterima Diterima

%

Diterima

10 Kab. Jepara 1438 1143 79,49% 295 20,51%

11 Kab. Karanganyar 1005 802 79,80% 203 20,20%

12 Kab. Kebumen 2103 1568 74,56% 535 25,44%

13 Kab. Kendal 771 604 78,34% 167 21,66%

14 Kab. Klaten 1681 1266 75,31% 415 24,69%

15 Kab. Kudus 881 696 79,00% 185 21,00%

16 Kab. Magelang 1225 840 68,57% 385 31,43%

17 Kab. Pati 1452 1155 79,55% 297 20,45%

18 Kab. Pekalongan 653 527 80,70% 126 19,30%

19 Kab. Pemalang 1049 836 79,69% 213 20,31%

20 Kab. Purbalingga 1101 892 81,02% 209 18,98%

21 Kab. Purworejo 1145 793 69,26% 352 30,74%

22 Kab. Rembang 601 453 75,37% 148 24,63%

23 Kab. Semarang 983 763 77,62% 220 22,38%

24 Kab. Sragen 592 445 75,17% 147 24,83%

25 Kab. Sukoharjo 1154 855 74,09% 299 25,91%

26 Kab. Tegal 899 708 78,75% 191 21,25%

27 Kab. Temanggung 582 431 74,05% 151 25,95%

28 Kab. Wonogiri 828 597 72,10% 231 27,90%

29 Kab. Wonosobo 575 435 75,65% 140 24,35%

30 Kota Magelang 241 154 63,90% 87 36,10%

31 Kota Pekalongan 221 153 69,23% 68 30,77%

32 Kota Salatiga 175 130 74,29% 45 25,71%

33 Kota Semarang 976 709 72,64% 267 27,36%

34 Kota Surakarta 989 679 68,66% 310 31,34%

35 Kota Tegal 262 215 82,06% 47 17,94%

Hasil analisis statistika deskripsi secara visual daerah Kabupaten/Kota Provinsi Jawa Tengah

data penerimaan Bidikmisi 2015 disajikan menggunakan bar chart diberikan sebagai berikut:

Page 29: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

19

Gambar 5.2 Persentase Penerimaan Bidikmisi per Kabupaten/Kota Provinsi Jawa Tengah Tahun 2015

Analisis persentase menunjukkan bahwa Kota Magelang merupakan daerah yang memiliki

proporsi siswa penerima beasiswa Bidikmisi 2015 paling tinggi, yaitu sebanyak 36,1% lolos

seleksi beasiswa Bidikmisi Provinsi Jawa Tengah 2015. Kab. Magelang menempati posisi

peringkat kedua yaitu sebesar 31,43%.

Page 30: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

20

5. 2 Analisis Data Bidikmisi Provinsi Jawa Tengah

Kajian empiris pada penelitian membahas: 1) ketepatan klasifikasi model dengan

menggunakan analisis regresi Dummy, regresi Polytomus dan regresi Bernoulli Mixture

Bayesian-Level_1 serta 2) analisis cluster menggunakan Bayesian Hierarchical Cluster pada

data Bidikmisi Provinsi Jawa Tengah tahun 2015 (Bidikmisi Indonesia 2015). Metode

penelitian dilakukan dengan melakukan eksplorasi data terlebih dahulu. Data yang digunakan

adalah data Bidikmisi Provinsi Jawa Tengah 2015 yaitu data respon status siswa pendaftar

Bidikmisi yang diterima dan yang tidak diterima. Eksplorasi data dilakukan preprocessing

pada data Bidikmisi Indonesia 2015, merupakan suatu proses yang bertujuan untuk

meningkatkan kualitas kebermaknaan dalam eksplorasi variabel respon Y . Setelah

melakukan eksplorasi data respon Bidikmisi, maka langkah selanjutnya adalah mengkaji

berbagai literatur-literatur yang berhubungan dengan pemodelan data dan metode yang akan

digunakan untuk menganalisis data sesuai dengan pola data hasil eksplorasi di atas.

5.2.1 Variabel Penelitian

Program Beasiswa Bidikmisi diutamakan untuk masyarakat marginal atau dapat

dikatakan untuk masyarakat yang tidak mampu atau tergolong masyarakat miskin. Pada

laporan Badan Perencanaan dan Pembangunan Nasional atau Bappenas (2004) terdapat

indikator-indikator penyebab kemiskinan yang dalam penelitian diklasifikasikan menjadi 2

(dua) faktor utama yang dianggap sesuai dalam mempengaruhi siswa SMA/SMK/MA tidak

melanjutkan ke jenjang Perguruan Tinggi dikarenakan ketidakmampuan secara ekonomi yang

dipegaruhi oleh faktor sosial ekonomi, meliputi: faktor umur, jenis kelamin, tempat

tinggal/status kependudukan, pendidikan, pekerjaan, penghasilan dan kelas sosial.

Faktor sosial ekonomi tersebut terdapat keterkaitan satu sama lainnya yang membentuk

rantai kemiskinan. Rumah tangga yang tidak mampu secara ekonomi pada umumnya memiliki

pendidikan yang rendah dan terpusat di daerah pedesaan. Pendidikan rendah berimplikasi

dengan produktivitas yang rendah, sehingga imbalan/pendapatan/penghasilan yang akan

diperoleh tidak memadai untuk memenuhi kebutuhan pangan, sandang, kesehatan, perumahan,

dan pendidikan. Akibatnya, rumah tangga miskin akan menghasilkan keluarga-keluarga miskin

pula pada generasi berikutnya. Faktor-faktor tersebut merupakan kerangka konseptual yang

menggambarkan variabel-variabel yang akan diukur atau diamati dalam penelitian disajikan

pada Gambar 5.3.

Page 31: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

21

Gambar 5.3 Kerangka Konseptual Variabel-Variabel Penelitian

Variabel penelitian yang digunakan dalam penelitian ini terdiri dari variabel respon dan

variabel prediktor.

Variabel Deskripsi

Y Status penerimaan beasiswa Bidikmisi seluruh kabupaten/kota di

Provinsi Jawa Tengah

X mikro Karakteristik calon mahasiswa pendaftar beasiswa Bidikmisi

seluruh kabupaten/kota di Provinsi Jawa Tengah

Variabel-variabel penelitian dari data Bidikmisi yang akan diteliti terdiri dari variabel

respon Y dan variabel prediktor mikro X . Rincian variabel respon dan variabel prediktor

mikro yang digunakan dalam penelitian disajikan pada sebagai berikut:

Faktor Sosial Ekonomi

Pekerjaan Ayah

Pekerjaan Ibu

Jumlah Tanggungan Keluarga

Pendidikan Ayah

Pendidikan Ibu

Penghasilan Ayah

Penghasilan Ibu

Status Penerimaan Beasiswa

Bidikmisi

Page 32: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

22

Tabel 5.6 Rincian Variabel Penelitian

Var Deskripsi Skala

Data Keterangan

Y Status Penerimaan Beasiswa

Bidikmisi

Kategori 1=Diterima Bidikmisi

0=Tidak Diterima Bidikmisi

1X Pekerjaan Ayah Kategori 1=Petani, Nelayan, Lainnya

2=TNI/POLRI

3=Wirausaha

4= Peg. Swasta

5= PNS

5X Kepemilikan Rumah Tinggal

Keluarga

Kategori 1= Tidak Memiliki Rumah

2=Sewa (Tahunan, Bulanan) dan

menumpang

3= Sendiri

2X Pekerjaan Ibu Kategori 1=Petani, Nelayan, Lainnya

2=TNI/POLRI

3=Wirausaha

4= Peg. Swasta

5= PNS

3X Pendidikan Ayah Kategori 1=Tidak Sekolah

2= Pendidikan Dasar (SD/MI dan

SMP/MTs)

3= SMA/MA

4= PT (D1, D2/D3, S1/D4)

4X Pendidikan Ibu Kategori 1=Tidak Sekolah

2= Pendidikan Dasar (SD/MI dan

SMP/MTs)

3= SMA/MA

4= PT (D1, D2/D3, S1/D4)

Definisi Operasional Variabel Penelitian

1. Status Penerimaan Beasiswa Bidikmisi

Status penerimaan siswa SLTA/SMA/MA kelas 12 yang mendaftar beasiswa Bidikmisi di

seluruh Kabupaten/Kota Propinsi Indonesia.

2. Pekerjaan Ayah

Pekerjaan Ayah adalah suatu aktivitas sehari-hari yang dilakukan Ayah untuk memenuhi

kebutuhan harian.

3. Pekerjaan Ibu

Pekerjaan Ibu adalah suatu aktivitas sehari-hari yang dilakukan Ibu untuk memenuhi

kebutuhan harian.

4. Pendidikan Ayah

Pendidikan Ayah adalah pendidikan formal tertinggi yang dimiliki oleh Ayah siswa

pendaftar beasiswa Bidikmisi.

5. Pendidikan Ibu

Pendidikan Ibu adalah pendidikan formal tertinggi yang dimiliki oleh Ibu siswa pendaftar

beasiswa Bidikmisi.

Page 33: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

23

5.2.2 Pre-processing Bernoulli Mixture

Penjelasan teknik-teknik yang digunakan pada tahap pre-processing Bernoulli Mixture

data identifikasi Bernoulli mixture distribution adalah sebagai berikut:

1. Teknik data reduction: mereduksi data dengan cara mem-filter data berdasarkan

Kabupaten/Kota di provinsi Jawa Tengah pada database data Bidikmisi seluruh provinsi di

Indonesia.

2. Teknik data cleaning: membersihkan data dengan cara memperbaiki inkonsistensi data

dengan mengisi missing value pada covariate variable.

3. Teknik data integration: mengintegrasikan masing-masing variabel yaitu variabel respon

(Y) dan covariate variable (X)

4. Teknik data transformation: mentrasformasikan data untuk proses identifikasi Bernoulli

mixture distribution dengan langkah-langkah sebagai berikut:

Step 1. ambil variabel respon (Y)

Step 2. pilih covariate “penghasilan ayah”, “penghasilan ibu” dan “jumlah tanggungan

keluarga”

Step 3. buat covariate baru dengan hitung jumlah “penghasilan ayah”dan “penghasilan ibu”

dibagi “jumlah tanggungan keluarga”, kemudian beri nama dengan “Kode Kategori

(KK)”.

Step 4. coding-kan covariate “KK” dengan kriterian sebagai berikut:

0 = jika KK > Rp. 750.000 per kepala dalam keluarga termasuk dalam kategori

mampu.

1 = jika KK < Rp. 750.000 per kepala dalam keluarga termasuk dalam kategori tidak

mampu.

Step 5. pasangkan variabel respon (Y) dengan KK pada Langkah 4 akan diperoleh KP

(Kondisi Penerimaan) dengan tabel klasifikasi kondisi penerimaan Bidikmisi

“salah” dan “benar” diberikan sebagai berikut:

Page 34: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

24

Tabel 5.7 Klasifikasi berdasarkan Kondisi Penerimaan Beasiswa Bidikmisi Indonesia 2015

Y KK KP Kondisi Interpretasi

1 0 0 salah Kondisi penerimaan salah (KP = 0) jika siswa diterima (Y = 1)

dengan kategori mampu (KK = 0)

0 1 0 salah Kondisi penerimaan salah (KP = 0) jika siswa tidak diterima

(Y = 0) dengan kategori tidak mampu (KK = 1)

1 1 1 benar Kondisi penerimaan benar (KP = 1) jika siswa diterima (Y = 1)

dengan kategori tidak mampu (KK = 1)

0 0 1 benar Kondisi penerimaan salah (KP = 1) jika siswa tidak diterima

(Y = 0) dengan kategori mampu (KK = 0)

Hasil pre-processing dengan melibatkan kovariat penciri penerima beasiswa Bidikmisi

menghasilkan data respon berdistribusi Bernoulli mixture dua komponen yaitu komponen

kondisi peneriman salah dan komponen kondisi penerimaan benar. Klasifikasi akan

dibandingkan dengan menggunakan pendekatan Polytomous, sehingga akan diperoleh 4

(empat) kriteria klasifikasi yang diberikan sebagai berikut:

Tabel 5.8 Klasifikasi Polytomous Penerimaan Beasiswa Bidikmisi Indonesia 2015

Y KK KP Kode_Poly Interpretasi

0 0 1 1 Kondisi penerimaan salah (KP = 1) jika siswa tidak diterima

(Y = 0) dengan kategori mampu (KK = 0)

0 1 0 2 Kondisi penerimaan salah (KP = 0) jika siswa tidak diterima

(Y = 0) dengan kategori tidak mampu (KK = 1)

1 0 0 3 Kondisi penerimaan salah (KP = 0) jika siswa diterima (Y = 1)

dengan kategori mampu (KK = 0)

1 1 1 4 Kondisi penerimaan benar (KP = 1) jika siswa diterima (Y = 1)

dengan kategori tidak mampu (KK = 1)

5.2.3 Analisis Klasifikasi Regresi Dummy, Regresi Polytomous dan Regresi Bernoulli

Mixture Bayesian-Level_1

Pada analisis klasifikasi dengan menggunakan Regresi Dummy, Regresi Polytomous dan

Regresi Bernoulli Mixture Bayesian-Level_1 diberikan model persamaan umum sebagai

berikut:

1. Persamaan umum model Regresi Dummy adalah sebagai berikut:

0 1 11 2 12 3 13 4 14 5 21 6 22 7 23 8 24 9 31 10 32 11 33 12 41 13 42 14 43+ d + d + d + d + d + d + d + d + d d + d d d dg x

Persamaan untuk menentukan nilai peluang (odds ratio) adalah sebagai berikut:

1 e

g x

g xx

Page 35: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

25

atau

exp + d + d + d + d + d + d + d + d + d d + d d d d5 70 1 11 2 12 3 13 4 14 21 6 22 23 8 24 9 31 10 32 11 33 12 41 13 42 14 43

ˆ1 exp + d + d + d + d + d + d + d + d + d d + d d5 70 1 11 2 12 3 13 4 14 21 6 22 23 8 24 9 31 10 32 11 33 12 41

x

d d13 42 14 43

2. Persamaan umum model Regresi Polytomous

Pada model regresi logistik dikotomi, variabel terikat (variabel dependen) dinyatakan

dalam fungsi logit untuk Y =1 dibandingkan dengan fungsi logit untuk Y = 0. Sedangkan,

dalam model regresi polytomous atau model multinomial logit dengan 4 (empat) kategori,

maka terdapat 3 fungsi logit, yaitu:

Fungsi logit Y = 2 relatif terhadap fungsi logit untuk Y = 1

Fungsi logit Y = 3 relatif terhadap fungsi logit untuk Y = 1

Fungsi logit Y = 4 relatif terhadap fungsi logit untuk Y = 1

dimana kategori Y = 1 merupakan kategori pembanding

Sehingga persamaan umum model Regresi Polytomous diberikan sebagai berikut:

2

1

1

10 11 11 12 12 13 13 14 14 15 21 16 22 17 23 18 24 19 31 110 32

111 33 112 41 113 42 114 43

Pr 2 | Pln ln

Pr 1| P

= + d + d + d + d + d + d + d + d + d d +

d d d d

Y xZ x

Y x

3

2

1

20 21 11 22 12 23 13 24 14 25 21 26 22 27 23 28 24 29 31 210 32

211 33 212 41 213 42 214 43

Pr 3 | Pln ln

Pr 1| P

= + d + d + d + d + d + d + d + d + d d +

d d d d

Y xZ x

Y x

4

3

1

30 31 11 32 12 33 13 34 14 35 21 36 22 37 23 38 24 39 31 310 32

311 33 312 41 313 42 314 43

Pr 4 | Pln ln

Pr 1| P

= + d + d + d + d + d + d + d + d + d d +

d d d d

Y xZ x

Y x

3. Persamaan umum model Regresi Bernoulli Mixture Bayesian-Level_1

Pada regresi Bernoulli Mixture Bayesian-Level_1 untuk memodelkan penerimaan

beasiswa Bidikmisi dilakukan dengan membuat doodle sebagai berikut.

Page 36: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

26

Gambar 5.4 Doodle Regresi Bernoulli Mixture Bayesian-Level_1

Persamaan umum model Regresi Bernoulli Mixture Bayesian-Level_1 adalah sebagai

berikut:

- -1 -1 -2 -2f x g x g xB mix mix mix mix mix

dengan

1 10 11 11 12 12 13 13 14 14 15 21 16 22 17 23 18 24 19 31 110 32

111 33 112 41 113 42 114 43

+ d + d + d + d + d + d + d + d + d d +

d d d d

mixg x

2 20 21 11 22 12 23 13 24 14 25 21 26 22 27 23 28 24 29 31 210 32

211 33 212 41 213 42 214 43

+ d + d + d + d + d + d + d + d + d d +

d d d d

mixg x

sehingga

10 11 11 12 12 13 13 14 14 15 21 16 22 17 23 18 24 19 31 110 32

111 33 112 41 113 42 114 43

20 21 11 22 12

- -1

-2

+ d + d + d + d + d + d + d + d + d d +

d d d d

+ d + d +

f xB mix mix

mix

23 13 24 14 25 21 26 22 27 23 28 24 29 31 210 32

211 33 212 41 213 42 214 43

d + d + d + d + d + d + d d +

d d d d

Persamaan untuk menentukan nilai peluang (odds ratio) model Regresi Bernoulli Mixture

Bayesian-Level_1 adalah sebagai berikut:

Page 37: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

27

-1 -2

-1 -2

10 11 11 12 12 13 13 14 14 15 21 16 22

- -1 -1 -2 -2

-1 -2

-1

ˆ ˆ

e e =

1 e 1 e

+ d + d + d + d + d + dexp

=

mix mix

mix mix

g x g x

g x g x

f xB mix mix mix mix mix

mix mix

mix

x x

17 23 18 24 19 31 110 32

111 33 112 41 113 42 114 43

10 11 11 12 12 13 13 14 14 15 21 16 22 17 23 18 24 19 31 110 32

111 33

+ d + d + d d +

d d d d

+ d + d + d + d + d + d + d + d + d d + 1 exp

d

112 41 113 42 114 43

10 11 11 12 12 13 13 14 14 15 21 16 22 17 23 18 24 19 31 110 32

111 33 112 41 113 42 114

-2

d d d

+ d + d + d + d + d + d + d + d + d d + exp

d d d d

mix

43

20 21 11 22 12 23 13 24 14 25 21 26 22 27 23 28 24 29 31 210 32

211 33 212 41 213 42 214 43

+ d + d + d + d + d + d + d + d + d d +

1 exp d d d d

5.2.4 Regresi Dummy, Regresi Polytomous dan Regresi Bernoulli Mixture

Bayesian-Level_1 Provinsi Jawa Tengah

1. Regresi Dummy Provinsi Kepulauan Jawa Tengah

Pengujian signifikansi parameter model regresi dummy Provinsi Kepulauan Jawa Tengah

secara serentak dimana data in-sample dipisahkan menjadi dua kelompok, yaitu kelompok

dengan kriteria KK “ Mampu” dan “Tidak Mampu” dapat dilihat pada tabel berikut:

Tabel 5.9 Signifikansi Parameter Model Regresi Dummy Provinsi Kepulauan Jawa Tengah

Dummy

Parameter Mean SE Significant

Mampu (0)

Intercept-0 -1.40778 0.29119

X1 d11[1] 0.38779 0.15827

d12[1] -0.22194 0.52158 -

d13[1] 0.52562 0.17284

d14[1] 0.19898 0.16843 -

X2 d21[1] 0.07123 0.25453 -

d22[1] 0 0 -

d23[1] -0.14273 0.2666 -

d24[1] -0.0634 0.26938 -

X3 d31[1] 0.12197 0.19535 -

d32[1] -0.14371 0.07281

d33[1] 0.09349 0.0692 -

X4 d41[1] -0.39253 0.18547

d42[1] -0.13519 0.07066

d43[1] 0.16211 0.07247

Page 38: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

28

Dummy

Parameter Mean SE Significant

Tidak Mampu (1)

Intercept-1 -2.16142 0.643373

X1 d11[2] 0.10349 0.20562 -

d12[2] 0.619933 0.677981 -

d13[2] 0.212723 0.211322 -

d14[2] -0.00224 0.212779 -

X2 d21[2] 1.070287 0.614808

d22[2] -8.15017 119.4696 -

d23[2] 0.896073 0.618586 -

d24[2] 1.008775 0.622294 -

X3 d31[2] 0.02825 0.116553 -

d32[2] -0.11847 0.046891

d33[2] 0.050147 0.047386 -

X4 d41[2] -0.31336 0.109479

d42[2] -0.23946 0.045303

d43[2] 0.077003 0.049363 -

Ketepatan klasifikasi model regresi dummy Provinsi Kepulauan Jawa Tengah digunakan untuk

mengukur tingkat akurasi model yang telah ditetapkan. Berikut merupakan tabel klasifikasi

antara nilai aktual dengan hasil prediksi model regresi dummy berdasarkan pada kriteria KK.

Tabel 5.10 Ketepatan Klasifikasi Model Regresi Dummy Provinsi Kepulauan Jawa Tengah

Aktual

Y_Head

Klasifikasi

% Mampu

(0)

Tidak Mampu

(1)

Y_Test (0) 25 20,75%

Y_Test (1) 379

2. Regresi Polytomous Provinsi Kepulauan Jawa Tengah

Pengujian signifikansi parameter data in-sample untuk pembentukan model regresi

polytomous Provinsi Kepulauan Jawa Tengah dilakukan secara serentak. Hasil analisis dapat

dilihat pada tabel berikut:

Page 39: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

29

Tabel 5.11 Signifikansi Parameter Model Regresi Polytomous Provinsi Kepulauan Jawa Tengah

Dummy

Parameter Mean SE Significant

Poly-2

Intercept-2 -2.42804 0.27783

X1 d11[2] 1.70481 0.126661

d12[2] -0.55129 0.482162 -

d13[2] 1.524862 0.134603

d14[2]

1.073372

0.132664

X2 d21[2] 1.852895 0.250735

d22[2] 9.339628 1.43E-05

d23[2] 1.240846 0.255683

d24[2]

0.904455

0.259132

X3 d31[2] 0.124495 0.113554 -

d32[2] 0.003297 0.043508 -

d33[2] 0.022356 0.044486 -

X4 d41[2] -0.0103 0.098664 -

d42[2] 0.00191 0.042684 -

d43[2] -0.03379 0.047254 -

Poly-3

Intercept-3 -1.38608 0.289472

X1 d11[1] 0.378253 0.158182

d12[1] -0.229 0.521554 -

d13[1] 0.507531 0.171975

d14[1] 0.19828 0.168388 -

X2 d21[1] 0.060493 0.254322 -

d22[1] -1.3799 6.86E-07

d23[1] -0.141 0.265945 -

d24[1] -0.065 0.269139 -

X3 d31[1] 0.115975 0.193834 -

d32[1] -0.14776 0.072586

d33[1] 0.088638 0.068849 -

X4 d41[1] -0.39582 0.184297

d42[1] -0.13485 0.070465

d43[1] 0.158513 0.072034

Page 40: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

30

Dummy

Parameter Mean SE Significant

Poly-4

Intercept-4 -4.61943 0.62288

X1 d11[2] 1.824079 0.193996 -

d12[2] 0.094661 0.581445

d13[2] 1.75778 0.202052

d14[2] 1.080539 0.201832

X2 d21[2] 2.93673 0.594182

d22[2] -0.388 4.15E-06

d23[2] 2.146391 0.598447

d24[2] 1.922307 0.601671

X3 d31[2] 0.153524 0.142367 -

d32[2] -0.11337 0.055239

d33[2] 0.075315 0.055312 -

X4 d41[2] -0.3226 0.129197

d42[2] -0.23818 0.053607

d43[2] 0.04269 0.057876 -

Ketepatan klasifikasi model regresi polytomous Provinsi Kepulauan Jawa Tengah digunakan

untuk mengukur tingkat akurasi model yang telah ditetapkan. Berikut merupakan tabel

klasifikasi antara nilai aktual dengan hasil prediksi model regresi polytomous berdasarkan pada

kriteria penerimaan beasiswa Bidikmisi Indonesia 2015.

Tabel 5.12 Ketepatan Klasifikasi Model Regresi Polytomous Provinsi Kepulauan Jawa Tengah

Aktual Y_Head Klasifikasi

% (1) (2) (3) (4)

Y_Test (1) 12

62,95% Y_Test (2) 4112

Y_Test (3) 0

Y_Test (4) 0

3. Regresi Bernoulli Mixture Bayesian-Level_1 Provinsi Jawa Tengah

Pembentukan model regresi Bernoulli Mixture Bayesian-Level_1 provinsi Jawa Tengah

dilakukan dengan running program untuk mendapatkan model regresi yang tidak terdapat

autokorelasi. Gambar adalah plot autocorrelation dengan menggunakan 10.000 thin 40 iterasi.

Page 41: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

31

Gambar 5.5 Plot ACF pada Regresi Bernoulli Mixture Bayesian-Level_1 Provinsi Jawa Tengah

Serial nilai sampel memperlihatkan pola random yang stabil dalam suatu domain tetap,

menunjukkan terpenuhinya sifat irreducible, aperiodic dan recurrent. Serial seluruh sampel

nilai estimasi parameter ditunjukkan melalui serial plot disajikan pada gambar berikut:

Gambar 5.6 Serial Plot 10.000 iterasi thin 40 Model Regresi Bernoulli Mixture Bayesian-Level_1 Provinsi

Jawa Tengah

Page 42: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

32

Estimasi parameter Model Regresi Bernoulli Mixture Bayesian Provinsi Jawa Tengah

ditampilkan dalam tabel berikut:

Tabel 5.13 Signifikansi Parameter Model Regresi Bernoulli Mixture Bayesian Provinsi Jawa Tengah

Parameter Dummy

Mean Standar

Deviasi 2,50% 97,50% Significant

Parameter

P[1] 0,6101 0,0030 0,6042 0,6160

P[2] 0,3899 0,0030 0,3840 0,3958

b0[1] 0,9346 0,1628 0,6168 1,2560

X1 d11[1] -1,2890 0,0919 -1,4700 -1,1100

d12[1] 0,1479 0,4590 -0,7617 1,0440 No

d13[1] -0,9718 0,1009 -1,1670 -0,7724

d14[1] -0,8357 0,1010 -1,0320 -0,6393

X2 d21[1] -1,7330 0,1476 -2,0260 -1,4460

d22[1] -10,8500 118,5000 -243,8000 223,4000 No

d23[1] -1,3300 0,1587 -1,6400 -1,0220

d24[1] -0,9147 0,1632 -1,2280 -0,5957

X3 d31[1] -0,0052 0,1204 -0,2430 0,2250 No

d32[1] -0,1518 0,0453 -0,2395 -0,0623

d33[1] 0,0856 0,0445 -0,0004 0,1736 No

X4 d41[1] -0,3856 0,1172 -0,6181 -0,1625

d42[1] -0,1305 0,0440 -0,2171 -0,0456

d43[1] 0,1970 0,0458 0,1068 0,2860

b0[2] -4,7330 0,2747 -5,2560 -4,1940

X1 d11[2] 1,8560 0,1000 1,6620 2,0490

d12[2] 0,0361 0,4087 -0,7967 0,7998 No

d13[2] 1,8120 0,1083 1,6010 2,0240

d14[2] 1,0940 0,1089 0,8831 1,3100

X2 d21[2] 3,0130 0,2670 2,4780 3,5200

d22[2]

d23[2] 2,2060 0,2717 1,6640 2,7190

d24[2] 1,9790 0,2771 1,4350 2,5110

X3 d31[2] 0,1714 0,0985 -0,0199 0,3663 No

d32[2] -0,1119 0,0373 -0,1849 -0,0387

d33[2] 0,1034 0,0385 0,0267 0,1788

X4 d41[2] -0,3262 0,0896 -0,5013 -0,1532

d42[2] -0,2403 0,0361 -0,3117 -0,1701

d43[2] 0,0406 0,0403 -0,0392 0,1191 No

Ketepatan klasifikasi model regresi Bernoulli Mixture Bayesian Provinsi Jawa Tengah

digunakan untuk mengukur tingkat akurasi model yang telah ditetapkan. Berikut merupakan

Page 43: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

33

tabel klasifikasi antara nilai aktual dengan hasil prediksi model regresi Bernoulli Mixture

Bayesian berdasarkan pada kriteria penerimaan beasiswa Bidikmisi Indonesia 2015.

Tabel 5.14 Ketepatan Klasifikasi Model Regresi Bernoulli Mixture Bayesian Provinsi Jawa Tengah

Aktual Y_Head Klasifikasi

% (mix-1) (mix-2)

Y_Test (mix-1) 76,85

Y_Test (mix-2)

5. 3 Analisis Klasifikasi Bidikmisi dengan Metode Random Forest

Adapun tahap dalam penelitian untuk penelitian setelah dilakukan pre-processing adalah

menerapkan algoritma random forest pada data Beasiswa Bidikmisi tahun 2017 di Jawa

Tengah.

langkah-langkah analisis metode random forest. Langkah pertama adalah menentukan

nilai m yaitu nilai variabel prediktor penting dan k yaitu nilai pohon yang digunakan dalam

analisis, dimana nilai m yang digunakan adalah 1, , dan 2

2p p p . p adalah banyaknya

variabel predictor yang digunakan pada penelitian ini yaitu p = 11. Sehingga nilai p yang

digunakan adalah 2, 4, dan 8. Langkah selanjutnya adalah menentukan nilai k. Umumnya nilai

k = 50 sudah memberikan hasil yang memuaskan pada masalah klasifikasi (Breimann, 1996),

sedangkan Sutton (2005) menyarankan menggunakan 100k karena dengan nilai tersebut

cenderung menghasilkan misklasifikasi yang konstan. Sehingga k yang digunakan pada

penelitian ini adalah 25, 50, 100, dan 500. Selanjutnya akan disajikan perbandingan nilai m dan

k untuk melihat kombinasi mana yang menghasilkan nilai misklasifikasi paling kecil disajikan

pada Gambar 5.7 dan Gambar 5.8.

Gambar 5.7 menunjukkan perubahan nilai m menyebabkan error klasifikasi berubah-

ubah. Nilai error klasifikasi menurun ketika m = 4, kemudian naik drastis ketika m = 8, untuk

setiap nilai k polanya sama. Sehingga dapat disimpulkan bahwa nilai m optimum ketika jumlah

variabel predictor sama dengan 4. Gambar 5.8 menunjukkan perubahan error klasifikasi akibat

berubahnya nilai k. Pada saat nilai m = 8, semakin besar nilai k maka semakin besar pula nilai

error klasifikasinya.

Page 44: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

34

842

0.03675

0.03650

0.03625

0.03600

0.03575

0.03550

0.03525

0.03500

prediktor (m)

err

or

kla

sif

ika

si

25

50

100

500

k

Gambar 5.7 Error Klasifikasi Random Forest Berukuran Pohon k Untuk Setiap Prediktor m

5001005025

0.03675

0.03650

0.03625

0.03600

0.03575

0.03550

0.03525

0.03500

Pohon (k)

err

or

kla

sif

ika

si

2

4

8

m

Gambar 5.8 Error Klasifikasi Random Forest Prediktor m Untuk Setiap Pohon k

Lain halnya untuk m = 4, ketika ukuran k antara 25 sampai 50 nilai error klasifikasinya menurun

kemudian naik pada saat k = 100, kemudian turun lagi ketika k = 500. Untuk m = 2 nilai error

klasifikasi cenderung turun pada saat nilai k antara 25 sampai 100, kemudian stabil pada saat k

= 500. Berdasarkan Gambar 5.9 dan Gambar 5.10, nilai error terendah diperoleh pada saat m =

4 dan k = 100. Dapat dikatakan bahwa akurasi untuk metode random forest akan mencapai

optimal ketika prediktornya berjumlah 4 dan konvergen pada saat menggunakan 100 pohon

klasifikasi.

5. 4 Analisis Klasifikasi Data Bidikmisi dengan Metode Adaptive Bossting M2

(AdaBoost.M2) dengan Random Forest Sebagai Base Classifier

Pembentukan model dilakukan dengan membagi data menjadi data training dan data

testing. Data training digunakan untuk membangun model dan data testing untuk validasi

Page 45: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

35

model. Penelitian ini menggunakan 5-fold cross validation dengan partisi 20% untuk setiap

foldnya. AdaBoost.M2 adalah perluasan dari AdaBoost, dimana AdaBoost.M2 menggunakan

pseudo-loss untuk menghitung residualnya. Berikut adalah hasil confussion matrix

AdaBoost.M2 menggunakan random forest sebagai base classifier.

Tabel 5.15 Confussion Matrix AdaBoost.M2 untuk Masing-masing Iterasi

Iterasi 5 Iterasi 10

Actual

Class

Prediction Class

Total Actual

Class

Prediction Class

Total Tidak

Diterima Diterima

Tidak

Diterima Diterima

Tidak

Diterima 0 367 367

Tidak

Diterima 1 366 367

Diterima 3 10156 10159 Diterima 25 10134 10159

Total 3 10523 10526 Total 26 10500 10526

Iterasi 15 Iterasi 25

Actual

Class

Prediction Class

Total Actual

Class

Prediction Class

Total Tidak

Diterima Diterima

Tidak

Diterima Diterima

Tidak

Diterima 1 367 368

Tidak

Diterima 1 366 367

Diterima 22 10137 10159 Diterima 22 10137 10159

Total 23 10504 10527 Total 23 10503 10526

Iterasi 30 Iterasi 50

Actual

Class

Prediction Class

Total Actual

Class

Prediction Class

Total Tidak

Diterima Diterima

Tidak

Diterima Diterima

Tidak

Diterima 2 367 369

Tidak

Diterima 3 364 367

Diterima 30 10129 10159 Diterima 31 10128 10159

Total 32 10496 10528 Total 34 10492 10526

Tabel 5.15 menyajikan confussion matrix untuk metode AdaBoost.M2, dari tabel

tersebut dapat pula dihitung nilai performansi secara manual untuk Iterasi ke-10.

TP 1Presisi 0,0385

(TP+FP) (1 25)

TP 1Recall= 0,0027

(TP+FN) (1 366)

2(Recall×Presisi) 0,00021F-Value= 0,0051

(Recall+Presisi) 0,04123

Sensitivity 0,00273

Page 46: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

36

TN 10134Specificity= 0,9975

(TN+FP) (10134 25)

G-Mean Sensitivity × Specificity 0,00273 0,9975 = 0,0521 =

TPR 0,00272

FPR 1 Specificity 1 0,9975 0,00246

1 TPR-FPR 1,00033AUC 0,50013

2 2

Gambar 5.9 Nilai Kinerja Performansi pada Beberapa Iterasi AdaBoost.M2

Gambar 5.9 menyajikan kinerja performansi klasifikasi data Bidikmisi pada tiap iterasi

yang digunakan. Nilai recall, presisi dan f-value cenderung mengalami peningkatan, walaupun

dengan nilai yang masih sangat kecil. Nilai presisi berkaitan dengan banyaknya objek yang

diprediksi ke dalam kelas positif, dengan semakin naiknya kurva maka dapat dikatakan bahwa,

semakin tinggi jumlah iterasi, maka semakin banyak objek yang diklasifikasikan masuk ke

dalam kelas positif. Namun, jumlah false positif lebih banyak dibandingkan true positifnya

sehingga nilai presisi sangat kecil.

0 0,003 0,003 0,003 0,005 0,0080

0,0380,043 0,043

0,063

0,088

00,005 0,005 0,005

0,0100,015

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

0,10

5 1 0 1 5 2 5 3 0 5 0

KIN

ERJA

PER

FOR

MA

NSI

ITERASI

Recall Presisi F-Value

Page 47: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

37

Gambar 5.10 Nilai G-Mean dan AUC pada Beberapa Iterasi AdaBoost.M2

Gambar 5.10 menunjukkan ukuran kinerja performansi yaitu G-Means dan AUC untuk model

AdaBoost.M2. Nilai G-mean dan AUC cenderung mencapai maksimal pada iterasi ke-50,

dengan nilai 50,256% dan 9,027%.

5. 5 Analisis Klasifikasi Data Bidikmisi dengan Metode SMOTE-Boosting dengan

Random Forest Sebagai Base Classifier

Seperti penjelasan sebelumnya, data dibagi menjadi data training dan data testing

menggunakan 5-fold cross validation. Kemudian membangkitkan data synthetic untuk

menyeimbangkan komposisi kelas mayoritas dan kelas minor menggunakan algoritma

SMOTE. Dengan menggunakan beberapa iterasi dan nilai over-sampling rate dari SMOTE,

Tabel 5.16 menyajikan confussion matrix untuk metode SMOTE-Boosting, dari tabel tersebut

dapat pula dihitung nilai performansi secara manual. Diberikan contoh untuk menghitung

performansi Iterasi ke-10.

TP 32Presisi 0,042

(TP+FP) (32 732)

TP 32Recall= 0,087

(TP+FN) (32 335)

2(Recall×Presisi) 0,00771F-Value= 0,057

(Recall+Presisi) 0,129

Sensitivity 0,087

0,000

5,214 5,207 5,2147,351 9,027

49,985 50,013 50,028 50,028 50,123 50,256

0

10

20

30

40

50

60

5 1 0 1 5 2 5 3 0 5 0

KIN

ERJA

PER

FOR

MA

NSI

(%

)

ITERASI

G-Mean AUC

Page 48: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

38

TN 9427Specificity= 0,928

(TN+FP) (9427 732)

G-Mean Sensitivity × Specificity 0,065 0,999 = 0,2841=

TPR 0,087

FPR 1 Specificity 1 0,999 0,072

1 TPR-FPR 1,015AUC 0,5075

2 2

Tabel 5.16 Confussion Matrix SMOTE-Boosting untuk Masing-masing Iterasi

Iterasi 5 Iterasi 10

Actual

Class

Prediction Class

Total Actual

Class

Prediction Class

Total Tidak

Diterima Diterima

Tidak

Diterima Diterima

Tidak

Diterima 27 340 367

Tidak

Diterima 32 335 367

Diterima 634 9525 10159 Diterima 732 9427 10159

Total 661 9865 10526 Total 764 9762 10526

Iterasi 15 Iterasi 25

Actual

Class

Prediction Class

Total Actual

Class

Prediction Class

Total Tidak

Diterima Diterima

Tidak

Diterima Diterima

Tidak

Diterima 32 335 367

Tidak

Diterima 37 330 367

Diterima 961 9199 10160 Diterima 959 9201 10160

Total 993 9534 10527 Total 996 9531 10527

Iterasi 30 Iterasi 50

Actual

Class

Prediction Class

Total Actual

Class

Prediction Class

Total Tidak

Diterima Diterima

Tidak

Diterima Diterima

Tidak

Diterima 36 331 367

Tidak

Diterima 33 334 367

Diterima 940 9220 10160 Diterima 953 9206 10159

Total 976 9551 10527 Total 986 9540 10526

Page 49: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

39

Gambar 5.11 Nilai Kinerja Performansi pada Beberapa Iterasi SMOTE-Boosting

Gambar 5.11 menyajikan kinerja performansi klasifikasi data Bidikmisi pada tiap

iterasi yang digunakan. Nilai recall dan f-value mengalami fluktuasi, walaupun dengan nilai

yang masih sangat kecil. Nilai presisi berkaitan dengan banyaknya objek yang diprediksi ke

dalam kelas positif, karena jumlah false positif lebih banyak dibandingkan true positifnya

sehingga nilai presisi sangat kecil.

Gambar 5.12 Nilai G-Mean dan AUC pada Beberapa Iterasi SMOTE-Boosting

Gambar 5.12 menunjukkan ukuran performansi yaitu G-Means dan AUC untuk model

SMOTE-Boosting. Nilai G-mean dan AUC cenderung stabil tanpa kenaikan yang drastis.

Sementara dari perhitungan manual diperoleh nilai specificity sebesar 0,928 berarti fungsi

pemisah yang diperoleh berhasil mengidentifikasi 92,79% pengamatan yang berasal dari status

diterima bidikmisi.

0,074

0,087 0,087

0,101 0,0980,090

0,041 0,042

0,0320,037 0,037 0,033

0,0530,057

0,0470,054 0,054

0,049

0,00

0,02

0,04

0,06

0,08

0,10

0,12

5 1 0 1 5 2 5 3 0 5 0

KIN

ERJA

PER

FOR

MA

NSI

ITERASI

Recall Presisi F-Value

50,558 50,757 49,630 50,321 50,279 49,805

26,264 28,445 28,097 30,216 29,836 28,545

0

10

20

30

40

50

60

70

5 1 0 1 5 2 5 3 0 5 0

KIN

ERJA

PER

FOR

MA

NSI

(%

)

ITERASI

AUC G-Mean

Page 50: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

40

5. 6 Analisis Klasifikasi Bidikmisi dengan Metode SMOTE-Bagging dengan Random

Forest Sebagai Base Classifier

Langkah awal yang harus dilakukan dalam analisis metode bagging adalah dengan

membagi data menjadi data training dan data testing dengan 5-fold cross validation. Kemudian

dilakukan bootstrapping pada data training. Karena metode ini gabungan antara bagging dan

SMOTE, maka setelah dilakukan bootstrapping data akan di bangkitkan lagi menggunakan

SMOTE. Dengan beberapa iterasi yang digunakan, disajikan hasil performansi metode

SMOTE-Bagging dalam bentuk confussion matrix dan juga pada gambar sebagai berikut.

Tabel 5.17 Confussion Matrix SMOTE-Bagging untuk Masing-masing Iterasi

Iterasi 5 Iterasi 10

Actual

Class

Prediction Class

Total Actual

Class

Prediction Class

Total Tidak

Diterima Diterima

Tidak

Diterima Diterima

Tidak

Diterima 27 340 367

Tidak

Diterima 44 323 367

Diterima 536 9623 10159 Diterima 859 9300 10159

Total 563 9963 10526 Total 903 9623 10526

Iterasi 15 Iterasi 25

Actual

Class

Prediction Class

Total Actual

Class

Prediction Class

Total Tidak

Diterima Diterima

Tidak

Diterima Diterima

Tidak

Diterima 37 330 367

Tidak

Diterima 36 331 367

Diterima 712 9447 10159 Diterima 681 9478 10159

Total 749 9777 10526 Total 717 9809 10526

Iterasi 30 Iterasi 50

Actual

Class

Prediction Class

Total Actual

Class

Prediction Class

Total Tidak

Diterima Diterima

Tidak

Diterima Diterima

Tidak

Diterima 42 325 367

Tidak

Diterima 43 324 367

Diterima 784 9375 10159 Diterima 760 9399 10159

Total 826 9700 10526 Total 803 9723 10526

Tabel 5.17 menyajikan confussion matrix untuk metode SMOTE-Bagging, dari tabel

tersebut dapat pula dihitung nilai performansi secara manual untuk iterasi ke-10 sebagai

berikut. Selanjutnya akan dilihat bagaimana plot dari nilai performansi untuk jumlah iterasi

yang berbeda.

TP 44Presisi= 0,049

(TP+FP) (44 859)

Page 51: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

41

TP 44Recall 0,1199

(TP+FN) (44 323)

2(Recall×Presisi) 0,0117F-Value= 0,069

(Recall+Presisi) 0,1689

Sensitivity 0,1199

TN 9300Specificity= 0,9154

(TN+FP) (9300 859)

G-Mean Sensitivity × Specificity 0,1199 0,9154 = 0,3313=

TPR 0,1199

FPR 1 Specificity 1 0,9154 0,0846

Gambar 5.13 Nilai Kinerja Performansi pada Beberapa Iterasi SMOTE-Bagging

Gambar 5.13 menyajikan performansi klasifikasi data Bidikmisi pada tiap iterasi yang

digunakan. Nilai recall, presisi dan f-value cenderung mengalami peningkatan, walaupun

dengan nilai yang masih kecil. Nilai presisi berkaitan dengan banyaknya objek yang diprediksi

ke dalam kelas positif, dengan semakin naiknya kurva maka dapat dikatakan bahwa, semakin

tinggi jumlah iterasi, maka semakin banyak objek yang diklasifikasikan masuk ke dalam kelas

positif. Namun, jumlah false positif lebih banyak dibandingkan true positifnya sehingga nilai

presisi sangat kecil.

0,0736

0,1199

0,1008 0,0981

0,1144 0,1172

0,048 0,049 0,049 0,050 0,051 0,054

0,058

0,069 0,066 0,066 0,070 0,074

0,00

0,02

0,04

0,06

0,08

0,10

0,12

0,14

5 1 0 1 5 2 5 3 0 5 0

KIN

ERJA

PER

FOR

MA

NSI

ITERASI

Recall Presisi F-Value

Page 52: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

42

Gambar 5.14 Nilai G-Mean dan AUC pada Beberapa Iterasi SMOTE-Bagging

Gambar 5.14 menunjukkan ukuran performansi yaitu G-Means dan AUC untuk model

SMOTE-Bagging. Nilai G-mean mencapai maksimal pada iterasi ke-10, dengan nilai 33,129%

dan nilai AUC maksimal pada iterasi ke-50 sebesar 32,924%. Sementara nilai specificity

sebesar 0,9154 berarti fungsi pemisah yang diperoleh berhasil mengidentifikasi 91,54%

pengamatan yang berasal dari status diterima bidikmisi.

5. 7 Perbandingan Kinerja Performansi Klasifikasi

Setelah dilakukan analisis pada data Bidikmisi tahun 2017 di Jawa Tengah

menggunakan random forest, AdaBoost.M2 random forest, SMOTE-Boosting random forest,

dan SMOTE-Bagging random forest, selanjunya pada bagian ini dilakukan perbandingan dari

performansi semua model optimum yang diperoleh. Perbandingan beberapa metode tersebut

diukur menggunakan performansi klasifikasi yang meliputi presisi, recall, f-value, sensitivity,

dan specificity, g-mean dan AUC yang merupakan hasil klasifikasi dengan parameter terbaik

dari masing-masing metode. Perbandingan hasil klasifikasi tersebut ditampilkan pada Tabel

5.5, dapat dilihat bahwa performansi dari seluruh metode menunjukkan SMOTE-Boosting dan

SMOTE-Bagging mempunyai nilai yang cenderung sama. Ketepatan klasifikasi kelas positif

yang dilakukan oleh model AdaBoost.M2 yaitu rata-rata dari klasifikasi kelima fold sebesar

8,8235% yang berarti rata-rata hanya 8,8235% dari pengamatan di tiap fold data bidikmisi telah

diklasifikasikan dengan benar. Jika dilihat dari nilai sensitivity dan specificity, AdaBoost.M2

hanya bisa mengklasifikasikan 0,8174% pengamatan yang berasal dari status tidak diterima

(minoritas) sebagai kelas tidk diterima namun berhasil mengklasifikasikan 99,97%

pengamatan yang berasal dari status diterima (mayoritas) sebagai kelas diterima. Adanya kasus

26,398

33,12930,619 30,252

32,498 32,924

51,040 51,767 51,537 51,553 51,863 52,118

0

10

20

30

40

50

60

5 1 0 1 5 2 5 3 0 5 0

KIN

ERJA

PER

FOR

MA

NSI

(%

)

ITERASI

G-Mean AUC

Page 53: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

43

imbalance pada data menyebabkan rendahnya nilai sensitivity dikarenakan fungsi pemisah

random forest cenderung mengklasifikan pengamatan ke dalam kelas mayoritas, sehingga

pengklasifikasian kelas minoritas hanya benar diklasifikasikan kurang dari 1%. Setelah

dilakukan penyeimbangan data pada kedua kelas dengan SMOTE dan dilakukan boosting dan

bagging diperoleh hasil yang lebih baik. Hal ini dibuktikan dengan performansi g-mean yang

diperoleh menggunakan SMOTE-Boosting random forest dan SMOTE-Bagging random forest

lebih tinggi dibandingkan AdaBoost.M2.

Tabel 5.18 Perbandingan Kinerja Performansi Klasifikasi Data Bidikmisi

Model

Rata-Rata Kelima Fold

Akurasi Presisi Recall F-Value Sensitivity Specificity G-mean AUC

AdaBoost.M2 0,9648 0.088235 0.008174 0.014963 0.008174 0.999705 0.090274 0.502561

SMOTE-Boosting 0,9074 0.041885 0.100817 0.056587 0.100817 0.937592 0.302161 0.50757

SMOTE-Bagging 0,9167 0.053549 0.119891 0.073504 0.119891 0.947239 0.331291 0.521178

Berdasarkan Tabel 5.18 dapat dilihat pula bahwa AdaBoost.M2 menghasilkan nilai

akurasi dan specificity yang tinggi. Hal ini dikarenakan pada proses boosting-nya,

AdaBoost.M2 berhasil mengambil keuntungan dari kesalahan klasifikasi yang dilakukan

random forest di tiap iterasi boosting-nya sehingga dapat meningkatkan ketepatan klasifikasi

khususnya klasifikasi pada kelas mayoritas. Sementara SMOTE-Boosting dan SMOTE-

Bagging menghasilkan nilai performansi yang hampir sama pada semua kriteria dikarenakan

proses penyeimbangan distribusi kelas training set sehingga mengakibatkan peningkatan

ketepatan klasifikasi pada kelas minoritas.

Gambar 5.15 Boxplot Nilai Kinerja Performansi G-Mean

Gambar 5.15 menyajikan boxplot dari nilai-nilai g-mean yang dihasilkan pada setiap

model. Nilai g-mean yang dihasilkan menggunakan SMOTE-Bagging random forest yang

ditunjukkan oleh warna kuning pada gambar, cenderung lebih tinggi sedikit dibandingkan

Page 54: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

44

dengan SMOTE-Boosting. Nilai g-mean berkisar antara 26% sampai 33%. Nilai g-mean yang

dihasilkan menggunakan SMOTE-Boosting random forest yang ditunjukkan oleh warna biru

pada gambar. Variasi dari g-mean yang dihasilkan oleh algoritma SMOTE-Boosting random

forest cenderung lebih kecil dibandingkan kedua algoritma lain, nilai g-mean berkisar antara

26% sampai 30%.

Gambar 5.16 Boxplot Nilai Kinerja Performansi AUC

Selanjutnya Gambar 5.16 menyajikan boxplot dari nilai-nilai AUC yang dihasilkan

pada setiap model. Nilai AUC yang dihasilkan menggunakan SMOTE-Bagging random forest

yang ditunjukkan oleh warna kuning pada gambar, cenderung lebih tinggi dari pada metode

lain. Variasi nilai g-mean yang dihasilkan oleh algoritma SMOTE-Bagging random forest

berkisar antara 51% sampai 52%.

5. 8 Hasil Klasifikasi Data Pelamar Bidikmisi

Beasiswa Bidikmisi merupakan beasiswa pemerintahan bagi calon mahasiswa tidak

mampu secara ekonomi dan memiliki potensi akademik baik. Dikarenakan beasiswa ini adalah

untuk siswa miskin, maka persyaratan utama untuk mendaftar beasiswa jika pendapatan kotor

gabungan orangtua/wali dibagi jumlah anggota keluarga sebesar-besarnya Rp 750.000,00

setiap bulannya. Sebelum menuju pembahasan selanjutnya, ada beberapa tahap yang dilakukan

untuk mendapatkan nilai-nilai yang disajikan pada Tabel 4.6.

a. Memilih variabel “pendapatan ayah”, “pendapatan ibu” dan “jumlah tanggungan

keluarga”;

b. Membuat variabel baru dengan menghitung pendapatan gabungan orangtua, pada

Tabel 4.6 disajikan dengan nama “pendapatan orangtua”;

Page 55: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

45

c. Menghitung “pendapatan orangtua” dibagi dengan “jumlah tanggungan keluarga”

kemudian menjadi variabel baru “pendapatan per kapita”;

d. Koding variabel “pendapatan per kapita” dengan kriteria: Jika pendapatan per

kapita > Rp. 750,000.00 maka dikategorikan sebagai keluarga mampu dengan kode

prediksi = 0. Jika pendapatan per kapita < Rp. 750,000.00 maka termasuk keluarga

miskin dengan kode prediksi = 1;

e. Cocokan dengan variabel respon yaitu “aktual” dengan prediksi pada langkah (d)

dan untuk variabel kondisi klasifikasi diisi dengan kriteria: Jika siswa yang

menerima beasiswa (Aktual = 1) berasal dari keluarga miskin (Prediksi = 1) maka

dikategorikan “Benar”. Jika siswa yang tidak menerima beasiswa (Aktual = 0)

berasal dari keluarga mampu (Prediksi = 0) maka “Benar”. Jika siswa yang

menerima beasiswa (Aktual = 1) berasal dari keluarga mampu (Prediksi = 0) maka

“Salah”. Jika siswa yang tidak menerima beasiswa (Aktual = 0) berasal dari

keluarga miskin (Prediksi = 1) maka “Salah”.

Tabel 5.19 Identifikasi Kondisi Klasifikasi Data Bidikmisi

Objek/

Siswa

Pendapatan

Gabungan Kotor

Pendapatan

Gabungan Bersih Aktual Prediksi Kondisi

1 Rp 625,000.00 Rp 156,250.00 1 1 Benar

2 Rp 1,875,000.00 Rp 937,500.00 1 0 Salah

3 Rp 875,000.00 Rp 875,000.00 1 0 Salah

4 Rp 1,375,000.00 Rp 1,375,000.00 1 0 Salah

5 Rp 875,000.00 Rp 175,000.00 1 1 Benar

6 Rp 1,875,000.00 Rp 625,000.00 1 1 Benar

7 Rp 2,750,000.00 Rp 687,500.00 1 1 Benar

8 Rp 875,000.00 Rp 218,750.00 1 1 Benar

9 Rp 1,000,000.00 Rp 500,000.00 1 1 Benar

10 Rp 1,250,000.00 Rp 178,571.43 1 1 Benar

(Sumber: Iriawan dkk, 2018)

Berdasarkan syarat bidikmisi, bahwa siswa yang berhak mendapatkan beasiswa jika

pendapatan per kapita sebesar-besarnya adalah Rp 750.000,00. Hasil “prediksi” status

penerimaan beasiswa menunjukkan bahwa terdapat 3 siswa yang seharusnya tidak berhak

mendapatkan beasiswa, hasil “aktual” menunjukkan bahwa kesepuluh siswa ternyata

mempunyai status diterima beasiswa. Berdasarkan Tabel 5.19 dapat dilihat kolom “kondisi”.

Page 56: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

46

Gambar 5.17 Pie Chart Identifikasi Kondisi Klasifikasi Data Bidikmisi

Secara keseluruhan terdapat 10.762 siswa yang masuk dalam kondisi “salah

diklasifikasikan” dan 41.869 siswa yang masuk dalam kondisi “benar diklasifikasikan” seperti

ditunjukkan pada Gambar 5.17.

Penelitian ini menggunakan 3 metode klasifikasi yaitu AdaBoost.M2, SMOTE-

Boosting dan SMOTE-Bagging yang digunakan pada data Bidikmisi. Hasil performansi

masing-masing metode telah dijelakan dalam subbab sebelumnya, kemudian hasil prediksi

untuk setiap metode ditampilkan lebih jelas pada Tabel 5.20.

Tabel 5.20 Identifikasi Kondisi Klasifikasi Data Bidikmisi dengan Tiga Metode

Metode Iterasi

Jumlah

Salah

Klasifikasi

Jumlah

Benar

Klasifikasi

Persentase Benar

Klasifikasi

AdaBoost.M2

5 356 10170 96,618

10 379 10147 96,399

15 375 10151 96,437

25 376 10150 96,427

30 383 10143 96,361

50 387 10139 96,323

SMOTE-

Boosting

5 984 9542 90,652

10 1083 9443 89,711

15 1280 9247 87,839

25 1281 9246 87,830

30 1259 9268 88,039

50 1279 9247 87,840

SMOTE-

Bagging

5 880 9464 91,639

10 1192 9334 88,676

15 1052 9474 90,006

25 1020 9506 90,309

30 1123 9403 89,331

50 1122 9404 89,341

Benar Klasifikasi;

41869

Salah Klasifikasi;

10762

Page 57: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

47

Berdasarkan Tabel 5.20 dapat dilihat perubahan benar klasifikasi untuk masing-masing

iterasi yang disajikan pada Gambar 5.18 hingga Gambar 5.22.

Gambar 5.18 Kondisi “Benar Klasifikasi” Data Bidikmisi Metode AdaBoost.M2

Kondisi metode AdaBoost.M2 yang konvergen pada saat iterasi ke 10 hingga iterasi ke

50, menunjukkan variabilitas data yang kecil untuk metode ini. Dengan rata-rata 10.150

pengamatan masuk ke dalam kelompok benar klasifikasi.

Gambar 5.19 Kondisi “Benar Klasifikasi” Data Bidikmisi Metode SMOTE-Boosting

Gambar 5.19 menunjukkan hasil klasifikasi metode SMOTE-Boosting, dimana kondisi

konvergen tercapai pada saat iterasi ke 15 hingga iterasi ke 50, dengan rata-rata 9.332

pengamatan masuk ke dalam kelompok benar klasifikasi.

10170

10147 10151 1015010143 10139

5 10 15 25 30 50

Jum

lah

Iterasi

AdaBoost.M2

95429443

9247 9246 9268 9247

5 10 15 25 30 50

Jum

lah

Iterasi

SMOTE-Boosting

Page 58: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

48

Gambar 5.20 Kondisi “Benar Klasifikasi” Data Bidikmisi Metode SMOTE-Bagging

Metode SMOTE-Bagging menunjukkan hasil yang berbeda dibandingkan hasil metode

sebelumnya. Variabilitas data yang tinggi terlihat berdasarkan fluktuasi plot yang disajikan

pada Gambar 5.20 untuk setiap iterasi. Kondisi konvergen tercapai pada saat iterasi terakhir

yaitu iterasi ke 30 sampai iterasi ke 50, dengan rata-rata 9.431 pengamatan masuk dalam

kelompok benar klasifikasi.

Semua model telah dievaluasi dengan menggunakan 5-fold cross validation, dan dilihat

kriteria performansi masing-masing metode. Algoritma yang digunakan yaitu random forest,

SMOTE-Boosting dan SMOTE-Bagging berdasarkan pada integrasi algoritma SMOTE

didalam prosedur boosting dan bagging standar. Kesimpulan yang diperoleh dari penelitian ini

sesuai dengan tujuan penelitian adalah sebagai berikut:

1. Akurasi metode random forest mencapai optimal ketika prediktor (m) berjumlah 4 dan

konvergen pada saat menggunakan 100 pohon (k) klasifikasi.

2. Hasil penelitian dari kelas yang imbalance menunjukkan bahwa algoritma ensemble

SMOTE-Bagging random forest dan SMOTE-Boosting random forest menunjukkan

ketepatan klasifikasi yang cenderung lebih baik dibandingkan metode AdaBoost.M2

random forest. Selisih antara kedua metode algoritma SMOTE-Boosting random forest

dan SMOTE-Bagging random forest sangat kecil. Bisa dikatakan bahwa kedua metode

tersebut cukup berhasil mengambil keuntungan dari dua algoritma boosting dan bagging

dengan SMOTE. Ketika boosting dan bagging mempengaruhi akurasi dari random forest

dengan berfokus pada semua kelas data, algoritma SMOTE merubah nilai performansi dari

random forest hanya pada kelas minoritas.

5. 9 Analisis Bidikmisi dengan Metode Neural Network

Tujuan yang ingin dicapai analisis data Bidikmisi dengan menggunakan metode Neural

Network yaitu membangun suatu model prediksi Neural Network Backpropagation dalam

9464

9334

94749506

9403 9404

5 10 15 25 30 50

Jum

lah

Iterasi

SMOTE-Bagging

Page 59: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

49

memprediksi variabel respon penerimaan Beasiswa Bidikmisi di Jawa Tengah. Sehingga untuk

membangun suatu model Neural Network yang terdiri dari input layer, hidden layer dan output

layer, maka akan ditentukan jumlah neuron pada masing-masing layer tersebut.

Jumlah neuron yang digunakan pada penelitain ini pada input layer yaitu terdiri dari 12

variabel yang merupakan karakteristik data Bidikmisi di Jawa Tengah. Hasil prepocesing data

ke dalam range [0,1] menghasilkan 23 neuron input untuk Neural Network yang akan dibangun.

Penentuan jumlah hidden layer sangat penting untuk memaksimalkan kinerja Neural Network

selama proses pelatihan. Sebelum menentukan jumlah neuron pada hidden layer dibentuk

terlebih dahulu jumlah neuron pada output layer. Pada penelitian ini adalah klasifikasi biner

dimana variabel respon atau targetnya terdiri dari 2 katagori yaitu tidak diterima (0) dan

diterima (1).

Selanjutnya sebelum membangun suatu model Neural Network Backpropagation data

dibagi menjadi data training dan data testing dengan 10 cross fold validation (k=10).

5.9.1 Model Prediksi Neural Network Backpropagation 1 Hidden layer

Berikut merupakan hasil klasifikasi dengn 1 hidden layer, untuk mendapatkan hasil

klasifikasi yang baik harus menetukan jumlah neuron yang tepat pada hidden layer yaitu

dilakukan trial dan error yaitu menggunakan jumlah neuron 2, 4, 6, 8 10, 12, 24 dengan

menggunakan fungsi aktivasi sigmoid biner pada hidden layer dan output layer. Hasil yag

diperoleh disajikan pada tabel 5.21. Untuk memperoleh hasil klasifikasi ini digunakan software

R dengan package neuralnet.

Tabel 5.21 Tingkat Kinerja AUC, G-Mean, dan Akurasi Data Testing dan Data Training 1 Hidden Layer

Jumlah

Neuron

Data Testing Data Training

AUC G-mean Akurasi AUC G-mean Akurasi

4 0,51 0,01 78,00 0,51 0,00 78,02

2 0,51 0,02 68,33 0,50 0,03 68,34

6 0,50 0,02 96,13 0,50 0,04 95,53

12 0,50 0,01 96,41 0,50 0,02 96,37

8 0,50 0,00 96,65 0,50 0,00 96,65

24 0,50 0,00 96,65 0,50 0,00 96,65

Tabel 5.21 disajikan tingkat kinerja AUC, G-Mean, dan Akurasi data testing dan data

training dengan 1 hidden layer. Untuk medapatkan performance yang terbaik dari hasil kinerja

Page 60: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

50

klasifikasi pada Tabel 5.21, yaitu dengan mengurutkan (sort) dari nilai tertinggi sampai

terrendah. Kriteria AUC yang paling utama digunakan dalam pemilihan model, karena data

imbalance sehingga AUC lebih tepat untuk memilih model yang terbaik. Terdapat nilai G-

mean 0,00 artinya semua kelas negatif tidak dapat diprediksi oleh model. Berdasarkan Tabel

5.21 dihasilkan ketepatan klasifikasi dengan performance terbaik pada jumlah neuron 4,

sehingga dalam penelitian ini menggunakan jumlah neuron 4. Hasil klasifikasi untuk 10-fold

cross validation dengan satu hidden layer dengan jumlah neuron 4 disajikan pada Tabel 5.21

untuk data training dan Tabel 5.22 untuk data testing.

Tabel 5.22 Ketepatan Klasifikasi 10-Fold Cross Validation Neural Network

Backpropagation Pada Data Training dengan 1 hidden Layer

Actual

Classification

Model

Classification Total

0 1

Fold 1

0 1574 7

1581 99,56% 0,44%

1 45409 188

45597 99,59% 0,41%

Fold 2

0 0 1582

1582 0% 100%

1 0 45596

45596 0% 100%

Fold 3

0 0 1581

1581 0% 100%

1 0 45597

45597 0% 100%

Fold 4

0 0 1581

1581 0% 100%

1 0 45596

45596 0% 100%

Fold 5

0 0 1581

1581 0% 100%

1 0 45597

45597 0% 100%

Fold 6

0 0 1582

1582 0% 100%

1 0 45597

45597 0% 100%

Page 61: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

51

Actual

Classification

Model

Classification Total

0 1

Fold 7

0 0 1581

1581 0% 100%

1 0 45597

45597 0% 100%

Fold 8

0 0 1581

1581 0% 100%

1 3 45594

45597 0,01% 100%

Fold 9

0 1581 0

1581 100% 0%

1 45596 0

45596 100% 0%

Fold 10

0 0 1582

1582 0% 100%

1 15 45582

45597 0,03% 100%

Tabel 5.22 disajikan Ketepatan Klasifikasi 10-Fold Cross Validation Neural Network

Backpropagation pada data training dengan jumlah hidden layer 1 dan 4 neuron. Diketahui

bahwa pada Fold 1 dari 1581 status penerimaan Beasiswa Bidikmisi pada kategori 0 (tidak

diterima Beasiswa Bidikmisi) terdapat 99,56% atau tidak ada status penerimaan Beasiswa

Bidikmisi yang tepat diklasifikasikan masuk dalam katagori null oleh model yang dibentuk, 7

atau 0,44% status peneriman Beasiswa Bidikmisi diklasifikasikan kedalam katagori 2 (dua).

Untuk katagori 1 (satu), dari 45597 status penerimaan Beasiswa Bidikmisi terdapat 99,59%

status penerimaan Beasiswa Bidikmisi yang diklasifikasikan masuk kedalam katagori 0 (null),

188 atau 0,41% status penerimaan Beasiswa Bidikmisi tepat diklasifikasikan masuk dalam

katagori 1 (diterima Beasiswa Bidikmsi). Dan begitu seterusnya untuk fold 2 sampai dengan

fold 10. Rata-rata hasil klasifikasi disajikan pada Tabel 5.23.

Tabel 5.23 Rata-rata Ketepatan Klasifikasi Perkatagori Untuk 10-Fold Data Training Pada Model Neural

Network Backpropagation (1 Hidden Layer)

Actual Classification Model Classification

Akurasi

Tidak Diterima (0) Diterima (1)

Tidak Diterima (0) 3155

19,95%

12658

80,05% 78,02%

Diterima (1) 91023

19,96%

364944

80,04%

Page 62: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

52

Sehingga dapat dihitung nilai akurasi atau ketepatan klasifikasi sebagai berikut.

Akurasi =364944 + 3155

364944 + 91023 + 3155 + 12658X100% = 78,02%

Tabel 5.10 disajikan Rata-rata ketepatan klasifikasi perkatagori untuk 10-Fold Data

Training pada model Neural Network Backpropagation dengan 1 hidden layer. Diketahui hasil

rata-rata ketepatan klasifikasi yang dibangun oleh model adalah sebesar 78,02%. Status

penerimaan Beasiswa Bidikmisi yang berada pada katagori 0 (null) dapat tepat diklasifikasikan

oleh model yaitu rata-rata sebesar 19,95%, sedangkan status penerimaan Beasiswa Bidikmisi

yang berada pada katagori 1 (satu) tepat diklasifikasikan oleh model yaitu rata-rata sebesar

80,04%. Sebaran rata-rata klasifikasi yang dibangun oleh model Neural Network

Backpropagation disajikan pada Gambar 5.21.

Gambar 5.21 Sebaran Hasil Klasifikasi Neural Network Backpropagation dengan 1 Hidden layer 10-

fold Data Training

Sebaran rata-rata hasil klasifikasi Neural Network Backpropagation pada Gambar 5.21

menunjukkan bahwa pada katagori 0, model memprediksi atau mengklasifikasikan sebagain

besar status Penerimaan Beasiswa Bidikmisi masuk pada katagori 1 (satu). Katagori 1, model

memprediksi sebagian besar status penerimaan Beasiswa Bidikmisi masuk pada katagori 1

(satu).

Tabel 5.24 Ketepatan Klasifikasi 10-Fold Cross Validation Neural Network Backpropagation Pada Data

Testing dengan 1 Hidden Layer

Actual

Classification

Model Classification Total

0 1

Fold 1

0 176 0

176 100% 0%

1 5055 11

5066 99,78% 0,22%

19,95 19,96

80,05 80,04

0

20

40

60

80

100

0 1

Pe

rse

nta

se

Katagori

Prediksi Kategori 0

Prediksi Kategori 1

Page 63: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

53

Actual

Classification

Model Classification Total

0 1

Fold 2

0 0 175

175 0% 100%

1 0 5067

5067 0% 100%

Fold 3

0 0 176

176 0% 100%

1 0 5066

5066 0% 100%

Fold 4

0 0 176

176 0% 100%

1 0 5067

5067 0% 100%

Fold 5

0 0 176

176 0% 100%

1 0 5066

5066 0% 100%

Fold 6

0 0 175

175 0% 100%

1 0 5066

5066 0% 100%

Fold 7

0 0 176

176 0% 100%

1 0 5066

5066 0% 100%

Fold 8

0 0 176

176 0% 100%

1 5 5061

5066 0,10% 99,90%

Fold 9

0 176 0

176 100% 0%

1 5066 1

5067 99,98% 0,02%

Fold 10

0 0 175

175 0% 100%

1 2 5064

5066 0,04% 99,96%

Page 64: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

54

Tabel 5.24 disajikan Ketepatan Klasifikasi 10-Fold Cross Validation Neural Network

Backpropagation pada data testing dengan jumlah hidden layer 1, dengan jumlah neuron 4.

Diketahui bahwa pada Fold 8 dari 176 status penerimaan Beasiswa Bidikmisi pada kategori 0

(tidak diterima Beasiswa Bidikmisi) tidak terdapat status penerimaan Beasiswa Bidikmisi yang

tepat diklasifikasikan masuk dalam katagori 0 (null) oleh model yang dibentuk, 176 atau 100%

status penerimaan Beasiswa Bidikmisi diklasifikasikan kedalam katagori 1 (satu). Untuk

katagori 1 (satu), dari 5066 status penerimaan Beasiswa Bidikmisi terdapat 5 atau 0,10% status

penerimaan Beasiswa Bidikmisi yang diklasifikasikan masuk kedalam katagori 0 (null), 5061

atau 99,90% status penerimaan Beasiswa Bidikmisi tepat diklasifikasikan masuk dalam

katagori 1 (diterima Beasiswa Bidikmsi). Dan begitu seterusnya untuk fold-fold yang lain.

Rata-rata hasil klasifikasi disajikan pada Tabel 5.25.

Tabel 5.25 Rata-rata Ketepatan Klasifikasi Perkatagori Untuk 10-Fold Data Testing Pada Model Neural

Network Backpropagation (1 Hidden Layer)

Actual Classification Model Classification

Akurasi Tidak Diterima (0) Diterima (1)

Tidak Diterima (0)

352

20,03%

10128

1405

79,97%

40535 78,00%

Diterima (1) 19,99% 80,01%

Sehingga dapat dihitung nilai akurasi atau ketepatan klasifikasi sebagai berikut.

Akurasi =352 + 40535

40535 + 10128 + 352 + 1405X100% = 78,00%

Tabel 5.25 disajikan Rata-rata ketepatan klasifikasi perkatagori untuk 10-Fold Data

Testing pada model Neural Network Backpropagation dengan 1 hidden layer. Diketahui hasil

rata-rata ketepatan klasifikasi yang dibangun oleh model adalah sebesar 78,00%. Status

penerimaan Beasiswa Bidikmisi yang berada pada katagori 0 (null) dapat tepat diklasifikasikan

oleh model yaitu rata-rata sebesar 20,03%, sedangkan status penerimaan Beasiswa Bidikmisi

yang berada pada katagori 1 (satu) tepat diklasifikasikan oleh model yaitu rata-rata sebesar

80,01%. Sebaran rata-rata klasifikasi yang dibangun oleh model Neural Network

Backpropagationi disajikan pada Gambar 5.22.

Page 65: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

55

Gambar 5.22 Sebaran Hasil Klasifikasi Neural Network Backpropagation dengan 1 Hidden layer 10-

fold Data Testing.

Sebaran rata-rata hasil klasifikasi Neural Network Backpropagation pada Gambar 5.22

menunjukkan bahwa pada katagori 0, model memprediksi atau mengklasifikasikan sebagain

besar status Penerimaan Beasiswa Bidikmisi masuk pada katagori 1 (satu). Katagori 1, model

memprediksi sebagian besar status penerimaan Beasiswa Bidikmisi masuk pada katagori 1

(satu).

Tabel 5.26 Hasil Kinerja Kasifikasi dengan Jumlah Neuron 4 Pada 1 hidden layer

Fold Data AUC G-mean Akurasi %

1 Training 0,52 0,06 3,73

Testing 0,56 0,05 3,57

2 Training 0,50 0,00 96,65

Testing 0,50 0,00 96,66

3 Training 0,50 0,00 96,65

Testing 0,50 0,00 96,64

4 Training 0,50 0,00 96,65

Testing 0,50 0,00 96,64

5 Training 0,50 0,00 96,65

Testing 0,50 0,00 96,64

6 Training 0,50 0,00 96,65

Testing 0,50 0,00 96,66

7 Training 0,53 0,00 96,65

Testing 0,50 0,00 96,64

8 Training 0,51 0,00 96,64

Testing 0,51 0,00 96,55

9 Training 0,51 0,01 3,35

Testing 0,49 0,01 3,38

10 Training 0,52 0,00 96,65

Testing 0,50 0,00 96,62

Rata-Rata Training 0,51 0,007 78,03

Testing 0,51 0,006 78,00

29,99 29,93

70.1 70,07

0

20

40

60

80

0 1P

erse

nta

se

Katagori

Prediksi Kategori 0

Prediksi Kategori 1

Page 66: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

56

Tabel 5.26 merupakan hasil kinerja klasifikasi dengan arsitektur yang paling baik yaitu

dengan jumlah neuron 4 pada 1 hidden layer. Hasil analisis pada Tabel 5.13 menunjukkan

bahwa ketepatan klasifikasi pada data training adalah 78,03% dan data testing sebesar 78,00%.

Diketahui bahwa ketepatan klasifikasi dari model Neural Network Backpropagation yang

terbentuk ditinjau dari akurasi sebesar 78,00%, ditinjau dari AUC sebesar 0.51 dan ditinjau

dari G-mean sebesar 0,006. Dalam hal ini hasil dari data training dan data testing menghasilkan

selisih yang hampir sama menunjukkan model yang dibentuk cukup baik.

5.9.2 Model Prediksi Neural Network Backpropagation 2 Hidden Layer

Seperti halnya penjelasan pada 1 hidden layer, pada 2 hidden layer juga digunakan trial

and error untuk mendapatkan hasil prediksi yang baik yaitu dengan menggunakan trial and

error dengan jumlah neuron 2-6, 4-2, 4-8, 5-9, 6-10, 10-4, 12-6, 12-8, 24-12, dan 24-30 dengan

menggunakan fungsi aktivasi sigmoid biner pada hidden layer dan output layer.

Tabel 5.27 Tingkat Kinerja AUC, G-Mean, dan Akurasi Data Testing dan Data Training dengan 2 Hidden

Layer

Jumlah

Neuron

Data Testing Data Training

AUC G-mean Akurasi AUC G-mean Akurasi

10-4 0,51 0,01 68,73 0,50 0,01 68,72

4-8 0,51 0,00 87,31 0,50 0,00 87,32

12-8 0,50 0,05 83,28 0,50 0,00 77,99

5-9 0,50 0,01 68,6 0,50 0,01 68,58

12-6 0,50 0,01 87,18 0,50 0,00 87,31

6-10 0,50 0,00 87,32 0,50 0,00 87,32

24-12 0,50 0,00 87,32 0,50 0,00 87,32

4-2 0,50 0,02 68,89 0,50 0,02 68,88

24-30 0,50 0,00 77,99 0,50 0,00 77,99

2-6 0,49 0,01 68,59 0,49 0,01 68,61

Berdsarkan Tabel 5.27 disajikan tingkat kinerja AUC, G-Mean, dan Akurasi data

testing dan data training dengan 2 hidden layer. Untuk medapatkan

performance yang terbaik dari hasil kinerja klasifikasi pada Tabel 5.14, yaitu dengan

mengurutkan (sort) dari nilai tertinggi sampai terrendah. Kriteria AUC yang paling utama

digunakan dalam pemilihan model, karena data imbalance sehingga AUC lebih tepat untuk

memilih model yang terbaik. Terdapat nilai G-mean 0,00 artinya semua kelas negatif tidak

dapat diprediksi oleh model. Berdsarkan Tabel 5.27 dihasilkan ketepatan klasifikasi dengan

Page 67: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

57

performance terbaik pada jumlah neuron 10 pada hidden layer pertama dan jumlah neuran 4

pada hidden layer kedua, sehingga dalam penelitian ini menggunakan jumlah neuron 12 dan 4

untuk masing-masing hidden.

Hasil klasifikasi untuk 10-fold cross validation dengan 2 hidden layer dihasilkan

performence yang terbaik dengan (10-4) jumlah neuron pada 2 hidden layer. Tabel 5.28

merupakan klasifikasi dengan dua hidden layer, dimana menggunkan sigmoid biner pada 2

hidden layer dan output layer dengan jumlah 10 neuron pada hidden layer pertama dan 4

neuron pada hidden layer kedua.

Tabel 5.28 Ketepatan Klasifikasi dengan 2 Hidden layer 10-Fold Cross Validation Neural Network

Backpropagation Pada Data Training

Actual

Classification

Model Classification Total

0 1

Fold 1

0 1581 0

1581 100% 0%

1 45596 1

45597 99,998% 0,002%

Fold 2

0 1576 6

1582 99,62% 0,38%

1 45295 301

45596 99,34% 0,66%

Fold 3

0 0 1581

1581 0% 100%

1 0 45597

45597 0% 100%

Fold 4

0 0 1581

1581 0% 100%

1 0 45596

45596 0% 100%

Fold 5

0 0 1581

1581 0% 100%

1 0 45597

45597 0% 100%

Fold 6

0 0 1582

1582 0% 100%

1 0 45597

45597 0% 100%

Page 68: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

58

Actual

Classification

Model Classification Total

0 1

Fold 7

0 0 1581

1581 0% 100%

1 0 45597

45597 0% 100%

Fold 8

0 1581 0

1581 100% 0%

1

45596 1

45597 99,99% 0,002%

0% 100%

Fold 9

0 0 1581

1581 0% 100%

1 0 45596

45596 0% 100%

Fold 10 0

0 1582 1582

0% 100%

1 0 45597 45597

Tabel 5.28 disajikan Ketepatan Klasifikasi 10-Fold Cross Validation Neural Network

Backpropagation pada data training dengan jumlah hidden layer 2, hidden layer pertama

berjumlah 10 neuron, hidden layer kedua berjumlah 4 neuron. Diketahui bahwa pada Fold 2

dari 1582 status penerimaan Beasiswa Bidikmisi pada kategori 0 (tidak diterima Beasiswa

Bidikmisi) terdapat 99,62% atau 1576 status penerimaan Beasiswa Bidikmisi yang tepat

diklasifikasikan masuk dalam katagori 0 (null) oleh model yang dibentuk, 6 atau 0,38% status

peneriman Beasiswa Bidikmisi diklasifikasikan kedalam katagori 1 (satu). Untuk katagori 1

(satu), dari 45596 status penerimaan Beasiswa Bidikmisi terdapat 45295 atau 99,34% status

penerimaan Beasiswa Bidikmisi yang diklasifikasikan masuk kedalam katagori 0 (null), 301

atau 0,66% status penerimaan Beasiswa Bidikmisi tepat diklasifikasikan masuk dalam katagori

1 (diterima Beasiswa Bidikmsi). Dan begitu seterusnya untuk fold-fold yang lain. Rata-rata

hasil klasifikasi disajikan pada Tabel 5.29.

Page 69: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

59

Tabel 5.29 Rata-rata Ketepatan Klasifikasi Perkatagori Untuk 10-Fold Data Training Pada Model Neural

Network Backpropagation (2 Hidden Liayer)

Actual Classification Model Classification

Akurasi Tidak Diterima (0) Diterima (1)

Tidak Diterima (0)

4738

29,96%

136487

11075

70,04%

319480 68,72%

Diterima (1) 29,93% 70,07%

Sehingga dapat dihitung nilai akurasi atau ketepatan klasifikasi sebagai berikut.

Akurasi =4738 + 319480

319480 + 136487 + 4738 + 11075X100% = 68,72%

Tabel 5.29 disajikan Rata-rata ketepatan klasifikasi perkatagori untuk 10-Fold Data

Training pada model Neural Network Backpropagation pada 2 hidden layer. Diketahui hasil

rata-rata ketepatan klasifikasi yang dibangun oleh model adalah sebesar 68,72%. Status

penerimaan Beasiswa Bidikmisi yang berada pada katagori 0 (null) dapat tepat diklasifikasikan

oleh model yaitu rata-rata sebesar 29,96%, sedangkan status penerimaan Beasiswa Bidikmisi

yang berada pada katagori 1 (satu) tepat diklasifikasikan oleh model yaitu rata-rata sebesar

70,07%. Sebaran rata-rata klasifikasi yang dibangun oleh model Neural Network

Backpropagationi disajikan pada Gambar 5.23.

Gambar 5.23 Sebaran Hasil Klasifikasi Neural Network Backpropagation dengan 2 Hidden

layer 10-fold Data Training

Sebaran rata-rata hasil klasifikasi Neural Network Backpropagation pada Gambar 5.25

menunjukkan bahwa pada katagori 0, model memprediksi atau mengklasifikasikan sebagain

besar status Penerimaan Beasiswa Bidikmisi masuk pada katagori 1 (satu). Katagori 1, model

memprediksi sebagian besar status penerimaan Beasiswa Bidikmisi masuk pada katagori 1

(satu).

29,99 29,93

70,01 70,07

0

20

40

60

80

0 1

Per

sen

tase

Katagori

Prediksi Kategori 0

Prediksi Kategori 1

Page 70: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

60

Tabel 5.30 Ketepatan Klasifikasi denga 2 Hidden layer 10-Fold Cross Validation Neural Network

Backpropagation Pada Data Testing

Actual Classification Model Classification

Total 0 1

Fold 1

0 176 0

176 100% 0%

1 5065 1

5066 100% 0%

Fold 2

0 175 0

175 100% 0%

1 5034 33

5067 99,35% 0,65%

Fold 3

0 0 176

176 0% 100%

1 0 5066

5066 0% 100%

Fold 4

0 0 176

176 0% 100%

1 0 5067

5067 0% 100%

Fold 5

0 0 176

176 0% 100%

1 0 5066

5066 0% 100%

Fold 6

0 0 175

175 0% 100%

1 0 5066

5066 0% 100%

Fold 7

0 0 176

176 0% 100%

1 0 5066

5066 0% 100%

Fold 8

0 176 0

176 100% 0%

1 5065 1

5066 100% 0%

Fold 9 0 0 176

176 0% 100%

Page 71: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

61

Actual Classification Model Classification

Total 0 1

1 0 5067

5067 0% 100%

Fold 10

0 0 175

175 0% 100%

1 0 5066

5066 0% 100%

Tabel 5.30 disajikan Ketepatan Klasifikasi 10-Fold Cross Validation Neural Network

Backpropagation pada data testing dengan jumlah hidden layer 2, hidden layer pertama

berjumlah 10 neuron, hidden layer kedua berjumlah 4 neuron. Diketahui bahwa pada Fold 2

dari 175 status penerimaan Beasiswa Bidikmisi pada kategori 0 (tidak diterima Beasiswa

Bidikmisi) terdapat 100% atau 175 status penerimaan Beasiswa Bidikmisi yang tepat

diklasifikasikan masuk dalam katagori 0 (null) oleh model yang dibentuk, 0% status peneriman

Beasiswa Bidikmisi diklasifikasikan kedalam katagori 1 (satu). Untuk katagori 1 (satu), dari

5067 status penerimaan Beasiswa Bidikmisi terdapat 5034 atau 99,35% status penerimaan

Beasiswa Bidikmisi yang diklasifikasikan masuk kedalam katagori 0 (null), 33 atau 0,65%

status penerimaan Beasiswa Bidikmisi tepat diklasifikasikan masuk dalam katagori 1 (diterima

Beasiswa Bidikmsi). Dan begitu seterusnya untuk fold-fold yang lain. Rata-rata hasil klasifikasi

disajikan pada Tabel 5.31.

Tabel 5.31 Rata-rata Ketepatan Klasifikasi Perkatagori Untuk 10-Fold Data Testing Pada Model Neural

Network Backpropagation (2 Hidden Layer)

Actual Classification Model Classification

Akurasi Tidak Diterima (0) Diterima (1)

Tidak Diterima (0)

527

29,99%

15164

1230

70,01%

35499 68,73%

Diterima (1) 29,93% 70,07%

Sehingga dapat dihitung nilai akurasi atau ketepatan klasifikasi sebagai berikut.

Akurasi =527 + 35499

35499 + 15164 + 527 + 1230X100% = 68,73%

Tabel 5.31 disajikan Rata-rata ketepatan klasifikasi perkatagori untuk 10-Fold Data

Testing pada model Neural Network Backpropagation dengan 2 hidden layer. Diketahui hasil

Page 72: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

62

rata-rata ketepatan klasifikasi yang dibangun oleh model adalah sebesar 68,73%. Status

penerimaan Beasiswa Bidikmisi yang berada pada katagori 0 (null) dapat tepat diklasifikasikan

oleh model yaitu rata-rata sebesar 29,99%, sedangkan status penerimaan Beasiswa Bidikmisi

yang berada pada katagori 1 (satu) tepat diklasifikasikan oleh model yaitu rata-rata sebesar

70,07%. Sebaran rata-rata klasifikasi yang dibangun oleh model Neural Network

Backpropagationi disajikan pada Gambar 5.24.

Gambar 5.24 Sebaran Hasil Klasifikasi Neural Network Backpropagation dengan 2 Hidden layer 10-fold Data

Testing

Sebaran rata-rata hasil klasifikasi Neural Network Backpropagation pada Gambar 5.26

menunjukkan hasil yang hampir sama dengan sebaran rata-rata klasifikasi pada data testing,

diketahui bahwa pada katagori 0, model memprediksi atau mengklasifikasikan sebagain besar

status Penerimaan Beasiswa Bidikmisi masuk pada katagori 1 (satu). Katagori 1, model

memprediksi sebagian besar status penerimaan Beasiswa Bidikmisi masuk pada katagori 1

(satu).

Hasil analisis pada Tabel 5.31 menunjukkan bahwa ketepatan klasifikasi pada data

training adalah 68,72% dan data testing sebesar 68,73%. diketahui bahwa ketepatan klasifikasi

dari model Neural Network Backpropagation yang terbentuk ditinjau dari akurasi sebesar

68,73%, ditinjau dari AUC sebesar 0,51 dan ditinjau dari G-mean sebesar 0,01. Dalam hal ini

hasil dari data training dan data testing menghasilkan selisih yang hampir sama, sehingga dapat

dikatakan model yang dibentuk cukup baik.

29,99 29,93

70,01 70,07

0

10

20

30

40

50

60

70

80

0 1

Per

sen

tase

Katagori

Prediksi Kategori 0

Prediksi Kategori 1

Page 73: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

63

Tabel 5.32 Hasil Kinerja Klasifikasi 10-Fold dengan Jumlah Neuron (10-4) dengan 2 Hidden Layer Pada Data

Training Dan Testing

Fold Data AUC G-mean Akurasi

%

1 Training 0,51 0,00 3,35

Testing 0,51 0,01 3,38

2 Training 0,51 0,08 3,98

Testing 0,56 0,08 3,97

3 Training 0,50 0,00 96,65

Testing 0,50 0,00 96,64

4 Training 0,50 0,00 96,65

Testing 0,50 0,00 96,64

5 Training 0,50 0,00 96,65

Testing 0,50 0,00 96,64

6 Training 0,50 0,00 96,65

Testing 0,50 0,00 96,66

7 Training 0,50 0,00 96,65

Testing 0,50 0,00 96,64

8 Training 0,52 0,00 3,35

Testing 0,52 0,01 3,38

9 Training 0,50 0,00 96,65

Testing 0,50 0,00 96,64

10 Training 0,50 0,00 96,65

Testing 0,50 0,00 96,66

Rata-Rata Training 0,50 0,01 68,72

Testing 0,51 0,01 68,73

5.9.3 Optimasi Parameter Neural Network Backpropagation Menggunakan Algoritma

Genetika (GA)

Neural Network (NN) dan Algoritma Genetika keduanya adalah alat yang kuat yang

dimodelkan setelah fenomena alam. Neural Network dimodelkan seperti otak, dimana sangat

paralel dan banyak menawarkan keuntungan ketika dalam pemecahan pengenalan pola dan

masalah klasifikasi. Genetic Algorithm didasarkan pada teori evolusi dan kelangsungan hidup

dan telah diterapkan untuk menyelesaikan banyak masalah pengoptimalan.

Neural Network memberikan banyak kelebihan dalam berbagai aplikasi, tetapi tidak

efektif jika tidak dirancang dengan benar. Terdapat banyak pilihan dalam mendesain NN tetapi

dengan memilih salah satu parameter yang tidak baik dapat menghasilkan hasil NN yang

Page 74: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

64

kurang baik. Untuk mendapatkan struktur parameter yang optimal pada Neural Network

Backpropagation akan dilakukan optimasi menggunakan Genetic Alghoritm (GA) untuk

mendapatkan parameter yang optimum pada model Neural Network Backpropagation,

sehingga didapatkan tingkat kinerja klasifikasi yang lebih baik.

Pada penelitian ini Genetika Algoritma digunakan untuk menemukan bobot dan bias

awal yang optimal dari Backpropagation. Seperti yang disebutkan dalam Y.Du & Y.Li Tahun

2008, Algoritma Genetika baik digunakan untuk pengoptimalan global, sedangkan Neural

Network baik digunkan dalam pengoptimalan lokal. Menggunakan kombinasi algoritma

genetika untuk menentukan bobot dan bias awal dalam proses pelatihan Backpropagation

untuk kesalahan lebih rendah dan untuk menghindari minimum lokal.

Seperti yang telah dijelaskan pada sub bab sebelumnya, langkah- langkah untuk

mengoptimasi bobot dan bias awal pada Backpropagation hal pertama yang dilakukan adalah

menentukan variabel-variabel yang dibutuhkan oleh Algoritma Genetika yaitu populasi, batas

iterasi, peluang terjadinya pindah silang, peluang terjadinya mutasi dan kromosom untuk

elitisim. Dalam penelitian ini jumlah populasi yang digunakan sebanyak 50 kromosom dengan

batas iterasi sebanyak 100, sebesar 0.8 peluang yang digunakan dalam pidah silang dan sebesar

0.1 peluang yang digunakan dalam mutasi. Kromosom yang terpilih sebanyak bobot yang

digunakan sesuai dengan jumlah input, jumlah neuron pada jumlah hidden layer yang digunkan

dan jumlah output.

Selanjutnya yang kedua yaitu inisialisasi kromosom, pada peneltian ini dilakukan

optimasi parameter bobot Neural Network yaitu inisialisasi pengkodean dengan menggunakan

real valued atau bilangan real. Proses yang dilakukannya yaitu dengan merepresentasikan bias

dan bobot pada Neural Network kedalam bentuk kromosom GA. Gambar 5.27 (a). menyajikan

contoh struktur Neural Network dengan 3 input dan 2 neuron pada hidden layer. Pembentukan

kromosom yang direpresentasikan disajikan pada Gambar 5.25 (b).

(a)

X

2

X

14

Z

1

Z

2

1

1

Y

V12

V21

V22

V141

V142 b11

b12

W1

W2

b2

X

1

Page 75: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

65

(b).

V11 V21

V141 V12 V22

V142 W1 W2 b11 b12 b2

Gambar 5.25 Pembentukan Kromosom Algoritma Genetika

Selanjutnya terbentuk 50 kromosom dengan menggeneret sejumlah populasi dengan nilai

parameter yang bervariasi didalamnya. Nilai kromosom di generate diantara nilai range dari

parameter (bias dan bobot).

Tahap ketiga fungsi fitness function yang digunakan adalah nilai dari AUC. Dari 50

kromosom yang telah degenerate kemudian dihitung nilai AUC dari tiap kromosomnya. Nilai

AUC yang tinggi menghasilkan kromosom yang baik dan dapat bertahan hidup. Setelah

mendapatkan kromosom yang baik kemudian tahap keempat menyeleksi dengan menggunakan

roulette wheel yaitu tiap kromosom akan diseleksi untuk dijadikan sebagi calon orang tua.

Pemilihan calon orang tua didasarkan pada nilai fitness yang telah didapatkan pada tahapan

sebelumnya. Nilai frekuensi adalah fitness kumulatif yang dibagi dengan total fitness. Nilai

tersebut akan menjadi batas terpilihnya kromosom. Kromosom yang terpilih jika nilai dari

bilangan random terletak pada range nilai frekuensi kromosom sebelumnya dan kromosom

tersebut.

Tahapan kelima yaitu proses pindah silang :

V11_1 V21_1

V141_1 V12_1 V22_1

V142_1 W1_1 W2_1 b11_1 b12_1 b2_1

V11_2 V21_2

V141_2 V12_2 V22_2

V14_2 W1_2 W2_2 b11_2 b12_2 b2_2

V11_2 V21_2

V141_2 V12_2 V22_2

V142_1 W1_1 W2_1 b11_1 b12_1 b2_1

V11_1 V21_1

V141_1 V12_1 V22_1

V14_2 W1_2 W2_2 b11_2 b12_2 b2_2

diberi nilai random bilangan uniform (0.1) di kromosom yang telah terpilih sebagai calon orang

tua. Jika nilai random bilangan uniform (0.1) kurang dari peluang pindah silang (Pc=0.8)

sehingga kromosom tersebut terpilih menjadi orang tua dan terjadilah proses pindah silang

Page 76: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

66

yaitu kromosom satu melakukan pertukaran informasi (isi parameter) dengan kromosom 2

yang menghasilkan sebuah kromosom baru yang dihitung juga nilai fitnessnya.

Tahapan keenam yaitu mutasi dimana mutasi dilakukan pada kromosom yang terpilih

dengan mengubah salah satu nilai parameter dengan suatu bilangan random. Kromosom dipilih

dengan memberikan bilangan uniform (0.1) pada kromosom, jika bilangan random uniform

(0.1) kurang dari nilai peluang mutasi (Pm = 0.1) sehinggga kromosom tersebut menjadi

kromosom yang terpilih.

Tahapan ketujuh yaitu dengan mengurutkan nilai fitness dari semua kromosom yang

terbentuk, dari 50 kromosom awal, kromosom hasil pindah silang, dan kromosom pada saat

mutasi dari nilai fitness paling rendah sampai nilai fitness paling tinggi. Kromosom dengan

nilai fitness tertinggi disimpan dan selanjutnya digunakan sebagai orang tua pada generasi

selanjutnya. Tahapan berikutnya menggenerate 50 kromosom yang merupakan populasi baru

dengan nilai fitness tertinggi dan dilakukan iterasi hingga iterasi ke 100.

Setelah mendapatkan parameter pada pelatihan Backpropagation yang paling optimal,

kemudian dibentuk model untuk mengetahui kinerja klasifikasi pada data status penerimaan

Bidikmisi. Tabel 5.33 merupakan 10-fold cross-validation hasil kinerja klasifikasi dari data

status penerimaan beasiswa Bidikmisi. Berikut hasil pengoptimalan bobot dengan 4 neuron

pada 1 hidden layer.

Tabel 5.33 Hasil Kinerja Klasifikasi BPN-GA dengan 4 Neuron Pada 1 Hidden Layer

Fold Cross

ke-

Data Testing Data Training

AUC G-mean Akurasi AUC G-mean Akurasi

1 0,50 0,00 96,62 0,51 0,00 96,63

2 0,51 0,13 96,05 0,50 0,08 96,09

3 0,52 0,00 96,60 0,50 0,00 96,65

4 0,53 0,11 96,66 0,52 0,04 96,59

5 0,48 0,00 96,62 0,53 0,00 96,64

6 0,50 0,00 96,64 0,51 0,00 96,64

7 0,52 0,00 96,43 0,52 0,00 96,65

8 0,50 0,18 93,34 0,51 0,21 93,28

9 0,50 0,00 96,62 0,51 0,00 96,63

10 0,52 0,50 39,11 0,51 0,50 39,31

Rata-rata 0,51 0,10 90,47 0,51 0,10 90,51

Hasil analisis pada Tabel 5.33 menunjukkan bahwa ketepatan klasifikasi pada data

training adalah 90,51% dan data testing sebesar 90,47%, diketahui bahwa ketepatan klasifikasi

Page 77: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

67

dari model Neural Network Backpropagation yang terbentuk ditinjau dari akurasi sebesar

90,47%, ditinjau dari AUC sebesar 0,51 dan ditinjau dari G-mean sebesar 0,10. Dalam hal ini

hasil dari data training dan data testing menghasilkan selisih yang hampir sama sehingga dapat

dikatakan model yang dibentuk cukup baik.

5.9.4 Tingkat Kinerja Klasifikasi Neural Network Backpropagation Tanpa dan dengan

Optimasi Bobot dan Bias Backpropagation

Berikut akan diuraikan tentang perbandingan dari ketiga metode yang telah dilakukan,

yaitu analisis klasifikasi dengan satu hidden layer, dan dengan dua hidden layer menggunakan

Neural Network Backpropagation serta optimasi parameter bobot dan bias awal

Backpropagation. Tabel 5.34 menyajikan Kinerja Hasil klasifikasi Neural Network

Backpropagation Tanpa dan dengan Optimasi Bobot dan Bias Backpropagation.

Tabel 5.34 Kinerja Hasil Klasifikasi Tanpa dan dengan Optimasi Bobot dan Bias Pada Neural Network

Backpropagation

Struktur NN Data Testing Data Training

AUC G-mean Akurasi (%) AUC G-mean Akurasi (%)

23-4-1 (Tanpa Optimasi) 0,51 0,01 78,00 0,51 0,01 78,02

23-4-1 (Dengan Optimasi) 0,51 0,09 90,47 0,51 0,08 90,51

23-10-4-1 (Tanpa Optimasi) 0,51 0,01 68,73 0,50 0,01 68,72

Berdasarkan Tabel 5.34 dapat diketahui bahwa bobot dan bias awal yang dioptimasi

menggunakan Algoritma Genetika mampu meningkatkan hasil kinerja klasifikasi untuk AUC,

G-mean dan Akurasi. Dapat dilihat hasil dari kinerja Backpropagation dengan struktur NN (23-

4-1) sebelum dioptimasi atau parameter bobot dan bias yang dilakukan secara acak manual

pada data testing menghasilkan nilai akurasi sebesar 78,00% , nilai G-mean sebesar 0,01 dan

nilai AUC 0,51. Setelah dilakukan optimasi mengggunakan Algoritma Genetika dihasilkan

nilai akurasi sebesar 90,47%, nilai G-mean sebesar 0,09, nilai AUC sebesar 0,51 walaupun

tidak meningkat secara signifikan tetapi dapat dikatakan bahwa optimasi bobot dan bias awal

menggunakan algoritma genetika mampu meningkatkan kinerja klasifikasi dan untuk hasil data

testing DLNN (23-10-4) menghasilkan nilai akurasi sebesar 68,73%, nilai G-mean sebesar

0,01, nilai AUC sebesar 0,51 sehingga dalam hal ini dapat dikatakan bahwa hasil klasifikasi

yang terbaik yaitu klasifikasi dengan optimasi bobot dan bias pada Neural Network

Backpropagation.

Page 78: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

68

Berdasarkan analisis klasifikasi yag telah dibahas diketahui bahwa hasil nilai akurasi yang

tinggi tetapi menghasilkan nilai G-mean yang rendah dikarenakan data yang tidak seimbang

yaitu proporsi kelas status penerimaan Beasiswa Bidikmisi data positif (diterima) sebesar

0,96648 atau 96,648% sedangkan data negatif (tidak diterima) sebesar 0,0335 atau 3,35% dan

jika dilihat dari sebaran data status Beasiswa Bidikmisi Jawa Tengah Tahun 2017 terjadi

overlapping antar kelas.

Page 79: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

69

BAB 6

RENCANA TAHAPAN BERIKUTNYA

Rencana tahap berikutnya yang akan dilakukan sampai dengan Laporan Akhir hibah

Penelitian Disertasi Doktor (PDD) pasca Laporan Kemajuan disajikan melalui Diagram 6.2.

Roadmap PDD Tahun 2018 disajikan pada Gambar 6.2, pelaksanaan diberikan sebagai berikut:

Roadmap PDD Tahun 2018 (Gambar 6.2)

1. Berdasarkan fenomena di lapangan mengenai Program Beasiswa Bidikmisi dilakukan

pencarian data Bidikmisi di Kemenristekdikti, Direktorat Pembelajaran dan

Kemahasiswaan, kanal Bidikmisi.

2. Pre-processing data Bidikmisi, langkah-langkahnya diberikan sebagai berikut:

a. Teknik data reduction: mereduksi data dengan cara mem-filter data berdasarkan

Kabupaten/Kota seluruh provinsi di Indonesia pada database data Bidikmisi.

b. Teknik data cleaning: membersihkan data dengan cara memperbaiki inkonsistensi

data dengan mengisi missing value pada covariate variable.

c. Teknik data integration: mengintegrasikan masing-masing variabel yaitu variabel

respon (Y) dan covariate variable (X)

d. Teknik data transformation: mentrasformasikan data untuk proses identifikasi

Bernoulli mixture distribution

3. Eksplorasi data Bidikmisi dilakukan analisis deskriptif karakteristik status penerimaan

siswa pendaftar beasiswa Bidikmisi seluruh Kabupaten/Kota Provinsi Jawa Tengah di

Indonesia. Deskripsi data Bidikmisi meliputi:

a. Deskripsi siswa pedaftar beasiswa Bidikmisi seluruh Kabupaten/Kota Provinsi Jawa

Tengah di Indonesia.

b. Deskripsi data rekapitulasi penerimaan beasiswa Bidikmisi seluruh Kabupaten/Kota

Provinsi Jawa Tengah di Indonesia.

4. Analisis-1: Ketepatan klasifikasi model level-1 penerimaan Bidikmisi per seluruh

Kabupaten/Kota Provinsi Jawa Tengah:

a. Model Regresi Dummy adalah sebagai berikut:

0 1 11 2 12 3 13 4 14 5 21 6 22 7 23 8 24 9 31 10 32 11 33 12 41 13 42 14 43+ d + d + d + d + d + d + d + d + d d + d d d dg x

Persamaan untuk menentukan nilai peluang (odds ratio) adalah sebagai berikut:

1 e

g x

g xx

Page 80: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

70

atau

exp + d + d + d + d + d + d + d + d + d d + d d d d5 70 1 11 2 12 3 13 4 14 21 6 22 23 8 24 9 31 10 32 11 33 12 41 13 42 14 43

ˆ1 exp + d + d + d + d + d + d + d + d + d d + d d5 70 1 11 2 12 3 13 4 14 21 6 22 23 8 24 9 31 10 32 11 33 12 41

x

d d13 42 14 43

b. Model Regresi Polytomous

2

1

1

10 11 11 12 12 13 13 14 14 15 21 16 22 17 23 18 24 19 31 110 32

111 33 112 41 113 42 114 43

Pr 2 | Pln ln

Pr 1| P

= + d + d + d + d + d + d + d + d + d d +

d d d d

Y xZ x

Y x

3

2

1

20 21 11 22 12 23 13 24 14 25 21 26 22 27 23 28 24 29 31 210 32

211 33 212 41 213 42 214 43

Pr 3 | Pln ln

Pr 1| P

= + d + d + d + d + d + d + d + d + d d +

d d d d

Y xZ x

Y x

4

3

1

30 31 11 32 12 33 13 34 14 35 21 36 22 37 23 38 24 39 31 310 32

311 33 312 41 313 42 314 43

Pr 4 | Pln ln

Pr 1| P

= + d + d + d + d + d + d + d + d + d d +

d d d d

Y xZ x

Y x

c. Pendekatan Model Regresi Bernoulli Mixture Bayesian-Level_1

Pada regresi Bernoulli Mixture Bayesian-Level_1 untuk memodelkan status

penerimaan beasiswa Bidikmisi dilakukan dengan membuat doodle yang disajikan

dalam Gambar 6.1.

Page 81: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

71

Gambar 6.1 Doodle Regresi Bernoulli Mixture Bayesian-Level_1

Model Regresi Bernoulli Mixture Bayesian-Level_1 berdasarkan doodle Gambar 6.1

adalah sebagai berikut:

- -1 -1 -2 -2f x g x g xB mix mix mix mix mix

,

dengan

1 10 11 11 12 12 13 13 14 14 15 21 16 22 17 23 18 24 19 31 110 32

111 33 112 41 113 42 114 43

+ d + d + d + d + d + d + d + d + d d +

d d d d

mixg x

,

2 20 21 11 22 12 23 13 24 14 25 21 26 22 27 23 28 24 29 31 210 32

211 33 212 41 213 42 214 43

+ d + d + d + d + d + d + d + d + d d +

d d d d

mixg x

,

sehingga

10 11 11 12 12 13 13 14 14 15 21 16 22 17 23 18 24 19 31 110 32

111 33 112 41 113 42 114 43

20 21 11 22 12

- -1

-2

+ d + d + d + d + d + d + d + d + d d +

d d d d

+ d + d +

f xB mix mix

mix

23 13 24 14 25 21 26 22 27 23 28 24 29 31 210 32

211 33 212 41 213 42 214 43

d + d + d + d + d + d + d d +

d d d d

Persamaan untuk menentukan nilai peluang (odds ratio) model Regresi Bernoulli Mixture

Bayesian-Level_1 adalah sebagai berikut:

Page 82: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

72

-1 -2

-1 -2

10 11 11 12 12 13 13 14 14 15 21 16 22

- -1 -1 -2 -2

-1 -2

-1

ˆ ˆ

e e =

1 e 1 e

+ d + d + d + d + d + dexp

=

mix mix

mix mix

g x g x

g x g x

f xB mix mix mix mix mix

mix mix

mix

x x

17 23 18 24 19 31 110 32

111 33 112 41 113 42 114 43

10 11 11 12 12 13 13 14 14 15 21 16 22 17 23 18 24 19 31 110 32

111 33

+ d + d + d d +

d d d d

+ d + d + d + d + d + d + d + d + d d + 1 exp

d

112 41 113 42 114 43

10 11 11 12 12 13 13 14 14 15 21 16 22 17 23 18 24 19 31 110 32

111 33 112 41 113 42 114

-2

d d d

+ d + d + d + d + d + d + d + d + d d + exp

d d d d

mix

43

20 21 11 22 12 23 13 24 14 25 21 26 22 27 23 28 24 29 31 210 32

211 33 212 41 213 42 214 43

+ d + d + d + d + d + d + d + d + d d +

1 exp d d d d

5. Analisis-2: Komparasi model level-1 penerimaan Bidikmisi per seluruh Kabupaten/Kota

Provinsi Jawa Tengah dilakukan analisa dengan metode klasifikasi Random Forest,

SMOTE-Bagging, and Bernoulli Mixture berdasarkan AUC dan G-Mean diperoleh hasil

klasifikasi terbaik dengan menggunakan metode Bernoulli Mixture.

6. Luaran penelitian PDD, progress diberikan sebagai berikut:

Progress target capaian tahunan sesuai luaran penelitian yang dihasilkan disajikan pada

Tabel 6.1.

Tabel 6.1 Target Capaian Luaran PDD

No Jenis Luaran Indikator Capaian Tahun-1

TS1)

1 Publikasi ilmiah Internasional accepted/published

- dilaksanakan bulan November, sebelum

laporan akhir PDD, akan submit 1 (satu)

jurnal Internasional

Nasional

Terakreditasi

-

2 Pemakalah dalam

pertemuan ilmiah

Internasional sudah dilaksanakan

- menghasilkan 2 (dua) artikel ilmiah yang

dimuat pada Proceeding Internasional,

dilaksanakan bulan Agustus, tanggal 9-12

Agustus 2018 dan 26-27 November 2018

Nasional sudah dilaksanakan

- Akselerasi Seminar Internasional

Page 83: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

73

Roadmap PDD Tahun 2018

Tahap-Eksplorasi-1 Tahap-Analisis-1 Tahap-Evaluasi

Gambar 6.2 Roadmap PDD Tahun 2018

Fenomena Beasiswa Bidikmisi

Pre-processing data Bidikmisi

Eksplorasi data Bidikmisi

Analisis cluster

Evaluasi model peneriman

level-1 dan model cluster

Hasil analisis deskripsi data respon status penerimaan Bidikmisi

menunjukkan bahwa penerimaan Bidikmisi kabupaten/kota provinsi

Jawa Tengah di Indonesia diterima hanya sebesar sekitar 25%-40%

Analisis ketepatan klasifikasi model penerimaan Bidikmisi

Respon level-1:

- Analisis regresi dummy

- Analisis regresi polytomous

- Analisis regresi Bernoulli Mixture dengan pendekatan Bayesian

- Hasil analisis menunjukkan:

1. Ketepatan klasifikasi model regresi dummy adalah 20,75%

2. Ketepatan klasifikasi model regresi polytomous adalah 62,95

3. Ketepatan klasifikasi model Bernoulli Mixture dengan

pendekatan Bayesian adalah 76,85 %

Kesimpulan: model Bernoulli Mixture dengan pendekatan Bayesian

lebih representative untuk pemodelan penerimaan Bidikmisi pada

respon level-1

Analisis cluster penerimaan Bidikmisi kabupaten/kota provinsi Jawa

Tengah di Indonesia dengan metode Cluster Ensemble, K-prototype,

Cluster Ensemble algoritma Squeezer dan Bernoulli Mixture.

Untuk basis penentuan analisis

pemodelan pada level-1 Hirarki

Peta tematik Bidikmisi

Model cluster level-1 penerimaan

Bidikmisi abupaten/kota provinsi

Jawa Tengah di Indonesia dengan

menggunakan pendekatan Cluster

Ensemble, K-prototype, Cluster

Ensemble algoritma Squeezer dan

Bernoulli Mixture. yang dihasilkan

dijadikan sebagai bahan untuk

menyusun dashboard peta tematik

PDD.

Analisis Deskripsi data respon

status penerimaan Bidikmisi

seluruh kabupaten/kota provinsi

Jawa Tengah di Indonesia

Analisis ketepatan klasifikasi

model penerimaan Bidikmisi

seluruh kabupaten/kota provinsi

Jawa Tengah untuk pemodelan

pada level-1

Validasi cluster

Final Report

1. Laporan Akhir

2. Proceeding International

3. Jurnal International

4. Peta Tematik Bidikmisi

Propinsi Jawa Tengah

Page 84: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

74

BAB 7

KESIMPULAN DAN SARAN

7.1 Kesimpulan

Berdasarkan hasil analisis data Bidikmisi Kabupaten/Kota Provinsi Jawa Tengah di

Indonesia dapat simpulkan sebagai berikut:

1. Diperoleh ketepatan proses klasifikasi melalui model regresi mixture Bernoulli

Bayesian dibandingkan dengan prosentase klasifikasi penerimaan dari model regresi

dummy dan model regresi polytomous. Hasil perbandingan menunjukkan bahwa

pendekatan model regresi mixture Bernoulli Bayesian memberikan prosentase

ketepatan klasifikasi penerimaan lebih tinggi dibanding model regresi dummy dan

model regresi polytomous.

2. Model yang dibentuk pada Neural Network Backpropagation dengan 1 hidden layer

menghasilkan prediksi status penerimaan Beasiswa Bidikmisi di Jawa Tengah dengan

akurasi sebesar 78,00%, nilai G-mean sebesar 0,01, nilai AUC 0,51 sedangkan untuk 2

hidden layer menghasilkan nilai akurasi sebesar 68,73%, nilai G-mean sebesar 0,01,

nilai AUC sebesar 0,51.

3. Optimasi Parameter Bobot dan Bias Backpropagation mampu memperbaiki terhadap

proses pelatihan Neural Network dengan meningkatkan kinerja klasifikasi

Backpropagation yang dapat dianalisi dari hasil kinerja Backpropagation dengan

arsitektur NN (23-4-1) sebelum dioptimasi atau parameter bobot dan bias yang

dilakukan secara acak manual pada data testing menghasilkan nilai akurasi sebesar

78,00% , nilai G-mean sebesar 0,01 dan nilai AUC 0,51, Setelah dilakukan optimasi

mengggunakan Algoritma Genetika dihasilkan nilai akurasi sebesar 90,47%, nilai G-

mean sebesar 0,10, nilai AUC sebesar 0,51 walaupun tidak meningkat secara signifikan

tetapi dapat dikatakan bahwa optimasi bobot dan bias awal menggunakan algoritma

genetika mampu meningkatkan kinerja klasifikasi.

4. Berdasarkan dari analisis yang telah diuraikan dapat disimpulkan hasil klasifikasi yang

terbaik yaitu klasifikasi dengan optimasi bobot dan bias pada Neural Network

Backpropagation karna dapat meningktkan kinerja klasifikasi, yaitu hasil nilai akurasi

sebesar 90,51%, nilai G-mean sebesar 0,10, dan nilai AUC sebesar 0,51.

Page 85: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

75

DAFTAR PUSTAKA

Abel, L., Golmard, J.L. dan Mallet, A. (1993), "An Autologistic Model for The Genetic

Analysis of Familial Binary Data", American Journal of Human Genetics, Vol. 53, p.

894.

Agrawal, R. dan Srikant, R. (1994), "Fast Algorithms for Mining Association Rules", VLDB,

vol. 1215, pp. 487–499.

Bishop, C. (2006), "Pattern Recognition and Machine Learning", Information Science and

Statistics, Springer.

Bouguila, N. (2010), "On Multivariate Binary Data Clustering and Feature Weighting",

Comput. Stat.Data Anal, Vol. 54, pp. 120-134.

Carlin, B.P. dan Chib, S. (1995), "Bayesian Model Choice Via Markov Chain Monte Carlo

Methods", Journal of the Royal Statistical Society, pp. Ser. B, 57(3): 473-484.

Celeux, G. dan Govaert, G. (1991), "Clustering Criteria for Discrete Data and Latent Class

Models", Journal of Classification, Vol. 8, pp. 157–176.

Direktorat Jenderal Pembelajaran dan Kemahasiswaan, K.R.T.d.P.T. (2016), Pedoman

Penyelenggaraan Bantuan Biaya Pendidikan Bidikmisi Tahun 2016, Belmawa,

Kemeristek Dikti, Jakarta.

Duda, R.O. dan Hart, P.E. (1973), Pattern Classification and Scene Analysis, Wiley.

Fränti, P., Xu, M. dan Kärkkäinen, I. (2003), "Classification of Binary Vectors by Using

Distance to Minimize Stochastic Complexity", Pattern Recognition Letters, Vol. 24, pp.

65 – 73.

Gelman, A., Carlin, J.B., Stern, H.S., Dunson, D.B., Vehtari, A. dan Rubin, D.B. (2014),

Bayesian Data Analysis, Third Edition ed., CRC Press, Boca Raton.

Goldstein , H. (1995), Multilevel Statistical Models, 2nd ed., Edward Arnold, London.

González, J., Juan, A., Dupont, P., Vidal, E. dan Casacuberta, F. (2001), "A Bernoulli Mixture

Model for Word Categorization", Proceedings of the IX Spanish Symposium on Pattern

Recognition and Image Analysis, Benicassim, Spain.

Grim, J., Pudil, P. dan Somol, P. (2000), "Multivariate Structural Bernoulli Mixtures for

Recognition", Proceedings. 15th International Conference on, vol. 2, pp. 585–589.

Gyllenberg, M., Koski, T. dan Verlaan, M. (1997), "Classification of Binary Vectors by

Stochastic Complexity", Journal of Multivariate Analysis, Vol. 47 – 72, p. 63.

Hardin, J.M., Anderson, B.S., Woodby, L.L., Crawford, M.A. dan Russell, T.V. (2008), "Using

an Empirical Binomial Hierarchical Bayesian Model as an Alternative to Analyzing Data

From Multisite Studies", Sage Publications, Vol. 32, pp. 143-156.

Hollmen, J. dan Tikka, J. (2007), "Compact and Understandable Descriptions of Mixture of

Bernoulli Distributions", Proceedings of the 7th International Symposium on Intelligent

Data Analysis (IDA2007), Springer-Verlag, Berlin, Heidelberg.

Hox, J.J. (1995), Applied Multilevel Analysis, TT-Punlikaties, Amsterdam.

Hox, J. (2002), Multilevel Analysis: Techniques and Applications, Lawrence Erlbaum

Associates Publishers, New Jersey.

Iriawan, N. (2000), Computationally Intensive Approaches to Inference in Neo-Normal Linear

Models, Thesis Ph.D., Australia.

Iriawan, N. (2001), Studi Tentang Bayesian Mixture Normal dengan Menggunakan Metode

MCMC, Lemlit ITS, Surabaya.

Juan, A. dan Vidal, E. (2002), "On The Use of Bernoulli Mixture Models for Text

Classification", Pattern Recognition, Vol. 35, No. 12, pp. 2705–2710.

Page 86: LAPORAN AKHIR PENELITIAN DISERTASI DOKTOR · 2020. 8. 1. · Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari penelitian ini. Pemodelan dilakukan dengan mengembangkan

76

Juan, A. dan Vidal, E. (2004), "Bernoulli Mixture Models for Binary Images", Proceedings of

the 17th International Conference on Pattern Recognition (ICPR’04).

Kamthe, A., Carreira-Perpinán, M.A. dan Cerpa, A. (2011), "Adaptation of A Mixture of

Multivariate Bernoulli Distributions", IJCAI Proceedings-International Joint Conference

on Artificial Intelligence, vol. 22, p. 1336.

Li, T. (2006), "A Unified View on Clustering Binary Data", Machine Learning, Vol. 62, pp.

199–215.

Morgan, C.J., Lenzenweger, M.F., Rubin, D.B. dan Levy, D.L. (2014), "A Hierarchical Finite

Mixture Model that Accommodates Zero-Inflated Counts, Non-Independence, and

Heterogeneity", Statistic in Medicine, Vol. 33, pp. 2238–2250.

Myllykangas, S., Tikka, J., Böhling, T., Knuutila, S. dan Hollmén, J. (2008), "Classification of

Human Cancers Based on DNA Copy Number Amplification Modelling", BMC Med.

Genomics, Vol. 1, pp. 1-13.

Ntzoufras, I. (2009), Bayesian Modeling Using WinBUGS, Wiley, New Jersey, USA.

Park, J. dan Kim, K. (2015), "Internal Migration of The Elderly in Korea: A Multilevel Logit

Analysis of Their Migration Decision", Asian and Pacific Migration Journal, Vol. 24(2)

, pp. 187–212.

Park, J. dan Kim, K. (2016), "The Residential Location Choice of The Elderly in Korea: A

Multilevel Logit Model", Journal of Rural Studies, Vol. 44, pp. 261-271.

Patrikainen, A. dan Mannila, H. (2004), "Sub Space Clustering of High-Dimensional Binary

Data-A Probabilistic Approach", SIAM International Conference on Data Mining,

Workshop on Clustering High-Dimensional Data and Its Applications.

Raftery, A.E. (1988), "Inference for The Binomial N Parameter: A Hierarchical Bayes

Approach", Biometrika, Vol. 75, No. 2, pp. 223-228.

Saeed, M., Javed, K. dan Babri, H.A. (2013), "Machine Learning Using Bernoulli Mixture

Models: Clustering,Rule Extraction and Dimensionality Reduction", Neurocomputing,

Vol. 119, pp. 366–374.

Shkedy, Z., Molenberghs, G., Craenendonck, H.V., Steckler, T. dan Bijnens, L. (2005), "A

Hierarchical Binomial-Poisson Model for The Analysis of A Crossover Design for

Correlated Binary Data When The Number of Trials is Dose-Dependent", Journal of

Biopharmaceutical Statistics, Vol. 15, pp. 225–239.

Sun, Z., Rosen, O. dan Sampson, A. (2007), "Multivariate Bernoulli Mixture Models with

application to Postmortem Tissue Studies in Schizophrenia", Biometrics, Vol. 63, pp.

901-909.

Tikka, J., Hollmen, J. dan Myllykangas, S. (2007), "Mixture Modelling of DNA Copy Number

Amplification Patterns in Cancer", Proceedings of the 9th International Work-

Conference on Artificial Neural Networks (IWANN' 2007), Springer-Verlag, Berlin,

Heidelberg.

Wang, X. dan Kabán, A. (2005), "Finding Uninformative Features in Binary Data", Intelligent

Data Engineering and Automated Learning - IDEAL 2005, Vol. 3578, pp. 40–47.

Zhu, S., Takigawa, I., Zhang, S. dan Mamitsuka, H. (2007), "A Probabilistic Model for

Clustering Text Documents with Multiple Fields", Advances in Information Retrieval,

29th European Conference on IR Research (ECIR2007) , Berlin, Heidelberg.