perbandingan- prediksi prestasi belajar mahasiswa menggunakan teknik data mining

Upload: bakharudin-yusuf-bakhtiar

Post on 11-Oct-2015

152 views

Category:

Documents


1 download

DESCRIPTION

memprediksi prestasi mahasiswa menggunakan data Mining

TRANSCRIPT

  • PERBANDINGAN: PREDIKSI PRESTASI BELAJAR MAHASISWA

    MENGGUNAKAN TEKNIK DATA MINING

    (STUDY KASUS FASILKOM UNSIKA)

    Sofi Defiyanti

    Fakultas Ilmu Komputer Universitas Singaperbangsa Karawang

    [email protected]

    ABSTRAK

    Prestasi belajar merupakan salah satu aspek yang

    paling penting dalam bidang pendidikan. Prestasi

    belajar yang tinggi selalu menjadi harapan semua

    pihak. Bagi pihak perguruan tinggi prestasi belajar

    mahasiswanya merupakan salah satu indikator efektif

    proses belajar mengajar, yang sekaligus dapat

    digunakan untuk meningkatkan citra perguruan tinggi

    tersebut. Di perguruan tinggi prestasi belajar yang

    dicapainya oleh mahasiswa menggunakan Indeks

    Prestasi Kumulatif (IPK). Data akademik, data

    ekonomi dan data geografis mahasiswa dapat

    digunakan dalam menganalisis dan memprediksi

    kinerja mahasiswa dengan menggunakan teknik-teknik

    data mining diantaranya adalah teknik decision tree,

    Nave Bayes dan artificial neural network. Dengan

    variabel-variabel penentu adalah umur saat masuk

    perguruan tinggi, jenis kelamin, suku bangsa, asal

    sekolah, sks yang diambil, IPS, pembiayaan kuliah,

    status mahasiswa, penghasilan orang tua, penghasilan

    pribadi, dan tempat tinggal. Dari penelitian yang telah

    dilakukan maka didapat Nave Bayes merupakan

    teknik data mining yang memiliki akurasi yang paling

    tinggi jika dibandingkan dengan decision tree dan

    artificial neural network. Nave Bayes juga memiliki

    waktu yang paling cepat untuk membangun model

    dibandingkan dua model lain. Nave Bayes termasuk

    kedalam good classification dilihat dari ROC Curve.

    Kata Kunci : Data Mining, Prestasi Belajar,

    Perbandingan

    1. Pendahuluan Salah satu yang menjadi faktor suatu perguruan

    tinggi termasuk yang berkualitas atau tidak salah

    satunya dapat dilihat dari kinerja mahasiswanya.

    Terbukti, dalam borang akreditasi program studi pada

    buku 3A standar 3 Mahasiswa dan Lulusan salah satu

    faktornya adalah indek prestasi kumulatif. Kinerja

    mahasiswa ini dapat dilihat dari Indeks Prestasi

    Kumulatif yang didapat oleh mahasiswa tersebut.

    dengan semakin banyaknya rata-rata IPK mahasiswa

    lebih dari 3,00 maka penilaian pada isian borang inipun

    akan mendapat nilai empat, nilai maksimal dari

    pengisian borang tersebut. Sehingga kualitas dari suatu

    program studi pun akan semakin baik.

    Rata-rata IPK didapat dari data akademik

    mahasiswa selama masa kuliah sampai dengan lulus.

    Dengan memanfaatkan data-data akademik mahasiswa

    terdahulu yang sudah ada maka dapat memprediksi

    IPK mahasiswa baru dengan menggunakan teknik data

    mining. Dengan mengetahui prediksi IPK mahasiswa

    baru, maka pihak prodi mendapat peringatan dini agar

    lebih perhatian terhadap mahasiswanya, sehingga

    kualitas dari prodi tersebut tetap baik atau bahkan lebih

    baik.

    Data mining memiliki beberapa teknik

    diantaranya adalah klasifikasi yang digunakan untuk

    penemuan sekumpulan model yang menggambarkan

    dan membedakan konsep atau kelas-kelas data, agar

    model yang sudah dibentuk dapat digunakan untuk

    memprediksi. Teknik klasifikasi dapat dikelompokkan

    kedalam beberapa jenis diantaranya pohon keputusan,

    Bayesian, jaringan saraf tiruan (ANN), dan lain-lain.

    Beberapa penelitian dalam bidang akademik

    perguruan tinggi telah banyak dilakukan dengan

    menggunakan teknik klasifikasi data mining.

    Diantaranya pada tahun 1996 Al Cripps pada

    penelitiannya yang berjudul Using Artificial Neural Nets to Predict Academic Performance menggunakan ANN untuk memprediksi kelulusan berdasarkan data

    akademik selama mahasiswa kuliah. Dalam

    penelitiannya Al Cripps menggunakan variable-

    variabel prediktor yang digunakan dalam penelitiannya

    yaitu usia, jenis kelamin, Skor American College

    Testing (ACT), ras dan kemampuan membaca. (Cripps,

    1996)

    Pada tahun 2005 Chandra dan Nandhini pada

    penelitiannya yang berjudul Predicting Student Performance using Classification Techniques menggunakan teknik klasifikasi untuk memprediksi

    kinerja siswa dengan menggunakan algoritma induksi

    pohon keputusan dan nave bayes. (Chandra &

    Nandhini, 2005)

    Pada tahun 2010 ying zhang, dkk dalam

    penelitiannya yang berjudul (Y & S, 2010) menggunakan bebebrapa algoritma klasfifikasi dalam

    data mining untuk mengetahui retensi siswa dengan

    menggunakan teknik data mining. Retensi siswa akan

    menjadi indikator dari kinerja akademik dan untuk

    pengambilan keputuan pihak manajemen. Ying Zhang

    menggunakan tiga algoritma klasifikasi dalam

    penelitiannya diantaranya nave bayes, support vectore

    machine dan decision tree. Dalam penelitiannya

    didapat bahwa dari ketiga algoritma tersebut yang

    paling akurat adalah nave bayes dengan 89,5% diikuti

    di tempat kedua adalah Support Vectore Machine

    dengan 83,5% dan terakhir adalah decision tree dengan

    81,3%.

  • Pada tahun 2012 Surjeet Kumar, dkk dengan

    penelitian yang berjudul Mining Education Data to Predict

    Students Retention: A comparative Study membandingkan beberapa algoritma dalam teknik

    klasifikasi dalam data mining yaitu ID3, C4.5 dan

    ADT. Dari penelitiannya tersebut didapat algoritma

    yang paling baik kinerjanya adalah ADT dengan

    precision yang paling besar dengan 82,8% dan waktu

    pengerjaan yang paling singkat yaitu 0,06 detik.

    (Yaday, Surjeet, Bharadwaj, Brijesh, & Pal, 2012)

    Fumei Weng pada thesisnya yang berjudul

    Modelling IT Student Retention at Taiwanese Higher Education Institutions pada tahun 2010 mengatakan bahwa retensi siswa dapat dilihat berdasarkan variabel

    demografi, data akademik dan ekonomi mahasiswa.

    Maka di dapat 15 variabel dalam memprediksi retensi

    siswa yaitu study major, gender, age, secondary school

    type, entrance test score, admission status, residency,

    first-semester credit earned, first-semester grade,

    second-semester credit earned, second-semester grade,

    tuition fee waiver, loan, absenteeism, and outcome.

    (Weng, 2010)

    Fakultas ilmu Komputer (Fasilkom) Universitas

    Singaperbangsa Karawang (UNSIKA) adalah Fakultas

    termuda di UNSIKA yang didirikan pada tahun 2008.

    Meskipun Fakultas termuda tetapi fasilkom termasuk

    fakultas yang memiliki jumlah mahasiswa terbanyak

    jika dibandingkan dengan fakultas lain, yaitu pada

    tahun 2012 tercatat ada 1000 mahasiswa untuk

    program studi tenik informatika. Dengan banyaknya

    jumlah mahasiswa yang terdaftar di fasilkom maka

    membuktikan bahwa fasilkom termasuk salah satu

    fakultas yang di favoritkan di UNSIKA.

    Pada Desember 2012, Fasilkom UNSIKA prodi

    teknik informatika melakukan akreditasinya yang

    pertama dan pada bulan Februari 2013 hasil akreditasi

    untuk Fasilkom UNSIKA prodi teknik informatika

    keluar dengan hasil yang memuaskan yaitu mendapat

    akreditasi B. Dengan hasil akreditasi B maka Fasilkom UNSIKA prodi teknik informatika termasuk

    prodi terbaik di Indonesia terbukti bahwa hanya 50

    prodi teknik informatika di seluruh indonesia yang

    memiliki akreditasi B. Dari latar belakang yang telah di jabarkan

    sebelumnya maka disini peneliti ingin melakukan

    penelitian untuk menganalisis dan memprediksi kinerja

    belajar mahasiswa berdasarkan variabel demografi,

    data akademik dan ekonomi mahasiswa dengan

    menggunakan teknik data mining pada fakultas ilmu

    komputer UNSIKA.

    2. Pembahasan Metodologi yang digunakan dalam

    mengembangkan data mining adalah CRISP-DM,

    CRISP-DM adalah metodologi yang dibentuk oleh

    komisi Eropa pada tahun 1996 yang menerapkan

    standar dalam proses data mining. Dalam CRISP-DM

    terdapat enam fase yang akan dilakukan dalam

    penelitian pengembangan data mining sesuai dengan

    ilustrasi pada Gambar 2.1.

    BusinessUnderstanding

    DataUnderstanding

    Depyoment

    Modeling

    Evaluation

    Data Preparation

    DATA

    Gambar 1 Siklus Hidup CRISP-DM

    a. Fase business Understanding (Pemahaman Bisnis)

    Fase ini merupakan fase awal dari tahapan

    pemodelan fase ini berfokus pada pemahaman

    dan persfektif bisnis proses dari suatu sistem,

    yaitu penentuan tujuan proyek,

    menerjemahkan tujuan, dan menyiapkan

    strategi untuk penyampaian tujuan.

    Dengan memanfatkan data-data akademik

    mahasiswa terdahulu yang sudah ada maka

    akan dianalisi dan dipresikdi IPK mahasiswa

    dengan menggunakan teknik data mining.

    Dengan mengetahui prediksi IPK mahasiswa

    baru, maka pihak prodi akan mendapat

    peringatan dini agar lebih perhatian terhadap

    mahasiswanya sehingga kualitas dari program

    studi tetap terjaga baik atau bahkan lebih baik

    dari sebelumnya.

    b. Fase Data Understanding (Pemahaman Data) Pada fase ini berfokus pada pengumpulan data

    awal, pembelajaran data yang sudah ada dan

    verifikasi kualitas data.

    Dalam penelitin ini menggunakan data

    EPSBED fakultas ilmu komputer program

    studi teknik informatika dati tahun 2008

    sampai tahun 2011.

    Selain dari data-data akademik penelitian ini

    juga menggunakan data ekonomi dan

    geografis. Dimana data ekonomi dan geografis

    didapat dari penyebaran pertanyaan seputar

    ekonomi mahasiswa dan geografis mahasiswa.

    c. Fase Data Preparation (Persiapan Data) Fase persiapan data adalah fase yang terdiri

    dari pemilihan data, pembersihan data,

    mengintegrasikan data, dan transformasi data

  • agar dapat dilanjutkan kedalam tahap

    pemodelan.

    Untuk data akademik, pemilihan data

    dilakukan dari sebuah sistem pelaporan yang

    diberi nama EPSBED. Dari 24 tabel yang ada

    di program EPSBED akan digunakan dua

    buah table yaitu table master mahasiswa, dan

    table transaksi mahasiswa.

    Data ekonomi mahasiswa di dapat dari

    beberapa pertanyaan yang diajukan ke

    beberapa mahasiswa yaitu terdiri dari

    mahasiswa tersebut bekerja atau tidak,

    mahasiswa tersebut membiayai perkulihannya,

    gaji orang tua dan gaji mahasiswa tersebut jika

    mahasiswa tersebut bekerja.

    Data geografi mahasiswa didapat dari

    beberapa pertanyaan seputar suku bangsa dan

    tempat tinggal mahasiswa selama mengikuti

    proses belajar mengajar.

    Tabel 1 Transformasi Data

    d. Fase Modeling (pemodelan) dan Evaluation (Evaluasi)

    Setelah fase persiapan data maka masuk

    ketahap pemodelan dan evaluasi. Didalam

    tahap ini akan dibagun beberapa model untuk

    menganalisis kinerja mahasiswa yaitu dengan

    Decision tree, Nave bayes dan Artificial

    Neural Network (ANN). Fase pemodelan

    dilakukan bersamaan dengan fase evaluasi.

    Fase evaluasi terdiri dari beberapa kegiatan

    yaitu: mengevaluasi akurasi yang didapat pada

    fase sebelumnya.

    Pengujian akan dilakukan dengan tiga cara

    yaitu yang pertama adalah confusion matrix,

    ROC Curve, dan Waktu dalam pembuatan

    model. Dengan masing-masing pengujian

    model menggunakan 10-fold cross validation.

    1. Confusion Matrix

  • Evaluasi dengan menggunakan model

    confusion matrix pada pengujian untuk

    memperkirakan objek prediksi yang benar dari

    hasil klasifikasi. Akurasi sebuah klasifikasi

    berpengaruh terhadap performa dari suatu

    model klasifikasi dengan mendafatkan

    ketepatan klasifikasi dataset terhadap kelas

    aktif dan tidak aktif. Nilai akurasi dari

    beberapa model yang telah di evaluasi seperti

    pada tabel 2

    Tabel 2. Perbandingan Akurasi Decision

    tree

    Nave

    Bayes

    ANN

    Akurasi 61.4767 % 63.5634

    %

    60.5136

    %

    Dari hasil pengujian dengan menggunakan

    confusion matrix untuk masing-masing model

    di dapat hasil decision tree memiliki akurasi

    sebesar 61.4767 %, Nave Bayes memiliki

    akurasi sebesar 63.5634 % dan untuk model

    artifisial neural network memiliki akurasi

    60.5136 %.

    2. ROC Curve

    Tabel 3 Perbandingan ROC Curve Decision

    tree

    Nave

    Bayes

    ANN

    AUC 0.793 0.805 0.846

    Evaluasi dengan menggunakan ROC Curve di

    dapat seperti pada tabel di atas. Dari tabel 3

    dapat diketahui nilai ROC curve yang paling

    mendekati 1 adalah yang paling baik. Dari

    hasil percobaan yang telah dilakukan didapat

    bahwa algoritma Artificial Neural Network

    mendapati nilai 0,846, nilai tersebut adalah

    nilai yang paling tinggi jika dibandingkan

    dengan model algoritma lainnya. Algoritma

    Nave Bayes mendapat peringkat kedua

    dengan nilai 0,805dengan nilai tersebut model

    Nave Bayes dan Artificial Neural Network

    termasuk kedalam good classification.

    Sedangkan model decision tree mendapat nilai

    0,793 dengan nilai yang di dapat model

    decision tree termasuk kedalam Fair

    Classsification.

    3. Waktu

    Tabel 4 Perbandingan Waktu Membangun

    Model dalam Hitungan Detik Decision

    tree

    Nave

    Bayes

    ANN

    Time

    taken to

    build

    model

    0.06 0.01 13.45

    Dari hasil percobaan yang telah dilakukan di

    dapat kesimpulan algoritma Nave Bayes

    merupakan algoritma yang paling akurat jika

    dibandingkan dengan model yang lainnya.

    Dalam uji coba ROC Curve Algoritma Nave

    Bayes bukan merupakan algoritma yang

    paling tinggi nilainya jika dibandingkan

    dengan algoritma yang lain, tetapi algoritma

    Nave Bayes termasuk salah satu algoritma

    yang memiliki good classification. Dan

    algoritma native bayes juga merupakan

    algoritma yang memiliki waktu pembuatan

    model yang paling cepat dibandingkan dengan

    algoritma yang lainnya.

    Akhir dari fase evaluasi didapat bahwa

    algoritma Nave Bayes merupakan algoritma

    yang terbaik dalam kasus analisis dan prediksi

    prestasi belajar mahasiswa dengan melibatkan

    data akademik, ekonomi dan geografis

    mahasiswa jika dibandingkan dengan

    algoritma decision tree dan artificial neural

    network.

    e. Fase Deployment (Penempatan) Fase yang terakhir adalah fase deployment,

    pada fase ini terdapat beberapa kegiatan

    diantaranya adalah rencana deployment,

    rencana pemantauan dan pemeliharaan, dan

    tinjauan akhir.

    Dari fase evaluasi maka didapat bahwa

    algoritma native bayes merupakan algoritma

    yang memiliki akurasi tertinggi, termasuk

    good classification dan memiliki waktu

    pembangunan model yang paling cepat

    diantara dua algoritma yang lainnya.

    Model yang telah di dapat akan dimanfaatkan

    sebagai sebuah sistem yang dapat digunakan

    sebagai salah satukomponen dalam

    pengambilan keputusan dalam bidang

    akademik baik berupa model pembelajaran

    ataupun untuk meningkatkan kualitas dari

    mahasiswanya sendiri.

    3. Kesimpulan

    Kesimpulan yang dapat diambil dari penelitian

    tentang analisis dan prediksi kinerja mahasiswa dengan

    teknik data mining pada fakultas ilmu komputer

    UNSIKA adalah sebagai berikut :

    1. Data akademik, data ekonomi dan data geografis mahasiswa dapat digunakan dalam menganalisis

    dan memprediksi kinerja mahasiswa dengan

    menggunakan teknik-teknik data mining

    diantaranya adalah teknik decision tree, Nave

    Bayes dan artificial neural network. Dengan

    variabel-variabel penentu adalah umur saat masuk

    perguruan tinggi, jenis kelamin, suku bangsa, asal

    sekolah, sks yang diambil, IPS, pembiayaan

    kuliah, status mahasiswa, penghasilan orang tua,

    penghasilan pribadi, dan tempat tinggal.

  • 2. Dari penelitian yang telah dilakukan maka didapat Nave Bayes merupakan teknik data mining yang

    memiliki akurasi yang paling tinggi jika

    dibandingkan dengan decision tree dan artificial

    neural network. Nave Bayes juga memiliki

    waktu yang paling cepat untuk membangun

    model dibandingkan dua model lain. Nave Bayes

    termasuk kedalam good classification dilihat dari

    ROC Curve.

    3. Prediksi kinerja mahasiswa dapat dilakukan dengan menggunakan teknik Nave Bayes yang

    merupakan teknik terbaik dalam memprediksi

    kinerja mahasiswa dengan menggunakan data

    akadmik, data ekonomi dan data geografis

    mahasiswa yang terdiri dari beberapa variabel

    penentu yaitu umur saat masuk perguruan tinggi,

    jenis kelamin, suku bangsa, asal sekolah, sks yang

    diambil, IPS, pembiayaan kuliah, status

    mahasiswa, penghasilan orang tua, penghasilan

    pribadi, dan tempat tinggal.

    4. Daftar Pustaka

    1. brijesh, B., & Saurabh, P. (2011). Mining Educational Data to Analyze Student's Performance. International

    Journal of Advanced Computer Science and Applications

    , Vol. 2 No. 6. 2. Chandra, E., & Nandhini, K. (2005). Predicting Student

    Performance Using Classification Techniques.

    Proceedings of SPIT - IEEE Colloquium and International Conference, (p. 83). Mumbai, India.

    3. Cripps, A. (1996). Using Artificial Neural Nets to Predict Academic Performance. ACM Symposium on Applied Computing .

    4. Sunita, A., & Lobo. (2011). Data Mining in Educational System using WEKA. International Conference on Emerging Technology Trends (ICETT).

    5. Weng, F. (2010). Modelling IT student Retention at Taiwanese Higher Education Institutions. Thesis School of Business Information Technology and Logistics

    College of Business RMIT University.

    6. Y, Z., & S, O. (2010). Use Data Mining to Improve Student Retention in Higher Educational - A Case Study.

    ICEIS.

    7. Yaday, Surjeet, K., Bharadwaj, Brijesh, & Pal, S. (2012). Mining Educational Data to predict Student's Retention :

    A Comparative Study. International Journal of Computer Science and Information Security (IJCSIS) , Vol. 10, No.

    2.

    5. Biodata Penulis Sofi Defiyanti, Memperoleh Gelar Sarjana

    Komputer (S.Kom), Jurusan Sistem Informasi

    Universitas Gunadarma Depok, lulus tahun 2009.

    Memperoleh gelar Megister Komputer (M.Kom)

    Program Pasca Sarjana Megister Ilmu Komputer

    STMIK Nusa Mandiri, lulus tahun 2012. Saat ini

    menjadi Dosen di Prodi Teknik Informatika

    Universitas Singaperbangsa Karawang.