bab 2 kajian pustaka dan dasar teori 2.1 penelitian ...repository.untag-sby.ac.id/5231/49/bab...
TRANSCRIPT
5
BAB 2
KAJIAN PUSTAKA DAN DASAR TEORI
Bab ini akan membahas tentang intisari dan kutipan dari beberapa
penelitian dan jurnal yang terdahulu serta beberapa penjelasan mengenai teori
yang akan digunakan dalam pembuatan tugas akhir ini dengan kaitannya dalam
bidang Sistem Informasi Sekolah Menggunakan Algoritma C4.5 untuk
Mengidentifikasi Faktor Faktor Penurunan Mutu Pembelajaran Siswa SMK.
2.1 Penelitian Terdahulu
a. “ALGORITMA C4.5 UNTUK KLASIFIKASI CALON PESERTA
LOMBA CERDAS CERMAT SISWA SMP DENGAN
MENGGUNAKAN APLIKASI RAPID MINER” Dian Ardiansyah 1 ,
Walim Walim 2 [2018]
Penelitian tersebut didasari karena masalah dalam proses
pembelajaran di sekolah dalam jangka waktu tertentu maka akan
terkumpul sejumlah data yang besar yang nantinya akan menyulitkan
pihak sekolah untuk mengolah data tersebut sehingga berpengaruh dalam
peningkatan mutu siswa yang dihasilkan, dan dalam skala besar akan
menurunkan prestasi sekolah dilihat dari sedikitnya prestasi dari siswa
yang mendapatkan gelar juara dalam sebuah perlombaan.
Hasil dari penelitian tersebut berupa perhitungan algoritma
C4.5 dengan bantuan dari aplikasi open source yaitu Rapid Miner
dengan mengumpulkan data siswa berupa Nilai dari beberapa mata
pelajaran dan IQ siswa.
Keunggulan dalam penelitian adalah Hasil klasifikasi dari
algoritma C4.5 untuk mengetahui tingkat akurasi dalam membuat
klasifikasi calon peserta lomba cerdas cermat siswa SMP. Hasil evaluasi
diperoleh bahwa algoritma C4.5 memiliki akurasi 81,81%
b. “KLASIFIKASI FAKTOR-FAKTOR PENYEBAB PENYAKIT
DIABETES MELITUS DI RUMAH SAKIT UNHAS
MENGGUNAKAN ALGORITMA C4.5” Dewi Rahma Ente1, Sri
Astuti Thamrin2, Hedi Kuswanto3, Samsul Arifin4, and Andreza5 [2020]
Penelitian tersebut didasari karena berkaitan dengan penyakit
DM, status DM penderita penting untuk diketahui sebelum penderita DM
mengalami komplikasi serius. Algoritma C4.5 telah popular digunakan
untuk memprediksi status penyakit. Oleh karena itu dalam tulisan ini akan
6
digunakan algoritma C4.5 sebagai salah satu implementasikan data
mining untuk mengklasifikasi penyakit DM
Hasil dari penelitian tersebut berupa Algoritma C4.5 telah
diaplikasikan pada data rekam medis penderita DM di Rumah Sakit
Pendidikan Universitas Hasanuddin untuk mengidentifikasi faktor-
faktor yang mempengaruhi status penyakit DM seseorang. Faktor-
faktor yang mempengaruhi status DM secara substansial adalah glukosa
darah puasa (GDP), kolesterol LDL, usia dan berat badan. Dengan
mengetahui faktor-faktor yang mempengaruhi status DM penderita maka
komplikasi serius akibat DM ini dapat dicegah sedini mungkin
Keunggulan dalam penelitian yang akan dikerjakan adalah
pengukuran akurasi data latih dan data uji dari algoritma C4.5 dengan
validasi silang lipat 10 setelah proses seleksi atribut dapat dilihat pada.
Nilai akurasi memiliki rentang antara 50% sampai dengan 100% dengan
tingkat akurasi rata-rata prediksi yaitu 98,5%. Ini berarti model yang
didapatkan sangat baik dengan tingkat akurasi sangat tinggi.
c. “IMPLEMENTASI DECISION TREE C4.5 UNTUK
MENENTUKAN STATUS BERAT BADAN DAN KEBUTUHAN
ENERGI PADA ANAK USIA 7-12 TAHUN” Supangat1, Anis R.
Amna2, Titasari Rahmawati3 [2018]
Penelitian tersebut didasari karena masalah Gizi memiliki peran
penting untuk menciptakan Sumber Daya Manusia (SDM) yang sehat,
cerdas, tangguh, serta produktif. Untuk itu, upaya peningkatan kualitas
gizi seharusnya dimulai sejak usia dini. Walaupun demikian, tidak
mengidentifikasi secara detil permasalahan yang menyebabkan
kurangnya berat badan ideal pada anak usia 5- 12 tahun. Akibatnya, sulit
mengetahui penyebab kondisi fisik pada 3,4% anak di Indonesia yang
teridentifikasi sangat kurus dan 7,5 % yang mengalami kondisi fisik
kurus.
Hasil dari penelitian tersebut berupa merancang sistem
pendukung keputusan yang dapat memberikan rekomendasi menu
sarapan sehat sesuai standar pemenuhan gizi seimbang
menggunakan algoritma Decision Tree C4.5. Pemilihan algoritma ini
dilatarbelakangi oleh kelebihan Decision Tree yang dapat mengelola data
multi dimensi dan tingkat akurasi yang cukup tinggi. Selain itu, Decision
Tree juga banyak digunakan pada kasus-kasus klasifikasi yang
memerlukan pengambilan keputusan berbasis sistem induksi.
Keunggulan dalam penelitian yang akan dikerjakan yaitu hasil
pengujian terhadap 360 siswa sekolah dasar kelas 1-6 menunjukkan
bahwa penggunaan metode Decision Tree C4.5 mampu memberikan
7
akurasi penilaian sebesar 82% dan dapat ditingkatkan melalui
penggabungan dengan metode klasifikasi lain.
d. “SISTEM INFORMASI AKADEMIK BERBASIS WEB PADA
SMK (SEKOLAH MENENGAH KEJURUAN) TEKNOLOGI
INDUSTRI PEMBANGUNAN CIMAHI” I Pangaribuan1 , F Subakti2
[2019]
Penelitian tersebut didasari karena masalah SMK Teknlogi
Industri Pembangunan Cimahi saat ini belum menggunakan sistem
informasi yang terkomputerisasi sehingga memiliki kendala-kendala
yang dihadapi seperti pada proses pendaftaran ulang siswa baru, proses
penjadwalan kelas, dan proses penilaian siswa.
Hasil dari penelitian tersebut berupa sistem informasi akademik
yang mencakup pendaftaran, penjadwalan kelas dan penilaian.
Metode yang digunakan pada penelitian ini adalah metode prototype
untuk pengembangan sistem informasi, selain itu metode untuk analisis
dan desain sistem menggunakan metode berorientasi objek.
Keunggulan dalam penelitian yang akan dikerjakan yaitu dapat
mempermudah pihak Pegawai pada saat melakukan pengecekan
persyaratan pendaftaran siswa baru, dan dapat mempersingkat waktu
rekapitulasi data calon siswa, selain itu bagian kurikulum dapat dengan
mudah melakukan pembuatan penjadwalan mata pelajaran setiap kelas
tanpa adanya bentrokan, kemudian untuk seluruh guru dapat dengan
mudah menginputkan data penilaian siswa yang terintegrasi dengan basis
data sehingga setiap wali kelas bisa mencetak rapor tanpa harus menyalin
data nilai yang diberikan oleh setiap guru
e. “Analisa dan Penerapan Algoritma C4.5 Dalam Data Mining Untuk
Mengidentifikasi Faktor-Faktor Penyebab Kecelakaan Kerja
Kontruksi PT.Arupadhatu Adisesanti” Erlin Elisa [2017]
Penelitian tersebut didasari mengidentifikasi penyebab terjadinya
kecelakaan kerja yang nantinya hasil penelitian ini dapat digunakan
sebagai panduan untuk menghindari resiko kecelakaan (zero accident),
agar kualitas dan kuantitas pekerjaan menjadi baik dan mencapai target
sebagaimana yang telah ditetapkan oleh pihak owner pekerjaan.
Hasil dari penelitian tersebut berupa Sistem yang
dimplementasikan menggunakan salah satu metode Data Mining
algoritma C4.5 Berdasarkan pada rumusan masalah yang diteliti, proses
Data Mining dengan menggunakan metoda Algoritma C4.5 dalam
mengidentifikasi faktor-faktor kecelakaan kerja konstruksi maka dapat
diambil kesimpulan bahwa metode Algoritma C4.5 atau pohon keputusan
lebih efektif dan fleksibel jika digunakan pada proses pengklasifikasian.
8
Berdasarkan rumusan masalah dan tujuan penelitian untuk mengetahui
faktor – faktor kecelakaan kerja konstruksi,dan setelah dilakukan analisa
dan pengujian maka dapat diambil kesimpulan berupa informasi atau
pengetahuan tentang faktor-faktor penyebab kecelakaan kerja konstruksi
yang terjadi pada Proyek PT. Arupadhatu Adisesanti adalah sebagai
berikut: Pekerja dan Cara Kerja, Lingkungan Tempat Kerja, Alat
Pelindung Diri .
2.1.1 Analisa Perbandingan
Dibawah ini adalah Analisa perbandingan dari beberapa jurnal yang telah
dikumpulkan untuk melengkapi penelitian yang dilakukan. Jurnal dibawah ini
memiliki kelebihan dan kekurangannya tersendiri jika diimplementasikan
kedalam aplikasi. Pada tabel 2.1 akan menjelaskan beberapa jurnal penggunaan
algoritma apa yang dipakai.
Tabel 2. 1 Matrix Jurnal
No Nama Jurnal Algoritma Kelebihan Kekurangan
1 Algoritma c4.5
untuk klasifikasi
calon peserta
lomba cerdas
cermat siswa
smp dengan
menggunakan
aplikasi rapid
miner. Dian
Ardiansyah,
Walim Walim
(2018)
Algoritma c4.5 Hasil klasifikasi
dari algoritma
C4.5 untuk
mengetahui
tingkat akurasi
dalam membuat
klasifikasi calon
peserta lomba
cerdas cermat
siswa SMP. Hasil
evaluasi
diperoleh bahwa
algoritma C4.5
memiliki akurasi
81,81%
Menggunakan
aplikasi rapid
miner
2 Klasifikasi
faktor-faktor
penyebab
penyakit
diabetes melitus
di rumah sakit
unhas
menggunakan
algoritma c4.5.
Dewi Rahma
Ente1 , Sri
Algoritma
C4.5
Nilai akurasi
memiliki tingkat
akurasi rata-rata
prediksi yaitu
98,5%. Ini berarti
model yang
didapatkan
sangat baik
dengan tingkat
akurasi sangat
tinggi
Belum
diujikan di
aplikasi open
source contoh
: Rapid Miner
agar lebih
valid
9
Astuti
Thamrin, Hedi
Kuswanto ,
Samsul Arifin ,
and Andreza
(2020)
3 Implementasi
Decision Tree
C4.5 Untuk
Menentukan
Status Berat
Badan dan
Kebutuhan
Energi Pada
Anak Usia 7-12
Tahun.
Supangat, Anis
R. Amna,
Titasari
Rahmawati
(2018)
Algoritma
C4.5
Hasil pengujian
terhadap 360
siswa sekolah
dasar kelas 1-6
menunjukkan
bahwa
penggunaan
metode Decision
Tree C4.5
mampu
memberikan
akurasi penilaian
sebesar 82% dan
dapat
ditingkatkan
melalui
penggabungan
dengan metode
klasifikasi lain.
Masih dalam
tahap
perancangan
4 Sistem Informasi
Akademik
Berbasis Web
pada SMK
(Sekolah
Menengah
Kejuruan)
Teknologi
Industri
Pembangunan
Cimahi. I
Pangaribuan , F
Subakti (2019)
- sistem informasi
akademik
berbasis web
pada SMK
Teknologi
Industri
Pembangunan
Cimahi dapat
mempermudah
pihak tata usaha
pada saat
melakukan
pengecekan
persyaratan
pendaftaran
siswa baru, dan
Proses
penjadwalan
belum
tercantum
detail
mengenai
ruangan yang
ditempati oleh
setiap kelas
karena kondisi
pembelajaran
saat ini masih
menggunakan
sistem moving
class,
sehingga
untuk
penempatan
10
dapat
mempersingkat
waktu
rekapitulasi data
calon siswa,
selain itu bagian
kurikulum dapat
dengan mudah
melakukan
pembuatan
penjadwalan
mata pelajaran
setiap kelas tanpa
adanya
bentrokan,
kemudian untuk
seluruh guru
dapat dengan
mudah
menginputkan
data penilaian
siswa yang
terintegrasi
dengan basis data
sehingga setiap
wali kelas bisa
mencetak rapor
tanpa harus
menyalin data
nilai yang
diberikan oleh
setiap guru.
ruangannya
masih sangat
fleksibel.
5 Analisa dan
Penerapan
Algoritma C4.5
Dalam Data
Mining Untuk
Mengidentifikasi
Faktor-Faktor
Penyebab
Kecelakaan
Algoritma
C4.5
Proses Data
Mining dengan
menggunakan
metoda
Algoritma C4.5
dalam
mengidentifikasi
faktor-faktor
kecelakaan kerja
Tidak adanya
tingkat akurasi
perhitungan
11
Kerja Kontruksi
PT.Arupadhatu
Adisesanti.
Erlin Elisa
(2017)
konstruksi maka
dapat diambil
kesimpulan
bahwa metode
Algoritma C4.5
atau pohon
keputusan lebih
efektif dan
fleksibel jika
digunakan pada
proses
pengklasifikasian
6 Penerapan
algoritma
decision tree
c4.5 untuk
memprediksi
penerimaan
calon atlet
pencak silat.
Evri Yoga
Widiatama
Sukma Dita
(2018)
Algoritma
decision tree
c4.5
Dengan
menggunakan
metode
Decision tree,
penerapan sistem
seleksi calon atlet
PSHT mejadi
lebih
mudah, terbukti
dalam
penyeleksian
menggunakan
aplikasi ini
dengan
waktu kurang
lebih 15 menit
dapat
mengetahui atlet
yang layak untuk
diajukan dalam
pertandingan.
Perlu
dikembangkan
dengan
menambahkan
kriteria-
kriteria dari
berbagai pakar
atau Ahli
2.2 Konsep Dasar Sistem
2.2.1 Pengertian Sistem
Menurut Davis 1985 (Ladjamudin, 2005:3), sistem adalah bagian-
bagian yang saling berkaitan yang beroperasi bersama untuk mencapai beberapa
sasaran atau maksud. Menurut Lucas 1989 (Ladjamudin, 2005:3), sistem adalah
suatu komponen atau variable yang terorganisir, saling berinteraksi, saling
bergantung, satu sama lain dan terpadu. Menurut Mc Leod (Ladjamudin,
2005:3), sistem adalah sekelompok elemen yang terintegrasi dengan maksud
yang sama untuk mencapai suatu tujuan. Menurut Robert G.Murdick 1993
12
(Ladjamudin, 2005:3), sistem adalah seperangkat elemen-elemen yang
terintegrasi dengan maksud yang sama untuk mencapai tujuan bersama. Menurut
Gerald. J 1991 (Ladjamudin, 2005:3), sistem yaitu suatu jaringan kerja dari
prosedur-prosedur yang saling berhubungan, berkumpul bersama- sama untuk
melakukan suatu kegiatan atau menyelesaikan suatu sasaran tertentu.
2.2.2 Karakteristik Sistem
Sebuah sistem mempunyai karakteristik atau sifat-sifat tertentu, yang
mencirikan bahwa hal tersebut bias dikatakan sebagai suatu sistem (Sutabri,
2005: 11). Karakteristik- karakteristik tersebut adalah :
1. Komponen sistem (Components)
Suatu sistem terdiri dari sejumlah komponen yang saling
berinteraksi dan bekerjasama membentuk satu kesatuan. Komponen-
komponen sistem tersebut dapat berupa subsistem atau bagian-bagian dari
sistem yang mempunyai sifat-sifat dari sistem yang menjalankan suatu
fungsi tertentu dan mempengaruhi proses sistem secara keseluruhan.
2. Batasan sistem (Boundary)
Batasan sistem merupakan daerah yang membatasi antara
sistem yang dengan sistem yang lain atau dengan lingkungan luarnya.
Batasan sistem ini menunjukkan ruang lingkup dari sistem itu sendiri.
3. Lingkungan luar sistem (Environtment)
Lingkungan luar dari sistem merupakan apapun yang ada di luar
lingkup atau batasan sistem yang mempengaruhi operasi sistem tersebut.
4. Penghubung sistem (Interface)
Penghubung sistem atau interface merupakan media yang
menghubungkan sistem dengan subsistem yang lainnya untuk dapat
berinteraksi membentuk suatu kesatuan.
5. Masukan sistem (Input)
Masukan sistem adalah energi yang dimasukkan ke dalam sistem.
Masukan sistem dapat berupa pemeliharaan (maintenance input) dan
sinyal (signal input). Maintenance input merupakan energy yang
dimasukkan agar sistem tersebut dapat beroperasi. Sedangkan, signal
input adalah energy yang diproses untuk menghasilkan keluaran.
6. Keluaran sistem (Output)
Keluaran sistem adalah hasil energy yang diolah dan
diklasifikasikan menjadi keluaran yang berguna. Keluaran ini merupakan
masukan yang berguna bagi subsistem yang lain.
7. Pengolah sistem (Proses)
Suatu sistem dapat mempunyai suatu proses yang akan mengubah
13
masukan menjadi keluaran.
8. Sasaran sistem (Objective)
Suatu sistem memiliki tujuan dan sasaran yang pasti. Hal ini
karena sasaran sangat berguna untuk menentukan masukan yang
dibutuhkan sistem dan keluaran yang akan dihasilkan. Suatu sistem
dikatakan berhasil bila mengenai sasaran atau tujuannya.
2.3 Konsep Informasi
2.3.1 Pengertian Informasi
Informasi memiliki peranan yang penting dalam organisasi ibarat darah
yang mengalir didalam tubuh suatu organisasi. Suatu sistem yang kurang
mendapatkan informasi akan sulit berkembang bahkan dapat menjadi mati.
Sebelum mendefinisikan informasi, penulis memaparkan definisi dari
data. Data adalah kenyataan yang menggambarkan suatu kejadian-kejadian dan
kesatuan nyata. Kesatuan nyata adalah berupa suatu objek nyata seperti tempat,
benda dan orang yang betul-betul ada dan terjadi. Untuk pengambilan keputusan
bagi manajemen, maka faktor- faktor tersebut harus diolah lebih lanjut untuk
menjadi suatu informasi (Ladjamudin, 2005 ).
Informasi adalah data yang telah diklasifikasi atau diolah atau
diinterpretasi untuk digunakan dalam proses pengambilan keputusan (Sutabri,
2005 : 11). Menurut Gordon. B. Davis, informasi adalah data yang telah diolah
menjadi bentuk yang lebih berarti bagi penerimanya dan bermanfaat dalam
pengambilan keputusan masa kini maupun yang akan datang (Kadir, 2003 : 31),
Dari pengertian tersebut diatas dapat disimpulkan bahwa informasi
merupakan hasil dari pengolahan data menjadi bentuk yang lebih berguna bagi
yang menerimanya yang menggambarkan suatu kejadian-kejadian nyata dan
dapat digunakan sebagai alat bantu untuk pengambilan suatu keputusan.
2.3.2 Siklus Informasi
Untuk memperoleh informasi yang bermanfaat bagi penerimanya, perlu
untuk dijelaskan bagaimana siklus yang terjadi atau dibutuhkan dalam
menghasilkan informasi. menurut Ladjamudin,
Siklus informasi atau siklus pengolahan data adalah sebagai berikut:
Gambar 2. 1 Siklus Informasi
14
2.3.3 Kualitas Informasi
Kualitas informasi (quality of information) sangat dipengaruhi atau
ditentukan oleh tiga hal, yaitu relevan (relevancy), akurat (accuracy), dan tepat
waktu (timeliness) (Ladjamudin, 2005: 11).
1. Relevan (relevancy)
Informasi tersebut mempunyai manfaat untuk pemakainya. Relevansi
informasi untuk tiap-tiap orang satu dengan yang lainnya berbeda,
misalnya informasi mengenai sebab-musabab kerusakan mesin produksi
kepada akuntan perusahaan adalah kurang relevan dan akan lebih relevan
bila ditujukan kepada ahli teknik perusahaan.
2. Akurat (accuracy)
Informasi harus bebas dari kesalahan-kesalahan dan tidak bisa atau
menyesatkan. Akurat juga berarti informasi harus jelas mencerminkan
maksudnya. Informasi harus akurat karena dari sumber informasi sampai
ke penerima infomasi kemungkinan banyak terjadi gangguan (noise) yang
dapat merubah atau merusak informasi tersebut.
3. Tepat Pada Waktunya (timeliness)
Informasi yang datang pada penerima tidak boleh terlambat, informasi
yang sudah usang tidak akan mempunyai nilai lagi, karena informasi
merupakan landasan didalam pengambilan keputusan.
2.4 Sistem Informasi
2.4.1 Pengertian Sistem informasi
Sistem Informasi adalah suatu sistem di dalam suatu organisasi yang
mempertemukan kebutuhan pengolahan transaksi harian, mendukung operasi,
bersifat manajerial dan kegiatan strategi dari suatu organisasi dan menyediakan
pihak luar tertentu dengan laporan-laporan yang diperlukan. Definisi sistem
informasi juga bisa didefinisikan kerangka kerja yang mengkoordinasikan sumber
daya (manusia, komputer) untuk mengubah masukan (input) menjadi keluaran
(output), guna mencapai sasaran-sasaran perusahaan. Sistem informasi
didefinisikan sebagai sekumpulan komponen yang terdiri dari manusia atau orang,
prosedur kerja, data, informasi dan teknologi informasi yang berguna untuk
pengambilan keputusan dalam organisasi (Noviandi, Destiani, Partono, 2012).
Sistem merupakan suatu kesatuan yang terdiri dari suatu kumpulan
elemen yang saling berinteraksi untuk mencapai suatu tujuan. Sedangkan
informasi adalah data yang diolah menjadi sebuah bentuk yang berarti dan
15
bermanfaat bagi penerimanya dan bermanfaat bagi pengambilan keputusan, saat
ini ataupun mendatang._(Fitri, 2004).
Sistem informasi adalah suatu sistem di dalam suatu organisasi yang
mempertemukan kebutuhan pengolahan transaksi harian yang mendukung fungsi
operasi organisasi yang bersifat manajerial dengan kegiatan strategi dari suatu
organisasi untuk dapat menyediakan kepada pihak luar tertentu dengan laporan-
laporan yang diperlukan. Sutabri (2005:42)
Sekolah merupakan suatu lembaga pendidikan, yang terdiri dari siswa,
guru dan seluruh pegawai yang berada di dalam lingkungan sekolah. Sekolah
merupakan tempat proses belajar dan mengajar, tempat menerima dan
memberikan pelajaran. Sistem informasi sekolah adalah sebuah sistem yang dapat
membantu dan memberikan suatu informasi yang dapat diolah menjadi sebuah
bentuk yang berarti dan bermanfaat dalam pengelolaan data, informasi seputar
proses belajar dan mengajar di sekolah. Dikembangkannya suatu sistem informasi
memiliki berbagai tujan tergantung dari kebutuhan setiap individu atau instansi
yang menggunakannya. Salah satu tujuan dari sistem informasi ialah digunakan
sebagai sarana publikasi pada suatu instansi perusahaan, dan sebagai media
penyampaian informasi sebagai sarana penunjang pendidikan dan lain sebagainya.
2.4.2 Komponen Sistem Informasi
Menurut Jogiyanto (2005:12), Komponen sistem informasi yang disebut
blok bangunan yaitu : blok masukan, blok model, blok keluaran, blok teknologi,
blok basis data dan blok kendali. Keenam blok tersebut saling berinteraksi satu
dengan yang lainnya membentuk satu kesatuan untuk mencapai sasarannya.
1. Blok masukan
Blok masukan mewakili data yang masuk ke dalam sistem informasi,
termasuk metode dan media untuk memperoleh data yang akan
dimasukkan, yang dapat berupa dokumen dasar.
2. Blok model
Blok model terdiri dari kombinasi prosedur, logika dan model matematik
yang akan memanipulasi/mentranspormasi data masukan dan data yang
tersimpan dalam basis data untuk menghasilkan keluaran yang
diinginkan.
3. Blok keluaran
Blok keluaran adalah produk dari sistem informasi adalah keluaran berupa
informasi yang berkualitas.
16
4. Blok teknologi
Blok teknologi merupakan kotak alat (tool - box) dalam sistem informasi.
Teknologi terdiri dari 3 bagian utama yaitu teknisi (brainware), perangkat
lunak (software) dan perangkat keras (hardware).
5. Blok basis data
Merupakan kumpulan dari file data yang saling berhubungan yang
diorganisasi sedemikian rupa agar dapat diakses dengan mudah dan cepat.
6. Blok kendali
Pengendalian perlu dirancang dan diterapkan untuk menyakinkan bahwa
hal-hal yang dapat merusak sistem dapat dicegah atau bila terlanjur terjadi
kesalahan dapat langsung diatasi.
2.5 Konsep Dasar Sekolah
Sekolah adalah sebuah lembaga yang dirancang untuk pengajaran siswa
atau murid di bawah pengawasan guru. Sebagian besar negara memiliki sistem
pendidikan formal, yang umumnya wajib. Dalam sistem ini, siswa kemajuan
melalui serangkaian sekolah. Nama-nama untuk sekolah-sekolah ini bervariasi
menurut negara, tetapi umumnya termasuk sekolah dasar untuk anak-anak muda
dan sekolah menengah untuk remaja yang telah menyelesaikan pendidikan dasar.
Selain sekolah-sekolah inti, siswa di negara tertentu juga mungkin
memiliki akses dan mengikuti sekolah-sekolah baik sebelum dan sesudah
pendidikan dasar dan menengah. Sebuah sekolah mungkin juga didedikasikan
untuk satu bidang tertentu, seperti sekolah ekonomi atau sekolah tari. Alternatif
sekolah dapat menyediakan kurikulum dan metode non-tradisional.
(http://id.wikipedia.org/wiki/Sekolah, 09 April 2020, 21:52 WIB )
2.6 Data Mining
Data mining adalah suatu istilah yang digunakan untuk menemukan
pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses
semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan
buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi
informasi pengetahuan potensial dan berguna yang bermanfaat yang tersimpan di
dalam database besar. (Turban et al, 2005 ).
Menurut Pendapat Witten, I.H., Frank, E., & Hall, M.A. Data mining
merupakan kegiatan menganalisis dataset dalam jumlah besar untuk menemukan
relasi yang tidak diketahui sebelumnya dan merangkum dalam bentuk data baru
17
yang dapat dipahami dan bermanfaat bagi pemilik data. Berdasarkan tipe
pekerjaannya, data mining dibagi menjadi 5, yaitu Exploratory Data Analysis
(EDA), Descriptive Modeling, Predictive Modeling, Penemuan Pola dan Aturan,
serta Pemanggilan Konten.
2.6.1 Proses Data Mining
Menurut (Indri, 2014). Data Mining adalah sebuah proses untuk
menemukan pola atau pengetahuan yang bermanfaat secara otomatis dari
sekumpulan data yang berjumlah banyak, Data Mining sering dianggap sebagai
bagian dari Knowledge Discovery in Database (KDD) yaitu sebuah proses
mencari penetahuan yang bermanfaat dari data.
Gambar 2. 2 Data Mining
Keterangan (Sunjana, 2010):
1. Data Selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu
dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data
hasil seleksi yang akan digunakan untuk proses data mining, disimpan
dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing/Cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan
proses cleaning pada data yang menjadi focus KDD. Proses cleaning
mencakup antara lain membuang duplikasi data, memeriksa data yang
inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan
18
cetak (tipografi). Selain itu dilakukan proses enrichment, yaitu proses
“memperkaya” data yang sudah ada dengan data atau informasi lain yang
relevan dan diperlakukan untuk KDD, seperti data atau informasi
eksternal.
3. Transformation
Coding adalah proses tranformasi pada data yang telah dipilih,
sehingga data tersebut sesuai untuk proses data mining. Proses coding
dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis
atau pola informasi yang akan dicari dalam basis data.
4. Interpretation/Evaluation
Pola informasi yang dihasilkan dari proses data mining perlu
ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang
berkepentingan. Tahap ini merupakan bagian dari proses KDD yang
disebut dengan interpretation. Tahap ini mencakup pemeriksaan apakah
pola atau informasi yang ditemukan bertentangan dengan fakta atau
hipotesa yang ada sebelumnya.
2.6.2 Pengelompokan Data Mining
Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang
dapat dikakukan, yaitu (Jefri & Kusrini, 2013):
1. Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa
dalam prediksi nilai hasil mungkin akan ada di masa mendatang.
Contoh prediksi dalam penelitian:
a. Prediksi harga gula dalam tiga dekade yang akan datang
b. Prediksi keadaan cuaca pada suatu tempat apakah akan terang,
mendung, hujan dan sebagainya.
Beberapa metode atau teknik yang digunakan dalam klasifikasi dan
estimasi dapat juga digunakan (untuk keadaan yang tepat) untuk memprediksi.
2. Klasifikasi
Didalam pengklasifikasian terdapat target variabel kategori. Sebagai
contoh, penggolongan pendapatan dapat dipisahkan dalam tiga
katagori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan
rendah. Contoh lain klasifikasi dalam penelitian adalah:
a. Menentukan apakah suatu traksaksi kartu kredit merupakan
transaksi yang curang atau tidak.
b. Mendiagnosis penyakit seorang pasien untuk mendapatkan
termasuk kategori penyakit apa.
19
2.7 Decission Tree
Metode decission tree adalah sebuah struktur flowchart yang mirip seperti
struktur pohon, setiap titik pohon merupakan atribut yang telah diuji, setiap
cabang merupakan hasil uji, dan titik akhir merupakan pembagian kelas yang
dihasilkan (Han dan Kamber, 2001).
Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat
kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar
menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat dengan
mudah dipahami dengan bahasa alami dan mereka juga dapat diekspresikan dalam
bentuk bahasa basis data seperti SQL (Structured Query Language) untuk mencari
record pada kategori tertentu (kusrini dan luthfi, 2009).
Pada decision tree terdapat 3 jenis node, yaitu (Anik, 2013):
1. Root node, merupakan node paling atas, pada node ini tidak ada input
dan bisa tidak mempunyai output atau mempunyai output lebih dari
satu.
2. Internal node, merupakan node percabangan, pada node ini hanya
terdapat satu input dan mempunyai output minimal dua.
3. Leaf node atau terminal node, merupakan node akhir, pada node ini
hanya terdapat satu input dan tidak mempunyai output.
2.7.1 Struktur Decision Tree
Menurut Dua dan Xian, 2011, decision tree tergantung pada aturan if-
then, tetapi tidak membutuhkan parameter dan metrik. Struktur sederhana dan
dapat ditafsirkan memungkinkan decision tree untuk memecahkan masalah
atribut multi type. Decision tree juga dapat mengelola nilai-nilai yang hilang atau
data noise (Anik, 2013).
Gambar 2. 3 Decision Tree
20
2.7.2 Tahapan Decision Tree
Ada beberapa tahap dalam membuat sebuah pohon keputusan yaitu (Mila
& Dedi, 2015):
1. Menyiapkan data training yang sudah dikelompokkan ke dalam
kelas-kelas tertentu.
2. Menentukan akar dari pohon. Akar akan diambil dari atribut yang
terpilih, yaitu dengan cara menghitung nilai gain dari masing –
masing atribut. Nilai gain yang tertinggi akan menjadi akar pertama.
Sebelum menghitung nilai gain dari atribut, hitung nilai entropy.
2.8 Algoritma C4.5
Algoritma C 4.5 adalah salah satu metode untuk membuat decision tree
berdasarkan training data yang telah disediakan. Algoritma C4.5 merupakan
pengembangan dari ID3. Beberapa pengembangan yang dilakukan pada C 4.5
adalah sebagai antara lain bisa mengatasi missing value, bisa mengatasi continue
data, dan pruning. Pohon keputusan merupakan metode klasifikasi dan prediksi
yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang
sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan
dapat dengan mudah dipahami dengan bahasa alami.
Dan mereka juga dapat diekspresikan dalam bentuk bahasa basis data
seperti Structured Query Language untuk mencari record pada kategori tertentu.
Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan
tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target.
Karena pohon keputusan memadukan antara eksplorasi data dan pemodelan,
pohon keputusan sangat bagus sebagai langkah awal dalam proses pemodelan
bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain. Sebuah
pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi
kumpulan data yang besar menjadi himpunan-himpunan record yang lebih kecil
dengan menerapkan serangkaian aturan keputusan. Dengan masing masing
rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang
lain (Berry dan Linoff, 2004).
Sebuah model pohon keputusan terdiri dari sekumpulan aturan untuk
membagi sejumlah populasi yang heterogen menjadi lebih kecil, lebih homogen
dengan memperhatikan pada variabel tujuannya. Sebuah pohon keputusan
mungkin dibangun dengan seksama secara manual atau dapat tumbuh secara
otomatis dengan menerapkan salah satu atau beberapa algoritma pohon keputusan
untuk memodelkan himpunan data yang belum terklasifikasi. Variabel tujuan
biasanya dikelompokkan dengan pasti dan model pohon keputusan lebih
21
mengarah pada perhitungan probability dari tiap-tiap record terhadap kategori-
kategori tersebut atau untuk mengklasifikasi record dengan mengelompokkannya
dalam satu kelas. Pohon keputusan juga dapat digunakan untuk mengestimasi nilai
dari variabel continue meskipun ada beberapa teknik yang lebih sesuai untuk
kasus ini. Banyak algoritma yang dapat dipakai dalam pembentukan pohon
keputusan,antara lain ID3, CART, dan C4.5 (Larose, 2006).
Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel
dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat
sebagai kriteria dalam pembentukan pohon. Misalkan untuk menentukan main
tenis, kriteria yang diperhatikan adalah cuaca, angin, dan temperatur. Salah satu
atribut merupakan atribut yang menyatakan data solusi per item data yang disebut
target atribut. Atribut memiliki nilai-nilai yang dinamakan dengan instance.
Misalkan atribut cuaca mempunyai instance berupa cerah, berawan, dan hujan
(Basuki dan Syarif, 2003).
2.8.1 Prinsip Kerja Algoritma C4.5
Pada tahap pembelajaran algoritma C4.5 memiliki 2 prinsip kerja yaitu
(Selvia. et al, 2014):
1. Pembuatan pohon keputusan. Tujuan dari algoritma penginduksi
pohon keputusan adalah mengkontruksi struktur data pohon yang
dapat digunakan untuk memprediksi kelas dari sebuah kasus atau
record baru yang belum memiliki kelas. C4.5 melakukan konstruksi
pohon keputusan dengan metode divide and conquer. Pada awalnya
hanya dibuat node akar dengan menerapkan algoritma divide and
conquer. Algoritma ini memilih pemecahan kasus - kasus yang
terbaik dengan menghitung dan membandingkan gain ratio,
kemudian node - node yang terbentuk di level berikutnya, algoritma
divide and conquer akan diterapkan lagi sampai terbentuk daun -
daun.
2. Pembuatan aturan-aturan (rule set). Aturan aturan yang terbentuk dari
pohon keputusan akan membentuk suatu kondisi dalam bentuk if-
then. Aturan-aturan ini didapat dengan cara menelusuri pohon
keputusan dari akar sampai daun. Setiap node dan syarat percabangan
akan membentuk suatu kondisi atau suatu if, sedangkan untuk nilai
nilai yang terdapat pada daun akan membentuk suatu hasil atau suatu
then.
22
2.8.2 Tahapan Algoritma Decision Tree C4.5
Ada beberapa tahap dalam membuat sebuah pohon keputusan dengan
algoritma C4.5, yaitu (Prabowo. at al, 2015):
1. Mempersiapkan data training. Data training biasanya diambil dari
data histori yang pernah terjadi sebelumnya atau disebut data masa
lalu dan sudah dikelompokkan dalam kelas – kelas tertentu.
2. Menghitung akar dari pohon. Akar akan diambil dari atribut yang
akan terpilih, dengan cara menghitung nilai gain dari masing-masing
atribut, nilai gain yang paling tinggi yang akan menjadi akar pertama.
Sebelum menghitung nilai gain dari atribut, hitung dahulu nilai
entropy. Untuk menghitung nilai entropy digunakan rumus :
Gambar 2. 4 Rumus Menghitung Nilai Entropy
Keterangan
S : himpunan kasus
A : fitur
n : Jumlah partisi S
pi : proporsi dari Si terhadap S
Gain adalah Ukuran efektifitas suatu variabel dalam mengklasifikasikan
data. Gain dari suatu variabel merupakan selisih antara nilai entropy total
dengan entropy dari variabel tersebut. Gain
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari
atribut - atribut yang ada. Untuk menghitung gain digunakan rumus seperti tertera
dalam persamaan berikut:
Gambar 2. 5 Rumus Menghitung Gain
23
Keterangan :
S : himpunan kasus
A : atribut
n : jumlah partisi artribut A
|Si| : jumlah kasus pada partisi ke-i
|S| : jumlah kasus dalam S
3. Ulangi langkah ke 2 dan langkah ke 3 hingga semua record terpatisi.
4. Proses partisi pohon keputusan akan berhenti saat :
a. Semua record dalam simpul N mendapat kelas yang sama.
b. Tidak ada atribut didalam record yang dipartisi lagi.
c. Tidak ada record didalam cabang yang kosong
Split info digunakan sebagai pembagi dari Gain(A) yang akan menghasilkan Gain
Ratio.
Gambar 2. 6 Rumus Split Info
Keterangan
S = ruang (data) sample yang digunakan untuk training.
A = atribut.
Si = jumlah sample untuk atribut i
Gain Ratio merupakan salah satu ukuran lain yang digunakan untuk mengatasi
masalah pada atribut yang memiliki nilai sangat bervariasi. Gain Ratio tertinggi
dipilih sebagai atribut test untuk simpul.
Gambar 2. 7 Rumus Gain Ratio
Keterangan
24
a = atribut.
gain(a) = information gain pada atribut a
Split(a) = split information pada atribut a
25
Halaman ini sengaja dikosongkan