bab 2 kajian pustaka dan dasar teori 2.1 penelitian ...repository.untag-sby.ac.id/5231/49/bab...

5

BAB 2

KAJIAN PUSTAKA DAN DASAR TEORI

Bab ini akan membahas tentang intisari dan kutipan dari beberapa

penelitian dan jurnal yang terdahulu serta beberapa penjelasan mengenai teori

yang akan digunakan dalam pembuatan tugas akhir ini dengan kaitannya dalam

bidang Sistem Informasi Sekolah Menggunakan Algoritma C4.5 untuk

Mengidentifikasi Faktor Faktor Penurunan Mutu Pembelajaran Siswa SMK.

2.1 Penelitian Terdahulu

a. “ALGORITMA C4.5 UNTUK KLASIFIKASI CALON PESERTA

LOMBA CERDAS CERMAT SISWA SMP DENGAN

MENGGUNAKAN APLIKASI RAPID MINER” Dian Ardiansyah 1 ,

Walim Walim 2 [2018]

Penelitian tersebut didasari karena masalah dalam proses

pembelajaran di sekolah dalam jangka waktu tertentu maka akan

terkumpul sejumlah data yang besar yang nantinya akan menyulitkan

pihak sekolah untuk mengolah data tersebut sehingga berpengaruh dalam

peningkatan mutu siswa yang dihasilkan, dan dalam skala besar akan

menurunkan prestasi sekolah dilihat dari sedikitnya prestasi dari siswa

yang mendapatkan gelar juara dalam sebuah perlombaan.

Hasil dari penelitian tersebut berupa perhitungan algoritma

C4.5 dengan bantuan dari aplikasi open source yaitu Rapid Miner

dengan mengumpulkan data siswa berupa Nilai dari beberapa mata

pelajaran dan IQ siswa.

Keunggulan dalam penelitian adalah Hasil klasifikasi dari

algoritma C4.5 untuk mengetahui tingkat akurasi dalam membuat

klasifikasi calon peserta lomba cerdas cermat siswa SMP. Hasil evaluasi

diperoleh bahwa algoritma C4.5 memiliki akurasi 81,81%

b. “KLASIFIKASI FAKTOR-FAKTOR PENYEBAB PENYAKIT

DIABETES MELITUS DI RUMAH SAKIT UNHAS

MENGGUNAKAN ALGORITMA C4.5” Dewi Rahma Ente1, Sri

Astuti Thamrin2, Hedi Kuswanto3, Samsul Arifin4, and Andreza5 [2020]

Penelitian tersebut didasari karena berkaitan dengan penyakit

DM, status DM penderita penting untuk diketahui sebelum penderita DM

mengalami komplikasi serius. Algoritma C4.5 telah popular digunakan

untuk memprediksi status penyakit. Oleh karena itu dalam tulisan ini akan

6

digunakan algoritma C4.5 sebagai salah satu implementasikan data

mining untuk mengklasifikasi penyakit DM

Hasil dari penelitian tersebut berupa Algoritma C4.5 telah

diaplikasikan pada data rekam medis penderita DM di Rumah Sakit

Pendidikan Universitas Hasanuddin untuk mengidentifikasi faktor-

faktor yang mempengaruhi status penyakit DM seseorang. Faktor-

faktor yang mempengaruhi status DM secara substansial adalah glukosa

darah puasa (GDP), kolesterol LDL, usia dan berat badan. Dengan

mengetahui faktor-faktor yang mempengaruhi status DM penderita maka

komplikasi serius akibat DM ini dapat dicegah sedini mungkin

Keunggulan dalam penelitian yang akan dikerjakan adalah

pengukuran akurasi data latih dan data uji dari algoritma C4.5 dengan

validasi silang lipat 10 setelah proses seleksi atribut dapat dilihat pada.

Nilai akurasi memiliki rentang antara 50% sampai dengan 100% dengan

tingkat akurasi rata-rata prediksi yaitu 98,5%. Ini berarti model yang

didapatkan sangat baik dengan tingkat akurasi sangat tinggi.

c. “IMPLEMENTASI DECISION TREE C4.5 UNTUK

MENENTUKAN STATUS BERAT BADAN DAN KEBUTUHAN

ENERGI PADA ANAK USIA 7-12 TAHUN” Supangat1, Anis R.

Amna2, Titasari Rahmawati3 [2018]

Penelitian tersebut didasari karena masalah Gizi memiliki peran

penting untuk menciptakan Sumber Daya Manusia (SDM) yang sehat,

cerdas, tangguh, serta produktif. Untuk itu, upaya peningkatan kualitas

gizi seharusnya dimulai sejak usia dini. Walaupun demikian, tidak

mengidentifikasi secara detil permasalahan yang menyebabkan

kurangnya berat badan ideal pada anak usia 5- 12 tahun. Akibatnya, sulit

mengetahui penyebab kondisi fisik pada 3,4% anak di Indonesia yang

teridentifikasi sangat kurus dan 7,5 % yang mengalami kondisi fisik

kurus.

Hasil dari penelitian tersebut berupa merancang sistem

pendukung keputusan yang dapat memberikan rekomendasi menu

sarapan sehat sesuai standar pemenuhan gizi seimbang

menggunakan algoritma Decision Tree C4.5. Pemilihan algoritma ini

dilatarbelakangi oleh kelebihan Decision Tree yang dapat mengelola data

multi dimensi dan tingkat akurasi yang cukup tinggi. Selain itu, Decision

Tree juga banyak digunakan pada kasus-kasus klasifikasi yang

memerlukan pengambilan keputusan berbasis sistem induksi.

Keunggulan dalam penelitian yang akan dikerjakan yaitu hasil

pengujian terhadap 360 siswa sekolah dasar kelas 1-6 menunjukkan

bahwa penggunaan metode Decision Tree C4.5 mampu memberikan

7

akurasi penilaian sebesar 82% dan dapat ditingkatkan melalui

penggabungan dengan metode klasifikasi lain.

d. “SISTEM INFORMASI AKADEMIK BERBASIS WEB PADA

SMK (SEKOLAH MENENGAH KEJURUAN) TEKNOLOGI

INDUSTRI PEMBANGUNAN CIMAHI” I Pangaribuan1 , F Subakti2

[2019]

Penelitian tersebut didasari karena masalah SMK Teknlogi

Industri Pembangunan Cimahi saat ini belum menggunakan sistem

informasi yang terkomputerisasi sehingga memiliki kendala-kendala

yang dihadapi seperti pada proses pendaftaran ulang siswa baru, proses

penjadwalan kelas, dan proses penilaian siswa.

Hasil dari penelitian tersebut berupa sistem informasi akademik

yang mencakup pendaftaran, penjadwalan kelas dan penilaian.

Metode yang digunakan pada penelitian ini adalah metode prototype

untuk pengembangan sistem informasi, selain itu metode untuk analisis

dan desain sistem menggunakan metode berorientasi objek.

Keunggulan dalam penelitian yang akan dikerjakan yaitu dapat

mempermudah pihak Pegawai pada saat melakukan pengecekan

persyaratan pendaftaran siswa baru, dan dapat mempersingkat waktu

rekapitulasi data calon siswa, selain itu bagian kurikulum dapat dengan

mudah melakukan pembuatan penjadwalan mata pelajaran setiap kelas

tanpa adanya bentrokan, kemudian untuk seluruh guru dapat dengan

mudah menginputkan data penilaian siswa yang terintegrasi dengan basis

data sehingga setiap wali kelas bisa mencetak rapor tanpa harus menyalin

data nilai yang diberikan oleh setiap guru

e. “Analisa dan Penerapan Algoritma C4.5 Dalam Data Mining Untuk

Mengidentifikasi Faktor-Faktor Penyebab Kecelakaan Kerja

Kontruksi PT.Arupadhatu Adisesanti” Erlin Elisa [2017]

Penelitian tersebut didasari mengidentifikasi penyebab terjadinya

kecelakaan kerja yang nantinya hasil penelitian ini dapat digunakan

sebagai panduan untuk menghindari resiko kecelakaan (zero accident),

agar kualitas dan kuantitas pekerjaan menjadi baik dan mencapai target

sebagaimana yang telah ditetapkan oleh pihak owner pekerjaan.

Hasil dari penelitian tersebut berupa Sistem yang

dimplementasikan menggunakan salah satu metode Data Mining

algoritma C4.5 Berdasarkan pada rumusan masalah yang diteliti, proses

Data Mining dengan menggunakan metoda Algoritma C4.5 dalam

mengidentifikasi faktor-faktor kecelakaan kerja konstruksi maka dapat

diambil kesimpulan bahwa metode Algoritma C4.5 atau pohon keputusan

lebih efektif dan fleksibel jika digunakan pada proses pengklasifikasian.

8

Berdasarkan rumusan masalah dan tujuan penelitian untuk mengetahui

faktor – faktor kecelakaan kerja konstruksi,dan setelah dilakukan analisa

dan pengujian maka dapat diambil kesimpulan berupa informasi atau

pengetahuan tentang faktor-faktor penyebab kecelakaan kerja konstruksi

yang terjadi pada Proyek PT. Arupadhatu Adisesanti adalah sebagai

berikut: Pekerja dan Cara Kerja, Lingkungan Tempat Kerja, Alat

Pelindung Diri .

2.1.1 Analisa Perbandingan

Dibawah ini adalah Analisa perbandingan dari beberapa jurnal yang telah

dikumpulkan untuk melengkapi penelitian yang dilakukan. Jurnal dibawah ini

memiliki kelebihan dan kekurangannya tersendiri jika diimplementasikan

kedalam aplikasi. Pada tabel 2.1 akan menjelaskan beberapa jurnal penggunaan

algoritma apa yang dipakai.

Tabel 2. 1 Matrix Jurnal

No Nama Jurnal Algoritma Kelebihan Kekurangan

1 Algoritma c4.5

untuk klasifikasi

calon peserta

lomba cerdas

cermat siswa

smp dengan

menggunakan

aplikasi rapid

miner. Dian

Ardiansyah,

Walim Walim

(2018)

Algoritma c4.5 Hasil klasifikasi

dari algoritma

C4.5 untuk

mengetahui

tingkat akurasi

dalam membuat

klasifikasi calon

peserta lomba

cerdas cermat

siswa SMP. Hasil

evaluasi

diperoleh bahwa

algoritma C4.5

memiliki akurasi

81,81%

Menggunakan

aplikasi rapid

miner

2 Klasifikasi

faktor-faktor

penyebab

penyakit

diabetes melitus

di rumah sakit

unhas

menggunakan

algoritma c4.5.

Dewi Rahma

Ente1 , Sri

Algoritma

C4.5

Nilai akurasi

memiliki tingkat

akurasi rata-rata

prediksi yaitu

98,5%. Ini berarti

model yang

didapatkan

sangat baik

dengan tingkat

akurasi sangat

tinggi

Belum

diujikan di

aplikasi open

source contoh

: Rapid Miner

agar lebih

valid

9

Astuti

Thamrin, Hedi

Kuswanto ,

Samsul Arifin ,

and Andreza

(2020)

3 Implementasi

Decision Tree

C4.5 Untuk

Menentukan

Status Berat

Badan dan

Kebutuhan

Energi Pada

Anak Usia 7-12

Tahun.

Supangat, Anis

R. Amna,

Titasari

Rahmawati

(2018)

Algoritma

C4.5

Hasil pengujian

terhadap 360

siswa sekolah

dasar kelas 1-6

menunjukkan

bahwa

penggunaan

metode Decision

Tree C4.5

mampu

memberikan

akurasi penilaian

sebesar 82% dan

dapat

ditingkatkan

melalui

penggabungan

dengan metode

klasifikasi lain.

Masih dalam

tahap

perancangan

4 Sistem Informasi

Akademik

Berbasis Web

pada SMK

(Sekolah

Menengah

Kejuruan)

Teknologi

Industri

Pembangunan

Cimahi. I

Pangaribuan , F

Subakti (2019)

- sistem informasi

akademik

berbasis web

pada SMK

Teknologi

Industri

Pembangunan

Cimahi dapat

mempermudah

pihak tata usaha

pada saat

melakukan

pengecekan

persyaratan

pendaftaran

siswa baru, dan

Proses

penjadwalan

belum

tercantum

detail

mengenai

ruangan yang

ditempati oleh

setiap kelas

karena kondisi

pembelajaran

saat ini masih

menggunakan

sistem moving

class,

sehingga

untuk

penempatan

10

dapat

mempersingkat

waktu

rekapitulasi data

calon siswa,

selain itu bagian

kurikulum dapat

dengan mudah

melakukan

pembuatan

penjadwalan

mata pelajaran

setiap kelas tanpa

adanya

bentrokan,

kemudian untuk

seluruh guru

dapat dengan

mudah

menginputkan

data penilaian

siswa yang

terintegrasi

dengan basis data

sehingga setiap

wali kelas bisa

mencetak rapor

tanpa harus

menyalin data

nilai yang

diberikan oleh

setiap guru.

ruangannya

masih sangat

fleksibel.

5 Analisa dan

Penerapan

Algoritma C4.5

Dalam Data

Mining Untuk

Mengidentifikasi

Faktor-Faktor

Penyebab

Kecelakaan

Algoritma

C4.5

Proses Data

Mining dengan

menggunakan

metoda

Algoritma C4.5

dalam

mengidentifikasi

faktor-faktor

kecelakaan kerja

Tidak adanya

tingkat akurasi

perhitungan

11

Kerja Kontruksi

PT.Arupadhatu

Adisesanti.

Erlin Elisa

(2017)

konstruksi maka

dapat diambil

kesimpulan

bahwa metode

Algoritma C4.5

atau pohon

keputusan lebih

efektif dan

fleksibel jika

digunakan pada

proses

pengklasifikasian

6 Penerapan

algoritma

decision tree

c4.5 untuk

memprediksi

penerimaan

calon atlet

pencak silat.

Evri Yoga

Widiatama

Sukma Dita

(2018)

Algoritma

decision tree

c4.5

Dengan

menggunakan

metode

Decision tree,

penerapan sistem

seleksi calon atlet

PSHT mejadi

lebih

mudah, terbukti

dalam

penyeleksian

menggunakan

aplikasi ini

dengan

waktu kurang

lebih 15 menit

dapat

mengetahui atlet

yang layak untuk

diajukan dalam

pertandingan.

Perlu

dikembangkan

dengan

menambahkan

kriteria-

kriteria dari

berbagai pakar

atau Ahli

2.2 Konsep Dasar Sistem

2.2.1 Pengertian Sistem

Menurut Davis 1985 (Ladjamudin, 2005:3), sistem adalah bagian-

bagian yang saling berkaitan yang beroperasi bersama untuk mencapai beberapa

sasaran atau maksud. Menurut Lucas 1989 (Ladjamudin, 2005:3), sistem adalah

suatu komponen atau variable yang terorganisir, saling berinteraksi, saling

bergantung, satu sama lain dan terpadu. Menurut Mc Leod (Ladjamudin,

2005:3), sistem adalah sekelompok elemen yang terintegrasi dengan maksud

yang sama untuk mencapai suatu tujuan. Menurut Robert G.Murdick 1993

12

(Ladjamudin, 2005:3), sistem adalah seperangkat elemen-elemen yang

terintegrasi dengan maksud yang sama untuk mencapai tujuan bersama. Menurut

Gerald. J 1991 (Ladjamudin, 2005:3), sistem yaitu suatu jaringan kerja dari

prosedur-prosedur yang saling berhubungan, berkumpul bersama- sama untuk

melakukan suatu kegiatan atau menyelesaikan suatu sasaran tertentu.

2.2.2 Karakteristik Sistem

Sebuah sistem mempunyai karakteristik atau sifat-sifat tertentu, yang

mencirikan bahwa hal tersebut bias dikatakan sebagai suatu sistem (Sutabri,

2005: 11). Karakteristik- karakteristik tersebut adalah :

1. Komponen sistem (Components)

Suatu sistem terdiri dari sejumlah komponen yang saling

berinteraksi dan bekerjasama membentuk satu kesatuan. Komponen-

komponen sistem tersebut dapat berupa subsistem atau bagian-bagian dari

sistem yang mempunyai sifat-sifat dari sistem yang menjalankan suatu

fungsi tertentu dan mempengaruhi proses sistem secara keseluruhan.

2. Batasan sistem (Boundary)

Batasan sistem merupakan daerah yang membatasi antara

sistem yang dengan sistem yang lain atau dengan lingkungan luarnya.

Batasan sistem ini menunjukkan ruang lingkup dari sistem itu sendiri.

3. Lingkungan luar sistem (Environtment)

Lingkungan luar dari sistem merupakan apapun yang ada di luar

lingkup atau batasan sistem yang mempengaruhi operasi sistem tersebut.

4. Penghubung sistem (Interface)

Penghubung sistem atau interface merupakan media yang

menghubungkan sistem dengan subsistem yang lainnya untuk dapat

berinteraksi membentuk suatu kesatuan.

5. Masukan sistem (Input)

Masukan sistem adalah energi yang dimasukkan ke dalam sistem.

Masukan sistem dapat berupa pemeliharaan (maintenance input) dan

sinyal (signal input). Maintenance input merupakan energy yang

dimasukkan agar sistem tersebut dapat beroperasi. Sedangkan, signal

input adalah energy yang diproses untuk menghasilkan keluaran.

6. Keluaran sistem (Output)

Keluaran sistem adalah hasil energy yang diolah dan

diklasifikasikan menjadi keluaran yang berguna. Keluaran ini merupakan

masukan yang berguna bagi subsistem yang lain.

7. Pengolah sistem (Proses)

Suatu sistem dapat mempunyai suatu proses yang akan mengubah

13

masukan menjadi keluaran.

8. Sasaran sistem (Objective)

Suatu sistem memiliki tujuan dan sasaran yang pasti. Hal ini

karena sasaran sangat berguna untuk menentukan masukan yang

dibutuhkan sistem dan keluaran yang akan dihasilkan. Suatu sistem

dikatakan berhasil bila mengenai sasaran atau tujuannya.

2.3 Konsep Informasi

2.3.1 Pengertian Informasi

Informasi memiliki peranan yang penting dalam organisasi ibarat darah

yang mengalir didalam tubuh suatu organisasi. Suatu sistem yang kurang

mendapatkan informasi akan sulit berkembang bahkan dapat menjadi mati.

Sebelum mendefinisikan informasi, penulis memaparkan definisi dari

data. Data adalah kenyataan yang menggambarkan suatu kejadian-kejadian dan

kesatuan nyata. Kesatuan nyata adalah berupa suatu objek nyata seperti tempat,

benda dan orang yang betul-betul ada dan terjadi. Untuk pengambilan keputusan

bagi manajemen, maka faktor- faktor tersebut harus diolah lebih lanjut untuk

menjadi suatu informasi (Ladjamudin, 2005 ).

Informasi adalah data yang telah diklasifikasi atau diolah atau

diinterpretasi untuk digunakan dalam proses pengambilan keputusan (Sutabri,

2005 : 11). Menurut Gordon. B. Davis, informasi adalah data yang telah diolah

menjadi bentuk yang lebih berarti bagi penerimanya dan bermanfaat dalam

pengambilan keputusan masa kini maupun yang akan datang (Kadir, 2003 : 31),

Dari pengertian tersebut diatas dapat disimpulkan bahwa informasi

merupakan hasil dari pengolahan data menjadi bentuk yang lebih berguna bagi

yang menerimanya yang menggambarkan suatu kejadian-kejadian nyata dan

dapat digunakan sebagai alat bantu untuk pengambilan suatu keputusan.

2.3.2 Siklus Informasi

Untuk memperoleh informasi yang bermanfaat bagi penerimanya, perlu

untuk dijelaskan bagaimana siklus yang terjadi atau dibutuhkan dalam

menghasilkan informasi. menurut Ladjamudin,

Siklus informasi atau siklus pengolahan data adalah sebagai berikut:

Gambar 2. 1 Siklus Informasi

14

2.3.3 Kualitas Informasi

Kualitas informasi (quality of information) sangat dipengaruhi atau

ditentukan oleh tiga hal, yaitu relevan (relevancy), akurat (accuracy), dan tepat

waktu (timeliness) (Ladjamudin, 2005: 11).

1. Relevan (relevancy)

Informasi tersebut mempunyai manfaat untuk pemakainya. Relevansi

informasi untuk tiap-tiap orang satu dengan yang lainnya berbeda,

misalnya informasi mengenai sebab-musabab kerusakan mesin produksi

kepada akuntan perusahaan adalah kurang relevan dan akan lebih relevan

bila ditujukan kepada ahli teknik perusahaan.

2. Akurat (accuracy)

Informasi harus bebas dari kesalahan-kesalahan dan tidak bisa atau

menyesatkan. Akurat juga berarti informasi harus jelas mencerminkan

maksudnya. Informasi harus akurat karena dari sumber informasi sampai

ke penerima infomasi kemungkinan banyak terjadi gangguan (noise) yang

dapat merubah atau merusak informasi tersebut.

3. Tepat Pada Waktunya (timeliness)

Informasi yang datang pada penerima tidak boleh terlambat, informasi

yang sudah usang tidak akan mempunyai nilai lagi, karena informasi

merupakan landasan didalam pengambilan keputusan.

2.4 Sistem Informasi

2.4.1 Pengertian Sistem informasi

Sistem Informasi adalah suatu sistem di dalam suatu organisasi yang

mempertemukan kebutuhan pengolahan transaksi harian, mendukung operasi,

bersifat manajerial dan kegiatan strategi dari suatu organisasi dan menyediakan

pihak luar tertentu dengan laporan-laporan yang diperlukan. Definisi sistem

informasi juga bisa didefinisikan kerangka kerja yang mengkoordinasikan sumber

daya (manusia, komputer) untuk mengubah masukan (input) menjadi keluaran

(output), guna mencapai sasaran-sasaran perusahaan. Sistem informasi

didefinisikan sebagai sekumpulan komponen yang terdiri dari manusia atau orang,

prosedur kerja, data, informasi dan teknologi informasi yang berguna untuk

pengambilan keputusan dalam organisasi (Noviandi, Destiani, Partono, 2012).

Sistem merupakan suatu kesatuan yang terdiri dari suatu kumpulan

elemen yang saling berinteraksi untuk mencapai suatu tujuan. Sedangkan

informasi adalah data yang diolah menjadi sebuah bentuk yang berarti dan

15

bermanfaat bagi penerimanya dan bermanfaat bagi pengambilan keputusan, saat

ini ataupun mendatang._(Fitri, 2004).

Sistem informasi adalah suatu sistem di dalam suatu organisasi yang

mempertemukan kebutuhan pengolahan transaksi harian yang mendukung fungsi

operasi organisasi yang bersifat manajerial dengan kegiatan strategi dari suatu

organisasi untuk dapat menyediakan kepada pihak luar tertentu dengan laporan-

laporan yang diperlukan. Sutabri (2005:42)

Sekolah merupakan suatu lembaga pendidikan, yang terdiri dari siswa,

guru dan seluruh pegawai yang berada di dalam lingkungan sekolah. Sekolah

merupakan tempat proses belajar dan mengajar, tempat menerima dan

memberikan pelajaran. Sistem informasi sekolah adalah sebuah sistem yang dapat

membantu dan memberikan suatu informasi yang dapat diolah menjadi sebuah

bentuk yang berarti dan bermanfaat dalam pengelolaan data, informasi seputar

proses belajar dan mengajar di sekolah. Dikembangkannya suatu sistem informasi

memiliki berbagai tujan tergantung dari kebutuhan setiap individu atau instansi

yang menggunakannya. Salah satu tujuan dari sistem informasi ialah digunakan

sebagai sarana publikasi pada suatu instansi perusahaan, dan sebagai media

penyampaian informasi sebagai sarana penunjang pendidikan dan lain sebagainya.

2.4.2 Komponen Sistem Informasi

Menurut Jogiyanto (2005:12), Komponen sistem informasi yang disebut

blok bangunan yaitu : blok masukan, blok model, blok keluaran, blok teknologi,

blok basis data dan blok kendali. Keenam blok tersebut saling berinteraksi satu

dengan yang lainnya membentuk satu kesatuan untuk mencapai sasarannya.

1. Blok masukan

Blok masukan mewakili data yang masuk ke dalam sistem informasi,

termasuk metode dan media untuk memperoleh data yang akan

dimasukkan, yang dapat berupa dokumen dasar.

2. Blok model

Blok model terdiri dari kombinasi prosedur, logika dan model matematik

yang akan memanipulasi/mentranspormasi data masukan dan data yang

tersimpan dalam basis data untuk menghasilkan keluaran yang

diinginkan.

3. Blok keluaran

Blok keluaran adalah produk dari sistem informasi adalah keluaran berupa

informasi yang berkualitas.

16

4. Blok teknologi

Blok teknologi merupakan kotak alat (tool - box) dalam sistem informasi.

Teknologi terdiri dari 3 bagian utama yaitu teknisi (brainware), perangkat

lunak (software) dan perangkat keras (hardware).

5. Blok basis data

Merupakan kumpulan dari file data yang saling berhubungan yang

diorganisasi sedemikian rupa agar dapat diakses dengan mudah dan cepat.

6. Blok kendali

Pengendalian perlu dirancang dan diterapkan untuk menyakinkan bahwa

hal-hal yang dapat merusak sistem dapat dicegah atau bila terlanjur terjadi

kesalahan dapat langsung diatasi.

2.5 Konsep Dasar Sekolah

Sekolah adalah sebuah lembaga yang dirancang untuk pengajaran siswa

atau murid di bawah pengawasan guru. Sebagian besar negara memiliki sistem

pendidikan formal, yang umumnya wajib. Dalam sistem ini, siswa kemajuan

melalui serangkaian sekolah. Nama-nama untuk sekolah-sekolah ini bervariasi

menurut negara, tetapi umumnya termasuk sekolah dasar untuk anak-anak muda

dan sekolah menengah untuk remaja yang telah menyelesaikan pendidikan dasar.

Selain sekolah-sekolah inti, siswa di negara tertentu juga mungkin

memiliki akses dan mengikuti sekolah-sekolah baik sebelum dan sesudah

pendidikan dasar dan menengah. Sebuah sekolah mungkin juga didedikasikan

untuk satu bidang tertentu, seperti sekolah ekonomi atau sekolah tari. Alternatif

sekolah dapat menyediakan kurikulum dan metode non-tradisional.

(http://id.wikipedia.org/wiki/Sekolah, 09 April 2020, 21:52 WIB )

2.6 Data Mining

Data mining adalah suatu istilah yang digunakan untuk menemukan

pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses

semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan

buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi

informasi pengetahuan potensial dan berguna yang bermanfaat yang tersimpan di

dalam database besar. (Turban et al, 2005 ).

Menurut Pendapat Witten, I.H., Frank, E., & Hall, M.A. Data mining

merupakan kegiatan menganalisis dataset dalam jumlah besar untuk menemukan

relasi yang tidak diketahui sebelumnya dan merangkum dalam bentuk data baru

http://id.wikipedia.org/wiki/Sekolah

17

yang dapat dipahami dan bermanfaat bagi pemilik data. Berdasarkan tipe

pekerjaannya, data mining dibagi menjadi 5, yaitu Exploratory Data Analysis

(EDA), Descriptive Modeling, Predictive Modeling, Penemuan Pola dan Aturan,

serta Pemanggilan Konten.

2.6.1 Proses Data Mining

Menurut (Indri, 2014). Data Mining adalah sebuah proses untuk

menemukan pola atau pengetahuan yang bermanfaat secara otomatis dari

sekumpulan data yang berjumlah banyak, Data Mining sering dianggap sebagai

bagian dari Knowledge Discovery in Database (KDD) yaitu sebuah proses

mencari penetahuan yang bermanfaat dari data.

Gambar 2. 2 Data Mining

Keterangan (Sunjana, 2010):

1. Data Selection

Pemilihan (seleksi) data dari sekumpulan data operasional perlu

dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data

hasil seleksi yang akan digunakan untuk proses data mining, disimpan

dalam suatu berkas, terpisah dari basis data operasional.

2. Pre-processing/Cleaning

Sebelum proses data mining dapat dilaksanakan, perlu dilakukan

proses cleaning pada data yang menjadi focus KDD. Proses cleaning

mencakup antara lain membuang duplikasi data, memeriksa data yang

inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan

18

cetak (tipografi). Selain itu dilakukan proses enrichment, yaitu proses

“memperkaya” data yang sudah ada dengan data atau informasi lain yang

relevan dan diperlakukan untuk KDD, seperti data atau informasi

eksternal.

3. Transformation

Coding adalah proses tranformasi pada data yang telah dipilih,

sehingga data tersebut sesuai untuk proses data mining. Proses coding

dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis

atau pola informasi yang akan dicari dalam basis data.

4. Interpretation/Evaluation

Pola informasi yang dihasilkan dari proses data mining perlu

ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang

berkepentingan. Tahap ini merupakan bagian dari proses KDD yang

disebut dengan interpretation. Tahap ini mencakup pemeriksaan apakah

pola atau informasi yang ditemukan bertentangan dengan fakta atau

hipotesa yang ada sebelumnya.

2.6.2 Pengelompokan Data Mining

Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang

dapat dikakukan, yaitu (Jefri & Kusrini, 2013):

1. Prediksi

Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa

dalam prediksi nilai hasil mungkin akan ada di masa mendatang.

Contoh prediksi dalam penelitian:

a. Prediksi harga gula dalam tiga dekade yang akan datang

b. Prediksi keadaan cuaca pada suatu tempat apakah akan terang,

mendung, hujan dan sebagainya.

Beberapa metode atau teknik yang digunakan dalam klasifikasi dan

estimasi dapat juga digunakan (untuk keadaan yang tepat) untuk memprediksi.

2. Klasifikasi

Didalam pengklasifikasian terdapat target variabel kategori. Sebagai

contoh, penggolongan pendapatan dapat dipisahkan dalam tiga

katagori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan

rendah. Contoh lain klasifikasi dalam penelitian adalah:

a. Menentukan apakah suatu traksaksi kartu kredit merupakan

transaksi yang curang atau tidak.

b. Mendiagnosis penyakit seorang pasien untuk mendapatkan

termasuk kategori penyakit apa.

19

2.7 Decission Tree

Metode decission tree adalah sebuah struktur flowchart yang mirip seperti

struktur pohon, setiap titik pohon merupakan atribut yang telah diuji, setiap

cabang merupakan hasil uji, dan titik akhir merupakan pembagian kelas yang

dihasilkan (Han dan Kamber, 2001).

Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat

kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar

menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat dengan

mudah dipahami dengan bahasa alami dan mereka juga dapat diekspresikan dalam

bentuk bahasa basis data seperti SQL (Structured Query Language) untuk mencari

record pada kategori tertentu (kusrini dan luthfi, 2009).

Pada decision tree terdapat 3 jenis node, yaitu (Anik, 2013):

1. Root node, merupakan node paling atas, pada node ini tidak ada input

dan bisa tidak mempunyai output atau mempunyai output lebih dari

satu.

2. Internal node, merupakan node percabangan, pada node ini hanya

terdapat satu input dan mempunyai output minimal dua.

3. Leaf node atau terminal node, merupakan node akhir, pada node ini

hanya terdapat satu input dan tidak mempunyai output.

2.7.1 Struktur Decision Tree

Menurut Dua dan Xian, 2011, decision tree tergantung pada aturan if-

then, tetapi tidak membutuhkan parameter dan metrik. Struktur sederhana dan

dapat ditafsirkan memungkinkan decision tree untuk memecahkan masalah

atribut multi type. Decision tree juga dapat mengelola nilai-nilai yang hilang atau

data noise (Anik, 2013).

Gambar 2. 3 Decision Tree

20

2.7.2 Tahapan Decision Tree

Ada beberapa tahap dalam membuat sebuah pohon keputusan yaitu (Mila

& Dedi, 2015):

1. Menyiapkan data training yang sudah dikelompokkan ke dalam

kelas-kelas tertentu.

2. Menentukan akar dari pohon. Akar akan diambil dari atribut yang

terpilih, yaitu dengan cara menghitung nilai gain dari masing –

masing atribut. Nilai gain yang tertinggi akan menjadi akar pertama.

Sebelum menghitung nilai gain dari atribut, hitung nilai entropy.

2.8 Algoritma C4.5

Algoritma C 4.5 adalah salah satu metode untuk membuat decision tree

berdasarkan training data yang telah disediakan. Algoritma C4.5 merupakan

pengembangan dari ID3. Beberapa pengembangan yang dilakukan pada C 4.5

adalah sebagai antara lain bisa mengatasi missing value, bisa mengatasi continue

data, dan pruning. Pohon keputusan merupakan metode klasifikasi dan prediksi

yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang

sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan

dapat dengan mudah dipahami dengan bahasa alami.

Dan mereka juga dapat diekspresikan dalam bentuk bahasa basis data

seperti Structured Query Language untuk mencari record pada kategori tertentu.

Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan

tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target.

Karena pohon keputusan memadukan antara eksplorasi data dan pemodelan,

pohon keputusan sangat bagus sebagai langkah awal dalam proses pemodelan

bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain. Sebuah

pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi

kumpulan data yang besar menjadi himpunan-himpunan record yang lebih kecil

dengan menerapkan serangkaian aturan keputusan. Dengan masing masing

rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang

lain (Berry dan Linoff, 2004).

Sebuah model pohon keputusan terdiri dari sekumpulan aturan untuk

membagi sejumlah populasi yang heterogen menjadi lebih kecil, lebih homogen

dengan memperhatikan pada variabel tujuannya. Sebuah pohon keputusan

mungkin dibangun dengan seksama secara manual atau dapat tumbuh secara

otomatis dengan menerapkan salah satu atau beberapa algoritma pohon keputusan

untuk memodelkan himpunan data yang belum terklasifikasi. Variabel tujuan

biasanya dikelompokkan dengan pasti dan model pohon keputusan lebih

21

mengarah pada perhitungan probability dari tiap-tiap record terhadap kategori-

kategori tersebut atau untuk mengklasifikasi record dengan mengelompokkannya

dalam satu kelas. Pohon keputusan juga dapat digunakan untuk mengestimasi nilai

dari variabel continue meskipun ada beberapa teknik yang lebih sesuai untuk

kasus ini. Banyak algoritma yang dapat dipakai dalam pembentukan pohon

keputusan,antara lain ID3, CART, dan C4.5 (Larose, 2006).

Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel

dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat

sebagai kriteria dalam pembentukan pohon. Misalkan untuk menentukan main

tenis, kriteria yang diperhatikan adalah cuaca, angin, dan temperatur. Salah satu

atribut merupakan atribut yang menyatakan data solusi per item data yang disebut

target atribut. Atribut memiliki nilai-nilai yang dinamakan dengan instance.

Misalkan atribut cuaca mempunyai instance berupa cerah, berawan, dan hujan

(Basuki dan Syarif, 2003).

2.8.1 Prinsip Kerja Algoritma C4.5

Pada tahap pembelajaran algoritma C4.5 memiliki 2 prinsip kerja yaitu

(Selvia. et al, 2014):

1. Pembuatan pohon keputusan. Tujuan dari algoritma penginduksi

pohon keputusan adalah mengkontruksi struktur data pohon yang

dapat digunakan untuk memprediksi kelas dari sebuah kasus atau

record baru yang belum memiliki kelas. C4.5 melakukan konstruksi

pohon keputusan dengan metode divide and conquer. Pada awalnya

hanya dibuat node akar dengan menerapkan algoritma divide and

conquer. Algoritma ini memilih pemecahan kasus - kasus yang

terbaik dengan menghitung dan membandingkan gain ratio,

kemudian node - node yang terbentuk di level berikutnya, algoritma

divide and conquer akan diterapkan lagi sampai terbentuk daun -

daun.

2. Pembuatan aturan-aturan (rule set). Aturan aturan yang terbentuk dari

pohon keputusan akan membentuk suatu kondisi dalam bentuk if-

then. Aturan-aturan ini didapat dengan cara menelusuri pohon

keputusan dari akar sampai daun. Setiap node dan syarat percabangan

akan membentuk suatu kondisi atau suatu if, sedangkan untuk nilai

nilai yang terdapat pada daun akan membentuk suatu hasil atau suatu

then.

22

2.8.2 Tahapan Algoritma Decision Tree C4.5

Ada beberapa tahap dalam membuat sebuah pohon keputusan dengan

algoritma C4.5, yaitu (Prabowo. at al, 2015):

1. Mempersiapkan data training. Data training biasanya diambil dari

data histori yang pernah terjadi sebelumnya atau disebut data masa

lalu dan sudah dikelompokkan dalam kelas – kelas tertentu.

2. Menghitung akar dari pohon. Akar akan diambil dari atribut yang

akan terpilih, dengan cara menghitung nilai gain dari masing-masing

atribut, nilai gain yang paling tinggi yang akan menjadi akar pertama.

Sebelum menghitung nilai gain dari atribut, hitung dahulu nilai

entropy. Untuk menghitung nilai entropy digunakan rumus :

Gambar 2. 4 Rumus Menghitung Nilai Entropy

Keterangan

S : himpunan kasus

A : fitur

n : Jumlah partisi S

pi : proporsi dari Si terhadap S

Gain adalah Ukuran efektifitas suatu variabel dalam mengklasifikasikan

data. Gain dari suatu variabel merupakan selisih antara nilai entropy total

dengan entropy dari variabel tersebut. Gain

Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari

atribut - atribut yang ada. Untuk menghitung gain digunakan rumus seperti tertera

dalam persamaan berikut:

Gambar 2. 5 Rumus Menghitung Gain

23

Keterangan :

S : himpunan kasus

A : atribut

n : jumlah partisi artribut A

|Si| : jumlah kasus pada partisi ke-i

|S| : jumlah kasus dalam S

3. Ulangi langkah ke 2 dan langkah ke 3 hingga semua record terpatisi.

4. Proses partisi pohon keputusan akan berhenti saat :

a. Semua record dalam simpul N mendapat kelas yang sama.

b. Tidak ada atribut didalam record yang dipartisi lagi.

c. Tidak ada record didalam cabang yang kosong

Split info digunakan sebagai pembagi dari Gain(A) yang akan menghasilkan Gain

Ratio.

Gambar 2. 6 Rumus Split Info

Keterangan

S = ruang (data) sample yang digunakan untuk training.

A = atribut.

Si = jumlah sample untuk atribut i

Gain Ratio merupakan salah satu ukuran lain yang digunakan untuk mengatasi

masalah pada atribut yang memiliki nilai sangat bervariasi. Gain Ratio tertinggi

dipilih sebagai atribut test untuk simpul.

Gambar 2. 7 Rumus Gain Ratio

Keterangan

24

a = atribut.

gain(a) = information gain pada atribut a

Split(a) = split information pada atribut a

25

Halaman ini sengaja dikosongkan

bab 2 kajian pustaka dan dasar teori 2.1 penelitian ...repository.untag-sby.ac.id/5231/49/bab...

Documents