decision tree berbasis algoritma
TRANSCRIPT
-
7/25/2019 Decision Tree Berbasis Algoritma
1/14
DECISION TREE BERBASIS ALGORITMA UNTUK
PENGAMBILAN KEPUTUSAN
Achmad Badarman#1, Ahmad Nur Ihsan#2,Maulana Hasanudin#3,Muhammad Rizky#4,Valentino Wijaya#5,Zen Ahmad Fauzi#6
Program Studi Sistem InformatikaSTIKOM BINANIAGA BOGOR
Abstrak
Decision Tree merupakan representasi sederhana dari teknik klasifikasi yang merupakan prosespembelajaran suatu fungsi tujuan yang memetakan tiap himpunan atribut ke satu dari kelas yangdidefenisikan sebelumnya. Pohon keputusan dapat menemukan hubungan tersembunyi antarasejumlah calon variabel input dengan sebuah variabel target. Dan pohon keputusan dapatmemadukan antara eksplorasi data dan pemodelan, sehingga sangat baik sebagai langkah awaldalam proses pemodelan. Dengan kemampuannya untuk mem-break down proses pengambilankeputusan yang kompleks menjadi lebih simple. Dan pengambilan keputusan merupakan suatuproses pemikiran dalam rangka pemecahan suatu masalah untuk memperoleh hasil akhir untukdilaksanakan.
Kata Kunc i: Data Mining, Decision Tree, Pengambilan Keputusan.
Abstract
Decision Tree technique is a simple representation of the classification is the process of learning anobjective function that maps each set of attributes to one of the previously defined classes.Decision tree can find hidden relationships between a number of potential input variables to a target
variable. And the decision tree can combine data exploration and modeling, so it is good as a firststep in the modeling process. With its ability to break down a complex decision making process tobe more simple. And decision-making is a process of thinking in a problem solving framework forobtaining the final result to be implemented.
Keywords: Data Mining, Decision Tree, Decision Making.
-
7/25/2019 Decision Tree Berbasis Algoritma
2/14
PENDAHULUAN
Perkembangan yang cepat dalamteknologi pengumpulan dan penyimpanandata telah memudahkan organisasi untukmengumpulkan sejumlah data berukuran
besar sehingga menghasilkan gunung data.Ekstraksi informasi yang berguna darigunung data menjadi pekerjaan yang cukupmenantang.
Seringkali alat dan teknik analisis datatradisional tidak dapat digunakan dalammengekstrak informasi dari data berukuranbesar. Data mining adalah teknologi yangmerupakan campuran metode-metodeanalisis data dengan algoritme-algoritmeuntuk memproses data berukuran besar.
Data mining telah banyak diaplikasikandalam berbagai bidang, diantanya dalambidang bisnis dan kedokteran.
Dalam bidang bisnis, teknik datamining digunakan untuk mendukung cakupanyang luas dari aplikasi-aplikasi bisnisinteligen seperti customer profiling, targetedmarketing, workflow management, storelayout dan fraud detection. Teknik datamining dapat digunakan untuk menjawabpertanyaan bisnis yang penting seperti
Siapakan pelanggan yang akan palingbanyak mendatangkan keuntungan ? dan Seperti apa perkiraan pendapatanperusahaan tahun depan ?.
Dalam bidang kedokteran, penelitidalam bidang biomolekuler dapatmenggunakan teknik data mining untukmenganalisis sejumlah besar data genomicyang sekarang ini telah banyak dikumpulkanuntuk menjelaskan struktur dan fungsi gen,memprediksi struktur protein, dan lain-lain.
1.1 Pengertian Data m ining
Data mining adalah sebuah prosespercarian secara otomatis informasi yangberguna dalam tempat penyimpanan databerukuran besar. Istilah lain yang seringdigunakan diantaranya knowledge discovery
(mining) in databases (KDD), knowledgeextraction, data/pattern analysis, dataarcheology, data dredging, informationharvesting, dan business intelligence. Teknikdata mining digunakan untuk memeriksabasis data berukuran besar sebagai carauntuk menemukan pola yang baru danberguna.
Tidak semua pekerjaan pencarianinformasi dinyatakan sebagai data mining.Sebagai contoh, pencarian record individual
menggunakan database managementsystem atau pencarian halaman we tertentumelalui kueri ke semua search engine adalahpekerjaan pencarian informasi yang eratkaitannya dengan information retrieval.Teknik-teknik data mining dapat digunakanuntuk meningkatkan kemampuan sistem-sistem information retrieval.
Data mining adalah bagian integraldari knowledge discovery in databases(KDD). Keseluruhan proses KDD untuk
konversi raw data ke dalam informasi yangberguna ditunjukkan dalam gambar berikut
-
7/25/2019 Decision Tree Berbasis Algoritma
3/14
Data input dapat disimpan dalam
berbagai format seperti flat file, spreadsheet,atau tabel-tabel relasional, dan dapatmenempati tempat penyimpanan dataterpusat atau terdistribusi pada banyaktempat.
Tujuan dari preprocessing adalahmentransformasikan data input mentah kedalam format yang sesuai untuk analisisselanjutnya.
Langkah-langkah yang terlibat dalampreprocessing data meliputi mengabungkandata dari berbagai sumber, membersihkan(cleaning) data untuk membuang noise danobservasi duplikat, dan menyeleksi record
dan fitur yang relevan untuk pekerjaan datamining. Karena terdapat banyak caramengumpulkan dan menyimpan data,tahapan preprocessing data merupakanlangkat yang banyak menghabiskan waktudalam KDD.
Hasil dari data mining sering kalidiintegrasikan dengan decision supportsystem (DSS). Sebagai contoh, dalamaplikasi bisnis informasi yang dihasilkan oleh
data mining dapat diintegrasikan dengan toolmanajemen kampanye produk sehinggapromosi pemasaran yang efektif yangdilaksanakan dan dapat diuji.
Integrasi demikian memerlukanlangkah postprocessing yang menjaminbahwa hanya hasil yang valid dan bergunayang akan digabungkan dengan DSS.
Salah satu pekerjaan danpostprocessing adalah visualisasi yangmemungkinkan analyst untuk mengeksplordata dan hasil data mining dari berbagaisudur pandang.
Ukuran-ukuran statistik dan metodepengujian hipotesis dapat digunakan selamapostprocessing untuk membuang hasil datamining yang palsu.
Secara khusus, data mining menggunakanide-ide seperti:
(1) pengambilan contoh, estimasi, danpengujian hipotesis, dari statistika dan (2)algoritme pencarian, teknik pemodelan, danteori pembelajaran dari kecerdasan buatan,
pengenalan pola, dan machine learning. Datamining juga telah mengadopsi ide-ide dariarea lain meliputi optimisasi, evolutionarycomputing, teori informasi, pemrosesansinyal, visualisasi dan information retrieval.
Sejumlah area lain juga memberikan peranpendukung dalam data mining, seperti sistembasis data yang dibutuhkan untukmenyediakan tempat penyimpanan yangefisien, indexing dan pemrosesan kueri.Gambar berikut menunjukkan hubungan datamining dengan area-area lain.
-
7/25/2019 Decision Tree Berbasis Algoritma
4/14
Arsitektur Sistem Data m ining
Data mining merupakan prosespencarian pengetahuan yang menarik daridata berukuran besar yang disimpan dalambasis data, data warehouse atau tempatpenyimpanan informasi lainnya. Dengan
demikian arsitektur sistem data miningmemiliki komponen-komponen utama yaitu:
- Basis data, data warehouse atau tempatpenyimpanan informasi lainnya.
- Basis data dan data warehouse server.Komponen ini bertanggung jawab dalampengambilan relevant data, berdasarkanpermintaan pengguna.
- Basis pengetahuan. Komponen inimerupakan domain knowledge yang
digunakan untuk memandu pencarianatau mengevaluasi pola-pola yangdihasilkan. Pengetahuan tersebut meliputihirarki konsep yang digunakan untukmengorganisasikan atribut atau nilaiatribut ke dalam level abstraksi yangberbeda. Pengetahuan tersebut jugadapat berupa kepercayaan pengguna(user belief), yang dapat digunakan untukmenentukan kemenarikan pola yangdiperoleh. Contoh lain dari domainknowledge adalah threshold dan
metadata yang menjelaskan data dariberbagai sumber yang heterogen.
- Data mining engine. Bagian ini merupakankomponen penting dalam arsitektursistem data mining. Komponen ini terdirimodul-modul fungsional data miningseperti karakterisasi, asosiasi, klasifikasi,dan analisis cluster.
- Modul evaluasi pola. Komponen inimenggunakan ukuran-ukurankemenarikan dan berinteraksi denganmodul data mining dalam pencarian pola-pola menarik. Modul evaluasi pola dapatmenggunakan threshold kemenaikanuntuk mem-filter pola-pola yang diperoleh.
- Antarmuka pengguna grafis. Modul iniberkomunikasi dengan pengguna dansistem data mining. Melalui modul ini,pengguna berinteraksi dengan sistemmengan menentukan kueri atau task datamining. Antarmuka juga menyediakaninformasi untuk memfokuskan pencariandan melakukan eksplorasi data miningberdasarkan hasil data mining antara.Komponen ini juga memungkinkanpengguna untuk mencari (browse) basis
data dan skema data warehouse ataustruktur data, evaluasi pola yangdiperoleh dan visualisasi pola dalamberbagai bentuk.
Arsitektur sebuah sistem data mining dapatdilihat dalam Gambar berikut
-
7/25/2019 Decision Tree Berbasis Algoritma
5/14
Data mining dapat diaplikasikan padaberbagai jenis penyimpanan data sepertibasis data relational, data warehouse,transactional database, object-oriented andobject-relational databases, spatialdatabases, time-series data and temporaldata, text databases and multimedia
databases, heterogeneous and legacydatabases dan www.
a. Basis data Relasional
Basis data relasional merupakankoleksi dari table. Setiap table berisi atribut(field) dan biasanya menyimpan sejumlahbesar tuple (record). Setiap tuple dalam tablerelasional merepesentasikan sebuah objekyang diidentifikasikan oleh kunci unik dandideskripsikan oleh sekumpulan nilai atribut.
Data relasional dapat diakses oleh kueribasis data yang ditulis dalam bahasa kuerirelasional seperti SQL atau dengan bantuanantarmuka pengguna grafis.
b. Data warehouse
Data warehouse merupakan tempatpenyimpanan informasi yang dikumpulkandari berbagai sumber, disimpan dalam skemayang dipersatukan (unified schema) danbiasanya bertempat pada tempatpenyimpanan tunggal. Data warehouse
dikonstruksi melalui sebuah proses datacleaning, data transformation, dataintegration, data loading dan periodic datarefreshing. Untuk memfasilitasi prosespembuatan keputusan, data dalam datawarehouse diorganisasikan ke dalam subjekutama seperti customer, item, supplier atauaktivitas. Data disimpan untuk menyediakaninformasi dari perspektif sejarah (seperti 5-10tahun yang lalu) dan biasanya data tersebutdiringkas (summarized). Sebagai contoh,daripada menyimpan data rinci dari transaksipenjualan, data warehouse dapat menyimpanringkasan dari transaksi per tipe item untuksetiap toko atau diringkas dalam level yanglebih tinggi seperti daerah pemasaran.
Data warehouse biasanya dimodelkanoleh struktur basis data multidimensional,dimana setiap dimensi berkaitan dengansebuah atribut atau sekumpulan atributdalam skema, dan setiap sel menyimpan nilaidari ukuran agregasi seperti count dansales_amount. Struktur fisik dari datawarehouse dapat berupa penyimpanan basis
data relasional atau sebuah kubus datamultidimensional.
Selain data warehouse, terdapatistilah penyimpanan data yang lain yaitu datamart. Sebuah data warehousemengumpulkan informasi mengenai subjek-
subjek yang menjangkau seluruh organisasi,dengan demikian cakupannya enterprise-wide. Sedangkan data mart merupakan subbagian dari data warehouse. Fokus data martadalah pada subjek yang dipilih dan dengandemikian cakupannya adalah department-wide.
c. Basis data Transaksional
Secara umum, basis datatransaksional terdiri dari sebuah file dimanasetiap record merepresentasikan transaksi.
Sebuah transaksi biasanya meliputi bilanganidentitas transaksi yang unik (trans_id), dansebuah daftar dari item yang membuattransaksi (seperti item yang dibeli dalamsebuah took). Basis data transaksi dapatmemiliki tabel tambahan, yang mengandunginformasi lain berkaitan dengan penjualanseperti tanggal transaksi, customer IDnumber, ID number dari sales person dandari kantor cabang (branch) dimanapenjualan terjadi.
Tugas-tugas dalam Data min ing
Tugas-tugas dalam data mining secaraumum dibagi ke dalam dua kategori utama:
- Prediktif. Tujuan dari tugas prediktif adalahuntuk memprediksi nilai dari atributtertentu berdasarkan pada nilai dariatribut-atribut lain. Atribut yang diprediksiumumnya dikenal sebagai target atauvariabel tak bebas, sedangkan atribut-atribut yang digunakan untuk membuatprediksi dikenal sebagai explanatory atauvariabel bebas.
- Deskriptif. Tujuan dari tugas deskriptifadalah untuk menurunkan pola-pola(korelasi, trend, cluster, trayektori, dananomali) yang meringkas hubungan yangpokok dalam data. Tugas data miningdeskriptif sering merupakan penyelidikandan seringkali memerlukan teknikpostprocessing untuk validasi danpenjelasan hasil.
-
7/25/2019 Decision Tree Berbasis Algoritma
6/14
Berikut adalah tugas-tugas dalam datamining:
- Analisis Asosiasi (Korelasi dan kausalitas)
Analisis asosiasi adalah pencarianaturan-aturan asosiasi yang menunjukkankondisi-kondisi nilai atribut yang sering
terjadi bersama-sama dalam sekumpulandata. Analisis asosiasi sering digunakanuntuk menganalisa market basket dandata transaksi.
Aturan-aturan asosiasi memiliki bentuk XY, bahwa A1 A2 Am B1 B2 Bn, dimana Ai (untuk i = 1, 2,, m) dan Bj (untuk j = 1, 2, ,n) adalahpasangan-pasangan nilai atribut. Aturanasosiasi X Y diinterpretasikan sebagaituple-tuple basis data yang memenuhi
kondisi-kondisi dalam X juga mungkinmemenuhi kondisi dalam Y.
Contoh dari aturan asosiasi adalah
age(X, 20..29) ^ income(X, 20..29K) buys(X, PC) [support = 2%,confidence = 60%]
contains(T, computer) contains(x,software) [1%, 75%]
- Klasifikasi dan Prediksi
Klasifikasi adalah proses menemukanmodel (fungsi) yang menjelaskan danmembedakan kelas-kelas atau konsep,dengan tujuan agar model yang diperolehdapat digunakan untuk memprediksikankelas atau objek yang memiliki label kelastidak diketahui. Model yang turunkandidasarkan pada analisis dari trainingdata (yaitu objek data yang memiliki labelkelas yang diketahui). Model yangditurunkan dapat direpresentasikan dalamberbagai bentuk seperti aturan IF-THENklasifikasi, pohon keputusan, formulamatematika atau jaringan syarf tiruan.
Dalam banyak kasus, pengguna inginmemprediksikan nilai-nilai data yang tidaktersedia atau hilang (bukan label darikelas). Dalam kasus ini biasanya nilaidata yang akan diprediksi merupakandata numeric. Kasus ini seringkali dirujuksebagai prediksi. Di samping itu, prediksilebih menekankan pada identifikasi trenddari distribusi berdasarkan pada data
yang tersedia.
- Analisis Cluster
Tidak seperti klasifikasi dan prediksi, yangmenganalisis objek data yang diberi labelkelas, clustering menganalisis objek datadimana label kelas tidak diketahui.Clustering dapat digunakan untuk
menentukan label kelas tidak diketahuidengan cara mengelompokkan data untukmembentuk kelas baru. Sebabai contohclustering rumah untuk menemukan poladistribusinya. Prinsip dalam clusteringadalah memaksimumkan kemiripan intra-class dan meminimumkan kemiripaninterclass.
- Analisis Outlier
Outlier merupakan objek data yang tidakmengikuti perilaku umum dari data.
Outlier dapat dianggap sebagai noiseatau pengecualian. Analisis data outlierdinamakan outlier mining. Teknik iniberguna dalam fraud detection dan rareevents analysis.
- Analisis Trend dan Evolusi
Analisis evolusi data menjelaskan danmemodelkan trend dari objek yangmemiliki perilaku yang berubah setiapwaktu. Teknik ini dapat meliputikarakterisasi, diskriminasi, asosiasi,klasifikasi, atau clustering dari data yangberkaitan dengan waktu.
Data mining merupakan bidang interdisplin.Disiplin ilmu ini banyak dipengaruhi olehdisiplin sistem basis data, statistika, ilmuinformasi, mesin pembelajaran, danvisualisasi. Sistem data mining dapatdiklasifsikasikan berdasarkan beberapakategori, yaitu
- Klasifikasi berdasarkan data yang akan di-mine seperti relational, transactional,object-oriented, object-relational, spatial,time-series, text, multi-media dan www.
- Klasifikasi berdasarkan pengetahuan yangakan di-mine, yaitu berdasarkanfungsionalitas data mining sepertikarakterisasi, diskriminasi, asosiasi,klasifikasi, clustering, analisis outlier dananalisis evolusi. Sistem data mining yangkomprehensif biasanya menyediakan
beberapa fungsi-fungsi data mining.
-
7/25/2019 Decision Tree Berbasis Algoritma
7/14
- Klasifikasi berdasarkan teknik yang akandigunakan seperti database-oriented,data warehouse (OLAP), machinelearning, Statistics, Visualization danneural network.
- Klasifikasi berdasarkan aplikasi yangdiadaptasi, sebagai contoh system datamining untuk keuangan, telekomunikasi,DNA, dan e-mail.
Data Mining merupakan proses yangdiulang dan memerlukan interaksi manusiadalam prosesnya untuk menemukan polaatau model baru yang dapat digeneralisasiuntuk masa yang akan datang, danbermanfaat jika digunakan untuk melakukansuatu tindakan. Data mining berisi pencarianpola yang diinginkan dalam database besaruntuk membantu dalam pengambilankeputusan diwaktu yang akan datang. Pola-pola ini dikenali oleh perangkat tertentu yangdapat memberikan suatu analisa data yang
kemudian dapat dipelajari dengan teliti danbermanfaat. Dan salah satu teknik daribagian data mining adalah klasifikasi, yaitumenentukan sebuah record data baru kesalah satu dari beberapa kategori atau klasyang yang telah difenisikan sebelumnya. Dansalah satu bagian teknik dari klasifikasiadalah pohon keputusan.
Gambar 1. Tahapan Proses KnowledgeDiscovery in Databases
Pohon Keputusan merupakanrepresentasi sederhana dari teknik klasifikasiyang merupakan proses pembelajaran suatu
fungsi tujuan yang memetakan tiap himpunanatribut ke satu dari kelas yang didefenisikansebelumnya. Pohon keputusan merupakansalah satu metode klasifikasi yang palingpopuler karena mudah untuk diinterpretasioleh manusia. Dengan kemampuannya untukmem-break down proses pengambilankeputusan yang kompleks menjadi lebihsimple. Pohon keputusan juga dapatmenemukan hubungan tersembunyi antarasejumlah calon variabel input dengan sebuahvariabel target. Selain itu pohon keputusan
dapat memadukan antara eksplorasi datadan pemodelan, sehingga sangat baiksebagai langkah awal dalam prosespemodelan.
Gambar 2. Blok Diagram Model Klasifikasi
Dengan menggunakan metode pohonkeputusan dapat menghindari munculnyapermasalahan dengan menggunakan kriteriayang jumlahnya lebih sedikit pada setiapnode internal tanpa banyak mengurangikualitas keputusan yang dihasilkan. Dankekurangan dari pohon keputusandiantaranya adalah terjadi overlap terutamaketika kelas-kelas dan kriteria yangdigunakan jumlahnya sangat banyak dan
kualitas hasil keputusan yang didapatkansangat tergantung pada bagaimana pohontersebut didesain.
-
7/25/2019 Decision Tree Berbasis Algoritma
8/14
Gambar 3. Algoritma Induksi PohonKeputusan
Pengambilan Keputusan adalah suatuproses pemikiran dalam rangka pemecahansuatu masalah untuk memperoleh hasil akhiruntuk dilaksanakan. Kesalahan dalampengambilan keputusan bisa berdampakkepada kerugian. Misal dalam perusahaan,keputusan yang diambil oleh pimpinanperusahaan merupakan hasil pemikiran yangharus dilaksanan oleh bawahannya ataumereka yang harus dilaksanakan olehbawahannya atau mereka yangbersangkutan dengan organisasi yang diapimpin.
PEMBAHASAN
Salah satu algoritma yang digunakan untukmembangun pohon keputusan yang berbasisalgoritma induksi pohon keputusan yaituC4.5. Algoritma C4.5 merupakan algoritmayang digunakan untuk membentuk pohonkeputusanAlgoritma Decision.
Secara umum algoritma C4.5 untukmembangun pohon keputusan adalahsebagai berikut:1. Pilih atribut sebagai akar.
2. Buat cabang untuk masing-masing nilai
3. Bagi kasus dalam cabang.
4.Ulangi proses untuk masing-masingcabang sampai semua kasus pada cabangmemiliki kelas yang sama.
Untuk memilih atribut sebagai akar,didasarkan pada nilai gain tertinggi dariatribut-atribut yang ada.Untuk menghitunggain digunakan rumus seperti tertera dalamRumus 1 (Craw, S., ---).
Dengan :S : Himpunan kasus
A : Atributn : Jumlah partisi atribut A|Si| : Jumlah kasus pada partisi ke i|S| : Jumlah kasus dalam S
Ada beberapa tahapan dalammembuat sebuah pohon keputusan dalamalgoritma C4.5, Larose yaitu :
1. Mempersiapkan data training. Datatraining biasanya diambil dari data historiyang pernah terjadi sebelumnya ataudisebut data masa lalu dan sudahdikelompokkan dalam kelas-kelastertentu.
2. Menghitung akar dari pohon. Akar akandiambil dari atribut yang akan terpilih,dengan cara menghitung nilai gain darimasing-masing atribut, nilai gain yangpaling tinggi yang akan menjadi akar
pertama. Sebelum menghitung nilai gaindari atribut, hitung dahulu nilai
-
7/25/2019 Decision Tree Berbasis Algoritma
9/14
entropy. Untuk menghitung nilai entropydigunakan rumus :
Dengan :S : Himpunan Kasus
A : Fiturn : Jumlah partisi Spi : Proporsi dari Si terhadap S
Misal kita ambil sebuah kasusmenentukan data UKM yang terdiri dari 15UKM. Data yang akan digunakan dalambentuk pohon keputusan untukmenganalisa UKM survive. Data UKMtersebut selanjutnya akan dilakukan praproses untuk menghasilkan data khususyang siap untuk dibentuk menjadi sebuahpohon keputusan.
Data UKM tersebut terdapat pada table 1berikut, yaitu:
Data pada table 1 sangat banyakdan tidak lengkap dan inkonsistenumumnya terjadi pada setiap database.Data yang tidak lengkap disebabkankarena adanya data yang kosong atauatribut yang salah, sehingga proses data
preprocessing perlu dilakukan sehinggadatabase sesuai dengan ketentuan yangdiperlukan.
Datapreprocessing merupakan halyang penting dalam proses data mining,hal yang termasuk antara lain
B.1. Data Selection
Data UKM tersebut nantinya akan menjadikasus dalam proses operasional datamining. Dari data yang ada, kolom yangdiambil sebagai atribut/variable keputusanadalah survive.sedangkan kolom yang diambil variabelpenentuan dalam pembentukan pohonkeputusan adalah:1. Nama UKM
2. ManajemenDitentukan dari angsuran komulatifUKM dalam periode tersebut, yaitudengan devenisi:a. Manajemen baik jika jumlah
angsurankomulatifnya 18 s/d 24 bulan
b. Manajemen sedang jika jumlah
angsuran komulatifnya 11 s/d 17bulan
c. Manajemen buruk juka jumlahangsuran komulatifnya 0 s/d 10bulan
3. Income (pendapatan)Ditentukan dari jumlah pinjaman,karena melalui jumlah pinjaman dapat
diketahui besar kecilnya income(pendapatan) suatu UKM
4. HutangDapat diketahui dari besar kecilnyatunggakan yang dimiliki UKM
B.2. Data Preprocessing/Data Cleaning
Data cleaning diterapkan untukmenambah isi atribut yang hilang ataukosong, dan merubah data yang tidakkonsisten
-
7/25/2019 Decision Tree Berbasis Algoritma
10/14
1. Data Transformasi
Dalam proses ini, dataditranspormasikan ke dalam bentukyang sesuai untuk proses data mining.
2. Data ReductionReduksi data dilakukan denganmenghilangkan atribut yang tidakdiperlukan sehingga ukuran daridatabase menjadi kecil dan hanyamenyertakan atribut yang diperlukandalam proses data mining, karena akanlebih efisien terhadap data yang lebihkecil.
Masalah klasifikasi berakhirdengan dihasilkan sebuah pengetahuanyang dipresentasikan dalam bentuk
diagram yang biasa disebut pohonkeputusan (decision tree) untukmenentukan UKM survive, kriteria yangdiperhatikan adalah mampunya suatuUKM dalam melunasi angsuran .
Reduksi data dilakukan denganmenghilangkan atribut yang tidakdiperlukan sehingga ukuran dari databasemenjadi kecil dan hanya menyertakanatribut yang diperlukan dalam proses datamining, karena akan lebih efisien terhadapdata yang lebih kecil.
Masalah klasifikasi berakhirdengan dihasilkan sebuah pengetahuanyang dipresentasikan dalam bentukdiagram pohon keputusan (decision tree)untuk menentukan UKM survive, kriteriayang diperhatikan adalah mampunyasuatu UKM dalam melunasi angsuran.Berikut ini data UKM yang dipergunakanuntuk menentukan survive tidaknya suatuUKM, data selengkapnya tampak padatabel 2 berikut ini :
Tabel 2. Tabel data hasil survey
B.3. Mengubah Data Menjadi TreeDalam mengubah data menjadi
tree terlebih dahulu data dinyatakandalam bentuk tabel dengan atribut danrecord. Atribut menyatakan suatuparameter yang dibuat sebagai kriteriadalam pembentukan tree.
B.4. Menentukan Node Terpilih /Menentukan Nilai Atribut
Dalam data sampel tentukan dulunode terpilih, yaitu dengan menghitungnilai informasi gain masing-masing atributuntuk menentukan node terpilih, gunakannilai informasi gain yang paling besar.
dengan menggunakan persamaan -
P(+)log2P(+)-P(-)log2P(-) Dapat dihitungnilai (i) dari seluruh data training:
I = =-(11/10)*LOG((11/10),2)-(89/10)*LOG((89/10),2) = 0,2173
Tabel 3. Tabel nilai atribut
1. Menghitung Nilai AtributManajemen
-
7/25/2019 Decision Tree Berbasis Algoritma
11/14
Adapun untuk menghitung nilaiinformasi dari atribut manajemen adalahsebagai berikut :
Tabel 4. Tabel nilai atribut manajemen
Tabel 5. Parameter dari atributManajemen
q1 =-(2/3)*LOG(2/3)-(1/3)*LOG(1/3) 0.042q2 =-(0/1)*LOG(0/1)-(1/1)*LOG(1/1) 0q3 =-(0/6)*LOG(0/6)-(6/6)*LOG(6/6) 0
2. Menghitung Nilai Informasi AtributIncome (Pendapatan)
Adapun untuk menghitung nilaiinformasi income (pendapatan) adalahsebagai berikut :
Tabel 6. Nilai informasi atribut income(pendapatan}
3. Selanjutnya Menghitung Nilai InformasiAtribut HutangAdapun untuk menghitung nilaiinformasi dari atribut hutang adalah
sebagai berikut:
B.5. Menghitung Nilai Entropy TiapAtributSelanjutnya menghitung nilai entropy tiapatribut, baik entropy atribut manajemen,atribut hutang.Selanjutnya Menghitung Nilai InformasiGain Atribut
1. Menghitung Nilai Informasi GainAtributManajemen
Adapun menghitung nilai informasi gaindari atribut manajemen adalah sebagaiberikut:Gain(Manajemen) = Nilai InformasiSeluruh Data Training - EntropyAtributManajemen
2. Menghitung nilai informasi gain atributincome (pendapatan)
Adapun menghitung nilai informasi gain
dari atribut manajemen adalah sebagaiberikut:Gain(Manajemen) = Nilai InformasiSeluruh Data Training - EntropyAtributManajemen
3. Menghitung nilai informasi gain atributincome (pendapatan)
-
7/25/2019 Decision Tree Berbasis Algoritma
12/14
Adapun menghitung nilai informasi gaindari atribut hutang adalah sebagai berikut:Gain(Hutang) = Nilai Informasi SeluruhData Training - EntropyAtribut Hutang
B.6. Menyusun Tree AwalSetelah nilai informasi selesai
dihitung,maka ambilah nilai informasi gainterbesar dari beberapa atribut, kemudiandijadilkan sebagai node awal.
Node berikutnya dapat dipilih padabagian yang mempunyai nilai + dan -,pada kasus diatas hanya income =sedang dan tinggi yang memiliki nilai +dan nilai -, Maka semua pasti mempunyaiinternal node. Untuk menyusun internalnode,ini dilakukan satu persatu.
B.7. Penentuan Internal Node Untuki ncome, tinggi dan sedang
Tabel 7. Penentuan Internal Node
Untuk menentukan node untukincome sedang dan tinggi dapat
digunakan persamaan: -P(+)log2P(+)-P(-
)log2P(-) dapat dihitung nilai informasi (i)dari seluruh data training : IKemudian setelah mendapat hasil nilai
informasi (i) untuk income, selanjutnyadiperlukan perhitungan untuk atribut yangtersisa yaitu atribut manajemen danatribut hutang.
B.8.Menyusun Tree LanjutanDari tabel 3.10 dapat diketahui
bahwa atribut dan entropy rata-rataterkecil adalah atribut manajemen dengannilai gain -2.49, sehingga atribut survivediplih sebagai node selanjutnya atau nodekedua. Dengan demikian nilai dapat
menjadi node cabang dari nilai atributhutang =
-
7/25/2019 Decision Tree Berbasis Algoritma
13/14
Dengan memperhatikan pohonkeputusan pada gambar 3.5, diketahuibahwa semua kasus sudah masuk dalamkelas.Dengan demikian, pohon keputusanpada gambar 3.5 merupakan pohonkeputusan terakhir yang terbentuk.
B.10.Mengubah Tree Menjadi Rule
Dengan memperhatikan pohonkeputusan pada gambar 3.5 diketahuibahwa pohon keputusan telahterbentuk.Dan setelah didapatkan treeakhirnya kemudian diubah menjadi rule.Berikut ini adalah bentuk tree yang diubahmenjadi rule:R1 :if income = rendah THEN Survive =tidak
R2 :if income = Sedang ^ manajemen=buruk ^THEN Survive = TidakR3 :if income= sedang ^ manajemen =sedang^THEN Survive = tidakR4 :if income = sedang ^ manajemen =baik^THEN Survive = yaR5 :if income = tinggi ^ hutang =tinggi^THEN Survive = tidakR6 :if income = tinggi ^ hutang =rendah^THEN Survive = ya
Berikut ini adalah bentuk
keterangan umumnya dari rule yangsudah disederhanakan adalah sebagaiberikut:R1= Jika income = sedang danmanajemen = buruk maka survive tidakR2 =Jika income = sedang danmanajemen = sedang maka survive tidakR3 = Jika income = sedang danmanajemen = baik maka survive yaR4 = Jika income rendah maka survivetidak
R5 = Jika income = tinggi dan hutang =tinggi maka survive tidakR6 = Jika income = tinggi dan hutang =rendah maka survive ya
KESIMPULAN
Pohon keputusan merupakansistem yang dikembangkan untukmembantu mencari dan membuatkeputusan untuk suatu permasalahan dandengan memperhitungkan berbagaimacam faktor yang ada di dalam lingkupmasalah tersebut.
Dengan pohon keputusan,manusia dapat dengan mudah melihatmengidentifikasi dan melihat hubunganantara faktor-faktor yang mempengaruhisuatu masalah dan dapat mencaripenyelesaian terbaik denganmemperhitungkan faktor-faktor tersebut.
Pohon keputusan ini juga dapatmenganalisa nilai resiko dan nilai suatuinformasi yang terdapat dalam suatualternatif pemecahan masalah. Perananpohon keputusan ini sebagai alat bantudalam mengambil keputusan yang telahdikembangkan oleh manusia sejakperkembangan teori pohon yangdilandaskan pada teori graf. Kegunaanpohon keputusan yang sangat banyak inimembuatnya telah dimanfaatkan olehmanusia dalam berbagai macam sistem
pengambilan keputusan.
D. DAFTAR PUSTAKA
Hermawati. 2009.Data Mining. ANDIhttp://www.ilmukomputer.comKusrini. 2006. Sistem Pakar Teori dan
Aplikasi. Yogyakarta: Andi Offset.Pramudiono, Iko. Pengantar Data Mining:Menambang Permata Pengetahuan diGunung Data.
Tata Sutabri, S,Kom., MKom. 2003.Sistem Informasi Manajemen :ANDI.
-
7/25/2019 Decision Tree Berbasis Algoritma
14/14
DECISION TREE BERBASIS ALGORITMA UNTUK
PENGAMBILAN KEPUTUSAN
Anggota:
Achmad Badarman (14158004)
Ahmad Nur Ihsan (14158004)
Maulana Hasanudin (14158023)
Muhammad Rizky (14158028)
Valentino Wijaya (14158047)
Zen Ahmad Fauzi (14158050)
Kelas D
STIKOM BINANIAGA
BOGOR
2016