decision tree berbasis algoritma

Upload: ihsan

Post on 28-Feb-2018

244 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/25/2019 Decision Tree Berbasis Algoritma

    1/14

    DECISION TREE BERBASIS ALGORITMA UNTUK

    PENGAMBILAN KEPUTUSAN

    Achmad Badarman#1, Ahmad Nur Ihsan#2,Maulana Hasanudin#3,Muhammad Rizky#4,Valentino Wijaya#5,Zen Ahmad Fauzi#6

    Program Studi Sistem InformatikaSTIKOM BINANIAGA BOGOR

    Abstrak

    Decision Tree merupakan representasi sederhana dari teknik klasifikasi yang merupakan prosespembelajaran suatu fungsi tujuan yang memetakan tiap himpunan atribut ke satu dari kelas yangdidefenisikan sebelumnya. Pohon keputusan dapat menemukan hubungan tersembunyi antarasejumlah calon variabel input dengan sebuah variabel target. Dan pohon keputusan dapatmemadukan antara eksplorasi data dan pemodelan, sehingga sangat baik sebagai langkah awaldalam proses pemodelan. Dengan kemampuannya untuk mem-break down proses pengambilankeputusan yang kompleks menjadi lebih simple. Dan pengambilan keputusan merupakan suatuproses pemikiran dalam rangka pemecahan suatu masalah untuk memperoleh hasil akhir untukdilaksanakan.

    Kata Kunc i: Data Mining, Decision Tree, Pengambilan Keputusan.

    Abstract

    Decision Tree technique is a simple representation of the classification is the process of learning anobjective function that maps each set of attributes to one of the previously defined classes.Decision tree can find hidden relationships between a number of potential input variables to a target

    variable. And the decision tree can combine data exploration and modeling, so it is good as a firststep in the modeling process. With its ability to break down a complex decision making process tobe more simple. And decision-making is a process of thinking in a problem solving framework forobtaining the final result to be implemented.

    Keywords: Data Mining, Decision Tree, Decision Making.

  • 7/25/2019 Decision Tree Berbasis Algoritma

    2/14

    PENDAHULUAN

    Perkembangan yang cepat dalamteknologi pengumpulan dan penyimpanandata telah memudahkan organisasi untukmengumpulkan sejumlah data berukuran

    besar sehingga menghasilkan gunung data.Ekstraksi informasi yang berguna darigunung data menjadi pekerjaan yang cukupmenantang.

    Seringkali alat dan teknik analisis datatradisional tidak dapat digunakan dalammengekstrak informasi dari data berukuranbesar. Data mining adalah teknologi yangmerupakan campuran metode-metodeanalisis data dengan algoritme-algoritmeuntuk memproses data berukuran besar.

    Data mining telah banyak diaplikasikandalam berbagai bidang, diantanya dalambidang bisnis dan kedokteran.

    Dalam bidang bisnis, teknik datamining digunakan untuk mendukung cakupanyang luas dari aplikasi-aplikasi bisnisinteligen seperti customer profiling, targetedmarketing, workflow management, storelayout dan fraud detection. Teknik datamining dapat digunakan untuk menjawabpertanyaan bisnis yang penting seperti

    Siapakan pelanggan yang akan palingbanyak mendatangkan keuntungan ? dan Seperti apa perkiraan pendapatanperusahaan tahun depan ?.

    Dalam bidang kedokteran, penelitidalam bidang biomolekuler dapatmenggunakan teknik data mining untukmenganalisis sejumlah besar data genomicyang sekarang ini telah banyak dikumpulkanuntuk menjelaskan struktur dan fungsi gen,memprediksi struktur protein, dan lain-lain.

    1.1 Pengertian Data m ining

    Data mining adalah sebuah prosespercarian secara otomatis informasi yangberguna dalam tempat penyimpanan databerukuran besar. Istilah lain yang seringdigunakan diantaranya knowledge discovery

    (mining) in databases (KDD), knowledgeextraction, data/pattern analysis, dataarcheology, data dredging, informationharvesting, dan business intelligence. Teknikdata mining digunakan untuk memeriksabasis data berukuran besar sebagai carauntuk menemukan pola yang baru danberguna.

    Tidak semua pekerjaan pencarianinformasi dinyatakan sebagai data mining.Sebagai contoh, pencarian record individual

    menggunakan database managementsystem atau pencarian halaman we tertentumelalui kueri ke semua search engine adalahpekerjaan pencarian informasi yang eratkaitannya dengan information retrieval.Teknik-teknik data mining dapat digunakanuntuk meningkatkan kemampuan sistem-sistem information retrieval.

    Data mining adalah bagian integraldari knowledge discovery in databases(KDD). Keseluruhan proses KDD untuk

    konversi raw data ke dalam informasi yangberguna ditunjukkan dalam gambar berikut

  • 7/25/2019 Decision Tree Berbasis Algoritma

    3/14

    Data input dapat disimpan dalam

    berbagai format seperti flat file, spreadsheet,atau tabel-tabel relasional, dan dapatmenempati tempat penyimpanan dataterpusat atau terdistribusi pada banyaktempat.

    Tujuan dari preprocessing adalahmentransformasikan data input mentah kedalam format yang sesuai untuk analisisselanjutnya.

    Langkah-langkah yang terlibat dalampreprocessing data meliputi mengabungkandata dari berbagai sumber, membersihkan(cleaning) data untuk membuang noise danobservasi duplikat, dan menyeleksi record

    dan fitur yang relevan untuk pekerjaan datamining. Karena terdapat banyak caramengumpulkan dan menyimpan data,tahapan preprocessing data merupakanlangkat yang banyak menghabiskan waktudalam KDD.

    Hasil dari data mining sering kalidiintegrasikan dengan decision supportsystem (DSS). Sebagai contoh, dalamaplikasi bisnis informasi yang dihasilkan oleh

    data mining dapat diintegrasikan dengan toolmanajemen kampanye produk sehinggapromosi pemasaran yang efektif yangdilaksanakan dan dapat diuji.

    Integrasi demikian memerlukanlangkah postprocessing yang menjaminbahwa hanya hasil yang valid dan bergunayang akan digabungkan dengan DSS.

    Salah satu pekerjaan danpostprocessing adalah visualisasi yangmemungkinkan analyst untuk mengeksplordata dan hasil data mining dari berbagaisudur pandang.

    Ukuran-ukuran statistik dan metodepengujian hipotesis dapat digunakan selamapostprocessing untuk membuang hasil datamining yang palsu.

    Secara khusus, data mining menggunakanide-ide seperti:

    (1) pengambilan contoh, estimasi, danpengujian hipotesis, dari statistika dan (2)algoritme pencarian, teknik pemodelan, danteori pembelajaran dari kecerdasan buatan,

    pengenalan pola, dan machine learning. Datamining juga telah mengadopsi ide-ide dariarea lain meliputi optimisasi, evolutionarycomputing, teori informasi, pemrosesansinyal, visualisasi dan information retrieval.

    Sejumlah area lain juga memberikan peranpendukung dalam data mining, seperti sistembasis data yang dibutuhkan untukmenyediakan tempat penyimpanan yangefisien, indexing dan pemrosesan kueri.Gambar berikut menunjukkan hubungan datamining dengan area-area lain.

  • 7/25/2019 Decision Tree Berbasis Algoritma

    4/14

    Arsitektur Sistem Data m ining

    Data mining merupakan prosespencarian pengetahuan yang menarik daridata berukuran besar yang disimpan dalambasis data, data warehouse atau tempatpenyimpanan informasi lainnya. Dengan

    demikian arsitektur sistem data miningmemiliki komponen-komponen utama yaitu:

    - Basis data, data warehouse atau tempatpenyimpanan informasi lainnya.

    - Basis data dan data warehouse server.Komponen ini bertanggung jawab dalampengambilan relevant data, berdasarkanpermintaan pengguna.

    - Basis pengetahuan. Komponen inimerupakan domain knowledge yang

    digunakan untuk memandu pencarianatau mengevaluasi pola-pola yangdihasilkan. Pengetahuan tersebut meliputihirarki konsep yang digunakan untukmengorganisasikan atribut atau nilaiatribut ke dalam level abstraksi yangberbeda. Pengetahuan tersebut jugadapat berupa kepercayaan pengguna(user belief), yang dapat digunakan untukmenentukan kemenarikan pola yangdiperoleh. Contoh lain dari domainknowledge adalah threshold dan

    metadata yang menjelaskan data dariberbagai sumber yang heterogen.

    - Data mining engine. Bagian ini merupakankomponen penting dalam arsitektursistem data mining. Komponen ini terdirimodul-modul fungsional data miningseperti karakterisasi, asosiasi, klasifikasi,dan analisis cluster.

    - Modul evaluasi pola. Komponen inimenggunakan ukuran-ukurankemenarikan dan berinteraksi denganmodul data mining dalam pencarian pola-pola menarik. Modul evaluasi pola dapatmenggunakan threshold kemenaikanuntuk mem-filter pola-pola yang diperoleh.

    - Antarmuka pengguna grafis. Modul iniberkomunikasi dengan pengguna dansistem data mining. Melalui modul ini,pengguna berinteraksi dengan sistemmengan menentukan kueri atau task datamining. Antarmuka juga menyediakaninformasi untuk memfokuskan pencariandan melakukan eksplorasi data miningberdasarkan hasil data mining antara.Komponen ini juga memungkinkanpengguna untuk mencari (browse) basis

    data dan skema data warehouse ataustruktur data, evaluasi pola yangdiperoleh dan visualisasi pola dalamberbagai bentuk.

    Arsitektur sebuah sistem data mining dapatdilihat dalam Gambar berikut

  • 7/25/2019 Decision Tree Berbasis Algoritma

    5/14

    Data mining dapat diaplikasikan padaberbagai jenis penyimpanan data sepertibasis data relational, data warehouse,transactional database, object-oriented andobject-relational databases, spatialdatabases, time-series data and temporaldata, text databases and multimedia

    databases, heterogeneous and legacydatabases dan www.

    a. Basis data Relasional

    Basis data relasional merupakankoleksi dari table. Setiap table berisi atribut(field) dan biasanya menyimpan sejumlahbesar tuple (record). Setiap tuple dalam tablerelasional merepesentasikan sebuah objekyang diidentifikasikan oleh kunci unik dandideskripsikan oleh sekumpulan nilai atribut.

    Data relasional dapat diakses oleh kueribasis data yang ditulis dalam bahasa kuerirelasional seperti SQL atau dengan bantuanantarmuka pengguna grafis.

    b. Data warehouse

    Data warehouse merupakan tempatpenyimpanan informasi yang dikumpulkandari berbagai sumber, disimpan dalam skemayang dipersatukan (unified schema) danbiasanya bertempat pada tempatpenyimpanan tunggal. Data warehouse

    dikonstruksi melalui sebuah proses datacleaning, data transformation, dataintegration, data loading dan periodic datarefreshing. Untuk memfasilitasi prosespembuatan keputusan, data dalam datawarehouse diorganisasikan ke dalam subjekutama seperti customer, item, supplier atauaktivitas. Data disimpan untuk menyediakaninformasi dari perspektif sejarah (seperti 5-10tahun yang lalu) dan biasanya data tersebutdiringkas (summarized). Sebagai contoh,daripada menyimpan data rinci dari transaksipenjualan, data warehouse dapat menyimpanringkasan dari transaksi per tipe item untuksetiap toko atau diringkas dalam level yanglebih tinggi seperti daerah pemasaran.

    Data warehouse biasanya dimodelkanoleh struktur basis data multidimensional,dimana setiap dimensi berkaitan dengansebuah atribut atau sekumpulan atributdalam skema, dan setiap sel menyimpan nilaidari ukuran agregasi seperti count dansales_amount. Struktur fisik dari datawarehouse dapat berupa penyimpanan basis

    data relasional atau sebuah kubus datamultidimensional.

    Selain data warehouse, terdapatistilah penyimpanan data yang lain yaitu datamart. Sebuah data warehousemengumpulkan informasi mengenai subjek-

    subjek yang menjangkau seluruh organisasi,dengan demikian cakupannya enterprise-wide. Sedangkan data mart merupakan subbagian dari data warehouse. Fokus data martadalah pada subjek yang dipilih dan dengandemikian cakupannya adalah department-wide.

    c. Basis data Transaksional

    Secara umum, basis datatransaksional terdiri dari sebuah file dimanasetiap record merepresentasikan transaksi.

    Sebuah transaksi biasanya meliputi bilanganidentitas transaksi yang unik (trans_id), dansebuah daftar dari item yang membuattransaksi (seperti item yang dibeli dalamsebuah took). Basis data transaksi dapatmemiliki tabel tambahan, yang mengandunginformasi lain berkaitan dengan penjualanseperti tanggal transaksi, customer IDnumber, ID number dari sales person dandari kantor cabang (branch) dimanapenjualan terjadi.

    Tugas-tugas dalam Data min ing

    Tugas-tugas dalam data mining secaraumum dibagi ke dalam dua kategori utama:

    - Prediktif. Tujuan dari tugas prediktif adalahuntuk memprediksi nilai dari atributtertentu berdasarkan pada nilai dariatribut-atribut lain. Atribut yang diprediksiumumnya dikenal sebagai target atauvariabel tak bebas, sedangkan atribut-atribut yang digunakan untuk membuatprediksi dikenal sebagai explanatory atauvariabel bebas.

    - Deskriptif. Tujuan dari tugas deskriptifadalah untuk menurunkan pola-pola(korelasi, trend, cluster, trayektori, dananomali) yang meringkas hubungan yangpokok dalam data. Tugas data miningdeskriptif sering merupakan penyelidikandan seringkali memerlukan teknikpostprocessing untuk validasi danpenjelasan hasil.

  • 7/25/2019 Decision Tree Berbasis Algoritma

    6/14

    Berikut adalah tugas-tugas dalam datamining:

    - Analisis Asosiasi (Korelasi dan kausalitas)

    Analisis asosiasi adalah pencarianaturan-aturan asosiasi yang menunjukkankondisi-kondisi nilai atribut yang sering

    terjadi bersama-sama dalam sekumpulandata. Analisis asosiasi sering digunakanuntuk menganalisa market basket dandata transaksi.

    Aturan-aturan asosiasi memiliki bentuk XY, bahwa A1 A2 Am B1 B2 Bn, dimana Ai (untuk i = 1, 2,, m) dan Bj (untuk j = 1, 2, ,n) adalahpasangan-pasangan nilai atribut. Aturanasosiasi X Y diinterpretasikan sebagaituple-tuple basis data yang memenuhi

    kondisi-kondisi dalam X juga mungkinmemenuhi kondisi dalam Y.

    Contoh dari aturan asosiasi adalah

    age(X, 20..29) ^ income(X, 20..29K) buys(X, PC) [support = 2%,confidence = 60%]

    contains(T, computer) contains(x,software) [1%, 75%]

    - Klasifikasi dan Prediksi

    Klasifikasi adalah proses menemukanmodel (fungsi) yang menjelaskan danmembedakan kelas-kelas atau konsep,dengan tujuan agar model yang diperolehdapat digunakan untuk memprediksikankelas atau objek yang memiliki label kelastidak diketahui. Model yang turunkandidasarkan pada analisis dari trainingdata (yaitu objek data yang memiliki labelkelas yang diketahui). Model yangditurunkan dapat direpresentasikan dalamberbagai bentuk seperti aturan IF-THENklasifikasi, pohon keputusan, formulamatematika atau jaringan syarf tiruan.

    Dalam banyak kasus, pengguna inginmemprediksikan nilai-nilai data yang tidaktersedia atau hilang (bukan label darikelas). Dalam kasus ini biasanya nilaidata yang akan diprediksi merupakandata numeric. Kasus ini seringkali dirujuksebagai prediksi. Di samping itu, prediksilebih menekankan pada identifikasi trenddari distribusi berdasarkan pada data

    yang tersedia.

    - Analisis Cluster

    Tidak seperti klasifikasi dan prediksi, yangmenganalisis objek data yang diberi labelkelas, clustering menganalisis objek datadimana label kelas tidak diketahui.Clustering dapat digunakan untuk

    menentukan label kelas tidak diketahuidengan cara mengelompokkan data untukmembentuk kelas baru. Sebabai contohclustering rumah untuk menemukan poladistribusinya. Prinsip dalam clusteringadalah memaksimumkan kemiripan intra-class dan meminimumkan kemiripaninterclass.

    - Analisis Outlier

    Outlier merupakan objek data yang tidakmengikuti perilaku umum dari data.

    Outlier dapat dianggap sebagai noiseatau pengecualian. Analisis data outlierdinamakan outlier mining. Teknik iniberguna dalam fraud detection dan rareevents analysis.

    - Analisis Trend dan Evolusi

    Analisis evolusi data menjelaskan danmemodelkan trend dari objek yangmemiliki perilaku yang berubah setiapwaktu. Teknik ini dapat meliputikarakterisasi, diskriminasi, asosiasi,klasifikasi, atau clustering dari data yangberkaitan dengan waktu.

    Data mining merupakan bidang interdisplin.Disiplin ilmu ini banyak dipengaruhi olehdisiplin sistem basis data, statistika, ilmuinformasi, mesin pembelajaran, danvisualisasi. Sistem data mining dapatdiklasifsikasikan berdasarkan beberapakategori, yaitu

    - Klasifikasi berdasarkan data yang akan di-mine seperti relational, transactional,object-oriented, object-relational, spatial,time-series, text, multi-media dan www.

    - Klasifikasi berdasarkan pengetahuan yangakan di-mine, yaitu berdasarkanfungsionalitas data mining sepertikarakterisasi, diskriminasi, asosiasi,klasifikasi, clustering, analisis outlier dananalisis evolusi. Sistem data mining yangkomprehensif biasanya menyediakan

    beberapa fungsi-fungsi data mining.

  • 7/25/2019 Decision Tree Berbasis Algoritma

    7/14

    - Klasifikasi berdasarkan teknik yang akandigunakan seperti database-oriented,data warehouse (OLAP), machinelearning, Statistics, Visualization danneural network.

    - Klasifikasi berdasarkan aplikasi yangdiadaptasi, sebagai contoh system datamining untuk keuangan, telekomunikasi,DNA, dan e-mail.

    Data Mining merupakan proses yangdiulang dan memerlukan interaksi manusiadalam prosesnya untuk menemukan polaatau model baru yang dapat digeneralisasiuntuk masa yang akan datang, danbermanfaat jika digunakan untuk melakukansuatu tindakan. Data mining berisi pencarianpola yang diinginkan dalam database besaruntuk membantu dalam pengambilankeputusan diwaktu yang akan datang. Pola-pola ini dikenali oleh perangkat tertentu yangdapat memberikan suatu analisa data yang

    kemudian dapat dipelajari dengan teliti danbermanfaat. Dan salah satu teknik daribagian data mining adalah klasifikasi, yaitumenentukan sebuah record data baru kesalah satu dari beberapa kategori atau klasyang yang telah difenisikan sebelumnya. Dansalah satu bagian teknik dari klasifikasiadalah pohon keputusan.

    Gambar 1. Tahapan Proses KnowledgeDiscovery in Databases

    Pohon Keputusan merupakanrepresentasi sederhana dari teknik klasifikasiyang merupakan proses pembelajaran suatu

    fungsi tujuan yang memetakan tiap himpunanatribut ke satu dari kelas yang didefenisikansebelumnya. Pohon keputusan merupakansalah satu metode klasifikasi yang palingpopuler karena mudah untuk diinterpretasioleh manusia. Dengan kemampuannya untukmem-break down proses pengambilankeputusan yang kompleks menjadi lebihsimple. Pohon keputusan juga dapatmenemukan hubungan tersembunyi antarasejumlah calon variabel input dengan sebuahvariabel target. Selain itu pohon keputusan

    dapat memadukan antara eksplorasi datadan pemodelan, sehingga sangat baiksebagai langkah awal dalam prosespemodelan.

    Gambar 2. Blok Diagram Model Klasifikasi

    Dengan menggunakan metode pohonkeputusan dapat menghindari munculnyapermasalahan dengan menggunakan kriteriayang jumlahnya lebih sedikit pada setiapnode internal tanpa banyak mengurangikualitas keputusan yang dihasilkan. Dankekurangan dari pohon keputusandiantaranya adalah terjadi overlap terutamaketika kelas-kelas dan kriteria yangdigunakan jumlahnya sangat banyak dan

    kualitas hasil keputusan yang didapatkansangat tergantung pada bagaimana pohontersebut didesain.

  • 7/25/2019 Decision Tree Berbasis Algoritma

    8/14

    Gambar 3. Algoritma Induksi PohonKeputusan

    Pengambilan Keputusan adalah suatuproses pemikiran dalam rangka pemecahansuatu masalah untuk memperoleh hasil akhiruntuk dilaksanakan. Kesalahan dalampengambilan keputusan bisa berdampakkepada kerugian. Misal dalam perusahaan,keputusan yang diambil oleh pimpinanperusahaan merupakan hasil pemikiran yangharus dilaksanan oleh bawahannya ataumereka yang harus dilaksanakan olehbawahannya atau mereka yangbersangkutan dengan organisasi yang diapimpin.

    PEMBAHASAN

    Salah satu algoritma yang digunakan untukmembangun pohon keputusan yang berbasisalgoritma induksi pohon keputusan yaituC4.5. Algoritma C4.5 merupakan algoritmayang digunakan untuk membentuk pohonkeputusanAlgoritma Decision.

    Secara umum algoritma C4.5 untukmembangun pohon keputusan adalahsebagai berikut:1. Pilih atribut sebagai akar.

    2. Buat cabang untuk masing-masing nilai

    3. Bagi kasus dalam cabang.

    4.Ulangi proses untuk masing-masingcabang sampai semua kasus pada cabangmemiliki kelas yang sama.

    Untuk memilih atribut sebagai akar,didasarkan pada nilai gain tertinggi dariatribut-atribut yang ada.Untuk menghitunggain digunakan rumus seperti tertera dalamRumus 1 (Craw, S., ---).

    Dengan :S : Himpunan kasus

    A : Atributn : Jumlah partisi atribut A|Si| : Jumlah kasus pada partisi ke i|S| : Jumlah kasus dalam S

    Ada beberapa tahapan dalammembuat sebuah pohon keputusan dalamalgoritma C4.5, Larose yaitu :

    1. Mempersiapkan data training. Datatraining biasanya diambil dari data historiyang pernah terjadi sebelumnya ataudisebut data masa lalu dan sudahdikelompokkan dalam kelas-kelastertentu.

    2. Menghitung akar dari pohon. Akar akandiambil dari atribut yang akan terpilih,dengan cara menghitung nilai gain darimasing-masing atribut, nilai gain yangpaling tinggi yang akan menjadi akar

    pertama. Sebelum menghitung nilai gaindari atribut, hitung dahulu nilai

  • 7/25/2019 Decision Tree Berbasis Algoritma

    9/14

    entropy. Untuk menghitung nilai entropydigunakan rumus :

    Dengan :S : Himpunan Kasus

    A : Fiturn : Jumlah partisi Spi : Proporsi dari Si terhadap S

    Misal kita ambil sebuah kasusmenentukan data UKM yang terdiri dari 15UKM. Data yang akan digunakan dalambentuk pohon keputusan untukmenganalisa UKM survive. Data UKMtersebut selanjutnya akan dilakukan praproses untuk menghasilkan data khususyang siap untuk dibentuk menjadi sebuahpohon keputusan.

    Data UKM tersebut terdapat pada table 1berikut, yaitu:

    Data pada table 1 sangat banyakdan tidak lengkap dan inkonsistenumumnya terjadi pada setiap database.Data yang tidak lengkap disebabkankarena adanya data yang kosong atauatribut yang salah, sehingga proses data

    preprocessing perlu dilakukan sehinggadatabase sesuai dengan ketentuan yangdiperlukan.

    Datapreprocessing merupakan halyang penting dalam proses data mining,hal yang termasuk antara lain

    B.1. Data Selection

    Data UKM tersebut nantinya akan menjadikasus dalam proses operasional datamining. Dari data yang ada, kolom yangdiambil sebagai atribut/variable keputusanadalah survive.sedangkan kolom yang diambil variabelpenentuan dalam pembentukan pohonkeputusan adalah:1. Nama UKM

    2. ManajemenDitentukan dari angsuran komulatifUKM dalam periode tersebut, yaitudengan devenisi:a. Manajemen baik jika jumlah

    angsurankomulatifnya 18 s/d 24 bulan

    b. Manajemen sedang jika jumlah

    angsuran komulatifnya 11 s/d 17bulan

    c. Manajemen buruk juka jumlahangsuran komulatifnya 0 s/d 10bulan

    3. Income (pendapatan)Ditentukan dari jumlah pinjaman,karena melalui jumlah pinjaman dapat

    diketahui besar kecilnya income(pendapatan) suatu UKM

    4. HutangDapat diketahui dari besar kecilnyatunggakan yang dimiliki UKM

    B.2. Data Preprocessing/Data Cleaning

    Data cleaning diterapkan untukmenambah isi atribut yang hilang ataukosong, dan merubah data yang tidakkonsisten

  • 7/25/2019 Decision Tree Berbasis Algoritma

    10/14

    1. Data Transformasi

    Dalam proses ini, dataditranspormasikan ke dalam bentukyang sesuai untuk proses data mining.

    2. Data ReductionReduksi data dilakukan denganmenghilangkan atribut yang tidakdiperlukan sehingga ukuran daridatabase menjadi kecil dan hanyamenyertakan atribut yang diperlukandalam proses data mining, karena akanlebih efisien terhadap data yang lebihkecil.

    Masalah klasifikasi berakhirdengan dihasilkan sebuah pengetahuanyang dipresentasikan dalam bentuk

    diagram yang biasa disebut pohonkeputusan (decision tree) untukmenentukan UKM survive, kriteria yangdiperhatikan adalah mampunya suatuUKM dalam melunasi angsuran .

    Reduksi data dilakukan denganmenghilangkan atribut yang tidakdiperlukan sehingga ukuran dari databasemenjadi kecil dan hanya menyertakanatribut yang diperlukan dalam proses datamining, karena akan lebih efisien terhadapdata yang lebih kecil.

    Masalah klasifikasi berakhirdengan dihasilkan sebuah pengetahuanyang dipresentasikan dalam bentukdiagram pohon keputusan (decision tree)untuk menentukan UKM survive, kriteriayang diperhatikan adalah mampunyasuatu UKM dalam melunasi angsuran.Berikut ini data UKM yang dipergunakanuntuk menentukan survive tidaknya suatuUKM, data selengkapnya tampak padatabel 2 berikut ini :

    Tabel 2. Tabel data hasil survey

    B.3. Mengubah Data Menjadi TreeDalam mengubah data menjadi

    tree terlebih dahulu data dinyatakandalam bentuk tabel dengan atribut danrecord. Atribut menyatakan suatuparameter yang dibuat sebagai kriteriadalam pembentukan tree.

    B.4. Menentukan Node Terpilih /Menentukan Nilai Atribut

    Dalam data sampel tentukan dulunode terpilih, yaitu dengan menghitungnilai informasi gain masing-masing atributuntuk menentukan node terpilih, gunakannilai informasi gain yang paling besar.

    dengan menggunakan persamaan -

    P(+)log2P(+)-P(-)log2P(-) Dapat dihitungnilai (i) dari seluruh data training:

    I = =-(11/10)*LOG((11/10),2)-(89/10)*LOG((89/10),2) = 0,2173

    Tabel 3. Tabel nilai atribut

    1. Menghitung Nilai AtributManajemen

  • 7/25/2019 Decision Tree Berbasis Algoritma

    11/14

    Adapun untuk menghitung nilaiinformasi dari atribut manajemen adalahsebagai berikut :

    Tabel 4. Tabel nilai atribut manajemen

    Tabel 5. Parameter dari atributManajemen

    q1 =-(2/3)*LOG(2/3)-(1/3)*LOG(1/3) 0.042q2 =-(0/1)*LOG(0/1)-(1/1)*LOG(1/1) 0q3 =-(0/6)*LOG(0/6)-(6/6)*LOG(6/6) 0

    2. Menghitung Nilai Informasi AtributIncome (Pendapatan)

    Adapun untuk menghitung nilaiinformasi income (pendapatan) adalahsebagai berikut :

    Tabel 6. Nilai informasi atribut income(pendapatan}

    3. Selanjutnya Menghitung Nilai InformasiAtribut HutangAdapun untuk menghitung nilaiinformasi dari atribut hutang adalah

    sebagai berikut:

    B.5. Menghitung Nilai Entropy TiapAtributSelanjutnya menghitung nilai entropy tiapatribut, baik entropy atribut manajemen,atribut hutang.Selanjutnya Menghitung Nilai InformasiGain Atribut

    1. Menghitung Nilai Informasi GainAtributManajemen

    Adapun menghitung nilai informasi gaindari atribut manajemen adalah sebagaiberikut:Gain(Manajemen) = Nilai InformasiSeluruh Data Training - EntropyAtributManajemen

    2. Menghitung nilai informasi gain atributincome (pendapatan)

    Adapun menghitung nilai informasi gain

    dari atribut manajemen adalah sebagaiberikut:Gain(Manajemen) = Nilai InformasiSeluruh Data Training - EntropyAtributManajemen

    3. Menghitung nilai informasi gain atributincome (pendapatan)

  • 7/25/2019 Decision Tree Berbasis Algoritma

    12/14

    Adapun menghitung nilai informasi gaindari atribut hutang adalah sebagai berikut:Gain(Hutang) = Nilai Informasi SeluruhData Training - EntropyAtribut Hutang

    B.6. Menyusun Tree AwalSetelah nilai informasi selesai

    dihitung,maka ambilah nilai informasi gainterbesar dari beberapa atribut, kemudiandijadilkan sebagai node awal.

    Node berikutnya dapat dipilih padabagian yang mempunyai nilai + dan -,pada kasus diatas hanya income =sedang dan tinggi yang memiliki nilai +dan nilai -, Maka semua pasti mempunyaiinternal node. Untuk menyusun internalnode,ini dilakukan satu persatu.

    B.7. Penentuan Internal Node Untuki ncome, tinggi dan sedang

    Tabel 7. Penentuan Internal Node

    Untuk menentukan node untukincome sedang dan tinggi dapat

    digunakan persamaan: -P(+)log2P(+)-P(-

    )log2P(-) dapat dihitung nilai informasi (i)dari seluruh data training : IKemudian setelah mendapat hasil nilai

    informasi (i) untuk income, selanjutnyadiperlukan perhitungan untuk atribut yangtersisa yaitu atribut manajemen danatribut hutang.

    B.8.Menyusun Tree LanjutanDari tabel 3.10 dapat diketahui

    bahwa atribut dan entropy rata-rataterkecil adalah atribut manajemen dengannilai gain -2.49, sehingga atribut survivediplih sebagai node selanjutnya atau nodekedua. Dengan demikian nilai dapat

    menjadi node cabang dari nilai atributhutang =

  • 7/25/2019 Decision Tree Berbasis Algoritma

    13/14

    Dengan memperhatikan pohonkeputusan pada gambar 3.5, diketahuibahwa semua kasus sudah masuk dalamkelas.Dengan demikian, pohon keputusanpada gambar 3.5 merupakan pohonkeputusan terakhir yang terbentuk.

    B.10.Mengubah Tree Menjadi Rule

    Dengan memperhatikan pohonkeputusan pada gambar 3.5 diketahuibahwa pohon keputusan telahterbentuk.Dan setelah didapatkan treeakhirnya kemudian diubah menjadi rule.Berikut ini adalah bentuk tree yang diubahmenjadi rule:R1 :if income = rendah THEN Survive =tidak

    R2 :if income = Sedang ^ manajemen=buruk ^THEN Survive = TidakR3 :if income= sedang ^ manajemen =sedang^THEN Survive = tidakR4 :if income = sedang ^ manajemen =baik^THEN Survive = yaR5 :if income = tinggi ^ hutang =tinggi^THEN Survive = tidakR6 :if income = tinggi ^ hutang =rendah^THEN Survive = ya

    Berikut ini adalah bentuk

    keterangan umumnya dari rule yangsudah disederhanakan adalah sebagaiberikut:R1= Jika income = sedang danmanajemen = buruk maka survive tidakR2 =Jika income = sedang danmanajemen = sedang maka survive tidakR3 = Jika income = sedang danmanajemen = baik maka survive yaR4 = Jika income rendah maka survivetidak

    R5 = Jika income = tinggi dan hutang =tinggi maka survive tidakR6 = Jika income = tinggi dan hutang =rendah maka survive ya

    KESIMPULAN

    Pohon keputusan merupakansistem yang dikembangkan untukmembantu mencari dan membuatkeputusan untuk suatu permasalahan dandengan memperhitungkan berbagaimacam faktor yang ada di dalam lingkupmasalah tersebut.

    Dengan pohon keputusan,manusia dapat dengan mudah melihatmengidentifikasi dan melihat hubunganantara faktor-faktor yang mempengaruhisuatu masalah dan dapat mencaripenyelesaian terbaik denganmemperhitungkan faktor-faktor tersebut.

    Pohon keputusan ini juga dapatmenganalisa nilai resiko dan nilai suatuinformasi yang terdapat dalam suatualternatif pemecahan masalah. Perananpohon keputusan ini sebagai alat bantudalam mengambil keputusan yang telahdikembangkan oleh manusia sejakperkembangan teori pohon yangdilandaskan pada teori graf. Kegunaanpohon keputusan yang sangat banyak inimembuatnya telah dimanfaatkan olehmanusia dalam berbagai macam sistem

    pengambilan keputusan.

    D. DAFTAR PUSTAKA

    Hermawati. 2009.Data Mining. ANDIhttp://www.ilmukomputer.comKusrini. 2006. Sistem Pakar Teori dan

    Aplikasi. Yogyakarta: Andi Offset.Pramudiono, Iko. Pengantar Data Mining:Menambang Permata Pengetahuan diGunung Data.

    Tata Sutabri, S,Kom., MKom. 2003.Sistem Informasi Manajemen :ANDI.

  • 7/25/2019 Decision Tree Berbasis Algoritma

    14/14

    DECISION TREE BERBASIS ALGORITMA UNTUK

    PENGAMBILAN KEPUTUSAN

    Anggota:

    Achmad Badarman (14158004)

    Ahmad Nur Ihsan (14158004)

    Maulana Hasanudin (14158023)

    Muhammad Rizky (14158028)

    Valentino Wijaya (14158047)

    Zen Ahmad Fauzi (14158050)

    Kelas D

    STIKOM BINANIAGA

    BOGOR

    2016