decision tree

43
PENERAPAN TEKNIK KLASIFIKASI DENGAN ALGORITME DECISION TREE UNTUK DATA TANAMAN PANGAN DAN HORTIKULTURA YULIA PURNAMA SARI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2006

Upload: fendhyyulianto

Post on 07-Aug-2015

130 views

Category:

Documents


6 download

DESCRIPTION

Scripsi

TRANSCRIPT

Page 1: Decision Tree

PENERAPAN TEKNIK KLASIFIKASI DENGAN ALGORITME DECISION TREE UNTUK DATA TANAMAN PANGAN DAN

HORTIKULTURA

YULIA PURNAMA SARI

DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR BOGOR

2006

Page 2: Decision Tree

ABSTRAK

Yulia Purnama Sari. Penerapan Teknik Klasifikasi dengan Algoritma Decision Tree pada Data Tanaman Pangan dan Hortikultura. Dibimbing oleh IMAS S. SITANGGANG dan RINDANG KARYADIN.

Data sektor pertanian yang dimiliki oleh Departemen Pertanian selalu bertambah setiap tahun sehingga menghasilkan kumpulan data berukuran besar. Data tersebut terdiri dari 18 subsektor dan 16 atribut, termasuk di dalamnya data subsektor tanaman pangan dan hortikultura. Data tanaman pangan dan hortikultura terdi ri dari 109.037 record. Dalam penelitian yang telah dilakukan, diaplikasikan salah satu teknik data mining, yaitu klasifikasi dengan menggunakan algoritma decision tree, untuk melihat pola yang ada dalam data tanaman pangan dan hortikultura .

Decision tree merupakan algoritma dalam klasifikasi yang paling banyak digunakan. Algoritma ini terdiri dari 3 (tiga) tahapan, yaitu pembentukan pohon; pemangkasan pohon; dan pembentukan aturan (IF-AND-THEN). Data tanaman pangan dan hortikultura dibagi menjadi 8 data set berdasarkan kelompok tahun yang terbagi per lima tahun, yaitu bdspT1 sampai dengan bdspT8, yang masing-masing terdiri dari atribut komoditas; lokasi; produktivitas; dan luas panen. Setiap data set tersebut dibagi menjadi 75% training set dan 25% test set.

Hasil percobaan menunjukan bahwa rasio aturan terhadap training set yang terbesar terdapat pada tabel bdspT2 (kelompok tahun 1971-1975) sebesar 33.73% dan nilai terkecil terdapat pada tabel bdspT7 (kelompok tahun 1996-2000) sebesar 17.81%. Hasil evaluasi model menggunakan percobaan dengan masukan berupa data acak diperoleh nilai akurasi terkecil yang berasal dari data acak terdapat pada tabel bdspT1 (kelompok tahun 1966-1970) yaitu 10.10% dan nilai akurasi terbesar pada tabel bdspT7 (kelompok tahun 1996-2000) yaitu 67.17%.

Kata kunci : Data mining, klasifikasi, decision tree

Page 3: Decision Tree

PENERAPAN TEKNIK KLASIFIKASI DENGAN ALGORITME DECISION TREE UNTUK DATA TANAMAN PANGAN DAN

HORTIKULTURA

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

YULIA PURNAMA SARI

DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR BOGOR

2006

Page 4: Decision Tree

Judul Skripsi : PENERAPAN TEKNIK KLASIFIKASI DENGAN ALGORITME DECISION TREE PADA DATA TANAMAN PANGAN DAN HORTIKULTURA

Nama : Yulia Purnama Sari NRP : G64101031

Menyetujui:

Pembimbing I,

Imas S.Sitanggang, S.Si, M.Kom NIP 132206235

Pembimbing II,

Rindang Karyadin, S.T, M.Kom NIP 132311915

Mengetahui: Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Dr. Ir. Yonny Koesmaryono, M.S. NIP 131473999

Tanggal Lulus :

Page 5: Decision Tree

PRAKATA

Puji syukur kepada Allah SWT karena atas limpahan rahmat dan karunia-Nya sehingga penulis

dapat dengan baik menyelesaikan tugas akhir dengan judul Penerapan Teknik Klasifikasi dengan Algoritma Decision Tree pada Data Tanaman Pangan dan Holtikultura.

Penulis mengucapkan terima kasih kepada semua pihak yang telah banyak membantu dalam penyelesaian tugas akhir ini dari awal hingga akhir penulisan laporan ini, terutama kepada:

1) Mama, Papa, Mba Vera, Apria, dan Ryo atas kasih sayang, perhatian, dukungan, dan pengertiannya selama ini .

2) Ibu Imas S Sitanggang, selaku Pembimbing I, atas bantuan dan sarannya selama tahap penyelesaian tugas akhir ini.

3) Bapak Rindang Karyadin, selaku Pembimbing II, atas kritik dan masukan yang berkenaan dengan tulisan pada tugas akhir ini.

4) Bapak Hari Agung A, selaku Penguji dalam tugas akhir ini

5) Bapak Ibrahim dan Bapak Nugroho dari Pusat Data dan Informasi Pertanian Departemen Pertanian atas bantuannya untuk memperoleh data yang dibutuhkan untuk tugas akhir ini.

6) Laura, Sifil, dan Euis atas dukungan, doa, perhatian serta persahabatan yang tulus selama penulis berada di Ilkom IPB.

7) Khamam, Inu, Dyah, Aisyah, Liesca dan Sanda yang senantiasa membantu dalam penyelesaian tugas akhir ini.

8) Teman–teman Ilkom angkatan 38 yang selama ini telah banyak membantu, memberikan kesenangan, pengalaman dan kebersamaan selama masa kuliah. Semoga kita tetap terus saling berhubungan.

Semoga tulisan ini dapat bermanfaat.

Bogor, April 2006

Yulia Purnama Sari

Page 6: Decision Tree

RIWAYAT HIDUP

Penulis dilahirkan pada tanggal 25 Agustus 1983 di Jakarta. Penulis adalah anak kedua dari

tiga bersaudara pasangan Hartono dan Dyah suwarni. Pada tahun 2001 penulis menyelesaikan pendidikan SMU di SMU Negeri 71 Jakarta Timur. Pada tahun yang sama penulis diterima sebagai mahasiswa di Jurusan Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI). Pada akhir masa kuliah, penulis diberi kesempatan untuk melakukan Praktik Kerja Lapangan di Pusat Data dan Informasi Pertanian Departemen Pertanian.

Page 7: Decision Tree

DAFTAR ISI

Halaman

DAFTAR ISI................................................................................................................................. iii

DAFTAR TABEL......................................................................................................................... iv

DAFTAR GAMBAR..................................................................................................................... v

DAFTAR LAMPIRAN................................................................................................................. vi

PENDAHULUAN 1.1 Latar Belakang............................................................................................................. 1

1.2 Tujuan.......................................................................................................................... 1

1.3 Ruang Lingkup............................................................................................................ 1

TINJAUAN PUSTAKA

2.1 Data Mining................................................................................................................. 1

2.2 Karakteristik pada Data Mining................................................................................... 2

2.3 Teknik p ada Data Mining............................................................................................ 2

2.4 Algoritme K-Means..................................................................................................... 3

2.5 Decision Tree........................ ........................................................................................ 3

2.6 Algoritma C5.0............................................................................................................. 4

METODE PENELITIAN 3.1 Proses Dasar Sistem...................................................................................................... 6

3.2 Lingkungan Pengembangan.......................................................................................... 7

HASIL DAN PEMBAHASAN

4.1 Pembersihan Data (Data Selection)............................................................................... 7

4.2 Pemilihan Data ( Data Cleaning)................................................................................... 7

4.3 Pengurangan Data (Data Reduction)............................................................................ 7

4.4 Data Mining ................................................................................................................. 8

4.5 Evaluasi Data Keluaran................................................................................................10

PENUTUP

5.1 Kesimpulan...................................................................................................................11

5.2 Saran............................................................................................................................. 11

DAFTAR PUSTAKA ....................................................................................... ............................ 12

LAMPIRAN.................................................................................................................................. 13

Page 8: Decision Tree

DAFTAR TABEL

Halaman

1 Jumlah cluster dan nilai SSE pada atribut produksi…..... .........................................................8

2 Nilai yang terdapat pada kelas produksi....................................................................................8

3 Tabel perhitungan information gain..........................................................................................8

4 Generalisasi atribut tahun..........................................................................................................8

5 Generalisasi atribut produktivitas..............................................................................................8

6 Generalisasi atribut luas panen…………………......................................................................9

7 Nama dan ukuran data set…………………………………………………………………….9

8 Jumlah record training set dan test set.....................................................................................9

9 Rasio aturan pada training set .................................................................................................10

DAFTAR GAMBAR

Halaman

1 Tahapan dalam KDD................................................................................................................6

2 Pohon yang terbentuk pada tabel bdspT7.................................................................................9

3 Grafik rasio pada delapan tabel bdsp......................................................................................10

4 Grafik perbandingan nilai akurasi...........................................................................................11

DAFTAR LAMPIRAN

Halaman

1 Daftar tabel yang digunakan dalam data warehouse..............................................................14

2 Karakteristik data tanaman pangan dan hortikultura... ..................................................... ......14

3 Atribut pada tabel setelah pembersihan data......................................................................... .15

4 Atribut-atribut dalam tabel yang telah dimodifikasi...............................................................15

5 Aturan yang terbentuk pada tabel bdspT7..............................................................................16

6 Nilai inputan untuk pengujian.................................................................................................27

7 Hasil Pengujian dengan 100 data masukan dengan data acak...............................................32

8 Hasil Pengujian dengan 150 data masukan dengan data acak...............................................32

9 Hasil Pengujian dengan 200 data masukan dengan data acak...............................................32

10 Grafik akurasi dengan 100 data pengujian dengan data acak................................................33

11 Grafik akurasi dengan 150 data pengujian dengan data acak................................................33

12 Grafik akurasi dengan 200 data pengujian dengan data acak................................................33

13 Tampilan modul pengguna........................................... ..........................................................34

Page 9: Decision Tree

PENDAHULUAN 1.1 Latar Belakang

Teknologi komputasi dan media penyimpanan telah memungkinkan manusia untuk mengumpulkan dan menyimpan data dari berbagai sumber dengan jangkauan yang amat luas. Fenomena ini terjadi dalam banyak bidang kehidupan, seperti bisnis, perbankan, pemasaran, produksi dan sains Meskipun teknologi basis data modern telah menghasilkan media penyimpanan yang ekonomis bagi data berukuran besar, teknologi untuk membantu menganalisis, memahami, atau bahkan memvisualisasikan data belum banyak tersedia. Hal inilah yang melatarbelakangi dikembangkannya konsep data mining. Data mining merupakan proses ekstraksi informasi atau pola yang penting atau menarik dari data berukuran besar.

Penumpukan data telah dialami oleh beberapa organisasi termasuk Departemen Pertanian yang telah mengumpulkan data sektor pertanian selama bertahun-tahun. Data tersebut terdiri dari berbagai subsektor, yang salah satunya adalah data tanaman pangan dan hortikultura, dan telah tersimpan sejak tahun 1963. Data yang berjumlah ratusan ribu record tersebut akan terus bertambah jumlahnya setiap saat . Pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai “rich of data but poor of information” karena data yang terkumpul belum dieksplorasi secara optimal. Oleh karena itu, diperlukan suatu cara agar data yang ada dan kaya informasi tersebut dapat di‘tambang’ untuk mencari ‘emas’ dan ‘berlian’, yaitu informasi yang berguna bagi pihak-pihak yang membutuhkan.

Data mining merupakan salah satu tahapan dalam proses Knowledge Discovery in Database (KDD). Teknik-teknik yang dapat digunakan dalam data mining di antaranya klasifikasi dan prediksi, association rule, dan clustering (Han & Kamber 2001). Klasifikasi adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika-maka”, berupa decision tree, formula matematis atau neural network. Metode klasifikasi yang terkenal

dan banyak digunakan adalah decision tree. Metode lainnya adalah Bayesian, neural network, genetic algorithm , fuzzy, case-based reasoning, dan K-nearest neighbor (Aziz et al. 2004). Teknik klasifikasi dapat digunakan untuk menganalisis suatu kasus yang tidak terlihat, seperti mengetahui atau memprediksi apa yang dibutuhkan atau paling diinginkan oleh pengguna.

1.2 Tujuan

Tujuan dari penelitian ini adalah:

1. Menerapkan proses Knowledge Discovery in Database (KDD) untuk mengolah data pada Departemen Pertanian, yaitu data tanaman pangan dan hortikultura.

2. Menerapkan teknik klasifikasi dengan menggunakan metode decision tree yaitu algoritme C5.0 pada data tanaman pangan dan hortikultura.

3. Membentuk suatu aturan yang berasal dari pohon keputusan.

4. Membuat suatu model bantu untuk mempermudah pengguna dalam menentu-kan nilai produksi dari suatu komoditas di wilayah tertentu berdasarkan nilai produktivitas dan luas panennya.

1.3 Ruang Lingkup

Penelitian ini dibatasi pada penggunaan teknik klasifikasi sebagai suatu teknik dalam data mining dengan menggunakan metode decision tree yaitu algoritme C5.0. Data yang digunakan dalam penelitian ini adalah data komoditas pertanian khususnya data tanaman pangan dan hortikultura dengan status angka berupa angka tetap (data berasal dari Badan Pusat Statistik).

TINJAUAN PUSTAKA

2.1 Data Mining

Data mining berarti mencari informasi yang tersembunyi dari suatu data, pola yang tidak diketahui dan aturan baru dalam basis data berukuran besar (Thomas 2004). Konsep ini muncul karena adanya explosion atau penumpukan data yang sangat besar

Page 10: Decision Tree

yang sering dialami oleh suatu organisasi. Secara garis besar data mining dapat dikelompokkan menjadi 2 (dua) kategori utama, yaitu (Tan et al. 2005):

1. Descriptive Mining, yaitu proses untuk menemukan karakteristik penting dari data dalam suatu basis data. Teknik data mining yang termasuk dalam descriptive mining adalah clustering, association, dan sequential mining.

2. Predictive, yaitu proses untuk menemukan pola dari data dengan menggunakan beberapa variabel untuk membuat prediksi variabel lain di masa depan. Teknik yang termasuk dalam predictive mining antara lain klasifikasi, regresi, dan deviasi

Tujuan dari adanya data mining adalah (Thomas 2004):

1. Explanatory, yaitu untuk menjelaskan beberapa kegiatan observasi atau suatu kondisi.

2. Confirmatory, yaitu untuk meng-konfirmasi suatu hipotesis yang telah ada.

3. Exploratory, yaitu untuk menganalisis data baru atau suatu relasi yang janggal.

2.2 Karakteristik Data pada Data Mining

Pada data mining, kualitas data akan mempengaruhi kinerja dari sistem dan mempengaruhi hubungan implisit dari model yang telah dibentuk. Beberapa indikator data yang berkualit as adalah (Kantardzic 2003) :

1. Data akurat. Analisis harus memastikan bahwa nama ditulis dengan baik, setiap kode yang digunakan memiliki batasan atau jarak yang jelas, nilai yang ada lengkap, dan lain sebagainya.

2. Data disimpan sesuai tipe datanya. Penganalisis dapat memastikan bahwa nilai numerik tidak diletakkan pada data karakter dan sebagainya.

3. Data memiliki integritas. Data yang telah ada tidak berubah saat pengguna lain menggunakan data tersebut, menyiapkan prosedur recovery dan data back up.

4. Data konsisten. Tampilan dan isi harus tetap sama setelah dilakukan integrasi dengan sumber data yang lain.

5. Data tidak redundant. Data yang redundant harus diperkecil jumlahnya dan record duplikat harus dibuang.

6. Data memiliki waktu yang jelas. Komponen waktu pada data harus dapat dikenali dengan jelas.

7. Data mudah dipahami. Penamaan yang standar bukan saja perlu, tetapi akan membuat data menjadi lebih mudah dipahami.

8. Data lengkap. Data yang hilang akan mempengaruhi keadaan tabel, sehingga harus dikurangi jumlahnya. Data yang hilang akan mempengaruhi model secara keseluruhan.

2.3 Teknik dalam Data Mining

Teknik-teknik yang dapat digunakan dalam data mining adalah (Han & Kamber 2001):

1. Klasifikasi dan prediksi. Teknik ini dapat digunakan untuk mendeskripsikan data yang penting serta dapat meramalkan kecenderungan data pada masa depan. Klasifikasi adalah suatu proses untuk menemukan model atau fungsi untuk menggambarkan kelas atau konsep dari suatu data. Dilain pihak, prediksi biasanya digunakan untuk data numerik. Teknik yang termasuk dalam klasifikasi dan prediksi antara lain:

a. Statistika; metode yang banyak digunakan di antaranya Bayesian , Hidden Marcov Model, serta regresi linier dan nonlinier.

b. Kecerdasaran buatan ; Metode dalam kecerdasan buatan yang banyak digunakan dalam data mining di antaranya neural network, decision tree, roughs set, algoritme genetika, K-nearest neighbour, case base reasoning dan logika fuzzy.

c. Machine learning; salah satu teknik yang digunakan dalam machine learning adalah SOMs (Self Organizing feature maps).

2. Association Rule. Teknik ini dapat digunakan untuk menemukan suatu

Page 11: Decision Tree

hubungan yang terdapat pada nilai atribut dari sekumpulan data. Algoritme yang banyak digunakan dalam teknik ini adalah apriori .

3. Clustering. Teknik ini berbeda dengan klasifikasi dan prediksi. Pada teknik ini nama dari masing-masing kelas tidak ditentukan dari awal proses. Clustering dapat digunakan untuk membentuk suatu kelas. Beberapa teknik dalam clustering yaitu: 1. Partitioning method merupakan teknik yang membagi data menjadi beberapa bagian. 2. Hierarchical method membentuk suatu komposisi hirarki dari data objek yang diberikan. 3. Density based method yang dibentuk dari dugaan kepadatan data. 4. Grid based method mengukur ruang objek menjadi beberapa bagian yang membentuk struktur grid. 5. Model based clustering method yang berdasar kepada hipotesis untuk mendapatkan kelas terbaik untuk model yang diberikan.

2.4 Algoritme K-Means

Dasar dari teknik clustering adalah membentuk suatu level partisi pada suatu objek data. Clustering memiliki bermacam-macam teknik, namun dua teknik yang banyak digunakan adalah K-Means dan K-Medoid (Tan et al. 2005).

K-Means merupakan algoritme cluster yang sederhana. K-Means membagi data menjadi beberapa cluster, setiap cluster memiliki nilai tengah yang disebut dengan centroid. Setiap nilai dimasukkan ke dalam cluster yang dekat dengan centroid. Jumlah cluster pada algoritme ini tergantung kepada masukkan dari penggunanya. Algoritme dasar dari K-Means adalah (Tan et al. 2005):

Select K points as the initial centroids

Repeat

From K cluster by assigning all points to the closest centroids

Recomputed the centroids of each cluster

Until the centroids don’t change

Teknik K-Means pada algoritme clustering cukup sederhana. Langkah pertama yang

dilakukan dalam algoritme sederhana di atas adalah menentukan K initial centroid, dengan K adalah parameter spesifik yang berupa jumlah dari cluster yang diinginkan. Kemudian setiap nilai dimasukkan ke dalam centroid yang terdekat. Centroid dalam cluster akan berubah sesuai dengan nilai yang ada dalam kelompok tersebut. Langkah peletakan nilai ke dalam centroid terdekat diulang hingga tidak ada nilai yang berpindah cluster , atau tetap pada tempatnya.

Pada clustering , terdapat beberapa cara untuk mengevaluasi validitas jumlah cluster . Salah satu ukuran validitas yang dapat digunakan adalah Sum of Squared Error (SSE). Formula matematis untuk SSE adalah (Tan et al. 2005):

∑=

∑ ∈=k

1jjCx

2)jm,x(distSSE

dengan x adalah nilai data yang terdapat di dalam cluster Cj dan mj adalah centroid dari cluster Cj. Dalam hal ini, dist(x, mj) adalah jarak antara nilai x dengan centroid mj.

Jarak atau dist(x, mj) dapat dihitung dengan menggunakan formula jarak Euclidean, yaitu (Liu 2005 ):

||jmix||)jm,ix(dist −=

2)jrmirx(...

2)2jm2ix(

2)1jm1ix( −++−+−=

dengan

∑∈

=

jCixix

|jC|

1jm

2.5 Decision Tree

Decision tree merupakan salah satu teknik klasifikasi yang paling populer dan paling banyak digunakan dalam data mining dan machine learning . Decision tree terdiri dari node internal yang menggambarkan data yang diuji, cabang menggambarkan nilai keluaran dari data yang diuji, sedangkan leaf node menggambarkan distribusi kelas dari data yang digunakan. Decision tree digunakan untuk mengklasifikasikan suatu sampel data yang tidak dikenal.

Page 12: Decision Tree

Pembentukan decision tree terdiri dari beberapa tahap, yaitu (Han & Kamber 2001):

1. Konstruksi pohon, yaitu membuatan pohon yang diawali dengan pembentukan bagian akar, kemudian data terbagi berdasarkan atribut –atribut yang cocok untuk dijadikan leaf node .

2. Pemangkasan pohon ( tree pruning), yaitu mengidentifikasi dan membuang cabang yang tidak diperlukan pada pohon yang telah terbentuk. Ada dua metode dalam melakukan pemangkasan dalam decis ison tree, yaitu:

- prepruning: pemangkasan dilakukan sejak awal pembentukan pohon.

- postpruning : pemangkasan dilakukan saat pohon telah terbentuk secara utuh

3. Pembentukan aturan keputusan, yaitu membuat aturan keputusan dari pohon yang telah dibentuk.

Algoritme dasar dari decision tree adalah (Dyer 2001) :

- Construct set of candidate partitions S

- Select best S* in S - Describe each cell Ci in S* - Test termination condition on

each Ci true: form a leaf node

- false: recurse with Ci as new training set

Pada algoritme tersebut, langkah pertama yang dilakukan adalah menentukan partisi kandidat , S. S* dipilih dari S, S* terbaik akan dijadikan node. Pemilihan S* terbaik juga bergantung terhadap nilai Ci. Untuk nilai S* lainnya yang tidak terpilih sebagai node akan dilakukan pemilihan ulang secara rekursif dengan menggunakan sisa Ci

sebagai training set yang baru.

Decision tree memiliki beberapa cara dalam menentukan ukuran data dalam membentuk tree, yaitu menggunakan information gain (untuk algoritme ID3/C4.5/C5.0), gini index (untuk algoritme IBMIntelligentMiner) dan algoritme SLIQ (Clifton 2004).

Dari semua algoritme pada decision tree, yang paling populer adalah C4.5, sedangkan C5.0 merupakan algoritme perbaikan dari C4.5. Namun akhir–akhir ini sedang dikembangkan algoritme decision tree yang

mampu menangani data dalam skala besar yang tidak dapat ditampung oleh main memory.

Algoritme decision tree banyak digunakan dalam proses data mining karena memiliki beberapa kelebihan, yaitu (Hoffer 2004):

1. Tidak memerlukan biaya yang mahal saat membangun algoritme ini.

2. Mudah untuk diinterpretasikan.

3. Mudah mengintegrasikan dengan sistem basis data.

4. Memiliki nilai ketelitian yang baik.

5. Dapat menemukan hubungan tak terduga dari suatu data.

6. Dapat menggunakan data pasti/mutlak atau data kontinu.

7. Mengakomodasi data yang hilang.

Selain memiliki keuntungan, decision tree juga memiliki kelemahan, yaitu hubungan yang ditemukan mungkin saja palsu.

2.6 Algoritme C5.0

C5.0 merupakan penyempurnaan dari algoritme terdahulu yang dibentuk oleh Ross Quinlan pada tahun 1987, yaitu ID3 dan C4.5. Dalam algoritme C5.0, pemilihan atribut yang akan diproses menggunakan ukuran information gain.

Ukuran information gain digunakan untuk memilih atribut uji pada setiap node di dalam tree. Ukuran ini digunakan untuk memilih atau membentuk node pada pohon. Atribut dengan nilai information gain tertinggi akan terpilih sebagai parent bagi node selanjutnya. Formula untuk information gain adalah (Kantardzic, 2003):

∑=

•−=k

iSSiCfreqSSiCfreqSInfo

1|))|/),(((2log|)|/),((()(

∑=

∑=

•−•

=n

i

k

i TTiCfreqTTiCfreq

TiT

TxInfo

1)

1 |)))|/),(((2log|)|/),(((

(||/|((|

)(

maka nilai Information Gain (X) dapat dihitung dengan

)()()( TxInfoSInfoXGainInformatin −=

Page 13: Decision Tree

Dari formula di atas, T adalah training sample yang terbagi menjadi T1, T2 ,..., Tn.. Jika S adalah kumpulan dari sampel yang ada, maka freq(Ci, S) adalah jumlah dari sampel S yang dimiliki oleh kelas Ci dan |S| adalah jumlah dari sampel S. |T| merupakan jumlah dari sampel T.

Secara umum terdapat mekanisme untuk melakukan perhitungan information gain, yaitu (Kantardzic 2003):

1. Standar test yang dilakukan pada data atribut dengan tipe diskrit, dengan satu nilai keluaran dan satu cabang untuk setiap nilai atribut yang mungkin.

2. Jika atribut Y adalah atribut dengan tipe numerik, perhitungan akan dilakukan dengan Y <= Z dan Y > Z, dimana Z merupakan nilai perbandingan. Untuk mencari nilai perbandingan dapat digunakan nilai tengah dari tiap interval dari data yang

digunakan

++

2

)1( iviv. Dari

formula tersebut, vi adalah nilai ke-i dari data yang digunakan.

3. Pengujian yang lebih kompleks juga terjadi pada atribut diskrit, dimana nilai yang mungkin dialokasikan untuk setiap kelompok variabel dengan satu keluaran dan cabang untuk setiap grup.

Seperti algoritme sebelumnya, C5.0 menggunakan algoritme greedy sebagai dasar dari pembentukan algoritmenya. Berikut adalah algoritme dari C5.0 (Dyer 2001) :

If empty (examples) then

return (default)

If same-classification (example) then

return (class (example))

Best = choose-attribute (attributes,example)

Tree = new node with attribute best

For each value v of attribute best do

v-example = subset of example with attribute best = v

subtree = decision-tree-learning (v-example, attribute best, majority-classification (example)

add a branch from tree to subtree with arc labeled v

return (tree)

Algoritme pemangkasan pohon pada C5.0 adalah sebagai berikut (Dyer 2001):

Let bestTree = the tree produced by C5.0 on the TRAINING set

Let bestAccuracy = the accuracy of bestTree on the TUNING set

Let progressMade = true

while (progressMade)

SET

{

Set progressMade = false

Let currentTree = bestTree

For each interiorNode N (including the root) in currentTree

{

Let prunedTree be a copy of currentTree,

except replace N by a leaf node whose label equals the majority class among TRAINING set

examples that reached node N (break ties in favor of '-')

Let newAccuracy = accuracy of prunedTree on the TUNING set

If(newAccuracy >= bestAccuracy)

{

bestAccuracy = newAccuracy

bestTree = prunedTree

progressMade = true

}

}

}

return bestTree

C5.0 memiliki beberapa fitur penting yang membuat algoritme ini menjadi lebih unggul dibandingkan dengan algoritme terdahulunya dan mengurangi kelemahan yang ada pada algoritme decision tree

Page 14: Decision Tree

sebelumnya. Fitur tersebut adalah (Quinlan, 2004):

1. C5.0 telah dirancang untuk dapat menganalisis basis data substansial yang berisi puluhan sampai ratusan record dan satuan hingga ratusan field numerik dan nominal.

2. Untuk memaksimumkan tingkat penafsiran pengguna terhadap hasil yang disajikan, maka klasifikasi C5.0 disajikan dalam dua bentuk, menggunakan pohon keputusan dan sekumpulan aturan IF-T HEN yang lebih mudah untuk dimengerti dibandingkan neural network .

3. C5.0 mudah digunakan dan tidak membutuhkan pengetahuan tinggi tentang statistik atau machine learning.

METODE PENELITIAN 3.1 Proses Dasar Sistem

Proses dasar sistem (Gambar 1) mengacu pada proses dalam Knowledge Discovery in Database (KDD) (Han J dan Kamber, 2001).

Gambar 1 Tahapan dalam KDD

1. Pembersihan Data (Data Cleaning)

Pada tahap ini data yang tidak konsisten, data yang mengandung nilai yang hilang dan data yang mengandung noise (kesalahan pada penulisan) akan dihilangkan. Keluaran dari tahap ini adalah data yang telah bersih dan siap untuk digunakan pada proses selanjutnya.

2. Pemilihan Data (Data selection)

Pada tahap ini dilakukan pemilihan terhadap data yang dibutuhkan untuk analisis.

3. Reduksi Data (Data Reduction)

Dalam tahap reduksi data, dilakukan pengurangan variabel hingga mendapatkan variabel yang efektif dengan melihat keterkaitan antarsatu variabel dengan variabel lainnya. Analisis relevansi atribut dilakukan dengan menggunakan ukuran information gain.

Hasil dari perhitungan akan dibandingkan dengan threshold yang telah ditentukan. Apabila nilai gain lebih kecil dari nilai threshold maka variabel tersebut akan dibuang, sehingga hanya variabel yang layak saja yang akan diikutkan dalam proses selanjutnya.

4. Data Mining

Tahap ini merupakan inti dari tahapan KDD yang dilakukan untuk menganalisis data yang telah dibersihkan. Teknik yang digunakan adalah decision tree yang dibagi menjadi 3 tahap, yaitu :

1. Pembentukan Pohon

Pada tahap ini akan dibentuk suatu pohon yang terdiri dari akar yang merupakan node paling awal, daun sebagai distribusi kelas, dan batang yang menggambarkan hasil keluaran dari pengujian. Pada pembentukan pohon ini dilakukan pemilihan atribut untuk penentuan posisi dalam pembentukan pohon. Pemilihan atribut dilakukan dengan menggunakan perhitungan yang sama dengan tahap reduksi data, yaitu menggunakan information gain. Namun yang membedakan dengan perhitungan dalam reduksi data adalah data yang akan diproses menjadi pohon keputusan telah dilakukan generalisasi terlebih dahulu.

2. Pemangkasan Pohon

Pemangkasan pohon dapat dilakukan dengan metode prepruning atau postpruning. Namun alternatif lain yang dapat dilakukan adalah mengkombinasikan prepruning dan postpruning untuk menghasilkan pohon yang lebih baik. Pada percobaan ini, pemangkasan pohon tidak dilakukan karena jumlah atribut yang sedikit.

Data Cleaning Data

Integration

Databases

Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

Page 15: Decision Tree

3. Pembentukan Aturan Keputusan.

Aturan yang dihasilkan dari decision tree dapat ditampilkan dalam bentuk aturan IF-THEN. Aturan dibentuk dari tiap path pada pohon. Setiap node yang bukan leaf node berperan sebagai bagian IF sedangkan bagian THEN diambil dari leaf node yang merupakan konsekuen dari aturan. Aturan IF-THEN lebih mudah dipahami oleh pengguna apalagi jika pohonnya dalam ukuran besar.

5. Evaluasi Data Keluaran

Pada tahap ini dilakukan evaluasi terhadap kesimpulan atau informasi yang diperoleh dari data. Informasi tersebut dapat digunakan oleh pengguna sesuai kebutuhan dengan menggunakan modul pengguna untuk menampilkan informasi yang sesuai dengan kebutuhan pengguna. Berdasar tahap evaluasi data dan keluaran mungkin dilakukan perubahan-perubahan pada tahap-tahap selanjutnya, atau pengulangan seluruh proses.

3.2 Lingkungan Pengembangan

Lingkungan pengembangan sistem dalam penelitian ini meliputi:

- Perangkat lunak: Windows XP Profesional, Visual Basic 6.0 (SP6), SQL Server 2000 Personal Edition, dan SPSS 13.

- Perangkat keras: processor Intel Pentium IV 2.00 GHz, Memori 256 Mb, Harddisk 40 GB, Monitor 15 inchi, mouse dan keyboard.

HASIL DAN PEMBAHASAN 4.1 Pembersihan Data

Data komoditas pertanian yang dimiliki oleh Departemen Pertanian, berupa basis data relasional yang disimpan dalam format data MDF.

Data disimpan dalam sebuah tabel fakta (fact table) yang berisi kode dari beberapa subsektor pertanian, yaitu 1. tanaman pangan dan hortikultura 2. perkebunan 3. peternakan 4. penduduk dan rumah tangga 5. PDB/PDRB 6. nilai tukar petani 7. struktur ongkos 8. alat mesin pertanian 9. lahan 10.

iklim 11. struktur ongkos padi 12. struktur ongkos padi sawah 13. struktur ongkos padi ladang 14. struktur ongkos jagung 15. struktur ongkos ubi kayu 16. struktur ongkos ubi jalar 17. struktur ongkos kacang tanah 18. struktur ongkos kedelai. Tabel fakta yang berisi kode-kode ini akan dihubungkan dengan data pada tabel dimensi yang berisi deskripsi dari kode tersebut. Tabel-tabel yang digunakan dalam data warehouse dapat dilihat pada Lampiran 1, sedangkan karakteristik data tanaman pangan dan hortikultura dapat dilihat pada Lampiran 2.

Pembersihan data dilakukan terhadap data yang memiliki nilai null, data rangkap atau tidak lengkap dalam data tanaman pangan dan hortikultura.

Jumlah awal dari data basis data sektor pertanian yang dimiliki DEPTAN sebesar 468.140 record. Kemudian dilakukan pembersihan terhadap basis data sektor pertanian yang dimiliki oleh DEPTAN.

4.2 Pemilihan Data

Data yang digunakan dalam analisis adalah subsektor yang memiliki nilai yang mewakili seluruh atribut dan jumlah record yang lebih banyak dibandingkan subsektor yang lain. Subsektor tanaman pangan dan hortikultura yang memenuhi kriteria tersebut. Data subsektor tanaman pangan dan hortikultura yang digunakan adalah data subsektor tanaman pangan dan hortikultura dengan status angka berupa angka tetap dan nilai pada atribut lokasi tidak sama dengan Nasional. Dari pembersihan data tersebut, diperoleh data bersih sebanyak 109.037 record.

Dari data yang telah bersih dilakukan pemilihan terhadap atribut yang ada. Pemilihan atribut dilakukan berdasarkan jumlah data dan kebergantungan antara satu atribut dengan atribut yang lain. Dari tahap ini didapatkan beberapa atribut (ramal01, ramal02, ramal03, diperbaiki, perkiraan, sasaran, sgt_sementara) yang tidak digunakan dengan optimal atau dibiarkan kosong sehingga atribut tersebut dapat dihilangkan. Data yang digunakan memiliki status angka berupa angka tetap yang bersumber dari Badan Pusat Statistik (BPS), sehingga atribut sumber yang memiliki nilai satu nilai yaitu BPS dapat dihilangkan. Atribut-atribut yang ada pada data tanaman

Page 16: Decision Tree

pangan dan hortikultura setelah pembersihan data dapat dilihat pada Lampiran 3.

Setelah dilakukan pembersihan data dan pemilihan data, kemudian dilakukan modifikasi tabel untuk mempermudah dalam proses selanjutnya, yaitu penerapan algoritme decision tree. Modifikasi dilakukan pada atribut indikator dan nilai. Atribut indikator yang terdiri dari produktivitas, luas panen, dan produksi dipecah menjadi atribut yang berbeda, sedangkan atribut nilai yang merupakan nilai dari indikator dimasukkan ke dalam atribut indikator yang telah dipecah sesuai dengan nilainya masing-masing. Jumlah record test setelah tabel dimodifikasi (tabel bdsp2) sebanyak 30.976. Perubahan atribut yang dilakukan dapat dilihat pada Lampiran 4.

4.3 Pengurangan Data

Setelah dilakukan pemilihan atribut, maka dilakukan analisis terhadap atribut yang relevan. Analisis ini dilakukan dengan menggunakan perhitungan ukuran information gain. Kelas dalam perhitungan ini adalah atribut produksi. Jumlah kelas diperoleh dengan cara membagi data menjadi beberapa cluster dengan menggunakan algoritme K-Means. Untuk memperoleh jumlah cluster yang optimal, dilakukan evaluasi terhadap pembagian jumlah cluster dengan menggunakan SSE (Sum Square of Error). Jumlah cluster dan nilai SSE dapat dilihat pada Tabel 1.

Tabel 1 Jumlah cluster dan nilai SSE pada atribut produksi

Jumlah cluster Nilai SSE 2 3.159.660.675.117.890 3 1.213.498.604.131.730 5 480.408.753.540.408 6 402.599.216.947.265 7 226.652.393.575.530 8 175.377.297.148.805 9 1.087.855 .866.516.561 10 116.496.067.329.026 11 120.006.404.477.267

Penentuan kelas data dilakukan berdasar jumlah cluster dengan nilai SSE terkecil. Pada atribut produksi, nilai SSE terkecil terdapat pada jumlah cluster 10. Kisaran nilai pada tiap cluster dapat dilihat pada Tabel 2.

Tabel 2 Nilai yang terdapat pada kelas produksi

cluster Nilai Produksi (ton) 1 0 – 110.975 2 6.740.333 – 8.803.878 3 1.505.706 – 2.369.841 4 400.581 – 884.273 5 111.110 – 398.824 6 336.756 – 4.531.510 7 886.756 – 1.497.379 8 4.680.567 – 6.594.514 9 8.943.392 – 10.863 .393 10 2.382.775 – 3.348.818

Nilai entropi yang didapatkan dari 10 kelas ini adalah 0.698, sedangkan hasil perhitungan gain yang didapatkan untuk atribut lainnya dapat dilihat pada Tabel 3.

Tabel 3 Tabel p erhitungan information gain

Atribut Nilai information

gain komoditas 0.265 lokasi 0.097 produktivitas 0.080 luas_panen 0.123

Treshold yang digunakan dalam tahap ini adalah 0.01, maka berdasarkan perhitungan gain tidak ada atribut yang dihilangkan.

4.4 Data Mining

Tahap ini diawali dengan melakukan generalisasi pada tiga atribut, yaitu atribut tahun (Tabel 4), atribut produktivitas (Tabel 5) dan atribut luas_panen (Tabel 6). Pada atribut tahun, data tahun dibagi menjadi delapan kelompok yang masing-masing terdiri dari lima tahun. Di sisi lain, pada atribut produktivitas dan luas_panen, atribut dibagi menjadi 10 kelompok untuk produktivitas dan 11 kelompok untuk luas panen berdasarkan hasil clustering data tersebut dengan menggunakan algoritme K-Mean.

Tabel 4 Generalisasi atribut tahun

Nilai Awal Nilai Generalisasi

1966-1970 1 1971-1975 2 1976-1980 3

Page 17: Decision Tree

1981-1985 4 1986-1990 5 1991-1995 6 1996-2000 7 2001-2005 8

Tabel 5 Generalisasi atribut produktivitas

Nilai Awal Nilai Generalisasi

0 – 49 1 50 - 130 2

2.165 – 2.623 3 131 – 261 4

14.449 – 14.449 5 470 – 768 6

4.675 – 4.675 7 262 – 468 8

781 – 1.306 9 1.443 – 1.931 10

Tabel 6 Generalisasi atribut luas panen

Nilai Awal Nilai Generalisasi

0 – 27.951 1 1.043.285 – 1.415.449 2

177.346 – 275.581 3 521.575 – 696.441 4 276.890 – 384.007 5

1.425.609 – 1.772.046 6 91.259 – 176.767 7

706.058 – 1.012.051 8 27.993 – 90.800 9

1.792.320 – 2.188.479 10 384.756 – 519.380 11

Data yang telah digeneralisasi kemudian dipecah berdasarkan kelompok tahun dasar menjadi 8 data set. Jumlah record pada setiap data set ditunjukkan dalam Tabel 7.

Tabel 7 Nama dan ukuran data set

Nama data set Jumlah record bdspfixT1 734 bdspfixT2 3705 bdspfixT3 3875 bdspfixT4 4308 bdspfixT5 4824 bdspfixT6 5131 bdspfixT7 5854 bdspfixT8 2545

Nama data set menunjukkan kelompok tahun yang terdapat pada data set tersebut.

Sebagai contoh, bdspfixT7 menunjukan data set sektor pertanian (bdsp) pada kelompok tahun ke tujuh (1996-2000).

Masing-masing tabel data set tersebut dibagi kembali secara acak menjadi 2 bagian, yaitu training set sebesar 75% dan test set sebesar 25%. Jumlah record masing-masing tabel dapat dilihat pada Tabel 8.

Tabel 8 Jumlah record training set dan test set

Nama Data set

Data set Training set

Test set

bdspfixT1 734 551 183 bdspfixT2 3.705 2.779 926 bdspfixT3 3.875 2.907 968 bdspfixT4 4.308 3.231 1.077 bdspfixT5 3.824 2.618 1.206 bdspfixT6 5.131 3.849 1.282 bdspfixT7 5.854 4.391 1.463 bdspfixT8 2.545 1.909 636

Dari masing-masing training set akan dibentuk suatu model pohon yang akan diujikan terhadap test set untuk diukur kevalidan dari model tersebut.

Dalam pembentukan model pohon, langkah utama yang dilakukan adalah melakukan perhitungan nilai information gain untuk training set. Perhitungan ini digunakan untuk melihat tingkatan dari masing-masing atribut untuk menentukan akar dari pohon yang akan dibentuk. Setelah akar diperoleh dari atribut dengan nilai information gain tertinggi, perhitungan akan dilanjutkan untuk mencari node selanjutnya menggunakan training set yang sama namun telah dikurangi oleh atribut yang telah menjadi akar. Perhitungan akan dilakukan berulang-ulang hingga seluruh atribut telah menjadi node.

Pada Gambar 2 dapat dilihat contoh bagian pohon yang akan terbentuk pada data tanaman pangan dan hortikultura tabel bdspT7, yaitu tabel dengan kelompok tahun 1996-2000.

Page 18: Decision Tree

Gambar 2 Pohon yang terbentuk pada tabel bdspT7

Setelah pohon terbentuk, dihasilkan sejumlah aturan dari path dalam pohon tersebut. Contoh aturan yang dapat terbentuk dari pohon pada Gambar 2 adalah sebagai berikut:

“JIKA komoditas = Jagung DAN lokasi = Bali DAN luas panen > 6 DAN produktivitas <= 6 MAKA produksi = 1”

”JIKA komoditas = Jagung DAN lokasi = Bengkulu MAKA produksi = 1”

”JIKA komoditas = Melon DAN lokasi = Jawa Tengah DAN luas panen <= 6 AND produktivitas <= 6 MAKA produksi = 1”

”JIKA komoditas = Melon DAN lokasi = Timortimur MAKA produksi = 1”

”JIKA komoditas = Nenas DAN lokasi = Jawa Barat DAN produktivitas <= 6 MAKA produksi = 5”

”JIKA komoditas = Nenas DAN lokasi = Jawa Barat DAN produktivitas > 6 MAKA produksi = 1”

”JIKA komoditas = Nenas DAN lokasi = Jawa Timur MAKA produksi = 1”

Aturan selengkapnya yang diperoleh dari tabel bdspT7 dapat dilihat pada Lampiran 5.

Rasio aturan yang terbentuk terhadap ukuran kedelapan training set dapat dilihat pada Tabel 9 dan grafik dari rasio tiap tabel dapat dilihat pada Gambar 3.

Tabel 9 Rasio aturan pada training set

Training set

Ukuran Training

set

Jumlah aturan yang terbentuk

Rasio (%)

bdspT1 551 161 29.22 bdspT2 2779 340 12.23 bdspT3 2907 305 10.49 bdspT4 3231 390 12.07 bdspT5 3618 579 16.00 bdspT6 3849 756 19.64 bdspT7 4391 782 17.81 bdspT8 1909 644 33.73

Gambar 3 Grafik rasio pada delapan tabel bdsp

Dari kedelapan tabel bdsp yang ada, nilai rasio terbesar pada training set bdspT8 sebesar 33.73%, sedangkan rasio terkecil pada tabel bdspT3 sebesar 10.49%.

4.5 Evaluasi Data Keluaran

Tahap evaluasi dilakukan dengan melakukan pengujian terhadap aturan yang telah terbentuk pada tahap data mining. Dengan menggunakan nilai masukkan yang diambil secara random dan terdapat pada tabel training set dan test set, aturan yang terbentuk dari tahap data mining dan data test set akan dibandingkan.

Pengujian dilakukan setelah pohon dari training set terbentuk. Pertama tentukan test set yang ingin digunakan, kemudian masukkan nilai yang ingin diujikan. Misalkan nilai Alpukat di Bangka Belitung dengan nilai luas panen (Ha) berada pada kelompok <= 6 dan produktivitas (Ton/Ha) <= 6. Sistem akan mencari nilai pengujian yang telah dimasukkan ke dalam test set dan pohon yang telah terbentuk. Akurasi dihitung berdasarkan jumlah nilai yang sama

Page 19: Decision Tree

antara nilai dalam test set dengan nilai yang dihasilkan oleh pohon dengan menggunakan keseluruhan aturan yang terbentuk, perhitungan akurasi adalah sebagai berikut (Tan et al. 2005):

00f01f10f11f00f11f

akurasi

atau

prediksibanyaknyatotal

benaryangprediksibanyakAkurasi

+++

+=

=

Setiap entri fij menyatakan banyaknya record dari kelas i yang diprediksi menjadi kelas j .

Dari delapan tabel yang ada, terhadap masing-masing tabel training set diberikan 3 kali pengujian dengan jumlah masukkan yang berbeda yaitu 100, 150 dan 200 data. Pengujian untuk setiap nilai masukkan diulang sebanyak 3 kali. Nilai masukkan data acak dapat dilihat pada Lampiran 6 dan hasil akurasi masing-masing masukkan data acak pada Lampiran 7 sampai 9. Hasil rata-rata akurasi dari evaluasi data menggunakan data acak dapat dilihat pada Tabel 10.

Tabel 10 Presentasi akurasi data (pengambilan data input secara acak)

Training set

Jumlah aturan

Jumlah test set

% Akurasi 1 (100

dat)

% Akurasi 2 (150 dat)

% Akurasi 3 (200

dat) bdspT1 161 183 10.10 11.33 10.67 bdspT2 340 926 45.03 46.83 49.61 bdspT3 305 968 41.01 42.29 45.50 bdspT4 390 1077 51.00 53.04 52.33 bdspT5 579 1206 60.11 60.00 57.50 bdspT6 756 1282 55.00 53.33 55.57 bdspT7 782 1463 67.17 66.00 65.50 bdspT8 644 636 33.33 34.08 33.50

Pada Gambar 4 dapat dilihat grafik perbandingan dari ketiga nilai akurasi dengan menggunakan data acak. Untuk grafik masing-masing nilai akurasi dapat dilihat pada Lampiran 10 sampai 12

Gambar 4 Grafik perbandingan nilai akurasi dengan data input secara acak

Dari grafik tersebut dapat dilihat bahwa nilai akurasi terbesar terdapat pada tabel bdspT7 dengan 100 data pengujian. Pada percobaan di atas, nilai akurasi tertinggi 67.17% pada tabel bdspT7, sedangkan nilai akurasi terendah 10.10% pada tabel bdspT1.

Dari informasi yang diperoleh, pengguna tidak perlu mengingat jumlah aturan yang terbentuk pada tahap data mining. Pengguna dapat menggunakan modul pengguna untuk menampilkan informasi sesuai kebutuhan pengguna. Tampilan modul pengguna dapat dilihat pada Lampiran 13.

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Dari percobaan yang dilakukan pada delapan tabel data tanaman pangan dan hortikultura, dapat disimpulkan bahwa dengan menggunakan algoritme C5.0, nilai rasio aturan yang terbentuk terhadap ukuran training set dan akurasi yang terbentuk tidak dipengaruhi oleh jumlah record data

Dari data tanaman pangan dan hortikultura dihasilkan suatu model pohon dengan rasio aturan terbesar pada tabel bdspT8 yaitu 33.33% dan rasio terkecil pada tabel bdspT3 yaitu 10.49%.

Berdasarkan pengujian dengan pengambilan data secara acak, nilai akurasi terbesar terdapat pada tabel bdspT7 yaitu sebesar 67.17%, dan akurasi terkecil pada tabel bdspT1, yaitu sebesar 10.10%.

Page 20: Decision Tree

5.2 Saran

Untuk pengembangan lebih lanjut, dapat dilakukan hal-hal berikut :

1. Pembersihan data secara otomatis oleh sistem.

2. Memodifikasi dan melakukan pengembangan sistem agar dapat digunakan untuk data dengan karakteristik yang berbeda-beda, karena pada percobaan ini sistem hanya dapat digunakan pada data dengan karakteristik yang sama.

3. Melakukan perbandingan akurasi dan waktu eksekusi dengan menggunakan algoritme yang lainnya.

4. Melakukan clustering pada atribut produksi untuk masing-masing komoditas secara terpisah.

Page 21: Decision Tree

Daftar Pustaka

Aziz M.A, Abdullah H.S, Bakar A.A, Hamdan A.R, Yusof M.M, Omar K, Murah Z, Nawawi L, Noranisah. 2004. A Preliminari study on data mining task and technique. http://research.microsoft.com/research/datamine [15 Oktober 2004]

Clifton C. 2004. Introduction to data mining. http://www.cs.purdue.edu [30 Januari 2006]

Dyer C.R. 2001 -2003. Machine learning (Chapter 18.1 - 18.3) . http://www.cs.wisc.edu/~dyer/cs540/notes/learning.html [01 Agustus 2005]

Han J dan Kamber. 2001. Data Mining: Concepts and Techniques. Simon Fraser University. USA: Morgan Kaufman Publisher

Hoffer J.A. 2004. Modern Database Management edisi ke-6.

Kantardzic M. 2003. Data Mining : Concept, Models, Metods, and Algorithms.USA: Wiley Interscience

Liu B. 2005. Unsupervised Learning. http://www.cs.uic.edu/cs583 [08 Maret 2006]

Quinlan. 2004. New functionality. http://www. Rulequest.com/comparison.htm

Tan S, Kumar P, Steinbach M. 2005. Introduction To Data mining. Addison-Wesley

Thomas E. 2004. Data Mining: Definition and Decision Tree Examples. http://www.airpro.binghamton.edu/conference/jan2004/thomas_data_mining.pdf [09 Desember 2004]

Williams G. 1998. A Data Mining Tutorial. http://www.2.cs.cmu.edu/~aww/tutorials.html [30 Oktober 2004]

Page 22: Decision Tree

LAMPIRAN

Page 23: Decision Tree

Lampiran 1 Daftar tabel yang digunakan dalam data warehouse

Nama Tabel Deskripsi Tabel

BDSPTAHUN (tabel fakta)

Tabel yang berisi kode-kode atau ID dari setiap nilai atribut

tab_prop Berisi deskripsi dari kode propinsi yang ada pada tabel BDSPTAHUN

v_sek_kom Berisi deskripsi dari sektor komoditas yang ada pada tabel BDSPTAHUN

tab_sumb Berisi deskripsi dari sumber data diperoleh yang ada pada tabel BDSPTAHUN

tab_sts_a Berisi deskripsi dari status angka yang yang ada pada tabel BDSPTAHUN

s_tanam_pangan Tabel hasil menghubungkan tabel fakta dengan tabel dimensi

Lampiran 2 Karakteristik Data Tanaman Pangan dan Hortikultura

Nama Kolom Tipe Data

Panjang Data

Nilai Null

Deskripsi field Banyak nilai beda

indikator nvarchar 50 Ya Berisi indikator dari subsektor yang ada

23

komoditas nvarchar 50 Ya Kolom komoditas terdiri dari komoditas yang dimiliki oleh setiap subsektor

226

lokasi nvarchar 50 Ya Berisi lokasi-lokasi untuk masing-masing komoditas

32

Sts_angka nvarchar 50 Ya Status angka terdiri dari 2 jenis angka tetap yang berasal dari BPS dan angka sementara yang berasal dari DEPTAN sendiri

9

Sumber nvarchar 50 Ya Sumber data diperoleh 2

Thn_dasar Numerik 9 Ya Tahun dari data tersebut 70

Ramal1 Decimal 9 Ya Angka ramalan 1 merupakan angka ramalan DEP TAN terhadap suatu komoditas untuk setiap subsektor

0-99999999

Ramal2 Decimal 9 Ya Angka ramalan 2 merupakan angka ramalan DEPTAN terhadap suatu komoditas untuk setiap subsektor

0-99999999

Ramal3 Decimal 9 Ya Angka ramalan 3 merupakan angka ramalan DEPTA N terhadap suatu komoditas untuk setiap subsektor

0-99999999

Sementara Decimal 9 Ya Angka sementara 0-99999999

Diperbaiki Decimal 9 Ya Angka yang masih ada kesalahan 0-99999999

Tetap Decimal 9 Ya Angka yang sudah pasti 0-99999999

Perkiraan Decimal 9 Ya Angka perkiraan 0-99999999

Sasaran Decimal 9 Ya Angka sasaran yang akan dicapai 0-99999999

Sgt_sementara Decimal 9 Ya Angka sangat sementara 0-99999999

Page 24: Decision Tree

Lampiran 3 Atribut pada tabel s_tanam_pangan setelah tahapan pembersihan data

Nama Atribut Nilai Atribut

subsektor Tanaman pangan dan hortikultura

wilayah Bali, Bangka Belitung, Banten, Bengkulu, DIY, DKI Jakarta, Gorontalo, Jambi, Jawa Barat, Jawa Tengah, Jawa Timur, Kalimantan Barat, Kalimantan Selatan, Kalimantan Tengah, Kalimantan Timur, Lampung, Maluku, Maluku Utara, NAD, NTB, NTT, Papua, Riau, Sulawesi Selatan, Sulawesi Tengah, Sulawesi Tenggara, Sulawesi Utara, Sumatera Barat, Sumatera Selatan, Sumatera Utara, Timor, Timur

Indikator Luas panen, produktivitas, produksi

Tahun 1 (1966-1970), 2 (1971-1975), 3 (1976-1980), 4 (1981-1985), 5 (1986-1990), 6 (1991-1995), 7 (1996-2000), 8 (2001-2005)

Komoditas Alpukat, bawang daun, bawang merah, Bawang Putih, Bayam, Belimbing, buncis, cabe, duku/langsat, durian, Jagung, jambu, Jeruk, Kacang Hijau, kacang merah, Kacang Panjang, Kacang Tanah, Kangkung, Kedele, kentang, Ketimun, kol/kubis, Labu Siam, Lobak, Mangga, Manggis , Melon , nangka/cempedak, nanas, Padi, Padi Ladang,Padi Sawah, Pepaya, petsai/sawi, Pisang, Rambutan, Salak, Sawo, Sirsak, Terung, Tomat, Ubi Jalar, ubi kayu/ketela pohon, Wortel, Semangka, Sukun

Nilai untuk masing-masing indikator

Nilai numerik

Lampiran 4 Atribut-atribut dalam tabel bdsp2 yang telah dimodifikasi

Nama Atribut Nilai Atribut

subsektor Tanaman pangan dan hortikultura

wilayah Bali, Bangka Belitung, Banten, Bengkulu, DIY, DKI Jakarta, Gorontalo, Jambi, Jawa Barat , Jawa Tengah, Jawa Timur, Kalimantan Barat, Kalimantan Selatan, Kalimantan Tengah, Kalimantan Timur, Lampung, Maluku, Maluku Utara, NAD, NTB, NTT, Papua, Riau, Sulawesi Selatan, Sulawesi Tengah, Sulawesi Tenggara, Sulawesi Utara, Sumatera Barat, Sumatera Selatan, Sumatera Utara, Timor, Timur

Tahun 1 (1966-1970), 2 (1971 -1975), 3 (1976-1980), 4 (1981-1985), 5 (1986-1990), 6 (1991-1995), 7 (1996-2000), 8 (2001-2005)

Komoditas Alpukat, bawang daun, bawang merah, Bawang Putih, Bayam, Belimbing, buncis, cabe, duku/langsat, durian, Jagung, jambu, Jeruk, Kacang Hijau, kacang merah, Kacang Panjang, Kacang Tanah, Kangkung, Kedele, kentang, Ketimun, kol/kubis, Labu Siam, Lobak , Mangga, Manggis, Melon, nangka/cempedak, nanas, Padi , Padi Ladang,Padi Sawah, Pepaya, petsai/sawi, Pisang, Rambutan, Salak, Sawo, Sirsak, Terung, Tomat, Ubi Jalar, ubi kayu/ketela pohon, Wortel, Semangka, Sukun

produktivitas Berisi nilai dari indikator produktivitas.

luas panen Berisi nilai dari indikator luas panen.

produksi Berisi nilai dari indikator produksi dan berfungsi juga sebagai kelas dalam tree yang dibentuk.

Page 25: Decision Tree

Lampiran 5 Aturan yang terbentuk pada tabel bdspT7

Page 26: Decision Tree

Lampiran 5 Lanjutan

Page 27: Decision Tree

Lampiran 5 Lanjutan

Page 28: Decision Tree

Lampiran 5 Lanjutan

Page 29: Decision Tree

Lampiran 5 Lanjutan

Page 30: Decision Tree

Lampiran 5 Lanjutan

Page 31: Decision Tree

Lampiran 5 Lanjutan

Page 32: Decision Tree

Lampiran 5 Lanjutan

Page 33: Decision Tree

Lampiran 5 Lanjutan

Page 34: Decision Tree

Lampiran 5 Lanjutan

Page 35: Decision Tree

Lampiran 5 Lanjutan

Page 36: Decision Tree

Lampiran 6 Nilai input untuk pengujian

No Komoditas lokasi Produk tivitas

luas panen

produksi dari

aturan

produksi dari test

set 1 Alpukat Bangka Belitung <= 6 <= 6 1 - 2 Alpukat Jawa Barat <= 6 <= 6 1 - 3 Bawang Daun DIY <= 6 <= 6 1 1 4 Bawang Daun Maluku <= 6 <= 6 1 1 5 Bawang Daun Maluku Utara <= 6 <= 6 0 - 6 Bawang Daun Papua <= 6 <= 6 1 1 7 Bawang Daun Sulawesi Selatan <= 6 <= 6 1 - 8 Bawang Merah Sulawesi Selatan <= 6 <= 6 1 1 9 Bawang Merah Papua <= 6 <= 6 1 -

10 Bawang Merah Bali <= 6 <= 6 1 1 11 Bawang Merah Lampung <= 6 <= 6 1 1 12 Bawang Merah Sumatera Selatan <= 6 <= 6 1 1 13 Bawang Putih Bengkulu <= 6 <= 6 1 - 14 Bawang Putih Papua <= 6 <= 6 1 1 15 Bawang Putih Jambi <= 6 <= 6 1 1 16 Jagung DKI <= 6 <= 6 1 1 17 Padi Sawah NTT <= 6 <= 6 5 - 18 Padi Sawah Sumatera Selatan <= 6 > 6 7 - 19 Bayam Kalimantan Timur <= 6 <= 6 1 1 20 Bayam Sulawesi Selatan <= 6 <= 6 1 1 21 Bayam Jawa Barat <= 6 <= 6 1 1 22 Bayam Sulawesi Tengah <= 6 <= 6 1 1 23 Belimbing Maluku <= 6 <= 6 1 - 24 Belimbing Sumatera Utara <= 6 <= 6 1 1 25 Belimbing NAD <= 6 <= 6 1 1 26 Belimbing Lampung <= 6 <= 6 1 1 27 Belimbing Riau <= 6 <= 6 1 - 28 Buncis Riau <= 6 <= 6 1 1 29 Buncis Sumatera Utara <= 6 <= 6 1 1 30 Buncis Maluku Utara <= 6 <= 6 1 - 31 Buncis Maluku <= 6 <= 6 0 - 32 Buncis Sumatera Selatan <= 6 <= 6 1 1 33 Cabe DIY <= 6 <= 6 1 1 34 Cabe DKI <= 6 <= 6 1 1 35 Cabe Kalimantan Barat <= 6 <= 6 1 1 36 Cabe Kalimantan Selatan <= 6 <= 6 1 - 37 Cabe Sumatera Barat <= 6 <= 6 1 - 38 Duku/Langsat Sumatera Utara <= 6 <= 6 1 1 39 Duku/Langsat Jambi <= 6 <= 6 1 1 40 Duku/Langsat Papua <= 6 <= 6 1 1 41 Durian Bali <= 6 <= 6 1 1 42 Durian Sumatera Utara <= 6 <= 6 1 - 43 Durian Sumatera Barat <= 6 <= 6 1 1 44 Durian Riau <= 6 <= 6 1 - 45 Durian Kalimantan Barat <= 6 <= 6 1 1 46 Padi NTB <= 6 <= 6 7 7 47 Padi Jawa Barat <= 6 <= 6 9 - 48 Padi Kalimantan Timur <= 6 <= 6 - - 49 Sirsak Jawa Barat <= 6 <= 6 1 1

Page 37: Decision Tree

Lampiran 6 Lanjutan

No Komoditas lokasi Produk tivitas

luas panen

produksi dari

aturan

produksi dari test

set 50 Sukun Sumatera Selatan <= 6 <= 6 1 - 51 Mangga Jawa Tengah <= 6 <= 6 5 5 52 Jeruk NAD <= 6 <= 6 1 - 53 Bawang Putih Riau <= 6 <= 6 1 - 54 Bawang Putih NTT <= 6 <= 6 1 - 55 Bawang Putih NTB <= 6 <= 6 1 - 56 Bayam Maluku <= 6 <= 6 1 1 57 Belimbing Sumatera Barat <= 6 <= 6 1 1 58 Belimbing Sulawesi Utara <= 6 <= 6 1 1 59 Buncis Jawa Timur <= 6 <= 6 1 1 60 Buncis Jambi <= 6 <= 6 1 1 61 Buncis Kalimantan Timur <= 6 <= 6 1 1 62 Duku/Langsat Kalimantan Timur <= 6 <= 6 1 1 63 Duku/Langsat Maluku <= 6 <= 6 1 1 64 Mangga Jawa Barat <= 6 <= 6 5 5 65 Mangga Jawa Tengah <= 6 <= 6 5 5 66 Mangga Jawa Timur <= 6 <= 6 1 1 67 Mangga Papua <= 6 <= 6 5 5 68 Kacang Panjang Jawa Barat <= 6 <= 6 1 1 69 Kacang Panjang Jawa Tengah <= 6 <= 6 1 1 70 Kacang Panjang Kalimantan Timur <= 6 <= 6 1 1 71 Kacang Panjang Kalimantan Barat <= 6 <= 6 1 1 72 Sukun DIY <= 6 <= 6 1 - 73 Sukun Jambi <= 6 <= 6 1 1 74 Sukun DKI <= 6 <= 6 1 1 75 Sukun Jawa Barat <= 6 <= 6 - 1 76 Jagung Bali <= 6 <= 6 7 - 77 Jagung Lampung <= 6 <= 6 1 1 78 Jagung DKI <= 6 <= 6 7 1 79 Jagung Maluku <= 6 <= 6 1 - 80 Melon Lampung <= 6 <= 6 1 - 81 Melon Maluku <= 6 <= 6 1 1 82 Melon Papua <= 6 <= 6 1 - 83 Melon Riau <= 6 <= 6 1 - 84 Terung Kalimantan Barat <= 6 <= 6 1 1 85 Terung Kalimantan Tengah <= 6 <= 6 1 1 86 Terung Kalimantan Timur <= 6 <= 6 1 1 87 Terung Sulawesi Selatan <= 6 <= 6 1 - 88 Terung Sulawesi Tengah <= 6 <= 6 1 1 89 Jeruk Bengkulu <= 6 <= 6 1 1 90 Jeruk Lampung <= 6 <= 6 1 1 91 Jeruk Papua <= 6 <= 6 1 1 92 Jeruk Jambi <= 6 <= 6 1 1 93 Jeruk Bali <= 6 <= 6 1 1 94 Buncis Jawa Timur <= 6 <= 6 1 1 95 Kacang Hijau Riau <= 6 <= 6 1 1 96 Kacang Hijau Maluku <= 6 <= 6 1 - 97 Kacang Hijau Bali <= 6 <= 6 1 1

Page 38: Decision Tree

Lampiran 6 Lanjutan

No Komoditas lokasi Produk tivitas

luas panen

produksi dari

aturan

produksi dari test

set 98 Kacang Hijau Sulawesi Selatan <= 6 <= 6 1 - 99 Kacang Hijau Papua <= 6 <= 6 1 1

100 Kacang Hijau Jambi <= 6 <= 6 1 1 101 Jeruk Jawa Timur <= 6 <= 6 1 1 102 Jeruk Maluku <= 6 <= 6 1 1 103 Kacang Hijau Maluku <= 6 <= 6 1 - 104 Kacang Hijau Papua <= 6 <= 6 1 1 105 Kacang Tanah DIY <= 6 <= 6 1 - 106 Kacang Tanah Kalimantan Timur <= 6 <= 6 1 1 107 Kedele Sulawesi Selatan <= 6 <= 6 1 - 108 Kangkung Maluku <= 6 <= 6 1 1 109 kentang Jawa Barat <= 6 <= 6 1 1 110 Ketimun NAD <= 6 <= 6 1 1 111 Ketimun Sumatera Selatan <= 6 <= 6 1 1 112 Labu Siam Lampung <= 6 <= 6 1 1 113 Labu Siam Jawa Barat <= 6 <= 6 1 - 114 Kol / Kubis Jawa Tengah <= 6 <= 6 5 5 115 Kol / Kubis DIY <= 6 <= 6 1 1 116 Kol / Kubis Jawa Barat <= 6 <= 6 4 5 117 Mangga Lampung <= 6 <= 6 1 1 118 Mangga Jawa Tengah <= 6 <= 6 5 5 119 Mangga Sumatera Selatan <= 6 <= 6 1 1 120 Lobak Bangka Belitung <= 6 <= 6 1 - 121 Lobak NAD <= 6 <= 6 1 1 122 Melon Kalimantan Timur <= 6 <= 6 1 1 123 Nangka / Cempedak Sulawesi Utara <= 6 <= 6 1 1 124 Nenas Riau <= 6 <= 6 1 1 125 Nenas Papua <= 6 <= 6 1 - 126 Padi Ladang Papua <= 6 <= 6 1 - 127 Padi Ladang Sumatera Selatan <= 6 <= 6 5 5 128 Pepaya NTB <= 6 <= 6 1 1 129 Pepaya Maluku <= 6 <= 6 1 - 130 Pisang Maluku Utara <= 6 <= 6 - - 131 Pisang Jawa Timur <= 6 <= 6 4 4 132 Rambutan Bengkulu <= 6 <= 6 1 - 133 Rambutan Sumatera Selatan <= 6 <= 6 1 1 134 Salak DIY <= 6 <= 6 1 - 135 Salak Bali <= 6 <= 6 1 1 136 Semangka Bali <= 6 <= 6 1 1 137 Sirsak Jawa Timur <= 6 <= 6 1 1 138 Sukun Sumatera Utara <= 6 <= 6 1 1 139 Sawo Maluku <= 6 <= 6 1 - 140 Tomat Maluku <= 6 <= 6 1 1 141 Tomat NAD <= 6 <= 6 1 1 142 Terung NTT <= 6 <= 6 1 - 143 Wortel Bengkulu <= 6 <= 6 1 1 144 Ubi Jalar Riau <= 6 <= 6 1 1

145 Ubikayu/Ketela Pohon NTT <= 6 <= 6 - -

Page 39: Decision Tree

Lampiran 6 Lanjutan

No Komoditas lokasi Produk tivitas

luas panen

produksi dari

aturan

produksi dari test

set

146 Ubikayu/Ketela Pohon Papua <= 6 <= 6 1 1

147 Ubikayu/Ketela Pohon Jawa Tengah <= 6 <= 6 10 10

148 Semangka Kalimantan Tengah <= 6 <= 6 1 1 149 Padi Sawah Sumatera Utara <= 6 <= 6 10 - 150 Padi Sawah Timur Timor <= 6 <= 6 1 - 151 Manggis Bali <= 6 <= 6 1 1 152 Manggis Bengkulu <= 6 <= 6 1 - 153 Manggis Jawa Tengah <= 6 <= 6 1 - 154 Manggis Jawa Barat <= 6 <= 6 1 - 155 Bawang Merah Bali <= 6 <= 6 1 1 156 Bawang Merah Lampung <= 6 <= 6 1 1 157 Sawo Kalimantan Timur <= 6 <= 6 1 1 158 Sawo Kalimantan Tengah <= 6 <= 6 1 1 159 Sawo Kalimantan Selatan <= 6 <= 6 1 1 160 Pepaya Bengkulu <= 6 <= 6 1 1 161 Pepaya Jambi <= 6 <= 6 1 1 162 Pepaya Sulawesi Tengah <= 6 <= 6 1 - 163 Pepaya Papua <= 6 <= 6 1 1 164 Sirsak NTT <= 6 <= 6 1 - 165 Sirsak NTB <= 6 <= 6 1 - 166 Sirsak Riau <= 6 <= 6 1 1 167 Sirsak Sumatera Selatan <= 6 <= 6 1 1 168 Sirsak Sumatera Barat <= 6 <= 6 1 1 169 Ubi Jalar Papua <= 6 <= 6 5 - 170 Ubi Jalar Jambi <= 6 <= 6 1 1 171 Ubi Jalar Bengkulu <= 6 <= 6 1 5 172 Ubi Jalar NTT <= 6 <= 6 1 1 173 Ubi Jalar Sulawesi Tengah <= 6 <= 6 1 1 174 Lobak Sumatera Barat <= 6 <= 6 1 - 175 Lobak NAD <= 6 <= 6 1 1 176 Lobak Sumatera Utara <= 6 <= 6 1 1 177 Lobak Jambi <= 6 <= 6 1 - 178 Lobak NTT <= 6 <= 6 1 1 179 Tomat Bali <= 6 <= 6 1 1 180 Tomat DKI <= 6 <= 6 - 1 181 Tomat DIY <= 6 <= 6 1 - 182 Tomat Jambi <= 6 <= 6 1 1 183 Tomat Bengkulu <= 6 <= 6 1 1 184 Tomat Maluku <= 6 <= 6 1 1 185 Kedele NAD <= 6 <= 6 1 - 186 Kedele Maluku <= 6 <= 6 1 1 187 Kedele Papua <= 6 <= 6 1 1 188 Kedele Bali <= 6 <= 6 1 - 189 Kedele Jawa Barat <= 6 <= 6 1 - 190 Wortel NTT <= 6 <= 6 1 - 191 Wortel NTB <= 6 <= 6 1 1 192 Wortel Sumatera Selatan <= 6 <= 6 1 1

Page 40: Decision Tree

Lampiran 6 Lanjutan

No Komoditas lokasi Produk tivitas

luas panen

produksi dari

aturan

produksi dari test

set 193 Rambutan Bali <= 6 <= 6 1 1 194 Rambutan Bengkulu <= 6 <= 6 1 - 195 Rambutan Riau <= 6 <= 6 1 1 196 Rambutan NAD <= 6 <= 6 1 1 197 Rambutan DKI <= 6 <= 6 1 1 198 Rambutan Kalimantan Selatan <= 6 <= 6 1 1 199 Rambutan Kalimantan Barat <= 6 <= 6 1 1 200 Sawo Kalimantan Barat <= 6 <= 6 1 1

Page 41: Decision Tree

Lampiran 7 Hasil Pengujian dengan 100 data masukan berupa data acak

Nama Tabel

Hasil Pengujian ke-1 (%)

Hasil Pengujian ke-2 (%)

Hasil Pengujian ke-3 (%)

Nilai Rata-rata

bdspT1 10.00 10.30 10.00 10.10

bdspT2 45.00 45.00 45.10 45.03

bdspT3 41.00 41.02 41.00 41.01

bdspT4 51.00 51.00 51.00 51.00

bdspT5 60.00 60.33 60.00 60.11

bdspT6 55.00 55.00 55.00 55.00

bdspT7 67.00 67.50 67.00 67.17

bdspT8 33.50 33.00 33.50 33.33

Lampiran 8 Hasil Pengujian dengan 150 data masukan berupa data acak

Nama Tabel

Hasil Pengujian ke-1 (%)

Hasil Pengujian ke-2 (%)

Hasil Pengujian ke-3 (%)

Nilai Rata-rata

bdspT1 11.33 11.33 11.33 11.33

bdspT2 46.98 47.00 46.50 46.83

bdspT3 42.28 42.33 42.25 42.29

bdspT4 53.02 53.00 53.10 53.04

bdspT5 60.00 60.00 60.00 60.00

bdspT6 53.33 53.50 53.15 53.33

bdspT7 66.00 66.00 66.00 66.00

bdspT8 34.00 34.05 34.20 34.08

Lampiran 9 Hasil Pengujian dengan 200 data masukan berupa data acak

Nama Tabel

Hasil Pengujian ke-1 (%)

Hasil Pengujian ke-2 (%)

Hasil Pengujian ke-3 (%)

Nilai Rata-rata

bdspT1 10.50 10.50 11.00 10.67

bdspT2 49.50 49.83 49.50 49.61

bdspT3 45.50 45.50 45.50 45.50

bdspT4 52.50 52.00 52.50 52.33

bdspT5 57.50 57.50 57.50 57.50

bdspT6 55.50 55.50 55.70 55.57

bdspT7 65.50 65.50 65.50 65.50

bdspT8 32.50 35.50 32.50 33.50

Page 42: Decision Tree

Lampiran 10 Grafik akurasi dengan 100 data pengujian dengan data acak

Lampiran 11 Grafik akurasi dengan 150 data pengujian dengan data acak

Lampiran 12 Grafik akurasi dengan 200 data pengujian dengan data acak

Page 43: Decision Tree

Lampiran 13 Tampilan modul pengguna