perbandingan metode naive bayes dan decision tree pada weka.pdf

23
Nama : Juliano Christian Bae Buro Nama Dosen : Sulidar Fitri, M.sc NIM : 2011.01878.11.0220 Semester 7 Pagi - S1 Teknik Informatika Matakul : Data Warehouse & Data Mining Jawaban Soal UTS DWDM 1 Soal Ujian : 1. Gunakan Dataset penentuan kualitas buah berikut ini: a. Tentukan Kelas dari data baru di bawah menggunakan algoritma Naive Bayesian Classifier! Sertakan perhitungannya No Kelas Kulit Buah Warna Ukuran Bau 1 ????? Kasar Hijau Kecil Keras Jawab : P(kelas : “Aman”) = 10/16 = 0,625 P(kelas : “Berbahaya”) = 6/16 = 0,375 P(kulit buah : kasar | kelas : aman) = 6/10 = 0,6 P(kulit buah : kasar | kelas : berbahaya) = 2/6 = 0,3 P(warna : hijau | kelas : aman) = 2/10 = 0,2 P(warna : hijau | kelas : berbahaya) = 4/6 = 0,7 P(ukuran : kecil | kelas : aman) = 5/10 = 0,5 P(ukuran : kecil | kelas : berbahaya) = 4/6 = 0,7 P(bau : keras | kelas : aman) = 7/10 = 0,7 P(bau : keras | kelas : berbahaya) = 4/6 = 0,7

Upload: ricky-buro

Post on 26-Dec-2015

1.443 views

Category:

Documents


337 download

TRANSCRIPT

Page 1: perbandingan metode naive bayes dan decision tree pada weka.pdf

Nama : Juliano Christian Bae Buro Nama Dosen : Sulidar Fitri, M.sc NIM : 2011.01878.11.0220 Semester 7 Pagi - S1 Teknik Informatika Matakul : Data Warehouse & Data Mining Jawaban Soal UTS DWDM

1

Soal Ujian :

1. Gunakan Dataset penentuan kualitas buah berikut ini:

a. Tentukan Kelas dari data baru di bawah menggunakan algoritma Naive Bayesian

Classifier! Sertakan perhitungannya

No Kelas Kulit Buah Warna Ukuran Bau

1 ????? Kasar Hijau Kecil Keras

Jawab :

P(kelas : “Aman”) = 10/16 = 0,625

P(kelas : “Berbahaya”) = 6/16 = 0,375

P(kulit buah : kasar | kelas : aman) = 6/10 = 0,6

P(kulit buah : kasar | kelas : berbahaya) = 2/6 = 0,3

P(warna : hijau | kelas : aman) = 2/10 = 0,2

P(warna : hijau | kelas : berbahaya) = 4/6 = 0,7

P(ukuran : kecil | kelas : aman) = 5/10 = 0,5

P(ukuran : kecil | kelas : berbahaya) = 4/6 = 0,7

P(bau : keras | kelas : aman) = 7/10 = 0,7

P(bau : keras | kelas : berbahaya) = 4/6 = 0,7

Page 2: perbandingan metode naive bayes dan decision tree pada weka.pdf

2

P(x | kelas = aman)

(kulit buah : kasar | kelas : aman) = 0,6

(warna : hijau | kelas : aman) = 0,2

(ukuran : kecil | kelas : aman) = 0,5

(bau : keras | kelas : aman) = 0,7

- 0,6 x 0,2 x 0,5 x 0,7 = 0,042

P(x | kelas = berbahaya)

(kulit buah : kasar | kelas : berbahaya) = 0,3

(warna : hijau | kelas : berbahaya) = 0,7

(ukuran : kecil | kelas : berbahaya) = 0,7

(bau : keras | kelas : berbahaya) = 0,7

- 0,3 x 0,7 x 0,7 x 0,7 = 0,103

P(x | kelas : aman)P(kelas : aman) =

- 0,042 x 0,625 = 0,026

P(x | kelas : berbahaya)P(kelas : berbahaya) =

- 0,103 x 0,375 = 0,039 – “Nilai paling besar “

Jadi, kesimpulannya : Hasil dari prediksi data baru menggunakan algoritma naive bayesian

classifier yaitu : kelas “Berbahaya = 0,039”.

b. Buatlah Pohon keputusan berdasarkan data tersebut. Sertakan perhitungan dan

gambar pohonnya!

Jawab :

Class P : kelas = aman (10)

Class N : kelas = berbahaya (6)

- Info (D) = I (10,6) = - 10/16 log2 (10/16) – 6/16 log2 (6/16) = 0,954

Warna P1 N1 (P1,N1)

Coklat 3 0 0

Hijau 2 4 0,918

Merah 5 2 0,863

- Info warna (D) = 3/16 I (3,0) + 6/16 I (2,4) + 7/16 I (5,2) = 0,722

- Gain ( Warna) = Info (D) – Info warna (D)

= 0,954 – 0,722

= 0,232

Kulit Buah P1 N1 (P1,N1)

Kasar 6 2 0,811

Halus 4 4 1

Page 3: perbandingan metode naive bayes dan decision tree pada weka.pdf

3

- Info buah (D) = 8/16 I (6,2) + 8/16 I (4,4) = 0,906

- Gain buah (D) = Info (D) – Info buah (D)

= 0,954 – 0,906

= 0,048

Ukuran P1 N1 (P1,N1)

Besar 5 2 0,863

Kecil 5 4 0,991

- Info ukuran (D) = 7/16 I (5,2) + 9/16 I (5,4) = 0,935

- Gain ukuran = Info (D) – Info ukuran (D)

= 0,954 – 0,935

= 0,019

Bau P1 N1 (P1,N1)

Keras 7 4 0,946

Lunak 3 2 0,971

- Info bau (D) = 11/16 I (7,4) + 5/16 I (3,2) = 0,954

- Gain bau (D) = Info (D) – Info bau (D)

= 0,954 – 0,954

= 0

Gain (Warna) = 0,232 – Warna yang paling besar

Gain (Kulit buah) = 0,048

Gain (Ukuran) = 0,019

Gain (Bau) = 0

Hasil pohon keputusannya :

Warna

Coklat MerahHijau

Aman ( yes )

(3,0)

Page 4: perbandingan metode naive bayes dan decision tree pada weka.pdf

4

a. Proses data warna “Hijau”

Kelas Kulit buah Warna Ukuran Bau

Aman Kasar Hijau Besar Keras

Aman Kasar Hijau Besar Lunak

Berbahaya Kasar Hijau Kecil Lunak

Berbahaya Halus Hijau Kecil Keras

Berbahaya Halus Hijau Kecil Keras

Berbahaya Kasar Hijau Kecil Keras

- Info (D) = I (2,4) = - 2/6 log2 (2/6) – 4/6 log2 (4/6) = 0,918

Informasi : Gain warna tidak perlu dihitung lagi, yang dihitung adalah gain

kulit buah, ukuran dan bau.

Kulit Buah P1 N1 (P1,N1)

Kasar 2 2 1

Halus 0 2 0

- Info kulit buah (D) = 4/6 I (2,2) + 2/6 I (0,2) = 0,667

- Gain (kulit buah) = Info (D) – Info kulit buah (D)

= 0,918 – 0,667

= 0,251

Ukuran P1 N1 (P1,N1)

Besar 2 0 0

Kecil 0 4 0

- Info ukuran (D) = 2/6 I (2,0) + 4/6 I (0,4) = 0

- Gain (ukuran) = Info (D) – Info ukuran (D)

= 0,918 – 0

= 0,918

Bau P1 N1 (P1,N1)

Keras 1 3 0,811

Lunak 1 1 1

- Info bau (D) = 4/6 I (1,3) + 2/6 I (1,1) = 0,874

- Gain (bau) = Info (D) – Info bau (D)

= 0,918 – 0,874

= 0,044

Page 5: perbandingan metode naive bayes dan decision tree pada weka.pdf

5

Gain (kulit buah) = 0,251

Gain (ukuran) = 0,918 – Ukuran yang paling besar

Gain (bau) = 0,044

Kesimpulannya : Dari hasil perhitungan data warna “hijau” ditemukan bahwa Gain ukuran

= 0,918 nilanya lebih besar.

b. Proses data warna “Merah”

Kelas Kulit buah Warna Ukuran Bau

Berbahaya Halus Merah Besar Lunak

Aman Kasar Merah Kecil Keras

Aman Halus Merah Kecil Keras

Aman Kasar Merah Besar Keras

Aman Kasar Merah Kecil Lunak

Berbahaya Halus Merah Besar Keras

Aman Halus Merah Kecil Keras

- Info (D) = I (5,2) = - 5/7 log2 (5/7) – 2/7 log2 (2/7) = 0,863

Informasinya : Gain warna “coklat” tidak perlu dihitung lagi, yang harus

dihitung adalah kulit buah, ukuran dan bau dari warna “merah”.

Kulit Buah P1 N1 (P1,N1)

Kasar 3 0 0

Halus 2 2 1

- Info kulit buah (D) = 3/7 I (3,0) + 4/7 I (2,2) = 0,571

- Gain (Kulit buah) = Info (D) – Info kulit buah (D)

= 0,863 – 0,571

= 0,292

Ukuran P1 N1 (P1,N1)

Besar 1 2 0,918

Kecil 4 0 0

- Info ukuran (D) = 3/7 I (1,2) + 4/7 I (4,0) = 0,393

- Gain (ukuran) = Info (D) – Info ukuran (D)

= 0,863 – 0,393

= 0,470

Bau P1 N1 (P1,N1)

Keras 4 1 0,722

Lunak 1 1 1

Page 6: perbandingan metode naive bayes dan decision tree pada weka.pdf

6

- Info bau (D) = 5/7 I (4,1) + 2/7 I (1,1) = 0,801

- Gain (bau) = Info (D) – Info bau (D)

= 0,863 – 0,801

= 0,062

Gain (kulit buah) = 0,292

Gain (ukuran) = 0,470 – Ukuran yang paling besar

Gain (bau) = 0,062

Hasil pohon keputusannya :

Warna

Coklat MerahHijau

Aman ( yes )

(3,0)

Ukuran Ukuran

Besar BesarKecil Kecil

Aman( yes ) Berbahaya( no ) Berbahaya( no ) Aman( yes )

(2,0) (0,4) (1,2) (4,0)

Page 7: perbandingan metode naive bayes dan decision tree pada weka.pdf

7

2. Gunakan software weka dan lakukanlah pengolahan data untuk beberapa dataset yang

sudah disediakan berdasarkan ketentuan : (sesuaikan dataset dengan data mahasiswa

pada presensi.xlsx)

a. Laporkan langkah / teknik yang kalian lakukan pada proses pengolahan data dalam

weka. Sertakan juga langkar pembuatan file *.arff

Jawab :

Langkah pertama : Menyiapkan file dataset mahasiswa (file monks),

sebelum melakukan proses pengolahan data pada weka, hal pertama yang

harus dilakukan yaitu merubah file dataset tersebut ke dalam bentuk *.arff

sehingga proses pengolahan dataset presensi mahasiswa dapat berjalan

sebagaimana mestinya (file monks).

Gambar 1. file dataset yang harus disediakan

Langkah kedua : sebelum mengubah file *.arff, terlebih dahulu dilakukan

yaitu melakukan konversi data monk-2.train. Cara yang dilakukan sebagai

berikut : membuka file dataset tersebut menggunakan excel, yang kemudian

mengubah tipe file ke dalam tipe file *.csv.

Gambar 2. Hasil data yang dibuka menggunakan excel

File Dataset

Page 8: perbandingan metode naive bayes dan decision tree pada weka.pdf

8

Kemudian lakukan save as file tersebut di atas, lalu simpan dengan tipe *.csv.

Gambar 3. Mengganti format file nya ke dalam bentuk *.csv

Setelah di simpan, berarti file dataset nya sudah menjadi file baru dengan tipe

*.csv yang nanti nya akan dipakai dan dimasukan ke dalam weka untuk di

jadikan file *.arff. Tapi perlu diketahui bahwa weka menggunakan standar

pemisahan pada itu menggunakan tanda “,” sedangkan file csv yang baru dibuat

menggunakan dua standar pemisahan yaitu “;” dan “,”. Sebelum dimasukan ke

dalam weka, terlebih dahulu mengubah nya secara manual tanda pemisahan

tersebuh menggunakan notepad. Karna weka hanya akan menerima data

pemisahannya menggunakan “,”. Gunakan teknik replace all untuk mengubah

semua data.

Gambar 4. Edit dataset

1. Ganti format

menjadi csv.

2. Klik “Save”.

1. Klik “edit” Gunakan teknik

“replace all”.

2. Setelah diubah lakukan “save

as” dgn tipe *.csv

3. Data di samping adalah hasil

dari edit data pada langkah

pertama.

Page 9: perbandingan metode naive bayes dan decision tree pada weka.pdf

9

data di atas sudah diubah tanda pemisahnya, yang sebelumnya menggunakan

tanda “;” sekarang telah menjadi “,”. Kemudian lakukan “save as” simpan

dengan tipe yang sama yaitu *.csv.

Langkah ketiga : semua data yang telah siap, kemudian dimasukkan ke dalam

weka untuk melihat data tersebut berhasil di terima atau tidak oleh weka.

- Buka Software weka, kemudian klik pada menu kotak dialog

explorer untuk membuka dataset.

- Hasil dari pemanggilan menu “explorer” pada software weka.

- File yang dimasukkan pada langkah diatas masih file *.csv yang telah

terbaca oleh weka. Dengan mengklik menu “save” dataset akan

diubah ke dalam format “.arff yang menjadi tujuan awal.

1. Klik “open file”

untk memanggil

dataset nya

2. Table dataset yang

berhasil di panggil weka

menggunakan file *csv.

3. Data Visualize - >

4. Klik menu “save” untuk

menyimpan data yg akan

menjadi file *.arff

Page 10: perbandingan metode naive bayes dan decision tree pada weka.pdf

10

Gambar 5. Dataset monks-train telah menjadi file *.arff

- Tampilan File dataset *.arff monks yang berhasil diubah. Dari

tampilan dibawah dapat di lihat bahwa ada pemisahan bagian-bagian

data. Struktur file *.arff pada weka terdapat 3 bagian utama yaitu

header yang berisi @relation, bagian tengah @attribute dari data,

kemudian yang terakhir yaitu @data, berisi sejumlah data.

Gambar 6. File *.arff

Kesimpulan : Langkah – langkah di atas merupakan langkah sebelum pengolahan data yaitu

melakukan konversi 2 file dataset presensi monks-2.train (data training/model) dan monks-

2.test untuk prediksi data baru ke dalam file *.arff

b. Gunakan Algoritma Naive Bayes classifier untuk membuat model dan memprediksi

data baru. Lampirkan informasi output ke dalam laporan.

Jawab :

Langkah-langkah untuk membuat model menggunakan algoritma naive

bayes sebagai berikut :

Hasil data yang

disimpan menjadi file

baru *.arff

Bagian @relation

Bagian @attribute

Bagian @data

Page 11: perbandingan metode naive bayes dan decision tree pada weka.pdf

11

- Langkah pertama : Membuka aplikasi weka kemudian memasukkan

dataset presensi yang bertipe *.arff. Dataset yang dimasukkan yaitu

dataset monks-train yang merupakan dataset yang akan dipakai untuk

membuat model atau training data.

- Kemudian setelah memasukkan data monks-train, masukklah pada

menu classify untuk memodelkan data dan ikutlah langkah-langkah

yang tercetak merah di dalam gambar tersebut.

Gambar 7. Tampilan Classify

Data training model yang

dipakai utk membuat

model

Menu classify

1. Pilihlah menu “choose utk

mengganti algoritma naive bayes

2. Pakailah “use training set” utk

memodelkan data.

3. Klik tombol “start” utk melihat

hasil

Page 12: perbandingan metode naive bayes dan decision tree pada weka.pdf

12

- Langkah selanjutnya lakukan pembuatan model pada dataset

monks-train dengan menggunakan algoritma naive bayesian

classfier yaitu dengan cara sebagi berikut :

- Setelah di save, kemudian load kembali model yang di simpan

tersebut dengan mengikuti langkah ketiga di atas dengan mengklik

“load model”. Kemudian klik star maka akan diperoleh ouput model

information dari algoritma naive bayes yang digunakan. Hasilnya

seperti berikut.

1. Plih menu “choose naive bayes”.

2. Pilih “use training set”.

3. Klik kanan pd data yg di run prtama

kali, kemudian save model tersebut.

Page 13: perbandingan metode naive bayes dan decision tree pada weka.pdf

13

Langkah – langkah prediksi data baru menggunakan algoritma naive bayes.

- Langkah awal yaitu dengan membuka file dataset monks-test.*arff

yang akan dipakai untuk memprediksi data baru menggunakan

algoritma naive bayes. Langkah di atas sama hal dengan cara

memprediksi data baru yang akan dilakukan, tetapi ada beberapa

perubahan yaitu sbb :

Sebelum melakukan prediksi data baru, data “test” yang akan

dipakai untuk memprediksi data baru sebelumnya harus di

kosongkan class nya terlebih dahulu, menggantikan dengan tanda

“?”.

Model Information dari

Algoritma naive bayes

Load model

Output Model

1. Pilih algoritma naive bayes

2. Klik set pada “suplied test set” maka akan

muncul kotak dialog test instances di atas

utk mengambil data prediksi “test”

3. Klik star untuk melihat outputnya.

Page 14: perbandingan metode naive bayes dan decision tree pada weka.pdf

14

- Hasil perbandingan klasifikasi menggunakan naive bayesian dapat di

lihat berikut ini berdasarkan tingkat corectly dan incorectrly :

- Dari langkat di atas hasil prediksi dari yang kita lakukan belum

ditemukan, selanjutnya kita akan melihat visualize classifer error

dari penggunakan algoritma naive bayes terhadap dataset prediksi.

Contoh Class yang

di kosongkan

Merupakan Perbandingan

dgn algoritma naive bayes,

dgn melihat tingkat

“corectly & Incorectly”

Page 15: perbandingan metode naive bayes dan decision tree pada weka.pdf

15

- Setelah melalui langkah di atas, berarti file prediksi yang baru di

prediksi sudah jadi dan berbentuk file *.arff. Sekarang yang harus

dilakukan yaitu membuka kembali file prediksi tersebut untuk

melihat hasil prediksi dari naive bayes. Buka aplikasi weka kemudian

klik menu dan muncul kotak dialog klik ArffViewer maka akan

muncul tampilan ArffViewer. Buka file prediksi yang tadi telah di

simpan kemudian klik open, maka akan muncul tabel hasil prediksi

dari naive bayes classifier

Selanjutnya klik kanan pada datasetx

kemudian akan muncul kotak dialog di

samping. Klik “Vizualize classifier errors”.

Menunjukkan matriks

error dari kodinat “x,y”

penggunaan algoritma

naive bayes

Merupakan

class prediksi

baru dari

dataset

Klik “Save” dan kemudian

akan menyimpan file

prediksi naive bayes

Page 16: perbandingan metode naive bayes dan decision tree pada weka.pdf

16

Merupakan Data

Prediksi Naive Bayes

Page 17: perbandingan metode naive bayes dan decision tree pada weka.pdf

17

c. Gunakan algoritma J48 untuk decision tree untuk membuat model dan memprediksi

data baru. Lampirkan informasi output ke dalam laporan dan gambar visualisasi

pohon keputusannya.

Jawab :

Membuat model menggunakan algoritma J48 decision tree.

- Langkah-langkah membuat model pada weka menggunakan file

dataset presensi monks-train menggunakan algoritma decision tree

sama dengan langkah-langkah di atas yang di pakai dalam

memodelkan data pada algoritma naive bayes. Proses memilih

algoritma, memakai use training set, kemudian mengklik tombol star

sampai save dan load model dll. Sehingga akan diperoleh sebuah

ouput dari model yang telah dibuat yaitu sbb :

- Kemudian setelah masuk pada menu classify, ikutlah langkah-

langkah berikut :

Menu classify

Data training model yang

dipakai utk membuat

model

Page 18: perbandingan metode naive bayes dan decision tree pada weka.pdf

18

- Setelah langkah di atas dilakukan, lalu kita akan membuat model

baru menggunakan algoritma decision tree atau J48 pada weka

sebagai berikut :

- Sebelum klik save, kita akan melihat perbandingan menggunakan

algoritma J48 dengan tingkat “corectly dan incorectly classifier

instance”.

1. Klik menu choose, pilih algoritma

J48 utk

Melakukan training data.

2. Klik “Use Training Set”

3. Kemudia Klik “Start”

Klik “save

model” untuk

membuat model

baru.

Page 19: perbandingan metode naive bayes dan decision tree pada weka.pdf

19

- Selanjutnya save model dan kemudian load kembali model yang baru

saja di save untuk melihat hasil model nya.

- Selanjutnya melihat tampilan visualize tree model :

Hasil model dataset setelah di

load model

Model Information

dari Algoritma J48

Load model

Merupakan perbandingan

menggunakan J48 “corectly &

Incorectly”.

Page 20: perbandingan metode naive bayes dan decision tree pada weka.pdf

20

Langkah prediksi file dataset test menggunakan algoritma decision tree

sebagai berikut :

- Langkah awal memprediksi file dataset test sama dengan langkah

awal prediksi yang dilakukan pada algoritma naive bayes. Namun

ada beberapa langkah berbeda dalam implementasi nya.

1. Pilih choose

2. Supplied test set”klik open”

memanggil file test.

3. Klik star untuk melihat

outputx.

Hasil Perbandingan

menggunakan algoritma J48

dengan “corectly &

incorectly”

Page 21: perbandingan metode naive bayes dan decision tree pada weka.pdf

21

- Gambar di atas menunjukkan tampilan visualize classifier error dari

dataset test yang akan menghasilkan data prediksi baru menggunakan

algoritma decision tree “J48”. Tampilan langkah-langkah nya sesuai

dengan prediksi yang dilakukan oleh naive bayes, maka selanjutnya

adalah klik save kemudian simpan file prediksi nya, yang nanti akan

di buka kembali menggunakan weka.

Klik kanan pada dataset

test, kemudian Klik

visualize classifier error,

maka akan muncul

Tampilan berikut.

Menunjukkan matriks

error dari kodinat “x,y”

penggunaan algoritma

Decision tree

Class prediksi baru

dari algoritma

decision tree Klik save data

prediksi class

Page 22: perbandingan metode naive bayes dan decision tree pada weka.pdf

22

- Setelah semua langkah di atas sudah berhasil di jalankan, langkah

terakhir yaitu melihat tampilan visualize tree dari dataset test. Hasil

nya sebagai berikut.

Hasil Prediksi dari

Algoritma Decision

Tree

Page 23: perbandingan metode naive bayes dan decision tree pada weka.pdf

23

Gambar. Visualize tree file dataset monks-test secara keseluruhan.

Sekian & Terima kasih