perbandingan metode naive bayes dan decision tree pada weka.pdf
Post on 26-Dec-2015
1.456 Views
Preview:
TRANSCRIPT
Nama : Juliano Christian Bae Buro Nama Dosen : Sulidar Fitri, M.sc NIM : 2011.01878.11.0220 Semester 7 Pagi - S1 Teknik Informatika Matakul : Data Warehouse & Data Mining Jawaban Soal UTS DWDM
1
Soal Ujian :
1. Gunakan Dataset penentuan kualitas buah berikut ini:
a. Tentukan Kelas dari data baru di bawah menggunakan algoritma Naive Bayesian
Classifier! Sertakan perhitungannya
No Kelas Kulit Buah Warna Ukuran Bau
1 ????? Kasar Hijau Kecil Keras
Jawab :
P(kelas : “Aman”) = 10/16 = 0,625
P(kelas : “Berbahaya”) = 6/16 = 0,375
P(kulit buah : kasar | kelas : aman) = 6/10 = 0,6
P(kulit buah : kasar | kelas : berbahaya) = 2/6 = 0,3
P(warna : hijau | kelas : aman) = 2/10 = 0,2
P(warna : hijau | kelas : berbahaya) = 4/6 = 0,7
P(ukuran : kecil | kelas : aman) = 5/10 = 0,5
P(ukuran : kecil | kelas : berbahaya) = 4/6 = 0,7
P(bau : keras | kelas : aman) = 7/10 = 0,7
P(bau : keras | kelas : berbahaya) = 4/6 = 0,7
2
P(x | kelas = aman)
(kulit buah : kasar | kelas : aman) = 0,6
(warna : hijau | kelas : aman) = 0,2
(ukuran : kecil | kelas : aman) = 0,5
(bau : keras | kelas : aman) = 0,7
- 0,6 x 0,2 x 0,5 x 0,7 = 0,042
P(x | kelas = berbahaya)
(kulit buah : kasar | kelas : berbahaya) = 0,3
(warna : hijau | kelas : berbahaya) = 0,7
(ukuran : kecil | kelas : berbahaya) = 0,7
(bau : keras | kelas : berbahaya) = 0,7
- 0,3 x 0,7 x 0,7 x 0,7 = 0,103
P(x | kelas : aman)P(kelas : aman) =
- 0,042 x 0,625 = 0,026
P(x | kelas : berbahaya)P(kelas : berbahaya) =
- 0,103 x 0,375 = 0,039 – “Nilai paling besar “
Jadi, kesimpulannya : Hasil dari prediksi data baru menggunakan algoritma naive bayesian
classifier yaitu : kelas “Berbahaya = 0,039”.
b. Buatlah Pohon keputusan berdasarkan data tersebut. Sertakan perhitungan dan
gambar pohonnya!
Jawab :
Class P : kelas = aman (10)
Class N : kelas = berbahaya (6)
- Info (D) = I (10,6) = - 10/16 log2 (10/16) – 6/16 log2 (6/16) = 0,954
Warna P1 N1 (P1,N1)
Coklat 3 0 0
Hijau 2 4 0,918
Merah 5 2 0,863
- Info warna (D) = 3/16 I (3,0) + 6/16 I (2,4) + 7/16 I (5,2) = 0,722
- Gain ( Warna) = Info (D) – Info warna (D)
= 0,954 – 0,722
= 0,232
Kulit Buah P1 N1 (P1,N1)
Kasar 6 2 0,811
Halus 4 4 1
3
- Info buah (D) = 8/16 I (6,2) + 8/16 I (4,4) = 0,906
- Gain buah (D) = Info (D) – Info buah (D)
= 0,954 – 0,906
= 0,048
Ukuran P1 N1 (P1,N1)
Besar 5 2 0,863
Kecil 5 4 0,991
- Info ukuran (D) = 7/16 I (5,2) + 9/16 I (5,4) = 0,935
- Gain ukuran = Info (D) – Info ukuran (D)
= 0,954 – 0,935
= 0,019
Bau P1 N1 (P1,N1)
Keras 7 4 0,946
Lunak 3 2 0,971
- Info bau (D) = 11/16 I (7,4) + 5/16 I (3,2) = 0,954
- Gain bau (D) = Info (D) – Info bau (D)
= 0,954 – 0,954
= 0
Gain (Warna) = 0,232 – Warna yang paling besar
Gain (Kulit buah) = 0,048
Gain (Ukuran) = 0,019
Gain (Bau) = 0
Hasil pohon keputusannya :
Warna
Coklat MerahHijau
Aman ( yes )
(3,0)
4
a. Proses data warna “Hijau”
Kelas Kulit buah Warna Ukuran Bau
Aman Kasar Hijau Besar Keras
Aman Kasar Hijau Besar Lunak
Berbahaya Kasar Hijau Kecil Lunak
Berbahaya Halus Hijau Kecil Keras
Berbahaya Halus Hijau Kecil Keras
Berbahaya Kasar Hijau Kecil Keras
- Info (D) = I (2,4) = - 2/6 log2 (2/6) – 4/6 log2 (4/6) = 0,918
Informasi : Gain warna tidak perlu dihitung lagi, yang dihitung adalah gain
kulit buah, ukuran dan bau.
Kulit Buah P1 N1 (P1,N1)
Kasar 2 2 1
Halus 0 2 0
- Info kulit buah (D) = 4/6 I (2,2) + 2/6 I (0,2) = 0,667
- Gain (kulit buah) = Info (D) – Info kulit buah (D)
= 0,918 – 0,667
= 0,251
Ukuran P1 N1 (P1,N1)
Besar 2 0 0
Kecil 0 4 0
- Info ukuran (D) = 2/6 I (2,0) + 4/6 I (0,4) = 0
- Gain (ukuran) = Info (D) – Info ukuran (D)
= 0,918 – 0
= 0,918
Bau P1 N1 (P1,N1)
Keras 1 3 0,811
Lunak 1 1 1
- Info bau (D) = 4/6 I (1,3) + 2/6 I (1,1) = 0,874
- Gain (bau) = Info (D) – Info bau (D)
= 0,918 – 0,874
= 0,044
5
Gain (kulit buah) = 0,251
Gain (ukuran) = 0,918 – Ukuran yang paling besar
Gain (bau) = 0,044
Kesimpulannya : Dari hasil perhitungan data warna “hijau” ditemukan bahwa Gain ukuran
= 0,918 nilanya lebih besar.
b. Proses data warna “Merah”
Kelas Kulit buah Warna Ukuran Bau
Berbahaya Halus Merah Besar Lunak
Aman Kasar Merah Kecil Keras
Aman Halus Merah Kecil Keras
Aman Kasar Merah Besar Keras
Aman Kasar Merah Kecil Lunak
Berbahaya Halus Merah Besar Keras
Aman Halus Merah Kecil Keras
- Info (D) = I (5,2) = - 5/7 log2 (5/7) – 2/7 log2 (2/7) = 0,863
Informasinya : Gain warna “coklat” tidak perlu dihitung lagi, yang harus
dihitung adalah kulit buah, ukuran dan bau dari warna “merah”.
Kulit Buah P1 N1 (P1,N1)
Kasar 3 0 0
Halus 2 2 1
- Info kulit buah (D) = 3/7 I (3,0) + 4/7 I (2,2) = 0,571
- Gain (Kulit buah) = Info (D) – Info kulit buah (D)
= 0,863 – 0,571
= 0,292
Ukuran P1 N1 (P1,N1)
Besar 1 2 0,918
Kecil 4 0 0
- Info ukuran (D) = 3/7 I (1,2) + 4/7 I (4,0) = 0,393
- Gain (ukuran) = Info (D) – Info ukuran (D)
= 0,863 – 0,393
= 0,470
Bau P1 N1 (P1,N1)
Keras 4 1 0,722
Lunak 1 1 1
6
- Info bau (D) = 5/7 I (4,1) + 2/7 I (1,1) = 0,801
- Gain (bau) = Info (D) – Info bau (D)
= 0,863 – 0,801
= 0,062
Gain (kulit buah) = 0,292
Gain (ukuran) = 0,470 – Ukuran yang paling besar
Gain (bau) = 0,062
Hasil pohon keputusannya :
Warna
Coklat MerahHijau
Aman ( yes )
(3,0)
Ukuran Ukuran
Besar BesarKecil Kecil
Aman( yes ) Berbahaya( no ) Berbahaya( no ) Aman( yes )
(2,0) (0,4) (1,2) (4,0)
7
2. Gunakan software weka dan lakukanlah pengolahan data untuk beberapa dataset yang
sudah disediakan berdasarkan ketentuan : (sesuaikan dataset dengan data mahasiswa
pada presensi.xlsx)
a. Laporkan langkah / teknik yang kalian lakukan pada proses pengolahan data dalam
weka. Sertakan juga langkar pembuatan file *.arff
Jawab :
Langkah pertama : Menyiapkan file dataset mahasiswa (file monks),
sebelum melakukan proses pengolahan data pada weka, hal pertama yang
harus dilakukan yaitu merubah file dataset tersebut ke dalam bentuk *.arff
sehingga proses pengolahan dataset presensi mahasiswa dapat berjalan
sebagaimana mestinya (file monks).
Gambar 1. file dataset yang harus disediakan
Langkah kedua : sebelum mengubah file *.arff, terlebih dahulu dilakukan
yaitu melakukan konversi data monk-2.train. Cara yang dilakukan sebagai
berikut : membuka file dataset tersebut menggunakan excel, yang kemudian
mengubah tipe file ke dalam tipe file *.csv.
Gambar 2. Hasil data yang dibuka menggunakan excel
File Dataset
8
Kemudian lakukan save as file tersebut di atas, lalu simpan dengan tipe *.csv.
Gambar 3. Mengganti format file nya ke dalam bentuk *.csv
Setelah di simpan, berarti file dataset nya sudah menjadi file baru dengan tipe
*.csv yang nanti nya akan dipakai dan dimasukan ke dalam weka untuk di
jadikan file *.arff. Tapi perlu diketahui bahwa weka menggunakan standar
pemisahan pada itu menggunakan tanda “,” sedangkan file csv yang baru dibuat
menggunakan dua standar pemisahan yaitu “;” dan “,”. Sebelum dimasukan ke
dalam weka, terlebih dahulu mengubah nya secara manual tanda pemisahan
tersebuh menggunakan notepad. Karna weka hanya akan menerima data
pemisahannya menggunakan “,”. Gunakan teknik replace all untuk mengubah
semua data.
Gambar 4. Edit dataset
1. Ganti format
menjadi csv.
2. Klik “Save”.
1. Klik “edit” Gunakan teknik
“replace all”.
2. Setelah diubah lakukan “save
as” dgn tipe *.csv
3. Data di samping adalah hasil
dari edit data pada langkah
pertama.
9
data di atas sudah diubah tanda pemisahnya, yang sebelumnya menggunakan
tanda “;” sekarang telah menjadi “,”. Kemudian lakukan “save as” simpan
dengan tipe yang sama yaitu *.csv.
Langkah ketiga : semua data yang telah siap, kemudian dimasukkan ke dalam
weka untuk melihat data tersebut berhasil di terima atau tidak oleh weka.
- Buka Software weka, kemudian klik pada menu kotak dialog
explorer untuk membuka dataset.
- Hasil dari pemanggilan menu “explorer” pada software weka.
- File yang dimasukkan pada langkah diatas masih file *.csv yang telah
terbaca oleh weka. Dengan mengklik menu “save” dataset akan
diubah ke dalam format “.arff yang menjadi tujuan awal.
1. Klik “open file”
untk memanggil
dataset nya
2. Table dataset yang
berhasil di panggil weka
menggunakan file *csv.
3. Data Visualize - >
4. Klik menu “save” untuk
menyimpan data yg akan
menjadi file *.arff
10
Gambar 5. Dataset monks-train telah menjadi file *.arff
- Tampilan File dataset *.arff monks yang berhasil diubah. Dari
tampilan dibawah dapat di lihat bahwa ada pemisahan bagian-bagian
data. Struktur file *.arff pada weka terdapat 3 bagian utama yaitu
header yang berisi @relation, bagian tengah @attribute dari data,
kemudian yang terakhir yaitu @data, berisi sejumlah data.
Gambar 6. File *.arff
Kesimpulan : Langkah – langkah di atas merupakan langkah sebelum pengolahan data yaitu
melakukan konversi 2 file dataset presensi monks-2.train (data training/model) dan monks-
2.test untuk prediksi data baru ke dalam file *.arff
b. Gunakan Algoritma Naive Bayes classifier untuk membuat model dan memprediksi
data baru. Lampirkan informasi output ke dalam laporan.
Jawab :
Langkah-langkah untuk membuat model menggunakan algoritma naive
bayes sebagai berikut :
Hasil data yang
disimpan menjadi file
baru *.arff
Bagian @relation
Bagian @attribute
Bagian @data
11
- Langkah pertama : Membuka aplikasi weka kemudian memasukkan
dataset presensi yang bertipe *.arff. Dataset yang dimasukkan yaitu
dataset monks-train yang merupakan dataset yang akan dipakai untuk
membuat model atau training data.
- Kemudian setelah memasukkan data monks-train, masukklah pada
menu classify untuk memodelkan data dan ikutlah langkah-langkah
yang tercetak merah di dalam gambar tersebut.
Gambar 7. Tampilan Classify
Data training model yang
dipakai utk membuat
model
Menu classify
1. Pilihlah menu “choose utk
mengganti algoritma naive bayes
2. Pakailah “use training set” utk
memodelkan data.
3. Klik tombol “start” utk melihat
hasil
12
- Langkah selanjutnya lakukan pembuatan model pada dataset
monks-train dengan menggunakan algoritma naive bayesian
classfier yaitu dengan cara sebagi berikut :
- Setelah di save, kemudian load kembali model yang di simpan
tersebut dengan mengikuti langkah ketiga di atas dengan mengklik
“load model”. Kemudian klik star maka akan diperoleh ouput model
information dari algoritma naive bayes yang digunakan. Hasilnya
seperti berikut.
1. Plih menu “choose naive bayes”.
2. Pilih “use training set”.
3. Klik kanan pd data yg di run prtama
kali, kemudian save model tersebut.
13
Langkah – langkah prediksi data baru menggunakan algoritma naive bayes.
- Langkah awal yaitu dengan membuka file dataset monks-test.*arff
yang akan dipakai untuk memprediksi data baru menggunakan
algoritma naive bayes. Langkah di atas sama hal dengan cara
memprediksi data baru yang akan dilakukan, tetapi ada beberapa
perubahan yaitu sbb :
Sebelum melakukan prediksi data baru, data “test” yang akan
dipakai untuk memprediksi data baru sebelumnya harus di
kosongkan class nya terlebih dahulu, menggantikan dengan tanda
“?”.
Model Information dari
Algoritma naive bayes
Load model
Output Model
1. Pilih algoritma naive bayes
2. Klik set pada “suplied test set” maka akan
muncul kotak dialog test instances di atas
utk mengambil data prediksi “test”
3. Klik star untuk melihat outputnya.
14
- Hasil perbandingan klasifikasi menggunakan naive bayesian dapat di
lihat berikut ini berdasarkan tingkat corectly dan incorectrly :
- Dari langkat di atas hasil prediksi dari yang kita lakukan belum
ditemukan, selanjutnya kita akan melihat visualize classifer error
dari penggunakan algoritma naive bayes terhadap dataset prediksi.
Contoh Class yang
di kosongkan
Merupakan Perbandingan
dgn algoritma naive bayes,
dgn melihat tingkat
“corectly & Incorectly”
15
- Setelah melalui langkah di atas, berarti file prediksi yang baru di
prediksi sudah jadi dan berbentuk file *.arff. Sekarang yang harus
dilakukan yaitu membuka kembali file prediksi tersebut untuk
melihat hasil prediksi dari naive bayes. Buka aplikasi weka kemudian
klik menu dan muncul kotak dialog klik ArffViewer maka akan
muncul tampilan ArffViewer. Buka file prediksi yang tadi telah di
simpan kemudian klik open, maka akan muncul tabel hasil prediksi
dari naive bayes classifier
Selanjutnya klik kanan pada datasetx
kemudian akan muncul kotak dialog di
samping. Klik “Vizualize classifier errors”.
Menunjukkan matriks
error dari kodinat “x,y”
penggunaan algoritma
naive bayes
Merupakan
class prediksi
baru dari
dataset
Klik “Save” dan kemudian
akan menyimpan file
prediksi naive bayes
16
Merupakan Data
Prediksi Naive Bayes
17
c. Gunakan algoritma J48 untuk decision tree untuk membuat model dan memprediksi
data baru. Lampirkan informasi output ke dalam laporan dan gambar visualisasi
pohon keputusannya.
Jawab :
Membuat model menggunakan algoritma J48 decision tree.
- Langkah-langkah membuat model pada weka menggunakan file
dataset presensi monks-train menggunakan algoritma decision tree
sama dengan langkah-langkah di atas yang di pakai dalam
memodelkan data pada algoritma naive bayes. Proses memilih
algoritma, memakai use training set, kemudian mengklik tombol star
sampai save dan load model dll. Sehingga akan diperoleh sebuah
ouput dari model yang telah dibuat yaitu sbb :
- Kemudian setelah masuk pada menu classify, ikutlah langkah-
langkah berikut :
Menu classify
Data training model yang
dipakai utk membuat
model
18
- Setelah langkah di atas dilakukan, lalu kita akan membuat model
baru menggunakan algoritma decision tree atau J48 pada weka
sebagai berikut :
- Sebelum klik save, kita akan melihat perbandingan menggunakan
algoritma J48 dengan tingkat “corectly dan incorectly classifier
instance”.
1. Klik menu choose, pilih algoritma
J48 utk
Melakukan training data.
2. Klik “Use Training Set”
3. Kemudia Klik “Start”
Klik “save
model” untuk
membuat model
baru.
19
- Selanjutnya save model dan kemudian load kembali model yang baru
saja di save untuk melihat hasil model nya.
- Selanjutnya melihat tampilan visualize tree model :
Hasil model dataset setelah di
load model
Model Information
dari Algoritma J48
Load model
Merupakan perbandingan
menggunakan J48 “corectly &
Incorectly”.
20
Langkah prediksi file dataset test menggunakan algoritma decision tree
sebagai berikut :
- Langkah awal memprediksi file dataset test sama dengan langkah
awal prediksi yang dilakukan pada algoritma naive bayes. Namun
ada beberapa langkah berbeda dalam implementasi nya.
1. Pilih choose
2. Supplied test set”klik open”
memanggil file test.
3. Klik star untuk melihat
outputx.
Hasil Perbandingan
menggunakan algoritma J48
dengan “corectly &
incorectly”
21
- Gambar di atas menunjukkan tampilan visualize classifier error dari
dataset test yang akan menghasilkan data prediksi baru menggunakan
algoritma decision tree “J48”. Tampilan langkah-langkah nya sesuai
dengan prediksi yang dilakukan oleh naive bayes, maka selanjutnya
adalah klik save kemudian simpan file prediksi nya, yang nanti akan
di buka kembali menggunakan weka.
Klik kanan pada dataset
test, kemudian Klik
visualize classifier error,
maka akan muncul
Tampilan berikut.
Menunjukkan matriks
error dari kodinat “x,y”
penggunaan algoritma
Decision tree
Class prediksi baru
dari algoritma
decision tree Klik save data
prediksi class
22
- Setelah semua langkah di atas sudah berhasil di jalankan, langkah
terakhir yaitu melihat tampilan visualize tree dari dataset test. Hasil
nya sebagai berikut.
Hasil Prediksi dari
Algoritma Decision
Tree
23
Gambar. Visualize tree file dataset monks-test secara keseluruhan.
Sekian & Terima kasih
top related