prism kdd data mining

11
Latihan : 1. Kerjakan Contact-Lens Dataset dengan metode 1-R Holte ambil kesimpulannya 2. Kerjakan Playying Tennis Dataset dengan metode PRISM ambil kesimpulannya =======================###========================= 1. CONTACT LENS DATASET ALGORITMA 1R FOR EACH atribut FOR EACH value dari atribut ini, bentuk sebuah rule sets dengan cara

Upload: tita-sari-rahmawati

Post on 20-Jan-2016

157 views

Category:

Documents


2 download

DESCRIPTION

CLASSIFICATION RULE

TRANSCRIPT

Page 1: PRISM KDD DATA MINING

Latihan :1. Kerjakan Contact-Lens Dataset dengan metode 1-R Holte ambil

kesimpulannya2. Kerjakan Playying Tennis Dataset dengan metode PRISM ambil

kesimpulannya

=======================###=========================1. CONTACT LENS DATASET

ALGORITMA 1R

FOR EACH atribut

FOR EACH value dari atribut ini, bentuk sebuah rule sets dengan cara

Menghitung seberapa sering sebuah kelas dihasilkan dari pasangan atribut=value ini

Dapatkan sebuah kelas yang paling banyak dihasilkan atribut dengan value ini

Tambahkan sebuah rule “IF atribut = value

THEN kelas” ke dalam rule sets

Hitunglah tingkat kesalahan dari rules set ini

Page 2: PRISM KDD DATA MINING

Pilihlah sebuah rules set dengan tingkat kesalahan terkecil

1R-Holte untuk Contact Lens Problem

Attribute Rules Error Total ErrorAge Youngnone 4/8

Pre-presbyopicnone 3/8 9/24Presbyopicnone 2/8

Spectacle Prescription

Myopenone 5/12 9/24

Hypermetropenone 4/12

Astigmatism Nonone 5/12 9/24Yesnone 4/12

Tear production rate

Reducednone 0/12 7/24

Normalsoft 7/12

Dipilih Total Error yang jumlahnya paling kecil yaitu pada Attribute Tear Production Rate

Rule nya:IF Tear Production Rate =Reduced THEN Recommended Lenses=NoneIF Tear Production Rate =Normal THEN Recommended Lenses=Soft

Page 3: PRISM KDD DATA MINING

2. PLAYING TENNIS DATASET

ALGORITMA PRISM

FOR EACH kelas c

Inisialisasi E dengan instance set

WHILE E mengandung instances dalam kelas C

Bentuk sebuah rule dengan LHS kosong yang meprediksi kelas C UNTIL R sempurna

(tak ada atribut yang dapat dipakai), lakukan

FOR EACH atribut A yang tidak termasuk R,dan tiap nilai v,

Pertimbangkan untuk menambah kondisi A=v pada LHS dari R

Pilih A dan v untuk memaksimalkan akurasi p/t

(tips: pilih kondisi dengan nilai P yang terbesar)

Tambahkan A=v ke dalam R

Hapuslah semua instance yang tercover oleh R dari E

Catatan:

p = positive examples dari suatu kelas

t = total instances

Page 4: PRISM KDD DATA MINING

PRISM untuk Weather Problem (#1)Dibentuk rule yang mengcover setiap class: no dan yes. Misalnya dimulai dari no.IF ? THEN recommended = noUntuk kondisi pada LHS yang masih kosong terdapat 10 pilihan:

Outlook Sunny 3/5Outlook Overcast 0/4Outlook Rain 2/5Temperature Hot 2/4Temperature Mild 2/6Temperature Cool 1/4Humidity High 4/7HumidityNormal 1/7WindyWeak 2/8WindyStrong 3/6

dipilih bagian yang terbesar = 4/7Rule nya: IF Humidity= High THEN Play = No

PRISM untuk Weather Problem (#2)Jika melihat rule IF Humidity= High THEN Play = No maka tidak akurat karena rule tersebut hanya mengcover 4 instances dari 7 instances.

Sehingga refinement perlu dilakukan untuk rule: IF Humidity=High AND ? THEN Play=No

PRISM untuk Weather Problem (#3)

Rule IF Humidity= High AND ?? THEN Play = No Untuk kondisi pada LHS yang masih kosong terdapat 7 pilihan

Outlook Sunny 3/3Outlook Overcast 0/2Outlook Rain 1/2Temperature Hot 2/3Temperature Mild 2/4WindyWeak 2/4WindyStrong 2/3

Dipilih bagian terbesar =3/3 yaitu nomer 1 (outlook=sunny)IF Humidity= High AND Outlook=Sunny THEN Play = No

Page 5: PRISM KDD DATA MINING

PRISM untuk Weather Problem (#4)Jika melihat rule IF Humidity= High AND Outlook=Sunny THEN Play = No sudah akurat seperti pada tabel berikut:

Tampak bahwa rule tersebut hanya mengcover 3 instance yang benar dari total 14 instances, dan baru 3 dari 5 instance untuk play=no. Selanjutnya 3 instance pada tabel di atas dihapus dari total 14 instances, dan mencari rule lainnya dengan bentuk:

IF ? THEN Play=No, berikut adalah dataset yang sudah disempurnakan (3 instances telah dibuang)

Kembali dicari rule IF ? THEN Play=No

Outlook rain 2/2

TemperatureCool 1/4*

TemperaturMild 1/5

HumadityNormal 1/7

HumadityHigh 1/4

WindyStrong 2/5

IF Outlook=Rain Then Play=No, belum akurat.

Page 6: PRISM KDD DATA MINING

Maka dicari lagi dengan ruleIF Outlook=Rain AND ?? Then Play=NoTemperatureCool 1/2TemperatureMild 1/3HumidityHigh 1/2HumidityNormal 1/3*WindyStrong 2/2 IF Outlook=Rain AND Windy=Strong Then Play=No

IF Outlook=Rain AND Windy=Strong Then Play=No sudah akurat Selanjutnya Untuk kasus Play=Yes

PRISM untuk Weather Problem (#1)

Berikutnya adalah Play=Yes

IF ? THEN Play=YesOutlook Sunny 2/5Outlook Overcast 4/4Outlook Rain 3/5Temperature Hot 2/4Temperature Mild 4/6Temperature Cool 3/4Humidity High 3/7HumidityNormal 6/7WindyWeak 6/8WindyStrong 3/6

dipilih bagian yang terbesar = 4/4 IF Outlook=Overcast THEN Play = Yes

Page 7: PRISM KDD DATA MINING

Rule IF Outlook= Overcast THEN Play = Yes sudah akuratLanjutkan untuk Rule Yes yang lainSisa Instances adalah sebagai berikut, mari kita lakukan pencarian rule dengan acuan rule IF ?? Then Play=YesInilah sisa Dataset yang ada (setelah 4 instances telah dihapus)

Outlooksunny 2/5Outlookrain 3/4TemperatureMild 3/4TemperatureCool 3/4HumidityHigh 1/4HumidityNormal 4/5 WinnerWindyWeak 4/6WindyStrong 1/3

Rule IF Humidity=Normal Then Play=Yes,apakah akurat?

Ternyata belum akurat, hanya dapat mencover 4 dari 5 instances. Lanjutkan pencarian rule.

Outlookrain 2/3Outlooksunny 2/2TemperatureCool 2/3TemperatureMild 2/2

Page 8: PRISM KDD DATA MINING

WindyWeak 3/3 WinnerWindyStrong 1/2

Rule menjadi IF Humidity=Normal AND Windy=Weak Then Play=Yes , kita lihat rule tersebut sudah akurat.

Ketiga instance tersebut dibuang dari sisa instances kedua, sisa instances adalah

OutlookRain 1/3

OutlookSunny 1/4

TemperatureMild 2/4

HumidityHigh 1/5

HumidityNormal 1/2

WindyWeak 1/3WindyStrong 1/4Rule : IF Temperature=Mild Then Play=Yes

Rule IF Temperature=Mild Then Play=Yes belum akurat.OutlookRain 1/2OutlookSunny 1/2HumidityHigh 1/3HumidityNormal 1/1 Winner WindyWeak 1/2WindyStrong 1/2Rule IF Temperature=Mild AND Humadity=Normal Then Play=Yes

Page 9: PRISM KDD DATA MINING

Rule IF Temperature=Mild AND Humadity=Normal Then Play=Yes sudah akuratInstances tersebut dibuang dan sisa intances nya dari instances ketiga adalah

OutlookRain 1/2 TemperatureMild 1/3HumidityHigh 1/5WindyWeak 1/3*

Rule nya IF Outlook=Rain AND Windy=Weak Then Play=Yes. Rule tersebut sudah akurat.

Koleksi Rule Lengkap pada Akhir Proses (5 Rule) IF Humidity= High AND Outlook=Sunny THEN Play = No IF Outlook=Rain AND Windy=Strong Then Play=No IF Humidity=Normal AND Windy=Weak Then Play=Yes IF Outlook Overcast THEN Play = Yes IF Temperature=Mild AND Humadity=Normal Then Play=Yes IF Outlook=Rain AND Windy=Weak Then Play=Yes