konsep data mining - gunadarmawahyu_pratama.staff.gunadarma.ac.id/downloads/files... · model...
TRANSCRIPT
KONSEP DATA MINING
WAHYU PRATAMA, S.Kom., MMSI.
PERTEMUAN 4 - KDMModel Data Mining (Bagian 1)
Model Klasifikasi Data Mining:
Decision Tree.
Rule-Based Classifier.
Model Klasifikasi Data Mining
Klasifikasi merupakan penempatan objek-objek ke salah satu dari
beberapa kategori yang telah ditetapkan sebelumnya.
Data input untuk klasifikasi adalah koleksi dari record yang dikenal
sebagai instance yang ditentukan oleh sebuah tuple (x, y), dimana x
adalah himpunan atribut dan y adalah atribut tertentu yang dinyatakan
sebagai label kelas (atribut target).
Klasifikasi sebagai pemetaan sebuah himpunan atribut input (x)
kedalam label kelasnya (y)
Classification
Model
Input
Attribute Set
(x)
Output
Class Label
(y)
Model Klasifikasi Data Mining selanjutnya …
Teknik klasifikasi adalah pendekatan sistematis untuk pembuatan model
klasifikasi dari sebuah data set input.
Contoh teknik klasifikasi seperti decision tree, rule-based classifier,
neural network, support vector machines, dan naive bayes classifier.
Setiap teknik menggunakan algoritma pembelajaran untuk
mengidentifikasi model yang memberikan hubungan yang paling sesuai
antara himpunan atribut dan label kelas dari data input.
Model yang dibangun dengan sebuah algoritma pembelajaran harus sesuai
dengan data input dan memprediksi dengan benar label kelas dari record
yang belum pernah terlihat sebelumnya.
Kunci utama algoritma pembelajaran adalah membangun model dengan
kemampuan generalisasi yang baik, yaitu model yang secara akurat
memprediksi label kelas dari record yang tidak diketahui sebelumnya.
Model Klasifikasi Data Mining selanjutnya …
Pendekatan umum untuk pembangunan model klasifikasi
[1]
Model Klasifikasi Decision Tree
Klasifikasi pohon keputusan (decision tree) merupakan teknik klasifikasi
yang sederhana yang banyak digunakan yang membahas bagaimana pohon
keputusan bekerja dan bagaimana pohon keputusan dibangun.
Struktur hierarki decision tree terdiri dari node dan edge, sedangkan
jenis node dapat dibedakan menjadi:
Root node, node yang tidak memiliki edge yang masuk dan memiliki nol atau banyak
edge yang keluar.
Internal node, node yang memiliki satu edge yang masuk dan dua atau lebih edge yang
keluar.
Leaf atau terminal node, node yang memiliki satu edge yang masuk dan tidak ada edge
yang keluar.
Pada pohon keputusan, leaf node dinyatakan sebagai label kelas. Non-
terminal node (root dan internal node lainnya) mengandung kondisi uji
atribut untuk memisahkan record yang memiliki karakteristik berbeda.
Model Klasifikasi Decision Tree selanjutnya …
Decision Tree Klasifikasi Hewan Mamalia
[2]
Root menggunakan atribut Body
Temperature untuk memisahkan
vertebrata berdarah panas (warm-
blooded) dari vertebrata berdarah
dingin (cold-blooded).
Karena semua vertebrata berdarah
dingin (cold-blooded) bukanlah
mammals, sebuah leaf node yang diberi
label non-mammals dibuat sebagai anak
pada bagian kanan dari root.
Jika vertebrata adalah berdarah panas
(warm-blooded), maka atribut
selanjutnya, Gives Birth, digunakan
untuk membedakan mammals dari
makhluk berdarah panas lainnya, yang
kebanyakan adalah bird.
Model Klasifikasi Decision Tree selanjutnya …
Memberikan Klasifikasi Vertebrata yang Tidak Berlabel
[3]
Setelah decision tree dikonstruksi, test
record dapat diklasifikasi. Bermula dari
root, kondisi tes diaplikasikan ke record
dan mengikuti cabang yang sesuai
berdasarkan keluaran dari tes.
Hal ini akan membawa ke internal node
yang lain, dimana kondisi tes yang baru
diaplikasikan, atau ke leaf node.
Gambar [3] disamping menunjukkan
pergerakan path dalam pohon keputusan
yang digunakan untuk memprediksi label
kelas dari flamingo.
Path berakhir pada leaf node dengan
label Non-mammals. Garis putus-putus
dalam merepresentasikan keluaran dari
penggunaan berbagai kondisi tes atribut
dari vertebrata yang berlabel.
Model Klasifikasi Rule-Base Classifier
Rule-Based Classifier mengklasifikasikan record dengan menggunakan
koleksi aturan “if … then …”
Aturan/Rule: (Kondisi) → y, dimana
Kondisi adalah konjungsi atribut-atribut.
y adalah label kelas.
LHS: aturan antecedent atau kondisi.
RHS: rule consequent.
Contoh rule-based classifier sebagai berikut:
(Blood Type=Warm) ∧ (Lay Eggs=Yes) → Birds
(Taxable Income < 50K) ∧ (Refund=Yes) → Evade = No
Model Klasifikasi Rule-Base Classifier selanjutnya …
Contoh Rule-Based Classifier
Rule 1: (Give Birth = no) ∧ (Can Fly = yes) → Birds
Rule 2: (Give Birth = no) ∧ (Live in Water = yes) → Fishes
Rule 3: (Give Birth = yes) ∧ (Blood Type = warm) → Mammals
Rule 4: (Give Birth = no) ∧ (Can Fly = no) → Reptiles
Rule 5: (Live in Water = sometimes) → Amphibian
Model Klasifikasi Rule-Base Classifier selanjutnya …
Aturan r menutupi (covers) contoh x jika atribut dari contoh tersebut memenuhi
kondisi dari aturan di bawah ini:
R1: (Give Birth = no) ∧ (Can Fly = yes) → Birds
R2: (Give Birth = no) ∧ (Live in Water = yes) → Fishes
R3: (Give Birth = yes) ∧ (Blood Type = warm) → Mammals
R4: (Give Birth = no) ∧ (Can Fly = no) → Reptiles
R5: (Live in Water = sometimes) → Amphibians
Melihat kondisi tabel di atas dapat disimpulkan cara kerja rule-based classifier
sebagai berikut:
Aturan R1 meng-covers a hawk → Bird
Aturan R3 meng-covers the grizzly bear → Mammal
Referensi
Materi Kuliah : Klasifikasi, https://bit.ly/2UzhCGo
Materi Kuliah : Klasifikasi Pohon Keputusan, https://bit.ly/3azNLn2
Materi Kuliah : Rule-based Classifier, https://bit.ly/2wMvvZ3
Gambar [1], https://bit.ly/2UzhCGo
Gambar [2] dan [3], https://bit.ly/2wMvvZ3