knn2

27
Classification Supervised learning

Upload: ikraramalia

Post on 15-Apr-2016

220 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: knn2

ClassificationSupervised learning

Page 2: knn2

Supervised vs Unsupervised Methods Data mining dapat dikategorikan sebagai

supervised ataupun unsupervised. Supervised learning : proses pembelajaran

yang membutuhkan “guru” . guru : sesuatu yang memiliki pengetahuan ttg lingkungan. Atau dapat direpresentasikan dengan sampel input output.

Unsupervised learning : proses pembelajaran tanpa membutuhkan “guru” . Tanpa menggunakan sampel data

Page 3: knn2

Unsupervised : clustering. Supervised : klasifikasi

Page 4: knn2

Beda Clustering dan Classifikasi Clustering / pengelompokan:

Contoh seseorang yang belum pernah melihat buah buahan dan tidak kenal buah-buahan. Diperintahkan untuk mengelompokan kumpulan buah dalam sebuah keranjang.

Orang tersebut dapat mengelompokan buah buah tadi menjadi (contoh berdasar warna)▪ Kelompok buah berwarna merah : tomat, buah naga,

apel,cheri▪ Kelompok buah berwarna hijau : mangga, alpukat, jambu

Berdasar warna dan ukuran▪ Kelompok buah berwarna merah dan besar : apel , buah naga▪ Kelompok buah berwarna merah dan kecil : cheri

Page 5: knn2

Klasifikasi. Seorang yang sudah pernah makan

macam-macam buah (data training). Ketika diberi buah oleh temannya, dia sudah dapat menebak(memberi label, mengklasifikasikan) buah tersebut.

Page 6: knn2

Classification Task Beberapa contoh fungsi klasifikasi:

Banking: ▪ Pemberian kredit good or bad credit risk▪ Transaksi kartu kredit fraudulent or not

Education:▪ Penempatan student baru ke suatu jalur tertentu

Medicine:▪ Mendiagnosa apakah keberadaan jenis penyakit

Law:▪ Menentukan akan penulisan terhadap yg meninggal atau

pemalsuan Homeland security:

▪ Mengidentifikasikan apakah seseorang yg berperilaku mengindikasikan kemungkinan ancaman teroris.

Page 7: knn2

Contoh kutipan pengklasifikasian pendapatan. (sebagai data training)

Maka berdasarkan klasifikasi dari data training, akan dapat mengassign rekord baru, misal seorang profesor wanita berusia 63 th mgkn diklasifikasikan ke high-income

Page 8: knn2

Classification Techniques

Nearest-neighbor (KNN) Naïve Bayes Decision Tree based Methods Rule-based Methods Support Vector Machines Neural Networks Boosting, Bagging, Random Forests

Page 9: knn2

Nearest Neighbor Classifiers Basic idea:

Jika dia berjalan seperti itik, maka dia itik

Training Records

Test Record

Choose k of the “nearest” records

Page 10: knn2

K-Nearest Neighbor

K-nearest neighbors dari suatu record x: titik-titik data yg memiliki k terkecil jarak ke x

X X X

(a) 1-nearest neighbor (b) 2-nearest neighbor (c) 3-nearest neighbor

Page 11: knn2

Nearest Neighbor Classifiers

Unknown record Requires three things– The set of stored records– Distance Metric to

compute distance between records

– The value of k, the number of nearest neighbors to retrieve

To classify an unknown record:– Compute distance to

other training records– Identify k nearest

neighbors – Use class labels of

nearest neighbors to determine the class label of unknown record (e.g., by taking majority vote)

Page 12: knn2

K-Nearest Neighbor (KNN) Algorithm

K-NN merupakan instance-based learning, dimana data training disimpan sehingga klasifikasi untuk record baru yg belum diklasifikasi dpt ditemukan dengan membandingkan kemiripan yang paling banyak dalam data training.

Page 13: knn2

Contoh: scatter plot untuk rasio sodium/ potasium thd umur

200 pasien Y light gray X dark gray

(A) B, C medium

gray

Page 14: knn2

Jika ada pasien baru, maka dilihat yg paling dekat (k=1) pasien 2 (drug A)

Page 15: knn2

Important issue in K-NN

Berapa banyak neighbor yg seharusnya dipertimbangkan (k)?

Bagaimana mengukur jarak? Bagaimana mengkombinasikan

informasi dari lebih dari satu observasi?

Haruskah seluruh titik sama bobotnya, atau beberapa titik memiliki informasi lebih dari yg lain

Page 16: knn2

DISTANCE FUNCTION

Fungsi jarak yang paling umum digunakan Euclidean distance

Dimana, x=x1,x2,…xm, dan y1,y2,…ym merepresentasikan nilai atribut m dari dua rekord

Page 17: knn2
Page 18: knn2

Untuk data kontinyu bisa juga digunakan rumusan normalisasi/ standarisasi sebelum dilakukan klasifikasi:

Untuk variabel kategori:

Page 19: knn2

Contoh: nilai variable untuk age & gender Jika diketahui:

Range(X)= 50 Mean (X)= 45 Min(X) = 10 Std(X) = 15

Page 20: knn2

Contoh: nilai variable untuk age & gender

Maka jarak antara pasien A & B d(A,B)=√[(50-20)2 + 02]= 30;

dan jarak antara A & C d(A,C)= √[(50-50)2 + 12]=1 Hal ini berarti pasien A lebih similar ke C daripada ke B

Page 21: knn2

Jika dilakukan normalisasi min-max, maka ditemukan: d(A,B)=0.6, d(A,C)=1 sehingga dihasilkan pasien B lebih mirip ke pasien A

Dan juga bila dilakukan Z-score standarization, maka dihasilkan: d(A,B)=2, d(A,C)=1, sehingga didapatkan pasien C yg lebih mirip ke pasien A

Sering terjadi penyimpangan yg dilakukan oleh normalisasi min-max

Page 22: knn2

Combination Function

Simple Unweighted Voting1. Menentukan k, jml rekord yg memiliki suara

dalam pengklasifikasian rekord baru2. Membandingkan rekord baru ke k-nn, yakni k

rekord yg berjarak minim dalam ukuran jarak3. Sekali k rekord dipilih, maka jarak sudah tidak

diperhatikan. Satu record satu vote Maka bila terdapat k=3, dan terdapat 2 rekord

yg sama (misal: medium gray), maka memiliki confidence 66.67%. Atau perbandingan nya 2/3*100% dia termasuk kelas medium gray

Page 23: knn2

Weighting Voting Diharapkan memperkecil kesalahan

Merupakan kebalikan proporsi jarak dari rekord baru dengan klasifikasi.

Vote dibobotkan dengan inverse square dari nilai jarak

Page 24: knn2
Page 25: knn2

Sehingga dipilih vote tertinggi yakni dark gray

Page 26: knn2

Quantifying Attribute Relevance: Stretching the Axes

Adanya kemungkinan suatu atribut memiliki informasi yg penting thd yg lain, maka dilakukan pengalian terhadap nilai tertentu. Misal adanya informasi Na/K ratio tiga kali lebih penting dari age, maka untuk pencarian jarak sbb:

Page 27: knn2

Choosing k Pemilihan k yg terlalu kecil menyebabkan

sensitive terhadap noise Namun k terlalu besar, neighborhood dapat

mencangkup titik-titik dari kelas lain Sehingga dilakukan pemilihan dengan

meminimkan estimasi error pengklasifikasian

X