k nearest neighbor (k nn)

Post on 07-Aug-2015

635 Views

Category:

Documents

5 Downloads

Preview:

Click to see full reader

TRANSCRIPT

K-Nearest Neighbor (K-NN)

Oleh : Lenita (G451110161)Muammar Yulian (G451110051)Agus Malik Ibrahim (G451110091)Ahmad Fudhail Majid (G451110101)Tyas Cipta Katresna (G451110211)

PROGRAM STUDI MAGISTER KIMIASEKOLAH PASCA SARJANA IPB

Merupakan suatu metode untuk mengklasifikasikan suatu data baru yang belum diketahui kelasnya berdasarkan similaritas dan mayoritas dengan kelas yang telah ada.

Prinsip kerja NN adalah mencari jarak terdekat antara data yang dievaluasi dengan K tetangga (neighbor) terdekatnya dalam setiap kelas tertentu

Similaritas dilihat berdasarkan metrik jarak (d1)

Nearest Neighbor (NN)

x1= Sampel Data

x2= Data Uji

i = variabel data

d = jarak

p = dimensi data

Metode NN juga dikenal dengan nama : Memory based, Instance based, Exemplar based, Case based, Experience based

Pengklasifikasian dilakukan terhadap 1 kelas data yang terdekat.

Jenis Nearest Neighbor (NN)

a) 1-Nearest Neighbor (NN)

b) k-Nearest Neighbor (NN)

Pengklasifikasian dilakukan terhadap k kelas data yang terdekat dan mayoritas.

K > 1k adalah jumlah dari tetangga terdekat

Perhatikan contoh soal berikut untuk dapat membedakan keduanya:

Tentukan apakah data orang dibawah ini memiliki hipertensi atau tidak ?

Penyelesaian dengan 1-NNa. Hitung jarak antara data baru ke setiap

data kelas.b. Tentukan 1 kelas data yang mempunyai

jarak yang paling minimalc. Klasifikasikan data baru ke dalam kelas

data tersebut

Penyelesaian dengan k-NNa. Menentukan nilai k, misal k =3b. Hitung jarak antara data baru ke setiap data kelas.c. Tentukan 3 kelas data yang mempunyai jarak yang

paling minimald. Klasifikasikan data baru ke dalam kelas data yang

mayoritas

Jika nilai k kecil, maka gangguan noise terhadap hasil sangat besar.

Jika nilai k terlalu besar, maka akan sulit untuk menentukan mayoritas dalam pengelompokkan data terbaru.

Sehingga k yang bisanya dipilih merupakan angka ganjil untuk menghindari munculnya jumlah jarak yang sama.

Pendekatan sederhana untuk

menentukan nilai k adalah k = √n

Pada k-NN pemilihan k sangat penting, karena:

Jika ada 20 data sampel yang digunakan sebagai basis pengetahuan untuk mengetahui status gizi berdasarkan tinggi badan, berat badan, nilai persen lemak, tekanan darah sistolik, tekanan darah diastolik, detak jantung, lingkar lengan atas, lingkar lengan bawah, lingkar perut dan lingkar panggul seperti pada tabel dibawah ini :

Tabel 1 . Sampel Data Kondisi Fisik

tinggi badan 175 cm berat badan 67 kg % lemak 23%, tekanan darah sistolik 97 tekanan darah diastolik 67 detak jantung 79/menit lingkar lengan atas 25 cm lingkar lengan bawah 15 cm lingkar perut 75 cm lingkar panggul 95 cm

Bagaimana Status Gizi nya ?Tergolong Kurus, Normal atau Osbesitas

Berdasarkan K-NN, dilakukan langkah2 sbb : 1. Nilai K = √20 = 4,47 = 52. Hitung jarak setiap sampel

data (kelas data) dengan data mahasiswa yang akan diuji berdasarkan persamaan d1, sehingga diperoleh data pada Tabel 2.

3. Data diurutkan berdasarkan jarak , seperti pada Tabel 3

4. Apabila ditetapkan nilai K= 5, maka diambil 5 jarak terpendek

Metode K-NN

Suatu Data Baru

Tabel 2. Tabel data setelah ditambahkan jarak terhadap data pengujian

Poin ke -2

Dengan rumus dan pola yang sama seperti diatas dihitung sampai d20 sehingga diperoleh data Tebel 2 :

Poin ke -3 : Data pada tabel 2 diurutkan menurut jarak sehingga diperoleh Tabel 3 Tabel 3. Data setelah diurutkan berdasarkan jarak yang terkecil

Poin 4 : Karena tadi ditetapkan K = 5, maka diambil 5 jarak terpendek

Dari urutan 1 s.d 5 : 4 status Gizi Normal dan 1 status Gizi Obesitas

Data Baru yang dievaluasi termasuk

dalam Status GIZI NORMAL

CONTOH SOFTWARE APLIKASI

RAPID MINER

ARC MAP

Terima KasihMohon Saran dan Masukannya

top related