makalah data mining - iefha.files. · pdf file4 margin terbesar dapat ditemukan dengan...
TRANSCRIPT
1
MAKALAH
DATA MINING
SUPPORT VECTOR MACHINE (SVM)
Di Susun Oleh :
Nama : RA. Toyyibatul Faihah
NRP : 07.04.111.00132
JURUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS TRUNOJOYO
2010
2
PENDAHULUAN
1.1 Latar Belakang
Support Vector Machine (SVM) adalah salah satu metode PR yang akhir-akhir ini banyak mendapat perhatian. Support Vector Machine (SVM) dikembangkan oleh Boser, Guyon, Vapnik, dan pertama kali dipresentasikan
pada tahun 1992 di Annual Workshop on Computational Learning Theory. Konsep dasar SVM sebenarnya merupakan kombinasi harmonis dari teoriteori
komputasi yang telah ada puluhan tahun sebelumnya, seperti margin hyperplane (Duda & Hart tahun 1973, Cover tahun 1965, Vapnik 1964, dsb.), kernel diperkenalkan oleh Aronszajn tahun 1950, dan demikian juga dengan konsep-
konsep pendukung yang lain. Akan tetapi hingga tahun 1992, belum pernah ada upaya merangkaikan komponen – komponen tersebut. Prinsip dasar SVM adalah
linear classifier, dan selanjutnya dikembangkan agar dapat bekerja pada problem non-linear. dengan memasukkan konsep kernel trick pada ruang kerja berdimensi tinggi.
Support Vector Machine (SVM) juga dikenal sebagai teknik pembelajaran mesin (machine learning) paling mutakhir setelah pembelajaran mesin
sebelumnya yang dikenal sebagai Neural Network (NN). Baik SVM maupun NN tersebut telah berhasil digunakan dalam pengenalan pola. Pembelajaran dilakukan dengan menggunakan pasangan data input dan data output berupa
sasaran yang diinginkan. Pembelajaran dengan cara ini disebut dengan pembelajaran terarah (supervised learning). Dengan pembelajaran terarah ini
akan diperoleh fungsi yang menggambarkan bentuk ketergantungan input dan outputnya. Selanjutnya, diharapkan fungsi yang diperoleh mempunyai kemampuan generalisasi yang baik, dalam arti bahwa fungsi tersebut dapat
digunakan untuk data input di luar data pembelajaran.
1.2 Rumusan Masalah
Pada makalah ini akan dibahas sebagai berikut : I. Support Vector Machine (umum)
II. Support Vector Machine Classification III. Support Vector Machine Regression
IV. Aplikasi SVM dalam a. Pengolahan Citra b. Pengolahan Audio
c. Data Mining d. Klasifikasi Dokumen Web
e. Peramalan (Forecasting) 1.3 Tujuan
1. Agar pembaca bisa mengerti pengertian tentang Support Vector Machine
secara umum
2. Pembaca mengerti tentang Support Vector Classification
3. Pembaca mengerti tentang Support Vector Regression
4. Pembaca dapat mengetahui contoh Aplikasi menggunakan Support Vector
Machine
3
I. SUPPORT VECTOR MACHINE (UMUM)
Konsep SVM dapat dijelaskan secara sederhana sebagai usaha mencari
hyperplane terbaik yang berfungsi sebagai pemisah dua buah class pada input space.
Gambar 1a memperlihatkan beberapa pattern yang merupakan anggota dari dua buah
class : positif (dinotasikan dengan +1) dan negatif (dinotasikan dengan –1). Pattern
yang tergabung pada class negatif disimbolkan dengan kotak, sedangkan pattern pada
class positif, disimbolkan dengan lingkaran. Proses pembelajaran dalam problem
klasifikasi diterjemahkan sebagai upaya menemukan garis (hyperplane) yang
memisahkan antara kedua kelompok tersebut. Berbagai alternatif garis pemisah
(discrimination boundaries) ditunjukkan pada Gambar 1a. (5)
Hyperplane pemisah terbaik antara kedua class dapat ditemukan dengan mengukur
margin hyperplane tsb. dan mencari titik maksimalnya. Margin adalah jarak antara
hyperplane tersebut dengan data terdekat dari masing-masing class. Subset data
training set yang paling dekat ini disebut sebagai support vector. Garis solid pada
Gambar 1b menunjukkan hyperplane yang terbaik, yaitu yang terletak tepat pada
tengah-tengah kedua class, sedangkan titik kotak dan lingkaran yang berada dalam
lingkaran hitam adalah support vector. Upaya mencari lokasi hyperplane optimal ini
merupakan inti dari proses pembelajaran pada SVM
Data yang tersedia dinotasikan sebagai sedangkan label masing-masing
dinotasikan untuk i = 1,2,…,l , yang mana l adalah banyaknya data.
Diasumsikan kedua class –1 dan +1 dapat terpisah secara sempurna oleh hyperplane
berdimensi d , yang didefinisikan:
Sebuah pattern yang termasuk class –1 (sampel negatif) dapat dirumuskan
sebagai pattern yang memenuhi pertidaksamaan:
sedangkan pattern yang termasuk class +1 (sampel positif):
4
Margin terbesar dapat ditemukan dengan memaksimalkan nilai jarak antara
hyperplane dan titik terdekatnya, yaitu . Hal ini dapat dirumuskan sebagai
Quadratic Programming (QP) problem, yaitu mencari titik minimal persamaan (4),
dengan memperhatikan constraint persamaan (5).
Problem ini dapat dipecahkan dengan berbagai teknik komputasi, di antaranya
Lagrange Multiplier sebagaimana ditunjukkan pada persamaan (6).
adalah Lagrange multipliers, yang bernilai nol atau positif . Nilai optimal
dari persamaan (6) dapat dihitung dengan meminimalkan L terhadap w dan b , dan
memaksimalkan L terhadap . Dengan memperhatikan sifat bahwa pada titik
optimal gradient L =0, persamaan (6) dapat dimodifikasi sebagai maksimalisasi
problem yang hanya mengandung saja , sebagaimana persamaan (7).
Maximize:
Subject to:
Dari hasil dari perhitungan ini diperoleh yang kebanyakan bernilai positif. Data yang berkorelasi dengan yang positif inilah yang disebut sebagai support vector.
Karakteristik SVM
1. Secara prinsip SVM adalah linear classifier
2. Pattern recognition dilakukan dengan mentransformasikan data pada input space ke ruang yang berdimensi lebih tinggi, dan optimisasi dilakukan pada ruang vector yang baru tersebut. Hal ini membedakan SVM dari solusi pattern
recognition pada umumnya, yang melakukan optimisasi parameter pada ruang hasil transformasi yang berdimensi lebih rendah daripada dimensi input space.
3. Menerapkan strategi Structural Risk Minimization (SRM) 4. Prinsip kerja SVM pada dasarnya hanya mampu menangani klasifikasi dua
class. (5)
Kelebihan Dan Kekurangan SVM
Dalam memilih solusi untuk menyelesaikan suatu masalah, kelebihan dan kelemahan masing-masing metode harus diperhatikan. Selanjutnya metode yang
tepat dipilih dengan memperhatikan karakteristik data yang diolah. Dalam hal SVM, walaupun berbagai studi telah menunjukkan kelebihan metode SVM dibandingkan
metode konvensional lain, SVM juga memiliki berbagai kelemahan.
5
Kelebihan SVM antara lain sebagai berikut :
1. Generalisasi
Generalisasi didefinisikan sebagai kemampuan suatu metode (SVM, neural network, dsb.) untuk mengklasifikasikan suatu pattern, yang tidak termasuk data
yang dipakai dalam fase pembelajaran metode itu. Vapnik menjelaskan bahwa generalization error dipengaruhi oleh dua faktor: error terhadap training set, dan satu
faktor lagi yang dipengaruhi oleh dimensi VC (Vapnik-Chervokinensis). Strategi pembelajaran pada neural network dan umumnya metode learning machine difokuskan pada usaha untuk meminimimalkan error pada training-set. Strategi ini
disebut Empirical Risk Minimization (ERM). Adapun SVM selain meminimalkan error pada training-set, juga meminimalkan faktor kedua. Strategi ini disebut
Structural Risk Minimization (SRM), dan dalam SVM diwujudkan dengan memilih hyperplane dengan margin terbesar. Berbagai studi empiris menunjukkan bahwa pendekatan SRM pada SVM memberikan error generalisasi yang lebih kecil daripada
yang diperoleh dari strategi ERM pada neural network maupun metode yang lain.
2. Curse of dimensionality
Curse of dimensionality didefinisikan sebagai masalah yang dihadapi suatu
metode pattern recognition dalam mengestimasikan parameter (misalnya jumlah hidden neuron pada neural network, stopping criteria dalam proses pembelajaran dsb.) dikarenakan jumlah sampel data yang relatif sedikit dibandingkan dimensional
ruang vektor data tersebut. Semakin tinggi dimensi dari ruang vektor informasi yang diolah, membawa konsekuensi dibutuhkannya jumlah data dalam proses
pembelajaran. Pada kenyataannya seringkali terjadi, data yang diolah berjumlah terbatas, dan untuk mengumpulkan data yang lebih banyak tidak mungkin dilakukan karena kendala biaya dan kesulitan teknis. Dalam kondisi tersebut, jika metode itu
“terpaksa” harus bekerja pada data yang berjumlah relatif sedikit dibandingkan dimensinya, akan membuat proses estimasi parameter metode menjadi sangat sulit.
Curse of dimensionality sering dialami dalam aplikasi di bidang biomedical engineering, karena biasanya data biologi yang tersedia sangat terbatas, dan penyediaannya memerlukan biaya tinggi. Vapnik membuktikan bahwa tingkat
generalisasi yang diperoleh oleh SVM tidak dipengaruhi oleh dimensi dari input vector. Hal ini merupakan alasan mengapa SVM merupakan salah satu metode yang
tepat dipakai untuk memecahkan masalah berdimensi tinggi, dalam keterbatasan sampel data yang ada.
3. Landasan teori
Sebagai metode yang berbasis statistik, SVM memiliki landasan teori yang dapat dianalisa dengan jelas, dan tidak bersifat Kuliah Umum IlmuKomputer.Com Copyright © 2003 IlmuKomputer.Com black box.
6
4. Feasibility
SVM dapat diimplementasikan relative mudah, karena proses penentuan support vector dapat dirumuskan dalam QP problem. Dengan demikian jika kita
memiliki library untuk menyelesaikan QP problem, dengan sendirinya SVM dapat diimplementasikan dengan mudah. Selain itu dapat diselesaikan dengan metode sekuensial sebagaimana penjelasan sebelumnya.
SVM memiliki kelemahan atau keterbatasan, antara lain:
1. Sulit dipakai dalam problem berskala besar. Skala besar dalam hal ini dimaksudkan dengan jumlah sample yang diolah.
2. SVM secara teoritik dikembangkan untuk problem klasifikasi dengan dua
class. Dewasa ini SVM telah dimodifikasi agar dapat menyelesaikan masalah dengan class lebih dari dua, antara lain strategi One versus rest dan strategi
Tree Structure. Namun demikian, masing-masing strategi ini memiliki kelemahan, sehingga dapat dikatakan penelitian dan pengembangan SVM pada multiclass-problem masih merupakan tema penelitian yang masih
terbuka. (5)
7
II. SUPPORT VECTOR CLASSIFICATION
Masalah klasifikasi dapat dibatasi untuk pertimbangan masalah kelas dua
tanpa kehilangan umum. Dalam masalah ini tujuannya adalah untuk memisahkan dua
kelas dengan fungsi yang diinduksi dari contoh-contoh yang tersedia. Tujuannya
adalah untuk menghasilkan suatu classifier yang akan bekerja dengan baik pada
contoh yang tak terlihat, yakni generalises baik. Pertimbangkan contoh pada Gambar
2.1. Di sini ada banyak pengklasifikasi linear mungkin yang dapat memisahkan data,
tapi hanya ada satu yang dapat memaksimalkan margin (memaksimalkan jarak antara
itu dan titik data terdekat dari masing-masing kelas). Linear classifier ini disebut
sebagai optimal memisahkan hyperplane. Secara intuitif, kita berharap batas ini
untuk menggeneralisasi serta bertentangan dengan batas-batas lainnya. (1)
2.1 Memisahkan hyperplane Optimal
Pertimbangkan masalah memisahkan set vektor pelatihan milik dua terpisah
kelas,
Dengan hyperlane
Himpunan vektor dikatakan optimal dipisahkan oleh hyperplane jika dipisahkan
tanpa kesalahan dan jarak antara vektor terdekat dengan hyperplane adalah
maksimal. Ada beberapa redundansi dalam Persamaan 2.2, dan tanpa kehilangan
umum sudah sesuai untuk mempertimbangkan hyperplane kanonik (Vapnik, 1995),
dimana parameter w, b adalah dibatasi oleh,
Kendala ini tajam pada parameterisation adalah lebih baik daripada alternatif dalam
menyederhanakan perumusan masalah. Dalam kata-kata itu menyatakan bahwa:
norma beratvektor harus sama dengan kebalikan dari kejauhan, dari titik terdekat
dalam kumpulan data untuk hyperplane tersebut. Idenya adalah diilustrasikan pada
Gambar 2.2, di mana jarak dari titik terdekat untuk setiap hyperplane ditampilkan.
8
Sebuah hyperplane memisahkan dalam bentuk kanonik harus memenuhi kendala
berikut,
Jarak d (w, b, x) titik x dari hyperplane (w, b),
Hyperplane optimal diberikan dengan memaksimalkan margin, tunduk pada batasan
Persamaan 2.4. Margin yang diberikan oleh,
Oleh karena itu hyperplane yang optimal memisahkan data tersebut merupakan salah
satu yang meminimalkan
Bersifat independen dari b karena disediakan Persamaan 2,4 puas (yakni adalah
memisahkan hyperplane) mengubah b akan bergerak dalam arah normal terhadap
dirinya sendiri. Sesuai dengan margin tetap tidak berubah tetapi hyperplane tidak lagi
optimal yang akan lebih dekat ke salah satu kelas dari yang lain. Untuk
mempertimbangkan bagaimana meminimalkan Persamaan setara 2,7 untuk
menerapkan prinsip SRM, anggaplah bahwa terikat berikut memegang,
Kemudian dari Persamaan 2.4 dan 2.5,
Sesuai dengan hyperplanes tidak dapat lebih dekat dari 1/A ke salah satu poin data
9
dan intuitif ini dapat dilihat pada Gambar 2.3 bagaimana hal ini mengurangi
hyperplanes mungkin, dan maka kapasitas.
Dimensi VC, h, dari himpunan n hyperplanes kanonik di ruang dimensi
dibatasi oleh,
di mana R adalah jari-jari dari hypersphere melampirkan semua titik data. Oleh
karena itu meminimalkan Persamaan 2,7 setara dengan meminimalkan suatu atas
terikat pada dimensi VC. Itu solusi untuk masalah optimasi Persamaan 2,7 bawah
kendala Persamaan 2,4 diberikan oleh titik pelana dari fungsional Lagrange
(Lagrangian) (Minoux, 1986),
dimana pengali Lagrange. The Lagrangian harus diminimalkan dengan hormat
untuk w, b dan maksimal sehubungan dengan 0. Dualitas Lagrangian Klasik
memungkinkan masalah primal, Persamaan 2,11, untuk diubah ke masalah dual,
yang lebih mudah untuk menyelesaikan. Masalah dual diberikan oleh,
Minimum sehubungan dengan w dan b dari Lagrangian, diberikan oleh,
Maka dari Persamaan 2.11, 2.12, dan 2.13 masalah ganda,
dan karena itu solusi untuk masalah ini adalah diberikan oleh,
10
dengan kendala,
Menyelesaikan Persamaan dengan kendala 2.15 2.16 Persamaan menentukan pengali
Lagrange, dan memisahkan hyperplane optimal diberikan oleh,
dimana xr dan xs adalah setiap vektor dukungan dari setiap kelas memuaskan,
The hard classifier is then,
Atau, sebuah classifier lunak yang dapat digunakan linear interpolates pinggiran,
Ini mungkin lebih tepat daripada classifier keras Persamaan 2,19, karena
menghasilkan output bernilai nyata antara -1 dan 1 saat classifier yang dipertanyakan
dalam margin, di mana tidak ada data pelatihan tinggal. Dari kondisi Kuhn-Tucker,
dan karenanya hanya x i titik yang memuaskan,
akan memiliki bukan nol pengali Lagrange. Titik-titik ini disebut Vektor Dukungan
(SV). Jika data linier terpisah semua SV akan terletak di marjin dan maka jumlah
SV bisa sangat kecil. Akibatnya hyperplane ditentukan oleh subset kecil
set pelatihan; titik lain bisa disingkirkan dari rangkaian pelatihan dan menghitung
ulang hyperplane akan menghasilkan jawaban yang sama. Oleh karena SVM dapat
digunakan untuk meringkas informasi yang terkandung dalam data yang ditetapkan
oleh SV diproduksi. Jika data linier terpisah persamaan berikut akan terus,
Maka dari 2,10 Persamaan dimensi VC dari classifier ini dibatasi oleh,
11
dan jika data pelatihan, x, menjadi normal terletak dalam hypersphere unit,
III.
2.1.1 Linearly Separable Example
Untuk mengilustrasikan metode mempertimbangkan pelatihan ditetapkan
dalam Tabel 2.1. Solusi SVC ditunjukkan pada Gambar 2.4, di mana garis putus-
putus menggambarkan lokus margin dan data mengelilingi poin mewakili SV, yang
semuanya terletak pada margin. (1)
2.2 The Generalised Optimal Separating Hyperplane
Sejauh ini diskusi telah dibatasi untuk kasus di mana data pelatihan linear
dipisahkan. Namun, secara umum hal ini tidak akan menjadi kasus, Gambar 2.5. Ada
dua pendekatan untuk generalising masalah, yang tergantung pada pengetahuan
sebelumnya masalah dan perkiraan dari kebisingan pada data. Dalam kasus di mana
diharapkan (Atau bahkan mungkin tidak diketahui) bahwa hyperplane dengan benar
dapat memisahkan data, metode memperkenalkan fungsi biaya tambahan terkait
dengan kesalahan klasifikasi yang tepat. (1)
12
Atau fungsi yang lebih kompleks dapat digunakan untuk menggambarkan batas,
seperti dijelaskan dalam Bab 2.1. Untuk mengaktifkan metode hyperplane optimal
untuk memisahkan secara umum, Cortes dan Vapnik (1995) memperkenalkan
variabel non-negatif, , dan penalty fungsi,
di mana adalah ukuran dari kesalahan kesalahan klasifikasi. Masalah optimisasi
sekarang berpose sehingga mengurangi kesalahan klasifikasi serta meminimalkan
terikat pada VC pemilah dimensi. Keterbatasan Persamaan 2,4 dimodifikasi untuk
non-terpisah kasus untuk,
dimana Yang optimal memisahkan hyperplane umum ditentukan oleh vektor
w, yang meminimalkan fungsional,
(Di mana C adalah nilai yang diberikan) pada batasan-batasan Persamaan 2.27.
Solusinya untuk masalah optimasi Persamaan 2,28 di bawah 2,27 Persamaan kendala
adalah ditentukan oleh titik pelana dari Lagrangian (Minoux, 1986),
2.2.1 Linearly Non-Separable Example
Dua poin tambahan data ditambahkan ke data dipisahkan dari Tabel 2.1 untuk
menghasilkan data non-linear set terpisah, Tabel 2.2. SVC yang dihasilkan
ditunjukkan pada Gambar 2.6, untuk C = 1. The SV tidak lagi diperlukan untuk
berbaring di pinggiran, seperti dalam Gambar 2.4, dan orientasi hyperplane dan lebar
margin yang berbeda. (1)
13
III. SUPPORT VECTOR REGRESSION
SVMs juga dapat diterapkan untuk masalah regresi dengan pengenalan
alternative kehilangan fungsi, (Smøla, 1996). Fungsi kerugian harus dimodifikasi
untuk menyertakan jarak mengukur. Gambar 5.1 menggambarkan empat fungsi
kemungkinan kerugian.
Fungsi kerugian pada Gambar 5.1 (a) sesuai dengan kuadrat terkecil konvensional
kesalahan kriteria. Fungsi kerugian pada Gambar 5.1 (b) adalah fungsi kerugian
Laplacian yang kurang sensitif terhadap pencilan dibandingkan dengan fungsi
kerugian kuadratik. Huber mengusulkan fungsi kerugian pada Gambar 5.1 (c)
sebagai fungsi kerugian kuat yang memiliki sifat yang optimal ketika distribusi yang
mendasari data tidak diketahui. Ketiga fungsi kerugian akan menghasilkan tidak
kekurangan dalam vektor dukungan. Untuk mengatasi masalah ini diusulkan Vapnik
fungsi kerugian pada Gambar 5.1 (d) sebagai pendekatan untuk fungsi kerugian
Huber yang memungkinkan jarang set vektor dukungan akan diperoleh. (1)
3.1 Linear Regression
Pertimbangkan masalah yang kurang lebih set data,
dengan fungsi linear,
fungsi regresi optimal diberikan oleh minimum fungsional,
14
di mana C adalah nilai pra-ditentukan, dan adalah variabel slack mewakili
atas dan kendala yang lebih rendah pada output dari sistem. (1)
3.1.1 - insensitive Loss Function
Menggunakan fungsi kerugian yang-tidak sensitif, Gambar 5.1 (d),
solusinya adalah diberikan oleh,
atau dengan alternatif,
dengan kendala,
Menyelesaikan Persamaan dengan kendala Persamaan 5.5, 5.7 menentukan pengali
Lagrange, Dan fungsi regresi diberikan oleh Persamaan 5.2, di mana
Karush-Kuhn-Tucker (KKT) kondisi yang dipenuhi dengan larutan ini adalah,
Oleh karena itu vektor dukungan adalah titik di mana tepat salah satu pengali
Lagrange lebih besar dari nol. Ketika = 0, kita mendapatkan fungsi kerugian L1 dan
optimasi masalah ini disederhanakan,
Dengan kendala,
Dan fungsi regresi diberikan oleh persamaan 5.2, dimana
15
3.1.2 Quadratic Loss Function
Menggunakan fungsi kerugian kuadrat, Gambar 5.1 (a),
solusinya adalah,
Optimasi terkait dapat disederhanakan dengan memanfaatkan kondisi KKT,
Persamaan 5.9 dan mencatat bahwa ini menyiratkan i = | i |. Masalah optimasi yang
dihasilkan adalah,
dengan kendala,
dan fungsi regresi diberikan oleh Persamaan 5.2 dan 5.12. (1)
3.1.3 Huber Loss Function
Menggunakan fungsi Huber kerugian, Gambar 5.1 (c),
Solusinya diberikan oleh,
Masalah optimasi resultan adalah,
dengan kendala,
dan fungsi regresi diberikan oleh Persamaan (56) dan (66). (1)
16
IV. APLIKASI SUPPORT VECTOR MACHINE
4.1 Pengolahan Citra
Klasifikasi Citra Dengan Support Vector Machine
Support Vector Machine (SVM) adalah salah satu teknik klasifikasi data dengan proses pelatihan supervised learning). Salah satu ciri dari metode klasifikasi SVM adalah menemukan hyperplane terbaik sehingga diperoleh ukuran margin yang
maksimal. Margin adalah jarak antara hyperplane tersebut dengan titik terdekat dari masing-masing kelas. Titik yang paling dekat ini disebut dengan support vector.
Klasifikasi citra dengan menggunakan SVM mencapai akurasi sebesar 86.67%. Hasil klasifikasi tersebut selanjutnya digunakan untuk penemuan kembali citra (image retrieval). Pada penelitian ini, temu kembali citra diujicobakan kedua
metode yang berbeda untuk melihat perbedaan tingkat keefektifan hasil temu kembali citra. Dua metode ini adalah temu kembali citra tanpa menggunakan SVM
dan temu kembali citra menggunakan SVM. Hasil temu kembali citra tanpa menggunakan SVM hanya didasarkan pada kemiripan ciri warna menggunakan perhitungan jarak Euclidean. Contoh hasil temu kembali tanpa menggunakan SVM
dapat dilihat pada Gambar 3.
Gambar 3 memperlihatkaan bahwa citra hasil temu kembali tidak sepenuhnya
berasal dari jenis citra yang sama dengan citra kueri. Citra-citra tersebut cenderung
berwarna biru, berbeda sekali dengan warna citra kueri yang cenderung berwarna hijau kekuningan. Hal ini dikarenakan sistem hanya menemukembalikan citra di
dalam basis data yang mempunyai tingkat kemiripan yang tinggi dengan citra kueri. Kekurangan sistem ini diperbaiki oleh temu kembali citra menggunakan SVM yang dapat dilihat pada Gambar 4.
Berdasarkan Gambar 4, dapat dilihat bahwa citra hasil temu kembali dengan menggunakan SVM lebih baik Hal ini dikarenakan sistem mempunyai model
klasifikasi untuk memprediksi baik citra kueri maupun seluruh citra di dalam basis data sehingga diperoleh kelas yang baru untuk setiap citra. Citra yang ditemukembalikan adalah citra hasil klasifikasi di dalam basis data yang terdapat
dalam kelas citra yang sama dengan citra kueri dan citra dari kelas lain yang memiliki tingkat kemiripan yang tinggi dengan citra kueri.
Dari hasil diatas dapatdisimpulkan bahwa rataan precision hasil temu kembali citra menggunakan SVM cenderung lebih baik dibandingkan tanpa menggunakan
17
SVM untuk setiap nilai recall. Klasifikasi dengan SVM menghasilkan average
precision sebesar 76,76% sedangkan tanpa menggunakan SVM mencapai 50,91%. Dengan demikian metode klasifikasi SVM dapat digunakan untuk sistem temu
kembali citra. (3)
4.2 Pengolahan Audio
Konten Berbasis Audio Klasifikasi dan pembukaan Menggunakan SVM Belajar
Metode SVM digunakan untuk konten berbasis audio klasifikasi dan pengambilan. Seperti NFL, SVM yang memiliki kinerja yang baik dalam klasifikasi audio dan pengambilan, lebih baik daripada saat ini dicapai oleh
sistem MuscleFish. SVM Ketika diuji menggunakan pelatihan terpisah dan set test, lebih
menguntungkan dibandingkan NFL dalam hal pengambilan efisiensi- menunjukkan perusahaan kata generalisasi kemampuan untuk diklasifikasikan. Sify pola tak terlihat pada training set. Namun, SVM membutuhkan waktu lama
untuk melatih, dan saat ini, dan kebutuhan untuk memilih kernel fungsi dan parameter di dalamnya yang saat ini dipraktekkan oleh trial and error. (7)
4.3 Data Mining
Aplikasi Data Mining Untuk Memprediksi Kelas Resiko Pemberian Kredit
Menggunakan Support Vector Machine (Svm)
Didalam kegiatan perkreditan sering terjadi masalah kredit macet atau
kredit bermasalah yang disebabkan oleh gagalnya pengembalian sebagian
pinjaman yang diberikan kepada para peminjam. Masalah ini sebenarnya dapat
diatasi, salah satunya dengan mengidentifikasi dan memprediksi nasabah dengan
baik sebelum memberikan pinjaman dengan cara memperhatikan data historis
pinjaman. SVM adalah suatu teknik dalam Data Mining yang dapat dipakai
untuk melakukan klasifikasi. Dalam teknik SVM untuk masalah klasifikasi k-
kelas , kita menemukan k fungsi pemisah . Kemudian kelas dari suatu data atau
obyek baru kkbZwbZwbZw+++.,..., 1. 1 , 2 . 2 Z ditentukan berdasarkan nilai
terbesar dari fungsi pemisah: =jclass of Z=. mmkmb+ w Z = argmax . 1,2,...,
Hasil yang diperoleh dari Tugas Akhir ini adalah metode SVM dapat digunakan
untuk memprediksi calon nasabah baru dengan melakukan pengenalan pola data
historis.
4.4 Klasifikasi Dokumen Web
Penerapan Support Vector Machine untuk Ekstraksi Informasi dari Dokumen Teks
Proses ekstraksi informasi (Information Extraction atau IE) adalah proses pengubahan dokumen teks tidak terstruktur dengan domain tertentu ke dalam sebuah struktur informasi yang relevan. Di dalam tugas akhir ini domain yang
digunakan adalah lowongan pekerjaan. Kebanyakan iklan lowongan pekerjaan yang terdapat di berbagai website perusahaan maupun website khusus lowongan
18
pekerjaan di Indonesia merupakan dokumen teks berbahasa campuran,
Indonesia dan Inggris. Pada proses ekstraksi informasi pada dataset berbahasa campuran,
dengan menerapkan teknik pembelajaran mesin. Pendekatan pembelajaran mesin yang digunakan adalah pendekatan statistik, dengan metode klasifikasi token. Algoritma klasifikasi yang digunakan adalah Support Vector Machine
(SVM) dengan uneven margin, yang didesain khusus untuk imbalanced dataset. Sedangkan strategi tagging yang digunakan adalah strategi Begin/End (BE)
tagging. Adapun eksperimen yang dilakukan mencakup analisis performansi SVM dengan uneven margin untuk ekstraksi informasi pada dataset berbahasa campuran, pengujian parameter pembelajaran terbaik, dan perbandingan dengan
algoritma klasifikasi lain, yaitu Naïve Bayes dan KNN.
Hasil eksperimen menunjukkan bahwa performansi SVM dengan uneven margin untuk ekstraksi informasi pada dataset lowongan pekerjaan berbahasa campuran sangat baik, dengan akurasi mencapai ±85%. Dengan demikian dapat
disimpulkan bahwa sistem ekstraksi informasi yang diimplementasikan dapat diterapkan pada lingkungan bursa kerja di Indonesia. Selain itu, algoritma SVM
dengan uneven margin juga memiliki performansi yang lebih unggul dibandingkan dengan kedua algoritma lainnya. (4)
4.5 Peramalan (Forecasting)
Implementasi Kernel Wavelet Dan Support Vector Machine Untuk Prediksi Volatilitas
Salah satu permasalahan dalam hal prediksi kondisi volatilitas Dari pasar modal adalah dalam fungsi-fungsi kernel yang ada dalam metode Support Vector Machine (SVM) tidak bisa menangkap fiturfitur dari pengelompokan
volatilitas secara akurat. Dan sementara itu, dalam fungsi wavelet terdapat fitur yang mendeskripsikan time series dari volatilitas.
19
Metode Support Vector Regression (SVR) yang hampir sama dengan
SVM digunakan untuk memprediksi volalitas. Perbedaanya adalah SVM biasanya digunakan untuk masalah klasifikasi dan pada SVR digunakan untuk
masalah regresi dan kernel yang digunakan adalah kernel wavelet. Pada pengimplementasian prediksi volatilitas dengan menggunakan SVR kernel wavelet, akan digunakan juga kernel lain sebagai pembanding yaitu kernel
gaussian. Pengaplikasian untuk masalah prediksi volatilitas dilakukan melalui simulasi komputer dan percobaan dalam data di dunia nyata (data time series). (6)
20
PENUTUP
Kesimpulan
Makalah ini memperkenalkan teori dasar Support Vector Machine (SVM), sebagai salah satu topik yang dewasa ini banyak mendapat perhatian sebagai state of
the art dalam bidang pattern recognition. Kelebihan SVM dibandingkan metode yang lain terletak pada kemampuannya untuk menemukan hyperplane terbaik yang
memisahkan dua buah class pada feature space yang ditunjang oleh strategi Structural Risk Minimization (SRM).
Support Vector Machine bisa diterapkan dalam berbagai aplikasi seperti
pengolahan citra, pengolahan audio, data mining, klasifikasi dokumen web, peramalan (forecasting), dan sebagainya.
Support vector machine memiliki kelebihan diantaranya:
1. Generalisasi Generalisasi didefinisikan sebagai kemampuan suatu metode (SVM, neural
network, dsb.) untuk mengklasifikasikan suatu pattern, yang tidak termasuk data yang dipakai dalam fase pembelajaran metode itu.
2. Curse of dimensionality Curse of dimensionality didefinisikan sebagai masalah yang dihadapi suatu
metode pattern recognition dalam mengestimasikan parameter (misalnya jumlah
hidden neuron pada neural network, stopping criteria dalam proses pembelajaran dsb.) dikarenakan jumlah sampel data yang relatif sedikit dibandingkan dimensional ruang vektor data tersebut
3. Landasan teori Sebagai metode yang berbasis statistik, SVM memiliki landasan teori yang
dapat dianalisa dengan jelas, dan tidak bersifat Kuliah Umum IlmuKomputer.Com Copyright © 2003 IlmuKomputer.Com black box.
4. Feasibility
SVM dapat diimplementasikan relative mudah, karena proses penentuan support vector dapat dirumuskan dalam QP problem.
Support Vector Machine juga memiliki kelemahan atau keterbatasan,
1. Sulit dipakai dalam problem berskala besar. Skala besar dalam hal ini
dimaksudkan dengan jumlah sample yang diolah. 2. SVM secara teoritik dikembangkan untuk problem klasifikasi dengan dua
class. Dewasa ini SVM telah dimodifikasi agar dapat menyelesaikan masalah dengan class lebih dari dua, antara lain strategi One versus rest dan strategi Tree Structure. Namun demikian, masing-masing strategi ini memiliki
kelemahan, sehingga dapat dikatakan penelitian dan pengembangan SVM pada multiclass-problem masih merupakan tema penelitian yang masih
terbuka.
21
DAFTAR PUSTAKA
1. S. R Gun . Support Vector Machines For Classification And Regression, 1998.
2. C. Cortes and V. Vapnik. Support vector networks. Machine Learning,
20:273 – 297, 1995. 3. Seminar Nasional Sistem dan Informatika 2007; Bali, 16 November 2007
4. http://skripsimu-blog.blogspot.com/2009/03/penerapan-support-vector-machine-untuk.html
5. http://asnugroho.net/papers
6. http://digilib.its.ac.id/ITS-Undergraduate-3100009035905/8385 7. http://research.microsoft.com/pubs/68796/content_audio_classification.pdf