pemilihan fitur optimal untuk tugas akhir · pdf file350 pemilihan fitur optimal untuk tugas...

350

PEMILIHAN FITUR OPTIMAL UNTUK TUGAS

AKHIR MAHASISWA DENGAN METODE

SUPPORT VECTOR MACHINE

Devie Rosa Anamisa

1), Eka Mala Sari Rochman

2)

1,2Teknik Informatika, Fakultas Teknologi Informasi

Institut Teknologi Sepuluh Nopember

Surabaya, Indonesia [email protected]

ABSTRAK

Kategorisasi teks merupakan salah satu solusi untuk mengelola informasi yang

berkembang pesat dan tidak terorganisir. Meningkatnya kebutuhan para pengembang tugas

akhir untuk mendapatkan informasi yang terkait dengan dokumen yang dibacanya saat ini,

maka timbul permasalahan yaitu bagaimana mengelompokan dokumen tugas akhir secara

otomatis yang sesuai bidang minat untuk membantu kategorisasi tugas akhir mahasiswa

dengan mengusulkan fitur penting dari meta data antara lain dari sisi topik, abstrak, bidang

minat dosen pembimbing dan referensi yang menjadi rujukan dalam dokumen tugas akhir

sesuai dengan bidang minat jurusan, yaitu jaringan komputer, kecerdasan buatan dan sistem

informasi. Tujuan penelitian ini adalah mengimplementasikan pemilihan fitur optimal

menggunakan metode Support Vector Machine (SVM), yang nantinya digunakan sebagai

masukkan klasifikasi tugas akhir. Metode SVM dapat meminimalisir tingkat error dengan

memilih batas hyperplane yang terbaik. Analisis pengaruh dari pemilihan fitur tersebut dengan

melihat performansi dari hasil klasifikasi berdasarkan precision dan recall. Dari percobaan

yang telah dilakukan penerapan metode SVM dalam klasifikasi tugas akhir memiliki akurasi

yang baik terbukti dengan tingkat presisi sebesar 56% dan recall sebesar 57% dan akurasi 61%

untuk kategorisasi teks dengan lima fitur optimal. Kata kunci: Kategorisasi teks, Dokumen tugas akhir, SVM, Feature Selection.

ABSTRACT

Text Categorization is one of solution to manage the rapidly growing information and

disorganized.The increasing needs of the the final project developers to get more information

are related the documents, so it raised problems are how to classify documents automatically

appropriate with interest to help categorization final project of students with proposed

important feature of the meta-data such as from the topic, abstract, field supervisor and the

reference interest as the reference in the final document in accordance with their interests

majors, namely computer networks, artificial intelligence and information systems.The purpose

of the research is to implemention to optimal feature selection using support vector machine

(SVM), which will be used as the desired classification of final project in universitas. SVM

method can minimized the level of error with selecting the best hyperplane boundarys.Analysis

of the effect from selection of features by looking at the performance from classification results

based on precision and recall. From the experiments have been carried out applying with SVM

method in the classification of final project has good accuracy as evidenced by a 56% level of

precision and recall by 57% and 61% accuracy for text categorization with an optimal

features.

Keywords: text categorization, document the final task, SVM, Feature Selection.

Vol 2, No 3 Juni 2012 ISSN 2088-2130

mailto:[email protected]

351

PENDAHULUAN

Beberapa penelitian yang terkait dengan

kategori teks menyatakan bahwa kateogorisasi

teks merupakan salah satu penelitian penting

dalam data mining. Untuk mengenali,

memahami dan mengelompokkan tipe teks dari

sebuah dokumen merupakan unsur penting

dalam kategorisasi teks [1]. Kategorisasi teks

merupakan sebuah permasalahan pemilihan

kategori untuk sebuah teks yang memiliki

karakteristik atau tanda-tanda umum yang

dimiliki oleh teks, artikel atau dokumen

tersebut.

Suatu teks, artikel, atau dokumen berita

dapat dikategorisasikan oleh beberapa kategori,

tepat satu kategori, atau tidak termasuk dalam

kategori manapun [2]. Permasalahan yang

signifikan dalam kategorisasi teks adalah

dimensionalitas data yang sangat tinggi.

Dimensionalitas data yang sangat tinggi tersebut

menyebabkan waktu pemrosesan menjadi lama

dan membutuhkan memori yang lebih besar.

Kategorisasi teks pada penelitian ini

menggunakan formulasi analisa diskriminan

serta untuk mengatasi ketogorisasi teks yang

multi-class menggunakan metode SVM. Namun

penambahan kriteria pada klasifikasi dokumen

masih merupakan permasalahan karena analisa

diskriminan menggunakan invers matriks untuk

komputasinya sehingga prosesnya lama dan

membutuhkan banyak dimensi data.

Salah satu cara untuk mengatasi hal

tersebut adalah dengan melakukan feature

selection terhadap data. Feature selection

dilakukan untuk memilih fitur-fitur penting dan

relevan terhadap data dan membuang fitur-fitur

yang tidak berpengaruh terhadap proses

kategorisasi teks. Dengan demikian,

dimensionalitas data dapat dikurangi. Namun

kemudian muncul permasalahan, berapa banyak

fitur yang harus digunakan, dan bagaimana

untuk mem-validasi skema pemilihan tersebut.

Untuk menjawab pertanyaan tersebut,

Tae Yue Wang menggunakan metode klasifikasi

teks, yaitu Support Vector Machine. Pemilihan

metode tersebut didasarkan pada penelitian-

penelitian sebelumnya yang menyebutkan

bahwa metode tersebut memiliki performansi

yang baik dalam permasalahan kategorisasi teks.

Metode SVM (Support Vector Machines)

berdasarkan pada prinsip Structural Risk

Minimization (SRM) dimana penanganan

terhadap error dilakukan terhadap kesalahan

pada training-set dan factor yang dipengaruhi

oleh dimensi VC(Vapnik-Chervokinensis).

Selain itu, pada SVM juga digunakan teknik

mapping vektor input pada high dimensional

feature space. Pada penelitian sebelumnya,

SVM menunjukkan hasil yang baik untuk

kategorisasi teks. Metode ini menghindari

overfitting. Selain itu, SVM merupakan metode

yang generalized, mampu mengklasifikasikan

suatu pattern yang tidak termasuk data yang

dipakai dalam fase learning. Beberapa studi

empiris menunjukkan bahwa pendekatan SVM

memberikan error generalisasi yang lebih

sedikit dibandingkan metode lain yang

menggunakan Empirical Risk Minimization

yaitu strategi minimisasi kesalahan pada

training-set [3].

Seleksi fitur adalah salah satu metode

pengolahan awal data untuk menentukan fitur-

fitur yang akan diolah pada tahap berikutnya.

seleksi fitur mereduksi jumlah fitur dan

menghilangkan data yang tidak relevan. Meta

data merupakan hal penting dalam kategorisasi

teks, banyak penelitian yang membahas tentang

content namun jarang sekali penelitian yang

membahas tentang meta data.

Dalam penelitian ini mengusulkan

beberapa fitur penting dari meta data antara lain

dari sisi topik, abstrak, bidang minat dosen

pembimbing dan referensi yang menjadi rujukan

dalam dokumen tugas akhir.

Kategorisasi Teks

Pengklasifikasian teks sangat

dibutuhkan dalam berbagai macam aplikasi,

terutama aplikasi yang jumlah dokumennya

bertambah dengan cepat. Ada dua cara dalam

penggolongan teks, yaitu clustering teks dan

klasifikasi teks. Clustering teks berhubungan

dengan menemukan sebuah struktur kelompok

yang belum kelihatan (tak terpandu atau

unsupervised) dari sekumpulan dokumen.

Sedangkan pengklasifikasian teks dapat

dianggap sebagai proses untuk membentuk

golongan-golongan (kelas-kelas) dari dokumen

berdasarkan pada kelas kelompok yang sudah

diketahui sebelumnya (terpandu atau

supervised)

Proses klasifikasi teks dapat dibagi ke

dalam dua fase, yaitu [2], yang pertama fase

information retrieval (IR) untuk mendapatkan

data numerik dari dokumen teks. Pendekatan

yang umum digunakan adalah distribusi

Vol 2, No 3 Juni 2012

352

frekuensi kata. Nilai numerik yang diperoleh

dapat berupa berapa kali suatu kata muncul di

dalam dokumen, 1 jika kata ada di dalam

dokumen atau 0 jika tidak ada (biner), atau

jumlah kemunculan kata pada awal dokumen.

Feature yang diperoleh dapat direduksi agar

dimensi vektor menjadi lebih kecil. Beberapa

pendakatan feature reduction dapat diterapkan

seperti menghapus stop-words,stemming,

statistical filtering. Sedangkan fase klasifikasi

utama ketika suatu algoritma memroses data

numerik tersebut untuk memutuskan ke kategori

mana teks ditempatkan. Terdapat beberapa

algoritma klasifikasi yang merupakan kajian di

bidang statistika dan machine learning yang

dapat diterapkan pada fase ini, di antaranya

adalah k-Nearest Neighbor, Neural Network,

dan Support Vector Machines. Teknik-teknik

tersebut berbeda dalam mekanisme

pembelajaran dan representasi model yang

dipelajari [3].

METODE

Support Vector Machine (SVM) adalah

sistem pembelajaran yang menggunakan ruang

hipotesis berupa fungsi-fungsi linier dalam

sebuah ruang fitur (feature space) berdimensi

tinggi, dipelatihan dengan algoritma

pembelajaran yang didasarkan pada teori

optimasi dengan mengimplementasikan learning

bias yang berasal dari teori pembelajaran

statistic[3]. Teori yang mendasari SVM sendiri

sudah berkembang sejak 1960-an, tetapi baru

diperkenalkan oleh Vapnik, Boser dan Guyon

pada tahun 1992 dan sejak itu SVM

berkembang dengan pesat. SVM adalah salah

satu teknik yang relatif baru dibandingkan

dengan teknik lain, tetapi memiliki performansi

yang lebih baik di berbagai bidang aplikasi

seperti bioinformatics, pengenalan tulisan

tangan, klasifikasi teks dan lain sebagainya.

Gambar 1. Diagram Alir Proses Klasifikasi

Dokumen

Gambar 2. Tahapan Feature Selection

SVM dibangun dengan konsep

kebalikan dengan penerapan Neural Network

(NN). SVM dibangun bermula dari

penyampaian suatu konsep kemudian

diekperimenkan dan diterapkan dalam suatu

aplikasi, sedangkan NN berdasarkan heuristik

(heuristics) yaitu berdasarkan pengalaman,

kemudian diaplikasikan kemudian baru

dibangun teorinya. Metode yang digunakan

adalah Support Vektor Mechine dalam teknik

klasifikasi dengan tahapan, ditunjukkan pada

Gambar 1.

Feature selection dilakukan pada proses

feature selection dilakukan pemilihan atau

penentuan karakteristik dari masing-masing teks

atau dokumen. Terdapat beberapa fitur dalam

dokumen tugas akhir berupa topik, abstrak,

bidang minat dosen pembimbing dan referensi

yang menjadi rujukan dalam dokumen tugas

akhir tersebut. Kemudian sejumlah dokumen

tersebut diolah menjadi representasi kata atau

string (yang dipisahkan oleh spasi) yang

merupakan bagian dari teks atau dokumen

tersebut menjadi matrik vektor. Feature

selection perlu dikakukan karena karakteristik

yang di dapatkan akan menjadi sangat banyak,

dapat dilihat pada Gambar 2.

Preprocessing adalah Proses untuk

mengkonsentrasikan input kepada fitur – fitur.

Fitur dalam penelitian ini (topik, abstrak, bidang

minat dosen pembimbing dan referensi yang

menjadi rujukan dalam dokumen). Fitur tersebut

akan menjadi input bagi SVM, yang kemudian

akan mengklasifikasinya ke dalam kelas –

kelasnya [4]. Tahapan yang dilakukan SVM

untuk kategorisasi teks dapat dilihat pada

Gambar 3.

Gambar 3. Proses SVM

Devie Rosa Anamisa dkk, Pemilihan Fitur Optimal...

353

Pembentukan model adalah melakukan

learning metode terhadap dokumen atau teks-

teks yang telah dikumpulkan sebagai data uji.

data uji secara bersamaan akan diubah menjadi

data vektor. Proses pengubahan data teks

menjadi data vektor dilakukan dengan membaca

kata satu persatu dan menghitung nilai tf-idf.

Nilai tf-idf adalah kemunculan kata (term

frequency) dalam kalimat dikalikan log jumlah

dokumen/record dibagi jumlah dokumen/record

yang mengandung kata yang dimaksud.

Dinotasikan sebagai berikut [3] :

(1)

.

tft,d adalah jumlah kemunculan term t

pada dokumen d dibagi dengan jumlah

kemunculan semua fitur pada dokumen d,

sedangkan dft adalah invers dari frekuensi

dokumen dan N adalah jumlah dokumen dalam

korpus.

HASIL DAN PEMBAHASAN

Eksperimen yang dilakukan adalah

melihat kinerja dari algoritma klasifikasi

dokumen teks yaitu metode SVM. Data

eksperimen berupa evaluasi kinerja sebuah

algoritma dalam pengkategorian teks antara lain

adalah recall dan precision, dapat dilihat pada

persamaan (2). Ukuran untuk mengevaluasi

kinerja yang digunakan pada eksperimen adalah

accuracy. Accuracy merupakan jumlah rata-rata

dari hasil recall pada tiap kelasnya. Pada

penelitian ini menggunakan proses steaming dan

stopword yang dilakukan oleh [5].

| |

| | | |

| |

| | | | (2)

TPi (true positive) adalah kumpulan

dokumen yang memiliki klasifikasi benar

berdasarkan kategori Ci, FPi adalah kumpulan

dokumen false positive, dan FNi adalah

kumpulan dokumen false negative.

Model ruang vektor dan pembobotan tf-

idf digunakan untuk merepresentasikan nilai

numerik dokumen sehingga kemudian dapat

dihitung kedekatan antar dokumen. Semakin

dekat dua vektor di dalam suatu SVM maka

semakin mirip dua dokumen yang diwakili oleh

vektor tersebut. Kemiripan antar dokumen

dihitung menggunakan suatu fungsi ukuran

kemiripan (similarity measure). Ukuran ini

memungkinkan perankingan dokumen sesuai

dengan kemiripan (relevansi)nya terhadap

query. Setelah dokumen diranking, sejumlah

tetap dokumen top-scoring dikembalikan kepada

pengguna. Alternatifnya, suatu threshold dapat

digunakan untuk memutuskan berapa banyak

dokumen akan dikembalikan. Threshold dapat

digunakan untuk mengontrol tarik-ulur antara

presisi dan recall.

Tabel 1. Hasil Implementasi Metode SVM

Kategorisasi Akurasi

(%)

Presisi

(%)

Recall

(%)

Semua fitur 60,7 55,6 56,5

Dosen

Pembimbing

58,7 84,6 38,9

Daftar Referensi 83,6 81,7 87,5

Beberapa studi empiris menunjukkan

bahwa pendekatan SVM memberikan nilai

presisi tinggi dan recall rendah dibandingkan

metode lain contohnya pada penelitian[1]

menyatakan nilai recall 3.6 % untuk SVM dan

8,3% untuk KNN (K-Nearest Neighbour).

Sedangkan nilai presisi 99% untuk SVM dan

93% untuk KNN.

Tabel 1 merupakan hasil implementasi

pemilihan fitur optimal menggunakan metode

support vector machine (SVM), yang nantinya

digunakan sebagai masukkan klasifikasi tugas

akhir.

Pada penelitian ini masih terdapat

kesalahan pada proses prediksi untuk

menentukan tugas akhir yang sesuai dengan

bidang minatnya. Dari 116 data yang telah

diinputkan terdapat 25 tugas akhir yang tidak

sesuai dengan bidang minat. Hal ini dikarenakan

banyak terjadi kesamaan pada fitur Dosen

pembimbing yaitu tidak sesuai dengan bidang

minat. Fitur dosen pembimbing tidak menjadi

pembeda yang baik sehingga nilai bobotnya

kecil.

SIMPULAN DAN SARAN

Dengan pengkategorisasian teks secara

otomatis ini dapat membantu untuk

mengalokasikan dan klasifikasikan dokumen

dengan mudah karena dapat memudahkan

tdt Ndt

df/log)tflog1(w ,,

Vol 2, No 3 Juni 2012

354

mahasiswa dalam mencari tugas akhir yang

sesuai dengan bidang minat.

Pembobotan pada tiga fitur optimal dalam

kategorisasi teks ini dilakukan dengan

perankingan pada setiap fitur. Hasil dari

perankingan tersebut membuktikan bahwa fitur

daftar referensi memiliki nilai ranking yang

paling tinggi sedangkan untuk fitur dosen

pembimbing berada pada ranking yang rendah.

Kategorisasi dokumen tugas akhir dengan

metode SVM dapat dikembangkan dengan

menambahkan jumlah dokumen hingga lebih

dari seratus lima puluh data latih dan

menambahkan satu parameter minimum

frekuensi untuk menghindari pemakaian kata

yang tidak penting dalam percobaan.

DAFTAR PUSTAKA

[1] Guo. Y, Shao. Z, Hua. N, Automatic Text

Categorization Based on Content

Analysis with Cognitive Situation

Models, www.elsevier.com/locate/ins 180

613–630, 2010

[2] Li. T, Zhu. S, Ogihara. M, Text

Categorization Via Generalized

Discriminant Analysis,

www.elsevier.com/locate/infoproman 44

1684–1697, 2008

[3] Wang. T.Y, Chiang H.M, Fuzzy Support

Vector Machine for Multi-Class Text

Categorization,

www.elsevier.com/locate/infoproman 43

914–929, 2007

[4] Krisantus S, Support Vector Machine,

Bandung, S1 Teknik Informatika,

Sekolah Teknik Elektro dan Informatika,

ITB, 2007.

[5] Mahendra I.P.A, Penggunaan Algoritma

Semut dan Confix Tripping Steammer

untuk Klasifikasi Dokumen Berita

Berbahasa Indonesia, Surabaya, Tugas

Akhir Jurusan Teknik Informatika ITS,

2008.

Devie Rosa Anamisa dkk, Pemilihan Fitur Optimal...

http://www.elsevier.com/locate/ins%20180%20613–630

http://www.elsevier.com/locate/ins%20180%20613–630

http://www.elsevier.com/locate/infoproman%2044%201684–1697

http://www.elsevier.com/locate/infoproman%2044%201684–1697

http://www.elsevier.com/locate/infoproman

pemilihan fitur optimal untuk tugas akhir · pdf file350 pemilihan fitur optimal untuk tugas...

Documents