perancangan dan pembuatan aplikasi · pdf filejurnal ilmiah simantec vol. 4, no. 2 desember...

10
Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 115 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik Informatika, Fakultas Teknik,Universitas Trunojoyo Jl. Raya Telang, PO BOX 2 Kamal, Bangkalan E-mail : [email protected] ABSTRAK Banyak informasi beasiswa yang ada di internet, di satu sisi memunculkan kesulitan bagi para pencari beasiswa untuk mendapatkan informasi beasiswa. Konsep sistem pencarian berbasis information retrieval (IR), dapat digunakan untuk proses mencari informasi beasiswa melalui media internet. Pembangunan IR pada penelitian ini menggunakan konsep vector space model (VSM). Untuk pengumpulkan data informasi beasiswa menggunakan Web Crawler, hasil dari proses crawling akan disimpan ke dalam basis data. Aplikasi Web Crawler yang digunakan adalah Web Crawler Vietspider. Kesamaan data beasiswa yang akan diintegrasikan oleh cosine similarity. Dengan menggunakan cosine similarity untuk membentuk data beasiswa yang relevan satu sama lain yang dibutuhkan oleh user berdasarkan query yang dimasukkan. Berdasarkan hasil dari pengujian sistem, didapatkan nilai minimal cosine similarity paling baik adalah threshold 0,1. Dengan rata-rata presentase nilai f-measure atau tingkat efisiensi kinerja sistem ini mencapai 19,9 %. Kata kunci : Beasiswa, Information Retrieval, Vector Space Model, Web Crawler, Cosine Similarity. ABSTRACT Many a scholarship information available in the internet, on the other hand that makes difficult for seeker to find scholarship information. The concept of search system based information retrieval (IR) can be used for the process of searching for scholarship information via internet. The development of IR in this study uses the concept of vector space model (VSM). For the collecting data of scholarship information is using Web Crawler, the results of crawling process are stored in the basis data. The applications that use a web crawler is a web crawler vietspider. The similarity of scholarship data is to be integrated by the cosine similarity to form a scholarship of data relevant to each other is needed by user based on the query entered. Based on the results of the testing system, the score of at least the most well cosine similarity threshold is 0.1. The average percentage value of the f-measure system performance or the level of efficiency reached 19.9%. Keyword: Scholarship, Information Retrieval, Vector Space model, Web Crawler, Cosine Similarity.

Upload: hangoc

Post on 06-Feb-2018

216 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: PERANCANGAN DAN PEMBUATAN APLIKASI · PDF fileJurnal Ilmiah SimanteC Vol. 4, No. 2 Desember 2014 116 PENDAHULUAN Akhir-akhir ini banyak sekali berita informasi beasiswa. Mulai dari

Vol. 4, No. 2 Desember 2014 ISSN 2088-2130

115

PERANCANGAN DAN PEMBUATAN APLIKASI

PENCARIAN INFORMASI BEASISWA DENGAN

MENGGUNAKAN COSINE SIMILARITY

Andry Kurniawan, Firdaus Solihin, Fika Hastarita

Prodi Teknik Informatika, Fakultas Teknik,Universitas Trunojoyo

Jl. Raya Telang, PO BOX 2 Kamal, Bangkalan

E-mail : [email protected]

ABSTRAK

Banyak informasi beasiswa yang ada di internet, di satu sisi memunculkan kesulitan bagi para

pencari beasiswa untuk mendapatkan informasi beasiswa. Konsep sistem pencarian berbasis

information retrieval (IR), dapat digunakan untuk proses mencari informasi beasiswa melalui

media internet. Pembangunan IR pada penelitian ini menggunakan konsep vector space model

(VSM). Untuk pengumpulkan data informasi beasiswa menggunakan Web Crawler, hasil dari

proses crawling akan disimpan ke dalam basis data. Aplikasi Web Crawler yang digunakan adalah

Web Crawler Vietspider. Kesamaan data beasiswa yang akan diintegrasikan oleh cosine similarity.

Dengan menggunakan cosine similarity untuk membentuk data beasiswa yang relevan satu sama

lain yang dibutuhkan oleh user berdasarkan query yang dimasukkan. Berdasarkan hasil dari

pengujian sistem, didapatkan nilai minimal cosine similarity paling baik adalah threshold 0,1.

Dengan rata-rata presentase nilai f-measure atau tingkat efisiensi kinerja sistem ini mencapai

19,9 %.

Kata kunci : Beasiswa, Information Retrieval, Vector Space Model, Web Crawler, Cosine

Similarity.

ABSTRACT

Many a scholarship information available in the internet, on the other hand that makes difficult for

seeker to find scholarship information. The concept of search system based information retrieval

(IR) can be used for the process of searching for scholarship information via internet. The

development of IR in this study uses the concept of vector space model (VSM). For the collecting

data of scholarship information is using Web Crawler, the results of crawling process are stored

in the basis data. The applications that use a web crawler is a web crawler vietspider. The

similarity of scholarship data is to be integrated by the cosine similarity to form a scholarship of

data relevant to each other is needed by user based on the query entered. Based on the results of

the testing system, the score of at least the most well cosine similarity threshold is 0.1. The

average percentage value of the f-measure system performance or the level of efficiency reached

19.9%.

Keyword: Scholarship, Information Retrieval, Vector Space model, Web Crawler, Cosine

Similarity.

Page 2: PERANCANGAN DAN PEMBUATAN APLIKASI · PDF fileJurnal Ilmiah SimanteC Vol. 4, No. 2 Desember 2014 116 PENDAHULUAN Akhir-akhir ini banyak sekali berita informasi beasiswa. Mulai dari

Jurnal Ilmiah SimanteC Vol. 4, No. 2 Desember 2014

116

PENDAHULUAN Akhir-akhir ini banyak sekali

berita informasi beasiswa. Mulai dari

beasiswa prestasi, beasiswa tidak

mampu, pertukaran pelajar ke luar negeri,

beasiswa olimpiade, sampai beasiswa di

tingkat internasional. Beasiswa adalah

suatu pemberian berupa bantuan

keuangan yang diberikan kepada

perorangan yang bertujuan untuk

digunakan demi keberlangsungan

pendidikan yang ditempuh. Beasiswa

dapat diberikan oleh lembaga

pemerintah, perusahaan ataupun yayasan.

Pemberian beasiswa dapat dikategorikan

pada pemberian cuma-cuma ataupun

pemberian dengan ikatan kerja (biasa

disebut ikatan dinas) setelah selesainya

pendidikan. Lama ikatan dinas ini

berbeda-beda, tergantung pada lembaga

yang memberikan beasiswa tersebut.

Sesuai dengan adanya peraturan

oleh sekolah untuk memperoleh

beasiswa, maka diperlukan kriteria-

kriteria untuk mendapatkan beasiswa.

Untuk membantu pelajar mencari

beasiswa diinginkan yang sesuai

kreterianya, dibutuhkan sebuah sistem

yang mempermudah dalam mendapatkan

informasi beasiswa maka dibangunlah

aplikasi pencarian informasi beasiswa.

Untuk menerapkan proses dalam

membangun aplikasi pencarian informasi

beasiswa ini yaitu dengan adanya

Information retrieval. Information

retrieval (IR) adalah suatu bidang ilmu

yang mempelajari cara-cara penelusuran

kembali atas dokumen-dokumen yang

ada dalam basis data, sehingga

didapatkan suatu informasi yang tepat

dari apa yang dicari dalam dokumen

tersebut. [1] information retrieval

melakukan suatu pendugaan atas

dokumen-dokumen yang diinginkan

pengguna. Sistem basis data retrieval

dapat menerima query yang kompleks

dan memberikan semua jawaban sesuai

kondisi logis dari query bersangkutan

[1].

Dalam penelitian ini akan

dibangun suatu perancangan dan

pembuatan aplikasi pencarian informasi

beasiswa dengan menggunakan Cosine

Similarity. Untuk pengumpulkan data

beasiswa menggunakan web crawler,

hasil dari proses crawling akan disimpan

ke dalam basis data. Crawler diawali

dengan adanya daftar URL yang akan

dikunjungi, disebut dengan seeds.

Setelah crawler rmengunjugi URL

tersebut, kemudian mengidentifikasi

semua hyperlink dari halaman itu dan

menambahkan kembali ke dalam seeds.

Hal ini dinamakan crawl frontier. Setelah

web crawler mengunjungi halaman-

halaman web yang ditentukan di dalam

seeds, maka web crawler membawa

data-data yang dicari oleh user

kemudian menyimpanya ke sebuah

storage. Cosine Similarity merupakan

sebuah metode penghitungan kemiripan

query yang dimasukkan dengan isi

dokumen. Kemudian dilakukan

perangkingan. Dengan menggunakan

cosine similarity untuk membentuk data

beasiswa yang relevan satu sama lain

yang dibutuhkan oleh user berdasarkan

query yang dimasukkan. Dan pada

akhirnya dapat memudahkan pelajar

untuk memperoleh dan mengetahui

informasi tentang beasiswa.

Permasalahan

Pada penelitian untuk

membangun sistem mesin pencari ini

akan dibahas permasalahan yang penting

yaitu:

1. Bagaimana membuat aplikasi yang

mampu untuk mencari informasi

beasiswa yang tersebar di beberapa

website?

2. Bagaimana pengaruh aplikasi

pencarian informasi beasiswa yang

dibuat terhadap efisiensi kinerja sistem?

Batasan Masalah

Dalam penelitian ini permasalahan

difokuskan pada masalah-masalah

berikut :

1. Pengumpulan data beasiswa

mengunakan Web Crawler.

2. Website beasiswa yang akan

melakukan proses crawling yaitu

Page 3: PERANCANGAN DAN PEMBUATAN APLIKASI · PDF fileJurnal Ilmiah SimanteC Vol. 4, No. 2 Desember 2014 116 PENDAHULUAN Akhir-akhir ini banyak sekali berita informasi beasiswa. Mulai dari

Jurnal Ilmiah SimanteC Vol. 4, No. 2 Desember 2014

117

www.scholarship-positions.com/,

www.edu-active.com/,

www.studentscholarships.org/

www.scholarshubafrica.com/

3. Sistem pencarian menggunakan

konsep vector space model.

4. Menggunakan metode perhitungan

TF*IDF untuk pembobotan dan

cosine similarity untuk mengukur

kemiripan query dengan beasiswa lalu

dilakukan perangkingan.

5. Evaluasi sistem menggunakan recall,

precision, dan f-measure.

Tujuan

Penelitian yang berjudul

“Perancangan dan Pembuatan Aplikasi

Pencarian Informasi Beasiswa dengan

menggunakan Cosine Similarity” ini

dirancang bertujuan untuk Membangun

sistem pencarian informasi beasiswa

untuk pengguna dalam memperoleh

informasi beasiswa yang diinginkan

dengan menggunakan cosine similarity.

METODE Information retrieval

Information retrieval (IR) adalah

suatu bidang ilmu yang mempelajari

cara-cara penelusuran kembali atas

dokumen-dokumen yang ada dalam basis

data. Information retrieval berbeda

dengan statis retrieval. Sistem statis

retrieval umumnya memberikan tepat

semua dokumen atau objek yang

memenuhi kriteria tertentu. Sedangkan

sistem information retrieval melakukan

suatu pencarian atas dokumen-dokumen

yang diinginkan pengguna, dengan

melihat tingkat kemiripannya [1].

Preprocessing Preprocessing merupakan proses

awal dalam pembentukan keyword-

keyword dari data beasisawa yang

nantinya akan disimpan dalam basis data,

dengan beberapa tahapan proses :

a. Case folding, Merupakan proses

mengubah semua huruf dalam dokumen

menjadi huruf kecil. Hanya huruf ‘a’

sampai dengan ‘z’ yang diterima.

Karakter-karakter dan tanda baca lainnya

selain huruf juga dihilangkan.

b. Tokenizing, Merupakan proses

pemenggalan tiap kata pada isi beasiswa

berdasarkan pada spasi dan tanda –

(penghubung).

c. Filtering, Merupakan proses

penghilangan kata-kata (yang dianggap)

sebagai kata yang jarang dicari atau

jarang digunakan sebagai keywords pada

proses pencarian. Proses ini dilakukan

untuk mengurangi waktu yang

dibutuhkan pada saat penghitungan

frekuensi tiap kata pada dokumen. Pada

penelitian ini, stoplist yang digunakan

adalah stoplist bahasa inggris.

Gambar 1. Flowchart Proses Preprocessing

Sistem.

Vector Space Model Pada sistem temu balik informasi,

kemiripan antar dokumen didefinisikan

berdasarkan representasi model ruang

vektor ( vector space model, VSM ). Pada

VSM, setiap dokumen di dalam basis

data dan query direpresentasikan oleh

suatu vektor multi-dimensi. Pada model

VSM ini [2]:

a. Vocabulary merupakan

kumpulan semua term berbeda

yang tersisa dari dokumen

setelah preprocessing dan

mengandung t term index. Term-

term ini membentuk suatu ruang

vektor.

b. Setiap term i di dalam dokumen

atau query j, diberikan suatu

bobot (weight) bernilai real wij.

c. Dokumen dan query

Page 4: PERANCANGAN DAN PEMBUATAN APLIKASI · PDF fileJurnal Ilmiah SimanteC Vol. 4, No. 2 Desember 2014 116 PENDAHULUAN Akhir-akhir ini banyak sekali berita informasi beasiswa. Mulai dari

Andry Kurniawan, dkk. PERANCANGAN DAN PEMBUATAN APLIKASI...

118

diekspresikan sebagai vektor t

dimensi dj = (w1, w2, ..., wtj) dan

terdapat n dokumen di dalam

koleksi, yaitu j = 1, 2, ..., n.

Dalam model ruang vektor, koleksi

dokumen direpresentasikan oleh matriks

term document (atau matriks term-

frequency). Setiap sel dalam matriks

bersesuaian dengan bobot yang diberikan

dari suatu term dalam dokumen yang

ditentukan. Nilai nol berarti term tidak

terdapat di dalam dokumen.

Metode pembobotan kata

merupakan suatu cara untuk menghitung

bobot kata (wi) dalam dokumen (tk). TF-

IDF (Term Frequency – Inversed

Document Frequency) digunakan untuk

menghitung bobot (W) dari setiap term

dalam dokumen, didapat dengan

mengalikan tf-idf. Rumusnya adalah

sebagai berikut [1]:

Dimana:

d = dokumen ke-d

t = term ke-t dari dokumen

W = bobot dokumen ke-d terhadap term

ke-t

tf = banyaknya term i pada sebuah

dokumen

idf = Inversed Document Frequency,

log2(n/df)

df = banyak dokumen yang mengandung

term i

Cosine Similarity Untuk menghitung seberapa besar

kemiripan antar dokumen, dapat

menggunakan suatu fungsi ukuran

kemiripan (similarity measure). Dengan

menggunakan fungsi Ukuran ini

memungkinkan perangkingan dokumen

sesuai dengan kemiripan atau relevan

terhadap query.

Salah satu perhitungan kemiripan antar

dokumen yang digunakan dalam

penelitian ini adalah Cosine similarity.

Cosine similarity merupakan metode

fungsi pengukuran kesamaan antara dua

vektor yang berbeda dengan mengukur

cosinus dari sudut antara mereka.

Semakin besar nilai cosinus (maksimal 1)

maka semakin mirip dokumen yang

dibandingkan. Nilai cosinus 1

menyatakan kemiripan 100%, sedangkan

nol menyatakan ketidakmiripan 100%

[3]. Cosine similarity definisikan dalam

rumus fungsi perhitungan berikut:

Dimana:

d = dokumen, q = query, t = term

wij = TF-IDF kata ke i dari dokumen ke j

wiq = TF-IDF kata ke i dari query

Evaluasi Evaluasi digunakan untuk

mengukur kinerja suatu sistem demi

menghasilkan perbaikan pada proses

pengambilan informasi. Ukuran umum

yang digunakan untuk mengukur kualitas

dari text retrieval adalah kombinasi

precision dan recall. Metode yang umum

digunakan adalah recall, precision, dan f-

measure [4].

Recall

Recall adalah proporsi jumlah

dokumen teks yang relevan terkenali

di antara semua dokumen teks

relevan yang ada pada koleksi.

Precision

Precision adalah proporsi jumlah

dokumen teks yang relevan terkenali di

antara semua dokumen teks yang terpilih

oleh sistem. Rumus precision adalah

sebagai berikut:

F-Measure

F-Measure adalah nilai yang

mewakili seluruh kinerja sistem yang

merupakan rata-rata dari nilai precision

dan recall. Rumus F-Measure dapat

dilihat pada Persamaan berikut:

Rancangan Sistem

Page 5: PERANCANGAN DAN PEMBUATAN APLIKASI · PDF fileJurnal Ilmiah SimanteC Vol. 4, No. 2 Desember 2014 116 PENDAHULUAN Akhir-akhir ini banyak sekali berita informasi beasiswa. Mulai dari

Jurnal Ilmiah SimanteC Vol. 4, No. 2 Desember 2014

119

Sebelum membuat program aplikasi,

terlebih dahulu dilakukan proses

perancangan sistem. Hal ini dilakukan

supaya aplikasi yang dibuat dapat

berfungsi sesuai dengan yang diharapkan

sehingga mampu befungsi maksimal.

Gambaran umum dari sistem ini dapat

dilihat pada gambar 2.

Gambar 2. Gambaran Umum Sistem

Deskripsi keterangan dari gambar diatas

dapat dijelaskan sebagai berikut yang

pertama adalah Admin, merupakan

pengguna yang berhak melakukan

kontrol penuh pada sistem dan basis data.

Admin mencrawler web beasiswa lalu

disimpan ke basis data. Kemudian sistem

melakukan proses preprocessing pada

data beasiswa. Sehingga dihasilkan

keyword beasiswa yang akan tersimpan

dalam basis data beasiswa. Kemudian

keyword yang tersimpan dalam basis data

tersebut dilakukan indexing dan

pembobotan.

User, adalah pengguna yang akan

menginput query dan melihat informasi

hasil pencarian. User menginputkan

query kedalam aplikasi. Kemudian sistem

melakukan proses preprocessing query

sehingga diperoleh keyword query.

Selamjutnya sistem akan melakukan

pencocokan Keyword query dengan

keyword beasiswa yang telah tersimpan

dalam basis data. Jika ada keyword yang

cocok/sama, maka keyword query akan

di index dan dilakukan proses

pembobotan. Tapi jika tidak ada yang

cocok, maka tidak ada hasil yang

ditampilkan (no result). Kemudian

dilakukan proses perhitungan kemiripan

cosine similarity antara bobot keyword

beasiswa dan bobot keyword query. Lalu

dilakukan proses perangkingan.

Yang terakhir adalah mengukur kinerja

system, dilakukan evaluasi menggunakan

recall, precision dan f-measure.

Flowchart Sistem Flowchart Vector Space Model

Gambar 3. Flowchart Vector Space Model

Deskripsi keterangan dari gambar diatas

dapat dijelaskan sebagai berikut :

1. Evaluasi dilakukan dengan

menggunakan 15 query sampel.

Masing-masing 5 query yang

terdiri dari 1 kata, 5 query yang

terdiri dari 2 kata dan 5 query

yang terdiri dari 3 kata.

2. Untuk mendapatkan nilai

relevant beasiswa, masing-

Page 6: PERANCANGAN DAN PEMBUATAN APLIKASI · PDF fileJurnal Ilmiah SimanteC Vol. 4, No. 2 Desember 2014 116 PENDAHULUAN Akhir-akhir ini banyak sekali berita informasi beasiswa. Mulai dari

Andry Kurniawan, dkk. PERANCANGAN DAN PEMBUATAN APLIKASI...

120

masing query akan di check pada

keseluruhan beasiswa yang ada

dalam basis data yang

mengandung kata query,

berdasarkan pada user oriented

measure.

3. Jika ada yang cocok maka,

dilakukan pembatasan nilai

minimal cosine similarity dengan

menggunakan threshold.

4. Kemudian relevan beasiswa di

check dengan beasiswa yang ter-

retrieve untuk mendapatkan

irisan relevan retrieve beasiswa.

5. Jika ada yang sama maka

dilakukan evaluasi dengan

mencari nilai recall, precision

dan f-measure.

6. Untuk mencari recall, precision

dan f-measure.

7. Hasil dari relevan beasiswa dan

irisan relevan retrieve beasiswa

kemudian akan dimasukkan

dalam rumus recall dan

precision.

Flowchart Utama Admin

Mulai

Crawler web

Beasiswa

Preprocessing

Simpan dalam

database Beasiswa

Indexing dan

pembobotan

Selesai

Gambar 4. Flowchart Utama Admin Pada

Preprocessing Dan Pembobotan Beasiswa

Deskripsi keterangan dari gambar diatas

dapat dijelaskan sebagai berikut :

Admin mecrawler website

beasiswa.

Preprocessing beasiswa. Pada

preprocessing dilakukan proses

case folding, tokenizing, filtering

stopword menggunakan stoplist

bahasa inggris.

Jika sudah dilakukan

preprocessing maka akan

terbentuk lah keyword beasiswa.

Lalu dilakukan indexing dan

pembobotan pada keyword

beasiswa tersebut dengan

menggunakan TF*IDF.

Kemudian disimpan dalam basis

data.

Flowchart User Dan Proses Penanganan

Query

Mulai

Input query

Preprocessing

Indexing dan

pembobotan

Cek keyword hasil

preprocessing dengan

database beasiswa

Tampilkan

hasil

Selesai

No result

ya

tidak

Hitung Cosine similarity

dengan database

beasiswa

Rangking

Gambar 5. Flowchat User Pada Proses

Penanganan Query

Deskripsi keterangan dari gambar diatas

dapat dijelaskan sebagai berikut :

User menginputkan query.

Dilakukan preprocessing query

(langkah preprocessing query sama

dengan preprocessing beasiswa)

sehingga menghasilkan keyword

query.

Keyword query dicocokkan dengan

basis data keyword data beasiswa.

jika ada yang cocok, maka akan

dilakukan proses indexing dan

Page 7: PERANCANGAN DAN PEMBUATAN APLIKASI · PDF fileJurnal Ilmiah SimanteC Vol. 4, No. 2 Desember 2014 116 PENDAHULUAN Akhir-akhir ini banyak sekali berita informasi beasiswa. Mulai dari

Jurnal Ilmiah SimanteC Vol. 4, No. 2 Desember 2014

121

pembobotan, namun jika tidak ada

maka hasilnya akan no result

(selesai).

Kemudian dilakukan penghitungan

kemiripan keyword query dan

keyword beasiswa dengan fungsi

cosine similarity.

Lalu dilakukan proses perangkingan.

Flowchart Indexing, Cosine Similarity

Dan Perangkingan

Gambar 6. Flowchart Indexing,Cosine

Similarity Dan Perangkingan

Deskripsi keterangan dari gambar diatas

dapat dijelaskan sebagai berikut :

Tahap pertama adalah mencari

frekuensi kemunculan term dalam

setiap beasiswa (TF beasiswa) dan

dalam query (TF query).

Kemudian akan ditemukan jumlah

frekuensi kemunculan term dalam

seluruh beasiswa (DF).

Lalu hitung IDF, dengan rumus :

Log Jumlah seluruh beasiswa TF /

DF.

Lakukan pembobotan dengan

rumus : W = TF*IDF.

Langkah selanjutnya adalah

melakukan perhitungan kemiripan

antara term dalam query dengan

term dalam beasiswa dengan

menggunakan cosine similarity.

Yang selanjutnya akan dirangking.

Yang terakhir adalah

perangkingan. Perangkingan

dilakukan berdasarkan nilai

terbesar dari hasil cosine similarity

akan menempati rangking

tertinggi. Dan diurutkan

seterusnya.

List result, hasil ditampilkan pada

user.

Flowchart Evaluasi

Gambar 7. Flowchart Evaluasi

Deskripsi keterangan dari gambar diatas

dapat dijelaskan sebagai berikut :

1. Evaluasi dilakukan dengan

menggunakan 15 query sampel.

Masing-masing 5 query yang terdiri

dari 1 kata, 5 query yang terdiri dari

2 kata dan 5 query yang terdiri dari

3 kata.

2. Untuk mendapatkan nilai relevant

beasiswa, masing-masing query

akan di check pada keseluruhan

Page 8: PERANCANGAN DAN PEMBUATAN APLIKASI · PDF fileJurnal Ilmiah SimanteC Vol. 4, No. 2 Desember 2014 116 PENDAHULUAN Akhir-akhir ini banyak sekali berita informasi beasiswa. Mulai dari

Andry Kurniawan, dkk. PERANCANGAN DAN PEMBUATAN APLIKASI...

122

beasiswa yang ada dalam basis data

yang mengandung kata query,

berdasarkan pada user oriented

measure.

3. Jika ada yang cocok maka,

dilakukan pembatasan nilai minimal

cosine similarity dengan

menggunakan threshold.

4. Kemudian relevan beasiswa di

check dengan beasiswa yang ter-

retrieve untuk mendapatkan irisan

relevan retrieve beasiswa.

5. Jika ada yang sama maka dilakukan

evaluasi dengan mencari nilai recall,

precision dan f-measure.

6. Untuk mencari recall, precision dan

f-measure.

7. Hasil dari relevan beasiswa dan

irisan relevan retrieve beasiswa

kemudian akan dimasukkan dalam

rumus recall dan precision.

8. Setelah diketahui nilai recall &

precision nya, akan dihitung nilai f-

measure nya dengan menggunakan

rumus diatas.

HASIL DAN

PEMBAHASAN Skenario Uji Coba Sistem Uji coba dilakukan dengan melakukan

perbandingan Threshold nilai minimal

cosine similarity yang dapat di retrieve

oleh sistem. Tujuannya adalah mencari

Threshold dengan hasil paling baik,

untuk membentuk sistem pencarian yang

tepat, akurat dan efisien berdasarkan dari

rata-rata analisa f-measure. Pembatasan

nilai cosine similarity sebelumnya telah

ditentukan oleh penulis berdasarkan trial

error, yaitu dengan Threshold minimal

0,1, 0,2, 0,3 dan 0,4.

Query yang digunakan dalam uji coba ini

sebanyak 15 kata kunci atau query

sampel, masing-masing 5 query yang

terdiri dari 2 kata, 5 query yang terdiri

dari 3 kata dan 5 query yang terdiri dari 4

kata. Tujuannya adalah mengukur

perbandingan keakuratan sistem

pencarian dengan menggunakan

parameter query 2 kata, query 3 kata dan

query 4 kata. Masing-masing query

sampel dimasukkan dalam Threshold

pembatasan cosine similarity 0,1, 0,2, 0,3

dan 0,4. Selanjutnya Query sampel yang

dimasukkan dalam Threshold tersebut

akan dievaluasi dengan mencari nilai

maksimal recall, rata-rata precision,

kemudian ditemukan nilai f-measure nya,

untuk mengetahui tingkat kinerja system.

Berdasarkan dari keseluruhan hasil uji

coba diatas, dapat kita rekap dan di

prosentasekan. Hasil dari prosentase

dapat kita lihat dari tabel dibawah :

Tabel 1. Rekapitulasi hasil uji coba tanpa

pembatasan nilai cosine similarity No Query Tanpa Threshold

Reca

ll

Precision F-measure

1. 2 Kata 1 0,5637 0,7060

2. 3 Kata 1 0,4877 0,6437

3. 4 Kata 1 0,3993 0,5678

Rata-rata 1 0,4836 0,6392

Tabel 2. Rekapitulasi hasil uji coba

pembatasan nilai cosine similarity dengan

threshold minimal 0,1 No Query Cosine Similarity 0,1

Recall Precision F-

measure

1. 2 Kata 0,1387 0,5886 0,2191

2. 3 Kata 0,1160 0,4959 0,1806

3. 4 Kata 0,1367 0,3891 0,2001

Rata-rata 0,1305 0,4912 0,1999

Tabel 3. Rekapitulasi hasil uji coba

pembatasan nilai cosine similarity dengan

threshold minimal 0,2 No Query Cosine Similarity 0,2

Recall Precision F-

measure

1. 2 Kata 0,0219 0,15 0,0381

2. 3 Kata 0,0265 0,5333 0,0503

3. 4 Kata 0,0160 0,25 0.0301

Rata-rata 0,0215 0,3111 0,0395

Tabel 4. Rekapitulasi hasil uji coba

pembatasan nilai cosine similarity dengan

threshold minimal 0,3 No Query Cosine Similarity 0,3

Recall Precisi

on

F-measure

1. 2 Kata 0,0219 0,4 0,0410

2. 3 Kata 0,0031 0,2 0,0062

3. 4 Kata 0 0 0

Rata-rata 0,0083 0,2 0,0157

Tabel 5. Rekapitulasi hasil uji coba

pembatasan nilai cosine similarity dengan

threshold minimal 0,4 No Query Cosine Similarity 0,4

Recall Precisi F-measure

Page 9: PERANCANGAN DAN PEMBUATAN APLIKASI · PDF fileJurnal Ilmiah SimanteC Vol. 4, No. 2 Desember 2014 116 PENDAHULUAN Akhir-akhir ini banyak sekali berita informasi beasiswa. Mulai dari

Jurnal Ilmiah SimanteC Vol. 4, No. 2 Desember 2014

123

on

1. 2 Kata 0 0 0

2. 3 Kata 0 0 0

3. 4 Kata 0 0 0

Rata-rata 0 0 0

Untuk memperjelas nilai recall,

precision dan f-measure dari hasil uji

coba evaluasi sistem, dapat

dipresentasekan dalam grafik interval

berikut :

Gambar 8. Grafik uji coba nilai cosine

similarity dengan tanpa threshold, 0,1

threshold, 0,2 threshold, 0,3 threshold, dan

0,4 threshold, dari query 2 kata, 3 kata dan 4

kata.

Dari grafik pada Gambar 8, menunjukan,

nilai akhir mengarah pada angka 1 pada

recall dan mengarah angka sekitar 0,79

pada precision. Dengan recall

mendapatkan nilai 1 sehingga tingkat

kemampuan aplikasi untuk menampilkan

semua beasiswa yang relevan dengan

query mencapai presentase 100 % atau

Sempurna. Dan precision yang mencapai

sekitar 0,79 yang artinya aplikasi

memiliki tingkat keakuratan dengan

persentase 79 % yang hampir mendekati

80 %. Nilai recall dan precision yang

digunakan pada grafik diatas adalah nilai

recall serta precision dari Nilai Cosine

Similarity dengan Tanpa Threshold, 0,1

Threshold, 0,2 Threshold, 0,3 Threshold,

dan 0,4 Threshold, dari Query 2 Kata, 3

Kata dan 4 Kata.

Gambar 9. Grafik nilai rata-rata hasil uji coba

evaluasi sistem pada recall dan precision.

Dari grafik pada Gambar 9, menunjukan,

semakin tinggi pembatasan nilai

threshold, maka semakin kecil nilai rata-

rata recall nya. Dan pada precision nya

hampir sama, semakin tinggi pembatasan

nilai threshold, maka semakin kecil nilai

rata-rata precision nya.

Gambar 10. Grafik Nilai Rata-Rata Hasil Uji

Coba Evaluasi Sistem pada f-measure.

Dari grafik pada Gambar 10.

menunjukan, Semakin tinggi nilai

pembatasan threshold, maka nilai f-

measure nya akan semakin kecil. Yang

artinya tingkat efisiensi sistem akan

semakin kecil jika menggunakan

pembatasan nilai threshold yang tinggi.

Uji coba dengan pembatasan nilai

Threshold Cosine Similarity minimal 0,1

pada hasil retrieve sistem, didapatkan

hasil rata-rata f-measure paling tinggi.

Yang artinya pembatasan nilai cosine

Page 10: PERANCANGAN DAN PEMBUATAN APLIKASI · PDF fileJurnal Ilmiah SimanteC Vol. 4, No. 2 Desember 2014 116 PENDAHULUAN Akhir-akhir ini banyak sekali berita informasi beasiswa. Mulai dari

Andry Kurniawan, dkk. PERANCANGAN DAN PEMBUATAN APLIKASI...

124

similarity minimal 0,1 yang digunakan

dalam sistem ini.

SIMPULAN Dari hasil uji coba yang dilakukan,

didapatkan nilai f-measure paling baik

dengan menggunakan Threshold 0,1 yang

memperoleh nilai rata-rata 0,1999,

sehingga tingkat efisiensi sistem ini

mempunyai presentase mencapai 19,9 %.

Sedangkan nilai rata-rata keseluruhan

precision nya sebesar 0,4912, atau

memiliki tingkat keakuratan dengan

presentase 49,1 %. Dan nilai rata-rata

keseluruhan recall nya mendapatkan

0,1305, atau tingkat kemampuan aplikasi

untuk menampilkan semua informasi

beasiswa yang relevan dengan query

mencapai presentase 13 %.

SARAN Saran untuk kedepannya diharapkan ada

penelitian dengan metode lain yang lebih

baik untuk menyelesaikan sistem

pencarian informasi beasiswa yang lebih

akurat.

DAFTAR PUSTAKA

[1] Manning, Christopher, D., Raghavan,

P., dan Schütze ,H. An Introduction to

Information retrieval. Cambridge:

University Press; 2008.

[2] Darmawan, H.A., Wurijanto,T.,

Masturi,A. Rancang Bangun

Aplikasi Search engine Tafsir Al-

Qur’an Menggunakan Teknik Text

Mining Dengan Algoritma VSM

(Vector space model). Surabaya:

Program Studi Sistem Informasi

STIKOM; 2010.

[3] Fahmi,A. Rancangan bangun sistem

pencarian dan hirarki pasal-pasal

tentang lalu lintas dan angkutan

jalan dengan menggunakan cosine

similarity. Bangkalan: Skripsi

Jurusan Teknik Informatika Fakultas

Teknik Universitas Trunojoyo

Madura; 2013.

[4] Mastur,M. Perbandingan efektifitas

antara penghapusan stoplist dengan

penghapusan stoplist dan kata umum

pada dokumen hasil klasifikasi

pretopology. Bangkalan: Skripsi

Jurusan Teknik Informatika Fakultas

Teknik Universitas Trunojoyo

Madura; 2012.