academicopter - digilib.uns.ac.id/academic... · hasil pencarian dari kedua sumber data ke dalam...

63
perpustakaan.uns.ac.id digilib.uns.ac.id commit to user i ACADEMICOPTER : MESIN PENCARIAN META UNTUK AKADEMIK DENGAN PERINGKASAN OTOMATIS PDF JURNAL ILMIAH SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Jurusan Informatika Disusun Oleh: Lyla Ruslana Aini M0507027 JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA 2012

Upload: nguyencong

Post on 15-Feb-2018

232 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

i

ACADEMICOPTER : MESIN PENCARIAN META UNTUK

AKADEMIK DENGAN PERINGKASAN OTOMATIS

PDF JURNAL ILMIAH

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu

Jurusan Informatika

Disusun Oleh:

Lyla Ruslana Aini

M0507027

JURUSAN INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

SURAKARTA

2012

Page 2: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

ii

Page 3: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

iii

Page 4: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

iv

MOTTO

Surely there is ease after hardship.

(Al-Inshirah:6)

Knowledge shared is power.

(Luis Suarez)

Knowledge is that which benefits, not that which is memorised.

(Imam Syafi'i)

is done.

(Nelson Mandela)

Page 5: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

v

PERSEMBAHAN

Untuk bapak dan ibu tercinta,

Untuk kakak dan adik tersayang,

Untuk ibu Dewi Wisnu Wardani, S.Kom.,M.S.,

Untuk seluruh bapak dan ibu dosen jurusan Informatika UNS,

Untuk teman-teman IF angkatan 2007

Page 6: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

vi

KATA PENGANTAR

Puji syukur kepada Allah Subhanahu w senantiasa

melimpahkan nikmat dan pertolongan-Nya sehingga Penulis dapat menyelesaikan

skripsi dengan judul

Akademik dengan Peringkasan Otomatis Pdf Jurnal Ilmiah .

Skripsi ini disusun dengan bantuan dari banyak pihak. Oleh karena itu,

Penulis mengucapkan terima kasih kepada :

1. Bapak Prof. Ir. Ari Handono Ramelan, M.Sc.(Hons), Ph.D., Dekan FMIPA

UNS.

2. Ibu Dewi Wisnu Wardani, S.Kom., M.S., Dosen Pembimbing I yang telah

memberikan bimbingan, saran dan koreksi atas penyusunan skripsi ini.

3. Bapak Wisnu Widiarto, S.Si., M.Kom., Dosen Pembimbing II yang telah

memberikan bimbingan, saran dan koreksi atas penyusunan skripsi ini.

4. Ibu Umi Salamah, S.Si., M.Kom., ketua Jurusan Informatika FMIPA UNS.

5. Bapak Drs. Wiranto, M.Kom., M.Cs., Pembimbing Akademik yang telah

banyak memberi bimbingan selama masa studi Penulis di Jurusan Informatika

FMIPA UNS.

6. Bapak dan Ibu dosen Jurusan Informatika FMIPA UNS yang telah banyak

memberikan ilmu serta bimbingan kepada Penulis.

7. Keluarga besar yang telah banyak memberikan doa dan dukungan.

8. Seluruh teman serta pihak yang tidak dapat Penulis tuliskan satu persatu yang

telah memberikan bantuan atas penyusunan skripsi ini baik secara langsung

maupun secara tidak langsung.

Semoga Allah membalas kebaikan yang telah diberikan dengan pahala

yang sebesar-besarnya. Penulis berharap semoga skripsi ini dapat memberikan

manfaat bagi para pembaca.

Surakarta, November 2012

Lyla Ruslana Aini

Page 7: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

vii

ACADEMICOPTER : MESIN PENCARIAN META UNTUK AKADEMIK

DENGAN PERINGKASAN OTOMATIS PDF JURNAL ILMIAH

LYLA RUSLANA AINI

Jurusan Informatika. Fakultas MIPA. Universitas Sebelas Maret

ABSTRAK

Academic search engines yang telah ada memberikan informasi tentang jurnal ilmiah hasil pencarian pada snippet berupa informasi yang diperoleh dari abstrak. User memperoleh sedikit informasi dan terkadang harus berpindah pada halaman yang lain untuk memperoleh informasi yang lebih rinci. Oleh karena itu, dikembangkan sebuah academic metasearch engine dengan nama Academicopter yang berfokus pada pencarian PDF jurnal ilmiah dengan sumber data yang diperoleh dari academic metasearch engines. Academicopter melakukan proses peringkasan otomatis pada konten PDF jurnal ilmiah untuk memberikan informasi yang lebih banyak kepada user. Academicopter menggunakan wrapper untuk mengekstraksi data dari halaman hasil pencarian academic search engines. Data yang diekstrak adalah judul jurnal ilmiah, web address sumber jurnal ilmiah, web address PDF jurnal ilmiah, author, serta data untuk pagination. Data-data tersebut akan ditampilkan pada daftar hasil pencarian Academicopter. Peringkasan pada konten PDF jurnal ilmiah menggunakan pendekatan graph-based algorithm dan penambahan fitur metadata formula untuk title, keywords dan abstract. Hasil studi eksperimental menggunakan sumber data yang diperoleh dari Google Scholar dan Libra menunjukkan bahwa Academicopter berhasil menggabungkan hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian tunggal dengan perangkingan yang mengikuti urutan hasil perangkingan pada Google Scholar dan Libra. Academicopter memberikan informasi tentang jurnal ilmiah hasil pencarian pada snippet berupa informasi yang diperoleh dari hasil peringkasan konten PDF jurnal ilmiah. Academicopter juga menghilangkan duplikasi data antara kedua sumber data dengan cara menampilkan satu data saja.

Kata Kunci : Graph based summarization, mesin pencarian meta untuk akademik,

metadata, pdf

Page 8: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

viii

ACADEMICOPTER : ACADEMIC METASEARCH ENGINE WITH

AUTOMATIC PDF SCIENTIFIC JOURNAL SUMMARIZATION

LYLA RUSLANA AINI

Department of Informatic. Mathematic and Science Faculty. Sebelas Maret University

ABSTRACT

The existing academic search engines provided abstract information of scientific journal in snippet. Users gained a little information and sometime had to move to another page to get more-detailed information. Therefore, we developed an academic metasearch engine named Academicopter which focused on scientific journal search with data sources which were obtained from academic metasearch engines. Academicopter performed automatic summarization of PDF scientific journal with the purpose of providing more-detailed information to the users. Academicopter used wrapper for extracting data from academic search engines result pages. The extracted-data are title of the scientific journal, web address of scientific journal source, web address of PDF file, author, and data for pagination which will be displayed on result list of Academicopter. The automatic summarization of PDF scientific journal used graph-based approach and metadata formula for title, keywords and abstract. As the result of experimental studies using data sources which were obtained from Google Scholar and Libra, Academicopter successfully combined search results from both data sources into one single list result. The ranks of result followed the sequence ranks of data source. Academicopter provided summary information of scientific journal in snippet. Academicopter also eliminated duplication of data between the two sources of data by displaying only one data from one data source.

Keywords: Academic metasearch engine, graph based summarization, metadata,

pdf

Page 9: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

ix

DAFTAR ISI

HALAMAN JUDUL................................................................................................ i

HALAMAN PERSETUJUAN ................................................................................ ii

HALAMAN PENGESAHAN................................................................................ iii

HALAMAN MOTTO ............................................ Error! Bookmark not defined.

HALAMAN PERSEMBAHAN ............................................................................ iv

KATA PENGANTAR ........................................................................................... vi

ABSTRAK ............................................................................................................ vii

ABSTRACT ........................................................................................................... viii

DAFTAR ISI .......................................................................................................... ix

DAFTAR TABEL .................................................................................................. xi

DAFTAR GAMBAR ............................................................................................ xii

DAFTAR LAMPIRAN ........................................................................................ xiii

BAB I PENDAHULUAN ........................................................................................1

1.1 Latar Belakang .............................................................................................. 1

1.2 Rumusan Masalah ......................................................................................... 2

1.3 Batasan Masalah ............................................................................................ 2

1.4 Tujuan dan Manfaat Penelitian ...................................................................... 2

1.4.1 Tujuan Penelitian ................................................................................. 2

1.4.2 Manfaat Penelitian ............................................................................... 3

1.5 Sistematika Penulisan .................................................................................... 3

BAB II TINJAUAN PUSTAKA..............................................................................4

2.1 Dasar Teori .................................................................................................... 4

2.1.1 Search Engine .......................................................................................... 4

2.1.1.2 Vertical Search Engine ................................................................... 5

2.1.2 Metasearch Engine................................................................................... 6

2.1.2.1 Wrapper .......................................................................................... 7

2.1.3 Text Preprocessing ................................................................................... 9

2.1.4 Porter Stemmer ...................................................................................... 11

2.1.5. Algoritma TF-IDF ................................................................................. 13

Page 10: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

x

2.1.6 Model Ruang Vektor ............................................................................. 15

2.1.6.1 Sentence Cosine Similarity (idf modified) ..................................... 17

2.1.7. Peringkasan Teks ................................................................................. 18

2.2.7.1 Peringkasan Berbasis Graf ............................................................ 19

2.1.8. Metadata .............................................................................................. 21

2.2 Penelitian Terkait ........................................................................................ 21

2.3 Rencana Penelitian ...................................................................................... 25

BAB III METODE PENELITIAN........................................................................ 26

3.1 Studi Literatur .............................................................................................. 26

3.2 Tahap Perancangan ...................................................................................... 26

3.3 Tahap Implementasi .................................................................................... 27

3.4 Tahap Eksperimen ....................................................................................... 30

3.5 Tahap Evaluasi ............................................................................................ 31

BAB IV PEMBAHASAN ......................................................................................32

4.1 Framework Academicopter ........................................................................ 32

4.2 Perangkingan Hasil Pencarian Academicopter ........................................... 35

4.3 Studi Eksperimen ........................................................................................ 36

BAB V KESIMPULAN DAN SARAN.................................................................50

5.1 Kesimpulan .................................................................................................. 50

5.2 Saran ............................................................................................................ 50

DAFTAR PUSTAKA ............................................................................................51

LAMPIRAN ...........................................................................................................55

Page 11: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

xi

DAFTAR TABEL

Tabel 2.1 Similarity Antarkalimat ........................................................................20

Tabel 4.1 Hasil Pencarian Sumber Data A ..........................................................35

Tabel 4.2 Hasil Pencarian Sumber Data B ...........................................................36

Tabel 4.3 Hasil Pencarian Pada Academicopter ..................................................36

Tabel 4.4 Hasil Pencarian Google Scholar dengan Keywords Wimax

Technology ........................................................................................ 37

Tabel 4.5 Hasil Pencarian Libra dengan Keywords Wimax Technology ........... 37

Tabel 4.6 Hasil Pencarian Academicopter dengan Keywords Wimax

Technology ......................................................................................... 38

Tabel 4.7 Penggabungan Rangking Eksperimen 1 ..............................................38

Tabel 4.8 Hasil Ringkasan Eksperimen 1 ............................................................39

Tabel 4.9 Hasil Pencarian Google Scholar dengan Keywords Text Mining ...... 40

Tabel 4.10 Hasil Pencarian Libra dengan Keywords Text mining ........................ 41

Tabel 4.11 Hasil Pencarian Academicopter dengan Keywords Text Mining ........42

Tabel 4.12 Penggabungan Rangking Eksperimen 2 ..............................................43

Tabel 4.13 Hasil Ringkasan Eksperimen 2 ............................................................44

Tabel 4.14 Hasil Eksperimen dengan Seratus Keyword ........................................45

Page 12: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

xii

DAFTAR GAMBAR

Gambar 2.1. Arsitektur Search Engine ..................................................................5

Gambar 2.2. Arsitektur Mesin Metasearch ............................................................7

Gambar 2.3. Representasi Tree dari Sebuah Fragmen HTML ...............................8

Gambar 2.4. Contoh Proses Tokenizing .................................................................9

Gambar 2.5. Contoh Proses Filtering ..................................................................10

Gambar 2.6. Contoh Proses Stemming .................................................................10

Gambar 2.7. Representasi Dokumen dan Vektor Pada Ruang Vektor ................15

Gambar 2.8. Representasi Matrik Kata-Dokumen ...............................................16

Gambar 2.9. Representasi Grafis Sudut Vektor Dokumen dan Query ...............16

Gambar 2.10. Representasi Graf ............................................................................20

Gambar 2.11. Arsitektur METALICA ...................................................................22

Gambar 2.12. Arsitektur Helios .............................................................................23

Gambar 3.1. Diagram Alir Metodologi Penelitian ...............................................26

Gambar 3.2. Design Framework Academicopter ................................................27

Gambar 4.1. Framework Academicopter .............................................................32

Page 13: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

xiii

DAFTAR LAMPIRAN

LAMPIRAN 1. Pembangunan Wrappers ..............................................................55

LAMPIRAN 2. Tampilan Hasil .............................................................................62

Page 14: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Web telah menjadi sumber informasi yang sangat luas (Meng et al, 2002).

Informasi tentang jurnal penelitian ilmiah banyak tersebar di situs yang berbeda.

Academic search engines telah banyak dibangun untuk dapat melakukan

pencarian pada domain spesifik yang memberikan hasil berupa informasi dalm

bidang akademik, salah satunya adalah informasi tentang jurnal ilmiah. Academic

search engines yang telah ada memberikan informasi tentang jurnal ilmiah hasil

pencarian pada snippet berupa informasi yang diperoleh dari abstrak. User

memperoleh sedikit informasi dan terkadang harus berpindah ke halaman yang

lain untuk memperoleh informasi yang lebih rinci. Untuk menyimpan waktu yang

lebih banyak dari pencari (Dorn, 2008) dan untuk memberikan hasil pencarian

jurnal ilmiah yang lebih banyak, maka dapat dilakukan pencarian ke beberapa

academic search engines secara simultan dengan menggunakan mesin pencarian

meta (Taneja et al., 2007).

Skripsi ini membangun sebuah mesin pencarian meta untuk akademik

dengan sumber data yang berasal dari academic search engines dan berfokus pada

pencarian PDF jurnal ilmiah. Informasi pada PDF jurnal ilmiah merupakan bagian

dari informasi tekstual yang selalu meningkat jumlahnya. Peringkasan teks

otomatis adalah salah satu teknik untuk memperoleh dan mencerna informasi

penting dalam sumber-sumber tekstual. Oleh karena itu, penelitian dalam skripsi

ini juga menerapkan proses peringkasan otomatis pada konten PDF jurnal ilmiah

yang diperoleh dari academic search engines. Peringkasan berfokus pada

peringkasan ekstraktif dengan pendekatan metode berbasis graf dan penambahan

fitur metadata formula untuk title, keywords, dan abstract. Hasil peringkasan akan

ditampilkan pada snippet dalam daftar hasil pencarian dengan tujuan untuk

memberikan informasi yang lebih banyak kepada user.

Page 15: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

2

1.2 Rumusan Masalah

Rumusan masalah yang dibahas dalam skripsi ini adalah bagaimana

membangun sebuah mesin pencarian meta untuk akademik yang menampilkan

snippet berupa informasi hasil peringkasan konten PDF jurnal ilmiah.

1.3 Batasan Masalah

Batasan masalah dari penelitian skripsi ini adalah :

1. Proses peringkasan otomatis dilakukan pada jurnal ilmiah yang berekstensi

PDF dan berbahasa inggris.

2. Bagian dari jurnal yang diringkas adalah bagian abstrak dan bagian

pendahuluan dengan asumsi sebanyak maksimal lima puluh kalimat dengan

hasil ringkasan sebanyak 30% dari total kalimat yang diringkas.

3. Hasil peringkasan akan ditampilkan pada snippet dalam daftar hasil

pencarian.

4. Urutan rangking hasil pencarian pada Academicopter mengikuti urutan hasil

perangkingan dari sumber data. Sumber data dengan hasil pencarian yang

lebih sedikit akan memperoleh prioritas perangkingan yang lebih awal pada

Academicopter.

5. Menampilkan satu data saja jika terdapat duplikasi data di antara sumber data

yang berbeda.

6. Eksperimen mengambil sumber data yang berasal dari dua academic search

engines, yaitu http://libra.msra.cn dan http://scholar.goole.com.

1.4 Tujuan dan Manfaat Penelitian

1.4.1 Tujuan Penelitian

Tujuan dilaksanakan penelitian skripsi ini adalah terbangun sebuah mesin

pencarian meta untuk akademik dengan nama Academicopter yang menampilkan

snippet berupa informasi hasil peringkasan otomatis konten PDF jurnal ilmiah.

Page 16: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

3

1.4.2 Manfaat Penelitian

Manfaat dari penelitian ini adalah memberikan kemudahan bagi user

untuk memperoleh informasi dari beberapa academic search engines secara

simultan dan memberikan representasi hasil pencarian yang lebih lengkap dengan

menampilkan informasi yang diperoleh dari hasil peringkasan konten PDF jurnal

ilmiah.

1.5 Sistematika Penulisan

Sistematika penulisan laporan skripsi ini adalah sebagai berikut:

BAB I PENDAHULUAN

Bagian ini berisi mengenai Latar Belakang Masalah, Rumusan

Masalah, Batasan Masalah, Tujuan Penelitian, Manfaat Penelitian,

Metodologi Penelitian dan Sistematika Penulisan.

BAB II TINJAUAN PUSTAKA

Bagian ini berisi mengenai dasar teori dan tinjauan pustaka yang

digunakan dalam penelitian mengenai mesin pencarian meta, text

preprocessing dan peringkasan teks dengan pendekatan metode graph.

BAB III METODOLOGI PENELITIAN

Pada bagian ini akan dibahas mengenai tahapan dalam pembangunan

Academicopter.

BAB IV PEMBAHASAN

Bagian ini berisi pembahasan implementasi hasil perancangan serta

eksperimen.

BAB V PENUTUP

Bagian ini memuat kesimpulan dan saran dari penelitian dalam skripsi

ini.

Page 17: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

4

BAB II

TINJAUAN PUSTAKA

2.1 Dasar Teori

2.1.1 Search Engine

Search engine adalah alat yang powerful untuk membantu tugas

navigasi pada World Wide Web yang berkembang pesat (Beigi et al., 1997).

Menurut Phan (2010), search engine terdiri dari tiga bagian utama, yaitu :

a. Web crawler

Crawling atau spidering adalah sebuah proses otomatis untuk

mengumpulkan data dengan web spider. Spider divisualisasikan sebagai

laba-laba kecil dan juga dikenal sebagai crawlers, robots, software agents,

wanderers, walkers atau knowbots. Spider mulai meng-crawl beberapa

halaman web dan mengikuti link-link dalam halaman web tersebut. Setelah

mengambil halaman yang ditunjuk, spider mengikuti link-link hingga yang

berada pada halaman terakhir. Proses yang sama akan dilanjutkan sampai

spider mengindek bagian tertentu dari web.

b. Indexer

Indexer bertugas melakukan indexing, yaitu proses mengambil data

mentah dan mengkategorisasikannya. Proses indexing akan menghapus

duplikasi data dan secara umum mengatur data ke dalam bentuk yang

terstruktur.

c. Query Processor

Terdiri dari form pencarian dan pencocokan permintaan pencarian yang

relevan dengan database.

Page 18: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

5

Secara umum, arsitektur search engine ditunjukkan oleh Gambar 2.1

Gambar 2.1. Arsitektur Search Engine (Zhou, 2006)

Arsitektur umum dari sebuah search engine terdiri dari sebuah front-

end process di mana user memasukkan kata kunci pencarian ke dalam

interface search engine. Search engine mengeksekusi operasi pencarian pada

file index. Setelah melakukan perangkingan, interface search engine

mengembalikan hasil pencarian kepada user. Pada back-end process, sebuah

spider/robot mengambil halaman web dari internet dan kemudian subsistem

pengindekan akan mem-parsing halaman web dan menyimpannya ke dalam

file index.

2.1.1.1 Vertical Search Engine

Pertumbuhan web terjadi secara eksponensial yang menyebabkan

jumlah halaman yang diindeks di web juga semakin meningkat. Hal

tersebut akan menyulitkan search engine untuk tetap up-to-date dan

mempertahankan indeks pencarian yang komprehensif sehingga

menghasilkan presisi yang rendah (Chau, 2002). Vertical search engine

atau disebut juga dengan domain-specific search engine mengatasi

masalah tersebut dengan memungkinkan pengguna untuk melakukan

pencarian dalam domain tertentu dan menyediakan fitur yang sesuai

(Chau, 2002). Vertical search engine umumnya menggunakan crawler

dengan fokus mengindek halaman web yang relevan dengan topik yang

Page 19: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

6

telah ditentukan. Vertical search engine dapat mengangkat topik khusus

dalam bidang pariwisata (travel), bidang akademik, dan sebagainya.

2.1.2 Metasearch Engine

Pencarian meta atau metasearch adalah pencarian yang memanfaatkan

beberapa pencarian lain dan berlangsung secara simultan. Sebuah mesin

metasearch adalah sebuah sistem yang memungkinkan untuk melakukan

metasearch. Untuk melakukan proses dasar dari metasearch, sebuah user

query dikirim ke beberapa search engines yang telah ada oleh mesin

metasearch (Meng, 2008).

Mesin metasearch juga dikenal sebagai multi-threaded engines, yang

mengirim user query secara simultan ke search engines lainnya atau ke

direktori web atau deep web, kemudian mengumpulkan hasilnya, menghapus

duplikasi link, menggabungkan dan merangkingnya berdasarkan algoritma

yang diterapkan dalam sebuah daftar tunggal, dan menampilkan hasilnya

kepada user (Dorn et al., 2008). Yang menjadi isu utama dari mesin

metasearch adalah bagaimana meluluskan user query ke mesin pencari lain,

bagaimana mengidentifikasi hasil pencarian yang benar dari halaman yang

dikembalikan dari search engines, dan bagaimana menggabungkan hasil dari

sumber yang berbeda (Meng, 2008).

Menurut Meng (2008) motivasi dalam pembuatan mesin metasearch

adalah (i) peningkatan cakupan pencarian karena mesin metasearch secara

efektif mengabungkan komponen-komponen dari berbagai search engines,

(ii) peningkatan kenyamanan user karena mesin metasearch memungkinkan

pengguna untuk memperoleh informasi dari berbagai sumber dan mesin

metasearch menyembunyikan perbedaan dari search engines yang berbeda

dalam format query pada user, (iii) efektivitas pengambilan yang lebih baik

karena hasil penggabungan komponen menyatukan mekanisme pemilihan

hasil, seperti misalnya hasil dengan rangking yang tinggi dari berbagai search

engines lebih relevan dibandingkan dari hasil yang dikembalikan oleh satu

mesin pencari saja.

Page 20: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

7

Arsitektur mesin metasearch ditunjukkan oleh Gambar 2.2.

Gambar 2.2. Arsitektur Mesin Metasearch (Glover et al., 1999)

Proses penggabungan merupakan salah satu komponen yang paling

mendasar dalam mesin metasearch. Search engines yang berbeda mungkin

mengindeks halaman web yang berbeda pula dan beberapa search engines

mungkin lebih baik dari search engines lainnya dalam area tertentu. Hal

tersebut penting untuk mengidentifikasi search engines yang sesuai dengan

user query. Sebagian besar mesin metasearch dibangun di atas search

engines tanpa kolaborasi eksplisit dari search engines tersebut. Sehingga

membangun mesin metasearch membutuhkan sebuah program koneksi dan

sebuah program ekstraksi (wrapper) untuk masing-masing komponen search

engines (Meng, 2008).

2.1.2.1 Wrapper

Search engines yang berbeda menghasilkan halaman hasil dalam

format yang berbeda pula. Sebuah program pengekstrak hasil yang

terpisah (wrapper) perlu dibangkitkan untuk setiap search engines

(Meng, 2008). Wrapper merupakan program khusus untuk mengekstrak

data yang diinginkan dari halaman hasil pencarian yang dikembalikan

oleh mesin pencari dan memetakan data yang didapat ke dalam format

yang terstruktur (Nassourou, 2010).

Wapper bertanggung jawab untuk mentransmisikan query yang

diberikan ke search engines, menerima hasil pencarian dan mengekstrak

data yang diperlukan. Wrapper terdiri dari dua komponen utama, yaitu

Page 21: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

8

sebuah kontrol koneksi dan sebuah komponen analisis syntax (Schmitt,

1999).

Sebuah halaman hasil HTML dari sebuah search engine

mengandung nol atau lebih butir jawaban. Sebuah butir jawaban adalah

sebuah kelompok informasi yang koheren yang menyusun sebuah

jawaban bagi query. Sebuah wrapper mengekstrak jawaban dari konten

tekstual dan atribut dari tag tertentu dalam halaman sebagai sebuah tupel.

Karena presentasi hasil pencarian dari search engine sering berubah,

maka wrapper harus selalu dijalankan.

Halaman hasil biasanya juga mengandung beberapa informasi atau

link yang tidak diinginkan. Sehingga penting bagi wrapper untuk dapat

mengekstrak dengan tepat informasi yang diperlukan (Meng, 2008).

Sebagian dari wrapper menganalisis sumber file HTML dari halaman

hasil sebagai string teks atau tag tree (DOM trees) untuk menemukan

pola berulang dari catatan hasil pencarian.

a. String based wrapper

Dalam string based wrapper sebuah halaman web digambarkan

sebagai sebuah urutan dari tokens dan markup tags. Batas awal dan

akhir dari string yang diberikan digunakan untuk mengekstrak

informasi di dalamnya.

b. Tree based wrapper

Menurut Nassourou (2010), dalam tree based wrapper, halaman web

direpresentasikan sebagai sebuah tree. Yang menjadi nodes dalam

tree adalah HTML tags.

Gambar 2.3. Representasi Tree dari Sebuah Fragmen HTML

(Nassourou, 2010)

Page 22: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

9

Gambar 2.3 menunjukkan representasi tree dari sebuah potongan halaman

HTML di bawah ini :

<html> <head></head> <body><table><tr><td><b>Hotel</b></td></tr></table></body> </html>

2.1.3 Text Preprocessing

Text preprocessing adalah tahapan pertama dalam tahapan text mining

untuk mempersiapkan teks menjadi data yang akan diolah pada tahapan

selanjutnya (Even, 2002). Inputan awal pada proses ini berupa dokumen utuh.

Tahapan dalam text preprocessing adalah :

1. Tokenizing

Tokenizing merupakan tahap pemotongan teks input berdasar tiap kata

penyusunnya. Contoh proses tokenizing ditunjukkan oleh gambar 2.4.

Gambar 2.4. Contoh Proses Tokenizing

2. Filtering

Tahap filtering adalah tahap mengambil kata-kata penting dari hasil

tokenizing. Bisa menggunakan algoritma stoplist (membuang kata yang

kurang penting atau yang dianggap tidak mempunyai bobot) atau wordlist

(menyimpan kata penting) (Triawati, 2009). Stoplist adalah kata-kata yang

tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words.

Contoh stoplist is and the dan seterusnya. Contoh proses

filtering ditunjukkan oleh gambar 2.5.

Seren's hobbies include snow skiing and boarding

hobbies include snow skiing and

boarding

tokenizing

Hasil token

Page 23: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

10

Gambar 2.5. Contoh Proses Filtering

Hasil dari filtering kemudian digunakan untuk proses selanjutnya yaitu

proses tagging dan stemming.

3. Tagging

Tagging adalah proses memberikan label/tag pada token yang tidak

termasuk stopwords maupun yang tidak termasuk dalam wordlist.

Misalnya memberikan tag number untuk angka yang ditemukan dalam

teks atau untuk nama orang, nama kota, nama sistem dan

sebagainya. Pada kata hasil filtering pada contoh filtering, maka didapat

satu kata yang diberi .

4. Stemming

Stemming adalah tahap mencari root kata dari tiap kata yang dihasilkan

oleh filtering (Triawati, 2009). Proses ini mengubah kata menjadi kata

dasar pembentuknya. Tahap ini kebanyakan dipakai dalam teks berbahasa

Inggris. Proses stemming untuk teks berbahasa Inggris menggunakan

algoritma yang cukup terkenal, yaitu Porter Stemmer. Contoh dari proses

stemming ditunjukkan oleh gambar 2.6.

Gambar 2.6. Contoh Proses Stemming

hobbies include snow skiing and

boarding

Hasil filter Hasil token

hobbies include snow skiing

boarding

hobbies include snow skiing and

boarding

Hasil stemming

Hasil filter

hobbi include snow

ski board

Page 24: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

11

2.1.4 Porter Stemmer

Algoritma stemming yang paling umum digunakan untuk stemming

bahasa Inggris dan terbukti efektif adalah Porter Stemmer (Manning et al.,

2009). Porter Stemmer ditemukan oleh Martin Porter pada tahun 1980.

Algoritma Porter Stemmer mencari kata dasar suatu kata berimbuhan dengan

membuang imbuhan-imbuhan (akhiran) pada kata-kata bahasa Inggris karena

dalam bahasa Inggris tidak mengenal awalan (Baskoro et al., 2012).

Beberapa definisi yang digunakan dalam algoritma ini adalah :

V vokal

C konsonan

M measure (vc)

*S -stem berakhir dengan huruf S

*v* -stem mengandung vokal

*d -stem berakhir dengan double konsonan

*o -stem berakhir dengan cvc, dengan c yang kedua bukan W, X,Y

Menurut Porter (1980) langkah-langkah algoritma Porter Stemmer

adalah sebagai berikut :

Langkah 1a

SSES SS caresses caress IES I ponies poni SS SS caress caress S cats cat

Langkah 1b

(m>0) EED EE feed feed (*v*) ED plastered plaster bled bled (*v*) ING motoring motor sing sing

Jika aturan kedua atau ketiga pada langkah 1b sukses, dilakukan hal berikut

ini :

AT ATE conflat(ed) conflate BL BLE troubl(ed) trouble IZ IZE siz(ed) size

Page 25: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

12

(*d dan tidak (*L atau *S atau *Z))

single letter

hopp(ing) hop tann(ed) tan fall(ing) fall hiss(ing) hiss fizz(ed) fizz (m=1 dan *o) E fail(ing) fail fil(ing) file

Aturan untuk memetakan ke single letter menyebabkan penghapusan salah

satu pasangan huruf ganda. -E diletakkan kembali pada akhir setelah -AT,

-BL, dan -IZ sehingga akhiran dapat dikenali kemudian.

Langkah 1c

(*v*) Y I happy happi sky ski

Langkah 2

(m>0) ATIONAL -> ATE relational -> relate (m>0) TIONAL -> TION conditional -> condition

rational -> rational (m>0) ENCI -> ENCE valenci -> valence (m>0) ANCI -> ANCE hesitanci -> hesitance (m>0) IZER -> IZE digitizer -> digitize

(m>0) ABLI -> ABLE conformabli -> conformable (m>0) ALLI -> AL radicalli -> radical (m>0) ENTLI -> ENT differentli -> different (m>0) ELI -> E vileli -> vile (m>0) OUSLI -> OUS analogousli -> analogous (m>0) IZATION -> IZE vietnamization -> vietnamize (m>0) ATION -> ATE predication -> predicate (m>0) ATOR -> ATE operator -> operate

(m>0) ALISM -> AL feudalism -> feudal (m>0) IVENESS -> IVE decisiveness -> decisive (m>0) FULNESS -> FUL hopefulness -> hopeful (m>0) OUSNESS -> OUS callousness -> callous (m>0) ALITI -> AL formaliti -> formal (m>0) IVITI -> IVE sensitiviti -> sensitive (m>0) BILITI -> BLE sensibiliti -> sensible

Langkah 3

(m>0) ICATE -> IC triplicate -> triplic (m>0) ATIVE -> formative -> form (m>0) ALIZE -> AL formalize -> formal

Page 26: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

13

(m>0) ICITI -> IC electriciti -> electric (m>0) ICAL -> IC electrical -> electric (m>0) FUL -> hopeful -> hope (m>0) NESS -> goodness -> good

Langkah 4

(m>1) AL -> revival -> reviv (m>1) ANCE -> allowance -> allow (m>1) ENCE -> inference -> infer (m>1) ER -> airliner -> airlin (m>1) IC -> gyroscopic -> gyroscop (m>1) ABLE -> adjustable -> adjust (m>1) IBLE -> defensible -> defens (m>1) ANT -> irritant -> irrit (m>1) EMENT -> replacement -> replac (m>1) MENT -> adjustment -> adjust (m>1) ENT -> dependent -> depend (m>1 and (*S or *T)) ION -> adoption -> adopt (m>1) OU -> homologou -> homolog (m>1) ISM -> communism -> commun (m>1) ATE -> activate -> activ (m>1) ITI -> angulariti -> angular (m>1) OUS -> homologous -> homolog (m>1) IVE -> effective -> effect (m>1) IZE -> bowdlerize -> bowdler

Langkah 5a

(m>1) E -> probate -> probat rate -> rate (m=1 dan not *o) E -> cease -> ceas

Langkah 5b

(m > 1 dan *d dan *L) -> single letter controll -> control roll -> roll

2.1.5 Algoritma TF-IDF

Salah satu cara untuk memberi bobot terhadap suatu kata adalah

memberikan nilai jumlah kemunculan suatu kata dalam suatu dokumen atau

dikenal dengan term frequency (tf) dan jumlah kemunculannya dalam koleksi

dokumen sebagai inverse document frequency (idf).

Page 27: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

14

a. Term Frequency (tf)

Term Frequency (tf) adalah jumlah kemunculan suatu kata/term (t) dalam

dokumen/kalimat. Semakin besar kemunculan sering suatu term dalam

sebuah dokumen, maka semakin besar nilai tf pada term tersebut yang

berarti semakin penting term tersebut. Faktor tf dapat dihitung dengan

menggunakan persamaan 2.1.

dengan fw,s > 0 (2.1)

di mana,

tfw,s = nilai tf term w dalam kalimat s

fw,s = jumlah kemunculan term w dalam kalimat s

ns = jumlah term dalam kalimat s

b. Inverse Document Frequency (idf)

Menurut Mandala (2002) faktor lain yang diperhatikan dalam pemberian

bobot adalah jarang munculnya kata dalam koleksi. Kata yang muncul

pada sedikit dokumen dipandang sebagai kata yang lebih penting daripada

kata yang sering muncul pada banyak dokumen. Pembobotan

memperhitungkan faktor kebalikan frekuensi dokumen yang mengandung

suatu kata atau disebut dengan inverse document frequency.

Faktor idf dapat dihitung dengan menggunakan persamaan 2.2 (Manning et

al., 2009).

dengan nw > 0 (2.2)

di mana,

idfw = nilai idf term w

n = jumlah kalimat dalam suatu artikel

nw = jumlah kalimat di mana term w muncul

Page 28: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

15

2.1.6 Model Ruang Vektor

Menurut Mandala et al. (2002) misalkan terdapat sejumlah n kata yang

berbeda sebagai kamus kata (vocabulary) atau indeks kata (terms index),

kata-kata tersebut akan membentuk ruang vektor yang memiliki dimensi

sebesar n. Setiap kata i dalam dokumen atau query diberikan bobot sebesar

wi. Baik dokumen maupun query direpresentasikan sebagai vektor berdimensi

n. misalkan terdapat tiga buah kata ( T1, T2 dan T3 ), 2 buah dokumen ( D1

dan D2 ) serta sebuah query Q.

D1=2T1+3T2+5T3 D2=3T1+7T2+0T3 Q=0T1+0T2+2T3

Maka representasi grafis dari ketiga vektor ini adalah seperti yang

ditunjukkan pada gambar 2.7.

Gambar 2.7. Representasi Dokumen dan Vektor Pada Ruang Vektor

(Mandala et al., 2002)

Menurut Mandala et al. (2002) koleksi dokumen direpresentasikan pula

dalam ruang vektor sebagai matriks kata-dokumen (terms-documents matrix).

Nilai dari elemen matriks wij adalah bobot kata i dalam dokumen j. Misalkan

terdapat sekumpulan kata T sejumlah m, yaitu T = (T1,T2,...,Tm) dan

sekumpulan dokumen D sejumlah n, yaitu D=(D1,D2,...,Dm) serta wij adalah

bobot kata i pada dokumen j, representasi matrik kata dokumen tersebut

ditunjukkan oleh gambar 2.8.

Page 29: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

16

T1 T2 . TnD1 w11 w21 wn1

D2 w12 w22 wn2: : : :: : : :Dm w1m w2m wnm

Gambar 2.8. Representasi Matrik Kata-Dokumen (Mandala et al., 2002)

Menurut Mandala et al. (2002) penentuan relevansi dokumen dengan

query dipandang sebagai pengukuran kesamaan (similarity measure) antara

vektor dokumen dengan vektor query

dokumen dengan vektor query maka dokumen dapat dipandang semakin

relevan dengan query. Salah satu pengukuran kesesuaian yang baik adalah

dengan memperhatikan perbedaan arah (direction difference) dari kedua

vektor tersebut. Perbedaan arah kedua vektor dalam geometri dapat dianggap

sebagai sudut yang terbentuk oleh kedua vektor. Kesamaan antara dokumen

D1 dan D2 dengan query Q ditunjukkan oleh gambar 2.9.

t3

t1

t2

D1

D2

Q

1

2

Gambar 2.9. Representasi Grafis Sudut Vektor Dokumen dan Query

(Mandala et al., 2002)

Sudut 1 menggambarkan kesamaan dokumen D1 dengan query

sedangkan sudut 2 menggambarkan kesamaan dokumen D2 dengan query.

Jika Q adalah vektor query dan D adalah vektor dokumen, dan adalah

Page 30: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

17

sudut yang dibentuk oleh kedua vektor tersebut. Maka cosDQDQ ,

dengan n

i

DD1

21 dan

n

i

QQ1

21 yang merupakan panjang vektor

dalam ruang berdimensi n. Perhitungan kesamaan (similarity) kedua vektor

ditunjukkan oleh persamaan 2.3.

i

n

ii DQ

DQDQDQ

DQCosDQSim1

1),(),( (2.3)

2.1.6.1 Sentence Cosine Similarity ( idf modified )

Cosine similarity adalah metode similarity yang paling banyak

digunakan untuk menghitung similarity antara dua buah dokumen (Tan et

al., 2006). Similarity diantara dua vektor kalimat x dan y dapat ditentukan

dengan cosine diantara dua vektor yang dimodifikasi dengan inverse

document frequency (idf). Metode tersebut cukup populer dan lebih baik

dibandingkan metode lainnya (Erkan, 2004). Haiharan (2010) telah

membuktikan bahwa metode cosine similarity (idf modified) memberikan

hasil yang baik dalam mengukur hubungan antarkalimat.

Erkan dan Radev (2004) menggunakan modifikasi cosine

similarity dengan konsep bag of words model, yaitu menggunakan

perhitungan kemunculan term pada suatu kalimat dikalikan dengan nilai

idf term tersebut. Kemiripan antar kalimat dapat dihitung menggunakan

persamaan 2.4.

(2.4)

di mana,

idf_modified_cosine(x,y) = kemiripan kalimat x dan kalimat y

tfw,x = jumlah dari munculnya kata (tf) w dalam kalimat x

tfw,y = jumlah dari munculnya kata (tf) w dalam kalimat y

idfw = nilai idf kata w

Page 31: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

18

= jumlah dari munculnya kata (tf) xi dalam kalimat x

= jumlah dari munculnya kata (tf) xi dalam kalimat y

= nilai idf kaya yi

= nilai idf kaya xi

2.1.7 Peringkasan Teks

Ringkasan dapat didefinisikan sebagai sebuah teks yang dihasilkan dari satu

atau lebih teks, yang berisi informasi penting dari teks asli (Hovy, 2005). Menurut

Mani et al. (1999) peringkasan adalah proses penyaringan informasi paling

penting dari sebuah sumber (atau beberapa sumber) untuk menghasilkan sebuah

versi pendek dari sumber tersebut untuk user tertentu (atau beberapa user) dan

untuk sebuah tugas (atau beberapa tugas). Ketika proses tersebut dilakukan

dengan komputer secara otomatis maka disebut dengan peringkasan teks otomatis.

Input dalam proses peringkasan dapat berupa dokumen tunggal atau beberapa

dokumen, teks atau informasi multimedia seperti gambar, audio, atau video.

Definisi sederhana tentang ringkasan merangkum tiga aspek penting yang menjadi

karakter penelitian dalam automatic text summarization (Susanti, 2011) :

a. Summary mungkin dihasilkan dari single atau multiple-document.

b. Summary harus menampilkan informasi yang penting dari teks asli,

c. Summary yang dihasilkan harus pendek (<= 50%).

Secara garis besar fase dalam peringkasan teks otomatis dapat terdiri dari 3

fase (Mani et al., 1999), yaitu analisis teks input, transformasi teks input ke dalam

sebuah bentuk ringkasan, dan mengumpulkan dalam sebuah output yang tepat.

Ada beberapa cara yang mana dapat mencirikan pendekatan yang berbeda untuk

peringkasan teks. Salah satunya adalah mengkaji pada level proses. Berdasarkan

hal tersebut, peringkasan dapat dicirikan dengan pendekatan masalah pada

surface-level, entity-level, dan discourse-level (Mani et al., 1999).

a. Surface-level merupakan pendekatan dalam mengekstrak informasi. Fitur ini

meliputi :

Page 32: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

19

fitur tematik (statistik dari istilah penting, berdasarkan statisik frekuensi

istilah/term)

lokasi (posisi dari teks, posisi paragraf)

latar belakang (term dari judul atau heading dalam teks, bagian inisial dari

teks, atau sebuah user query)

b. Entity-level adalah pendekatan pembangunan representasi internal dari teks,

pemodelan entitas teks dan relasinya. Pendekatan ini mewakili pola

konektivitas dalam teks (misalnya topologi graf). Hubungan antara entitas

meliputi :

similarity

proximity (jarak antara unit teks)

hubungan tesaurus antara kata-kata (sinonim, hipernim)

c. Discourse-level merupakan pendekatan model struktur global dari teks dan

relasinya untuk tujuan komunikatif. Struktur ini meliputi :

format dari dokumen ( hypertext markup, outline dokumen)

struktur retorikal dari teks

Sebuah parameter penting untuk peringkasan adalah compression ratio (rasio

dari panjang ringkasan pada panjang sumber). Compression ratio biasanya berada

pada kisaran 1%-30% (Mani et al., 1999). Ringkasan teks dapat dibagi ke dalam

kategori yang berbeda, salah satunya berdasarkan pada asal teks dalam ringkasan

yang terbagi menjadi dua (Lal, 2002), yaitu :

a. Ekstraktif, di mana ringkasan tersusun dari kalimat yang sudah ada dalam

teks.

b. Abstraktif, beberapa teks baru dibangkitkan oleh peringkas.

2.1.7.1 Peringkasan Berbasis Graf

Metode peringkasan berbasis graf merepresentasikan sebuah teks dalam

sebuah graf. Vertex/node pada graf dapat berbentuk kata, kalimat, maupun

paragraf dalam sebuah teks, sedangkan edge menunjukkan keterhubungan

antara vertex-vertex tersebut. Keterhubungan dapat berupa similarity antar

kalimat ataupun hubungan leksikal atau gramatikal antar kata/frasa

Page 33: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

20

(Purwasih, 2008). Kata-kata akan dipilih sebagai vertex. Namun apabila ingin

menghasilkan ringkasan ekstraktif, maka kalimat dipilih sebagai vertex. Edge

yang menghubungkan vertex-vertex tersebut juga disesuaikan dengan

kebutuhan dan unit teks yang telah dipilih menjadi vertex. Konsep similarity

digunakan untuk menyatakan hubungan antar vertex, atau dengan kata lain,

antara kalimat satu dengan kalimat lain. Salah satu yang cukup terkenal

adalah dengan cosine similarity.

Tabel 2.1 Tabel Similarity Antarkalimat (Muresan, 2007)

Kalimat 1 2 3 4 5

1 23

2 33 5

3 55

4 50

5

Representasi graf dari hubungan antarkalimat tersebut ditunjukkan pada

Gambar 2.10.

Gambar 2.10. Representasi Graf (Muresan,2007)

Secara umum, graph-based summarization dapat diklasifikasikan dalam dua

jenis, yaitu tipe non-Page Rank dan Page Rank (Hariharan, 2010). Salah satu

metode yang yang termasuk dalam Page Rank adalah algoritma continuous

Sentence Rank (Hariharan, 2010).

Page 34: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

21

2.1.8 Metadata

Metadata adalah data yang mendiskripsikan data. Menurut Oracle (2012)

metadata adalah diskripsi dari data itu sendiri, maksud dari data tersebut,

bagaimana cara menggunakannya, dan sistem yang digunakan untuk

mengaturnya. Metadata meliputi :

1. Definisi model data

2. Diskripsi transformasi data

3. Proses dan aliran informasi, seperti jadwal dan logs.

4. Diskripsi seperti dimensi, matrik.

5. Tipe informasi yang berarti lainnya, seperti semantik.

Metadata tidak hanya terdiri dari informasi teknis, tetapi juga meliputi

informasi yang membuat user tahu tentang tujuan dan kegunaan data.

2.2 Penelitian Terkait

Berikut ini adalah beberapa penelitian yang berkaitan dengan mesin

pencarian meta di berbagai domain pengetahuan.

1. METALICA: An Enhanced Meta Search Engine for Literature Catalogs

(Schmitt et al., 1999)

Penelitian ini menyediakan kemudahan pengguna dalam pencarian literatur.

Layanan heterogen yang terintegrasi pada bagian dasar dari sebuah domain

model, dirancang untuk menggabungkan semua aspek dari dokumen,

termasuk informasi bibliografi, informasi konten, dan informasi yang

diperlukan untuk memperoleh versi fisik atau digital dari entitas dokumen

komersial atau publik. Teknis dan sintaksis homogenisasi dilakukan dengan

wrappers yang terdiri dari komponen kontrol koneksi dan komponen analisis

sintaks. Homogenisasi semantik dilakukan dengan mediator yang berisi

penerjemah query dan penerjemah model atribut. Integrator mengenali dan

menyatukan duplikat dan menawarkan operasi tambahan untuk

mengelompokkan dan memilah sehingga mendukung pengguna dalam

eksplorasi koleksi hasil yang besar. Antarmuka pengguna memanfaatkan

Page 35: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

22

arsitektur model-view-controller. Arsitektur METALICA ditunjukkan oleh

Gambar 2.11.

Gambar 2.11. Arsitektur METALICA (Schmitt et al., 1999)

2. Fusion Based Meta Search : An Improved Approach towards efficient web

searching (Taneja et al., 2007)

Penelitian ini menerangkan bagaimana cara membuat sebuah sistem untuk

menggabungkan hasil himpunan permintaan pengguna dari beberapa mesin

pencari yang berbeda ke dalam satu himpunan hasil tunggal yang kemudian

akan ditawarkan kepada pengguna dalam format yang sesuai. Pendekatan

dalam metasearch dapat dirangkum dalam tiga fase, yaitu :

a. Selection of Search Engine, yaitu pengguna memasukkan query ke dalam

mesin metasearch, kemudian query tersebut dikirim untuk menyeleksi

search engine. Mesin metasearch memutuskan himpunan search engines

yang dapat digunakan untuk proses pembuatan keputusan.

b. Merging Result Sets, yaitu mengkombinasikan, mereorganisasi dan

mengurutkan dokumen yang diperoleh serta menyatukan ke dalam satu

daftar tunggal.

c. Presentation to Use, yaitu menampilkan hasil pencarian kepada pengguna

dengan format yang sesuai.

3. Web Service based Meta-Search for Accomodation (Dorn et al., 2008)

Paper ini menerangkan tentang Helios, yaitu sebuah mesin metasearch yang

berbasis open source. Helios berjalan di atas delapan belas search engines.

Page 36: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

23

Antarmuka web mengizinkan users untuk men-submit query dan untuk

menyeleksi search engines yang diinginkan. Informasi diinterpretasikan

dengan Local Query Parser & Emitter yang menulis ulang queries ke dalam

format yang tepat untuk search engines yang terpilih. Engines Builder

memelihara seluruh pengaturan penting untuk berkomunikasi dengan remote

search engines. Modul HTTP Retrievers menangani komunikasi jaringan.

Segera setelah hasil diperoleh, Search Result Collector & Parser

mengekstrak informasi yang relevan dan mengembalikannya dengan

menggunakan XML. Untuk mencapai performansi yang baik, Helios

memanfaatkan I/O dan koneksi paralel TCP, dengan remote search engines.

Hal tersebut berguna untuk : (i) sistem tidak overloaded dengan ribuan

threads, (ii) dengan koneksi paralel, biaya koneksi berkurang. Arsitektur

Helios ditunjukkan oleh Gambar 2.12.

Gambar 2.12. Arsitektur Helios (Dorn et al 2008)

4. Inquirus, The NECI Metasearch Engine (Lawrence et al., 1998)

Inquirus bekerja dengan mengunduh and menganalisis halaman web. Inquirus

membuat perbaikan atas mesin pencari yang ada di sejumlah daerah,

misalnya: dengan teknik sederhana mencari kesamaan antara query dan

informasi pada halaman web dan mendeteksi duplikasi halaman. Fitur dasar

Inquirus adalah menganalisis dokumen halaman web dan menampilkan

konteks lokal yang berada pada sekitar query. Sehingga user dapat

memperoleh hasil dengan relevansi tinggi terhadap query yang dimasukkan.

Manfaat dari menampilkan konteks lokal adalah user dapat dengan cepat

membaca apakah dokumen yang terpilih menjawab user query atau tidak.

Page 37: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

24

Seorang user dapat menemukan dokumen dengan relevansi yang tinggi

dengan scanning lokal konteks secara cepat. Teknik tersebut sederhana, tetapi

efektif, khususnya dalam kasus pencarian pada web dengan database yang

begitu besar dan terkadang kurang terorganisasi. User mengindikasi

ringkasan dari halaman yang dibangkitkan dengan menggunakan konteks

lokal yang mengizinkan untuk memperkirakan relevansi dokumen dengan

lebih mudah dan cepat. Duplikasi halaman akan teridentifikasi jika string

konteks identik. Inquirus menggunakan teknik pencarian specific expressive

forms, yang mana dapat meningkatkan presisi untuk query tertentu secara

dramatis. Teknik tersebut bekerja dengan cara mencari jalan khusus dari

pernyataan jawaban untuk sebuah query.

5. Applying Metasearch Technique to Medical Literature Retrieval for

Evidence-Based Medicine (Coi et al., 2009)

Paper ini menerangkan pembangunan sistem pencarian yang efektif dalam

domain medis yang kompleks dengan cara menghitung relevansi dan aspek

kualitas bersama dalam algoritma perangkingan. Hal pertama yang dilakukan

adalah membuat koleksi test dengan memanfaatkan Cochrane Reviews yang

mempublikasikan tinjauan sistematis penelitian utama dalam perawatan

kesehatan manusia dan kebijakan kesehatan. Skor relevansi dihitung

menggunakan probabilistik pengambilan model (Okapi BM25). Judul,

abstrak, bidang publikasi diekstraksi untuk diindeks. Dengan mesin classifier

(Naif Bayes, SVM) dilatih tentang database Hedges klinis, untuk menghitung

kualitas skor. Kemudian menggabungkan skor relevansi dan skor kualitas

dengan berbagai metodologi reranking. Prediksi peringkat dihitung dengan

menggunakan algoritma SVM. Dan dari paper ini telah dibuktikan bahwa

proses dapat reranking meningkatkan performansi.

6. Profusion: Intelligent Fusion from Multiple Distributed Search Engines

(Gauch et al., 1996)

ProFusion adalah sebuah mesin metasearch yang bekerja dengan

mengkombinasikan learning approach. Dalam ProFusion, 13 pre-set kategori

dimanfaatkan dalam proses learning. Sekumpulan term diasosiasikan dengan

Page 38: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

25

masing-masing kategori untuk merefleksikan topik dari kategori. Untuk

setiap kategori, sekumpulan dari training queries akan diidentifikasi. Alasan

menggunakan kategori dan training queries adalah untuk mempelajari

seberapa baik masing-masing komponen database akan merespon queries

dalam kategori yang berbeda. Pengetahuan yang dipelajari dari training

queries digunakan untuk menyeleksi search engine pada setiap user query

dan pengetahuan secara berlanjut diperbarui dengan dasar reaksi user

terhadap hasil pencarian, hal tersebut dilihat dari diklik atau tidaknya hasil

oleh user.

7. ProThes: Thesaurus-based Meta-Search Engine for a Specific Application

Domain (Braslavski et al., 2004)

ProThes adalah sebuah mesin metasearch untuk sebuah aplikasi domain

khusus. ProThes mengkombinasikan tiga pendekatan : metasearch, graphical

user interface (GUI) untuk spesifikasi query, dan teknik thesaurus-based

query. ProThes mencoba untuk menggunakan pengetahuan pada bidang

khusus, yang mana direpresentasikan oleh konsep thesaurus. Walaupun

representasi pengetahuan terpisah dari inti mesin metasearch, mengatur

sistem dalam sebuah domain khusus tidaklah masalah. Thesaurus

mengizinkan untuk pembangunan query manual dan teknik query otomatis.

Dalam penelitian ini ditunjukkan bahwa teknik query otomatis, walaupun

sangat membantu dalam banyak kasus, gagal untuk menyajikan hasil yang

baik secara konsisten.

2.3 Rencana Penelitian

Penelitian ini membangun sebuah mesin pencarian metauntuk akademik

dengan nama Academicopter. Academicopter berfokus pada jurnal ilmiah dengan

proses peringkasan pada konten PDF jurnal ilmiah. Wrapper yang dibangun

menggunakan pendekatan metode tree-based wrapper. Proses peringkasan teks

dengan menggunakan metode pendekatan graph dan penambahan fitur untuk

metadata formula untuk title keywords,dan abstract.

Page 39: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

26

BAB III

METOD OLOGI PENELITIAN

Penelitian dalam skripsi ini dilakukan dengan tahapan-tahapan yang

ditunjukkan oleh Gambar 3.1.

Gambar 3.1. Diagram Alir Metodologi Penelitian

3.1 Studi Literatur

Studi literatur merupakan langkah pertama untuk mengumpulkan informasi

yang relevan dengan penelitian pembangunan Academicopter. Studi literatur

dilakukan melalui kajian pustaka tentang teori dan penelitian tentang mesin

pencarian meta yang telah ada sebelumnya. Sumber kajian pustaka berasal dari

jurnal, skripsi, maupun artikel yang berkaitan dengan tema mesin pencarian meta,

text preprocessing, dan peringkasan teks otomatis dengan pendekatan graf dengan

penambahan fitur metadata formula. Sumber kajian pustaka diperoleh dari sumber

baik yang berasal dari luar negeri maupun dalam negeri.

3.2 Tahap Perancangan

Pada tahap ini dilakukan perancangan framework Academicopter. Gambar

design perancangan framework Academicopter ditunjukkan oleh gambar 3.2.

Page 40: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

27

Gambar 3.2. Design Framework Academicopter

Tahap perancangan mengikuti alur proses utama dalam Academicopter, yaitu

user memasukkan keywords pencarian, Academicopter melakukan koneksi

terhadap sumber data academic search engines untuk meneruskan user query,

mengekstraksi data yang diperlukan dari halaman web hasil pencarian academic

search engines yang sesuai dengan query user dengan menggunakan wrapper

yang dibangun dengan metode pendekatan tree-based wrapper, mengunduh file

PDF jurnal ilmiah, mengekstrak file PDF menjadi TXT dengan menggunakan tool

pdftotext.exe, melakukan text preprocessing pada konten TXT, melakukan proses

peringkasan konten PDF jurnal ilmiah dengan menggunakan metode pendekatan

graph dan penambahan fitur untuk metadata formula untuk title, keywords, dan

abstract.

3.3 Tahap Implementasi

Tahap implementasi merupakan tahap pembangunan Academicopter

berdasarkan hasil perancangan framework dengan menerapkan algoritma graf

untuk peringkasan. Tahap implementasi meliputi tahap pembangunan database

dengan database server MySQL, tahap pembuatan kode program dengan bahasa

Page 41: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

28

pemrograman PHP, HTML, CSS dan javascript, serta tahap debugging untuk

mencari error yang masih terdapat pada program untuk selanjutnya diperbaiki.

Model algoritma peringkasan yang digunakan adalah sebagai berikut :

1. Proses peringkasan menggunakan algortitma graph-based dengan

penambahan fitur metadata formula. Model graph-based algorithm

ditunjukkan pada persamaan 3.1 (Hariharan, 2010).

][][

1

),(][*),(

*)1(*)(iSj

jSk

i

kjIdfModCosjCSRjiIdfModCos

dbetagamaNd

iCSR (3.1)

di mana :

N = total jumlah kalimat dalam dokumen

d = damping factor (0,1)

gama,beta = parameter dari position weight (antara 0-1)

CSR(i) = skor Continuous Sentence Rank kalimat ke-i

IdfModCos(i,j) = nilai idf modified cosine kal i dan j

2. Menghitung metadata formula. Metadata formula menunjukkan similarity

antara kalimat dan metadata title, keywords, dan abstract. Metadata formula

ditunjukkan oleh persamaan 3.2.

n

k Qkiki wwQSSim1

),( (3.2)

di mana :

Sim(Si,Q) = similarity kalimat ke-i dengan query (Skor MF)

Wik = bobot kata ke-k dalam kalimat ke-i

Wqk = bobot kata ke-k dalam query/metadata

Ketiga metadata, yaitu title, keywords, dan abstract, menggunakan formula

yang sama, sehingga akan diperoleh skor MF untuk metada title(MFtti), skor

MF untuk metada keywords (MFkwi), dan skor MF untuk metadata abstract

(MFabi).

Page 42: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

29

3. Skor CSR, MFtti, MFkwi, dan MFabi akan dinormalisasi agar setiap skor

berada dalam range 0-1. Persamaan 3.3 menunjukkan formula untuk

normalisasi.

minmax

min

xx

xxxnormal (3.3)

di mana,

x = skor yang akan dinormalisasi

xnormal = skor hasil normalisasi

xmin = skor minimal dalam himpunan skor yang akan dinormalisasi

xmax = skor maksimal dalam himpunan skor yang akan dinormalisasi

4. Kemudian skor akhir dari kalimat akan didapatkan dengan proses linear

combination seperti yang ditunjukkan pada persamaan 3.4.

4iiii

i

MFabMFkwMFttCSRStot (3.4)

di mana :

CSRi) = skor CSR kalimat ke-i (normalized)

MFtti = skor MF title kalimat ke-i (normalized)

MFkwi = skor MF keywords kalimat ke-i (normalized)

MFabi = skor MF abstract kalimat ke-i (normalized)

Stoti = skor akhir kalimat ke-i

5. Setelah skor akhir per kalimat didapatkan dengan formula linear combination

maka summary dibangkitkan dengan mengekstrak kalimat yang memiliki

skor tertinggi sesuai dengan compression ratio yang diinginkan. Formula

untuk membangkitkan summary ditunjukkan oleh persamaan 3.5.

Psummary = CR * N (3.5)

di mana,

Psummary = panjang summary (jumlah kalimat yang diambil)

CR = compression ratio (30%)

N = total kalimat dalam dokumen

Page 43: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

30

3.4 Tahap Eksperimen

Tahap eksperimen dilakukan untuk menguji sejauh mana Academicopter

yang telah terbangun sesuai dengan rancangan awal penelitian. Eksperimen

dilakukan dengan mencoba melakukan pencarian dengan beberapa kata keywords

yang berbeda pada Academicopter secara online. Eksperimen dilakukan dengan

mengambil sumber data dari dua academic search engines, yaitu

http://scholar.google.com dan http://libra.msra.cn.

Tahap awal sebelum dilakukan eksperimen ini adalah membuat wrapper

untuk Google Scholar dan Libra. Pembuatan wrapper dilakukan dengan dasar

tree-based wrapper. Proses pembuatan wrapper dapat dilihat pada lampiran 1.

Tahap eksperimen dilakukan dengan skenario berikut :

1. User memasukkan keywords pencarian pada form input Academicopter.

2. User mengklik tombol submit untuk memulai proses pencarian jurnal

akademik.

3. Academicopter akan menampilkan hasil pencarian pada sebuah halaman baru.

4. Keberhasilan ditunjukkan oleh kesamaan data antara Academicopter dan

sumber data, keberhasilan menggabungkan hasil pencarian dari Google Scholar

dan Libra dalam satu daftar hasil pencarian tunggal, keberhasilan dalam

menampilkan hasil ringkasan dari jurnal ilmiah pada snippet, keberhasilan

melakukan perangkingan hasil pencarian yang mengikuti urutan hasil

perangkingan dari Google Scholar dan libra, dan keberhasilan dalam

menghilangkan duplikasi data antara Google Scholar dan Libra.

5. Tidak dilakukan pengukuran terhadap baik atau tidaknya ringkasan yang

dihasilkan oleh Academicopter.

Tahap eksperimen dilakukan dengan perangkat keras dan perangkat lunak

dengan spesifikasi sebagai berikut :

1. Perangkat Keras

Perangkat keras yang digunakan adalah notebook dengan spesifikasi :

a. Processor : Intel ® Core(TM) i3-250M CPU @ 2.30 GHz

Page 44: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

31

b. RAM : 2048 MB

c. Harddisk : 320 GB

2. Perangkat Lunak

a. Package AppServ Open Project version 2.5.10 dengan :

Bahasa Pemrograman : PHP 5.2.6

Web Server : Apache 2.2.8

Database Server : MySQL 5.0.51b

Database Manager : phpMyAdmin 2.10.3

b. Operating system : Microsoft Windows 7 ultimate

c. Graphic tools : Adobe Photoshop CS3

d. Testing tools

Web browser : Opera 12.02

Koneksi Internet : Jaringan internet Telkom Speedy

3.5 Tahap Evaluasi

Tahap evaluasi adalah tahap analisis dari hasil eksperimen sebagai dasar

untuk penarikan kesimpulan.

Page 45: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

32

BAB IV

PEMBAHASAN

4.1 Framework Academicopter

Framework Academicopter ditunjukkan oleh Gambar 4.1.

Gambar 4.1. Framework Academicopter

Penjelasan alur dalam framework Academicopter adalah sebagai berikut :

1. User memasukkan keywords pencarian dalam form input pencarian

Academicopter.

2. Academicopter membaca string keywords yang dimasukkan oleh user,

kemudian membangkitkan url halaman sumber data dengan cara

menambahkan keywords ke dalam string url sumber data yang polanya telah

dikenali sebelumnya. Contoh pengenalan pola url dengan sumber academic

search engine Libra adalah sebagai berikut :

a. Melakukan pencarian dengan cara memasukkan keywords pada form

input Libra, misalnya text mining.

Page 46: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

33

b. String url hasil pencarian pada Libra untuk keyword text mining adalah :

http://libra.msra.cn/Search?query=text%20mining&s=0. Dari contoh url

tersebut dapat dikenali pola url untuk Libra adalah

http://libra.msra.cn/Search?query=$keywords&s=0. Di mana $keywords

adalah ruang yang akan diisi oleh string keywords yang dimasukkan oleh

user.

3. Academicopter membaca halaman HTML hasil pencarian yang diperoleh dari

url yang telah dibangkitkan untuk mengekstraksi informasi pada data yang

memiliki link dokumen PDF jurnal ilmiah. Informasi yang diekstrak adalah

judul jurnal, web address sumber jurnal ilmiah, author, web address PDF

jurnal ilmiah, dan data pagination.

4. Untuk mencegah terjadinya pengulangan pemrosesan peringkasan dokumen,

dilakukan pencocokan antara nama file dokumen PDF yang pernah diringkas

dengan informasi nama file dokumen PDF yang sedang diekstrak. Nama file

dokumen yang sedang diekstrak diperoleh dengan membaca filename pada

web address file PDF jurnal ilmiah.

5. Mengunduh dokumen PDF yang belum pernah diringkas sebelumnya dengan

fungsi copy pada web address PDF. Dokumen PDF disimpan dalam folder

Academicopter.

6. Dokumen PDF diekstrak ke dalam bentuk TXT dengan tool pdftotext.exe dan

hasil ekstraksi disimpan dalam folder Academicopter.

7. Teks dalam dokumen TXT kemudian diuraikan untuk memperoleh konten,

abstrak, dan keywords. Konten adalah keseluruhan isi dari dokumen. Konten

diuraikan untuk memperoleh sentences. Untuk peringkasan, Academicopter

hanya akan memproses isi dari abstrak dan pendahuluan dengan asumsi

sebanyak maksimal lima puluh kalimat. Konten, abstrak, keywords, dan

sentences disimpan dalam database Academicopter. Tahap ini sekaligus

menyaring dokumen apakah termasuk dalam kategori jurnal. Dokumen akan

dikenali sebagai jurnal jika memenuhi salah satu syarat di bawah ini:

a. Ditemukan kata abstract, keywords, introduction dan references. Di mana

kata abstract terletak di depan kata keywords, kata keywords terletak di

Page 47: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

34

depan kata introduction, dan kata introduction terletak di depan kata

references.

b. Ditemukan kata abstract, introduction dan references. Di mana kata

abstract terletak di depan kata introduction, dan kata introduction terletak

di depan kata references.

c. Ditemukan kata abstract, keywords dan references. Di mana kata abstract

terletak di depan kata keywords, kata keywords terletak di depan kata

references.

d. Ditemukan kata keywords, introduction dan references. Di mana kata

keywords terletak di depan kata introduction, dan kata introduction

terletak di depan kata references.

e. Ditemukan kata abstract, conclusion dan references. Di mana kata

abstract terletak di depan kata conclusion, kata conclusion terletak di

depan kata references.

f. Ditemukan kata keywords, conclusion dan references. Di mana kata

keywords terletak di depan kata conclusion, kata conclusion terletak di

depan kata references.

g. Ditemukan kata keywords, acknowledgment dan references. Di mana kata

keywords terletak di depan kata acknowledgment, kata acknowledgment

terletak di depan kata references.

h. Ditemukan kata introduction, conclusion dan references. Di mana kata

introduction terletak di depan kata conclusion, kata conclusion terletak di

depan kata references.

8. Sentences dari dokumen yang masuk dalam kategori jurnal akan diproses

pada text preprocessing yang bertujuan untuk mencari kata-kata penting yang

dapat mewakili isi dokumen. Proses ini terdiri dari 3 tahap, yaitu tokenizing,

tagging, dan stemming yang telah dijelaskan pada sub bab 2.1.3 pada bab II.

Kemudian pembobotan kalimat pada setiap dokumen dengan menghitung

nilai tf (term frequency) dengan formula yang ditunjukkan pada persamaan

2.1 pada bab II, idf (inverse document frequency dengan formula yang

ditunjukkan pada persamaan 2.2 pada bab II, dan fungsi untuk menghitung

Page 48: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

35

similarity antarkalimat dengan menggunakan algoritma cosine similarity (idf

modified) dengan formula yang ditunjukkan pada persamaan 2.4 pada bab II.

9. Dilakukan proses summarization dengan menghitung nilai Continuous

Sentence Rank (CSR) pada setiap kalimat dengan formula yang ditunjukkan

pada persamaan 3.1 pada bab III dan menghitung nilai metadata formula

untuk metadata title, keywords, dan abstract dengan formula yang

ditunjukkan pada persamaan 3.3 pada bab III. Semua skor dinormalisasi

dengan formula yang ditunjukkan pada persamaan 3.4 pada bab III, kemudian

dilakukan kombinasi linier dengan formula yang ditunjukkan pada persamaan

3.5 pada bab III sehingga didapatkan skor akhir. Ringkasan dibangkitkan

dengan mengekstrak kalimat yang memiliki skor tertinggi. Formula untuk

membangkitkan ringkasan ditunjukkan oleh persamaan 3.6 pada bab III.

10. Hasil akan digabungkan dalam satu daftar tunggal yang disajikan kepada user

dengan pagination yang mengikuti pagination dari sumber data. Duplikasi

data dokumen akan dihilangkan dengan menampilkan satu data saja yang

berasal dari search engines dengan jumlah data yang paling sedikit.

4.2 Perangkingan Hasil Pencarian Academicopter

Perangkingan hasil pencarian pada Academicopter mengikuti urutan hasil

perangkingan pada sumber data. Sumber data dengan jumlah hasil pencarian yang

lebih sedikit akan memperoleh prioritas rangking yang lebih tinggi pada hasil

pencarian Academicopter. Sebagai contoh, Academicopter mengambil data dari

sumber data A dan sumber data B dengan data hasil pencarian sumber data A

yang ditunjukkan oleh tabel 4.1 dan data hasil pencarian sumber data B yang

ditunjukkan oleh tabel 4.2.

Tabel 4.1. Hasil Pencarian Sumber Data A

No Data Rangking

1 Data A1 1

2 Data A2 2

Page 49: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

36

Tabel 4.2. Hasil Pencarian Sumber Data B

No Data Rangking

1 Data B1 1

2 Data B2 2

3 Data B3 3

Hasil pencarian dari sumber data A akan memperoleh prioritas karena

menghasilkan data yang lebih sedikit. Sehingga data dengan rangking pertama

pada sumber data A akan menjadi data dengan urutan pertama pada hasil

pencarian Academicopter. Data dengan rangking pertama pada sumber data B

akan menempati urutan kedua, data dengan rangking kedua pada sumber data A

akan menjadi data dengan urutan ketiga, data dengan rangking kedua pada sumber

data B akan menjadi data dengan urutan keempat dan seterusnya. Sehingga hasil

pengurutan hasil pencarian pada Academicopter dapat dilihat pada tabel 4.3.

Tabel 4.3. Hasil Pencarian Pada Academicopter

No Data Rangking

1 Data A1 1

2 Data B1 2

3 Data A2 3

4 Data B2 4

5 Data B3 5

4.3 Studi Eksperimen

a. Eksperimen 1

1. Menggunakan keywords : wimax technology .

2. Google Scholar menampilkan hasil pencarian seperti yang ditunjukkan pada

tabel 4.4.

Page 50: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

37

Tabel 4.4. Hasil Pencarian Google Scholar dengan Keywords Wimax

Technology

Rank Judul dokumen PDF Kategori Dokumen

1 Achieving wireless

broadband with WiMax

Dapat

diunduh

Artikel

2 An overview of next-

generation mobile WiMAX

technology

Dapat

diunduh

Jurnal, memuat kata

abstract, introduction,

dan references

3 A survey on mobile wimax

[wireless broadband access]

Dapat

diunduh

Jurnal, memuat kata

abstract, introduction,

dan references

Pencarian dengan keywords wimax technology

memberikan hasil pencarian pada halaman pertama dengan data seperti yang

tertulis pada tabel 4.4. Terdapat tiga data yang memiliki informasi tentang

dokumen PDF dengan urutan rangking bahwa data yang tercatat lebih awal

memiliki urutan rangking yang lebih tinggi dari data yang sesudahnya. Secara

manual, ketiga dokumen PDF dapat diunduh. Pengecekan secara manual

terhadap isi dokumen menunjukkan bahwa kategori dokumen data pertama

adalah sebuah artikel, data kedua dan ketiga adalah jurnal. Sehingga bisa

ditarik hipotesis sementara, bahwa pada hasil yang ditampilkan oleh

Academicopter, ringkasan hanya akan dihasilkan oleh data kedua dan ketiga.

3. Libra menampilkan hasil pencarian seperti pada tabel 4.5.

Tabel 4.5 Hasil Pencarian Libra dengan Keywords Wimax Technology

Rank Judul dokumen PDF Kategori Dokumen

1 WEIRD - Real Use Cases

and Applications for the

WiMAX Technology

Dapat

diunduh

Jurnal, memuat kata

abstract, keywords

introduction, references

Pencarian dengan keywords wimax technology

pencarian pada halaman pertama dengan data seperti yang tertulis pada tabel

Page 51: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

38

4.5. Terdapat satu data yang memiliki informasi tentang dokumen PDF

sehingga secara otomatis data tersebut adalah data dengan rangking pertama

dari Libra. Secara manual, dokumen PDF dapat diunduh. Pengecekan secara

manual terhadap isi dokumen menunjukkan bahwa kategori dokumen tersebut

adalah jurnal. Sehingga bisa ditarik hipotesis sementara bahwa pada hasil yang

ditampilkan oleh Academicopter, ringkasan akan dihasilkan oleh data tersebut.

4. Analisis hasil eksperimen

Academicopter menampilkan hasil pencarian yang ditunjukkan pada tabel 4.6.

Tabel 4.6. Hasil Pencarian Academicopter dengan Keywords Wimax

Technology Rank Judul Dokumen Ringkasan

1 WEIRD - Real Use Cases and Applications for the

WiMAX Technology

Ada

2 Achieving wireless broadband with WiMax Tidak Ada

3 An overview of next-generation mobile WiMAX

technology

Ada

4 A survey on mobile wimax [wireless broadband access] Ada

Academicopter menampilkan hasil pencarian sebanyak empat data jurnal

ilmiah. Data dengan peringkat nomor dua tidak menampilkan hasil ringkasan.

Tabel 4.7 menunjukkan perbandingan rangking pada setiap data yang

dihasilkan oleh Google Scholar, Libra dan Academicopter.

Tabel 4.7 Penggabungan Rangking Eksperimen 1

No Judul dokumen Rank

G-Scholar

Rank

Libra

Rank

Academicopter

1 WEIRD - Real Use Cases and

Applications for the WiMAX

Technology

- Rank 1 Rank 1

2 Achieving wireless broadband

with WiMax

Rank 1 - Rank 2

Page 52: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

39

Tabel 4.7 Penggabungan Rangking Eksperimen 1 (lanjutan) No Judul dokumen Rank

G-Scholar

Rank

Libra

Rank

Academicopter

3 An overview of next-generation

mobile WiMAX technology

Rank 2 - Rank 3

4 A survey on mobile wimax

[wireless broadband access]

Rank 3 - Rank 4

Data pada tabel 4.7 dapat dianalisis dengan penjelasan sebagai berikut :

1. Academicopter berhasil menggabungkan semua data dari Google Scholar

dan Libra ke dalam satu daftar tunggal.

2. Perangkingan pada Academicopter telah mengikuti urutan hasil

perangkingan pada Google Scholar dan Libra. Data dengan rangking

pertama pada Libra menempati rangking pertama pada Academicopter. Data

dengan rangking pertama pada Google Scholar menempati rangking kedua

pada Academicopter karena rangking pertama telah diisi sebelumnya.

Dokumen yang memiliki rangking kedua dan ketiga di Google Scholar

menempati rangking ketiga dan keempat pada Academicopter.

Tabel 4.8 menunjukkan kategori konten jurnal pada setiap data hasil pencarian

pada Google Scholar dan Libra serta ada tidaknya ringkasan pada setiap data

yang dihasilkan pada Academicopter.

Tabel 4.8 Hasil Ringkasan Eksperimen 1

No Judul dokumen Kategori

(G-Scholar)

Kategori

(Libra)

Ringkasan

(Academicopter)

1 WEIRD - Real Use Cases and

Applications for the WiMAX

Technology

- Jurnal Ada

2 Achieving wireless broadband

with WiMax

Artikel - Tidak Ada

Page 53: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

40

Tabel 4.8 Hasil Ringkasan Eksperimen 1(lanjutan) No Judul dokumen Kategori

(G-Scholar)

Kategori

(Libra)

Ringkasan

(Academicopter)

3 An overview of next-

generation mobile WiMAX

technology

Jurnal - Ada

4 A survey on mobile wimax

[wireless broadband access]

Jurnal - Ada

Data pada tabel 4.8 dapat dianalisis dengan penjelasan sebagai berikut :

1. Data kedua tidak menghasilkan ringkasan karena kategori dokumen tidak

dikenali sebagai jurnal melainkan sebagai artikel. Dokumen tersebut tidak

memenuhi syarat-syarat terpilihnya dokumen sebagai jurnal.

2. Data pertama, data ketiga, dan data keempat menghasilkan ringkasan karena

kategori dokumen dari ketiga data tersebut dikenali sebagai jurnal.

b. Eksperimen 2

1. Menggunakan keywords : text mining.

2. Google Scholar menampilkan hasil pencarian seperti pada tabel 4.9.

Tabel 4.9 Hasil Pencarian Google Scholar dengan Keywords Text Mining Rank Judul dokumen PDF Kategori Dokumen

1 GENIA corpus a

semantically annotated

corpus for bio-textmining

Dapat

diunduh

Jurnal, memuat kata

abstract, keywords,

introduction, dan

references

2 Fast and effective text

mining using linear-time

document clustering

Dapat

diunduh

Jurnal, memuat kata

abstract, keywords,

introduction, dan

references

3 Text mining: The state of the

art and the challenges

Dapat

diunduh

Jurnal, memuat kata

abstract, introduction,

dan references

Page 54: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

41

Tabel 4.9 Hasil Pencarian Google Scholar dengan Keywords Text Mining (lanjutan)

Rank Judul dokumen PDF Kategori Dokumen

4 Survey of Text Mining I:

Clustering, Classification,

and Retrieval

Dapat

diunduh

ebook

5 A survey of current work in

biomedical text mining

Tidak dapat

diunduh

-

6 The text mining handbook:

advanced approaches in

analyzing unstructured data

Dapat

diunduh

Book Reviews

7 Discovering evolutionary

theme patterns from text: an

exploration of temporal text

mining

Dapat

diunduh

Jurnal, memuat kata

abstract, keywords,

introduction, dan

references

8 Text mining for biology and

biomedicine

Dapat

diunduh

Book Reviews

Pencarian dengan keywords text mining

hasil pencarian pada halaman pertama seperti yang tertulis pada tabel 4.9.

Terdapat delapan data yang memiliki informasi tentang dokumen PDF dengan

urutan rangking bahwa data yang tercatat lebih awal memiliki urutan rangking

yang lebih tinggi dari data yang sesudahnya. Secara manual, ada satu dokumen

PDF yang tidak dapat diunduh, yaitu untuk data no.5. Hasil pengecekan

manual terhadap isi dokumen menghasilkan hipotesis sementara bahwa

ringkasan akan dihasilkan oleh data pertama, kedua, ketiga, dan ketujuh.

3. Libra menampilkan hasil pencarian seperti pada tabel 4.10.

Tabel 4.10 Hasil Pencarian Libra dengan Keywords Text Mining

Rank Judul dokumen PDF url Konten PDF

1 A survey of current work in

biomedical text mining

Dapat

Diunduh

Jurnal, memuat kata

abstract, introduction,

dan references

Page 55: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

42

Pencarian dengan keywords text mining

pencarian pada halaman pertama dengan data seperti yang ditunjukkan pada

tabel 4.10. Terdapat satu data yang memiliki informasi tentang dokumen PDF

sehingga secara otomatis data tersebut adalah data dengan rangking pertama

dari Libra. Secara manual, dokumen PDF dapat diunduh. Pengecekan secara

manual terhadap isi dokumen menunjukkan bahwa kategori dokumen tersebut

adalah jurnal. Sehingga bisa ditarik hipotesis sementara bahwa Academicopter

akan menghasilkan ringkasan pada data tersebut.

4. Analisis hasil eksperimen

Academicopter menampilkan hasil pencarian ditunjukkan pada tabel 4.11.

Tabel 4.11. Hasil Pencarian Academicopter dengan Keywords Text Mining Rank Judul dokumen Ringkasan

1 A survey of current work in biomedical text mining Ada

2 GENIA corpus a semantically annotated corpus for

bio-textmining

Ada

3 Fast and effective text mining using linear-time

document clustering

Ada

4 Text mining: The state of the art and the challenges Ada

5 Survey of Text Mining I: Clustering, Classification, and

Retrieval

Ada

6 The text mining handbook: advanced approaches in

analyzing unstructured data

Tidak Ada

7 Discovering evolutionary theme patterns from text: an

exploration of temporal text mining

Ada

8 Text mining for biology and biomedicine Tidak Ada

Academicopter menampilkan hasil pencarian sebanyak empat data jurnal

ilmiah. Data dengan peringkat keenam dan kedelapan tidak menampilkan hasil

ringkasan. Tabel 4.12. menunjukkan perbandingan rangking pada setiap data

yang dihasilkan oleh Google Scholar, Libra dan Academicopter.

Page 56: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

43

Tabel 4.12 Penggabungan Rangking Eksperimen 2

No Judul dokumen G-Scholar Libra Academicopter

1 A survey of current work in

biomedical text mining

Rank 5 Rank 1 Rank 1

2 GENIA corpus a semantically

annotated corpus for bio-textmining

Rank 1 - Rank 2

3 Fast and effective text mining using

linear-time document clustering

Rank 2 - Rank 3

4 Text mining: The state of the art

and the challenges

Rank 3 - Rank 4

5 Survey of Text Mining I:

Clustering,

Classification, and Retrieval

Rank 4 - Rank 5

6 The text mining handbook:

advanced approaches in analyzing

unstructured data

Rank 6 - Rank 6

7 Discovering evolutionary theme

patterns from text: an exploration

of temporal text mining

Rank 7 - Rank 7

8 Text mining for biology and

biomedicine

Rank 8 - Rank 8

Data pada tabel 4.12 dapat dianalisis dengan penjelasan sebagai berikut :

1. Academicopter berhasil menggabungkan semua data dari Google Scholar

dan Libra ke dalam satu daftar tunggal.

2. Terdapat duplikasi data antara Google Scholar dan Libra yaitu untuk data

A survey of current work in biomedical text

mining pter akan ditampilkan satu data saja, yaitu data

yang berasal dari Libra, karena Libra memiliki jumlah hasil pencarian yang

lebih sedikit dibandingkan dengan data yang dihasilkan oleh Google

Scholar.

Page 57: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

44

3. Perangkingan pada Academicopter telah mengikuti perangkingan pada

Google Scholar dan Libra. Data dengan rangking pertama pada Libra

menempati rangking pertama pada Academicopter. Data dengan rangking

pertama pada Google Scholar menempati rangking kedua pada

Academicopter karena rangking pertama telah diisi sebelumnya. Dokumen

yang memiliki rangking kedua dan ketiga (kecuali data kelima) dan

seterusnya pada Google Scholar menempati rangking ketiga dan keempat

dan seterusnya pada Academicopter.

Tabel 4.13 menunjukkan kategori konten jurnal pada setiap data hasil

pencarian pada Google Scholar dan Libra serta menunjukkan ada tidaknya

ringkasan pada setiap data yang dihasilkan pada Academicopter.

Tabel 4.13 Hasil Ringkasan Eksperimen 2

No Judul dokumen Kategori

(G-Scholar)

Kategori

(Libra)

Ringkasan

(Academicopter)

1 A survey of current work in

biomedical text mining

- Jurnal Ada

2 GENIA corpus a

semantically annotated corpus

for bio-textmining

Jurnal - Ada

3 Fast and effective text mining

using linear-time document

clustering

Jurnal - Ada

4 Text mining: The state of the

art and the challenges

Jurnal - Ada

5 Survey of Text Mining I:

Clustering, Classification, and

Retrieval

ebook - Tidak Ada

6 The text mining handbook:

advanced approaches in

analyzing unstructured data

Book

Reviews

- Tidak Ada

Page 58: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

45

Tabel 4.13 Summary Eksperimen 2 (lanjutan) No Judul dokumen Kategori

(G-Scholar)

Kategori

(Libra)

Summary

(Academicopter)

7 Discovering evolutionary

theme patterns from text: an

exploration of temporal text

mining

Jurnal - Ada

8 Text mining for biology and

biomedicine

Book

Reviews

- Tidak Ada

Data pada tabel 4.13 dapat dianalisis dengan penjelasan sebagai berikut :

1. Data kelima, data keenam, dan data kedelapan tidak menghasilkan

ringkasan karena kategori dokumen tidak dikenali sebagai jurnal melainkan

sebagai ebook dan book reviews.

2. Data pertama, data kedua, data ketiga, data keempat, dan data ketujuh

menghasilkan ringkasan karena kategori dokumen dari ketiga data tersebut

dikenali sebagai jurnal.

c. Tingkat Keberhasilan Hasil Eksperimen

Eksperimen dengan seratus keywords yang berbeda dilakukan untuk

mengetahui tingkat keberhasilan Academicopter dalam menyajikan jumlah data

yang sama dengan data yang dihasilkan oleh sumber data.

Hasil eksperimen dengan seratus keywords yang berbeda ditunjukkan oleh

tabel 4.14.

Tabel 4.14. Hasil Eksperimen dengan Seratus Keywords

No Keyword Jumlah Data pada

G-Scholar (manual)

Jumlah Data dari

G-Scholar pada Academicopter

Jumlah Data

pada Libra (manual)

Jumlah Data dari

Libra pada Academicopter

Nilai Kesamaan

Data

1 adaptive web 10 10 2 2 1

2 advanced algorithms

4 4 0 0 1

3 agent based systems

6 6 1 1 1

Page 59: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

46

Tabel 4.14. Hasil Eksperimen dengan Seratus Keywords (lanjutan) No Keyword Jumlah

Data pada

G-Scholar (manual)

Jumlah Data dari

G-Scholar pada Academicopter

Jumlah Data

pada Libra (manual)

Jumlah Data dari

Libra pada Academicopter

Nilai Kesamaan

Data

4 artificial intelligence

10 10 0 0 1

5 assembly language 9 9 4 4 1

6 automata 4 4 0 0 1

7 automated reasoning and verification

4 4 0 0 1

8 bias on the web 6 6 3 3 1

9 big data 7 7 1 1 1

10 bioinformatics 8 8 1 1 1

11 cloud computing 10 10 1 1 1

12 collaborative computing

5 5 1 1 1

13 compiler construction

6 6 0 0 1

14 complexity theory 5 5 1 1 1

15 computational complexity

4 4 0 0 1

16 computer design 2 2 1 1 1

17 computer ethics 3 3 1 1 1

18 computer graphic 2 2 3 3 1

19 computer security 4 4 1 1 1

20 computing infrastructure

7 7 2 2 1

21 cryptography 5 5 1 1 1

22 data 3 3 3 3 1

23 database 4 4 3 3 1

24 data mining 7 7 3 3 1

25 data and computer communication

5 5 0 0 1

26 decision support system

3 3 2 2 1

27 digital libraries 7 7 2 2 1

28 disaster mitigation 1 1 2 2 1

29 distributed systems 8 8 2 2 1

30 efffective information systems

8 8 1 1 1

31 embedded system 7 7 1 1 1

32 evolutionary algorithms

8 8 2 2 1

33 expert system 4 4 0 0 1

34 e-learning 6 6 1 1 1

35 e-business system 7 7 0 0 1

Page 60: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

47

Tabel 4.14. Hasil Eksperimen dengan Seratus Keywords (lanjutan) No Keyword Jumlah

Data pada

G-Scholar (manual)

Jumlah Data dari

G-Scholar pada Academicopter

Jumlah Data

pada Libra (manual)

Jumlah Data dari

Libra pada Academicopter

Nilai Kesamaan

Data

36 e-commerce 8 8 1 1 1

37 geographic information systems

4 4 2 2 1

38 global electronic market

3 3 1 1 1

39 global positioning system

4 4 0 0 1

40 graph based summarization

9 9 5 5 1

41 graphical systems 5 5 0 0 1

42 human centered systems

3 3 0 0 1

43 human computer interaction

7 7 3 3 1

44 image processing 2 2 1 1 1

45 imperative programming

7 7 0 0 1

46 information filtering

5 5 1 1 1

47 information life cycle

5 5 2 2 1

48 information policy 5 5 1 1 1

49 information quality

5 5 1 1 1

50 information revolution

3 3 1 1 1

51 information representation

5 5 1 1 1

52 information systems

5 5 3 3 1

53 information technology

8 8 0 0 1

54 information visualization

5 5 2 2 1

55 intelligent information retrieval

5 5 2 2 1

56 internet 4 4 4 4 1

57 knowledge discovery

4 4 3 3 1

58 knowledge management

4 4 2 2 1

59 logic and modelling

5 5 2 2 1

60 machine learning 9 9 3 3 1

61 metadata 4 4 1 1 1

62 metasearch engine 8 8 0 0 1

63 multimedia technology

3 3 0 0 1

Page 61: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

48

Tabel 4.14. Hasil Eksperimen dengan Seratus Keywords (lanjutan) No Keyword Jumlah

Data pada

G-Scholar (manual)

Jumlah Data dari

G-Scholar pada Academicopter

Jumlah Data

pada Libra (manual)

Jumlah Data dari

Libra pada Academicopter

Nilai Kesamaan

Data

64 multi-core computing

9 9 0 0 1

65 mobile communications

3 3 1 1 1

66 mobile systems 6 6 0 0 1

67 natural language processing

4 4 3 3 1

68 natural language systems

6 6 2 2 1

69 network computer 0 0 1 1 1

70 numerical analysis 3 3 0 0 1

71 object-oriented design

4 4 0 0 1

72 open systems 6 6 2 2 1

73 operating system 5 5 1 1 1

74 parallel programs 4 4 0 0 1

75 processor 7 7 4 4 1

76 quantum computing

7 7 2 2 1

77 question answering

9 9 4 4 1

78 recommender system

9 9 5 5 1

79 robotic system 3 3 0 0 1

80 semantic web 9 9 4 4 1

81 sensor networks 10 10 6 6 1

82 social informatics 3 3 1 1 1

83 software design using patterns

8 8 0 0 1

84 software engineering

5 5 1 1 1

85 software evolution 8 8 2 2 1

86 system architecture

6 6 3 3 1

87 system enterprise 3 3 2 2 1

88 systems intelligence

1 1 2 2 1

89 systems simulation 3 3 0 0 1

90 text mining 8 8 2 2 1

91 text summarization 9 9 3 3 1

92 web modeling language

8 8 3 3 1

93 web searching 9 9 1 1 1

94 web service 7 7 1 1 1

95 web technologies 9 9 1 1 1

Page 62: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

49

Tabel 4.14. Hasil Eksperimen dengan Seratus Keywords (lanjutan) No Keyword Jumlah

Data pada

G-Scholar (manual)

Jumlah Data dari

G-Scholar pada Academicopter

Jumlah Data

pada Libra (manual)

Jumlah Data dari

Libra pada Academicopter

Nilai Kesamaan

Data

96 web-collaborative filtering

6 6 3 3 1

97 wimax technology 3 3 1 1 1

98 wireless security 8 8 2 2 1

99 wireless technology

5 5 3 3 1

100 XML applications 4 4 2 2 1

Data pada tabel 4.14 menunjukkan bahwa Academicopter berhasil menyajikan

jumlah data yang sama dengan data yang dihasilkan oleh sumber data.

Page 63: ACADEMICOPTER - digilib.uns.ac.id/Academic... · hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian ... Representasi Graf ... Rumusan masalah yang dibahas

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

50

BAB V

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Penelitian ini menghasilkan sebuah mesin pencarian meta untuk akademik dengan

nama Academicopter yang menampilkan hasil ringkasan dari PDF jurnal ilmiah

dalam snippet pada daftar hasil pencarian. Berdasarkan hasil dari eksperimen

sebelumnya dapat disimpulkan bahwa :

1. Academicopter mampu menyaring informasi yang berfokus pada kategori

PDF jurnal ilmiah yang berasal dari Google Scholar dan Libra dan

menggabungkan hasil pencarian dari dua sumber data tersebut ke dalam satu

daftar tunggal. Hal tersebut mempermudah user dalam mengakses informasi

dari beberapa academic search engines dalam satu kali pencarian.

2. Academicopter menghilangkan duplikasi data antara academic search

engines yang berbeda dengan menampilkan satu data saja yang berasal dari

academic seach engine dengan jumlah data yang paling sedikit . Hal tersebut

membantu user dalam mengurangi pengulangan pengambilan informasi yang

sama.

5.2 Saran

1. Proses peringkasan dilakukan pada semua konten PDF jurnal ilmiah, tidak

terbatas pada bagian abstrak dan pendahuluan saja.

2. Proses peringkasan jurnal PDFs menggunakan metode lain yang dapat

menghasilkan hasil ringkasan yang lebih baik dan lebih cepat.

3. Academicopter membuat algoritma yang lebih baik dalam perangkingan hasil

pencarian.