otomasi_pembentukan_abstrak_bahasa_indonesia_berdasarkan_keseluruhan_dokumen_menggunakan_cosine_similarity_dan_vektor_space_model1...

OTOMASI PEMBENTUKAN ABSTRAK BAHASA

INDONESIA BERDASARKAN KESELURUHAN

DOKUMEN MENGGUNAKAN COSINE SIMILARITY

DAN VEKTOR SPACE MODEL

SKRIPSI

Diajukan untuk Menempuh Ujian Akhir Semester

OLEH:

Arie Prima Anggara

10110038

Program Studi Teknik Informatika

Fakultas Teknik Dan Ilmu Komputer

Universitas Komputer Indonesia

2015

DAFTAR ISI

DAFTAR ISI............................................................................................................ii

DAFTAR TABEL..................................................................................................iii

DAFTAR GAMBAR..............................................................................................iv

BAB I PENDAHULUAN........................................................................................1

1.1. Latar Belakang Masalah...........................................................................1

1.2. Rumusan Masalah....................................................................................2

1.3. Maksud dan Tujuan..................................................................................3

1.3.1. Maksud...............................................................................................3

1.3.2. Tujuan................................................................................................3

1.4. Batasan Masalah......................................................................................3

1.5. Metodologi Penelitian..............................................................................3

1.5.1. Metode Pengumpulan Data................................................................4

1.5.2. Metode Pembangunan Perangkat Lunak............................................4

1.6. Sistematika Penulisan..............................................................................5

BAB II LANDASAN TEORI..................................................................................7

2.1. Ringkasan.................................................................................................7

2.2. Teks..........................................................................................................8

2.3. Abstrak.....................................................................................................8

2.4. Preprocessing.........................................................................................10

2.5. Term Frequency – Inverse Document Frequency (TF-IDF)..................11

2.6. Vector Space Model (VSM)..................................................................13

BAB III ANALISIS DAN PERANCANGAN SISTEM.......................................15

3.1. Abstrak...................................................................................................15

3.2. Peringkasan............................................................................................15

ii

iii

3.2.1. Analisis Masalah..............................................................................15

3.3. Flowchart alur kerja sistem....................................................................16

3.3.1. Proses pemecahan teks menjadi kalimat..........................................18

3.3.2. Proses Case Folding.........................................................................19

3.3.3. Proses Filtering................................................................................19

3.3.4. Proses Tokenizing............................................................................20

3.3.5. Proses Synonim Checking...............................................................21

3.3.6. Proses Stopword Removal...............................................................22

3.3.7. Perhitungan TF-IDF.........................................................................23

3.3.8. Perhitungan Vector Space Model....................................................28

DAFTAR PUSTAKA............................................................................................34

DAFTAR TABEL

Tabel 3. 1 Proses pemecahan teks menjadi kalimat...............................................18

Tabel 3. 2 Proses case folding................................................................................19

Tabel 3. 3 Proses filtering......................................................................................20

Tabel 3. 4 Proses tokenizing...................................................................................20

Tabel 3. 5 Proses stopwords removal.....................................................................21

Tabel 3. 6 Proses stopwords removal.....................................................................22

Tabel 3. 7 TF-IDF langkah 1 ................................................................................24

Tabel 3. 8 TF-IDF langkah 2.................................................................................25

Tabel 3. 9 TF-IDF langkah 3.................................................................................26

Tabel 3. 10 TF-IDF langkah 4 ..............................................................................27

Tabel 3. 11 TF-IDF Langkah 5 .............................................................................28

Tabel 3. 12 VSM langkah 1...................................................................................29


Tabel 3. 14 VSM langkah 3 ..................................................................................31


Tabel 3. 16 cosine langkah 1..................................................................................32

Tabel 3. 17 cosine langkah 2 .................................................................................33

iii

DAFTAR GAMBAR

Gambar 2. 1 Rumus Vector Space Model..............................................................14

Gambar 3. 1 flowchart alur kerja sistem................................................................16

iv

1

BAB I

PENDAHULUAN

1.1. Latar Belakang Masalah

Dalam penulisan suatu penelitian pasti dibutuhkan suatu abstrak atau intisari

dari keseluruhan dokumen. Abstrak adalah sebuah ringkasan dari keseluruhan

dokumen penelitian agar pembaca tahu maksud dari penelitian tersebut [1].

Vector Space Model (VSM) merupakan suatu metode dalam

merepresentasikan sebuah dokumen dalam ruang vektor [2]. Dimana VSM akan

mengukur kemiripan antara dua paragraf atau lebih pada dokumen yang berbeda.

Paragraf merupakan vektor berdimensi n dan parameter t dari semua kata yang

ditemukan dalam daftar leksikon (vocabulary) tanpa duplikasi[3]. Dalam

pengerjaanya metode VSM ini banyak digunakan karena lebih mudah dalam

merepresentasikan dalam pengimplementasian terhadap document-matching.

Selain itu cara kerja motede VSM ini efesien[4].

Dalam membentuk paragraf abstrak pada sebuah dokumen dari setiap bab

tentunya membutuhkan pencarian kalimat yang relevan, pencarian kalimat pada

setiap bab dalam dokumen yang banyak akan membutuhkan banyak waktu,

sehingga cara seperti ini tidak efesien. Menentukan hasil pencarian yang relevan

sesuai dengan jumlah pencarian yang banyak akan menyulitkan user. Dampaknya

user akan mengalami kebingungan untuk membentuk sebuah abstrak, bahkan

waktu yang dibutuhkan untuk membentuk abstrak menjadi lebih banyak dari yang

diharapkan.

2

Algoritma vector space model akan mengukur sebuah paragraf dari kemiripan

setiap bab dalam dokumen dengan teknik text mining. Text mining tersebut

mempunyai tiga tahapan yaitu text preprocessing, text transformation, dan pattern

discovery. Tahapan text prepocessing terdiri dari tahapan pembersihan teks dan

pemecahan kalimat menjadi kata-kata (tokenizing). Tahapan text transformation

terdiri dari tahapan filtering dan stemming. Tahapan stemming lebih kompleks

akan dirubah ke tahap perbandingan kata. Tahapan pattern discovery merupakan

tahapan pembobotan, dengan dukungan metode cosine similarity.

Dari permasalahan diatas, maka penelitian ini akan mengimplementasikan

algoritma vector space model dan cosine similarity, dan bagaimana perangkat

lunak menghasilkan pembentukan paragraf abstrak secara otomatis.

1.2. Rumusan Masalah

Berdasarkan latar belakang yang sudah dijelaskan diatas, maka dapat di

identifikasi masalah sebagai berikut :

1. Bagaimana mengimplementasikan algoritma vector space model untuk

membentuk paragraf abstrak secara otomatis berdasarkan keseluruhan

dokumen.

2. Bagaimana algoritma vector space model dapat membentuk paragraf

abstrak secara otomatis berdasarkan keseluruhan dokumen.

3

1.3. Maksud dan Tujuan

1.3.1. Maksud

Maksud dari pada penelitian tugas akhir ini adalah mengimplementasikan

algoritma vector space agar model dapat membentuk sebuah paragraf abstak pada

keseluruhan dokumen.

1.3.2. Tujuan

Adapun tujuan dari penelitian tugas akhir ini adalah melakukan pengujian

keefektifan metode vector space model dan cosine similarity dalam melakukan

pembuatan abstrak.

1.4. Batasan Masalah

Batasan masalah yang akan diterapkan dalam pembentukan abstrak

berdasarkan keseluruhan dokumen yaitu:

1. Sistem yang dibangun berbasis website.

2. Dokumen yang digunakan pada penelitian ini adalah dokumen teks yang

berbahasa indonesia berformat Microsoft Word (*.docx).

3. Bahasa dokumen yang digunakan yaitu bahasa indonesia baku.

4. Dokumen yang diuji berupa jurnal.

1.5. Metodologi Penelitian

Metodologi penelitian yang akan digunakan dalam pembuatan tugas akhir ini

adalah metode penelitian Research and Depelopment (R&D) yaitu metode

penelitian yang digunakan untuk menghasilkan suatu produk dan menguji

keefiktifan produk tersebut[4].

4

Dalam pelaksanaan R&D metode yang digunakan adalah Metode deskriptif

merupakan metode yang menggambarkan sejumlah fakta dan informasi dalam

kejadian atau situasi sekarang secara sistematis, faktual dan akurat.Penelitian

tugas akhir ini dibagi menjadi dua proses yaitu.

1.5.1. Metode Pengumpulan Data

Metode pengumpulan data yang akan digunakan adalah Studi literatur

pengumpulan data dengan cara literatur, jurnal, Paper, dan bacaan – bacaan yang

berkaitan dengan judul.

1.5.2. Metode Pembangunan Perangkat Lunak

Metode pembangunan perangkat lunak menggunakan model Prototype [4].

Penggunaan metode prototype didasari karena metode ini dapat melakukan

pengumpulan kebutuhan dan memperbaiki kebutuhan, melakukan desain dengan

cepat dan pemakai mengevalusi kebutuhan agar sesuai dengan kebutuhan. Pada

gambar 1.1 menunjukan tahapan-tahapan dari model Prototype yaitu sebagai

berikut :

1. Pengumpulan Kebutuhan dan Perbaikan

Mengumpulkan segala kebutuhan untuk pembangunan aplikasi ini.

2. Desain Cepat

Tahap penerjemahan kebutuhan menjadi suatu gambaran dari perangkat

lunak.

3. Bentuk Prototype

Desain program diterjemahkan kedalam kode program dengan

menggunakan bahasa program yang sudah ditentukan.

4. Evaluasi pelanggan terhadap prototype

5

Melakukan pengujian program, dan bila ada kekurangan pada program

bisa ditambahkan.

5. Perbaikan Prototype

Perbaikan program yang sudah jadi, sesuai dengan kebutuhan.

6. Produk Rekayasa

Program yang sudah jadi sesuai kebutuhan telah terpenuhi.

Gambar 1. 1 Model Prototype

1.6. Sistematika Penulisan

Sistematika penulisan yang akan disusun dalam penelitian ini adalah sebagai

berikut:

BAB I PENDAHULUAN

Bab ini membahas tentang latar belakang masalah dan perumusan

masalah, maksud dan tujuan penulisan, batasan masalah, metode penelitian dan

sistematika penulisan.

BAB II LANDASAN TEORI

Membahas berbagai konsep dasar dan teori-teori dalam pembuatan abstrak

dan membahas mengenai metode vector space model dan cosine similarity serta

cara penerapannya.

6

BAB III ANALISIS DAN PERANCANGAN

Menganalisis masalah dari penelitian serta pemecahan masalah yang akan

dilakukan dan perancangan penggunaan metode dalam melakukan pembuatan

abstrak.

BAB IV IMPLEMENTASI DAN PENGUJIAN

Merupakan tahapan yang dilakukan dalam penelitian untuk merancang dan

mengimplementasikan aplikasi dalam pembuatan abstrak dengan menggunakan

metode vector space model dan cosine similarity

BAB V KESIMPULAN DAN SARAN

Berisi kesimpulan dan saran yang sudah diperoleh dari hasil penulisan tugas

akhir.

7

BAB II

LANDASAN TEORI

Bab ini menjelaskan tentang dasar teori yang digunakan dalam pembuatan

aplikasi pembuatan abstrak.

2.1. Ringkasan

Ringkasan adalah suatu cara yang efektif untuk menyajikan suatu

karangan yang panjang dalam bentuk singkat. Oleh karena itu membuat ringkasan

atas sebuah karangan yang panjang dapat diumpamakan sebagai memangkas

sebatang pohon sehingga tinggal batang, cabang-cabang dan ranting-ranting yang

terpenting beserta daun-daun yang diperlukan, sehingga tampak bahwa esensi

pohon masing dipertahankan. Dalam ringkasan keindahan gaya bahasa, ilustrasi,

serta penjelasan-penjelasan yang terperinci dihilangkan, sedangkan sari

kerangaknya dibiarkan tanap hiasan. Walaupun bentuknya ringkas, namun tetap

mempertahankan pikiran pengarang dan pendekatan yang asli.

Dalam meringkas sebaiknya menggunakan kalimat tunggal daripada

kalimat majemuk. Kalimat majemuk menunjukan bahwa ada dua gagasan atau

lebih yang bersifat paralel. Bila memungkinkan ringkaslah kalimat menjadi frasa,

selanjutnya frasa menjadi kata. Begitu pula rangkaian gagasan yang penjang

hendaknya diganti dengan suatu gagasan sentral saja. Pada umumnya suatu

ringkasan ditentukan panjang ringkasan akhirnya, ada yang meringkas seperdua

total kata, sepertiga total kata, hingga sepersepuluh total kata. Untuk artikel yang

memiliki jumlah kata yang sangat banyak tentu saja hasil ringkasan sepersepuluh

menjadi pilihan yang tepat. Sedangkan untuk artikel yang jumlah katanya tidak

8

terlalu banyak maka hasil ringkasan sebanyak seperdua total kata menjadi pilihan

yang tepat sehingga hasil ringkasan nantinya masih dapat dibaca dengan struktur

hasil ringkasan yang baik [6].

2.2. Teks

Teks dapat diartikan kumpulan karakter yang membentuk kata yang

disusun dan memiliki suatu makna. Teks dapat berupa angka, frasa, kalimat, atau

paragraph. Dalam peringkasan teks, teks yang diinginkan dapat berbentuk

paragrad yang terdiri dari susunan kalimat yang memiliki informasi yang nantinya

akan diproses untuk digali informasinya akan dimanfaatkan untuk menghasilkan

teks yang lebih ringan.

2.3. Abstrak

Abstrak merupakan sebuah ringkasan isi dari sebuah karya tulis ilmiah

yang ditujukan untuk membantu seorang pembaca agar dapat dengan mudah dan

cepat untuk melihat tujuan dari penulisannya. Di dalam dunia akademik, tulisan

pendek ini digunakan oleh institusi/lembaga/organisasi pendidikan sebagai

informasi awal atas sebuah penelitian ketika dimasukkan dalam jurnal, konferensi,

lokakarya, atau yang sejenisnya. Dalam dunia maya (internet), sebuah abstrak

digunakan sebagai gambaran singkat atas sebuah karya tulis ilmiah/penelitian

untuk dibaca, sebagaimana halnya sebuah “display” model pakaian dipajang

untuk dilihat atau diuji pakai sebelum dibeli. Selanjutnya, bagian lengkap sebuah

penelitian dijual kepada mereka yang berminat untuk mendapatkannya.

9

Untuk membuat abstrak, hal-hal yang perlu diperhatikan adalah sebagai

berikut:

1. Struktur paragraf

Sebuah abstrak ditulis dalam satu paragraf yang menerangkan keseluruhan

isi tulisan secara singkat dan jelas. Penulisannya tidak melakukan

indensasi pada kalimat pertama paragraf. Single space adalah pilihan yang

dimiliki oleh penulis untuk menyusun kalimat dalam paragrafnya. Lebih

dalam, kadang seorang pembimbing Skripsi/Tesis/Disertasi mengatur

hingga pada penggunaan jenis huruf dan ukuran tertentu.

2. Jumlah kata

Idealnya sebuah paragraf terdiri dari 150 sampai dengan 200 kata. Namun,

pertimbangan jumlah kata yang paling tepat dalam penulisan Skripsi,

Tesis, ataupun disertasi biasanya bergantung pada pertimbangan

pandangan pembimbing (supervisor) yang mendampingi seorang

mahasiswa dalam penulisannya. Seorang supervisor harusnya tidak

mempertimbangkan jumlah kata sebagai acuan utama penulisan paragraf,

karena bagian utama justru isi (content) paragraf.

3. Isi paragraf

Pertama, indentifikasi fokus penelitian dijelaskan secara singkat agar

pembaca memahami apa yang diamati oleh seorang peneliti di dalam

penelitiannya. Kedua, penulis perlu menggambarkan secara jelas desain

penelitian yang dilakukan dalam proses pencarian jawaban atau solusi atas

persoalan yang diangkat di dalam penelitiannya. Desain langkah

10

penyelesaian masalah ini oleh mahasiswa lazim dikenal dengan istilah

Metode Penelitian. Ketiga, selanjutnya penulis akan menjelaskan hasil

temuannya kepada pembaca. Beberapa peneliti menganggap hasil temuan

yang diungkap tidak perlu mengungkap pembahasan yang dilakukan

karena hal itu justru akan membuat pengulangan isi tulisan. Jelas

maksudnya karena bagian pembahasan temuan penelitian juga diurai di

dalam bagian kesimpulan. Keempat, perlunya bagian kesimpulan di dalam

sebuah tulisan juga terlihat di dalam sebuah abstrak yang tetap

mendapatkan perhatian penting sebagai bagian akhir dari paragraf. Pada

bagian ini kadangkala sejumlah peneliti menyisipkan rekomendasi

penelitian namun tanpa pembahasan atau uraian yang panjang. Lebih

lanjut, tidaklah lazim sebuah abstrak diisi oleh nama si penulis serta para

pembimbing tulisannya, apalagi hal itu ditulis dalam huruf cetak tebal.

2.4. Preprocessing

Pada tahap preprocessing ini terdapat empat langkah yaitu:

a. Case Folding, yaitu mengubah semua teks ke dalam huruf kecil.

b. Filtering, menghapus karakter yang tidak dipakai. Dalam pengujian ini

karakter seluruh tanda baca seperti tanda seru, tanda tanya, tanda kutip,

dan lain sebagainya akan dihapus kecuali kecuali tanda titik.

c. Tokenizing, yaitu memecah teks kedalam kata.

d. Synonim Checking, yaitu mengganti kata yang ada yang memiliki arti yang

sama. Penggantian kata yang dilakukan berdasarkan database yang dibuat

oleh penulis.

11

e. Stopwords, yaitu menghapus kata-kata tidak penting dan berulang.

Pada umumnya tahap preprocessing terdapat 5 langkah yaitu Case

Folding, Filtering, Tokenizing, Stemming, dan Stopwords. Ada satu langkah yang

tidak penulis gunakan dalam pembuatan aplikasi peringkasan dokumen esktraktif

ini yaitu proses stemming. Stemming yaitu proses menghilangkan imbuhan dari

sebuah kata dan mengubahnya menjadi kata dasar. Tujuan dari penghilangan

proses Stemming ini yaitu karena penulis memiliki pendapat bahwa dalam sebuah

peringkasan dokumen ekstraktif imbuhan yang terdapat pada sebuah kata

memiliki arti yang berbeda. Adapun contoh kalimat yaitu : “Bapak membuatkan

sebuah rumah untuk istrinya”, “Bapak dibuatkan secangkir kopi oleh ibu”,

“Bapak selalu berbuat baik kepada tetangga”. Kata “buat” pada kalimat pertama

dan kalimat ketiga memiliki arti bapak melakukan sebuah kegiatan tapi pada

kalimat dua kata”buat” memiliki arti bapak mendapatkan sebuah perlakuan.

Apabila proses stemming tetap dilakukan maka tidak akan didapatkan perbedaan

antara satu kata dengan yang lainnya.

Pada tahap filtering penulis menambahkan karakter “ ’s ” yang akan

digunakan untuk menghapus tanda baca bagi dokumen yang menggunakan bahasa

Inggris. Adapun contoh kalimatnya yaitu : “that is President’s car” berubah

menjadi “that is President car”.

2.5. Term Frequency – Inverse Document Frequency (TF-IDF)

Metode Term Frequency-Inverse Document Frequency (TF-IDF) adalah

cara pemberian bobot hubungan suatu kata (term) terhadap dokumen. Untuk

12

dokumen tunggal tiap kalimat dianggap sebagai dokumen. Metode ini

menggabungkan dua konsep untuk perhitungan bobot, yaitu Term Frequency (TF)

merupakan frekuensi kemunculan kata (t) pada kalimat (s). Document frequency

(DF) adalah banyaknya kalimat dimana suatu kata (t) muncul. Frekuensi

kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa

penting kata itu di dalam dokumen tersebut.

Frekuensi kalimat yang mengandung kata tersebut menunjukkan seberapa

umum kata yang ada pada dokumen uji tersebut. Bobot kata semakin besar jika

sering muncul dalam suatu kalimat dan semakin kecil jika muncul dalam banyak

kalimat. Pada Metode ini pembobotan kata dalam sebuah dokumen dilakukan

dengan mengalikan nilai TF dan IDF. Pembobotan diperoleh berdasarkan jumlah

kemunculan term dalam kalimat (TF) dan jumlah kemunculan term pada seluruh

kalimat dalam dokumen (IDF). Bobot suatu istilah semakin besar jika istilah

tersebut sering muncul dalam suatu dokumen dan semakin kecil jika istilah

tersebut muncul dalam banyak dokumen. Nilai IDF sebuah term dihitung

menggunakan persamaan di bawah:

IDF = log( NDf ) (1)

keterangan :

N = Jumlah keseluruhan kalimat pada dokumen

Df = Jumlah kalimat yang mengandung keyword t

13

Menghitung bobot (W) masing-masing kalimat dengan persamaan di bawah:

Wd.t = TFd.t * IDFt (2)

dengan :

d = kalimat ke-d

t = kata (term) ke-t

TF = Term Frequency

W = bobot kalimat ke-d terhadap kata (term) ke-t

IDF= Inverse Document Frequency

Kemudian baru melakukan proses pengurutan (sorting) nilai kumulatif dari W

untuk setiap kalimat. Tiga kalimat dengan nilai W terbesar dijadikan sebagai hasil

dari ringkasan atau sebagai output dari peringkasan teks otomatis.

2.6. Vector Space Model (VSM)

Pencarian dalam sistem temu balik merupakan hal yang dibutuhkan, hal

ini dikarenakan ketepatan pencarian sesuai keyword yang dimasukkan user

dengan dokumen yang jumlahnya banyak. Vector space model adalah suatu model

yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatu

query [1]. Query dan dokumen dianggap sebagai vektor-vektor pada ruang n-

dimensi, dimana t adalah jumlah dari seluruh term yang ada dalam leksikon.

Leksikon adalah daftar semua term yang ada dalam indeks. Selanjutnya akan

dihitung nilai cosinus sudut dari dua vektor, yaitu W dari tiap dokumen dan W

dari kata kunci.

14

Gambar 2. 1 Rumus Vector Space Model

Adapun formula yang digunakan pada VSM seperti di bawah ini :

¿ ( S j ,d )=S j . d

¿∨S j∨¿∨¿d∨¿=∑i=1

X

(w ¿¿ i , j . wi , d)

√∑i=1

X

w i , j2 √∑

i=1

X

w i ,d2

¿

Dimana :

S = Kalimat

w = Bobot

j = kalimat ke-j

i = kata ke-i

d = keyword pada seluruh dokumen

X = jumlah kata pada dokumen

15

BAB III

ANALISIS DAN PERANCANGAN SISTEM

Bab ini menjelaskan tentang analisis dan perancangan sistem

menggunakan metode vector space model.

3.1. Abstrak

Abstrak merupakan hal penting dalam pembuatan sebuah jurnal, artikel,

atau tesis. Abstrak merupakan ringkasan isi dari sebuah karya ilmiah yang

ditujuakan untuk pembaca afar dapat memahami tujuan dari penulisan. Dalam

pembuatan abstrak, ada aturan dalam penulisannya.

3.2. Peringkasan

Peringkasan dokumen bukan merupakan hal baru dalam dunia teknologi,

hal ini dibuktikan dengan adanya beberapa aplikasi yang dapat melakukan

peringkasan secara otomatis.

3.2.1. Analisis Masalah

Untuk menghasikan sebuah ringkasan ada beberapa tahapan pada text

minning yang harus dilakukan, tahap awal yang harus dilakukan yaitu proses

preprocessing. proses ini terdiri dari beberapa tahap yaitu casefolding, filtering,

tokenizing dan stopwords. proses selanjutnya adalah pencarian kalimat-kalimat

yang mengandung topik dari dokumen teks tersebut. Pencarian kalimat ini

dilakukan dengan cara melakukan pembobotan terhadap semua kalimat. Pada

pengujian peringkasan dokumen secara ekstratif ini, query yang digunakan oleh

penulis yaitu bobot nilai dari seluruh kata dalam dokumen yang akan

16

dibandingkan pada seluruh kalimat yang ada di dokumen uji. Selanjutnya dipilih

beberapa kalimat yang memiliki bobot tertinggi yang dianggap paling

berhubungan dengan topik dari dokumen yang akan diringkas.

3.3. Flowchart alur kerja sistem

Dalam melakukan pembentukan abstrak, dokumen tersebut harus

dilakukan peringkasan terlebih dahulu supaya hanya kalimat yang memiliki

makna saja yang ditarik kesimpulan. Berikut adalah flowchart untuk melakukan

peringkasan.

Gambar 3. 1 flowchart alur kerja sistem

17

Berdasarkan flowchart diatas, berikut ini adalah pembahasan tiap-tiap

langkah untuk melakukan peringkasan.

1. Aplikasi pembuatan abstrak ini dengan melakukan tahap preprosesing

dengan menginput data berupa dokumen uji.

2. Dokumen yang telah diinput akan dilakukan pemecahan teks menjadi

kalimat. Untuk satu kalimat akan ditandai dengan titik.

3. Setelah mendapatkan kalimat, akan dilakukan proses case foldng yaitu

merubah semua huruf kapital menjadi huruf kecil.

4. Pada proses filtering, tanda baca pada dokumen akan dihapus yang

kemudian kalimat akan dipecah menjadi permasing-masing kata

(tokenizing).

5. Kemudian akan dilakukan proses synonym checking guna mengganti

setiap kata yang memiliki arti yang sama.

6. Preprocessing yang terakhir yaitu stopword yang bertujuan untuk

menfhilangkan kata-kata yang tidak relevan dan kurang memiliki makna.

7. Proses selanjutnya yaitu melakukan pembobotan kata dengan

menggunakan metode TF_IDF, kemudian melakukan perhitungan dengan

menggunakan metode VSM.

8. Selanjutnya dilakukan proses penghitungan nilai cosine similarity. Hasil

yang diperoleh dari perhitungan cosine similarity berupa nilai dari masing-

masing kalimat yang akan dijadikan acuan untuk memilih kalimat mana

saja yang merupakan rangkuman dari dokumen uji tersebut.

18

9. Dari hasil ringkasan, kemudian akan disusun dalam sebuah bentuk abstrak

dengan mengikuti pada aturan pembuatan abstrak.

3.3.1. Proses pemecahan teks menjadi kalimat

Pada tahap ini dilakukan proses pemecahan kalimat dari dokumen uji

menjadi beberapa bagian kalimat, pemecehan ini mengacu kepada beberapa

kalimat.

Contoh kalimat

Microsoft segera merilis sistem operasi terbaru Windows 8 pada 26

Oktober 2014 mendatang. Berbagai perangkat terbaru pun siap

menggunakan Windows 8 yang mengoptimalkan sentuhan, salah

satunya adalah Asus VivoBook yang menawan dan elegan. Ada dua

notebook berteknologi layar sentuh VivoBook yang akan dirilis Asus,

yaitu VivoBook S200 dan S400. Kedua notebook tersebut mengawali

rangkaian produk berlayar 11,6" sampai 14" yang dikembangkan

berdasarkan sentuhan.

Tabel 3. 1 Proses pemecahan teks menjadi kalimat

Kalimat 1Microsoft segera merilis sistem operasi terbaru Windows 8 pada 26

Oktober 2014 mendatang.

Kalimat 2

Berbagai perangkat terbaru pun siap menggunakan Windows 8 yang

mengoptimalkan sentuhan, salah satunya adalah Asus VivoBook

yang menawan dan elegan.

19

Kalimat 3Ada dua notebook berteknologi layar sentuh VivoBook yang akan

dirilis Asus, yaitu VivoBook S200 dan S400.

Kalimat 4Kedua notebook tersebut mengawali rangkaian produk berlayar

11,6" sampai 14" yang dikembangkan berdasarkan sentuhan.

3.3.2. Proses Case Folding

Pada bagian ini dilakukan proses perubahan semua huruf capital yang ada

menjadi huruf kecil supaya semua kalimat. Hal ini bertujuan supaya semua kata

memiliki arti yang sama.

Tabel 3. 2 Proses case folding

Kalimat 1microsoft segera merilis sistem operasi terbaru windows 8 pada 26

oktober 2014 mendatang.

Kalimat 2

berbagai perangkat terbaru pun siap menggunakan windows 8 yang

mengoptimalkan sentuhan, salah satunya adalah asus vivobook yang

menawan dan elegan.

Kalimat 3ada dua notebook berteknologi layar sentuh vivobook yang akan

dirilis asus, yaitu vivobook s200 dan s400.

Kalimat 4kedua notebook tersebut mengawali rangkaian produk berlayar

11,6" sampai 14" yang dikembangkan berdasarkan sentuhan.

3.3.3. Proses Filtering

Pada proses filtering langkah yang dilakukan yaitu menghilangkan

beberapa karakter yang tidak diperlukan selama proses perangkuman. Adapun

20

karakter yang akan dihilangkan yaitu : '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ',', '"', '-',

'/', '{', '}', '+', '_', '!', '@', '#', '$', '%', '^', '&', '*', '(', ')', '?', '<', '>', '[', ']', '|', '~', '`', ';', ':',

'=' dan “’s” untuk dokumen berbahasa Inggris.

Penghilangan karakter seperti angka akan dilakukan oleh sistem, karena

sistem tidak dapat mengenali keterangan dari angka yang ada pada dokumen.

Tabel 3. 3 Proses filtering

Kalimat 1microsoft segera merilis sistem operasi terbaru windows pada

oktober mendatang

Kalimat 2

berbagai perangkat terbaru pun siap menggunakan windows yang

mengoptimalkan sentuhan salah satunya adalah asus vivobook yang

menawan dan elegan

Kalimat 3ada dua notebook berteknologi layar sentuh vivobook yang akan

dirilis asus, yaitu vivobook s dan s

Kalimat 4kedua notebook tersebut mengawali rangkaian produk berlayar

sampai yang dikembangkan berdasarkan sentuhan.

3.3.4. Proses Tokenizing

Pada proses tokenizing ini hal yang dilakukan adalah memecah kalimat-

kalimat yang ada kedalam kata.

Tabel 3. 4 Proses tokenizing

Kalimat 1 Kalimat 2 Kalimat 3 Kalimat 4microsoftsegeramerilissistemoperasiterbaruwindows

berbagaiperangkatterbarupunsiapmenggunakan

adaduanotebookberteknologilayarsentuhvivobook

kedua

notebook

tersebut

mengawali

rangkaian

21

padaoktobermendatang

windowsyangmengoptimalkansentuhansalahsatunyaadalahasusvivobook

yangakandirilisasusyaituvivobooksdansyangmenawandanelegan

produk

berlayar

sampai

yang

dikembangkan

berdasarkan

sentuhan

3.3.5. Proses Synonim Checking

Pada proses syinonim checking ini proses yang dikerjakan yaitu mengganti

kata yang memiliki arti yang sama dengan sebuah kata induk yang telah dbuat

dalam database. Pada dokumen uji kali ini kata yang masuk dalam proses sinonim

yaitu kata “menawan” dan “elegan” yang nantinya akan digantikan oleh kata

“keren”. Hal ini nantinya akan berpengaruh terhadap nilai bobot yang akan

dilakukan pada tahap TF-IDF.

Tabel 3. 5 Proses stopwords removal

Kalimat 1 Kalimat 2 Kalimat 3 Kalimat 4microsoftsegeramerilissistemoperasiterbaruwindowspadaoktobermendatang

berbagaiperangkatterbarupunsiapmenggunakanwindowsyangmengoptimalkan

adaduanotebookberteknologilayarsentuhvivobookyangakandirilisasus

kedua

notebook

tersebut

mengawali

rangkaian

produk

berlayar

sampai

22

sentuhansalahsatunyaadalahasusvivobook

yaituvivobooksdansyangkerendankeren

yang

dikembangkan

berdasarkan

sentuhan

3.3.6. Proses Stopword Removal

Pada proses stowords removal ini proses yang dikerjakan yaitu menghapus

kata yang kurang relevan atau kata yang tidak memiliki arti yang begitu penting

dan berkaitan yang ada pada kalimat di dokumen dengan mencocokan list kata

stopword yang pada database yang akan diuji. Database yang digunakan baik

untuk Bahasa Indonesia maupun maupun Bahasa Inggris diambil dari sebuah situs

yg menyediakan berbagain jenis list stopword untuk berbagai bahasa [6]

Tabel 3. 6 Proses stopwords removal

Kalimat 1 Kalimat 2 Kalimat 3 Kalimat 4microsoftmerilissistemoperasiwindowsoktobermendatang

perangkatsiapwindowsmengoptimalkansentuhansalahsatunyaasusvivobook

notebookberteknologilayarsentuhvivobookdirilisasusvivobookkerenkeren

notebook

mengawali

rangkaian

produk

berlayar

dikembangkan

berdasarkan

sentuhan

23

3.3.7. Perhitungan TF-IDF

Setelah melewati tahap preprocessing, maka tahap selanjutnya adalah

proses pembobotan masing – masing kata yang telah melewati tahap stopword

dengan menggunakan Metode Term Frequention – Inverse Document

Frequention (TF-IDF). Berikut di bawah ini akan dijelaskan langkah demi

langkah proses TF-IDF.

1. Hitung jumlah kemuculan dari masing-masing kata yang ada pada setiap

kalimat yang ada di dokumen yang akan diuji. Pada pengujian kali ini,

dokumen yang memiliki 4 kalimat.

24

Tabel 3. 7 TF-IDF langkah 1

2. Setelah menghitung jumlah kemunculan dari masing-masing kata di setiap

kalimat yang ada pada dokumen uji tersebut, langkah selanjutnya yaitu

menghitung total kemunculan dari masing-masing kata terhadap seluruh

kalimat yang ada. Hasilnya disimpan pada kolom DF atau Document

Frequention.

25


3. Langkah selanjutnya yaitu membagi nilai total keseluruhan kalimat yang

ada pada dokumen uji dengan nilai total jumlah kemunculan dari masing-

masing kata pada seluruh kalimat yang ada pada dokumen uji. Hasil dari

pembagian tersebut disimpan pada kolom “N/DF”.

26


4. Langkah selanjutnya yaitu melakukan perhitungan matematika dengan

menggunakan rumus IDF yang sudah tertulis pada halaman 7.

27


5. Langkah terakhir dari metode TF-IDF adalah menghitung bobot pada

masing-masing kalimat sesuai dengan rumus pencarian bobot yang telah

dituliskan pada halaman 7.

28

Tabel 3. 11 TF-IDF Langkah 5

Setelah selesai melakukan pembobotan dengan menggunakan metode

Term Frequention – Inverse Document Frequention maka akan terbentuk matriks

term-by-sentence dimana nilai-nilai yang sudah didapat pada proses ini akan

digunakan untuk perhitungan nilai cosine pada tahap selanjutnya yaitu dengan

metode Vector Space Model.

3.3.8. Perhitungan Vector Space Model

Setelah melakukan proses pembobotan pada masing-masing kata yang

muncul pada semua kalimat yang ada pada sebuah dokumen uji dengan

menggunakan metode Term Frequention – Inverse Document Frequention (TF-

IDF), maka tahap selanjutnya adalah proses perhitungan nilai cosine similarity

dari masing-masing kalimat dengan menggunakan metode Vector Space Model.

Berikut di bawah ini adalah contoh perhitungan dari metode Vector Space

Model beserta dengan langkah-langakah dan tabelnya.

29

1. Langkah pertama pada proses ini yaitu mencari nilai query. Nilai query

diambil dari nilai LOG IDF pada proses proses pembobotan sebelumnya

Tabel 3. 12 VSM langkah 1

2. Langkah selanjutnya yaitu pangkatkan dua seluruh nilai yang ada pada empat

kolom terakhir proses TF-IDF (Langkah 5), pada tahap ini menggunakan

rumus VSM nomor 1. Setelah itu simpan pada kolom sesuai dengan tabel di

bawah ini.


30

3. Langkah selanjutnya yaitu kalikan seluruh nilai pada kata kunci dari masing-

masing kata dengan dengan seluruh nilai yang telah dilakukan pada langkah

sebelumnya, pada tahap ini menggunakan rumus VSM no 2. Hasilnya simpan

pada kolom seperti di bawah ini.

31


4. Setelah nilai pada seluruh kolom di tabel VSM ini telah terisi, langkah

selanjutnya yaitu jumlahkan secara vertikal seluruh nilai pada kolom “Query”

dan kolom “W12” hingga kolom “W4

2”, bagian ini menggunakan rumus VSM

nomor 3 dan hasilnya ditandai dengan kolom berwarna hitam. Setelah itu

akarkan nilai keseluruhan dari kolom “Query” dan kolom “W12” hingga kolom

“W42”, bagian ini menggunakan rumus VSM no 4 dan hasilnya ditandai

dengan kolom berwarna merah. Hasilnya seperti tabel di bawah ini .

32


Proses perhitungan menggunakan Vector Space Model telah selesai,

selanjutnya adalah proses perhitungan nilai cosine. Untuk proses perhitungan

cosine, hanya terdapat 2 langkah kerja yaitu :

1. Cosine Similarity langkah pertama seperti pada tabel dibawah ini :

Tabel 3. 16 cosine langkah 1

2. Cosine Similarity langkah kedua seperti pada tabel dibawah ini :

33

Tabel 3. 17 cosine langkah 2

Pada proses tabel perhitungan cosine, hasil akhir yang didapatkan nantinya

akan digunakan untuk menentukan kalimat mana yang menunjukan intisari dari

dokumen tersebut. Di bawah ini adalah hasil ringkasan dari yang dihasilkan yaitu:

microsoft segera merilis sistem operasi terbaru windows

berbagai perangkat terbaru pun siap menggunakan windows yang

mengoptimalkan sentuhan salah satunya adalah asus vivobook yang

menawan dan elegan

notebook berteknologi layar sentuh vivobook yang akan dirilis asus,

yaitu

kedua notebook tersebut mengawali rangkaian produk berlayar sampai

yang dikembangkan berdasarkan sentuhan.

Dari hasil ringkasan diatas akan dibentuk kesimpulan yang dianggap

mewakili inti dari dokumen yang uji. Berikut ini merupakan hasil dari kesimpulan

yang diringkas:

Berbagai perangkat terbaru pun siap menggunakan Windows 8 yang

mengoptimalkan sentuhan, salah satunya adalah Asus VivoBook yang menawan

dan elegan (kalimat 2). Kedua notebook tersebut mengawali rangkaian produk

34

berlayar 11,6” sampai 14” yang dikembangkan berdasarkan sentuhan (kalimat

4).

35

DAFTAR PUSTAKA

[1] Gary Blake and Robert W. Bly, The Elements of Technical Writing, pg.

117. New York:Macmillan Publishers, 1993. ISBN 0020130856

[2] Turney, P. D. Pantel, Patrick, 2010, ”From Frequency to

Meaning: Vector Space Models of Semantics”, Journal of

Artificial Inteligence Reseach, vol 37, pp. 141 -188.

[3] Taufiq M. Isa 1) dan Taufik Fuadi Abidin 2) (Jurnal)

[4] Fatkhul Amin , Fakultas Teknologi Informasi, Universitas Stikubank,

Semarang (Jurnal)

[5] https://id.wikipedia.org/wiki/Prototyping_perangkat_lunak (diakses tanggal

31 Agustus 2015 21:47)

https://id.wikipedia.org/wiki/Prototyping_perangkat_lunak

https://en.wikipedia.org/wiki/Special:BookSources/0020130856

https://en.wikipedia.org/wiki/Macmillan_Publishers_(United_States)

https://en.wikipedia.org/wiki/New_York_City

https://en.wikipedia.org/wiki/Robert_W._Bly

https://en.wikipedia.org/wiki/Gary_Blake

otomasi_pembentukan_abstrak_bahasa_indonesia_berdasarkan_keseluruhan_dokumen_menggunakan_cosine_similarity_dan_vektor_space_model1...

Documents