otomasi_pembentukan_abstrak_bahasa_indonesia_berdasarkan_keseluruhan_dokumen_menggunakan_cosine_similarity_dan_vektor_space_model1...
Post on 03-Feb-2016
227 Views
Preview:
TRANSCRIPT
OTOMASI PEMBENTUKAN ABSTRAK BAHASA
INDONESIA BERDASARKAN KESELURUHAN
DOKUMEN MENGGUNAKAN COSINE SIMILARITY
DAN VEKTOR SPACE MODEL
SKRIPSI
Diajukan untuk Menempuh Ujian Akhir Semester
OLEH:
Arie Prima Anggara
10110038
Program Studi Teknik Informatika
Fakultas Teknik Dan Ilmu Komputer
Universitas Komputer Indonesia
2015
DAFTAR ISI
DAFTAR ISI............................................................................................................ii
DAFTAR TABEL..................................................................................................iii
DAFTAR GAMBAR..............................................................................................iv
BAB I PENDAHULUAN........................................................................................1
1.1. Latar Belakang Masalah...........................................................................1
1.2. Rumusan Masalah....................................................................................2
1.3. Maksud dan Tujuan..................................................................................3
1.3.1. Maksud...............................................................................................3
1.3.2. Tujuan................................................................................................3
1.4. Batasan Masalah......................................................................................3
1.5. Metodologi Penelitian..............................................................................3
1.5.1. Metode Pengumpulan Data................................................................4
1.5.2. Metode Pembangunan Perangkat Lunak............................................4
1.6. Sistematika Penulisan..............................................................................5
BAB II LANDASAN TEORI..................................................................................7
2.1. Ringkasan.................................................................................................7
2.2. Teks..........................................................................................................8
2.3. Abstrak.....................................................................................................8
2.4. Preprocessing.........................................................................................10
2.5. Term Frequency – Inverse Document Frequency (TF-IDF)..................11
2.6. Vector Space Model (VSM)..................................................................13
BAB III ANALISIS DAN PERANCANGAN SISTEM.......................................15
3.1. Abstrak...................................................................................................15
3.2. Peringkasan............................................................................................15
ii
iii
3.2.1. Analisis Masalah..............................................................................15
3.3. Flowchart alur kerja sistem....................................................................16
3.3.1. Proses pemecahan teks menjadi kalimat..........................................18
3.3.2. Proses Case Folding.........................................................................19
3.3.3. Proses Filtering................................................................................19
3.3.4. Proses Tokenizing............................................................................20
3.3.5. Proses Synonim Checking...............................................................21
3.3.6. Proses Stopword Removal...............................................................22
3.3.7. Perhitungan TF-IDF.........................................................................23
3.3.8. Perhitungan Vector Space Model....................................................28
DAFTAR PUSTAKA............................................................................................34
DAFTAR TABEL
Tabel 3. 1 Proses pemecahan teks menjadi kalimat...............................................18
Tabel 3. 2 Proses case folding................................................................................19
Tabel 3. 3 Proses filtering......................................................................................20
Tabel 3. 4 Proses tokenizing...................................................................................20
Tabel 3. 5 Proses stopwords removal.....................................................................21
Tabel 3. 6 Proses stopwords removal.....................................................................22
Tabel 3. 7 TF-IDF langkah 1 ................................................................................24
Tabel 3. 8 TF-IDF langkah 2.................................................................................25
Tabel 3. 9 TF-IDF langkah 3.................................................................................26
Tabel 3. 10 TF-IDF langkah 4 ..............................................................................27
Tabel 3. 11 TF-IDF Langkah 5 .............................................................................28
Tabel 3. 12 VSM langkah 1...................................................................................29
Tabel 3. 13 VSM langkah 2...................................................................................30
Tabel 3. 14 VSM langkah 3 ..................................................................................31
Tabel 3. 15 VSM langkah 4...................................................................................32
Tabel 3. 16 cosine langkah 1..................................................................................32
Tabel 3. 17 cosine langkah 2 .................................................................................33
iii
DAFTAR GAMBAR
Gambar 2. 1 Rumus Vector Space Model..............................................................14
Gambar 3. 1 flowchart alur kerja sistem................................................................16
iv
1
BAB I
PENDAHULUAN
1.1. Latar Belakang Masalah
Dalam penulisan suatu penelitian pasti dibutuhkan suatu abstrak atau intisari
dari keseluruhan dokumen. Abstrak adalah sebuah ringkasan dari keseluruhan
dokumen penelitian agar pembaca tahu maksud dari penelitian tersebut [1].
Vector Space Model (VSM) merupakan suatu metode dalam
merepresentasikan sebuah dokumen dalam ruang vektor [2]. Dimana VSM akan
mengukur kemiripan antara dua paragraf atau lebih pada dokumen yang berbeda.
Paragraf merupakan vektor berdimensi n dan parameter t dari semua kata yang
ditemukan dalam daftar leksikon (vocabulary) tanpa duplikasi[3]. Dalam
pengerjaanya metode VSM ini banyak digunakan karena lebih mudah dalam
merepresentasikan dalam pengimplementasian terhadap document-matching.
Selain itu cara kerja motede VSM ini efesien[4].
Dalam membentuk paragraf abstrak pada sebuah dokumen dari setiap bab
tentunya membutuhkan pencarian kalimat yang relevan, pencarian kalimat pada
setiap bab dalam dokumen yang banyak akan membutuhkan banyak waktu,
sehingga cara seperti ini tidak efesien. Menentukan hasil pencarian yang relevan
sesuai dengan jumlah pencarian yang banyak akan menyulitkan user. Dampaknya
user akan mengalami kebingungan untuk membentuk sebuah abstrak, bahkan
waktu yang dibutuhkan untuk membentuk abstrak menjadi lebih banyak dari yang
diharapkan.
2
Algoritma vector space model akan mengukur sebuah paragraf dari kemiripan
setiap bab dalam dokumen dengan teknik text mining. Text mining tersebut
mempunyai tiga tahapan yaitu text preprocessing, text transformation, dan pattern
discovery. Tahapan text prepocessing terdiri dari tahapan pembersihan teks dan
pemecahan kalimat menjadi kata-kata (tokenizing). Tahapan text transformation
terdiri dari tahapan filtering dan stemming. Tahapan stemming lebih kompleks
akan dirubah ke tahap perbandingan kata. Tahapan pattern discovery merupakan
tahapan pembobotan, dengan dukungan metode cosine similarity.
Dari permasalahan diatas, maka penelitian ini akan mengimplementasikan
algoritma vector space model dan cosine similarity, dan bagaimana perangkat
lunak menghasilkan pembentukan paragraf abstrak secara otomatis.
1.2. Rumusan Masalah
Berdasarkan latar belakang yang sudah dijelaskan diatas, maka dapat di
identifikasi masalah sebagai berikut :
1. Bagaimana mengimplementasikan algoritma vector space model untuk
membentuk paragraf abstrak secara otomatis berdasarkan keseluruhan
dokumen.
2. Bagaimana algoritma vector space model dapat membentuk paragraf
abstrak secara otomatis berdasarkan keseluruhan dokumen.
3
1.3. Maksud dan Tujuan
1.3.1. Maksud
Maksud dari pada penelitian tugas akhir ini adalah mengimplementasikan
algoritma vector space agar model dapat membentuk sebuah paragraf abstak pada
keseluruhan dokumen.
1.3.2. Tujuan
Adapun tujuan dari penelitian tugas akhir ini adalah melakukan pengujian
keefektifan metode vector space model dan cosine similarity dalam melakukan
pembuatan abstrak.
1.4. Batasan Masalah
Batasan masalah yang akan diterapkan dalam pembentukan abstrak
berdasarkan keseluruhan dokumen yaitu:
1. Sistem yang dibangun berbasis website.
2. Dokumen yang digunakan pada penelitian ini adalah dokumen teks yang
berbahasa indonesia berformat Microsoft Word (*.docx).
3. Bahasa dokumen yang digunakan yaitu bahasa indonesia baku.
4. Dokumen yang diuji berupa jurnal.
1.5. Metodologi Penelitian
Metodologi penelitian yang akan digunakan dalam pembuatan tugas akhir ini
adalah metode penelitian Research and Depelopment (R&D) yaitu metode
penelitian yang digunakan untuk menghasilkan suatu produk dan menguji
keefiktifan produk tersebut[4].
4
Dalam pelaksanaan R&D metode yang digunakan adalah Metode deskriptif
merupakan metode yang menggambarkan sejumlah fakta dan informasi dalam
kejadian atau situasi sekarang secara sistematis, faktual dan akurat.Penelitian
tugas akhir ini dibagi menjadi dua proses yaitu.
1.5.1. Metode Pengumpulan Data
Metode pengumpulan data yang akan digunakan adalah Studi literatur
pengumpulan data dengan cara literatur, jurnal, Paper, dan bacaan – bacaan yang
berkaitan dengan judul.
1.5.2. Metode Pembangunan Perangkat Lunak
Metode pembangunan perangkat lunak menggunakan model Prototype [4].
Penggunaan metode prototype didasari karena metode ini dapat melakukan
pengumpulan kebutuhan dan memperbaiki kebutuhan, melakukan desain dengan
cepat dan pemakai mengevalusi kebutuhan agar sesuai dengan kebutuhan. Pada
gambar 1.1 menunjukan tahapan-tahapan dari model Prototype yaitu sebagai
berikut :
1. Pengumpulan Kebutuhan dan Perbaikan
Mengumpulkan segala kebutuhan untuk pembangunan aplikasi ini.
2. Desain Cepat
Tahap penerjemahan kebutuhan menjadi suatu gambaran dari perangkat
lunak.
3. Bentuk Prototype
Desain program diterjemahkan kedalam kode program dengan
menggunakan bahasa program yang sudah ditentukan.
4. Evaluasi pelanggan terhadap prototype
5
Melakukan pengujian program, dan bila ada kekurangan pada program
bisa ditambahkan.
5. Perbaikan Prototype
Perbaikan program yang sudah jadi, sesuai dengan kebutuhan.
6. Produk Rekayasa
Program yang sudah jadi sesuai kebutuhan telah terpenuhi.
Gambar 1. 1 Model Prototype
1.6. Sistematika Penulisan
Sistematika penulisan yang akan disusun dalam penelitian ini adalah sebagai
berikut:
BAB I PENDAHULUAN
Bab ini membahas tentang latar belakang masalah dan perumusan
masalah, maksud dan tujuan penulisan, batasan masalah, metode penelitian dan
sistematika penulisan.
BAB II LANDASAN TEORI
Membahas berbagai konsep dasar dan teori-teori dalam pembuatan abstrak
dan membahas mengenai metode vector space model dan cosine similarity serta
cara penerapannya.
6
BAB III ANALISIS DAN PERANCANGAN
Menganalisis masalah dari penelitian serta pemecahan masalah yang akan
dilakukan dan perancangan penggunaan metode dalam melakukan pembuatan
abstrak.
BAB IV IMPLEMENTASI DAN PENGUJIAN
Merupakan tahapan yang dilakukan dalam penelitian untuk merancang dan
mengimplementasikan aplikasi dalam pembuatan abstrak dengan menggunakan
metode vector space model dan cosine similarity
BAB V KESIMPULAN DAN SARAN
Berisi kesimpulan dan saran yang sudah diperoleh dari hasil penulisan tugas
akhir.
7
BAB II
LANDASAN TEORI
Bab ini menjelaskan tentang dasar teori yang digunakan dalam pembuatan
aplikasi pembuatan abstrak.
2.1. Ringkasan
Ringkasan adalah suatu cara yang efektif untuk menyajikan suatu
karangan yang panjang dalam bentuk singkat. Oleh karena itu membuat ringkasan
atas sebuah karangan yang panjang dapat diumpamakan sebagai memangkas
sebatang pohon sehingga tinggal batang, cabang-cabang dan ranting-ranting yang
terpenting beserta daun-daun yang diperlukan, sehingga tampak bahwa esensi
pohon masing dipertahankan. Dalam ringkasan keindahan gaya bahasa, ilustrasi,
serta penjelasan-penjelasan yang terperinci dihilangkan, sedangkan sari
kerangaknya dibiarkan tanap hiasan. Walaupun bentuknya ringkas, namun tetap
mempertahankan pikiran pengarang dan pendekatan yang asli.
Dalam meringkas sebaiknya menggunakan kalimat tunggal daripada
kalimat majemuk. Kalimat majemuk menunjukan bahwa ada dua gagasan atau
lebih yang bersifat paralel. Bila memungkinkan ringkaslah kalimat menjadi frasa,
selanjutnya frasa menjadi kata. Begitu pula rangkaian gagasan yang penjang
hendaknya diganti dengan suatu gagasan sentral saja. Pada umumnya suatu
ringkasan ditentukan panjang ringkasan akhirnya, ada yang meringkas seperdua
total kata, sepertiga total kata, hingga sepersepuluh total kata. Untuk artikel yang
memiliki jumlah kata yang sangat banyak tentu saja hasil ringkasan sepersepuluh
menjadi pilihan yang tepat. Sedangkan untuk artikel yang jumlah katanya tidak
8
terlalu banyak maka hasil ringkasan sebanyak seperdua total kata menjadi pilihan
yang tepat sehingga hasil ringkasan nantinya masih dapat dibaca dengan struktur
hasil ringkasan yang baik [6].
2.2. Teks
Teks dapat diartikan kumpulan karakter yang membentuk kata yang
disusun dan memiliki suatu makna. Teks dapat berupa angka, frasa, kalimat, atau
paragraph. Dalam peringkasan teks, teks yang diinginkan dapat berbentuk
paragrad yang terdiri dari susunan kalimat yang memiliki informasi yang nantinya
akan diproses untuk digali informasinya akan dimanfaatkan untuk menghasilkan
teks yang lebih ringan.
2.3. Abstrak
Abstrak merupakan sebuah ringkasan isi dari sebuah karya tulis ilmiah
yang ditujukan untuk membantu seorang pembaca agar dapat dengan mudah dan
cepat untuk melihat tujuan dari penulisannya. Di dalam dunia akademik, tulisan
pendek ini digunakan oleh institusi/lembaga/organisasi pendidikan sebagai
informasi awal atas sebuah penelitian ketika dimasukkan dalam jurnal, konferensi,
lokakarya, atau yang sejenisnya. Dalam dunia maya (internet), sebuah abstrak
digunakan sebagai gambaran singkat atas sebuah karya tulis ilmiah/penelitian
untuk dibaca, sebagaimana halnya sebuah “display” model pakaian dipajang
untuk dilihat atau diuji pakai sebelum dibeli. Selanjutnya, bagian lengkap sebuah
penelitian dijual kepada mereka yang berminat untuk mendapatkannya.
9
Untuk membuat abstrak, hal-hal yang perlu diperhatikan adalah sebagai
berikut:
1. Struktur paragraf
Sebuah abstrak ditulis dalam satu paragraf yang menerangkan keseluruhan
isi tulisan secara singkat dan jelas. Penulisannya tidak melakukan
indensasi pada kalimat pertama paragraf. Single space adalah pilihan yang
dimiliki oleh penulis untuk menyusun kalimat dalam paragrafnya. Lebih
dalam, kadang seorang pembimbing Skripsi/Tesis/Disertasi mengatur
hingga pada penggunaan jenis huruf dan ukuran tertentu.
2. Jumlah kata
Idealnya sebuah paragraf terdiri dari 150 sampai dengan 200 kata. Namun,
pertimbangan jumlah kata yang paling tepat dalam penulisan Skripsi,
Tesis, ataupun disertasi biasanya bergantung pada pertimbangan
pandangan pembimbing (supervisor) yang mendampingi seorang
mahasiswa dalam penulisannya. Seorang supervisor harusnya tidak
mempertimbangkan jumlah kata sebagai acuan utama penulisan paragraf,
karena bagian utama justru isi (content) paragraf.
3. Isi paragraf
Pertama, indentifikasi fokus penelitian dijelaskan secara singkat agar
pembaca memahami apa yang diamati oleh seorang peneliti di dalam
penelitiannya. Kedua, penulis perlu menggambarkan secara jelas desain
penelitian yang dilakukan dalam proses pencarian jawaban atau solusi atas
persoalan yang diangkat di dalam penelitiannya. Desain langkah
10
penyelesaian masalah ini oleh mahasiswa lazim dikenal dengan istilah
Metode Penelitian. Ketiga, selanjutnya penulis akan menjelaskan hasil
temuannya kepada pembaca. Beberapa peneliti menganggap hasil temuan
yang diungkap tidak perlu mengungkap pembahasan yang dilakukan
karena hal itu justru akan membuat pengulangan isi tulisan. Jelas
maksudnya karena bagian pembahasan temuan penelitian juga diurai di
dalam bagian kesimpulan. Keempat, perlunya bagian kesimpulan di dalam
sebuah tulisan juga terlihat di dalam sebuah abstrak yang tetap
mendapatkan perhatian penting sebagai bagian akhir dari paragraf. Pada
bagian ini kadangkala sejumlah peneliti menyisipkan rekomendasi
penelitian namun tanpa pembahasan atau uraian yang panjang. Lebih
lanjut, tidaklah lazim sebuah abstrak diisi oleh nama si penulis serta para
pembimbing tulisannya, apalagi hal itu ditulis dalam huruf cetak tebal.
2.4. Preprocessing
Pada tahap preprocessing ini terdapat empat langkah yaitu:
a. Case Folding, yaitu mengubah semua teks ke dalam huruf kecil.
b. Filtering, menghapus karakter yang tidak dipakai. Dalam pengujian ini
karakter seluruh tanda baca seperti tanda seru, tanda tanya, tanda kutip,
dan lain sebagainya akan dihapus kecuali kecuali tanda titik.
c. Tokenizing, yaitu memecah teks kedalam kata.
d. Synonim Checking, yaitu mengganti kata yang ada yang memiliki arti yang
sama. Penggantian kata yang dilakukan berdasarkan database yang dibuat
oleh penulis.
11
e. Stopwords, yaitu menghapus kata-kata tidak penting dan berulang.
Pada umumnya tahap preprocessing terdapat 5 langkah yaitu Case
Folding, Filtering, Tokenizing, Stemming, dan Stopwords. Ada satu langkah yang
tidak penulis gunakan dalam pembuatan aplikasi peringkasan dokumen esktraktif
ini yaitu proses stemming. Stemming yaitu proses menghilangkan imbuhan dari
sebuah kata dan mengubahnya menjadi kata dasar. Tujuan dari penghilangan
proses Stemming ini yaitu karena penulis memiliki pendapat bahwa dalam sebuah
peringkasan dokumen ekstraktif imbuhan yang terdapat pada sebuah kata
memiliki arti yang berbeda. Adapun contoh kalimat yaitu : “Bapak membuatkan
sebuah rumah untuk istrinya”, “Bapak dibuatkan secangkir kopi oleh ibu”,
“Bapak selalu berbuat baik kepada tetangga”. Kata “buat” pada kalimat pertama
dan kalimat ketiga memiliki arti bapak melakukan sebuah kegiatan tapi pada
kalimat dua kata”buat” memiliki arti bapak mendapatkan sebuah perlakuan.
Apabila proses stemming tetap dilakukan maka tidak akan didapatkan perbedaan
antara satu kata dengan yang lainnya.
Pada tahap filtering penulis menambahkan karakter “ ’s ” yang akan
digunakan untuk menghapus tanda baca bagi dokumen yang menggunakan bahasa
Inggris. Adapun contoh kalimatnya yaitu : “that is President’s car” berubah
menjadi “that is President car”.
2.5. Term Frequency – Inverse Document Frequency (TF-IDF)
Metode Term Frequency-Inverse Document Frequency (TF-IDF) adalah
cara pemberian bobot hubungan suatu kata (term) terhadap dokumen. Untuk
12
dokumen tunggal tiap kalimat dianggap sebagai dokumen. Metode ini
menggabungkan dua konsep untuk perhitungan bobot, yaitu Term Frequency (TF)
merupakan frekuensi kemunculan kata (t) pada kalimat (s). Document frequency
(DF) adalah banyaknya kalimat dimana suatu kata (t) muncul. Frekuensi
kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa
penting kata itu di dalam dokumen tersebut.
Frekuensi kalimat yang mengandung kata tersebut menunjukkan seberapa
umum kata yang ada pada dokumen uji tersebut. Bobot kata semakin besar jika
sering muncul dalam suatu kalimat dan semakin kecil jika muncul dalam banyak
kalimat. Pada Metode ini pembobotan kata dalam sebuah dokumen dilakukan
dengan mengalikan nilai TF dan IDF. Pembobotan diperoleh berdasarkan jumlah
kemunculan term dalam kalimat (TF) dan jumlah kemunculan term pada seluruh
kalimat dalam dokumen (IDF). Bobot suatu istilah semakin besar jika istilah
tersebut sering muncul dalam suatu dokumen dan semakin kecil jika istilah
tersebut muncul dalam banyak dokumen. Nilai IDF sebuah term dihitung
menggunakan persamaan di bawah:
IDF = log( NDf ) (1)
keterangan :
N = Jumlah keseluruhan kalimat pada dokumen
Df = Jumlah kalimat yang mengandung keyword t
13
Menghitung bobot (W) masing-masing kalimat dengan persamaan di bawah:
Wd.t = TFd.t * IDFt (2)
dengan :
d = kalimat ke-d
t = kata (term) ke-t
TF = Term Frequency
W = bobot kalimat ke-d terhadap kata (term) ke-t
IDF= Inverse Document Frequency
Kemudian baru melakukan proses pengurutan (sorting) nilai kumulatif dari W
untuk setiap kalimat. Tiga kalimat dengan nilai W terbesar dijadikan sebagai hasil
dari ringkasan atau sebagai output dari peringkasan teks otomatis.
2.6. Vector Space Model (VSM)
Pencarian dalam sistem temu balik merupakan hal yang dibutuhkan, hal
ini dikarenakan ketepatan pencarian sesuai keyword yang dimasukkan user
dengan dokumen yang jumlahnya banyak. Vector space model adalah suatu model
yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatu
query [1]. Query dan dokumen dianggap sebagai vektor-vektor pada ruang n-
dimensi, dimana t adalah jumlah dari seluruh term yang ada dalam leksikon.
Leksikon adalah daftar semua term yang ada dalam indeks. Selanjutnya akan
dihitung nilai cosinus sudut dari dua vektor, yaitu W dari tiap dokumen dan W
dari kata kunci.
14
Gambar 2. 1 Rumus Vector Space Model
Adapun formula yang digunakan pada VSM seperti di bawah ini :
¿ ( S j ,d )=S j . d
¿∨S j∨¿∨¿d∨¿=∑i=1
X
(w ¿¿ i , j . wi , d)
√∑i=1
X
w i , j2 √∑
i=1
X
w i ,d2
¿
Dimana :
S = Kalimat
w = Bobot
j = kalimat ke-j
i = kata ke-i
d = keyword pada seluruh dokumen
X = jumlah kata pada dokumen
15
BAB III
ANALISIS DAN PERANCANGAN SISTEM
Bab ini menjelaskan tentang analisis dan perancangan sistem
menggunakan metode vector space model.
3.1. Abstrak
Abstrak merupakan hal penting dalam pembuatan sebuah jurnal, artikel,
atau tesis. Abstrak merupakan ringkasan isi dari sebuah karya ilmiah yang
ditujuakan untuk pembaca afar dapat memahami tujuan dari penulisan. Dalam
pembuatan abstrak, ada aturan dalam penulisannya.
3.2. Peringkasan
Peringkasan dokumen bukan merupakan hal baru dalam dunia teknologi,
hal ini dibuktikan dengan adanya beberapa aplikasi yang dapat melakukan
peringkasan secara otomatis.
3.2.1. Analisis Masalah
Untuk menghasikan sebuah ringkasan ada beberapa tahapan pada text
minning yang harus dilakukan, tahap awal yang harus dilakukan yaitu proses
preprocessing. proses ini terdiri dari beberapa tahap yaitu casefolding, filtering,
tokenizing dan stopwords. proses selanjutnya adalah pencarian kalimat-kalimat
yang mengandung topik dari dokumen teks tersebut. Pencarian kalimat ini
dilakukan dengan cara melakukan pembobotan terhadap semua kalimat. Pada
pengujian peringkasan dokumen secara ekstratif ini, query yang digunakan oleh
penulis yaitu bobot nilai dari seluruh kata dalam dokumen yang akan
16
dibandingkan pada seluruh kalimat yang ada di dokumen uji. Selanjutnya dipilih
beberapa kalimat yang memiliki bobot tertinggi yang dianggap paling
berhubungan dengan topik dari dokumen yang akan diringkas.
3.3. Flowchart alur kerja sistem
Dalam melakukan pembentukan abstrak, dokumen tersebut harus
dilakukan peringkasan terlebih dahulu supaya hanya kalimat yang memiliki
makna saja yang ditarik kesimpulan. Berikut adalah flowchart untuk melakukan
peringkasan.
Gambar 3. 1 flowchart alur kerja sistem
17
Berdasarkan flowchart diatas, berikut ini adalah pembahasan tiap-tiap
langkah untuk melakukan peringkasan.
1. Aplikasi pembuatan abstrak ini dengan melakukan tahap preprosesing
dengan menginput data berupa dokumen uji.
2. Dokumen yang telah diinput akan dilakukan pemecahan teks menjadi
kalimat. Untuk satu kalimat akan ditandai dengan titik.
3. Setelah mendapatkan kalimat, akan dilakukan proses case foldng yaitu
merubah semua huruf kapital menjadi huruf kecil.
4. Pada proses filtering, tanda baca pada dokumen akan dihapus yang
kemudian kalimat akan dipecah menjadi permasing-masing kata
(tokenizing).
5. Kemudian akan dilakukan proses synonym checking guna mengganti
setiap kata yang memiliki arti yang sama.
6. Preprocessing yang terakhir yaitu stopword yang bertujuan untuk
menfhilangkan kata-kata yang tidak relevan dan kurang memiliki makna.
7. Proses selanjutnya yaitu melakukan pembobotan kata dengan
menggunakan metode TF_IDF, kemudian melakukan perhitungan dengan
menggunakan metode VSM.
8. Selanjutnya dilakukan proses penghitungan nilai cosine similarity. Hasil
yang diperoleh dari perhitungan cosine similarity berupa nilai dari masing-
masing kalimat yang akan dijadikan acuan untuk memilih kalimat mana
saja yang merupakan rangkuman dari dokumen uji tersebut.
18
9. Dari hasil ringkasan, kemudian akan disusun dalam sebuah bentuk abstrak
dengan mengikuti pada aturan pembuatan abstrak.
3.3.1. Proses pemecahan teks menjadi kalimat
Pada tahap ini dilakukan proses pemecahan kalimat dari dokumen uji
menjadi beberapa bagian kalimat, pemecehan ini mengacu kepada beberapa
kalimat.
Contoh kalimat
Microsoft segera merilis sistem operasi terbaru Windows 8 pada 26
Oktober 2014 mendatang. Berbagai perangkat terbaru pun siap
menggunakan Windows 8 yang mengoptimalkan sentuhan, salah
satunya adalah Asus VivoBook yang menawan dan elegan. Ada dua
notebook berteknologi layar sentuh VivoBook yang akan dirilis Asus,
yaitu VivoBook S200 dan S400. Kedua notebook tersebut mengawali
rangkaian produk berlayar 11,6" sampai 14" yang dikembangkan
berdasarkan sentuhan.
Tabel 3. 1 Proses pemecahan teks menjadi kalimat
Kalimat 1Microsoft segera merilis sistem operasi terbaru Windows 8 pada 26
Oktober 2014 mendatang.
Kalimat 2
Berbagai perangkat terbaru pun siap menggunakan Windows 8 yang
mengoptimalkan sentuhan, salah satunya adalah Asus VivoBook
yang menawan dan elegan.
19
Kalimat 3Ada dua notebook berteknologi layar sentuh VivoBook yang akan
dirilis Asus, yaitu VivoBook S200 dan S400.
Kalimat 4Kedua notebook tersebut mengawali rangkaian produk berlayar
11,6" sampai 14" yang dikembangkan berdasarkan sentuhan.
3.3.2. Proses Case Folding
Pada bagian ini dilakukan proses perubahan semua huruf capital yang ada
menjadi huruf kecil supaya semua kalimat. Hal ini bertujuan supaya semua kata
memiliki arti yang sama.
Tabel 3. 2 Proses case folding
Kalimat 1microsoft segera merilis sistem operasi terbaru windows 8 pada 26
oktober 2014 mendatang.
Kalimat 2
berbagai perangkat terbaru pun siap menggunakan windows 8 yang
mengoptimalkan sentuhan, salah satunya adalah asus vivobook yang
menawan dan elegan.
Kalimat 3ada dua notebook berteknologi layar sentuh vivobook yang akan
dirilis asus, yaitu vivobook s200 dan s400.
Kalimat 4kedua notebook tersebut mengawali rangkaian produk berlayar
11,6" sampai 14" yang dikembangkan berdasarkan sentuhan.
3.3.3. Proses Filtering
Pada proses filtering langkah yang dilakukan yaitu menghilangkan
beberapa karakter yang tidak diperlukan selama proses perangkuman. Adapun
20
karakter yang akan dihilangkan yaitu : '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ',', '"', '-',
'/', '{', '}', '+', '_', '!', '@', '#', '$', '%', '^', '&', '*', '(', ')', '?', '<', '>', '[', ']', '|', '~', '`', ';', ':',
'=' dan “’s” untuk dokumen berbahasa Inggris.
Penghilangan karakter seperti angka akan dilakukan oleh sistem, karena
sistem tidak dapat mengenali keterangan dari angka yang ada pada dokumen.
Tabel 3. 3 Proses filtering
Kalimat 1microsoft segera merilis sistem operasi terbaru windows pada
oktober mendatang
Kalimat 2
berbagai perangkat terbaru pun siap menggunakan windows yang
mengoptimalkan sentuhan salah satunya adalah asus vivobook yang
menawan dan elegan
Kalimat 3ada dua notebook berteknologi layar sentuh vivobook yang akan
dirilis asus, yaitu vivobook s dan s
Kalimat 4kedua notebook tersebut mengawali rangkaian produk berlayar
sampai yang dikembangkan berdasarkan sentuhan.
3.3.4. Proses Tokenizing
Pada proses tokenizing ini hal yang dilakukan adalah memecah kalimat-
kalimat yang ada kedalam kata.
Tabel 3. 4 Proses tokenizing
Kalimat 1 Kalimat 2 Kalimat 3 Kalimat 4microsoftsegeramerilissistemoperasiterbaruwindows
berbagaiperangkatterbarupunsiapmenggunakan
adaduanotebookberteknologilayarsentuhvivobook
kedua
notebook
tersebut
mengawali
rangkaian
21
padaoktobermendatang
windowsyangmengoptimalkansentuhansalahsatunyaadalahasusvivobook
yangakandirilisasusyaituvivobooksdansyangmenawandanelegan
produk
berlayar
sampai
yang
dikembangkan
berdasarkan
sentuhan
3.3.5. Proses Synonim Checking
Pada proses syinonim checking ini proses yang dikerjakan yaitu mengganti
kata yang memiliki arti yang sama dengan sebuah kata induk yang telah dbuat
dalam database. Pada dokumen uji kali ini kata yang masuk dalam proses sinonim
yaitu kata “menawan” dan “elegan” yang nantinya akan digantikan oleh kata
“keren”. Hal ini nantinya akan berpengaruh terhadap nilai bobot yang akan
dilakukan pada tahap TF-IDF.
Tabel 3. 5 Proses stopwords removal
Kalimat 1 Kalimat 2 Kalimat 3 Kalimat 4microsoftsegeramerilissistemoperasiterbaruwindowspadaoktobermendatang
berbagaiperangkatterbarupunsiapmenggunakanwindowsyangmengoptimalkan
adaduanotebookberteknologilayarsentuhvivobookyangakandirilisasus
kedua
notebook
tersebut
mengawali
rangkaian
produk
berlayar
sampai
22
sentuhansalahsatunyaadalahasusvivobook
yaituvivobooksdansyangkerendankeren
yang
dikembangkan
berdasarkan
sentuhan
3.3.6. Proses Stopword Removal
Pada proses stowords removal ini proses yang dikerjakan yaitu menghapus
kata yang kurang relevan atau kata yang tidak memiliki arti yang begitu penting
dan berkaitan yang ada pada kalimat di dokumen dengan mencocokan list kata
stopword yang pada database yang akan diuji. Database yang digunakan baik
untuk Bahasa Indonesia maupun maupun Bahasa Inggris diambil dari sebuah situs
yg menyediakan berbagain jenis list stopword untuk berbagai bahasa [6]
Tabel 3. 6 Proses stopwords removal
Kalimat 1 Kalimat 2 Kalimat 3 Kalimat 4microsoftmerilissistemoperasiwindowsoktobermendatang
perangkatsiapwindowsmengoptimalkansentuhansalahsatunyaasusvivobook
notebookberteknologilayarsentuhvivobookdirilisasusvivobookkerenkeren
notebook
mengawali
rangkaian
produk
berlayar
dikembangkan
berdasarkan
sentuhan
23
3.3.7. Perhitungan TF-IDF
Setelah melewati tahap preprocessing, maka tahap selanjutnya adalah
proses pembobotan masing – masing kata yang telah melewati tahap stopword
dengan menggunakan Metode Term Frequention – Inverse Document
Frequention (TF-IDF). Berikut di bawah ini akan dijelaskan langkah demi
langkah proses TF-IDF.
1. Hitung jumlah kemuculan dari masing-masing kata yang ada pada setiap
kalimat yang ada di dokumen yang akan diuji. Pada pengujian kali ini,
dokumen yang memiliki 4 kalimat.
24
Tabel 3. 7 TF-IDF langkah 1
2. Setelah menghitung jumlah kemunculan dari masing-masing kata di setiap
kalimat yang ada pada dokumen uji tersebut, langkah selanjutnya yaitu
menghitung total kemunculan dari masing-masing kata terhadap seluruh
kalimat yang ada. Hasilnya disimpan pada kolom DF atau Document
Frequention.
25
Tabel 3. 8 TF-IDF langkah 2
3. Langkah selanjutnya yaitu membagi nilai total keseluruhan kalimat yang
ada pada dokumen uji dengan nilai total jumlah kemunculan dari masing-
masing kata pada seluruh kalimat yang ada pada dokumen uji. Hasil dari
pembagian tersebut disimpan pada kolom “N/DF”.
26
Tabel 3. 9 TF-IDF langkah 3
4. Langkah selanjutnya yaitu melakukan perhitungan matematika dengan
menggunakan rumus IDF yang sudah tertulis pada halaman 7.
27
Tabel 3. 10 TF-IDF langkah 4
5. Langkah terakhir dari metode TF-IDF adalah menghitung bobot pada
masing-masing kalimat sesuai dengan rumus pencarian bobot yang telah
dituliskan pada halaman 7.
28
Tabel 3. 11 TF-IDF Langkah 5
Setelah selesai melakukan pembobotan dengan menggunakan metode
Term Frequention – Inverse Document Frequention maka akan terbentuk matriks
term-by-sentence dimana nilai-nilai yang sudah didapat pada proses ini akan
digunakan untuk perhitungan nilai cosine pada tahap selanjutnya yaitu dengan
metode Vector Space Model.
3.3.8. Perhitungan Vector Space Model
Setelah melakukan proses pembobotan pada masing-masing kata yang
muncul pada semua kalimat yang ada pada sebuah dokumen uji dengan
menggunakan metode Term Frequention – Inverse Document Frequention (TF-
IDF), maka tahap selanjutnya adalah proses perhitungan nilai cosine similarity
dari masing-masing kalimat dengan menggunakan metode Vector Space Model.
Berikut di bawah ini adalah contoh perhitungan dari metode Vector Space
Model beserta dengan langkah-langakah dan tabelnya.
29
1. Langkah pertama pada proses ini yaitu mencari nilai query. Nilai query
diambil dari nilai LOG IDF pada proses proses pembobotan sebelumnya
Tabel 3. 12 VSM langkah 1
2. Langkah selanjutnya yaitu pangkatkan dua seluruh nilai yang ada pada empat
kolom terakhir proses TF-IDF (Langkah 5), pada tahap ini menggunakan
rumus VSM nomor 1. Setelah itu simpan pada kolom sesuai dengan tabel di
bawah ini.
Tabel 3. 13 VSM langkah 2
30
3. Langkah selanjutnya yaitu kalikan seluruh nilai pada kata kunci dari masing-
masing kata dengan dengan seluruh nilai yang telah dilakukan pada langkah
sebelumnya, pada tahap ini menggunakan rumus VSM no 2. Hasilnya simpan
pada kolom seperti di bawah ini.
31
Tabel 3. 14 VSM langkah 3
4. Setelah nilai pada seluruh kolom di tabel VSM ini telah terisi, langkah
selanjutnya yaitu jumlahkan secara vertikal seluruh nilai pada kolom “Query”
dan kolom “W12” hingga kolom “W4
2”, bagian ini menggunakan rumus VSM
nomor 3 dan hasilnya ditandai dengan kolom berwarna hitam. Setelah itu
akarkan nilai keseluruhan dari kolom “Query” dan kolom “W12” hingga kolom
“W42”, bagian ini menggunakan rumus VSM no 4 dan hasilnya ditandai
dengan kolom berwarna merah. Hasilnya seperti tabel di bawah ini .
32
Tabel 3. 15 VSM langkah 4
Proses perhitungan menggunakan Vector Space Model telah selesai,
selanjutnya adalah proses perhitungan nilai cosine. Untuk proses perhitungan
cosine, hanya terdapat 2 langkah kerja yaitu :
1. Cosine Similarity langkah pertama seperti pada tabel dibawah ini :
Tabel 3. 16 cosine langkah 1
2. Cosine Similarity langkah kedua seperti pada tabel dibawah ini :
33
Tabel 3. 17 cosine langkah 2
Pada proses tabel perhitungan cosine, hasil akhir yang didapatkan nantinya
akan digunakan untuk menentukan kalimat mana yang menunjukan intisari dari
dokumen tersebut. Di bawah ini adalah hasil ringkasan dari yang dihasilkan yaitu:
microsoft segera merilis sistem operasi terbaru windows
berbagai perangkat terbaru pun siap menggunakan windows yang
mengoptimalkan sentuhan salah satunya adalah asus vivobook yang
menawan dan elegan
notebook berteknologi layar sentuh vivobook yang akan dirilis asus,
yaitu
kedua notebook tersebut mengawali rangkaian produk berlayar sampai
yang dikembangkan berdasarkan sentuhan.
Dari hasil ringkasan diatas akan dibentuk kesimpulan yang dianggap
mewakili inti dari dokumen yang uji. Berikut ini merupakan hasil dari kesimpulan
yang diringkas:
Berbagai perangkat terbaru pun siap menggunakan Windows 8 yang
mengoptimalkan sentuhan, salah satunya adalah Asus VivoBook yang menawan
dan elegan (kalimat 2). Kedua notebook tersebut mengawali rangkaian produk
34
berlayar 11,6” sampai 14” yang dikembangkan berdasarkan sentuhan (kalimat
4).
35
DAFTAR PUSTAKA
[1] Gary Blake and Robert W. Bly, The Elements of Technical Writing, pg.
117. New York:Macmillan Publishers, 1993. ISBN 0020130856
[2] Turney, P. D. Pantel, Patrick, 2010, ”From Frequency to
Meaning: Vector Space Models of Semantics”, Journal of
Artificial Inteligence Reseach, vol 37, pp. 141 -188.
[3] Taufiq M. Isa 1) dan Taufik Fuadi Abidin 2) (Jurnal)
[4] Fatkhul Amin , Fakultas Teknologi Informasi, Universitas Stikubank,
Semarang (Jurnal)
[5] https://id.wikipedia.org/wiki/Prototyping_perangkat_lunak (diakses tanggal
31 Agustus 2015 21:47)
top related