“Sistem Deteksi Kemiripan antar Dokumen
Teks Menggunakan Model Bayesian pada
Term Latent Semantic Analysis (LSA)”
Oleh:
Danang Wahyu Wicaksono
(1210100027)
Pembimbing:
1. Prof. DR. Mohammad Isa Irawan, MT
2. Alvida Mustika Rukmi, S.Si, M.Si
Tugas Akhir
Yang Akan Dipaparkan
Manfaat4
Latar Belakang1
Permasalahan2
Tujuan3
Tinjauan Pustaka5
Metode Penelitian6
Pembahasan7
Latar Belakang
DOC A
DOC B
DOC C
Copy-
Paste
VALIDASI
Latar Belakang
LSA Kemampuan Menemukan hubungan, keterkaitan,
dan kemiripan antar dokumen-
dokumen dengan memanfaatkan
komputasi statistik untuk menggali
dan merepresentasikan konteks yang
digunakan sebagai sebuah arti kata.
Ke
lem
ah
an
Tidak memperhatikan
urutan tata letak kataMakna???
Source :
Landauer, Thomas K., Peter W. Foltz & Darrell Laham. 1998. “An Introduction to Latent Semantic Analysis”.
Department of Psychology, University of Colorado. (page 5 of 41 )
Permasalahan
Cara kerja aplikasi?
Hasil yang didapatkan?
Batasan Masalah
File dokumen teks berbahasa Indonesia dalam
format doc, docx, dan txt.
Model Bayesian digunakan pada term yang
dihasilkan oleh LSA dari dokumen uji sebagai
kejadian (event) bersyarat untuk pembentukan
pola (urutan) term.
Kata yang diproses dari dokumen adalah dalam
bentuk kata dasar.
Menggunakan bahasa pemrograman Java
dengan bantuan tool NetBeans IDE 8.0.
Luaran (output) berupa software yang
menampilkan pola term dan hasil kemiripan
pada dokumen-dokumen uji dan digunakan
sebagai bahan pertimbangan untuk langkah
lebih lanjut.
Tujuan Membangun aplikasi sebagai interface sistem yang mampu
membandingkan kemiripan antar dokumen teks dengan
menggunakan pola term yang dihasilkan oleh LSA (Latent
Semantic Analysis) berdasarkan konsep model Bayesian.
Membentuk algoritma hasil kombinasi metode LSA dengan
model Bayesian untuk deteksi kemiripan antar dokumen teks.
Manfaat Modifikasi metode yang dilakukan dapat menambah kinerja
dan tingkat keakuratan metode untuk hasil deteksi kemiripan
dokumen yang lebih baik.
Sebagai salah satu referensi metode deteksi kemiripan antar
dokumen teks yang selanjutnya dapat digunakan untuk
langkah lebih lanjut, misalnya ke arah deteksi plagiat.
Tinjauan Pustaka Latent Semantic Analysis
Menemukan hubungan, keterkaitan, dan kemiripan antar
dokumen-dokumen dengan memanfaatkan komputasi
statistik untuk menggali dan merepresentasikan konteks
sebagai sebuah arti kata untuk sejumlah corpus yang
besar. Corpus adalah kumpulan teks yang memiliki
kesamaan subjek/tema.
Tinjauan PustakaContoh LSA
Tinjauan PustakaModel Bayesian
Model Bayesian disebut juga Bayesian Network, Bayes
Network, belief network, atau probabilistic directed acyclic
graphical model.
Sebuah model probabilitas grafikal (graphical model) yang
merepresentasikan variabel-variabel acak dengan
hubungan kondisionalnya (kebersyaratan kejadian) melalui
sebuah directed acyclic graph (DAG).
Tinjauan Pustaka Struktur Data Linked-List
Hasil modifikasi dari struktur data list dimana linked-list
memanfaatkan penggunaan pointer.
Kebutuhan memory pada linked-list bersifat dinamis.
Metode Penelitian
Penyusunan Laporan Tugas Akhir
Uji Coba dan Evaluasi Sistem
Menampilkan pola term pada setiap dokumen uji serta
melakukan maintenance pada aplikasi untuk mendapatkan
hasil aplikasi yang user friendly.
Implementasi Desain dan AlgoritmaSistem
Menerapkan algoritma serta fungsi-fungsi yang telah
didesain melalui tool NetBeans 8.0.
Data Uji
Dokumen teks (txt, doc,
docx) yang diujikan dengan
LSA dan Term hasil uji.
Desain dan Analisis Sistem
Implementasi linked-list untuk model
Bayesian pada term.
Mendefinisikan fungsi-fungsi yang
dibutuhkan untuk algoritma program
Studi Literatur
Metode LSA, model
Bayesian, Linked-List
Perancangan
Diagram Alur Aplikasidan Ruang LingkupPenulis
Statechart diagram pada
sistem
Sequence diagram pada
sistem
Data Uji Dokumen-1
Data Uji Dokumen-2
Data Uji Dokumen-3
Data Uji Dokumen-4
Data Uji Dokumen-5
Data Uji Dokumen-6
Data Term
Linked-list untuk pola term
kode term kata alamat next
Dalam bentuk urutan: T19 -> T2
Artinya -> T2 muncul didahului oleh T19
pada dokumen-1.txt di kalimat ke-1.
Pembentukan pola term
1. Filter Parent
Pembentukan pola term
(lanjutan)
2. Pengelompokan Pola Term Berdasarkan parent
Pembentukan pola term
(lanjutan)
3. Penggabungan Pola Term
Pembahasan Loading Data
Loading data yang ditempatkan di folder yang diakses oleh
aplikasi (folder data).
Pembahasan Pembentukan Pola Term
Scanning term dilakukan pada masing-masing dokumen teks
yang diuji untuk pembentukan pola (urutan) term yang ada
pada setiap kalimat pada dokumen-dokumen uji.
Pembahasan Pembentukan Pola Term
Proses pembentukan pola sekuensial pada termmenghasilkan pola term berbentuk urutan (sekuensial) kemunculan term yang terjadi di setiap kalimat pada setiapdokumen teks yang diuji.
Pola term yang terbentuk adalah sebagai berikut:
Dokumen-1.txt kalimat-1 = T19 T2 T1
Dokumen-1.txt kalimat-2 = T9 T7 T1 T2 T1 T3
Dokumen-1.txt kalimat-3 = T1 T4 T18 T9 T8 T8 T2
Dokumen-1.txt kalimat-4 = -
Dokumen-1.txt kalimat-5 = T1 T5 T7 T2 T18 T2 T5 T4 T3
Dokumen-2.docx kalimat-1 = T1 T4 T18 T9 T8 T8 T2
Dokumen-2.docx kalimat-2 = T1 T5 T7 T2 T18 T2 T5 T4 T3
Dokumen-2.docx kalimat-3 = T19 T2 T1
Dokumen-2.docx kalimat-4 = T9 T7 T1 T2 T1 T3
Dokumen-2.docx kalimat-5 = -
Dokumen-5.doc kalimat-1 = T10 T17 T12 T17 T16 T15 T11 T10
Dokumen-5.doc kalimat-2 = T12 T10 T15
Dokumen-5.doc kalimat-3 = T10 T19 T10
Dokumen-5.doc kalimat-4 = T10 T11 T11
Dokumen-5.doc kalimat-5 = T11 T10 T16 T14 T13
Dokumen-5.doc kalimat-6 = T12 T14 T13 T12 T13
Dokumen-5.doc kalimat-7 = T19 T2 T1
Dokumen-5.doc kalimat-8 = T9 T7 T1 T2 T1 T3
Dokumen-5.doc kalimat-9 = T1 T4 T18 T9 T8 T8 T2
Dokumen-5.doc kalimat-10 = -
Dokumen-5.doc kalimat-11 = T1 T5 T7 T2 T18 T2 T5 T4 T3
Pembahasan Display Pola Term
Pola term yang terbentuk, ditampilkan secara sekuensial.
Pembahasan Display Pola Term
Pola term yang terbentuk, ditampilkan secara visual.
Pembahasan Penilaian dan Hasil Kemiripan
Data pola term yang terbentuk pada masing-masingdokumen disimpan yang kemudian dijadikan acuan untukmenghitung presentase kemiripan antar dokumen uji.
𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗 𝑑𝑖𝑚𝑎𝑛𝑎 𝑖≠𝑗=
𝑗𝑚𝑙_𝑡𝑏(𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗)
𝑡𝑜𝑡_𝑡𝑒𝑟𝑚(𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗𝑥100%
Keterangan:
𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗 = nilai kemiripan antara dokumen-i dan
dokumen-j dimana i≠j.
𝑗𝑚𝑙_𝑡𝑏(𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗) = jumlah term yang sama secara berurutan
antara dokumen-i dan dokumen-j.
𝑡𝑜𝑡_𝑡𝑒𝑟𝑚(𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗) = total term pada dokumen-i dan dokumen-j.
Contoh Penghitungan
KemiripanDokumen-1.txt kalimat-1 = T19 T2 T1
Dokumen-1.txt kalimat-2 = T9 T7 T1 T2 T1 T3
Dokumen-1.txt kalimat-3 = T1 T4 T18 T9 T8 T8 T2
Dokumen-1.txt kalimat-4 = -
Dokumen-1.txt kalimat-5 = T1 T5 T7 T2 T18 T2 T5 T4 T3
Dokumen-5.doc kalimat-1 = T10 T17 T12 T17 T16 T15 T11 T10
Dokumen-5.doc kalimat-2 = T12 T10 T15
Dokumen-5.doc kalimat-3 = T10 T19 T10
Dokumen-5.doc kalimat-4 = T10 T11 T11
Dokumen-5.doc kalimat-5 = T11 T10 T16 T14 T13
Dokumen-5.doc kalimat-6 = T12 T14 T13 T12 T13
Dokumen-5.doc kalimat-7 = T19 T2 T1
Dokumen-5.doc kalimat-8 = T9 T7 T1 T2 T1 T3
Dokumen-5.doc kalimat-9 = T1 T4 T18 T9 T8 T8 T2
Dokumen-5.doc kalimat-10 = -
Dokumen-5.doc kalimat-11 = T1 T5 T7 T2 T18 T2 T5 T4 T3
Nama Dokumen Total Term
Dokumen-1.txt 25
Dokumen-5.doc 52
𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑑𝑜𝑐1, 𝑑𝑜𝑐5
=3 + 6 + 7 + 9 + (3 + 6 + 7 + 9)
25 + 52𝑥100%
=50
77𝑥100% = 𝟔𝟒. 𝟗𝟑𝟓𝟎%
Uji Pengacakan Dokumen
Dokumen-1.txt diacak sehingga urutan term berubah
dan dokumen menjadi tidak berarti, dinamakan
Dokumen-1a.txt. Kemudian pola term yang terbentuk
adalah sebagai berikut
Dokumen-1a.txt kalimat-1 = T1 T2 T5 T19
Dokumen-1a.txt kalimat-2 = T7 T1 T3 T2 T1
Dokumen-1a.txt kalimat-3 = T1 T9 T4 T18 T8 T9 T8 T2
Dokumen-1a.txt kalimat-4 = T2
Dokumen-1a.txt kalimat-5 = T1 T7 T3 T18 T2 T5 T4
Uji Pengacakan Dokumen
Kesimpulan
Deteksi kemiripan antar dokumen teks pada LSA (Latent Semantic Analysis) hanya mengacu padafrekuensi kata (term) yang ada di dokumen dantidak memperhatikan urutan tata letak kata sehingga struktur kalimat pada dokumendiabaikan, dan hal ini berpengaruh pada maknapada setiap dokumen yang diujikan.
Kombinasi metode LSA dengan model Bayesian yang mana model Bayesian berperan dalammenjaga urutan term yang secara tidak langsungberarti menjaga struktur kalimat yang ada padadokumen tersebut. Sehingga hasil deteksi kemiripanyang dihasilkan bisa lebih baik karena deteksikemiripan yang dilakukan tidak hanya mengacupada frekuensi term tetapi juga menjaga maknayang terkandung pada dokumen yang dibandingkan.
Daftar Pustaka [1] Kamus Besar Bahasa Indonesia Daring (Dalam Jaringan). 2008. http://bahasa.kemdiknas.go.id/kbbi/index.php.
Diakses tanggal 17 Juli 2014.
[2] Cosma, Georgina & Mike Joy. 2012. Evaluating the Performance of LSA for Source-code Plagiarism Detection. Journal of Informatica, Vol. 36, Hal. 409-424.
[3] Mozgovoy, Maxim, Tuomo Kakkonen & Georgina Cosma. 2010. Automatic Student Plagiarism Detection: Future Perspectives. Journal of Educational Computing Research, Vol. 43, Hal. 511-531.
[4] Cosma, Georgina. 2008. An Approach to Source-Code Plagiarism Detection and Investigation Using Latent Semantic Analysis. Thesis for Doctor of Philosophy in Computer Science, University of Warwick.
[5] Landauer, Thomas K., Peter W. Foltz & Darrell Laham. 1998. An Introduction to Latent Semantic Analysis. Department of Psychology, University of Colorado.
[6] Huang, Anna. 2009. Similarity Measures for Text Document Clustering. Department of Computer Science, The University of Waikato.
[7] Griffiths, Thomas L., Charles Kemp & Joshua B. Tenenbaum. 2006. “Bayesian Models of Cognition”. Journal of Annual Meeting of Cognitive Science Society, Vol.10, Issue 7.
[8] Murphy, Kevin. 1998. A Brief Introduction to Graphical Models and Bayesian Networks. http://www.cs.ubc.ca/~murphyk/Bayes/bnintro.html. Diakses tanggal 18 Juli 2014.
[9] Wikipedia. 2003. Directed Acyclic Graph. http://en.wikipedia.org/wiki/Directed_acyclic_graph. Diakses tanggal17 Juli 2014.
[10] Nirosh. 2013. Introduction to Object Oriented Programming (OOP) Concept and More. http://www.codeproject.com/Articles/22769/Introduction-to-Object-Oriented-Programming-Concep. Diaksestanggal 25 Juli 2014.
[11] Shaffer, Clifford A. 2012. Data Structures and Algorithm Analysis. Blackburg: Virginia Tech.
[12] JavaTM Platform Standard 8. Class DefaultMutableTreeNode. http://docs.oracle.com/javase/8/docs/api/javax/swing/tree/DefaultMutableTreeNode.html. Diakses tanggal 17 Juli2014.
[13] Kasim, Steven. 2012. Pembuatan Aplikasi untuk Mendeteksi Plagiarisme dengan Metode Latent Semantic Analysis. Tugas Akhir-Universitas Surabaya, Surabaya.
Terima Kasih!