“aplikasi deteksi kemiripan antar dokumen teks … · hasil modifikasi dari struktur data list...

39
“Sistem Deteksi Kemiripan antar Dokumen Teks Menggunakan Model Bayesian pada Term Latent Semantic Analysis (LSA)” Oleh: Danang Wahyu Wicaksono (1210100027) Pembimbing: 1. Prof . DR. Mohammad Isa Irawan, MT 2. Alvida Mustika Rukmi, S.Si, M.Si Tugas Akhir

Upload: trandat

Post on 14-Mar-2019

241 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

“Sistem Deteksi Kemiripan antar Dokumen

Teks Menggunakan Model Bayesian pada

Term Latent Semantic Analysis (LSA)”

Oleh:

Danang Wahyu Wicaksono

(1210100027)

Pembimbing:

1. Prof. DR. Mohammad Isa Irawan, MT

2. Alvida Mustika Rukmi, S.Si, M.Si

Tugas Akhir

Page 2: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Yang Akan Dipaparkan

Manfaat4

Latar Belakang1

Permasalahan2

Tujuan3

Tinjauan Pustaka5

Metode Penelitian6

Pembahasan7

Page 3: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Latar Belakang

DOC A

DOC B

DOC C

Copy-

Paste

VALIDASI

Page 4: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Latar Belakang

LSA Kemampuan Menemukan hubungan, keterkaitan,

dan kemiripan antar dokumen-

dokumen dengan memanfaatkan

komputasi statistik untuk menggali

dan merepresentasikan konteks yang

digunakan sebagai sebuah arti kata.

Ke

lem

ah

an

Tidak memperhatikan

urutan tata letak kataMakna???

Source :

Landauer, Thomas K., Peter W. Foltz & Darrell Laham. 1998. “An Introduction to Latent Semantic Analysis”.

Department of Psychology, University of Colorado. (page 5 of 41 )

Page 5: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Permasalahan

Cara kerja aplikasi?

Hasil yang didapatkan?

Page 6: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Batasan Masalah

File dokumen teks berbahasa Indonesia dalam

format doc, docx, dan txt.

Model Bayesian digunakan pada term yang

dihasilkan oleh LSA dari dokumen uji sebagai

kejadian (event) bersyarat untuk pembentukan

pola (urutan) term.

Kata yang diproses dari dokumen adalah dalam

bentuk kata dasar.

Menggunakan bahasa pemrograman Java

dengan bantuan tool NetBeans IDE 8.0.

Luaran (output) berupa software yang

menampilkan pola term dan hasil kemiripan

pada dokumen-dokumen uji dan digunakan

sebagai bahan pertimbangan untuk langkah

lebih lanjut.

Page 7: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Tujuan Membangun aplikasi sebagai interface sistem yang mampu

membandingkan kemiripan antar dokumen teks dengan

menggunakan pola term yang dihasilkan oleh LSA (Latent

Semantic Analysis) berdasarkan konsep model Bayesian.

Membentuk algoritma hasil kombinasi metode LSA dengan

model Bayesian untuk deteksi kemiripan antar dokumen teks.

Page 8: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Manfaat Modifikasi metode yang dilakukan dapat menambah kinerja

dan tingkat keakuratan metode untuk hasil deteksi kemiripan

dokumen yang lebih baik.

Sebagai salah satu referensi metode deteksi kemiripan antar

dokumen teks yang selanjutnya dapat digunakan untuk

langkah lebih lanjut, misalnya ke arah deteksi plagiat.

Page 9: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Tinjauan Pustaka Latent Semantic Analysis

Menemukan hubungan, keterkaitan, dan kemiripan antar

dokumen-dokumen dengan memanfaatkan komputasi

statistik untuk menggali dan merepresentasikan konteks

sebagai sebuah arti kata untuk sejumlah corpus yang

besar. Corpus adalah kumpulan teks yang memiliki

kesamaan subjek/tema.

Page 10: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Tinjauan PustakaContoh LSA

Page 11: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Tinjauan PustakaModel Bayesian

Model Bayesian disebut juga Bayesian Network, Bayes

Network, belief network, atau probabilistic directed acyclic

graphical model.

Sebuah model probabilitas grafikal (graphical model) yang

merepresentasikan variabel-variabel acak dengan

hubungan kondisionalnya (kebersyaratan kejadian) melalui

sebuah directed acyclic graph (DAG).

Page 12: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Tinjauan Pustaka Struktur Data Linked-List

Hasil modifikasi dari struktur data list dimana linked-list

memanfaatkan penggunaan pointer.

Kebutuhan memory pada linked-list bersifat dinamis.

Page 13: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Metode Penelitian

Penyusunan Laporan Tugas Akhir

Uji Coba dan Evaluasi Sistem

Menampilkan pola term pada setiap dokumen uji serta

melakukan maintenance pada aplikasi untuk mendapatkan

hasil aplikasi yang user friendly.

Implementasi Desain dan AlgoritmaSistem

Menerapkan algoritma serta fungsi-fungsi yang telah

didesain melalui tool NetBeans 8.0.

Data Uji

Dokumen teks (txt, doc,

docx) yang diujikan dengan

LSA dan Term hasil uji.

Desain dan Analisis Sistem

Implementasi linked-list untuk model

Bayesian pada term.

Mendefinisikan fungsi-fungsi yang

dibutuhkan untuk algoritma program

Studi Literatur

Metode LSA, model

Bayesian, Linked-List

Page 14: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Perancangan

Diagram Alur Aplikasidan Ruang LingkupPenulis

Page 15: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Statechart diagram pada

sistem

Page 16: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Sequence diagram pada

sistem

Page 17: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Data Uji Dokumen-1

Page 18: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Data Uji Dokumen-2

Page 19: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Data Uji Dokumen-3

Page 20: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Data Uji Dokumen-4

Page 21: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Data Uji Dokumen-5

Page 22: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Data Uji Dokumen-6

Page 23: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Data Term

Page 24: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Linked-list untuk pola term

kode term kata alamat next

Dalam bentuk urutan: T19 -> T2

Artinya -> T2 muncul didahului oleh T19

pada dokumen-1.txt di kalimat ke-1.

Page 25: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Pembentukan pola term

1. Filter Parent

Page 26: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Pembentukan pola term

(lanjutan)

2. Pengelompokan Pola Term Berdasarkan parent

Page 27: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Pembentukan pola term

(lanjutan)

3. Penggabungan Pola Term

Page 28: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Pembahasan Loading Data

Loading data yang ditempatkan di folder yang diakses oleh

aplikasi (folder data).

Page 29: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Pembahasan Pembentukan Pola Term

Scanning term dilakukan pada masing-masing dokumen teks

yang diuji untuk pembentukan pola (urutan) term yang ada

pada setiap kalimat pada dokumen-dokumen uji.

Page 30: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Pembahasan Pembentukan Pola Term

Proses pembentukan pola sekuensial pada termmenghasilkan pola term berbentuk urutan (sekuensial) kemunculan term yang terjadi di setiap kalimat pada setiapdokumen teks yang diuji.

Pola term yang terbentuk adalah sebagai berikut:

Dokumen-1.txt kalimat-1 = T19 T2 T1

Dokumen-1.txt kalimat-2 = T9 T7 T1 T2 T1 T3

Dokumen-1.txt kalimat-3 = T1 T4 T18 T9 T8 T8 T2

Dokumen-1.txt kalimat-4 = -

Dokumen-1.txt kalimat-5 = T1 T5 T7 T2 T18 T2 T5 T4 T3

Dokumen-2.docx kalimat-1 = T1 T4 T18 T9 T8 T8 T2

Dokumen-2.docx kalimat-2 = T1 T5 T7 T2 T18 T2 T5 T4 T3

Dokumen-2.docx kalimat-3 = T19 T2 T1

Dokumen-2.docx kalimat-4 = T9 T7 T1 T2 T1 T3

Dokumen-2.docx kalimat-5 = -

Dokumen-5.doc kalimat-1 = T10 T17 T12 T17 T16 T15 T11 T10

Dokumen-5.doc kalimat-2 = T12 T10 T15

Dokumen-5.doc kalimat-3 = T10 T19 T10

Dokumen-5.doc kalimat-4 = T10 T11 T11

Dokumen-5.doc kalimat-5 = T11 T10 T16 T14 T13

Dokumen-5.doc kalimat-6 = T12 T14 T13 T12 T13

Dokumen-5.doc kalimat-7 = T19 T2 T1

Dokumen-5.doc kalimat-8 = T9 T7 T1 T2 T1 T3

Dokumen-5.doc kalimat-9 = T1 T4 T18 T9 T8 T8 T2

Dokumen-5.doc kalimat-10 = -

Dokumen-5.doc kalimat-11 = T1 T5 T7 T2 T18 T2 T5 T4 T3

Page 31: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Pembahasan Display Pola Term

Pola term yang terbentuk, ditampilkan secara sekuensial.

Page 32: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Pembahasan Display Pola Term

Pola term yang terbentuk, ditampilkan secara visual.

Page 33: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Pembahasan Penilaian dan Hasil Kemiripan

Data pola term yang terbentuk pada masing-masingdokumen disimpan yang kemudian dijadikan acuan untukmenghitung presentase kemiripan antar dokumen uji.

𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗 𝑑𝑖𝑚𝑎𝑛𝑎 𝑖≠𝑗=

𝑗𝑚𝑙_𝑡𝑏(𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗)

𝑡𝑜𝑡_𝑡𝑒𝑟𝑚(𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗𝑥100%

Keterangan:

𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗 = nilai kemiripan antara dokumen-i dan

dokumen-j dimana i≠j.

𝑗𝑚𝑙_𝑡𝑏(𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗) = jumlah term yang sama secara berurutan

antara dokumen-i dan dokumen-j.

𝑡𝑜𝑡_𝑡𝑒𝑟𝑚(𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗) = total term pada dokumen-i dan dokumen-j.

Page 34: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Contoh Penghitungan

KemiripanDokumen-1.txt kalimat-1 = T19 T2 T1

Dokumen-1.txt kalimat-2 = T9 T7 T1 T2 T1 T3

Dokumen-1.txt kalimat-3 = T1 T4 T18 T9 T8 T8 T2

Dokumen-1.txt kalimat-4 = -

Dokumen-1.txt kalimat-5 = T1 T5 T7 T2 T18 T2 T5 T4 T3

Dokumen-5.doc kalimat-1 = T10 T17 T12 T17 T16 T15 T11 T10

Dokumen-5.doc kalimat-2 = T12 T10 T15

Dokumen-5.doc kalimat-3 = T10 T19 T10

Dokumen-5.doc kalimat-4 = T10 T11 T11

Dokumen-5.doc kalimat-5 = T11 T10 T16 T14 T13

Dokumen-5.doc kalimat-6 = T12 T14 T13 T12 T13

Dokumen-5.doc kalimat-7 = T19 T2 T1

Dokumen-5.doc kalimat-8 = T9 T7 T1 T2 T1 T3

Dokumen-5.doc kalimat-9 = T1 T4 T18 T9 T8 T8 T2

Dokumen-5.doc kalimat-10 = -

Dokumen-5.doc kalimat-11 = T1 T5 T7 T2 T18 T2 T5 T4 T3

Nama Dokumen Total Term

Dokumen-1.txt 25

Dokumen-5.doc 52

𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑑𝑜𝑐1, 𝑑𝑜𝑐5

=3 + 6 + 7 + 9 + (3 + 6 + 7 + 9)

25 + 52𝑥100%

=50

77𝑥100% = 𝟔𝟒. 𝟗𝟑𝟓𝟎%

Page 35: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Uji Pengacakan Dokumen

Dokumen-1.txt diacak sehingga urutan term berubah

dan dokumen menjadi tidak berarti, dinamakan

Dokumen-1a.txt. Kemudian pola term yang terbentuk

adalah sebagai berikut

Dokumen-1a.txt kalimat-1 = T1 T2 T5 T19

Dokumen-1a.txt kalimat-2 = T7 T1 T3 T2 T1

Dokumen-1a.txt kalimat-3 = T1 T9 T4 T18 T8 T9 T8 T2

Dokumen-1a.txt kalimat-4 = T2

Dokumen-1a.txt kalimat-5 = T1 T7 T3 T18 T2 T5 T4

Page 36: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Uji Pengacakan Dokumen

Page 37: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Kesimpulan

Deteksi kemiripan antar dokumen teks pada LSA (Latent Semantic Analysis) hanya mengacu padafrekuensi kata (term) yang ada di dokumen dantidak memperhatikan urutan tata letak kata sehingga struktur kalimat pada dokumendiabaikan, dan hal ini berpengaruh pada maknapada setiap dokumen yang diujikan.

Kombinasi metode LSA dengan model Bayesian yang mana model Bayesian berperan dalammenjaga urutan term yang secara tidak langsungberarti menjaga struktur kalimat yang ada padadokumen tersebut. Sehingga hasil deteksi kemiripanyang dihasilkan bisa lebih baik karena deteksikemiripan yang dilakukan tidak hanya mengacupada frekuensi term tetapi juga menjaga maknayang terkandung pada dokumen yang dibandingkan.

Page 38: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Daftar Pustaka [1] Kamus Besar Bahasa Indonesia Daring (Dalam Jaringan). 2008. http://bahasa.kemdiknas.go.id/kbbi/index.php.

Diakses tanggal 17 Juli 2014.

[2] Cosma, Georgina & Mike Joy. 2012. Evaluating the Performance of LSA for Source-code Plagiarism Detection. Journal of Informatica, Vol. 36, Hal. 409-424.

[3] Mozgovoy, Maxim, Tuomo Kakkonen & Georgina Cosma. 2010. Automatic Student Plagiarism Detection: Future Perspectives. Journal of Educational Computing Research, Vol. 43, Hal. 511-531.

[4] Cosma, Georgina. 2008. An Approach to Source-Code Plagiarism Detection and Investigation Using Latent Semantic Analysis. Thesis for Doctor of Philosophy in Computer Science, University of Warwick.

[5] Landauer, Thomas K., Peter W. Foltz & Darrell Laham. 1998. An Introduction to Latent Semantic Analysis. Department of Psychology, University of Colorado.

[6] Huang, Anna. 2009. Similarity Measures for Text Document Clustering. Department of Computer Science, The University of Waikato.

[7] Griffiths, Thomas L., Charles Kemp & Joshua B. Tenenbaum. 2006. “Bayesian Models of Cognition”. Journal of Annual Meeting of Cognitive Science Society, Vol.10, Issue 7.

[8] Murphy, Kevin. 1998. A Brief Introduction to Graphical Models and Bayesian Networks. http://www.cs.ubc.ca/~murphyk/Bayes/bnintro.html. Diakses tanggal 18 Juli 2014.

[9] Wikipedia. 2003. Directed Acyclic Graph. http://en.wikipedia.org/wiki/Directed_acyclic_graph. Diakses tanggal17 Juli 2014.

[10] Nirosh. 2013. Introduction to Object Oriented Programming (OOP) Concept and More. http://www.codeproject.com/Articles/22769/Introduction-to-Object-Oriented-Programming-Concep. Diaksestanggal 25 Juli 2014.

[11] Shaffer, Clifford A. 2012. Data Structures and Algorithm Analysis. Blackburg: Virginia Tech.

[12] JavaTM Platform Standard 8. Class DefaultMutableTreeNode. http://docs.oracle.com/javase/8/docs/api/javax/swing/tree/DefaultMutableTreeNode.html. Diakses tanggal 17 Juli2014.

[13] Kasim, Steven. 2012. Pembuatan Aplikasi untuk Mendeteksi Plagiarisme dengan Metode Latent Semantic Analysis. Tugas Akhir-Universitas Surabaya, Surabaya.

Page 39: “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN TEKS … · Hasil modifikasi dari struktur data list dimana linked-list ... Penyusunan Laporan Tugas Akhir

Terima Kasih!