Download - “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN …digilib.its.ac.id/public/ITS-paper-40166-1210100027-presentation.pdf · Sequence diagram pada sistem. Data Uji Dokumen-1. Data Uji Dokumen-2

“Sistem Deteksi Kemiripan antar Dokumen

Teks Menggunakan Model Bayesian pada

Term Latent Semantic Analysis (LSA)”

Oleh:

Danang Wahyu Wicaksono

(1210100027)

Pembimbing:

1. Prof. DR. Mohammad Isa Irawan, MT

2. Alvida Mustika Rukmi, S.Si, M.Si

Tugas Akhir

Yang Akan Dipaparkan

Manfaat4

Latar Belakang1

Permasalahan2

Tujuan3

Tinjauan Pustaka5

Metode Penelitian6

Pembahasan7

Latar Belakang

DOC A

DOC B

DOC C

Copy-

Paste

VALIDASI

Latar Belakang

LSA Kemampuan Menemukan hubungan, keterkaitan,

dan kemiripan antar dokumen-

dokumen dengan memanfaatkan

komputasi statistik untuk menggali

dan merepresentasikan konteks yang

digunakan sebagai sebuah arti kata.

Ke

lem

ah

an

Tidak memperhatikan

urutan tata letak kataMakna???

Source :

Landauer, Thomas K., Peter W. Foltz & Darrell Laham. 1998. “An Introduction to Latent Semantic Analysis”.

Department of Psychology, University of Colorado. (page 5 of 41 )

Permasalahan

Cara kerja aplikasi?

Hasil yang didapatkan?

Batasan Masalah

File dokumen teks berbahasa Indonesia dalam

format doc, docx, dan txt.

Model Bayesian digunakan pada term yang

dihasilkan oleh LSA dari dokumen uji sebagai

kejadian (event) bersyarat untuk pembentukan

pola (urutan) term.

Kata yang diproses dari dokumen adalah dalam

bentuk kata dasar.

Menggunakan bahasa pemrograman Java

dengan bantuan tool NetBeans IDE 8.0.

Luaran (output) berupa software yang

menampilkan pola term dan hasil kemiripan

pada dokumen-dokumen uji dan digunakan

sebagai bahan pertimbangan untuk langkah

lebih lanjut.

Tujuan Membangun aplikasi sebagai interface sistem yang mampu

membandingkan kemiripan antar dokumen teks dengan

menggunakan pola term yang dihasilkan oleh LSA (Latent

Semantic Analysis) berdasarkan konsep model Bayesian.

Membentuk algoritma hasil kombinasi metode LSA dengan

model Bayesian untuk deteksi kemiripan antar dokumen teks.

Manfaat Modifikasi metode yang dilakukan dapat menambah kinerja

dan tingkat keakuratan metode untuk hasil deteksi kemiripan

dokumen yang lebih baik.

Sebagai salah satu referensi metode deteksi kemiripan antar

dokumen teks yang selanjutnya dapat digunakan untuk

langkah lebih lanjut, misalnya ke arah deteksi plagiat.

Tinjauan Pustaka Latent Semantic Analysis

Menemukan hubungan, keterkaitan, dan kemiripan antar

dokumen-dokumen dengan memanfaatkan komputasi

statistik untuk menggali dan merepresentasikan konteks

sebagai sebuah arti kata untuk sejumlah corpus yang

besar. Corpus adalah kumpulan teks yang memiliki

kesamaan subjek/tema.

Tinjauan PustakaContoh LSA

Tinjauan PustakaModel Bayesian

Model Bayesian disebut juga Bayesian Network, Bayes

Network, belief network, atau probabilistic directed acyclic

graphical model.

Sebuah model probabilitas grafikal (graphical model) yang

merepresentasikan variabel-variabel acak dengan

hubungan kondisionalnya (kebersyaratan kejadian) melalui

sebuah directed acyclic graph (DAG).

Tinjauan Pustaka Struktur Data Linked-List

Hasil modifikasi dari struktur data list dimana linked-list

memanfaatkan penggunaan pointer.

Kebutuhan memory pada linked-list bersifat dinamis.

Metode Penelitian

Penyusunan Laporan Tugas Akhir

Uji Coba dan Evaluasi Sistem

Menampilkan pola term pada setiap dokumen uji serta

melakukan maintenance pada aplikasi untuk mendapatkan

hasil aplikasi yang user friendly.

Implementasi Desain dan AlgoritmaSistem

Menerapkan algoritma serta fungsi-fungsi yang telah

didesain melalui tool NetBeans 8.0.

Data Uji

Dokumen teks (txt, doc,

docx) yang diujikan dengan

LSA dan Term hasil uji.

Desain dan Analisis Sistem

Implementasi linked-list untuk model

Bayesian pada term.

Mendefinisikan fungsi-fungsi yang

dibutuhkan untuk algoritma program

Studi Literatur

Metode LSA, model

Bayesian, Linked-List

Perancangan

Diagram Alur Aplikasidan Ruang LingkupPenulis

Statechart diagram pada

sistem

Sequence diagram pada

sistem

Data Uji Dokumen-1

Data Uji Dokumen-2

Data Uji Dokumen-3

Data Uji Dokumen-4

Data Uji Dokumen-5

Data Uji Dokumen-6

Data Term

Linked-list untuk pola term

kode term kata alamat next

Dalam bentuk urutan: T19 -> T2

Artinya -> T2 muncul didahului oleh T19

pada dokumen-1.txt di kalimat ke-1.

Pembentukan pola term

1. Filter Parent


(lanjutan)

2. Pengelompokan Pola Term Berdasarkan parent


(lanjutan)

3. Penggabungan Pola Term

Pembahasan Loading Data

Loading data yang ditempatkan di folder yang diakses oleh

aplikasi (folder data).

Pembahasan Pembentukan Pola Term

Scanning term dilakukan pada masing-masing dokumen teks

yang diuji untuk pembentukan pola (urutan) term yang ada

pada setiap kalimat pada dokumen-dokumen uji.

Pembahasan Pembentukan Pola Term

Proses pembentukan pola sekuensial pada termmenghasilkan pola term berbentuk urutan (sekuensial) kemunculan term yang terjadi di setiap kalimat pada setiapdokumen teks yang diuji.

Pola term yang terbentuk adalah sebagai berikut:

Dokumen-1.txt kalimat-1 = T19 T2 T1

Dokumen-1.txt kalimat-2 = T9 T7 T1 T2 T1 T3

Dokumen-1.txt kalimat-3 = T1 T4 T18 T9 T8 T8 T2

Dokumen-1.txt kalimat-4 = -

Dokumen-1.txt kalimat-5 = T1 T5 T7 T2 T18 T2 T5 T4 T3

Dokumen-2.docx kalimat-1 = T1 T4 T18 T9 T8 T8 T2

Dokumen-2.docx kalimat-2 = T1 T5 T7 T2 T18 T2 T5 T4 T3

Dokumen-2.docx kalimat-3 = T19 T2 T1

Dokumen-2.docx kalimat-4 = T9 T7 T1 T2 T1 T3

Dokumen-2.docx kalimat-5 = -

Dokumen-5.doc kalimat-1 = T10 T17 T12 T17 T16 T15 T11 T10

Dokumen-5.doc kalimat-2 = T12 T10 T15



Dokumen-5.doc kalimat-5 = T11 T10 T16 T14 T13



Dokumen-5.doc kalimat-8 = T9 T7 T1 T2 T1 T3

Dokumen-5.doc kalimat-9 = T1 T4 T18 T9 T8 T8 T2

Dokumen-5.doc kalimat-10 = -

Dokumen-5.doc kalimat-11 = T1 T5 T7 T2 T18 T2 T5 T4 T3

Pembahasan Display Pola Term

Pola term yang terbentuk, ditampilkan secara sekuensial.

Pembahasan Display Pola Term

Pola term yang terbentuk, ditampilkan secara visual.

Pembahasan Penilaian dan Hasil Kemiripan

Data pola term yang terbentuk pada masing-masingdokumen disimpan yang kemudian dijadikan acuan untukmenghitung presentase kemiripan antar dokumen uji.

𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗 𝑑𝑖𝑚𝑎𝑛𝑎 𝑖≠𝑗=

𝑗𝑚𝑙_𝑡𝑏(𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗)

𝑡𝑜𝑡_𝑡𝑒𝑟𝑚(𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗𝑥100%

Keterangan:

𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗 = nilai kemiripan antara dokumen-i dan

dokumen-j dimana i≠j.

𝑗𝑚𝑙_𝑡𝑏(𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗) = jumlah term yang sama secara berurutan

antara dokumen-i dan dokumen-j.

𝑡𝑜𝑡_𝑡𝑒𝑟𝑚(𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗) = total term pada dokumen-i dan dokumen-j.

Contoh Penghitungan

KemiripanDokumen-1.txt kalimat-1 = T19 T2 T1

Dokumen-1.txt kalimat-2 = T9 T7 T1 T2 T1 T3

Dokumen-1.txt kalimat-3 = T1 T4 T18 T9 T8 T8 T2

Dokumen-1.txt kalimat-4 = -

Dokumen-1.txt kalimat-5 = T1 T5 T7 T2 T18 T2 T5 T4 T3

Dokumen-5.doc kalimat-1 = T10 T17 T12 T17 T16 T15 T11 T10







Dokumen-5.doc kalimat-8 = T9 T7 T1 T2 T1 T3

Dokumen-5.doc kalimat-9 = T1 T4 T18 T9 T8 T8 T2

Dokumen-5.doc kalimat-10 = -

Dokumen-5.doc kalimat-11 = T1 T5 T7 T2 T18 T2 T5 T4 T3

Nama Dokumen Total Term

Dokumen-1.txt 25

Dokumen-5.doc 52

𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑑𝑜𝑐1, 𝑑𝑜𝑐5

=3 + 6 + 7 + 9 + (3 + 6 + 7 + 9)

25 + 52𝑥100%

=50

77𝑥100% = 𝟔𝟒. 𝟗𝟑𝟓𝟎%

Uji Pengacakan Dokumen

Dokumen-1.txt diacak sehingga urutan term berubah

dan dokumen menjadi tidak berarti, dinamakan

Dokumen-1a.txt. Kemudian pola term yang terbentuk

adalah sebagai berikut

Dokumen-1a.txt kalimat-1 = T1 T2 T5 T19

Dokumen-1a.txt kalimat-2 = T7 T1 T3 T2 T1

Dokumen-1a.txt kalimat-3 = T1 T9 T4 T18 T8 T9 T8 T2

Dokumen-1a.txt kalimat-4 = T2

Dokumen-1a.txt kalimat-5 = T1 T7 T3 T18 T2 T5 T4

Uji Pengacakan Dokumen

Kesimpulan

Deteksi kemiripan antar dokumen teks pada LSA (Latent Semantic Analysis) hanya mengacu padafrekuensi kata (term) yang ada di dokumen dantidak memperhatikan urutan tata letak kata sehingga struktur kalimat pada dokumendiabaikan, dan hal ini berpengaruh pada maknapada setiap dokumen yang diujikan.

Kombinasi metode LSA dengan model Bayesian yang mana model Bayesian berperan dalammenjaga urutan term yang secara tidak langsungberarti menjaga struktur kalimat yang ada padadokumen tersebut. Sehingga hasil deteksi kemiripanyang dihasilkan bisa lebih baik karena deteksikemiripan yang dilakukan tidak hanya mengacupada frekuensi term tetapi juga menjaga maknayang terkandung pada dokumen yang dibandingkan.

Daftar Pustaka [1] Kamus Besar Bahasa Indonesia Daring (Dalam Jaringan). 2008. http://bahasa.kemdiknas.go.id/kbbi/index.php.

Diakses tanggal 17 Juli 2014.

[2] Cosma, Georgina & Mike Joy. 2012. Evaluating the Performance of LSA for Source-code Plagiarism Detection. Journal of Informatica, Vol. 36, Hal. 409-424.

[3] Mozgovoy, Maxim, Tuomo Kakkonen & Georgina Cosma. 2010. Automatic Student Plagiarism Detection: Future Perspectives. Journal of Educational Computing Research, Vol. 43, Hal. 511-531.

[4] Cosma, Georgina. 2008. An Approach to Source-Code Plagiarism Detection and Investigation Using Latent Semantic Analysis. Thesis for Doctor of Philosophy in Computer Science, University of Warwick.

[5] Landauer, Thomas K., Peter W. Foltz & Darrell Laham. 1998. An Introduction to Latent Semantic Analysis. Department of Psychology, University of Colorado.

[6] Huang, Anna. 2009. Similarity Measures for Text Document Clustering. Department of Computer Science, The University of Waikato.

[7] Griffiths, Thomas L., Charles Kemp & Joshua B. Tenenbaum. 2006. “Bayesian Models of Cognition”. Journal of Annual Meeting of Cognitive Science Society, Vol.10, Issue 7.

[8] Murphy, Kevin. 1998. A Brief Introduction to Graphical Models and Bayesian Networks. http://www.cs.ubc.ca/~murphyk/Bayes/bnintro.html. Diakses tanggal 18 Juli 2014.

[9] Wikipedia. 2003. Directed Acyclic Graph. http://en.wikipedia.org/wiki/Directed_acyclic_graph. Diakses tanggal17 Juli 2014.

[10] Nirosh. 2013. Introduction to Object Oriented Programming (OOP) Concept and More. http://www.codeproject.com/Articles/22769/Introduction-to-Object-Oriented-Programming-Concep. Diaksestanggal 25 Juli 2014.

[11] Shaffer, Clifford A. 2012. Data Structures and Algorithm Analysis. Blackburg: Virginia Tech.

[12] JavaTM Platform Standard 8. Class DefaultMutableTreeNode. http://docs.oracle.com/javase/8/docs/api/javax/swing/tree/DefaultMutableTreeNode.html. Diakses tanggal 17 Juli2014.

[13] Kasim, Steven. 2012. Pembuatan Aplikasi untuk Mendeteksi Plagiarisme dengan Metode Latent Semantic Analysis. Tugas Akhir-Universitas Surabaya, Surabaya.

Terima Kasih!

Download - “APLIKASI DETEKSI KEMIRIPAN ANTAR DOKUMEN …digilib.its.ac.id/public/ITS-paper-40166-1210100027-presentation.pdf · Sequence diagram pada sistem. Data Uji Dokumen-1. Data Uji Dokumen-2

Top Related