rancang bangun modul pengkategorian topik dan ... · dasar teori phpbb php-nlp-tools klasifikasi...
TRANSCRIPT
RANCANG BANGUN MODUL PENGKATEGORIAN TOPIK DAN PENGELOMPOKKAN TOPIK DENGAN KLUSTER DARI
APLIKASI FORUM phpBB3 SECARA OTOMATIS.
ARTHUR HOLONG P.N. 5110100090
Dosen Pembimbing :Daniel Oranova Siahaan , S.Kom, M.Sc, Pd.EngNurul Fajrin Ariyani, S.Kom, M.Sc
Latar BelakangPengetahuan sangat penting bagi perekayasa untuk membantu pekerjaan.
Pengetahuan yang dimiliki oleh perekayasa jarang didokumentasikan untuk suatu perusahaan
Perekayasa yang baru dalam suatu perusahaan tidak mengetahui pengetahuan yang dimiliki oleh perekayasa yang lama
Tujuan Membangun sistem manajemen pengetahuan untuk perekayasa dengan menggunakan aplikasi forum
Rumusan Masalah1. Bagaimana sistem dapat mendapatkan pengetahuan yang terdapat pada
topik
2. Bagaimana sistem dapat mengelompokkan topik sesuai pengetahuannya
3. Bagaimana sistem dapat menemukan informasi yang relevan
4. Bagaimana membangun sistem manajemen pengetahuan untuk perekayasa
Batasan Masalah1. bahasa pemrograman menggunakan bahasa PHP.
2. aplikasi forum yang digunakan menggunakan aplikasi web template.
3. informasi yang digunakan menggunakan bahasa Inggris.
4. data uji yang digunakan berasal dari forum untuk perekayasa.
Dasar TeoriPhpbb
Php-nlp-tools
Klasifikasi
Clustering
phpBBphpBB adalah aplikasi forum yang berbasis web dan versi yang paling terakhir adalah versi 3. Aplikasi ini bersifat open source dan dapat diunduh dari situs web phpbb.com.
Aplikasi tersebut sudah menyediakan fitur-fitur dasar dari penggunaan forum seperti membuat topik.
Php-nlp-toolsSalah satu library yang menggunakan bahasa pemrograman php. Library ini dapat melakukan proses yang berhubungan dengan pemprosesan bahasa natural atau natural language process.
Library ini digunakan untuk melakukan proses klasifikasi dan clustering pada sistem.
KlasifikasiKlasifikasi adalah proses menentukan kelas terhadap suatu dokumen atau data. Pada sistem ini, proses klasifikasi digunakan untuk menentukan forum dari topik yang baru di buat.
Klasifikasi menggunakan metode Naive Bayes yang terdapat pada library php-nlp-tools.
ClusteringClustering adalah proses pengelompokkan beberapa data. Jumlah kelompok pada data dapat ditentukan oleh pengguna. Dalam sistem ini, proses clustering digunakan untuk membuat forum baru dengan menggunakan topik-topik yang sudah ada. Topik akan dikelompokkan dan jumlah kelompok dapat ditentukan oleh pengguna.
Clustering menggunakan metode K-Means yang terdapat pada library php-nlp-tools.
Arsitektur Sistem
Diagram Alir DataKonteks diagram
Pengguna Perekayasa
Pengguna Admin
Pengguna Admin(2)
Implementasi Klasifikasi Topik
Implementasi Klasifikasi Topik(2)◦ Klasifikasi dilakukan
terhadap topik baru.
◦ Proses klasifikasi dilakukan pada modul klasifikasi dan kluster
◦ Database model di dapat dari proses latih data
Latih Data◦ Menyimpan nilai-nilai
probabilitas untuk menentukan klasifikasi
◦ Data disimpan ke Database Model
Implementasi Pengelompokkan Topik
◦ Dilakukan oleh pengguna admin
◦ Proses clustering dilakukan pada modul klasifikasi dan kluster
◦ Pengguna dapat menentukan judul forum yang tepat untuk kelompok topik
◦ Jumlah cluster dapat ditentukan oleh pengguna admin
Proses Clustering◦ Proses ini terjadi pada
modul klasifikasi dan kluster
◦ Database temporary hanya untuk menampung sementara topik yang dikelompokkan sebelum ditentukan oleh admin.
Implementasi Pengelompokkan Topik(2)
Implementasi Pengelompokkan Topik(3)
Pengujian dan Evaluasi
Data Uji CobaData yang digunakan untuk uji coba diambil dari situs forum ‘phpbb.com’. Forum tersebut berdiskusi tentang aplikasi forum phpBB.
Nama Forum Jumlah Topik Jumlah PostGeneral 50 253
Modification 50 256Styles 50 234
Support 50 257Total 200 1000
Pengujian FungsionalitasID PF-0001
Nama Pengujian fitur pengkategorian topik
Tujuan Pengujian Menguji fitur untuk menampilkan topik yang dikategorikanoleh sistem
Kondisi Awal Telah dilakukan latih data sebagai dasar sistem untukmengkategorikan topik
Data Uji Data uji berupa topik yang berasal dari forum di situs webphpBB
Langkah Pengujian Pengguna mencoba memasukkan topik tanpa memilih forumterlebih dahulu
Hasil Yang Diharapkan Topik yang dimasukkan berhasil ditampilkan oleh sistem
Hasil Yang Didapat Topik yang dimasukkan berhasil ditampilkan oleh sistem.
Hasil Pengujian Berhasil
Kondisi Akhir Tampilan topik yang baru dimasukkan oleh pengguna.
Pengujian Fungsionalitas (2)ID PF-0002
Nama Pengujian fitur pengelompokkan topik
Tujuan Pengujian Menguji fitur untuk menampilkan topik yang dikelompokkanoleh sistem
Kondisi Awal Topik yang dikelompokkan sudah memiliki forum
Data Uji Data uji berupa topik yang berasal dari forum di situs web phpBB
Langkah Pengujian Pengguna mencoba meminta sistem untuk melakukanpengelompokkan topik dengan memberi masukan berupa 4kluster
Hasil Yang Diharapkan Topik yang dikelompokkan berhasil ditampilkan oleh sistemdengan forum baru, yang sebelumnya dikelompokkan olehsistem
Hasil Yang Didapat Topik yang dikelompokkan berhasil ditampilkan oleh sistemdengan forum baru, yang sebelumnya dikelompokkan olehsistem
Hasil Pengujian Berhasil
Kondisi Akhir Tampilan forum-forum baru sesuai dengan jumlah yangdiinginkan oleh pengguna
Uji Coba KlasifikasiUji coba klasifikasi menggunakan metode key fold. Metode key fold yaitu melakukan pengujian pada suatu data. Data uji dan data latih akan di acak atau setiap skenario antara data uji dan data latih berbeda dengan skenario sebelumnya.
Uji Coba Klasifikasi(2)No Skenario Akurasi %1 Skenario 1 57.502 Skenario 2 52.503 Skenario 3 72.504 Skenario 4 50.005 Skenario 5 52.506 Skenario 6 50.007 Skenario 7 55.008 Skenario 8 72.509 Skenario 9 75.00
10 Skenario 10 72.50Rata-rata 61%
Uji Coba Klasifikasi (3)
Nama Forum Prosentase hasil klasifikasi berbeda dengan data uji
General 27
Styles 25
Modification 32
Support 67
Uji Coba Klasifikasi(4)
Support General
reCAPTCHA not show goodATTACHMENTSSpambot countermeasures 2014-06-20 13-22-36.pngTop SEO ForumInternet MarketingInternet Marketing Forum
Support Modification
How to add ads this area. see attachment fileATTACHMENTSTop SEO Forum • Community Home 2014-06-20 12-53-05.pngTop SEO ForumInternet MarketingInternet Marketing Forum
Uji Coba ClusteringPerbandingan hasil clustering dengan aplikasi weka
Survey untuk mengukur nilai relevansi dari topik yang dikelompokkan.
Pertanyaan yang ditanyakan pada survey adalah :
“Apakah topik yang terdapat forum sudah dikelompokkan dengan benar berdasarkan pengetahuannya?”
Uji Coba Clustering(2)
136
40
157
2
135
39
20
5 10
20
40
60
80
100
120
140
160
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5
weka nlp tools
120
51
23
3 2 1
113
4135
5 4 20
20
40
60
80
100
120
140
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6
Weka Nlp tools
Uji Coba Clustering (3)
117
53
137 5 4 1
114
47
2013
3 2 10
20
40
60
80
100
120
140
CLUSTER 1 CLUSTER 2 CLUSTER 3 CLUSTER 4 CLUSTER 5 CLUSTER 6 CLUSTER 7
WEKA NLP Tools
Uji Coba Clustering (4)
Jawaban Survey Total Persen
Topik Tidak Terkelompok dengan benar 1 5%
Beberapa topik terkelompok dengan benar 6 30%
Sebagian besar topik terkelompok dengan benar 10 50%
Topik terkelompok dengan benar 3 15%
Total 20 100%
KesimpulanSistem dapat menentukan klasifikasi dengan akurasi tertinggi 75% didasarkan pada hasil uji coba klasifikasi topik.
Sistem dapat mengelompokkan topik-topik menjadi suatu forum. Hal ini didasarkan pada fitur pengelompokkan topik.
Sistem dapat menemukan informasi yang relevan dengan fitur pengelompokkan topik. Dengan hasil survey yang ditujukkan
Saran◦ Menambahkan modul untuk mendeteksi topik yang
mengandung pengetahuan atau tidak, hal tersebut dapat membuat sistem dapat mengolah pengetahuan menjadi lebih baik.
◦ Membuat fitur pengelompokkan topik dengan metode lainnya sehingga hasil dari pengelompokkan sesuai dengan data uji coba
Terima Kasih
Dokumen
Tokenisasi
Stop words
VSM
Contoh K-Means
◦ Tentukan nilai k sebagai jumlah klaster yang ingin dibentuk.
◦ Bangkitkan k centroid (titik pusat klaster) awal secara random.
◦ Hitung jarak setiap data ke masing-masing centroid menggunakan rumus korelasi antar dua objek yaitu Euclidean Distance dan kesamaan Cosine.
◦ Kelompokkan setiap data berdasarkan jarak terdekat antara data dengan centroidnya.
◦ Tentukan posisi centroid baru ( Ck ) dengan cara menghitung nilai rata-rata dari data-data yang ada pada centroid yang sama.
◦ Kembali ke langkah tiga jika posisi centroid baru dengan centroid lama tidak sama.
Langkah K-Means
Naive BayesProbabilitas dokumen terhadap kategori
𝑝 𝐶 = 𝑐𝑖 𝐷 = 𝑑𝑗 = 𝑘 𝑝 𝑤𝑘 𝐶 = 𝑐𝑖 × 𝑝 𝐶 = 𝑐𝑖𝑃 𝑊1, 𝑊2 ,𝑊3 ,…,𝑊𝑘,….,𝑊𝑛
Penentuan kategori dengan mencari nilai maksimal
𝑐∗ = argmax𝑐∈𝐶
𝑝 𝑘 𝑝(𝑤𝑘|𝑐) × 𝑝(𝑐)
Alir Diagram proses update forum baru