presentasi seminar tugas akhir
DESCRIPTION
File presentasi untuk kegiatan seminar tugas akhir.TRANSCRIPT
SISTEM PENGELOMPOKAN ENTITAS PADA PESAN TWITTER MENGGUNAKAN
EKSPRESI REGULAR DAN NAÏVE BAYES
Oleh:Ahmad Thoriq Abdul Aziz (G64090008)
Pembimbing:Ahmad Ridha, SKom, MS
Departemen Ilmu KomputerInstitut Pertanian Bogor2013
Latar Belakang
Penggunaan media sosial sebagai sarana komunikasi yang kian meningkat.Contoh: twitter, facebook, linked in, youtube.
Keingintahuan untuk menangkap dan mengelompokan informasi yang beredar di media social terutama twitter.
1
2
2
Tujuan
Ekstraksi Entitas (Mengetahui entitas apa yang sedang dibicarakan di media sosial).Ex: Indosat, Telkomsel, dsb.
Analisis Sentimen (Mengetahui persepsi dari suatu entitas di media sosial).
1 2
3
Metode Penelitian
4
Penggantian dengan Kata Baku.Penghilangan Karakter Berulang.
Step 3Normalisasi Teks
Mengetahui entitas yang sedang dibicarakan di Twitter.Menggunakan Ekspresi Regular.
Step 2Ekstraksi Entitas
Data berasal dari media sosial di internet (twitter).Data yang sudah terklasifikasi.
Step 1Pengumpulan Data
Next
Metode Penelitian (lanjutan)
5
Evaluasi hasil klasifikasi Naïve Bayes.
Step 6Evaluasi
Metode klasifikasi dokumen berbentuk teks.
Step 5Klasifikasi Naïve
BayesEvaluasi hasil normalisasi teks.Pengambilan sampel.
Step 4Evaluasi
Previous
Hasil dan Pembahasan
Pengumpulan Data• Data tweet sudah terklasifikasi terdiri 56 atribut.• Pengambilan atribut tertentu : id, tone, keyword,
post_message, author_screen_name, customer_alias, customer_name
Ekstraksi Entitas• Pembuatan Kamus Produk (Keyword) : 131 data• Konkatenasi antara pengguna twitter (author_screen_name)
dan tweet (post_message)Contoh kasusPost_message : RT @sabrinabadawi: Now singing what makes you beautiful with Umar while Izzah tgah cerita dekat pakcik makcik fasal kahwin dia .Author_screen_name : firdaus_yaris
6
Hasil dan Pembahasan
• Kasus 1 : agree, career, ttwa, ttng, ttd, mmg.• Kasus 2 : prncanaan, diizinin.
Evaluasi• Pengambilan 1000 sampel secara acak• Evaluasi secara manual• Hasil akurasi : 89.9% (899 dari 1000 sampel)
Penggantian dengan Kata Baku
Penghilangan Karakter Berulang
Penggantian dengan Kata Baku
7
Normalisasi Teks
Hasil dan Pembahasan
• Pembagian data latih dan data uji -> 3:1• Total data latih 41 574, data uji 12 045
Model Multinomial• Perhitungan peluang menggunakan frekuensi kemunculan
kata• Total data latih kelas positif 3795, kelas negatif 1651, kelas
netral 69 004• Total Vocab 81 111
Model Bernoulli• Menggunakan jumlah dokumen
8 Klasifikasi Menggunakan Naïve Bayes
𝑃 (𝑡|𝑐 )= 𝑇𝑐𝑡
( ∑𝑡 ′∈𝑉 𝑇𝑐𝑡 ′ ¿+𝐵¿𝑃 (𝑡|𝑐 )= 𝑇𝑐𝑡+1
( ∑𝑡 ′∈𝑉 𝑇𝑐𝑡 ′ ¿+𝐵¿
Hasil dan Pembahasan
9 Evaluasi Naïve Bayes
Positif
Negatif Netral
Positif 340 2 97
Negatif 27 17 88
Netral 113 7 11354
Positif
Negatif Netral
Positif 333 106 0
Negatif 2 130 0
Netral 146 8055 3273
Dugaan
Hasil
Tabel Confusion Matrix Model Multinomial
• Total hasil klasifikasi yang salah sebesar 334 dari 12 045
• Tingkat akurasi 97.23 %
Dugaan
Hasil
• Total hasil klasifikasi yang salah sebesar 8309 dari 12 045
• Tingkat akurasi 31.02 %
Tabel Confusion Matrix Model Bernoulli
Simpulan & SaranSimpulan• Ekspresi Regular sangat cocok untuk proses ekstraksi entitas karena dapat
menangkap beragam bahasa dengan menggunakan pola.• Proses normalisasi teks menggunakan fungsi penggantian kata baku menghasilkan
akurasi yang cukup baik, yaitu sebesar 89.9 % (899 dari 1000 sampel data). Selain itu, proses normalisasi teks dengan penggantian kata baku ini juga membutuhkan waktu yang lebih cepat dibandingkan dengan menggunakan fungsi jarak levenshtein.
• Sistem pengklasifikasian tweet menggunakan Naïve Bayes model multinomial memberikan hasil yang sangat baik pada dokumen yang pendek seperti tweet. Hal ini terlihat dari akurasi yang didapatkan, yakni sebesar 97.23 %.
Saran• Pada tahap normalisasi teks masih terdapat kesalahan pada beberapa kata,
sehingga patut dicoba menggunakan metode normalisasi teks yang lain.• Proses klasifikasi tweet menggunakan Naïve Bayes tentu akan menghasilkan
tingkat akurasi yang lebih besar jika data yang digunakan semakin besar. Sebab, kesalahan pengklasifikasian ini bisa saja terjadi akibat sedikitnya jumlah data latih sehingga belum cukup untuk menentukan penciri dari suatu kelas.
10