presentasi seminar tugas akhir

SISTEM PENGELOMPOKAN ENTITAS PADA PESAN TWITTER MENGGUNAKAN

EKSPRESI REGULAR DAN NAÏVE BAYES

Oleh:Ahmad Thoriq Abdul Aziz (G64090008)

Pembimbing:Ahmad Ridha, SKom, MS

Departemen Ilmu KomputerInstitut Pertanian Bogor2013

Latar Belakang

Penggunaan media sosial sebagai sarana komunikasi yang kian meningkat.Contoh: twitter, facebook, linked in, youtube.

Keingintahuan untuk menangkap dan mengelompokan informasi yang beredar di media social terutama twitter.

1

2

2

Tujuan

Ekstraksi Entitas (Mengetahui entitas apa yang sedang dibicarakan di media sosial).Ex: Indosat, Telkomsel, dsb.

Analisis Sentimen (Mengetahui persepsi dari suatu entitas di media sosial).

1 2

3

Metode Penelitian

4

Penggantian dengan Kata Baku.Penghilangan Karakter Berulang.

Step 3Normalisasi Teks

Mengetahui entitas yang sedang dibicarakan di Twitter.Menggunakan Ekspresi Regular.

Step 2Ekstraksi Entitas

Data berasal dari media sosial di internet (twitter).Data yang sudah terklasifikasi.

Step 1Pengumpulan Data

Next

Metode Penelitian (lanjutan)

5

Evaluasi hasil klasifikasi Naïve Bayes.

Step 6Evaluasi

Metode klasifikasi dokumen berbentuk teks.

Step 5Klasifikasi Naïve

BayesEvaluasi hasil normalisasi teks.Pengambilan sampel.

Step 4Evaluasi

Previous

Hasil dan Pembahasan

Pengumpulan Data• Data tweet sudah terklasifikasi terdiri 56 atribut.• Pengambilan atribut tertentu : id, tone, keyword,

post_message, author_screen_name, customer_alias, customer_name

Ekstraksi Entitas• Pembuatan Kamus Produk (Keyword) : 131 data• Konkatenasi antara pengguna twitter (author_screen_name)

dan tweet (post_message)Contoh kasusPost_message : RT @sabrinabadawi: Now singing what makes you beautiful with Umar while Izzah tgah cerita dekat pakcik makcik fasal kahwin dia .Author_screen_name : firdaus_yaris

6


• Kasus 1 : agree, career, ttwa, ttng, ttd, mmg.• Kasus 2 : prncanaan, diizinin.

Evaluasi• Pengambilan 1000 sampel secara acak• Evaluasi secara manual• Hasil akurasi : 89.9% (899 dari 1000 sampel)

Penggantian dengan Kata Baku

Penghilangan Karakter Berulang

Penggantian dengan Kata Baku

7

Normalisasi Teks


• Pembagian data latih dan data uji -> 3:1• Total data latih 41 574, data uji 12 045

Model Multinomial• Perhitungan peluang menggunakan frekuensi kemunculan

kata• Total data latih kelas positif 3795, kelas negatif 1651, kelas

netral 69 004• Total Vocab 81 111

Model Bernoulli• Menggunakan jumlah dokumen

8 Klasifikasi Menggunakan Naïve Bayes

𝑃 (𝑡|𝑐 )= 𝑇𝑐𝑡

( ∑𝑡 ′∈𝑉 𝑇𝑐𝑡 ′ ¿+𝐵¿𝑃 (𝑡|𝑐 )= 𝑇𝑐𝑡+1

( ∑𝑡 ′∈𝑉 𝑇𝑐𝑡 ′ ¿+𝐵¿


9 Evaluasi Naïve Bayes

Positif

Negatif Netral

Positif 340 2 97

Negatif 27 17 88

Netral 113 7 11354

Positif

Negatif Netral

Positif 333 106 0

Negatif 2 130 0

Netral 146 8055 3273

Dugaan

Hasil

Tabel Confusion Matrix Model Multinomial

• Total hasil klasifikasi yang salah sebesar 334 dari 12 045

• Tingkat akurasi 97.23 %

Dugaan

Hasil

• Total hasil klasifikasi yang salah sebesar 8309 dari 12 045

• Tingkat akurasi 31.02 %

Tabel Confusion Matrix Model Bernoulli

Simpulan & SaranSimpulan• Ekspresi Regular sangat cocok untuk proses ekstraksi entitas karena dapat

menangkap beragam bahasa dengan menggunakan pola.• Proses normalisasi teks menggunakan fungsi penggantian kata baku menghasilkan

akurasi yang cukup baik, yaitu sebesar 89.9 % (899 dari 1000 sampel data). Selain itu, proses normalisasi teks dengan penggantian kata baku ini juga membutuhkan waktu yang lebih cepat dibandingkan dengan menggunakan fungsi jarak levenshtein.

• Sistem pengklasifikasian tweet menggunakan Naïve Bayes model multinomial memberikan hasil yang sangat baik pada dokumen yang pendek seperti tweet. Hal ini terlihat dari akurasi yang didapatkan, yakni sebesar 97.23 %.

Saran• Pada tahap normalisasi teks masih terdapat kesalahan pada beberapa kata,

sehingga patut dicoba menggunakan metode normalisasi teks yang lain.• Proses klasifikasi tweet menggunakan Naïve Bayes tentu akan menghasilkan

tingkat akurasi yang lebih besar jika data yang digunakan semakin besar. Sebab, kesalahan pengklasifikasian ini bisa saja terjadi akibat sedikitnya jumlah data latih sehingga belum cukup untuk menentukan penciri dari suatu kelas.

10

presentasi seminar tugas akhir

Education