pengembangan leksikon untuk deteksi emosi …ilkom.unnes.ac.id/snik/prosiding/2015/42. julius...

4

Click here to load reader

Upload: habao

Post on 06-Feb-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: PENGEMBANGAN LEKSIKON UNTUK DETEKSI EMOSI …ilkom.unnes.ac.id/snik/prosiding/2015/42. Julius bata.pdf · Makalah ini melakukan percobaan ... Pendekatan crowdsourcing digunakan untuk

Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN: 978-602-1034-19-4

289

PENGEMBANGAN LEKSIKON UNTUK DETEKSI EMOSI DARI

TEKS BAHASA INDONESIA

Julius Bata

Program Studi Magister Teknik Informatika, Universitas Atma Jaya Yogyakarta

Email: [email protected]

ABSTRAK Emosi dari suatu teks dapat dikenali dari kata penyusun kalimat tersebut. Oleh karena itu, leksikon emosi memegang

peranan penting dalam sistem deteksi emosi dari teks. Leksikon emosi telah banyak dikembangkan, meskipun

demikian leksikon untuk bahasa Indonesia masih sedikit mendapat perhatian. Makalah ini melakukan percobaan untuk mengembangkan leksikon emosi. Leksikon yang dikembangkan bersumber pada korpus berisi lirik lagu

Indonesia. Metode Pointwise Mutual Information (PMI) digunakan untuk memberi bobot setiap kata pada leksikon.

Selanjutnya leksikon digunakan untuk melakukan deteksi emosi dari lirik lagu. Evaluasi dilakukan untuk mengetahui

unjuk kerja dari leksikon. Hasil penelitian ini berupa leksikon emosi yang dapat digunakan untuk deteksi emosi dari teks.

Kata Kunci: Deteksi Emosi, Pembobotan Kata Emosi, Leksikon Emosi Indonesia

1. PENDAHULUAN

Salah satu aspek penting dalam komunikasi antara manusia adalah emosi. Kualitas interaksi manusia dan

komputer dapat ditingkatkan dengan memperhatikan aspek emosi [1, 2]. Ketika komputer mampu

mengenali emosi dari user maka komputer diharapkan dapat memberikan tanggapan sesuai dengan emosi

tersebut. Oleh karena itu, deteksi emosi merupakan kemampuan pertama dan utama yang harus dimiliki

komputer untuk dapat memproses emosi pengguna [3, 4].

Berbagai penelitian telah dilakukan untuk menyelesaikan persoalan deteksi emosi. Penelitian deteksi

emosi telah dilakukan untuk mendeteksi emosi dari ekspresi wajah, suara, gerak tubuh maupun teks [3].

Deteksi emosi dari teks penting dilakukan karena sebagian besar komunikasi berbasis komputer

menggunakan media teks [5, 6]. Pada sisi yang lain, perkembangan jumlah pengguna media sosial

menyebabkan pertumbuhan data teks yang semakin besar. Data teks tersebut perlu diproses untuk

menghasilkan informasi seperti sentimen maupun jenis emosi. Selanjutnya informasi sentimen dan emosi

dapat digunakan pada berbagai bidang seperti sistem tutor, sistem dialog, analisa kepuasan pelanggan dan

enterprise system [4, 7].

Berbagai pendekatan telah dilakukan untuk melakukan deteksi emosi dari teks. Metode deteksi emosi dari

teks dapat dikelompokkan menjadi 3 yaitu keyword-spotting, statistik dan berbasis aturan(rule-base)[6,

8]. Pada dasarnya deteksi emosi dari teks dilakukan dengan melihat kata penyusun teks tersebut. Oleh

karena itu kamus kata (leksikon) menjadi sumber yang sangat penting dalam deteksi emosi dari teks [9].

Leksikon emosi berperan penting dalam sistem deteksi emosi dari teks. Terdapat berbagai leksikon emosi

seperti EmoLex [7], Wordnet-Affect Lexicon (WAL) [10], dan affect database [11]. Leksikon–leksikon

tersebut umumnya berbahasa Inggris dan bersifat umum. Oleh karena itu untuk bahasa dan domain

tertentu perlu dikembangkan leksikon yang sesuai.

Penelitian ini merupakan tahap awal dalam pengembangan leksikon emosi untuk bahasa Indonesia.

Tujuan utama penelitian adalah mengembangkan leksikon emosi dan melakukan evalusi terhadap

leksikon. Berbagai penelitian telah dilakukan untuk mengembangkan leksikon emosi. Salah satu sumber

data yang digunakan untuk mengembangkan leksikon adalah media sosial. Data tweets digunakan untuk

mengembangkan leksikon emosi pada penelitian [12]. Tweets dikumpulkan berdasarkan hashtag (#).

Tanda hashtag ini juga digunakan sebagai label emosi untuk setiap tweets. Data tweets yang

dikumpulkan (TEC= Twiter emotion Corpus) selanjutnya digunakan untuk mengembangkan leksikon

emosi. Leksikon yang dikembangkan terdiri dari n-gram kata serta bobot setiap kata. Bobot setiap kata

merupakan nilai SoA (Strength of Association) yang menggambarkan tingkat asosiasi antara kata dengan

jenis emosi. Data tweets juga digunakan untuk mengembangkan leksikon emosi pada penelitian [9].

Leksikon emosi juga telah dikembangkan dengan pendekatan manual. Pendekatan crowdsourcing

digunakan untuk memberi label emosi terhadap sejumlah daftar kata pada penelitian [7].

Selain tweets, data artikel blog juga dapat digunakan untuk mengembangkan leksikon emosi. Artikel dari

blog Yahoo! Kimo digunakan untuk mengembangkan leksikon emosi [13]. Pada penelitian tersebut, jenis

emosi yang digunakan sesuai dengan emoticon. Pointwise Mutual Information (PMI) digunakan untuk

menghitung nilai co (collocation) antara suatu kata terhadap suatu jenis emoticon.

Page 2: PENGEMBANGAN LEKSIKON UNTUK DETEKSI EMOSI …ilkom.unnes.ac.id/snik/prosiding/2015/42. Julius bata.pdf · Makalah ini melakukan percobaan ... Pendekatan crowdsourcing digunakan untuk

Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN: 978-602-1034-19-4

290

Makalah ini melakukan adaptasi penelitian [13] untuk mengembangkan leksikon emosi bahasa Indonesia.

Perbedaan utama yaitu pada jenis emosi dan data yang digunakan. Pada penelitian ini menggunakan data

berupa lirik lagu Indonesia. Lirik lagu digunakan karena lirik lagu dapat menggambarkan emosi dari

sebuah lagu [14]. Langkah–langkah dalam mengembangkan leksikon diberikan pada bagian 2. Evaluasi

dilakukan terhadap leksikon dengan melakukan percobaan deteksi emosi (bagian 3).

2. METODE

Pada bagian ini akan dijelaskan langkah yang digunakan untuk mengembangkan leksikon. Terlebih

dahulu akan dijelaskan data yang digunakan. Selanjutnya dijelaskan detail proses pengembangan

leksikon. Prosedur evaluasi diberikan pada bagian akhir.

2.1. Data

Pada penelitian ini data yang digunakan adalah data lirik lagu. Lirik lagu digunakan karena dalam lirik

lagu banyak memuat ungkapan emosi yang dapat mempengaruhi pendengarnya secara langsung. Selain

itu, emosi dari suatu lagu juga dapat secara langsung terlihat dari lirik lagu tersebut [14].

Sejumlah 150 lirik lagu dikumpulkan dari berbagai situs internet. Proses selanjutnya adalah melakukan

anotasi. Anotasi dilakukan secara manual oleh 3 orang (anotator). Jenis emosi yang digunakan adalah

senang, rileks, sedih, dan marah. Jenis emosi ini banyak digunakan dalam penelitian deteksi emosi lagu

[14]. Setelah proses anotasi, diperoleh 97 lagu yang memiliki anotasi sama dari ketiga anotator. Jumlah

data untuk masing–masing kelas berbeda–beda, oleh karena itu data yang digunakan dalam percobaan

ditetapkan sebanyak 80 data. Setiap jenis emosi memiliki 20 data.

2.2. PraProses

Leksikon merupakan daftar kata yang memiliki hubungan dengan suatu jenis emosi. Daftar kata bersifat

unik, dimana diharapkan kata–kata tersebut dapat secara langsung menunjukkan jenis emosi. Oleh karena

itu maka perlu dilakukan proses awal terhadap data lirik lagu sebelum digunakan untuk mengembangkan

leksikon.

Pada proses awal diperoleh bahwa terdapat kata–kata yang jumlah kemunculannya sangat banyak di

semua jenis emosi. Kata–kata seperti ini tidak dapat digunakan untuk leksikon emosi seperti kata “yang”,

“di”, dan “aku”. Persoalan ini diselesaikan dengan melakukan proses penghapusan stop-words. Proses

steeming tidak dilakukan karena kami berpendapat bahwa imbuhan memiliki pengaruh terhadap makna

dari suatu kata sehingga dapat mempengaruhi jenis emosi kata tersebut.

2.3. Leksikon Emosi

Data bersih hasil praproses selanjutnya digunakan untuk mengembangkan leksikon emosi. Proses

pengembangan leksikon ini didasarkan pada ide bahwa semakin sering sebuah kata digunakan pada suatu

jenis emosi maka kata tersebut semakin dapat menunjukkan jenis emosi. Oleh karen itu penelitian ini

menggunakan PMI pada penelitian[13] untuk menghitung bobot setiap kata. Bobot setiap kata dihitung

menggunakan persamaan (1).

( ) ( ) ( )

( ) ( ) (1)

Dimana:

co(e,w) menunjukkan bobot dari kata w terhadap jenis emosi e,

c(e,w) merupakan jumlah kemunculan kata w pada jenis emosi e,

P(e,w) menunjukkan probabilitas kata w terhadap jenis emosi e,

P(e) dan P(w) menunjukkan probalitas jenis emosi e dan kata w pada korpus.

Leksikon emosi yang dihasilkan tersusun dari kata dan bobot untuk setiap jenis emosi. Jika suatu kata

tidak pernah digunakan dalam suatu jenis emosi tertentu, maka bobot kata tersebut adalah 0.

2.4. Evaluasi

Proses evaluasi dilakukan dengan menggunakan leksikon emosi untuk melakukan deteksi jenis emosi dari

lirik lagu. Deteksi dilakukan dengan mencocokan setiap kata pada lirik lagu dengan kata dalam leksikon.

Jika menemukan kata yang sesuai maka akan diambil setiap bobot dari kata tersebut. Seluruh bobot akan

dijumlahkan dan jenis emosi ditentukan berdasarkan jenis emosi dengan bobot terbesar.

Data lirik lagu sejumlah 80 dipisahkan menjadi data latih dan data uji. Data latih digunakan untuk

mengembangkan leksikon sedangkan data uji digunakan untuk menguji leksikon. Pada setiap percobaan

data latih berjumlah 60 data dan data uji sebanyak 20 data.

Page 3: PENGEMBANGAN LEKSIKON UNTUK DETEKSI EMOSI …ilkom.unnes.ac.id/snik/prosiding/2015/42. Julius bata.pdf · Makalah ini melakukan percobaan ... Pendekatan crowdsourcing digunakan untuk

Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN: 978-602-1034-19-4

291

Evaluasi leksikon dilakukan dengan menghitung tingkat akurasi menggunakan persamaan (2).

(2)

3. HASIL DAN PEMBAHASAN

Penelitian ini bertujuan untuk mengembangkan leksikon emosi bahasa Indonesia. Percobaan pada

penelitian ini berfokus pada pengembangan leksikon dan pengujian leksikon.

Leksikon emosi yang dihasilkan seperti yang ditunjukkan pada Gambar 1. Kolom pertama menunjukkan

kata dan kolom kedua hingga kolom ketujuh menunjukkan bobot dari kata tersebut. Sebagai contoh kata

“percuma” yang memiliki bobot 0 untuk emosi positif, 4,53 untuk emosi negatif, 5,22 untuk jenis emosi

marah dan bernilai 0 untuk jenis emosi senang, rileks, dan sedih.

Gambar 1. Leksikon emosi bahasa Indonesia.

Sebuah kata akan berbobot 0 jika kata tersebut tidak muncul pada emosi tertentu. Kata “percuma” hanya

memiliki bobot untuk jenis emosi marah, hal ini terjadi karena pada data latih kata “percuma” hanya

muncul pada lagu yang berlabel marah.

Selanjutnya leksikon digunakan untuk melakukan deteksi emosi dari lirik lagu. Percobaan dilakukan

sebanyak 4 percobaan dengan menggunakan 60 data latih dan 20 data uji pada setiap percobaan. Hasil

percobaan seperti pada Tabel 1.

Tabel 1. Akurasi percobaan

Percobaan Akurasi

Data1 30 %

Data2 30 %

Data3

Data4

20 %

30 %

Hasil yang diperoleh pada percobaan ini sangat rendah, dimana akurasi tertinggi hanya mencapai 30 %.

Akurasi yang rendah ini terjadi karena banyak kata pada lirik lagu yang digunakan sebagai data uji tidak

termasuk dalam leksikon emosi. Beberapa lirik lagu data uji hanya memuat kurang dari 5 kata dalam

leksikon. Hal ini sangat mempengaruhi hasil deteksi. Untuk menguji hal tersebut maka dilakukan

percobaan tambahan. Pada percobaan tambahan ini, data latih yang digunakan sebannyak 72 dan data uji

sebanyak 8 buah data. Percobaan dilakukan sebanyak 10 kali. Pada percobaan tambahan ini diperoleh

akurasi rata-rata sebesar 50 %. Hasil pecobaan tambahan ini menunjukkan bahwa jumlah data latih sangat

mempengaruhi tingkat akurasi dari deteksi emosi.

4. SIMPULAN

Pada makalah ini dilakukan pengembangan leksikon bahasa Indonesia. Leksikon dikembangkan

menggunakan data lirik lagu Indonesia. Bobot setiap kata ditentukan menggunakan PMI. Hasil percobaan

menggunakan 60 data latih menunjukkan tingkat akurasi yang rendah. Ketika data latih ditambah, hasil

akurasi juga mengalami peningkatan. Oleh karena itu pada penelitian selanjutnya sebaiknya

menggunakan data latih yang lebih benyak. Selain itu, pada penelitian ini untuk menentukan bobot setiap

kata hanya menggunakan PMI. Perlu dilakukan penelitian yang menggunakan pembobotan lain seperti tf-

idf dan melihat pengaruhnya pada proses deteksi. Penelitian selanjutnya dapat juga difokuskan pada

metode deteksi yang digunakan.

5. REFERENSI

[1] Fragopanagos, N. dan Taylor, J. 2005. Emotion Recognition in Human-Computer Interaction. Neural

Networks. 18: 389-405.

[2] Lopatovska, I. dan Arapakis, I. 2011. Theories, Methods and Current Research on Emotion in

Library and Information Science, Information Retrieval and Human-Computer Interaction.

Information Processing and Management. 47(4):575-592.

Page 4: PENGEMBANGAN LEKSIKON UNTUK DETEKSI EMOSI …ilkom.unnes.ac.id/snik/prosiding/2015/42. Julius bata.pdf · Makalah ini melakukan percobaan ... Pendekatan crowdsourcing digunakan untuk

Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN: 978-602-1034-19-4

292

[3] Calvo, R. A. dan D’Mello, S. 2010. Affect Detection: An Interdisciplinary Review of Models,

Method, and Their Applications. IEEE Transc. on Affective Computing. 1(1):18-37.

[4] Quan, C. dan Ren, F. 2014. Textual Emotion Recognition for Enhancing Enterprise Computing.

Enterprise Information System. 37-41.

[5] Liu, H., Lieberman, dan Selker, T. 2003. A Model of Textual Affect Sensing using Real-World

Knowledge. Proc. of the 2003 Intl. Conf. on Intelligent User Interfaces. 125-132.

[6] Neviarouskaya, A., Prendinger, H, dan Ishizuka, M. 2011. Affect Analysis Model: novel rule-based

approach to affect sensing from text. Natural Language Engineering. 17: 95-135

[7] Turney, P. D. dan Mohammad, S. M. 2013. Crowdsourcing a word-emotion association lexicon.

Computational Intelligence. 29(3):436-465.

[8] Krcadinac, U., Pasquier, P., Jovanovic, J, dan Devedzic, V. 2013. Synesketch: An Open Source

Library for Sentence-Based Emotion Recognition. IEEE Transc. on Affective Computing. 4(3):

312-325.

[9] Bandhakavi, A., Wiratunga, N., Deepak. P, dan Massie, S. 2014. Generating a Word-Emotion

Lexicon from #Emotional Tweets. Proc. of the Third Joint Conf. on Lexical and Computational

Semantics(*SEM 2014).12-21.

[10] Strapparava, C. dan Valitutti, A. 2004. WordNet-Affect: an affective extension of WordNet. Proc. of

the Conf. on International Language Resources and Evaluation (LREC). 1083-1086.

[11] Neviarouskaya, A., Prendinger, dan Ishizuka, M. 2007. Textual affect sensing for sociable and

expressive online communication. Affective Computing and Intelligent Interaction LNCS. 4738:

218-229.

[12] Mohammad, S. M. 2012. #Emotional Tweets. Proc. of the First Joint Conf. on Lexical and

Computational Semantics(*SEM).246-255.

[13] Yang, C., Lin, K. H-Y, dan Chen, H. H. 2007. Building Emotion Lexicon from Weblog Corpora.

Proc. of the ACL 2007 Demo and Poster Sessions.133-136

[14] Yang, Y-H. dan Chen, H.H. 2012. Machine Recognition of Music Emotion: A Review. ACM Trans.

Itell. Syst. Technol. 3(3):1-30.