pembuatan model named entity...

13
PEMBUATAN MODEL NAMED ENTITY RECOGNITION UNTUK TWITTER BAHASA INDONESIA DENGAN MENGGUNAKAN STANFORD NER TUGAS AKHIR Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Oleh: Mar’ie Saniy 201210370311172 JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH MALANG Juli 2016

Upload: phungkiet

Post on 01-Apr-2019

244 views

Category:

Documents


0 download

TRANSCRIPT

PEMBUATAN MODEL NAMED ENTITY RECOGNITION

UNTUK TWITTER BAHASA INDONESIA

DENGAN MENGGUNAKAN STANFORD NER

TUGAS AKHIR

Diajukan Untuk Memenuhi

Persyaratan Guna Meraih Gelar Sarjana Strata 1

Teknik Informatika Universitas Muhammadiyah Malang

Oleh:

Mar’ie Saniy

201210370311172

JURUSAN TEKNIK INFORMATIKA

FAKULTAS TEKNIK

UNIVERSITAS MUHAMMADIYAH MALANG

Juli 2016

i

ii

iii

vi

KATA PENGANTAR

Assalamu’alaikum Wr. Wb.

Puji syukur ke hadirat Allah SWT yang telah memberi kekuatan dan

petunjuk serta melimpahkan rahmat dan hidayah-Nya sehingga penulis dapat

menyelesaikan tugas akhir yang berjudul “Pembuatan Model Named Entity

Recognition Untuk Twitter Bahasa Indonesia Dengan Menggunakan Stanford

NER”, dimana tugas akhir ini adalah persyaratan untuk menyelesaikan studi di

Jurusan Teknik Informatika jenjang Strata-1 Universitas Muhammadiyah Malang.

Dengan segala kerendahan hati, penulis menyadari bahwa dalam

menyelesaikan tugas akhir ini tidak lepas dari peran berbagai pihak yang telah

banyak memberikan bantuan, bimbingan dan dukungan. Dalam kesempatan ini

penulis ingin mengucapkan terima kasih yang tak terhingga kepada:

1. Bapak Yuda Munarko, S.Kom., M.Sc selaku Ketua Jurusan Teknik

Informatika dan dosen pembimbing I yang telah memberikan pengarahan,

bimbingan, serta masukan selama pelaksanaan tugas akhir dan penelitian

serta penulisan laporan.

2. Bapak Ilyas Nuryasin, S.Kom., M.Kom selaku dosen pembimbing II yang

telah memberikan pengarahan, bimbingan, serta masukan selama

pelaksanaan tugas akhir dan penelitian serta penulisan laporan.

3. Ayah dan Ibuku tercinta dan tersayang yang telah banyak memberikan cinta,

kasih, sayangnya dan tak pernah berhenti kiriman doanya kepada penulis,

hingga penulis mampu menyelesaikan skripsi ini, serta untuk dua adikku

tersayang terima kasih buat doa, dorongan semangat dan keceriaan yang

diberikan kepada penulis.

4. Sahabat–sahabat dan teman–teman di Universitas Muhammadiyah Malang,

khususnya teman-teman di jurusan Teknik Informatika angkatan 2012 dan

teman-teman KKN kelompok 116 tahun 2015.

5. Serta semua pihak yang mungkin belum saya sebutkan dan sahabat-sahabat

yang telah membantu penulis hingga terselesaikannya tugas akhir ini,

semoga Allah SWT memberikan balasan yang sesuai atas jasa dan bantuan

yang telah diberikan.

vii

Penulis menyadari sepenuhnya bahwa sebagai manusia biasa tentunya tidak

akan luput dari kekurangan dan keterbatasan. Maka dengan segenap kerendahan

hati, penulis mengharapkan saran dan kritik yang dapat menyempurnakan

penulisan ini sehingga dapat bermanfaat dan berguna untuk pengembangan ilmu

pengetahuan.

Malang, Juli 2016

Penulis

viii

DAFTAR ISI

Halaman Judul

Lembar Persetujuan .............................................................................................i

Lembar Pengesahan ............................................................................................ii

Lembar Pernyataan..............................................................................................iii

Abstrak ................................................................................................................iv

Abstract ...............................................................................................................v

Kata Pengantar ....................................................................................................vi

Daftar Isi..............................................................................................................viii

Daftar Gambar .....................................................................................................x

Daftar Tabel ........................................................................................................xii

BAB I PENDAHULUAN ...................................................................................1

1.1. Latar Belakang ....................................................................................1

1.2. Rumusan Masalah ...............................................................................2

1.3. Tujuan .................................................................................................2

1.4. Batasan Masalah .................................................................................2

1.5. Sistematika Penulisan .........................................................................3

BAB II LANDASAN TEORI .............................................................................4

2.1. Twitter.................................................................................................4

2.2. Bahasa Indonesia Formal ....................................................................7

2.3. Bahasa Indonesia Informal .................................................................8

2.4. Conditional Random Field .................................................................9

2.5. Natural Language Processing ............................................................9

2.6. Named Entity Recognition ..................................................................10

2.7. Stanford NER ......................................................................................11

2.8 Teknik Pengujian .................................................................................12

2.8.1. Recall ........................................................................................12

2.8.2. Presisi .......................................................................................12

ix

BAB III ANALISA DAN PERANCANGAN SISTEM .....................................13

3.1. Analisa Tweet......................................................................................13

3.1.1. Tweet Bahasa Indonesia Formal ...............................................13

3.1.2. Tweet Bahasa Indonesia Informal.............................................14

3.2. Analisa Kebutuhan Hardware ............................................................14

3.3. Analisa Kebutuhan Software ..............................................................15

3.4. Perancangan Sistem ............................................................................15

3.4.1. Pengumpulan Data ....................................................................15

3.4.2. Pengelompokan Data ................................................................16

3.4.3. Tagging Data ............................................................................17

3.4.4. Training Data Dengan Stanford NER .......................................18

BAB IV IMPLEMENTASI DAN PENGUJIAN SISTEM .................................28

4.1. Implementasi Model pada Stanford NER ...........................................28

4.1.1. Model Formal ...........................................................................28

4.1.2. Model Informal .........................................................................30

4.1.3. Model Umum ............................................................................32

4.2. Perhitungan Nilai Recall dan Presisi ..................................................34

4.3. Hasil Perhitungan................................................................................35

4.3.1. Pengujian Model Formal ..........................................................35

4.3.2. Pengujian Model Informal ........................................................38

4.3.3. Pengujian Model Umum ...........................................................41

4.4. Pengujian Cross Validation ................................................................45

4.5. Kesimpulan Hasil Perhitungan ...........................................................47

BAB V PENUTUP ..............................................................................................48

5.1. Kesimpulan .........................................................................................48

5.2. Saran ...................................................................................................48

DAFTAR PUSTAKA .........................................................................................49

x

DAFTAR GAMBAR

Gambar 2.1. Lambang Twitter .............................................................................. 4

Gambar 2.2. Contoh Tweet.................................................................................... 5

Gambar 2.3. Contoh Penggunaan Hashtag ........................................................... 5

Gambar 2.4. Contoh Trending Topic .................................................................... 6

Gambar 2.5. Contoh Re Tweet .............................................................................. 7

Gambar 2.6. Contoh Reply .................................................................................... 7

Gambar 2.7. Contoh Implementasi CRF ............................................................... 9

Gambar 2.8. Stanford NER.................................................................................... 11

Gambar 2.9. Alur Pembuatan Model pada Stanford NER .................................... 12

Gambar 3.1. Arsitektur Sistem .............................................................................. 15

Gambar 3.2. Kode Program PHP Untuk Pencarian Sesuai Kata Kunci................ 16

Gambar 3.3. Kode Program PHP Untuk Pencarian Sesuai Username ................. 16

Gambar 3.4. Dataset Tweet Bahasa Indonesia Formal .......................................... 17

Gambar 3.5. Dataset Tweet Bahasa Indoensia Informal ....................................... 17

Gambar 3.6. Data yang sudah ditandai ................................................................. 18

Gambar 3.7. Flowchart Pembuatan Model ........................................................... 19

Gambar 3.8. Hasil Tokenisasi Data Formal .......................................................... 20

Gambar 3.9. Hasil Penghilangan Tanda Slash Data Formal ................................. 20

Gambar 3.10. File Prop Formal............................................................................. 21

Gambar 3.11. File Model Formal .......................................................................... 22

Gambar 3.12. Hasil Tokenisasi Data Informal...................................................... 22

Gambar 3.13. Hasil Penghilangan Tanda Slash Data Informal ............................ 23

Gambar 3.14. File Prop Informal .......................................................................... 23

Gambar 3.15. File Model Informal ....................................................................... 24

Gambar 3.16. Hasil Tokenisasi Data Umum ........................................................ 25

Gambar 3.17. Hasil Penghilangan Tanda Slash Data Umum ............................... 25

Gambar 3.18. File Prop Umum ............................................................................. 26

Gambar 3.19. File Model Umum .......................................................................... 27

Gambar 4.1. Membuka Tweet Formal................................................................... 28

Gambar 4.2. Membuka Model Formal .................................................................. 29

xi

Gambar 4.3. Hasil Tag Model Formal .................................................................. 29

Gambar 4.4. Membuka Tweet Informal ................................................................ 30

Gambar 4.5. Membuka Model Informal ............................................................... 31

Gambar 4.6. Hasil Tag Model Informal ................................................................ 31

Gambar 4.7. Membuka Tweet Umum ................................................................... 32

Gambar 4.8. Membuka Model Umum .................................................................. 33

Gambar 4.9. Hasil Tag Model Umum ................................................................... 33

Gambar 4.10. Perbandingan Kalimat Formal dan Kalimat Informal .................... 34

Gambar 4.11. Grafik Perbandingan Rata-rata Nilai Recall Model Formal ........... 37

Gambar 4.12. Grafik Perbandingan Rata-rata Nilai Presisi Model Formal .......... 38

Gambar 4.13. Grafik Perbandingan Rata-rata Hasil Pengujian Model Formal .... 38

Gambar 4.14. Grafik Perbandingan Rata-rata Nilai Recall Model Informal ........ 40

Gambar 4.15. Grafik Perbandingan Rata-rata Nilai Presisi Model Informal ........ 41

Gambar 4.16. Grafik Perbandingan Rata-rata Hasil Pengujian Model Informal .. 41

Gambar 4.17. Grafik Perbandingan Rata-rata Nilai Recall Model Umum ........... 43

Gambar 4.18. Grafik Perbandingan Rata-rata Nilai Presisi Model Umum ........... 44

Gambar 4.19. Grafik Perbandingan Rata-rata Hasil Pengujian Model Umum ..... 44

Gambar 4.20 Grafik Perbandingan Rata-rata Hasil Pengujian Cross Validation . 47

xii

DAFTAR TABEL

Tabel 3.1. Tabel Pengelompokan Data ................................................................. 17

Tabel 3.2. Aturan (Tagset) .................................................................................... 17

Tabel 4.1. Hasil Pengujian Model Formal + Data Tes Formal ............................. 35

Tabel 4.2. Hasil Recall dan Presisi Model Formal + Data Tes Formal ................ 36

Tabel 4.3. Hasil Pengujian Model Formal + Data Tes Informal ........................... 36

Tabel 4.4. Hasil Recall dan Presisi Model Formal + Data Tes Informal .............. 36

Tabel 4.5. Hasil Pengujian Model Formal + Data Tes Umum ............................. 37

Tabel 4.6. Hasil Recall dan Presisi Model Formal + Data Tes Umum ................. 37

Tabel 4.7. Hasil Pengujian Model Informal + Data Tes Informal ........................ 38

Tabel 4.8. Hasil Recall dan Presisi Model Informal + Data Tes Informal............ 39

Tabel 4.9. Hasil Pengujian Model Informal + Data Tes Formal ........................... 39

Tabel 4.10. Hasil Recall dan Presisi Model Informal + Data Tes Formal ............ 39

Tabel 4.11. Hasil Pengujian Model Informal + Data Tes Umum ......................... 40

Tabel 4.12. Hasil Recall dan Presisi Model Informal + Data Tes Umum ............ 40

Tabel 4.13. Hasil Pengujian Model Umum + Data Tes Umum ............................ 41

Tabel 4.14. Hasil Recall dan Presisi Model Umum + Data Tes Umum ............... 42

Tabel 4.15. Hasil Pengujian Model Umum + Data Tes Formal............................ 42

Tabel 4.16. Hasil Recall dan Presisi Model Umum + Data Tes Formal ............... 42

Tabel 4.17. Hasil Pengujian Model Umum + Data Tes Informal ......................... 43

Tabel 4.18. Hasil Recall dan Presisi Model Umum + Data Tes Informal ............ 43

Tabel 4.19. Hasil Recall dan Presisi Model Formal + 1.000 Data Tes Formal .... 45

Tabel 4.20. Hasil Recall dan Presisi Model Formal + 500 Data Tes Formal ....... 45

Tabel 4.21. Pembagian Data Untuk Pengujian Cross Validation ......................... 46

Tabel 4.22. Hasil Rata-rata Pengujian Cross Validation ...................................... 46

49

DAFTAR PUSTAKA

[1] H. Kwak, C. Lee, H. Park, and S. Moon, “What is Twitter, a Social Network

or a News Media ? Categories and Subject Descriptors,” Www 2010, pp.

591–600, 2010.

[2] Lukman, Enricko. 2014., Twitter-close-20-million-active-users-indonesia.

https://www.techinasia.com/ . Diakses pada 16 Juni 2016.

[3] Jurafsky, D. and Martin, J. “Speech and language processing”, Prentice

Hall, 2008.

[4] The Stanford Natural Natural Language Processing Group.

http://nlp.stanford.edu/ . Diakses pada 26 Januari 2016.

[5] Budi, I. et al., 2005. Named Entity Recognition for the Indonesian language:

Combining contextual, morphological and part-of-speech features into a

knowledge engineering approach. Lecture Notes in Computer Science

(including subseries Lecture Notes in Artificial Intelligence and Lecture

Notes in Bioinformatics), 3735 LNAI, pp.57–69.

[6] _____ . 2015. Mengenal Kode dan Istilah Twitter.

http://strukturkode.blogspot.co.id/ . Diakses pada 16 Juni 2016.

[7] Fitria, Ayu Mirza ___. Bahasa Indonesia Baku dan Tidak Baku.

https://violet06.wordpress.com/ . Diakses pada 16 Juni 2016.

[8] _____ . 2014. Definisi, Fungsi dan Ciri-ciri Bahasa Baku.

http://www.ebahasaindonesia.com/ . Diakses pada 16 Juni 2016.

[9] Lim, R., Wibowo, A., Sutjiadi, R., & Oktian, Y. E. (2012). Pengembangan

Paper Citation Extraction Bahasa Indonesia Berbasis Parscit. Seminar

Nasional Teknologi Informasi SNTI 2012.

[10] Lafferty, J., McCallum, A., Pereira, F., 1999, “Conditional random fields:

Probabilistic models for segmenting and labeling sequence data", Computer,

pp. 282-289.

[11] Mozict. 2013., Natural Language Processing.

http://mozictapps.blogspot.co.id/ . Diakses pada 16 Juni 2016.

[12] Twitter. http://www.twitter.com/ . Diakses pada 16 Juni 2016.

50

[13] J. Ling and T. B. Oka, “ANALISIS SENTIMEN MENGGUNAKAN

METODE NAÏVE BAYES CLASSIFIER DENGAN SELEKSI FITUR

CHI SQUARE,” vol. 3, no. 3, pp. 92–99, 2014.

[14] D. Benikova, S. Muhie, Y. Prabhakaran, and S. Chris, “GermaNER : Free

Open German Named Entity Recognition Tool,” vol. 1, no. 1, 2010.

[15] _____ . 2014. Kalimat Baku dan Tidak Baku: Ciri, Syarat, dan Contohnya.

http://www.prbahasaindonesia.com/ . Diakses pada 2 Juli 2016.