perbandingan feature selection chi-square dan query

16
PERBANDINGAN FEATURE SELECTION CHI-SQUARE DAN QUERY EXPANSION RANKING (QER) PADA ANALISIS SENTIMEN TERKAIT REVITALISASI MONAS MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER LAPORAN TUGAS AKHIR Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Strata 1 Informatika Universitas Muhammadiyah Malang RONI HADI WIJAYA 201610370311282 Sains Data PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH MALANG 2021

Upload: others

Post on 16-Feb-2022

11 views

Category:

Documents


0 download

TRANSCRIPT

PERBANDINGAN FEATURE SELECTION CHI-SQUARE DAN

QUERY EXPANSION RANKING (QER) PADA ANALISIS

SENTIMEN TERKAIT REVITALISASI MONAS

MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER

LAPORAN TUGAS AKHIR

Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Strata 1

Informatika Universitas Muhammadiyah Malang

RONI HADI WIJAYA

201610370311282

Sains Data

PROGRAM STUDI INFORMATIKA

FAKULTAS TEKNIK

UNIVERSITAS MUHAMMADIYAH MALANG

2021

i

LEMBAR PERSETUJUAN

ii

LEMBAR PENGESAHAN

iii

LEMBAR PERNYATAAN

iv

ABSTRAK

Monumen Nasional (Monas) merupakan suatu monumen bersejarah

yang menjadi destinasi pariwisata cukup populer di Kota Jakarta. Monumen

ini dibangun untuk mengenang perjuangan rakyat Indonesia melawan

penjajahan Belanda. Di awal tahun 2020, taman Monumen Nasional

dilakukan revitalisasi. Dengan adanya kebijakan tersebut, mengundang

banyak kalangan untuk memberikan tanggapan yang di ungkapkan secara

langsung maupun tidak langsung yaitu melalui sosial media Twitter.

Dengan demikian, penelitian ini mencoba menganalisis ulasan dari

masyarakat dengan metode naive bayes classifier dan membandingkan

penggunaan seleksi fitur chi – square dan query expansion ranking untuk

mengoptimalkan kinerja klasifikasi pada penelitian. Hasil klasifikasi

dengan menggunakan seleksi fitur chi – square dan query expansioan

ranking dimasukkan kedalam confusion matrix. Berdasarkan hasil dari

confusion matrix tersebut di dapatkan hasil dari perbandingan kedua seleksi

fitur dalam mengklasifikasi opini dari masyarakat mengenai kebijakan

revitalisasi monas.

Kata kunci : analisis sentimen, naïve bayes, chi-square, query expansion

ranking

v

ABSTRACT

The National Monument (Monas) is a historical monument which

has become a popular tourism destination in the city of Jakarta. This

monument was built to commemorate the struggle of the Indonesian people

against Dutch colonialism. In early 2020, the National Monument park was

revitalized. With this policy, inviting many groups to provide responses that

are expressed directly or indirectly, namely through Twitter social media.

Thus, this study tries to analyze reviews from the public using the Naive

Bayes classifier method and compares the use of feature selection chi-

square and query expansion ranking to optimize the classification

performance in the study. The classification results using the chi-square

feature selection and ranking expansion queries are entered into the

confusion matrix. Based on the results of the confusion matrix, the results

obtained from the comparison of the two feature selections in classifying

public opinion regarding the monas revitalization policy.

Keywords : sentiment analysis, naïve bayes, chi-square, query

expansion ranking

vi

LEMBAR PERSEMBAHAN

Puji syukur kepada Allah SWT karena atas rahmat dan karunia – Nya

sehingga penulis dapat menyelesaikan Tugas Akhir ini. Banyak pihak yang terlibat

dalam proses penulisan Tugas Akhir ini, maka dari itu pada kesempatan ini penulis

mengucapkan terima kasih kepada seluruh pihak yang terlibat, khususnya untuk :

1. Keluarga penulis, Bapak Mohamad Saleh, Ibu Mawati, Nenek Asma’ira

serta seluruh keluarga yang terkasih yang telah memberikan do’a ridho,

kasih sayang dan support penuh pada penulis dalam menyelesaikan studi.

2. Bapak Dr. Fauzan, M.Pd., selaku rektor Universitas Muhammadiyah

Malang

3. Bapak Dr. Ahmad Mubin, M.T., selaku Dekan Fakultas Teknik Universitas

Muhammadiyah Malang

4. Ibu Hj. Gita Indah Marthasari, S.T., M.Kom., Selaku Ketua Program Studi

Informatika Universitas Muhammadiyah Malang

5. Ibu Hj. Gita Indah Marthasari, S.T., M.Kom., selaku dosen pembimbing I

yang telah membimbing dan memberikan arahan kepada penulis dan

meluangkan waktunya.

6. Bapak Christian Sri Kusuma Aditya, M.Kom., selaku dosen pembimbing II

yang telah membimbing penulis dalam menyelesaikan tugas akhir.

7. Bapak Yufis Azhar, S.Kom., M.Kom., dan Ibu Vinna Rahmayanti S. N.,

S.Si., M.Si. selaku dosen penguji tugas akhir yang telah memberikan kritik

dan sarannya untuk penulis.

8. Seluruh Dosen beserta Staff Program Studi Informatika Universitas

Muhammadiyah Malang yang telah memberikan ilmu dan wawasan kepada

penulis selama studi.

9. Sahabat – sahabat yang tidak dapat saya sebutkan satu – persatu.

Terimakasih sebanyak – banyaknya atas segala do’a, waktu dan support

yang sangat tulus yang diberikan kepada penulis sehingga penulis dapat

menyelesaikan tugas akhir ini.

10. Semua mahasiswa/i Program Studi Informatika Universitas

Muhammadiyah Malang Angkatan 2016 terimakasih atas kebersamaan

yang telah dilalu selama masa studi.

vii

KATA PENGANTAR

Dengan memanjatkan puji syukur kehadirat Allah SWT atas limpahan rahmat dan

hidayah – Nya sehingga penulis dapat menyelesaikan tugas akhir yang berjudul

“ PERBANDINGAN FEATURE SELECTION CHI-SQUARE

DAN QUERY EXPANSION RANKING (QER) PADA ANALISIS

SENTIMEN TERKAIT REVITALISASI MONAS

MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER “

Di dalam tulisan ini diajukan pokok – pokok bahasan yang meliputi penentuan

metode naïve bayes, algoritma chi – square, algoritma query expansion ranking,

klasifikasi dengan metode naïve bayes, perhitungan nilai keberhasilan proses

klasifikasi. Tugas akhir ini merupakan salah satu syarat studi yang harus ditempuh

oleh seluruh mahasiswa Universitas Muhammadiyah Malang, guna menyelesaikan

studi pada jenjang program Strata 1.

Penulis menyadari sepenuhnya bahwa dalam penulisan tugas akhir ini masih

banyak kekurangan dan keterbasan. Oleh karena itu peneliti mengharapkan saran

yang membangun agar tulisan ini bermanfaat bagi perkembangan ilmu dan

pengetahuan.

Malang, 15 Januari 2021

Penulis

viii

DAFTAR ISI

LEMBAR PERSETUJUAN ................................................................................. 1

LEMBAR PENGESAHAN .................................................................................. 2

LEMBAR PERNYATAAN .................................................................................. 3

LEMBAR PERSEMBAHAN ............................................................................... 6

KATA PENGANTAR ........................................................................................... 7

DAFTAR ISI .......................................................................................................... 8

DAFTAR GAMBAR ........................................................................................... 10

DAFTAR TABEL ............................................................................................... 12

DAFTAR PUSTAKA .......................................................................................... 13

SERTIFIKASI PLAGIASI ................................................................................. 16

BAB I .................................................................................................................... 17

1.1 Latar Belakang ....................................................................................... 17

1.2 Rumusan Masalah .................................................................................. 20

1.3 Tujuan Penelitian .................................................................................... 20

1.4 Batasan Masalah ..................................................................................... 20

BAB II .................................................................................................................. 21

2.1 Revitalisasi Monas ................................................................................. 21

2.2 Twitter .................................................................................................... 21

2.3 Twitter API ............................................................................................. 22

2.4 Data Mining ............................................................................................ 22

2.5 Analisis Sentimen ................................................................................... 23

2.6 Preprocessing .......................................................................................... 23

2.7 Pembotoan TF-IDF ................................................................................. 24

2.8 Feature Selection .................................................................................... 25

2.9 Naïve Bayes Classifier ........................................................................... 27

2.10 Confusion Matrix ................................................................................... 28

2.11 Sastrawi .................................................................................................. 28

2.12 Pyhton ..................................................................................................... 29

BAB III ................................................................................................................. 30

3.1 Pengumpulan Data ................................................................................. 31

3.2 Preprocessing .......................................................................................... 31

ix

3.3 Pembobotan TF-IDF ............................................................................... 34

4.4 Chi Square .............................................................................................. 34

4.5 Query Expansion Ranking (QER) .......................................................... 36

4.6 Naïve Bayes Classifier ........................................................................... 38

4.7 Evaluasi .................................................................................................. 38

4.8 Skenario Pengujian ................................................................................. 40

BAB IV ................................................................................................................. 41

4.1 Implementasi .......................................................................................... 41

1. Crawling Data ......................................................................................... 41

2. Preprocessing .......................................................................................... 42

3. Term Frequency – Inverse Document Frequency .................................. 44

4. Chi-Square dengan Klasifikasi Naïve Bayes Classifier ......................... 46

5. Query Expansion Ranking dengan Klasifikasi Naïve Bayes Classifier . 49

4.2 Pengujian ................................................................................................ 53

1. Klasifikasi Naïve Bayes Classifier Menggunakan Feature Selection Chi –

Square ............................................................................................................ 54

2. Klasifikasi Naïve Bayes Classifier Menggunakan Feature Selection

Query Expansion Ranking ............................................................................. 61

3. Visualisasi Klasifikasi Naïve Bayes Classifier Menggunakan Feature

Selection Chi – Square dan Query Expansion Ranking ................................ 68

4.3 Pembahasan ............................................................................................ 72

BAB V ................................................................................................................... 73

5.1 Kesimpulan ............................................................................................. 73

5.2 Saran ....................................................................................................... 73

x

DAFTAR GAMBAR

Gambar 1. Alur Penelitian ................................................................................... 30

Gambar 2. Tahap Preprocessing .......................................................................... 32

Gambar 3. Install library twitterscraper ............................................................... 41

Gambar 4. Syntax crawling dan save data .......................................................... 41

Gambar 5. Syntax Case Folding .......................................................................... 42

Gambar 6. Syntax Punctuation Removal ............................................................. 43

Gambar 7. Syntax Stopword Removal ................................................................. 43

Gambar 8. Syntax Stemming ................................................................................ 44

Gambar 9. Syntax Tokenizing .............................................................................. 44

Gambar 10. Install library Sklearn ...................................................................... 45

Gambar 11. Syntax class TfidfVectorizer ............................................................ 45

Gambar 12. Hasil dari proses TF – IDF .............................................................. 46

Gambar 13. Syntax Library Chi-Square .............................................................. 46

Gambar 14. Syntax pembaca data ........................................................................ 47

Gambar 15. Syntax perhitungan TF-IDF ............................................................. 47

Gambar 16. Syntax vector data ........................................................................... 47

Gambar 17. Syntax feature selection ................................................................... 48

Gambar 18. Syntax fungsi klasifikasi Naïve Bayes ............................................. 48

Gambar 19. Syntax Naïve Bayes fungsi Klasifikasi dan Feature Selection ........ 48

Gambar 20. Syntax pembagian data Naïve Bayes ............................................... 49

Gambar 21. Syntax Naïve Bayes fungsi Klasifikasi dan Chi – Square ............... 49

Gambar 22. tahap dan hasil pf ............................................................................. 50

Gambar 23. tahap dan hasil qf ............................................................................. 51

Gambar 24. Hasil score ...................................................................................... 51

Gambar 25. syntax membaca data ....................................................................... 52

Gambar 26. syntax perubahan data...................................................................... 52

Gambar 27. syntax pembagian data naïve bayes ................................................. 52

Gambar 28. syntax proses klasifikasi naïve bayes .............................................. 52

Gambar 29. syntax hasil klasifikasi naïve bayes ................................................. 53

Gambar 30. Confussion Matrix Skenario 1 ......................................................... 54

Gambar 31. Confussion Matrix Skenario 2 ......................................................... 55

xi

Gambar 32. Confussion Matrix Skenario 3 ........................................................ 56

Gambar 33. Confussion Matrix skenario 4 .......................................................... 58

Gambar 34. Confussion Matrix skenario 5 .......................................................... 59

Gambar 35. Confussion Matrix skenario 6 .......................................................... 60

Gambar 36. Confussion Matrix Skenario 1 ......................................................... 61

Gambar 37. Confussion Matrix Skenario 2 ........................................................ 62

Gambar 38. Confussion Matrix Skenario 3 ......................................................... 63

Gambar 39. Confussion Matrix skenario 4 .......................................................... 65

Gambar 40. Confussion Matrix skenario 5 .......................................................... 66

Gambar 41. Confussion Matrix skenario 6 .......................................................... 67

Gambar 42. Visualisasi Perbandingan Chi-Square.............................................. 69

Gambar 43. Visualisasi Perbandingan Query Expansion Ranking ..................... 69

Gambar 44. Visualisasi Perbandingan Chi-Square & Query Expansion Ranking

(Pembagian Data Latih & Data Uji) ..................................................................... 70

Gambar 45. Visualisasi Perbandingan Chi-Square & Query Expansion Ranking

............................................................................................................................... 70

xii

DAFTAR TABEL

Tabel 1. Contoh data set yang telah di Crawling ................................................. 31

Tabel 2. Contoh data set setelah Case Folding ..................................................... 32

Tabel 3. Contoh data set setelah Filtering ............................................................ 33

Tabel 4. Contoh data set setelah Tokenizing ........................................................ 33

Tabel 5 Contoh data set setelah Stemming .......................................................... 33

Tabel 6. Data set contoh perhitungan manual Chi-Square ................................... 35

Tabel 7. Data set contoh perhitungan manual QER ............................................. 37

Tabel 8. Confussion Matrix .................................................................................. 39

xiii

DAFTAR PUSTAKA

[1] R. Haryanti, “Luas Ibu Kota Baru di Kalimantan Timur Hampir 3 Kali DKI

Jakarta,” Kompas.com, Jakarta, 26-Aug-2019.

[2] D. H. Jayani, “Proyeksi Jumlah Penduduk DKI Jakarta 2020,”

databoks.katada.co.id, 2020. [Online]. Available:

https://databoks.katadata.co.id/datapublish/2019/12/07/jumlah-penduduk-

dki-jakarta-2020.

[3] W. Marison, “Revitalisasi Monas: Dari Ditolak Istana Negara, Mangkrak,

hingga Kembali Berjalan,” Kompas.com, Jakarta, 11-Feb-2020.

[4] H. Widowati, “Pemerintah Provinsi DKI Jakarta berjanji pembangunan

lintasan dan fasilitas pendukung Formula E tidak akan merusak kawasan

cagar budaya Monas.,” Katadata.co.id, Jakarta, 21-Feb-2020.

[5] “Indonesia Digital 2019 : Media Sosial,” websindo.com, 07-Mar-2019.

[6] F. N. Hasan and M. Wahyudi, “Analisis Sentimen Artikel Berita Tokoh

Sepak Bola Dunia Menggunakan Algoritma Support Vector Machine Dan

Naive Bayes Berbasis Particle Swarm Optimization,” Director, vol. 15, no.

2, pp. 2017–2019, 2018.

[7] V. A. Fitri, R. Andreswari, M. A. Hasibuan, V. A. Fitri, R. Andreswari, and

M. A. Hasibuan, “Sentiment Analysis of Social Media Twitter with Case of

Anti- LGBT Campaign in Indonesia using Naïve Bayes , Decision Tree ,

and Random Forest Algorithm,” Procedia Comput. Sci., vol. 161, pp. 765–

772, 2019.

[8] F. Ratnawati, “Implementasi Algoritma Naive Bayes Terhadap Analisis

Sentimen Opini Film Pada Twitter,” INOVTEK Polbeng - Seri Inform., vol.

3, no. 1, p. 50, 2018.

[9] Y. Cahyono and S. Saprudin, “Analisis Sentiment Tweets Berbahasa Sunda

Menggunakan Naive Bayes Classifier dengan Seleksi Feature Chi Squared

Statistic,” J. Inform. Univ. Pamulang, vol. 4, no. 3, p. 87, 2019.

[10] M. R. Tsani, A. Prima, G. Rupaka, L. Asmoro, P. Keselamatan, and T.

Jalan, “ANALISIS SENTIMEN REVIEW TRANSPORTASI

MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE

BERBASIS CHI SQUARE,” vol. 9, no. 1, pp. 35–39, 2020.

[11] N. D. Mentari, M. A. Fauzi, and L. Muflikhah, “Analisis Sentimen

Kurikulum 2013 Pada Sosial Media Twitter Menggunakan Metode K-

Nearest Neighbor dan Feature Selection Query Expansion Ranking,” J.

Pengemb. Teknol. Inf. dan Ilmu Komput. Univ. Brawijaya, vol. 2, no. 8, pp.

2739–2743, 2018.

[12] S. Fanissa, M. A. Fauzi, and S. Adinugroho, “Analisis Sentimen Pariwisata

di Kota Malang Menggunakan Metode Naive Bayes dan Seleksi Fitur

Query Expansion Ranking | Jurnal Pengembangan Teknologi Informasi dan

Ilmu Komputer,” J. Pengemb. Teknol. Inf. dan Ilmu Komput., vol. 2, no. 8,

xiv

pp. 2766–2770, 2018.

[13] M. S. Mustafa, M. R. Ramadhan, and A. P. Thenata, “Implementasi Data

Mining untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan

Algoritma Naive Bayes Classifier,” Creat. Inf. Technol. J., vol. 4, no. 2, p.

151, 2018.

[14] K. R. Prilianti and K. Kunci, “Aplikasi Text Mining untuk Automasi

Penentuan Tren Topik Skripsi dengan Metode K-Means Clustering,” vol. 2,

no. 1, pp. 1–6, 2014.

[15] F. AFSHOH, “Analisis Sentimen Menggunakan Naive Bayes Untuk

Melihat Persepsi Masyarakat Terhadap Kenaikan Harga Jual Rokok Pada

Media Sosial Twitter,” Inform. Progr. Stud. Komunikasi, Fak. Inform. D A

N Surakarta, Univ. Muhammadiyah, pp. 1–17, 2017.

[16] A. Majumdar and I. Bose, “Do tweets create value? A multi-period analysis

of Twitter use and content of tweets for manufacturing firms,” Int. J. Prod.

Econ., vol. 216, no. April, pp. 1–11, 2019.

[17] S. Mujilahwati, “Pre-Processing Text Mining Pada Data Twitter,” Semin.

Nas. Teknol. Inf. dan Komun., vol. 2016, no. Sentika, pp. 2089–9815, 2016.

[18] R. KURNIAWAN and A. APRILIANI, “Analisis Sentimen Masyarakat

Terhadap Virus Corona Berdasarkan Opini Dari Twitter Berbasis Web

Scraper,” Jurnal INSTEK (Informatika Sains dan Teknologi), vol. 5, no. 1.

p. 67, 2020.

[19] D. Wahyudi, T. Susyanto, and D. Nugroho, “Implementasi Dan Analisis

Algoritma Stemming Nazief & Adriani Dan Porter Pada Dokumen

Berbahasa Indonesia,” J. Ilm. SINUS, vol. 15, no. 2, pp. 49–56, 2017.

[20] R. T. Wahyuni, D. Prastiyanto, and E. Supraptono, “Penerapan Algoritma

Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi

Dokumen Skripsi,” J. Tek. Elektro, vol. 9, no. 1, pp. 18–23, 2017.

[21] I. M. A. Agastya, “Pengaruh Stemmer Bahasa Indonesia Terhadap Peforma

Analisis Sentimen Terjemahan Ulasan Film,” J. Tekno Kompak, vol. 12,

no. 1, p. 18, 2018.

[22] I. N. Dedi Ary Prasetya, “Deteksi wajah metode viola jones pada opencv

menggunakan pemrograman python,” Simp. Nas. RAPI XI FT UMS, pp.

18–23, 2012.

[23] R. Melita et al., “( TF-IDF ) DAN COSINE SIMILARITY PADA SISTEM

TEMU KEMBALI INFORMASI UNTUK MENGETAHUI SYARAH

HADITS BERBASIS WEB ( STUDI KASUS : SYARAH UMDATIL

AHKAM ),” vol. 11, no. 2, 2018.

[24] M. I. Maulana and A. A. Soebroto, “Klasifikasi Tingkat Stres Berdasarkan

Tweet pada Akun Twitter menggunakan Metode Improved k-Nearest

Neighbor dan Seleksi Fitur Chi- square,” vol. 3, no. 7, pp. 6662–6669,

2019.

xv

SERTIFIKASI PLAGIASI