implementasi algoritma naÏve bayes untuk

15
IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK MENGKLASIFIKASIKAN KONTEN TWITTER DENGAN INDIKASI DEPRESI SKRIPSI Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer (S.Kom.) Andre Budiman 00000032851 PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN INFORMATIKA UNIVERSITAS MULTIMEDIA NUSANTARA TANGERANG 2021

Upload: others

Post on 28-Mar-2022

3 views

Category:

Documents


0 download

TRANSCRIPT

MENGKLASIFIKASIKAN KONTEN TWITTER DENGAN
Sarjana Komputer (S.Kom.)
DEPRESI
Oleh
Tangerang, 20 Januari 2021
Dosen Pembimbing II
iii
Menyatakan bahwa skripsi yang berjudul “Implementasi Algoritma Naïve Bayes
Untuk Mengklasifikasikan Konten Twitter Dengan Indikasi Depresi” ini
adalah karya ilmiah saya sendiri, bukan plagiat dari karya ilmiah yang ditulis oleh
orang lain atau lembaga lain, dan semua karya ilmiah orang lain yang dirujuk dalam
Skripsi ini telah disebutkan sumber kutipannya serta dicantumkan di Daftar
Pustaka.
Jika di kemudian hari terbukti ditemukan kecurangan/ penyimpangan, baik dalam
pelaksanaan Skripsi maupun dalam penulisan laporan Skripsi, saya bersedia
menerima konsekuensi dinyatakan TIDAK LULUS untuk mata kuliah Skripsi yang
telah saya tempuh.
tangan di bawah ini:
Jenis Karya : Skripsi
Universitas Multimedia Nusantara hak Bebas Royalti Non-eksklusif (Non-
exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul
IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK
MENGKLASIFIKASIKAN KONTEN TWITTER DENGAN INDIKASI
DEPRESI
Dengan Hak Bebas Royalti Non-eksklusif ini, pihak Universitas Multimedia
Nusantara berhak menyimpan, mengalih media atau format-kan, mengelola dalam
bentuk pangkalan data (database), merawat, dan mendistribusi dan menampilkan
atau mempublikasikan karya ilmiah saya di internet atau media lain untuk
kepentingan akademis, tanpa perlu meminta izin dari saya maupun memberikan
royalti kepada saya, selama tetap mencantumkan nama saya sebagai penulis karya
ilmiah tersebut.
sebagaimana mestinya.
KATA PENGANTAR
Puji syukur kepada Tuhan Yang Maha Esa atas kasih karunia-Nya yang
sudah menyertai orang-orang dan penulis sehingga dapat menyelesaikan laporan
Skripsi. Laporan Skripsi yang berjudul “Implementasi Algoritma Naïve Bayes
Untuk Mengklasifikasikan Konten Twitter Dengan Indikasi Depresi” diajukan
kepada Program Studi Informatika, Fakultas Teknik dan Informatika, Universitas
Multimedia Nusantara sebagai salah satu syarat kelulusan.
Penulis menyadari bahwa penyusunan laporan skripsi tidak mungkin dapat
diselesaikan dengan baik tanpa adanya bantuan dan dorongan dari berbagai pihak.
Oleh karena itu, penulis ingin mengucapkan terima kasih kepada:
1. Dr. Ninok Leksono, selaku Rektor Universitas Multimedia Nusantara, yang
memberi insiprasi bagi penulis untuk berprestasi,
2. Dr. Eng. Niki Prastomo, S.T., M.Sc., Dekan Fakultas Teknik dan Informatika
Universitas Multimedia Nusantara,
Informatika Universitas Multimedia Nusantara,
4. Julio Christian Young, M.Kom, sebagai dosen pembimbing I dan dosen
pembimbing akademis yang membimbing pembuatan laporan Skripsi dan
yang telah mengajar penulis tata cara menulis karya ilmiah dengan benar,
5. Alethea Suyadibrata, S.Kom., M.Eng, sebagai dosen pembimbing II yang
telah membantu dalam membimbing pembuata laporan Skripsi dan telah
mengajar tata cara menulis karya ilmiah dengan benar,
vii
6. Patricia Astrid Nadia, S.Psi dan Narasumber lainnya, sebagai narasumber
yang membantu dalam memberikan arahan dalam melakukan indikasi
terhadap konten Twitter,
8. Teman-teman dari prodi Informatika yang sudah mendukung dalam
pengerjaan skripsi,
Semoga laporan Skripsi ini dapat menjadi sumber informasi yang bermanfaat
bagi orang yang membaca
Tangerang, 20 Januari 2021
MENGKLASIFIKASIKAN KONTEN TWITTER DENGAN
Depresi merupakan salah satu masalah kesehatan paling umum dan memiliki
dampak yang sangat besar. Depresi ditandai atau dipengaruhi oleh banyak aspek,
termasuk pengalaman hidup, pekerjaan, kehidupan sosial. Pada tahun 2018, tercatat
6.1% dari 267.7 juta jiwa mengalami gangguan mental di Indonesia. Hal ini juga
berhubungan dengan stigma akan penyakit kejiwaan dan rendahnya kesadaran
dalam menjalani pengobatan kepada ahli. Pengekspresian diri saat ini kerap kali
dilakukan dengan membuat postingan pada media sosial. Twitter adalah salah satu
dari alat pengekspresian diri atau emosi dalam bentuk tekstual yang sering
digunakan untuk mengekspresikan diri. Penelitian ini didasari pada data yang
dikumpulkan dari Twitter dengan konten bahasa Indonesia. Data yang dikumpulkan
kemudian dikategorikan ke dalam “Terindikasi Depresi” dan “Tidak Terindikasi
Depresi” yang didasari oleh pengertian dan faktor lainnya. Model prediktif yang
digunakan adalah Multinomial Naïve Bayes dan Complement Naïve Bayes dengan
bantuan metode ekstraksi fitur Term Frequency – Inverse Document Frequency
(TF-IDF) dan Grid-Search Cross Validation dalam melakukan pembobotan kata
dan pencarian parameter terbaik. Hasil akurasi terbaik yang dihasilkan oleh model
Multinomial Naïve Bayes berada pada 93.85% dan model Complement Naïve Bayes
berada pada 93.35%.
Complement Naïve Bayes
ABSTRACT
Depression is one of the most common health problems and has a huge impact.
Depression is characterized or influenced by many aspects, including life
experiences, work, social life. In 2018, 6.1% of the 267.7 million people
experienced mental disorders in Indonesia. This is also related to the stigma of
psychiatric illness and low awareness of undergoing treatment to experts. Today's
self-expression is often done by making posts on social media. Twitter is one of the
tools of self-expression or emotion in textual form which is often used to express
oneself. This research is based on data collected from Twitter with Indonesian
language content. The data collected were then categorized into "Depression
Indication" and "No Depression Indication" which were based on definitions and
other factors. The predictive models used are Multinomial Naïve Bayes and
Complement Naïve Bayes with the help of Term Frequency - Inverse Document
Frequency (TF-IDF) as feature extractor and Grid-Search Cross Validation in
weighting words and searching for the parameters best. The best accuracy results
produced by the model Multinomial Naïve Bayes are at 93.85% and the model
Complement Naïve Bayes is at 93.35%.
Keywords: Sentiment Analysis, Depression, Multinomial Naïve Bayes,
Complement Naïve Bayes, TF-IDF
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK
KEPENTINGAN AKADEMIS ............................................................................. iv
KATA PENGANTAR ........................................................................................... vi
1.2 Rumusan Masalah .................................................................................... 5
1.3 Batasan Masalah ....................................................................................... 5
1.4 Tujuan Penelitian ...................................................................................... 6
1.5 Manfaat Penelitian .................................................................................... 6
1.5.1 Manfaat Praktis ................................................................................. 6
1.5.2 Manfaat Teoritis ................................................................................ 7
1.6 Sistematika Penulisan ............................................................................... 7
2.1 Analisis Sentimen ..................................................................................... 9
2.3 Twitter .................................................................................................... 12
2.8 Klasifikasi Multinomial Naïve Bayes .................................................... 20
2.9 Klasifikasi Complement Naïve Bayes .................................................... 22
xi
BAB 3 METODE PENELITIAN.......................................................................... 26
3.5 Perancangan Sistem ................................................................................ 37
BAB 4 IMPLEMENTASI DAN UJI COBA ........................................................ 59
4.1 Spesifikasi Perangkat ............................................................................. 59
4.2 Implementasi Sistem .............................................................................. 60
4.2.1 Potongan Kode Regular Expression................................................ 60
4.2.3 Potongan Kode Text Preprocessing – Case Folding ....................... 62
4.2.4 Potongan Kode Text Preprocessing - Tokenization ........................ 64
4.2.5 Potongan Kode Teks Preprocessing - Stopwords ........................... 65
4.2.6 Potongan Kode Teks Preprocessing - Stemming ............................ 67
4.2.7 Potongan Kode Pembobotan TF-IDF Vectorizer ............................ 68
4.2.8 Potongan Kode Multinomial Naïve Bayes ...................................... 69
4.2.9 Potongan Kode Complement Naïve Bayes ..................................... 70
4.2.10 Potongan Kode Grid Search Cross Validation ................................ 71
4.3 Uji Coba ................................................................................................. 74
5.1 Simpulan ................................................................................................. 87
5.2. Saran ....................................................................................................... 87
DAFTAR PUSTAKA ........................................................................................... 88
Daftar Lampiran .................................................................................................... 92
Gambar 3.2 Gambaran Umum Sistem Klasifikasi Tweet ..................................... 35
Gambar 3.3 Crawling Twitter Data ...................................................................... 38
Gambar 3.4 Fungsi Penarikan Data ...................................................................... 39
Gambar 3.5 Flowchart Modul Text Preprocessing .............................................. 40
Gambar 3.6 Flowchart Proses Normalisasi .......................................................... 41
Gambar 3.7 Flowchart Modul Case Folding ........................................................ 42
Gambar 3.8 Flowchart Modul Tokenizing ............................................................ 43
Gambar 3.9 Flowchart Modul Filtering ............................................................... 44
Gambar 3.10 Flowchart Modul Stemming ............................................................ 45
Gambar 3.11 Flowchart Modul Grid-Search Cross Validation ........................... 46
Gambar 3.12 Flowchart TF-IDF .......................................................................... 47
Gambar 3.13 Flowchart Modul Term Frequency ................................................. 48
Gambar 3.14 Flowchart Proses Document Frequency ......................................... 49
Gambar 3.15 Flowchart Proses TF-IDF ............................................................... 50
Gambar 3.16 Flowchart Modul Training ............................................................. 51
Gambar 3.17 Flowchart Modul Populate Data .................................................... 52
Gambar 3.18 Flowchart Modul Conditional Probability ..................................... 53
Gambar 3.19 Flowchart Modul Testing ................................................................ 54
Gambar 3.20 Flowchart Modul Likelihood .......................................................... 55
Gambar 3.21 Flowchart Modul Prior Probability ................................................ 56
Gambar 3.22 Flowchart Modul Posterior Probability ......................................... 57
Gambar 3.23 Flowchart Modul Klasifikasi Data Tweet ....................................... 58
Gambar 4.1 Implementasi Regular Expression Terhadap Data Awal .................. 61
Gambar 4.2 Penarikan dan Penyimpanan Data Tweet .......................................... 62
Gambar 4.3 Implementasi Text Preprocessing Case Folding .............................. 63
Gambar 4.4 Implementasi Text Preprocessing Tokenization ............................... 64
Gambar 4.5 Implementasi Text Preprocessing Stopword ..................................... 66
Gambar 4.6 Implementasi Text Preprocessing Stemming .................................... 67
Gambar 4.7 Implementasi Pembobotan Kata TfIdfVectorizer .............................. 68
Gambar 4.8 Implementasi Vectorizer TF-IDF ...................................................... 69
Gambar 4.9 Implementasi Algoritma Multinomial Naive Bayes .......................... 70
Gambar 4.10 Implementasi Algoritma Complement Naïve Bayes ....................... 71
Gambar 4.11 Library Yang Digunakan Untuk Grid-Search Cross Validation .... 72
Gambar 4.12 Implementasi Grid-Search Cross Validation – MNB ..................... 72
Gambar 4.13 Implementasi Grid-Search Cross Validation - CNB ....................... 73
Gambar 4.14 Implementasi Prediksi Terhadap Set Data Testing .......................... 74
Gambar 4.15 Implementasi Matrix Evaluasi ........................................................ 74
xiii
Tabel 3.1 Contoh Data Tweet Training ................................................................. 30
Tabel 3.2 Kata Baku .............................................................................................. 31
Tabel 3.3 Contoh Normalisasi Pada Data Tweet Awal ......................................... 31
Tabel 4.1 Contoh Hasil Implementasi Regular Expression .................................. 61
Tabel 4.2 Contoh Hasil Implementasi Text Preprocessing Case Folding ............. 64
Tabel 4.3 Contoh Implementasi Text Preprocessing Tokenization ...................... 65
Tabel 4.4 Contoh Implementasi Text Preprocessing Stopwords .......................... 66
Tabel 4.5 Contoh Implementasi Text Preprocessing Stemming ........................... 67
Tabel 4.6 Contoh Hasil Pembobotan Kata TF-IDF .............................................. 68
Tabel 4.7 Hasil Uji Coba Rasio 80:20 .................................................................. 75
Tabel 4.8 Hasil Uji Coba Skenario 2 - Complement Naive Bayes ........................ 76
Tabel 4.9 Hasil Uji Coba Skenario 3 - Analyzer Char - MNB .............................. 77
Tabel 4.10 Hasil Uji Coba Skenario 3 - Analyzer Char - CNB............................. 77
Tabel 4.11 Hasil Uji Coba Skenario 4 (n-gram Dengan Analyzer Word) ............ 78
Tabel 4.12 Hasil Uji Coba Skenario-4 (n-gram Dengan Analyzer Char) ............. 79
xiv
92
Lampiran 2 : Dataset ............................................................................................. 98
Lampiran 4 : Form bimbingan skripsi dosen pembimbing 2 .............................. 113
Lampiran 5 : Riwayat hidup ................................................................................ 114