LAPORAN PENELITIAN DOSEN STIS
DETEKSI HOAKS KESEHATAN MENGGUNAKAN PENDEKATAN
LINGUISTIK DAN PEMBELAJARAN MESIN
Siti Mariyah, M.T.
Farid Ridho, M.T.
LEMBAR PENGESAHAN
Laporan Penelitian Dosen dengan judul:
DETEKSI HOAKS KESEHATAN MENGGUNAKAN PENDEKATAN
LINGUISTIK DAN PEMBELAJARAN MESIN
Nama Peneliti:
Siti Mariyah, M.T.
Farid Ridho, M.T.
Dilaksanakan pada Agustus 2017 sampai dengan November 2017
Telah disahkan oleh Kepala Unit Penelitian dan Pengabdian Masyarakat (UPPM)
Sekolah Tinggi Ilmu Statistik (STIS), pada tanggal 27 November 2017
Menyetujui,
Kepala UPPM
Dr. Hardius Usman
NIP. 196704251989011002
Ketua Peneliti
Dr. Erni Tri Astuti
NIP. 196710221990032002
Mengetahui
Pembantu Ketua I
Dr. Erni Tri Astuti
NIP. 196710221990032002
UNIT PENELITIAN DAN PENGABDIAN MASYARAKAT (UPPM)
SEKOLAH TINGGI ILMU STATISTIK (STIS)
2017
DETEKSI HOAKS KESEHATAN MENGGUNAKAN
PENDEKATAN LINGUISTIK DAN PEMBELAJARAN
MESIN
Disusun Oleh:
SITI MARIYAH
FARID RIDHO
SEKOLAH TINGGI ILMU STATISTIK
JAKARTA
2017
i
DAFTAR ISI
DAFTAR ISI .................................................................................................................................................... i
DAFTAR GAMBAR ........................................................................................................................................ ii
BAB I PENDAHULUAN ................................................................................................................................. 1
1.1. Latar Belakang .............................................................................................................................. 1
1.2. Pertanyaan Penelitian .................................................................................................................. 2
1.3. Tujuan Penelitian .......................................................................................................................... 3
1.4. Manfaat Penelitian ....................................................................................................................... 3
1.5. Batasan Penelitian........................................................................................................................ 3
BAB II KAJIAN PUSTAKA ............................................................................................................................. 5
2.1 Pemrosesan Bahasa Alami ........................................................................................................... 5
2.2 Aplikasi dalam Bidang Pemrosesan Bahasa Alami ..................................................................... 7
2.3 Support Vector Machine .............................................................................................................. 7
2.4 Penelitian Terkait ......................................................................................................................... 8
BAB III METODE PENELITIAN .................................................................................................................... 11
3.1 Kerangka Pikir .................................................................................................................................... 11
3.2. Metode Penelitian ....................................................................................................................... 12
BAB IV HASIL PENELITIAN .......................................................................................................................... 15
4.1 Dataset ............................................................................................................................................... 15
4.2 Pemodelan ......................................................................................................................................... 17
4.3 Hasil Pengujian ................................................................................................................................. 19
BAB V KESIMPULAN ................................................................................................................................... 21
4.1. Kesimpulan ....................................................................................................................................... 21
4.2. Saran ................................................................................................................................................. 21
ii
DAFTAR GAMBAR
Gambar 1. SVM berusaha menemukan hyperplane terbaik yang memisahkan kedua class -1 dan +1 ..... 8
Gambar 2. Kerangka Penelitian ................................................................................................................. 11
Gambar 3. Metode Penelitian .................................................................................................................... 12
Gambar 4. Wordcloud Hoax dengan Stopwords ..................................................................................... 20
Gambar 5. Wordcloud Hoax tanpa Stopwords ........................................................................................ 20
1
BAB I PENDAHULUAN
1.1. Latar Belakang
Hoax singkatan dari “hocus to trick” merupakan kata yang berarti ketidakbenaran suatu
informasi (KBBI), berita bohong (KBBI), dan berita bohong, tidak bersumber. Istilah hoax, kabar
bohong, menurut Lynda Walsh dalam buku “Sins Against Science”, merupakan istilah dalam Bahasa
Inggris yang masuk sejak era industri, diperkirakan pertama kali muncul pada tahun 1808. Beberapa
tahun terakhir, hoax menjadi isu hangat baik di media massa maupun media sosial di berbagai negara
khususnya Indonesia. Direktur Institute of Cultural Capital di University of Liverpool, Simeon Yates
dalam tulisan “Fake News’- Why People Believe It and What Can Be Done to Counter It”” yang
dimuat dalam world.edu, menyebut ada fenomena gelembung atau bubbles dalam penggunaan
media sosial.
Penggunaan media sosial cenderung berinteraksi dengan orang yang memiliki ketertarikan yang
sama dengan diri sendiri. Jika dilihat dari status sosial, gelembung media sosial tersebut
mencerminkan gelembung “offline” sehari-hari. Kelompok tersebut kembali ke model lama, juga
bertemu pada opini pemimpin mereka yang memiliki pengaruh di jejaring sosial. Kabar bohong yang
beredar di media sosial menjadi besar ketika diambil oleh situs atau pelaku terkemuka yang memiliki
banyak pengikut. Kecepatan dan sifat media sosial yang mudah untuk dibagikan, shareability
berperan dalam penyebaran berita bohong. Ditambah kemajuan teknologi yang semakin
mempermudah siapapun untuk menyebarkan berita bohong, seperti kemudahan untuk membuat
blog, membuat website, kemudahan copy-paste, forward dan share pada aplikasi perpesanan
(chatting app) yang semakin memudahkan penyebaran hoax.
Keberadaan hoax dapat meresahkan masyarakat karena konten hoax yang cenderung menipu
dan dapat men-trigger pembaca untuk percaya dan melakukan apa yang disampaikan dalam hoax
tersebut. Hoax sengaja ditulis dan disebarluaskan dengan banyak tujuan, seperti sengaja untuk
membuat kegaduhan, provokasi antar kelompok masyarakat atau pendukung public figure, atau juga
disengaja untuk mengambil keuntungan dari pembaca hoax. Hoax kini menjadi perhatian pemerintah
karena dampak yang diakibatkan darinya. Bahkan Mantan Presiden Amerika Barack Obama
menyatakan sulit untuk membedakan mana yang bohong/palsu dari fakta. Salah satu cara yang
diupayakan adalah mencabut hoax di media sosial atau website. Namun mencabut hoax tidak
didukung oleh teknologi dan tindakan ini bersifat pasif. Artinya meskipun hoax itu telah dicabut atau
2
dihapus dari sumbernya, namun besar kemungkinan hoax itu tetap ada selama hoax ini sudah pernah
dibagikan (di-share, di-broadcast atau di-forward) sebelum hoax itu dicabut/dihapus. Diperlukannya
suatu inovasi untuk mencegah atau minimal mengurangi penyebaran hoax tersebut. Inovasi yang
telah dilakukan oleh peneliti-peneliti dunia adalah membangun hoax detection system namun sistem
yang dibangun hanya bisa mengklasifikasikan input teks dalam Bahasa Inggris. Selain itu komunitas
Masyarakat Anti Fitnah Indonesia telah membangun suatu website yang memfasilitasi masyarakat
untuk mengadukan suatu berita hoax dan menyampaikan berita-berita hoax yang sudah berhasil
diklarifikasi.
Berangkat dari permasalahan dan kebutuhan yang telah disampaikan, penelitian ini hadir untuk
mencari inovasi bagaimana memperlakukan hoax. Penelitian ini membangun suatu sistem
pendeteksi hoax berbahasa Indonesia. Sistem menerima input berupa tulisan atau paragraf
berbahasa Indonesia kemudian dianalisis untuk ditentukan apakah tulisan atau paragraf tersebut
merupakan tulisan atau paragraf hoax, suspected to be hoax atau bukan hoax. Metode yang
digunakan untuk membangun sistem ini adalah supervised learning dari dataset berita hoax dan
berita bukan hoax. Untuk memproses kalimat-kalimat yang terdapat dalam dataset, teknik text
mining dipakai dalam penelitian ini.
1.2. Pertanyaan Penelitian
Membangun model klasifikasi untuk memprediksi kebenaran suatu berita kesehatan
dipengaruhi oleh karakteristik berita tersebut, corpus (jumlah berita kesehatan yang dianalisis) dan
algoritma klasifikasi yang digunakan. Penelitian ini berangkat dari titik 0 karena corpus berita
kesehatan belum tersedia. Peneliti harus mengumpulkan berita-berita kesehatan, memilah mana
berita yang valid dan berita yang hoaks, lalu menggabungkannya sehingga terbentuk corpus berita
kesehatan valid dan hoax. Berikut adalah beberapa pertanyaan/permasalahan penelitian ini:
1. Apa ciri-ciri berita kesehatan yang valid dan hoaks?
2. Fitur-fitur apa saja yang bisa membedakan atau mencirikan suatu berita kesehatan masuk
kategori valid atau kategori hoaks?
3. Bagaimana performance dari model klasifikasi yang akan dibuat? Dan bagaimana interpretasi
dari performance tersebut?
3
1.3. Tujuan Penelitian
Tujuan penelitian adalah menganalisa metode dan teknik yang tepat untuk membangun suatu
sistem pendeteksi hoax yang mampu mengkategorikan suatu berita / paragraf ke dalam berita hoax,
suspected to be hoax, atau berita bukan hoax berdasarkan ciri-ciri berita tersebut. Tujuan lain yang
ingin dicapai dalam penelitian ini adalah:
1. Membangun dataset berita hoax dan berita bukan hoax.
2. Menganalisa dan membangun teknik text preprocessing yang sesuai dengan bentuk berita hoax
dan berita bukan hoax berbahasa Indonesia.
3. Menganalisa dan membangun teknik serta tahapan text mining yang sesuai dengan klasifikasi
berita hoax dan bukan hoax.
4. Menganalisa algoritma pembelajaran terlatih (supervised learning algorithm) yang sesuai dengan
domain penelitian.
1.4. Manfaat Penelitian
Beberapa manfaat yang dapat diperoleh dalam penelitian ini antara lain:
a. memberikan kontribusi ilmu pengetahuan dalam mengembangkan teknik text mining yang tepat
untuk menganalisa berita kesehatan. Sehingga dapat ditentukan apakah berita kesehatan
tesebut valid ata hoaks;
b. mengenali ciri-ciri berita kesehatan yang valid dan yang hoaks;
c. langkah awal untuk membangun corpus berita kesehatan valid dan hoaks dimana corpus
tersebut bisa dimanfaatkan untuk penelitian berikutnya.
1.5. Batasan Penelitian
Mendeteksi suatu berita apakah benar atau hoax memiliki tingkat kesulitan yang cukup tinggi.
Sampai saat ini belum ada sistem yang mampu menentukan secara langsung dengan keakuratan
100% apakah suatu berita mengandung hoax atau tidak. Pendeteksian hoax masih membutuhkan
peran manusia untuk mengumpulkan berita-berita hoax dan bukan hoax atau membutuhkan proses
lain apakah suatu berita benar-benar valid atau tidak. Selain itu kategori dari berita hoax sangat
beragam mulai dari berita politik, public figure, kesehatan, keuangan, dll dan sangat sulit untuk meng-
cover semua kategori. Maka dari itu, lingkup dari penelitian ini adalah berita kesehatan saja. Hal ini
4
dikarenakan untuk memvalidasi dan memastikan kebenaran berita kesehatan lebih mudah
dibandingkan kategori berita lainnya. Peneliti dapat memvalidasi lewat buku, majalah kesehatan,
ataupun jurnal kesehatan. Selain itu berita kesehatan sifatnya objektif berbeda dengan berita
lainnya.
5
BAB II KAJIAN PUSTAKA
2.1 Pemrosesan Bahasa Alami
Bahasa adalah alat komunikasi antar individu dalam sebuah masyarakat. Keberagaman bahasa
menunjukkan keberagaman budaya dan kekayaan karakteristik masyarakat. Pemrosesan bahasa
alami atau lebih sering dikenal dengan istilah NLP (Natural Language Processing) adalah melakukan
proses pembuatan model komputasi dari bahas, sehingga dapat terjadi suatu interaksi antara
manusia dengan computer dengan perantaraan bahasa alami. Model komputasi ini dapat berguna
untuk keperluan ilmiah seperti meneliti sifat-sifat dari suatu bentuk bahasa alami maupun untuk
keperluan sehari-hari dalam hal ini memudahkan komunikasi antara manusia dengan computer.
Pemrosesan bahasa alami harus memperhatikan pengetahuan terhadap bahasa itu sendiri, baik
dari segi kata yang digunakan, bagaimana kata-kata tersebut digabung menghasilkan suatu kalimat,
apa arti sebuah kata, apa fungsi sebuha kata, apa fungsi sebuah kata dalam sebuah kalimat dan
sebagainya.
Secara singkat pemrosesan bahasa alami mengenal beberapa tingkat pengolahan yaitu:
a) Fonetik dan fonologi:
Berhubungan dengan suara yang menghasilkan kata yang dapat dikenali. Bidang ini menjadi
penting dalam proses aplikasi yang memakai speech based system.
b) Morfologi
Pengetahuan tentang kata dan bentuknya dimanfaatkan untuk membedakan satu kata
dengan lainnya. Pada tingkat ini juga dapat dipisahkan antara kata dan elemen lain seperti
tanda baca. Sebagai contoh:
going (word) go (root) + ing (suffix)
understand (word) under (prefix) + stand (root)
c) Sintaksis
Pemahaman tentang urutan kata dalam pembentukan kalimat dan hubungan antar kata
tersebut dalam proses perubahan bentuk dari kalimat menjadi bentuk yang sistematis.
Meliputi proses pengaturan tata letak suatu kata dalam kalimat akan membentuk kalimat
yang dapat dikenali. Selain itu dapat pula dikenali bagian-bagian kalimat dalam suatu kalimat
yang besar. Sebagai contoh kalimat S dibentuk dari noun phrase (NP) dan verb phrase (VP).
S NP,VP
6
Dan berikutnya:
NP DET, N
VP V,NP
NP N
d) Semantik
Pemetaan bentuk struktur sintaksis dengan memanfaatkan tiap kata ke dalam bentuk yang
lebih mendasar dan tidak tergantung struktur kalimat. Semantik mempelajari arti suatu kata
dana bagaimana dari arti kata-arti kata tersebut membentuk suatu arti dari kalimat yang
utuh. Dalam tingkatan ini belum tercakup konteks dari kalimat tersebut.
e) Pragmatik
Pengetahuan pada tingkatan ini berkaitan dengan masing-masing konteks yang brbeda
tergantung pada situasi dan tujuan pembuatan sistem.
f) Discourse Knowledge
Melakukan pengenalan apakah suatu kalimat yang sudah dibaca dan dikenali sebelumnya
akan mempengaruhi arti dari kalimat selanjutnya. Informasi ini penting diketahui untuk
melakukan pengolahan arti terhadap kata ganti orang dan untuk mengartikan aspek
sementara dari informasi.
g) Word Knowledge
Mencakup arti sebuah kata secara umum dan apakah ada arti khusus bagi suatu kata dalam
suatu percakapan dengan konteks tertentu.
Definisi ini tidaklah bersifat kaku dan untuk setiap bentuk bahasa alami yang ada biasanya ada
pendefinisian lagi yang lebih spesifik sesuai dengan karakter bahasa tersebut. Pada beberapa
masalah mungkin hanya mengambil beberapa dari pendekatan tersebut bahkan mungkin ada yang
melakukan tambahan proses sesuai dengan karakter dari bahasa yang digunakan dan sistem yang
dibentuk.
Satu masalah lain yang dihadapi dalam pemrosesan bahasa alami yaitu ambiguitas atau makna
ganda ari suatu kalimat. Dari satu masukan yang sama dapat menjadi beberapa arti yang berbeda
dan masing-masing dapat bernilai benar tergantung pada keperluan pemakai. Hal ini dapat terjadi
pada hamper semua tingkatan pendekatan di atas.
7
2.2 Aplikasi dalam Bidang Pemrosesan Bahasa Alami
Jenis aplikasi yang bisa dibuat pada bidang pemrosesan bahasa alami adalah: text-based
application dan dialogue-based application. Text-based application mencakup segala macam aplikasi
yang melakukan proses terhadap teks tertulis seperti buku, berita di surat kabar, e-mail, dll. Contih
penggunaan dari text-based application ini adalah:
a. Mencari topik tertentu dari buku yang ada di perpustakaan.
b. Mencari isi dari surat atau e-mail.
c. Menerjemahkan dokumen dari satu bahasa ke bahasa yang lain.
2.3 Support Vector Machine
Support vector machine (SVM) pertama kali diperkenalkan oleh Vapnik pada tahun 1992 sebagai
rangkaian harmonis konsep-konsep unggulan dalam bidang pattern recognition. Sebagai salah satu
metode pattern recognition, usia SVM terbilang relative muda. Walaupun demikian, evaluasi
kemampuannya dalam berbagai aplikasinya menempatkannya sebagai state-of-the-art dalam pattern
recognition dan dewasa ini merupakan salah satu tema yang berkembang pesat. SVM adalah metode
machine learning yang bekerja atas prinsip Structural Risk Minimization (SRM) dengan tujuan
menemukan hyperplan terbaik yang memisahkan dua buah kelas pada input space.
Pattern recognition merupakan salah satu bidang dalam computer sains yang memetakan suatu
data ke dalam konsep tertentu yang telah didefinisikan sebelumnya. Konsepr tertentu ini disebut
class atau category. Contoh aplikasi pattern recognition diantaranya klasifikasi dokumen berdasarkan
topik tertentu, mengenali suara dalam sistem sekuriti, membaca huruf dalam OCR, dsb. Konsep SVM
dapat dijelaskan sebagai usaha mencari hyperplan terbaik yang berfungsi sebagai pemisah duabuah
class pada input space.
8
Gambar 1. SVM berusaha menemukan hyperplane terbaik yang memisahkan kedua class -1 dan +1
Gambar 1a. menunjukkan beberapa pattern yang merupakan anggota dari dua buah class: +1 dan
-1. Patterm yang tergabung pada class -1 disimbolkan dengan warna merah kotak, sedangkan patern
pada class +1, disimbolkan dengan warna kuning lingkaran. Problem dapat klasifikasi diterjemahkan
dengan usaha menemukan garis (hyperplane) yang memisahkan antara kedua kelompok tersebut.
Berbagai alternative garis pemisah (discrimination boundaries) ditunjukkan pada gambar 1a.
Hyperplane pemisah terbaik antara kedua class dapat ditemukan dengan mengukur margin
hyperplane tersebut dan mencari titik maksimalnya. Margin adalah jarak antara hyperplane tersebut
dengan pattern terdekat ari masing-masing class. Pattern yang paling dekat ini disebut sebagai
support vector. Garis solid pada gambar 1b menunjukkan hyperplane yang tebaik, yaitu yang terletak
pada tengah-tengah kedua class, sedangkan titik merah dan kuning yang berada dalam lingkatan
hitam adalah support vector. Usaha untuk mencari lokasi hyperplane ini merupakan inti dari proses
pembelajaran pada SVM.
2.4 Penelitian Terkait
Terdapat beberapa penelitian dari jurnal internasional yang telah berusaha untuk
mengidentifikasi kevalidan suatu berita dan memprediksi apakah suatu berita itu valid atau hoaks.
Penelitian yang dilakukan oleh Vukovic, Pripuzic dan Belani adalah membangun sebuah Intelligent
Automatic Hoax Detection System dengan menggunakan artificial neural network pada pesan e-mail.
Latar belakang penelitian mereka yaitu ingin membedakan e-mail hoax dengan e-mail spam.
9
Sebagaimana yang diketahui, e-mail spam berisi informasi-informasi terkait promosi suatu produk
atau event tertentu yang biasa dikirim oleh pihak marketing perusahaan. Pendekatan yang dipakai
ada dua yaitu pendekatan supervised learning menggunakan feed-forward artificial neural network
dan unsupervised learning menggunakan self-organizing map (SOM). Mereka mengujikan model yang
dibangun pada e-mail berbahasa Inggrisi dan Croatian. Text preprocessing yang dipakai meliputi
tokenisasi dan normalisasi teks.
Penelitian Ishak, Chen dan Yong membangun automatic hoax detection system untuk melindungi
penerima e-mail dari informasi yang salah. Mereka menggunakan Levenshtein Distance untuk
mengukur tingkat kemiripan suatu e-mail terhadap kumpulan e-mail yang mengandung informasi
yang salah dan kumpulan e-mail yang mengandung informasi yang valid. Sistem yang dibangun
menghasilkan positive predicted value 0.96 namun kurang bisa mengindetifikasi e-mail asli. Mereka
menyimpulkan bahwa e-mail yang mengandung informasi yang salah (e-mail hoax) tidak hanya dalam
bentuk teks tetapi juga gambar. Keywords yang menyatakan hoax juga terbatas. Sistem mereka
butuh improvement.
Conroy, Rubin, dan Chen melakukan literature survey pendekatan yang dilakukan untuk
mendeteksi hoax. Literature survey menyimpulkan ada dua pendekatan yaitu pendekatan linguistik
(linguistics approaches) dan network approaches yang dikombinasikan dalam machine learning.
Pendekatan linguistic terdiri dari data representation, deep syntax, dan semantic analysis. Data
representation menggunakan bag-of-words, n-grams, dan fitur-fitur yang bersifat lexical cues seperti
pos speech tag dan location-based words. Kelemahan data representation adalah tidak dapat
menggambarkan konteks informasi. Deep syntax menggunakan Probability Context Free Grammar
(PCFG) dengan cara mentransformasi kalimat ke dalam sekumpulan aturan (rule) untuk
menggambarkan struktur sintaks kalimat. Hasilnya analisis sintaks saja tidak cukup mendeteksi
hoaks. Semantic analysis mengidentifikasi signals of truthfulness dengan membandingkan personal
experience (seperti review hotel) dengan content profile yang diturunkan dengan data yang
berkaitan (analogous data). Kelemahannya 1) alignment capability antara atribut dan descriptor
bergantung pada kecukupan conten profile yang diolah, 2) asosiasi antara atribut yang diesktrak dgn
descriptor dengan benar. Network approaches menggunakan metadata yang dikombinasikan dengan
hyperlink untuk membangun pengukuran kebenaran (veracity assessment).
10
11
BAB III METODE PENELITIAN
3.1 Kerangka Pikir
Kerangka pikir dari penelitian ini sebagai berikut;
Gambar 2. Kerangka Penelitian
Kerangka penelitian terdiri dari empat komponen yaitu indikator, classifier yang diajukan (model
klasifikasi yang diajukan), tujuan, dan pengukuran. Indikator adalah sesuatu yang dicari dalam
penelitian ini. Indikator terdiri dari jenis kernel yang dipakai dalam algoritma SVM yaitu kernel linear
dan kernel non-linear. Features (fitur-fitur) merupakan matriks karakteristik yang akan diinputkan ke
dalam algoritma SVM. Matriks ini berisi kumpulan nilai-nilai dari fitur-fitur yang berhasil diekstrak dari
corpus. Mengidentifikasi fitur-fitur yang bisa menggambarkan karakteristik berita kesehatan valid
dan berita kesehatan hoaks menjadi permasalahan utama dalam penelitian ini.
Kombinasi jenis kernel dan matriks fitur-fitur akan menjadi parameter dan input bagi algoritma
klasifikasi SVM. Algoritma ini akan belajar dari fitur-fitur data pelatihan (training set) sehingga
terbentuk suatu classifier (model klasifikasi). Model klasifikasi ini kemudian dites/diuji menggunakan
fitur-fitur yang diekstrak dari data uji (testing set). Tujuan nya adalah membangun model yang bisa
memprediksi berita kesehatan baru dan mengklasifikasikannya dengan benar. Performance classifier
dilihat dari precision, recall, dan accuracy.
12
3.2. Metode Penelitian
Berikut metode penelitian yang dipakai:
Gambar 3. Metode Penelitian
Penelitian diawali dengan mendefiinsikan sumber data yaitu website yang mempublikasikan
berita kesehatan yang valid dan hoaks. Website sumber berita diantaranya https://health.detik.com,
htpps://health.liputan6.com, dan https://www.turnbackhoax.id. Alamat website tersebut dijadikan
target atau objek crawling dan scrapping. Crawling dan scrapping ditujukan untuk mengambil berita
secara otomatis. Berita yang berhasil dicrawled disimpan pada dua corpus yaitu corpus berita
kesehatan valid dan corpus berita kesehatan hoax.
Kumpulan berita kemudian di-preprocess dengan cara melakukan tokenisasi yaitu pemotongan
berita menjadi kumpulan kalimat lalu kumpulan kalimat menjadi kumpulan kata. Tokenisasi
menggunakan pola regex (regular expression). Dari kumpulan token akan dibuang token-token yang
merupakan kata stopwords. Stopwords adalah kata-kata yang sering muncul dan tidak mampu
mencirikan suatu topik. Setelah corpus bersih dari stopwords, dilakukanlah stemming. Stemming
adalah proses memenggal satu kata menjadi kata dasarnya. Misalkan kata “memasak” di-stemming
menjadi kata “masak”. Selain stemming, diterapkan juga teknik lemmatization yaitu memenggal
suatu kata dengan memperhatikan konteks di sekitar kata tersebut.
Setelah corpus di-preprocess, langkah selanjutnya adalah memilih dan mengekstraksi fiutr-fitur
yang dimiliki oleh sekumpulan berita kesehatan valid dan hoaks. Fitur yang text mining bisa berupa
13
fitur morfologi, contextual, dll. Dalam penelitian ini, pemilihan dan ekstraksi fitur menjadi pertanyaan
penelitian. Fitur-fitur yang berhasil diekstraksi dibentuk menjadi matriks fitur yang siap diinput ke
algoritma klasifikasi SVM. Untuk menguji model klasifikasi yang terbentuk, penelitian ini
menggunakan metode hold-out yaitu membagi dataset menjadi data pelatihan dan data testing
dengan proporsi 80% untuk pelatihan dan 20% untuk testing. Ukuran yang dipakai untuk
mengevaluasi model klasifikasi yaitu akurasi, precision, recall, dan F1 score.
14
15
BAB IV HASIL PENELITIAN
4.1 Dataset
Dataset berisi kumpulan berita kesehatan valid dan hoax. Dataset diambil dari website
https://health.detik.com, https://kominfo.go.id, https://www.antiberitahoax.com, https://hoaxes.id,
https://klikdokter.com, https://hoaxindo.blogspot.co.id. Dataset yang berhasil dikumpulkan terdiri
dari 65 berita kesehatan hoax dan 25 berita kesehatan valid. Definisi 25 berita kesehatan valid ini
adalah berita kesehatan yang dipelintir atau ada versi hoaksnya. Berikut contoh berita kesehatan
hoaks dan valid:
Konten Berita Kategori
Ada seorang wanita meninggal mendadak dengan kelima panca indra keluar darah. Setelah
diselidiki ternyata wanita ini meninggal bukan karena bunuh diri atau dibunuh, melainkan
karena ketidaktahuan tentang 'racun akibat makanan'. Wanita ini memiliki kebiasaan makan
cokelat tiap hari, ini tidak masalah. Masalahnya, malam itu wanita ini kebanyakan makan mi
goreng. Sebenarnya cuma makan mi goreng saja juga tidak masalah, karena orang rumahnya
juga banyak makan mi malam itu dan tak ada yang meninggal. Tetapi karena mi itu mengandung
arsenic pentoxide (As2O5) dan berhubung habis makan mi wanita itu makan cokelat,
terjadilah reaksi kimia di dalam perut yang membuat arsenic pentoxide (As2O5) berubah
menjadi arsenic trioxide (As2O3) yang sangat beracun. Inilah yang mengakibatkan hati,
jantung, ginjal, pembuluh darah rusak, usus berdarah, pembuluh darah melebar/dilatasi. Jadi
hati-hati!! Jika habis banyak makan mi goreng, mi kering, mi soto, jangan makan cokelat pada
saat yang bersamaan. Copy paste lah jika Anda merasa ini cukup penting!
hoaks
Assalamualaikum….Yth. Rekan-rekan semua. Menginformasikan & mengingatkan kepada teman
teman agar tidak lupa bahwa system Big Data Cyber Security (BDCS) Indonesia sdh
terpasang, menyusul rencana Wantanas RI (Dewan Pertahanan Nasional) yg akan mengambil
semua informasi melalui internet di Indonesia. Artinya, segala percakapan kita di Cyber
Social Media (WA, BBM, Telegram, Line, SMS, dll.) akan masuk secara otomatis ke BDCS.
Hindari mengirim berita yg bersifat sensitif (SARA) dan gambar-gambar pemimpin negara,
lambang negara, serta simbol negara untuk bahan kartun, guyonan, ataupun lelucon lainnya.
Polisi internet melalui teknik internet sistem akan menelusuri sumber pengirim ke grup tsb.
Diharapkan kepada rekan-rekan agar dapat saling mengingatkan dan menghindari hal tsb.
Jangan sampai kita berurusan dengan polisi internet ( Cyber Crime Police) hanya karena ingin
bercanda dan berlelucon di media sosial. Semoga kita bisa menggunakan media sosial untuk
menyampaikan informasi dalam bentuk tulisan, artikel, ataupun gambar dengan santun dan
beretika. Semoga bermanfaat.
hoaks
Untuk Anda yang suka minum air dingin, artikel ini cocok untuk Anda. Memang enak untuk
minum secangkir minuman dingin setelah makan. Tapi, air dingin akan mengeraskan makanan
berminyak yang baru saja dimakan. Dan memperlambat pencernaan makanan. Ketika endapan
ini bereaksi dengan asam lambung, endapan akan terpecah dan diserap oleh usus lebih cepat
daripada makanan padat. Ini akan memenuhi usus. Sebentar saja, ini akan berubah menjadi
hoaks
16
lemak dan bisa mengakibatkan kanker. Paling baik meminum/memakan sup panas atau air
hangat setelah makan. Catatan serius mengenai serangan jantung: Tidak semua gejala
serangan jantung adalah sakit pada lengan kiri. Waspadalah jika ada rasa sakit yang terus
menerus pada rahang. Mungkin kita tidak akan mengalami rasa sakit dada pertama ketika
terjadinya serangan jantung. Rasa mual dan keringat yang berlebihan juga adalah gejala yang
umum dijumpai. Sebanyak 60% dari mereka yang terkena serangan jantung ketika tidur tidak
terbangun. Rasa sakit di rahang bisa membangunkan kita dari tidur nyenyak. Berhati-hatilah
dan waspada. Semakin banyak kita tahu, semakin baik kesempatan kita untuk selamat.
Seorang ahli jantung mengatakan jika mereka yang mendapatkan email ini mengirimkannya lagi
ke 10 orang lainnya, kita bisa menyelamatkan sedikitnya 1 nyawa. Bacalah, ini bisa
menyelamatkan hidup Anda. Jadilah teman sejati dan kirimkan artikel ini ke semua teman
yang Anda sayangi.
Apakah benar bahwa jika dikonsumsi dalam waktu hampir bersamaan konsumsi mi dan cokelat
bisa membuat Anda keracunan hingga meninggal dunia? detikHealth melakukan wawancara
dengan ahli gizi Leona Victoria Djajadi, MND, terkait kebenaran informasi ini.Menurut
Victoria, segala jenis arsenik (terutama yang sintetik), memang tergolong produk beracun.
Namun memang di dalam tubuh manusia serta hewan, akan selalu ada arsenik dalam level yang
sangat rendah. Ini merupakan akumulasi dari makanan maupun dari udara. "Bukannya tidak
mungkin ada kontaminasi arsenik atau keracunan. Tapi yang tidak mungkin adalah produsen mi
yang sudah lolos sertifikasi BPOM (Badan Pengawas Obat dan Makanan -red), dengan sengaja
memakai arsenik sebagai bahan bakunya. Jadi ini super duper hoax," ungkap ahli gizi lulusan
University of Sydney ini kepada detikHealth. Penulisan serangkaian reaksi kimia yang beredar
juga kerap membuat masyarakat resah. Hal ini karena reaksi-reaksi kimia semacam itu
membuat informasi yang beredar semakin tampak meyakinkan. Menanggapi hal ini, Victoria
berpesan supaya masyarakat tidak mudah percaya dengan info yang beredar di media
sosial."Biasanya biar bikin tambah keren dipakai bahasa-bahasa kimia, ditulis semua,"
imbuhnya. Informasi yang beredar ini dikatakan oleh Victoria mirip dengan hoax beberapa
waktu lalu, yang menyebutkan bahwa minum es jeruk setelah makan udang bisa membuat
keracunan. Nyatanya, semua bergantung pada banyaknya dosis yang dikonsumsi. Konsumsi
udang dan vitamin C dalam jumlah standar tidak serta-merta akan menimbulkan reaksi arsenic
berbahaya, apalagi sampai menimbulkan keracunan atau kematian mendadak.
valid
Apakah benar bahwa jika dikonsumsi dalam waktu hampir bersamaan konsumsi mi dan cokelat
bisa membuat Anda keracunan hingga meninggal dunia? detikHealth melakukan wawancara
dengan ahli gizi Leona Victoria Djajadi, MND, terkait kebenaran informasi ini.Menurut
Victoria, segala jenis arsenik (terutama yang sintetik), memang tergolong produk beracun.
Namun memang di dalam tubuh manusia serta hewan, akan selalu ada arsenik dalam level yang
sangat rendah. Ini merupakan akumulasi dari makanan maupun dari udara. "Bukannya tidak
mungkin ada kontaminasi arsenik atau keracunan. Tapi yang tidak mungkin adalah produsen mi
yang sudah lolos sertifikasi BPOM (Badan Pengawas Obat dan Makanan -red), dengan sengaja
memakai arsenik sebagai bahan bakunya. Jadi ini super duper hoax," ungkap ahli gizi lulusan
University of Sydney ini kepada detikHealth. Penulisan serangkaian reaksi kimia yang beredar
juga kerap membuat masyarakat resah. Hal ini karena reaksi-reaksi kimia semacam itu
membuat informasi yang beredar semakin tampak meyakinkan. Menanggapi hal ini, Victoria
berpesan supaya masyarakat tidak mudah percaya dengan info yang beredar di media
sosial."Biasanya biar bikin tambah keren dipakai bahasa-bahasa kimia, ditulis semua,"
imbuhnya. Informasi yang beredar ini dikatakan oleh Victoria mirip dengan hoax beberapa
waktu lalu, yang menyebutkan bahwa minum es jeruk setelah makan udang bisa membuat
valid
17
keracunan. Nyatanya, semua bergantung pada banyaknya dosis yang dikonsumsi. Konsumsi
udang dan vitamin C dalam jumlah standar tidak serta-merta akan menimbulkan reaksi arsenic
berbahaya, apalagi sampai menimbulkan keracunan atau kematian mendadak.
Apakah sebenarnya obat ini benar-benar perlu dibawa dan bisa dikonsumsi siapa saja?
Adakah efek negatifnya jika diminum bebas tanpa resep dokter? detikHealth melakukan
wawancara dengan dokter spesialis jantung dan pembuluh darah RS Pusat Jantung Nasional
Harapan Kita, dr Isman Firdaus, SpJP, MD, terkait kebenaran informasi ini. Menurut dr
Isman, obat sejenis isosorbid dinitrat saat ini diperuntukkan bagi pasien-pasien yang
mengalami keluhan sakit dada atau angina pektoris akibat penyakit jantung koroner. Obat ini
diberikan jika memang terdapat keluhan yang khas angina pektoris. "Pasien-pasien atau
individu yang dicurigai mempunyai ancaman atau faktor risiko terjadinya serangan jantung
dianjurkan membawa obat ini kemana pun berada untuk digunakan sewaktu-waktu jika
dicurigai terdapat keluhan serangan jantung," tutur dr Isman. Di pasaran, obat ini tersedia
dalam berbagai jenis sediaan, di antaranya dalam bentuk tablet, spray (semprot), patch
(tempel), dan suntikan. Jika diminum tanpa resep dokter, obat ini disebutkan dr Isman bisa
memberikan beberapa efek terhadap tubuh. Salah satunya adalah terjadinya hipotensi alias
penurunan tekanan darah. Maka dari itu, obat ini tidak direkomendasikan untuk diberikan
pada pasien-pasien dengan tekanan darah sistolik kurang dari 80 mmHg. "Efek samping
lainnya adalah terjadi sakit kepala atau pusing akibat turut melebarnya pembuluh darah di
kepala. Pemberian obat ini juga tidak direkomendasikan pada pasien yang sedang mengonsumsi
obat-obatan disfungsi ereksi golongan sildenafil dan dengan tekanan darah rendah," imbuh dr
Isman.Dilihat dari berbagai risikonya, pemberian obat ini sebaiknya tetap berdasarkan resep
dokter. Tidak dianjurkan untuk sembarangan mengonsumsi obat Isosorbide Dinitrate 5 mg
tanpa berkonsultasi dengan dokter terlebih dahulu. "Obat ini adalah obat dengan kode merah,
artinya memang harus dengan resep dokter. Jika seseorang pernah mengalami keluhan di
sekitar dada, biasanya dokter akan memberikan obat nitrat di bawah lidah untuk diberikan
jika ada keluhan. Yang pasti, pasien harus dicek terlebih dahulu tekanan darahnya ya," ungkap
dr Isman.
valid
4.2 Pemodelan
Untuk membangun model diperlukan matriks yang berisi nilai fitur-fitur yang berhasil diekstrak.
Berdasarkan literature review dan pengamatan terhadap dataset maka penelitian ini menggunakan
29 fitur yang dikelompokkan menjadi 3 kategori fitur. Berikut rincian fitur-fitur tersebut:
1. Fitur yang berkaitan dengan karakter (character-based feature):
a. Total karakter
b. Frekuensi digit
c. Frekuensi symbol (special karakter)
d. Frekuensi tanda baca (punctuation)
e. Persentasi huruf (letter)
f. Persentasi huruf capital (uppercase)
g. Persentasi huruf kecil (lowercase)
18
2. Fitur yang berkaitan dengan kata (word-based feature):
a. Total kata
b. Frekuensi most common unigram
c. Frekuensi most common bigram
d. Frekuensi most common trigram
e. Frekuensi function words dalam Bahasa Indonesia, yang terdiri dari kata-kata berikut:
1. Dan
2. Lain
3. Dari
4. Ke
5. Engkau
6. Dengan
7. Kepada
8. Mungkin
9. Sekali
10. Mari
11. Untuk
12. Mana
13. Berbeda
14. Agak
15. Jarang
16. Setiap/semua
17. Kebanyakan
18. Kurang
19. Yang
20. Tempat
21. Tapi
22. Sesuatu
23. Kapan
24. Hamper
25. Pasti
26. Dekat
27. Kecuali
28. Sebetulnya
29. Beberapa
30. Meskipun
31. Kalau begitu
32. Kira-kira
33. Ketika/waktu
34. Sebab
35. Apa saja
36. Seperti
37. Begitu
38. Kalua
39. Atau
40. Olah
41. Siapa
42. Sebaiknya
43. Berbagai
44. Makin
45. Betul-betul
46. Tentang
47. Mengapa
48. Banyak
3. Fitur yang berkaitan dengan Frekunsi POS Tag yang terdiri dari 17 POS Tag, meliputi:
1. ADJ: adjective
2. ADP: adposition
3. ADV: adverb
4. AUX: auxiliary verb
5. CONJ: coordinating conjunction
6. DET: determiner
7. INTJ: interjection
8. NOUN: noun
9. NUM: numeral
10. PART: particle
11. PRON: pronoun
12. PROPN: proper noun
13. PUNCT: punctuation
19
14. SCONJ: subordinating conjunction
15. SYM: symbol
16. VERB: verb
17. X: other
4.3 Hasil Pengujian
Eksperimen dengan 29 fitur diatas menggunakan algoritma SVM classification, hasillnya sebagai
berikut:
precision recall f1-score support
non hoax 0.00 0.00 0.00 5
hoax 0.74 1.00 0.85 14
avg / total 0.54 0.74 0.63 19
accuracy: 0.7368
Most common unigram setelah dibuang stopword:
[('isotonic', 1), ('nice', 1), ('pisang', 1), ('As2O3', 1), ('Lagi', 1), ('putih', 1),
('pe', 1), ('cewek', 1), ('Wooow……', 1), ('REKAN', 1), ('lendir', 1), ('Tulang', 1), (
'mnyerah', 1), ('USA', 1), ('islam', 1), ('Perlu', 1), ('Bonar', 1), ('HITAM', 1), ('T
ed', 1), ('Nurses', 1)]
Most common unigram include stopword:
[('.', 1156), (',', 1122), ('yang', 587), ('dan', 396), ('ini', 307), ('di', 285), ('d
alam', 217), ('!', 205), ('dari', 199), (')', 199), ('(', 193), ('dengan', 163), ('kan
ker', 160), ('tidak', 152), ('untuk', 151), ('pada', 132), ('bahwa', 119), ('itu', 117
), ('akan', 114), ('dapat', 113)]
Distribusi kata-kata
{'yang': 607, 'dan': 441, 'ini': 333, 'di': 292, 'dalam': 261, 'dari': 208, 'kanker':
189, 'tidak': 182, 'dengan': 180, 'untuk': 173, 'dapat': 151, 'pada': 150, 'anda':
130, 'telah': 127, 'fluoride': 125, 'akan': 123, 'makan': 122, 'ada': 122, 'itu': 122,
'bahwa': 119, 'air': 110, 'kita': 109, 'orang': 104, 'lebih': 104, 'saya': 97, 'jadi':
96, 'kandung': 95, 'adalah': 95, 'guna': 95, 'juga': 92, 'minum': 90, 'sakit': 88,
'anak': 85, 'sebab': 85, 'atau': 83, 'buah': 79, 'bagi': 79, 'yg': 79, 'karena': 79,
'sel': 73, 'temu': 71, 'sebut': 71, 'bagai': 71, 'ke': 67, 'bisa': 67, 'tubuh': 67,
'tahu': 66, 'seperti': 65, 'tulang': 65, 'teliti': 64, 'semua': 61, 'produk': 58,
'obat': 58, 'banyak': 58, '1': 57, 'bahaya': 56, 'buat': 55, 'oleh': 55, 'satu': 53,
'lain': 53, 'dia': 52, 'tingkat': 52, 'sudah': 51, 'besar': 51, 'apa': 51, 'jika': 50,
'otak': 50, 'sangat': 50, '2': 49, 'darah': 49, 'cara': 48, 'mereka': 48, 'sehat': 47,
'biasa': 47, 'racun': 46, 'baik': 46, 'laku': 44, 'hanya': 44, 'tahun': 44, 'beri':
44, 'bahan': 42, 'gigi': 41, 'hal': 41, 'zat': 40, 'saat': 40, 'lemon': 40,
'beberapa': 40, 'kurang': 39, 'hasil': 39, 'mineral': 39, 'salah': 39, 'coba': 38,
'saja': 38, 'ketika': 38, 'lihat': 38, 'baru': 38, 'dunia': 38, 'dokter': 37,
'konsumsi': 36, 'milik': 35, 'mati': 35, 'nyata': 35, 'hari': 35, 'lalu': 34,
'wanita': 34, 'kepada': 34, 'jangan': 34, 'indonesia': 34, 'kami': 34, 's': 33,
'waktu': 32, 'tinggi': 32, 'tinggal': 32, 'rasa': 31, 'bunuh': 31, 'kimia': 31,
'tunjuk': 30, 'bahkan': 30, 'teman': 30, 'lama': 30, 'efek': 30, 'utama': 29, 'of':
20
29, 'hilang': 29, 'masuk': 29, 'hadap': 28, 'usaha': 28, 'pakai': 28, 'rupa': 28,
'harus': 28, 'jenis': 28, 'tambah': 28, 'acid': 27, 'botol': 27, 'derita': 27, 'para':
27, 'aspartame': 27, 'punya': 26, 'fluorida': 26, 'masalah': 26, 'rusak': 26, 'aqua':
26, 'teh': 26, 'hati': 25, 'sama': 25, 'sehingga': 25, 'menit': 25, 'selain': 25,
'informasi': 25, 'ikut': 24, 'danone': 24, 'paling': 24, 'hancur': 24, 'tapi': 24,
'produksi': 24, 'tumbuh': 24, 'plastik': 24, 'luar': 24, 'hydroxylic': 23, 'pernah':
23, '3': 23, 'alami': 23, 'kena': 23, 'rusa': 23, 'tumor': 23, 'kuat': 23, 'israel':
22, 'akibat': 22, 'bersih': 22, 'atas': 22, 'payudara': 22, 'kelompok': 22, 'asam':
22, 'mungkin': 22, 'turun': 22, 'tolong': 21, 'mana': 21, 'tiap': 21, 'bantu': 21,
'10': 21, 'rumah': 21, 'coca-cola': 21, 'bukti': 21, 'the': 21, 'kali': 20, 'mobil':
20, 'tentang': 20, 'seluruh': 20, 'keluar': 20, 'belum': 20, 'dioksin': 20, 'tanam':
20, 'bentuk': 20, 'bedak': 20, 'benar': 20, 'manusia': 20, 'and': 20, 'kata': 19,
'enzim': 19, 'mampu': 19, 'aku': 19, 'gejala': 19, 'maka': 19, 'tsb': 19, 'ingin': 19,
'tangan': 19, 'ubah': 19, 'pengaruh': 19, 'lipstik': 18, 'sedikit': 18, 'sistem': 18,
'gula': 18, 'serta': 18, 'agar': 18, 'sampai': 18, 'butuh': 18, 'bawah': 18, 'bila':
18, 'artikel': 18, 'jumlah': 18, 'mengapa': 18, 'panas': 18, '4': 17, 'ahli': 17, '5':
17, 'lagi': 17, 'harvard': 17, 'pete': 17, 'pohon': 17, 'tetapi': 17, 'wadah': 17,
'tanya': 17, 'dr': 17, 'd': 17, 'malam': 16, 'jantung': 16, 'atur': 16, 'masih': 16,
'cepat': 16, 'hubung': 16, 'com': 16, 'australia': 16, 'beli': 16, 'kemoterapi': 16,
'universitas': 16, 'mi': 16, 'kembali': 16, 'rumput': 16, 'cerna': 16, 'blushwood':
16, 'sebar': 16, 'bawa': 15, 'kalau': 15, 'jangka': 15, 'tahan': 15, 'biji': 15,
'kenal': 15, 'sel2': 15, 'kerja': 15, 'senyawa': 15, 'hitam': 15, 'kembang': 15,
'jam': 15, 'namun': 15, 'studi': 14, 'tempat': 14, 'jus': 14, 'ganti': 14, 'drink':
14, 'pasta': 14, 'cerdas': 14, 'n': 14, 'warna': 14, 'umum': 14, 'mulai': 14,
'campur': 14, 'terus': 14, 'pt': 14, 'info': 14, 'jelas': 14, 'ilmuwan': 14, 'ambil':
14, 'zionis': 14, 'ajar': 14, 'makin': 14, 'tanpa': 14, 'penting': 13, 'anti': 13,
'serang': 13, '-': 13, 'panjang': 13, 'kirim': 13, 'manfaat': 13, 'program': 13,
'dingin': 13, 'rendah': 13, 'masak': 13, 'lanjut': 13, 'arti': 13, 'sosro': 13, 'l':
13, 'kemas': 13, 'tdk': 13, 'waspada': 13, 'tikus': 13, 'kaleng': 12, 'kecil': 12,
'soft': 12, 'usus': 12, 'akhir': 12, 'perempuan': 12, 'ginjal': 12, 'langsung': 12,
'kelenjar': 12, 'flouride': 12, 'i': 12, '9': 12, 'hambat': 12, 'flourida': 12,
'lemak': 12, 'ia': 12, 'for': 12, '22': 12, 'health': 12, 'segera': 12, 'kadar': 12,
'antara': 12, 'ingat': 12, 'sesuatu': 12, 'hidup': 12, 'zionisme': 12, 'kampanye': 12,
'kemudian': 12, 'iq': 12, 'sifat': 12, 'tua': 12, 'rebus': 12, 'pupuk': 12, 'hewan':
11, 'daripada': 11, 'a': 11, 'selamat': 11, 'habis': 11, 'lead': 11, 'sembuh': 11,
'amerika': 11,
Visualisasi Wordcloud dari dataset:
Gambar 4. Wordcloud Hoax dengan Stopwords
Gambar 5. Wordcloud Hoax tanpa Stopwords
21
BAB V KESIMPULAN
4.1. Kesimpulan
Dari beberapa eksperimen yang telah dilakukan, dapat ditarik beberapa kesimpulan sebagai berikut:
1. Proses pengumpulan dataset berita kesehatan hoaks cukup sulit. Hal ini dikarenakan sulitnya
menemukan editorial berita hoaks itu sendiri. Yang tersedia di website adalah klarifikasi atas
berita hoaks tersebut. Proses crawling dan scrapping tidak bisa diterapkan karena diperlukan
pengecekan manual untuk menentukan kategori berita tersebut.
2. Dari dataset yang berhasil terbentuk, berita kesehatan hoaks memiliki beberapa ciri sebagai
berikut:
a. Seringkali terdapat salah penulisan (typo)
b. Beberapa kata menggunakan huruf capital semua
c. Beberapa berita kesehatan hoaks menyertakan kata-kata yang berhubungan dengan
SARA (Suku, agama, dan ras)
d. Tidak menyertakan nama narusumber berita atau nama rumah sakit yang bisa
memberikan referensi
3. Fitur-fitur yang berhasil diekstrak sudah cukup lengkap dan dapat menghasilkan model
dengan akurasi di atas 70%. Namun secara umum, performance model sangat dipengaruhi
oleh jumlah dataset/corpus. Model yang dibentuk masih tidak akurat mengklasifikasikan
berita kesehatan yang valid.
4.2. Saran
1. Dataset yang dikumpulkan diperbanyak lagi meskipun proses pengumpulan dataset dilakukan
secara manual dan memakan waktu lama.
2. Perlu dicoba algoritma klasifikasi lainnya seperti Neural Network atau Deep Neural Network yang
secara teori cukup tangguh menangani data yang noisy.