Download - DETEKSI HOAKS KESEHATAN MENGGUNAKAN PENDEKATAN … · 2020. 7. 9. · LEMBAR PENGESAHAN Laporan Penelitian Dosen dengan judul: DETEKSI HOAKS KESEHATAN MENGGUNAKAN PENDEKATAN LINGUISTIK

LAPORAN PENELITIAN DOSEN STIS

DETEKSI HOAKS KESEHATAN MENGGUNAKAN PENDEKATAN

LINGUISTIK DAN PEMBELAJARAN MESIN

Siti Mariyah, M.T.

Farid Ridho, M.T.

LEMBAR PENGESAHAN

Laporan Penelitian Dosen dengan judul:

DETEKSI HOAKS KESEHATAN MENGGUNAKAN PENDEKATAN

LINGUISTIK DAN PEMBELAJARAN MESIN

Nama Peneliti:

Siti Mariyah, M.T.

Farid Ridho, M.T.

Dilaksanakan pada Agustus 2017 sampai dengan November 2017

Telah disahkan oleh Kepala Unit Penelitian dan Pengabdian Masyarakat (UPPM)

Sekolah Tinggi Ilmu Statistik (STIS), pada tanggal 27 November 2017

Menyetujui,

Kepala UPPM

Dr. Hardius Usman

NIP. 196704251989011002

Ketua Peneliti

Dr. Erni Tri Astuti

NIP. 196710221990032002

Mengetahui

Pembantu Ketua I

Dr. Erni Tri Astuti

NIP. 196710221990032002

UNIT PENELITIAN DAN PENGABDIAN MASYARAKAT (UPPM)

SEKOLAH TINGGI ILMU STATISTIK (STIS)

2017

DETEKSI HOAKS KESEHATAN MENGGUNAKAN

PENDEKATAN LINGUISTIK DAN PEMBELAJARAN

MESIN

Disusun Oleh:

SITI MARIYAH

FARID RIDHO

SEKOLAH TINGGI ILMU STATISTIK

JAKARTA

2017

i

DAFTAR ISI

DAFTAR ISI .................................................................................................................................................... i

DAFTAR GAMBAR ........................................................................................................................................ ii

BAB I PENDAHULUAN ................................................................................................................................. 1

1.1. Latar Belakang .............................................................................................................................. 1

1.2. Pertanyaan Penelitian .................................................................................................................. 2

1.3. Tujuan Penelitian .......................................................................................................................... 3

1.4. Manfaat Penelitian ....................................................................................................................... 3

1.5. Batasan Penelitian........................................................................................................................ 3

BAB II KAJIAN PUSTAKA ............................................................................................................................. 5

2.1 Pemrosesan Bahasa Alami ........................................................................................................... 5

2.2 Aplikasi dalam Bidang Pemrosesan Bahasa Alami ..................................................................... 7

2.3 Support Vector Machine .............................................................................................................. 7

2.4 Penelitian Terkait ......................................................................................................................... 8

BAB III METODE PENELITIAN .................................................................................................................... 11

3.1 Kerangka Pikir .................................................................................................................................... 11

3.2. Metode Penelitian ....................................................................................................................... 12

BAB IV HASIL PENELITIAN .......................................................................................................................... 15

4.1 Dataset ............................................................................................................................................... 15

4.2 Pemodelan ......................................................................................................................................... 17

4.3 Hasil Pengujian ................................................................................................................................. 19

BAB V KESIMPULAN ................................................................................................................................... 21

4.1. Kesimpulan ....................................................................................................................................... 21

4.2. Saran ................................................................................................................................................. 21

ii

DAFTAR GAMBAR

Gambar 1. SVM berusaha menemukan hyperplane terbaik yang memisahkan kedua class -1 dan +1 ..... 8

Gambar 2. Kerangka Penelitian ................................................................................................................. 11

Gambar 3. Metode Penelitian .................................................................................................................... 12

Gambar 4. Wordcloud Hoax dengan Stopwords ..................................................................................... 20

Gambar 5. Wordcloud Hoax tanpa Stopwords ........................................................................................ 20

1

BAB I PENDAHULUAN

1.1. Latar Belakang

Hoax singkatan dari “hocus to trick” merupakan kata yang berarti ketidakbenaran suatu

informasi (KBBI), berita bohong (KBBI), dan berita bohong, tidak bersumber. Istilah hoax, kabar

bohong, menurut Lynda Walsh dalam buku “Sins Against Science”, merupakan istilah dalam Bahasa

Inggris yang masuk sejak era industri, diperkirakan pertama kali muncul pada tahun 1808. Beberapa

tahun terakhir, hoax menjadi isu hangat baik di media massa maupun media sosial di berbagai negara

khususnya Indonesia. Direktur Institute of Cultural Capital di University of Liverpool, Simeon Yates

dalam tulisan “Fake News’- Why People Believe It and What Can Be Done to Counter It”” yang

dimuat dalam world.edu, menyebut ada fenomena gelembung atau bubbles dalam penggunaan

media sosial.

Penggunaan media sosial cenderung berinteraksi dengan orang yang memiliki ketertarikan yang

sama dengan diri sendiri. Jika dilihat dari status sosial, gelembung media sosial tersebut

mencerminkan gelembung “offline” sehari-hari. Kelompok tersebut kembali ke model lama, juga

bertemu pada opini pemimpin mereka yang memiliki pengaruh di jejaring sosial. Kabar bohong yang

beredar di media sosial menjadi besar ketika diambil oleh situs atau pelaku terkemuka yang memiliki

banyak pengikut. Kecepatan dan sifat media sosial yang mudah untuk dibagikan, shareability

berperan dalam penyebaran berita bohong. Ditambah kemajuan teknologi yang semakin

mempermudah siapapun untuk menyebarkan berita bohong, seperti kemudahan untuk membuat

blog, membuat website, kemudahan copy-paste, forward dan share pada aplikasi perpesanan

(chatting app) yang semakin memudahkan penyebaran hoax.

Keberadaan hoax dapat meresahkan masyarakat karena konten hoax yang cenderung menipu

dan dapat men-trigger pembaca untuk percaya dan melakukan apa yang disampaikan dalam hoax

tersebut. Hoax sengaja ditulis dan disebarluaskan dengan banyak tujuan, seperti sengaja untuk

membuat kegaduhan, provokasi antar kelompok masyarakat atau pendukung public figure, atau juga

disengaja untuk mengambil keuntungan dari pembaca hoax. Hoax kini menjadi perhatian pemerintah

karena dampak yang diakibatkan darinya. Bahkan Mantan Presiden Amerika Barack Obama

menyatakan sulit untuk membedakan mana yang bohong/palsu dari fakta. Salah satu cara yang

diupayakan adalah mencabut hoax di media sosial atau website. Namun mencabut hoax tidak

didukung oleh teknologi dan tindakan ini bersifat pasif. Artinya meskipun hoax itu telah dicabut atau

2

dihapus dari sumbernya, namun besar kemungkinan hoax itu tetap ada selama hoax ini sudah pernah

dibagikan (di-share, di-broadcast atau di-forward) sebelum hoax itu dicabut/dihapus. Diperlukannya

suatu inovasi untuk mencegah atau minimal mengurangi penyebaran hoax tersebut. Inovasi yang

telah dilakukan oleh peneliti-peneliti dunia adalah membangun hoax detection system namun sistem

yang dibangun hanya bisa mengklasifikasikan input teks dalam Bahasa Inggris. Selain itu komunitas

Masyarakat Anti Fitnah Indonesia telah membangun suatu website yang memfasilitasi masyarakat

untuk mengadukan suatu berita hoax dan menyampaikan berita-berita hoax yang sudah berhasil

diklarifikasi.

Berangkat dari permasalahan dan kebutuhan yang telah disampaikan, penelitian ini hadir untuk

mencari inovasi bagaimana memperlakukan hoax. Penelitian ini membangun suatu sistem

pendeteksi hoax berbahasa Indonesia. Sistem menerima input berupa tulisan atau paragraf

berbahasa Indonesia kemudian dianalisis untuk ditentukan apakah tulisan atau paragraf tersebut

merupakan tulisan atau paragraf hoax, suspected to be hoax atau bukan hoax. Metode yang

digunakan untuk membangun sistem ini adalah supervised learning dari dataset berita hoax dan

berita bukan hoax. Untuk memproses kalimat-kalimat yang terdapat dalam dataset, teknik text

mining dipakai dalam penelitian ini.

1.2. Pertanyaan Penelitian

Membangun model klasifikasi untuk memprediksi kebenaran suatu berita kesehatan

dipengaruhi oleh karakteristik berita tersebut, corpus (jumlah berita kesehatan yang dianalisis) dan

algoritma klasifikasi yang digunakan. Penelitian ini berangkat dari titik 0 karena corpus berita

kesehatan belum tersedia. Peneliti harus mengumpulkan berita-berita kesehatan, memilah mana

berita yang valid dan berita yang hoaks, lalu menggabungkannya sehingga terbentuk corpus berita

kesehatan valid dan hoax. Berikut adalah beberapa pertanyaan/permasalahan penelitian ini:

1. Apa ciri-ciri berita kesehatan yang valid dan hoaks?

2. Fitur-fitur apa saja yang bisa membedakan atau mencirikan suatu berita kesehatan masuk

kategori valid atau kategori hoaks?

3. Bagaimana performance dari model klasifikasi yang akan dibuat? Dan bagaimana interpretasi

dari performance tersebut?

3

1.3. Tujuan Penelitian

Tujuan penelitian adalah menganalisa metode dan teknik yang tepat untuk membangun suatu

sistem pendeteksi hoax yang mampu mengkategorikan suatu berita / paragraf ke dalam berita hoax,

suspected to be hoax, atau berita bukan hoax berdasarkan ciri-ciri berita tersebut. Tujuan lain yang

ingin dicapai dalam penelitian ini adalah:

1. Membangun dataset berita hoax dan berita bukan hoax.

2. Menganalisa dan membangun teknik text preprocessing yang sesuai dengan bentuk berita hoax

dan berita bukan hoax berbahasa Indonesia.

3. Menganalisa dan membangun teknik serta tahapan text mining yang sesuai dengan klasifikasi

berita hoax dan bukan hoax.

4. Menganalisa algoritma pembelajaran terlatih (supervised learning algorithm) yang sesuai dengan

domain penelitian.

1.4. Manfaat Penelitian

Beberapa manfaat yang dapat diperoleh dalam penelitian ini antara lain:

a. memberikan kontribusi ilmu pengetahuan dalam mengembangkan teknik text mining yang tepat

untuk menganalisa berita kesehatan. Sehingga dapat ditentukan apakah berita kesehatan

tesebut valid ata hoaks;

b. mengenali ciri-ciri berita kesehatan yang valid dan yang hoaks;

c. langkah awal untuk membangun corpus berita kesehatan valid dan hoaks dimana corpus

tersebut bisa dimanfaatkan untuk penelitian berikutnya.

1.5. Batasan Penelitian

Mendeteksi suatu berita apakah benar atau hoax memiliki tingkat kesulitan yang cukup tinggi.

Sampai saat ini belum ada sistem yang mampu menentukan secara langsung dengan keakuratan

100% apakah suatu berita mengandung hoax atau tidak. Pendeteksian hoax masih membutuhkan

peran manusia untuk mengumpulkan berita-berita hoax dan bukan hoax atau membutuhkan proses

lain apakah suatu berita benar-benar valid atau tidak. Selain itu kategori dari berita hoax sangat

beragam mulai dari berita politik, public figure, kesehatan, keuangan, dll dan sangat sulit untuk meng-

cover semua kategori. Maka dari itu, lingkup dari penelitian ini adalah berita kesehatan saja. Hal ini

4

dikarenakan untuk memvalidasi dan memastikan kebenaran berita kesehatan lebih mudah

dibandingkan kategori berita lainnya. Peneliti dapat memvalidasi lewat buku, majalah kesehatan,

ataupun jurnal kesehatan. Selain itu berita kesehatan sifatnya objektif berbeda dengan berita

lainnya.

5

BAB II KAJIAN PUSTAKA

2.1 Pemrosesan Bahasa Alami

Bahasa adalah alat komunikasi antar individu dalam sebuah masyarakat. Keberagaman bahasa

menunjukkan keberagaman budaya dan kekayaan karakteristik masyarakat. Pemrosesan bahasa

alami atau lebih sering dikenal dengan istilah NLP (Natural Language Processing) adalah melakukan

proses pembuatan model komputasi dari bahas, sehingga dapat terjadi suatu interaksi antara

manusia dengan computer dengan perantaraan bahasa alami. Model komputasi ini dapat berguna

untuk keperluan ilmiah seperti meneliti sifat-sifat dari suatu bentuk bahasa alami maupun untuk

keperluan sehari-hari dalam hal ini memudahkan komunikasi antara manusia dengan computer.

Pemrosesan bahasa alami harus memperhatikan pengetahuan terhadap bahasa itu sendiri, baik

dari segi kata yang digunakan, bagaimana kata-kata tersebut digabung menghasilkan suatu kalimat,

apa arti sebuah kata, apa fungsi sebuha kata, apa fungsi sebuah kata dalam sebuah kalimat dan

sebagainya.

Secara singkat pemrosesan bahasa alami mengenal beberapa tingkat pengolahan yaitu:

a) Fonetik dan fonologi:

Berhubungan dengan suara yang menghasilkan kata yang dapat dikenali. Bidang ini menjadi

penting dalam proses aplikasi yang memakai speech based system.

b) Morfologi

Pengetahuan tentang kata dan bentuknya dimanfaatkan untuk membedakan satu kata

dengan lainnya. Pada tingkat ini juga dapat dipisahkan antara kata dan elemen lain seperti

tanda baca. Sebagai contoh:

going (word) go (root) + ing (suffix)

understand (word) under (prefix) + stand (root)

c) Sintaksis

Pemahaman tentang urutan kata dalam pembentukan kalimat dan hubungan antar kata

tersebut dalam proses perubahan bentuk dari kalimat menjadi bentuk yang sistematis.

Meliputi proses pengaturan tata letak suatu kata dalam kalimat akan membentuk kalimat

yang dapat dikenali. Selain itu dapat pula dikenali bagian-bagian kalimat dalam suatu kalimat

yang besar. Sebagai contoh kalimat S dibentuk dari noun phrase (NP) dan verb phrase (VP).

S NP,VP

6

Dan berikutnya:

NP DET, N

VP V,NP

NP N

d) Semantik

Pemetaan bentuk struktur sintaksis dengan memanfaatkan tiap kata ke dalam bentuk yang

lebih mendasar dan tidak tergantung struktur kalimat. Semantik mempelajari arti suatu kata

dana bagaimana dari arti kata-arti kata tersebut membentuk suatu arti dari kalimat yang

utuh. Dalam tingkatan ini belum tercakup konteks dari kalimat tersebut.

e) Pragmatik

Pengetahuan pada tingkatan ini berkaitan dengan masing-masing konteks yang brbeda

tergantung pada situasi dan tujuan pembuatan sistem.

f) Discourse Knowledge

Melakukan pengenalan apakah suatu kalimat yang sudah dibaca dan dikenali sebelumnya

akan mempengaruhi arti dari kalimat selanjutnya. Informasi ini penting diketahui untuk

melakukan pengolahan arti terhadap kata ganti orang dan untuk mengartikan aspek

sementara dari informasi.

g) Word Knowledge

Mencakup arti sebuah kata secara umum dan apakah ada arti khusus bagi suatu kata dalam

suatu percakapan dengan konteks tertentu.

Definisi ini tidaklah bersifat kaku dan untuk setiap bentuk bahasa alami yang ada biasanya ada

pendefinisian lagi yang lebih spesifik sesuai dengan karakter bahasa tersebut. Pada beberapa

masalah mungkin hanya mengambil beberapa dari pendekatan tersebut bahkan mungkin ada yang

melakukan tambahan proses sesuai dengan karakter dari bahasa yang digunakan dan sistem yang

dibentuk.

Satu masalah lain yang dihadapi dalam pemrosesan bahasa alami yaitu ambiguitas atau makna

ganda ari suatu kalimat. Dari satu masukan yang sama dapat menjadi beberapa arti yang berbeda

dan masing-masing dapat bernilai benar tergantung pada keperluan pemakai. Hal ini dapat terjadi

pada hamper semua tingkatan pendekatan di atas.

7

2.2 Aplikasi dalam Bidang Pemrosesan Bahasa Alami

Jenis aplikasi yang bisa dibuat pada bidang pemrosesan bahasa alami adalah: text-based

application dan dialogue-based application. Text-based application mencakup segala macam aplikasi

yang melakukan proses terhadap teks tertulis seperti buku, berita di surat kabar, e-mail, dll. Contih

penggunaan dari text-based application ini adalah:

a. Mencari topik tertentu dari buku yang ada di perpustakaan.

b. Mencari isi dari surat atau e-mail.

c. Menerjemahkan dokumen dari satu bahasa ke bahasa yang lain.

2.3 Support Vector Machine

Support vector machine (SVM) pertama kali diperkenalkan oleh Vapnik pada tahun 1992 sebagai

rangkaian harmonis konsep-konsep unggulan dalam bidang pattern recognition. Sebagai salah satu

metode pattern recognition, usia SVM terbilang relative muda. Walaupun demikian, evaluasi

kemampuannya dalam berbagai aplikasinya menempatkannya sebagai state-of-the-art dalam pattern

recognition dan dewasa ini merupakan salah satu tema yang berkembang pesat. SVM adalah metode

machine learning yang bekerja atas prinsip Structural Risk Minimization (SRM) dengan tujuan

menemukan hyperplan terbaik yang memisahkan dua buah kelas pada input space.

Pattern recognition merupakan salah satu bidang dalam computer sains yang memetakan suatu

data ke dalam konsep tertentu yang telah didefinisikan sebelumnya. Konsepr tertentu ini disebut

class atau category. Contoh aplikasi pattern recognition diantaranya klasifikasi dokumen berdasarkan

topik tertentu, mengenali suara dalam sistem sekuriti, membaca huruf dalam OCR, dsb. Konsep SVM

dapat dijelaskan sebagai usaha mencari hyperplan terbaik yang berfungsi sebagai pemisah duabuah

class pada input space.

8

Gambar 1. SVM berusaha menemukan hyperplane terbaik yang memisahkan kedua class -1 dan +1

Gambar 1a. menunjukkan beberapa pattern yang merupakan anggota dari dua buah class: +1 dan

-1. Patterm yang tergabung pada class -1 disimbolkan dengan warna merah kotak, sedangkan patern

pada class +1, disimbolkan dengan warna kuning lingkaran. Problem dapat klasifikasi diterjemahkan

dengan usaha menemukan garis (hyperplane) yang memisahkan antara kedua kelompok tersebut.

Berbagai alternative garis pemisah (discrimination boundaries) ditunjukkan pada gambar 1a.

Hyperplane pemisah terbaik antara kedua class dapat ditemukan dengan mengukur margin

hyperplane tersebut dan mencari titik maksimalnya. Margin adalah jarak antara hyperplane tersebut

dengan pattern terdekat ari masing-masing class. Pattern yang paling dekat ini disebut sebagai

support vector. Garis solid pada gambar 1b menunjukkan hyperplane yang tebaik, yaitu yang terletak

pada tengah-tengah kedua class, sedangkan titik merah dan kuning yang berada dalam lingkatan

hitam adalah support vector. Usaha untuk mencari lokasi hyperplane ini merupakan inti dari proses

pembelajaran pada SVM.

2.4 Penelitian Terkait

Terdapat beberapa penelitian dari jurnal internasional yang telah berusaha untuk

mengidentifikasi kevalidan suatu berita dan memprediksi apakah suatu berita itu valid atau hoaks.

Penelitian yang dilakukan oleh Vukovic, Pripuzic dan Belani adalah membangun sebuah Intelligent

Automatic Hoax Detection System dengan menggunakan artificial neural network pada pesan e-mail.

Latar belakang penelitian mereka yaitu ingin membedakan e-mail hoax dengan e-mail spam.

9

Sebagaimana yang diketahui, e-mail spam berisi informasi-informasi terkait promosi suatu produk

atau event tertentu yang biasa dikirim oleh pihak marketing perusahaan. Pendekatan yang dipakai

ada dua yaitu pendekatan supervised learning menggunakan feed-forward artificial neural network

dan unsupervised learning menggunakan self-organizing map (SOM). Mereka mengujikan model yang

dibangun pada e-mail berbahasa Inggrisi dan Croatian. Text preprocessing yang dipakai meliputi

tokenisasi dan normalisasi teks.

Penelitian Ishak, Chen dan Yong membangun automatic hoax detection system untuk melindungi

penerima e-mail dari informasi yang salah. Mereka menggunakan Levenshtein Distance untuk

mengukur tingkat kemiripan suatu e-mail terhadap kumpulan e-mail yang mengandung informasi

yang salah dan kumpulan e-mail yang mengandung informasi yang valid. Sistem yang dibangun

menghasilkan positive predicted value 0.96 namun kurang bisa mengindetifikasi e-mail asli. Mereka

menyimpulkan bahwa e-mail yang mengandung informasi yang salah (e-mail hoax) tidak hanya dalam

bentuk teks tetapi juga gambar. Keywords yang menyatakan hoax juga terbatas. Sistem mereka

butuh improvement.

Conroy, Rubin, dan Chen melakukan literature survey pendekatan yang dilakukan untuk

mendeteksi hoax. Literature survey menyimpulkan ada dua pendekatan yaitu pendekatan linguistik

(linguistics approaches) dan network approaches yang dikombinasikan dalam machine learning.

Pendekatan linguistic terdiri dari data representation, deep syntax, dan semantic analysis. Data

representation menggunakan bag-of-words, n-grams, dan fitur-fitur yang bersifat lexical cues seperti

pos speech tag dan location-based words. Kelemahan data representation adalah tidak dapat

menggambarkan konteks informasi. Deep syntax menggunakan Probability Context Free Grammar

(PCFG) dengan cara mentransformasi kalimat ke dalam sekumpulan aturan (rule) untuk

menggambarkan struktur sintaks kalimat. Hasilnya analisis sintaks saja tidak cukup mendeteksi

hoaks. Semantic analysis mengidentifikasi signals of truthfulness dengan membandingkan personal

experience (seperti review hotel) dengan content profile yang diturunkan dengan data yang

berkaitan (analogous data). Kelemahannya 1) alignment capability antara atribut dan descriptor

bergantung pada kecukupan conten profile yang diolah, 2) asosiasi antara atribut yang diesktrak dgn

descriptor dengan benar. Network approaches menggunakan metadata yang dikombinasikan dengan

hyperlink untuk membangun pengukuran kebenaran (veracity assessment).

11

BAB III METODE PENELITIAN

3.1 Kerangka Pikir

Kerangka pikir dari penelitian ini sebagai berikut;

Gambar 2. Kerangka Penelitian

Kerangka penelitian terdiri dari empat komponen yaitu indikator, classifier yang diajukan (model

klasifikasi yang diajukan), tujuan, dan pengukuran. Indikator adalah sesuatu yang dicari dalam

penelitian ini. Indikator terdiri dari jenis kernel yang dipakai dalam algoritma SVM yaitu kernel linear

dan kernel non-linear. Features (fitur-fitur) merupakan matriks karakteristik yang akan diinputkan ke

dalam algoritma SVM. Matriks ini berisi kumpulan nilai-nilai dari fitur-fitur yang berhasil diekstrak dari

corpus. Mengidentifikasi fitur-fitur yang bisa menggambarkan karakteristik berita kesehatan valid

dan berita kesehatan hoaks menjadi permasalahan utama dalam penelitian ini.

Kombinasi jenis kernel dan matriks fitur-fitur akan menjadi parameter dan input bagi algoritma

klasifikasi SVM. Algoritma ini akan belajar dari fitur-fitur data pelatihan (training set) sehingga

terbentuk suatu classifier (model klasifikasi). Model klasifikasi ini kemudian dites/diuji menggunakan

fitur-fitur yang diekstrak dari data uji (testing set). Tujuan nya adalah membangun model yang bisa

memprediksi berita kesehatan baru dan mengklasifikasikannya dengan benar. Performance classifier

dilihat dari precision, recall, dan accuracy.

12

3.2. Metode Penelitian

Berikut metode penelitian yang dipakai:

Gambar 3. Metode Penelitian

Penelitian diawali dengan mendefiinsikan sumber data yaitu website yang mempublikasikan

berita kesehatan yang valid dan hoaks. Website sumber berita diantaranya https://health.detik.com,

htpps://health.liputan6.com, dan https://www.turnbackhoax.id. Alamat website tersebut dijadikan

target atau objek crawling dan scrapping. Crawling dan scrapping ditujukan untuk mengambil berita

secara otomatis. Berita yang berhasil dicrawled disimpan pada dua corpus yaitu corpus berita

kesehatan valid dan corpus berita kesehatan hoax.

Kumpulan berita kemudian di-preprocess dengan cara melakukan tokenisasi yaitu pemotongan

berita menjadi kumpulan kalimat lalu kumpulan kalimat menjadi kumpulan kata. Tokenisasi

menggunakan pola regex (regular expression). Dari kumpulan token akan dibuang token-token yang

merupakan kata stopwords. Stopwords adalah kata-kata yang sering muncul dan tidak mampu

mencirikan suatu topik. Setelah corpus bersih dari stopwords, dilakukanlah stemming. Stemming

adalah proses memenggal satu kata menjadi kata dasarnya. Misalkan kata “memasak” di-stemming

menjadi kata “masak”. Selain stemming, diterapkan juga teknik lemmatization yaitu memenggal

suatu kata dengan memperhatikan konteks di sekitar kata tersebut.

Setelah corpus di-preprocess, langkah selanjutnya adalah memilih dan mengekstraksi fiutr-fitur

yang dimiliki oleh sekumpulan berita kesehatan valid dan hoaks. Fitur yang text mining bisa berupa

https://health.detik.com/

https://www.turnbackhoax.id/

13

fitur morfologi, contextual, dll. Dalam penelitian ini, pemilihan dan ekstraksi fitur menjadi pertanyaan

penelitian. Fitur-fitur yang berhasil diekstraksi dibentuk menjadi matriks fitur yang siap diinput ke

algoritma klasifikasi SVM. Untuk menguji model klasifikasi yang terbentuk, penelitian ini

menggunakan metode hold-out yaitu membagi dataset menjadi data pelatihan dan data testing

dengan proporsi 80% untuk pelatihan dan 20% untuk testing. Ukuran yang dipakai untuk

mengevaluasi model klasifikasi yaitu akurasi, precision, recall, dan F1 score.

15

BAB IV HASIL PENELITIAN

4.1 Dataset

Dataset berisi kumpulan berita kesehatan valid dan hoax. Dataset diambil dari website

https://health.detik.com, https://kominfo.go.id, https://www.antiberitahoax.com, https://hoaxes.id,

https://klikdokter.com, https://hoaxindo.blogspot.co.id. Dataset yang berhasil dikumpulkan terdiri

dari 65 berita kesehatan hoax dan 25 berita kesehatan valid. Definisi 25 berita kesehatan valid ini

adalah berita kesehatan yang dipelintir atau ada versi hoaksnya. Berikut contoh berita kesehatan

hoaks dan valid:

Konten Berita Kategori

Ada seorang wanita meninggal mendadak dengan kelima panca indra keluar darah. Setelah

diselidiki ternyata wanita ini meninggal bukan karena bunuh diri atau dibunuh, melainkan

karena ketidaktahuan tentang 'racun akibat makanan'. Wanita ini memiliki kebiasaan makan

cokelat tiap hari, ini tidak masalah. Masalahnya, malam itu wanita ini kebanyakan makan mi

goreng. Sebenarnya cuma makan mi goreng saja juga tidak masalah, karena orang rumahnya

juga banyak makan mi malam itu dan tak ada yang meninggal. Tetapi karena mi itu mengandung

arsenic pentoxide (As2O5) dan berhubung habis makan mi wanita itu makan cokelat,

terjadilah reaksi kimia di dalam perut yang membuat arsenic pentoxide (As2O5) berubah

menjadi arsenic trioxide (As2O3) yang sangat beracun. Inilah yang mengakibatkan hati,

jantung, ginjal, pembuluh darah rusak, usus berdarah, pembuluh darah melebar/dilatasi. Jadi

hati-hati!! Jika habis banyak makan mi goreng, mi kering, mi soto, jangan makan cokelat pada

saat yang bersamaan. Copy paste lah jika Anda merasa ini cukup penting!

hoaks

Assalamualaikum….Yth. Rekan-rekan semua. Menginformasikan & mengingatkan kepada teman

teman agar tidak lupa bahwa system Big Data Cyber Security (BDCS) Indonesia sdh

terpasang, menyusul rencana Wantanas RI (Dewan Pertahanan Nasional) yg akan mengambil

semua informasi melalui internet di Indonesia. Artinya, segala percakapan kita di Cyber

Social Media (WA, BBM, Telegram, Line, SMS, dll.) akan masuk secara otomatis ke BDCS.

Hindari mengirim berita yg bersifat sensitif (SARA) dan gambar-gambar pemimpin negara,

lambang negara, serta simbol negara untuk bahan kartun, guyonan, ataupun lelucon lainnya.

Polisi internet melalui teknik internet sistem akan menelusuri sumber pengirim ke grup tsb.

Diharapkan kepada rekan-rekan agar dapat saling mengingatkan dan menghindari hal tsb.

Jangan sampai kita berurusan dengan polisi internet ( Cyber Crime Police) hanya karena ingin

bercanda dan berlelucon di media sosial. Semoga kita bisa menggunakan media sosial untuk

menyampaikan informasi dalam bentuk tulisan, artikel, ataupun gambar dengan santun dan

beretika. Semoga bermanfaat.

hoaks

Untuk Anda yang suka minum air dingin, artikel ini cocok untuk Anda. Memang enak untuk

minum secangkir minuman dingin setelah makan. Tapi, air dingin akan mengeraskan makanan

berminyak yang baru saja dimakan. Dan memperlambat pencernaan makanan. Ketika endapan

ini bereaksi dengan asam lambung, endapan akan terpecah dan diserap oleh usus lebih cepat

daripada makanan padat. Ini akan memenuhi usus. Sebentar saja, ini akan berubah menjadi

hoaks

https://health.detik.com/

https://kominfo.go.id/

https://www.antiberitahoax.com/

https://hoaxes.id/

https://klikdokter.com/

https://hoaxindo.blogspot.co.id/

16

lemak dan bisa mengakibatkan kanker. Paling baik meminum/memakan sup panas atau air

hangat setelah makan. Catatan serius mengenai serangan jantung: Tidak semua gejala

serangan jantung adalah sakit pada lengan kiri. Waspadalah jika ada rasa sakit yang terus

menerus pada rahang. Mungkin kita tidak akan mengalami rasa sakit dada pertama ketika

terjadinya serangan jantung. Rasa mual dan keringat yang berlebihan juga adalah gejala yang

umum dijumpai. Sebanyak 60% dari mereka yang terkena serangan jantung ketika tidur tidak

terbangun. Rasa sakit di rahang bisa membangunkan kita dari tidur nyenyak. Berhati-hatilah

dan waspada. Semakin banyak kita tahu, semakin baik kesempatan kita untuk selamat.

Seorang ahli jantung mengatakan jika mereka yang mendapatkan email ini mengirimkannya lagi

ke 10 orang lainnya, kita bisa menyelamatkan sedikitnya 1 nyawa. Bacalah, ini bisa

menyelamatkan hidup Anda. Jadilah teman sejati dan kirimkan artikel ini ke semua teman

yang Anda sayangi.

Apakah benar bahwa jika dikonsumsi dalam waktu hampir bersamaan konsumsi mi dan cokelat

bisa membuat Anda keracunan hingga meninggal dunia? detikHealth melakukan wawancara

dengan ahli gizi Leona Victoria Djajadi, MND, terkait kebenaran informasi ini.Menurut

Victoria, segala jenis arsenik (terutama yang sintetik), memang tergolong produk beracun.

Namun memang di dalam tubuh manusia serta hewan, akan selalu ada arsenik dalam level yang

sangat rendah. Ini merupakan akumulasi dari makanan maupun dari udara. "Bukannya tidak

mungkin ada kontaminasi arsenik atau keracunan. Tapi yang tidak mungkin adalah produsen mi

yang sudah lolos sertifikasi BPOM (Badan Pengawas Obat dan Makanan -red), dengan sengaja

memakai arsenik sebagai bahan bakunya. Jadi ini super duper hoax," ungkap ahli gizi lulusan

University of Sydney ini kepada detikHealth. Penulisan serangkaian reaksi kimia yang beredar

juga kerap membuat masyarakat resah. Hal ini karena reaksi-reaksi kimia semacam itu

membuat informasi yang beredar semakin tampak meyakinkan. Menanggapi hal ini, Victoria

berpesan supaya masyarakat tidak mudah percaya dengan info yang beredar di media

sosial."Biasanya biar bikin tambah keren dipakai bahasa-bahasa kimia, ditulis semua,"

imbuhnya. Informasi yang beredar ini dikatakan oleh Victoria mirip dengan hoax beberapa

waktu lalu, yang menyebutkan bahwa minum es jeruk setelah makan udang bisa membuat

keracunan. Nyatanya, semua bergantung pada banyaknya dosis yang dikonsumsi. Konsumsi

udang dan vitamin C dalam jumlah standar tidak serta-merta akan menimbulkan reaksi arsenic

berbahaya, apalagi sampai menimbulkan keracunan atau kematian mendadak.

valid

Apakah benar bahwa jika dikonsumsi dalam waktu hampir bersamaan konsumsi mi dan cokelat

bisa membuat Anda keracunan hingga meninggal dunia? detikHealth melakukan wawancara

dengan ahli gizi Leona Victoria Djajadi, MND, terkait kebenaran informasi ini.Menurut

Victoria, segala jenis arsenik (terutama yang sintetik), memang tergolong produk beracun.

Namun memang di dalam tubuh manusia serta hewan, akan selalu ada arsenik dalam level yang

sangat rendah. Ini merupakan akumulasi dari makanan maupun dari udara. "Bukannya tidak

mungkin ada kontaminasi arsenik atau keracunan. Tapi yang tidak mungkin adalah produsen mi

yang sudah lolos sertifikasi BPOM (Badan Pengawas Obat dan Makanan -red), dengan sengaja

memakai arsenik sebagai bahan bakunya. Jadi ini super duper hoax," ungkap ahli gizi lulusan

University of Sydney ini kepada detikHealth. Penulisan serangkaian reaksi kimia yang beredar

juga kerap membuat masyarakat resah. Hal ini karena reaksi-reaksi kimia semacam itu

membuat informasi yang beredar semakin tampak meyakinkan. Menanggapi hal ini, Victoria

berpesan supaya masyarakat tidak mudah percaya dengan info yang beredar di media

sosial."Biasanya biar bikin tambah keren dipakai bahasa-bahasa kimia, ditulis semua,"

imbuhnya. Informasi yang beredar ini dikatakan oleh Victoria mirip dengan hoax beberapa

waktu lalu, yang menyebutkan bahwa minum es jeruk setelah makan udang bisa membuat

valid

17

keracunan. Nyatanya, semua bergantung pada banyaknya dosis yang dikonsumsi. Konsumsi

udang dan vitamin C dalam jumlah standar tidak serta-merta akan menimbulkan reaksi arsenic

berbahaya, apalagi sampai menimbulkan keracunan atau kematian mendadak.

Apakah sebenarnya obat ini benar-benar perlu dibawa dan bisa dikonsumsi siapa saja?

Adakah efek negatifnya jika diminum bebas tanpa resep dokter? detikHealth melakukan

wawancara dengan dokter spesialis jantung dan pembuluh darah RS Pusat Jantung Nasional

Harapan Kita, dr Isman Firdaus, SpJP, MD, terkait kebenaran informasi ini. Menurut dr

Isman, obat sejenis isosorbid dinitrat saat ini diperuntukkan bagi pasien-pasien yang

mengalami keluhan sakit dada atau angina pektoris akibat penyakit jantung koroner. Obat ini

diberikan jika memang terdapat keluhan yang khas angina pektoris. "Pasien-pasien atau

individu yang dicurigai mempunyai ancaman atau faktor risiko terjadinya serangan jantung

dianjurkan membawa obat ini kemana pun berada untuk digunakan sewaktu-waktu jika

dicurigai terdapat keluhan serangan jantung," tutur dr Isman. Di pasaran, obat ini tersedia

dalam berbagai jenis sediaan, di antaranya dalam bentuk tablet, spray (semprot), patch

(tempel), dan suntikan. Jika diminum tanpa resep dokter, obat ini disebutkan dr Isman bisa

memberikan beberapa efek terhadap tubuh. Salah satunya adalah terjadinya hipotensi alias

penurunan tekanan darah. Maka dari itu, obat ini tidak direkomendasikan untuk diberikan

pada pasien-pasien dengan tekanan darah sistolik kurang dari 80 mmHg. "Efek samping

lainnya adalah terjadi sakit kepala atau pusing akibat turut melebarnya pembuluh darah di

kepala. Pemberian obat ini juga tidak direkomendasikan pada pasien yang sedang mengonsumsi

obat-obatan disfungsi ereksi golongan sildenafil dan dengan tekanan darah rendah," imbuh dr

Isman.Dilihat dari berbagai risikonya, pemberian obat ini sebaiknya tetap berdasarkan resep

dokter. Tidak dianjurkan untuk sembarangan mengonsumsi obat Isosorbide Dinitrate 5 mg

tanpa berkonsultasi dengan dokter terlebih dahulu. "Obat ini adalah obat dengan kode merah,

artinya memang harus dengan resep dokter. Jika seseorang pernah mengalami keluhan di

sekitar dada, biasanya dokter akan memberikan obat nitrat di bawah lidah untuk diberikan

jika ada keluhan. Yang pasti, pasien harus dicek terlebih dahulu tekanan darahnya ya," ungkap

dr Isman.

valid

4.2 Pemodelan

Untuk membangun model diperlukan matriks yang berisi nilai fitur-fitur yang berhasil diekstrak.

Berdasarkan literature review dan pengamatan terhadap dataset maka penelitian ini menggunakan

29 fitur yang dikelompokkan menjadi 3 kategori fitur. Berikut rincian fitur-fitur tersebut:

1. Fitur yang berkaitan dengan karakter (character-based feature):

a. Total karakter

b. Frekuensi digit

c. Frekuensi symbol (special karakter)

d. Frekuensi tanda baca (punctuation)

e. Persentasi huruf (letter)

f. Persentasi huruf capital (uppercase)

g. Persentasi huruf kecil (lowercase)

18

2. Fitur yang berkaitan dengan kata (word-based feature):

a. Total kata

b. Frekuensi most common unigram

c. Frekuensi most common bigram

d. Frekuensi most common trigram

e. Frekuensi function words dalam Bahasa Indonesia, yang terdiri dari kata-kata berikut:

1. Dan

2. Lain

3. Dari

4. Ke

5. Engkau

6. Dengan

7. Kepada

8. Mungkin

9. Sekali

10. Mari

11. Untuk

12. Mana

13. Berbeda

14. Agak

15. Jarang

16. Setiap/semua

17. Kebanyakan

18. Kurang

19. Yang

20. Tempat

21. Tapi

22. Sesuatu

23. Kapan

24. Hamper

25. Pasti

26. Dekat

27. Kecuali

28. Sebetulnya

29. Beberapa

30. Meskipun

31. Kalau begitu

32. Kira-kira

33. Ketika/waktu

34. Sebab

35. Apa saja

36. Seperti

37. Begitu

38. Kalua

39. Atau

40. Olah

41. Siapa

42. Sebaiknya

43. Berbagai

44. Makin

45. Betul-betul

46. Tentang

47. Mengapa

48. Banyak

3. Fitur yang berkaitan dengan Frekunsi POS Tag yang terdiri dari 17 POS Tag, meliputi:

1. ADJ: adjective

2. ADP: adposition

3. ADV: adverb

4. AUX: auxiliary verb

5. CONJ: coordinating conjunction

6. DET: determiner

7. INTJ: interjection

8. NOUN: noun

9. NUM: numeral

10. PART: particle

11. PRON: pronoun

12. PROPN: proper noun

13. PUNCT: punctuation

19

14. SCONJ: subordinating conjunction

15. SYM: symbol

16. VERB: verb

17. X: other

4.3 Hasil Pengujian

Eksperimen dengan 29 fitur diatas menggunakan algoritma SVM classification, hasillnya sebagai

berikut:

precision recall f1-score support

non hoax 0.00 0.00 0.00 5

hoax 0.74 1.00 0.85 14

avg / total 0.54 0.74 0.63 19

accuracy: 0.7368

Most common unigram setelah dibuang stopword:

[('isotonic', 1), ('nice', 1), ('pisang', 1), ('As2O3', 1), ('Lagi', 1), ('putih', 1),

('pe', 1), ('cewek', 1), ('Wooow……', 1), ('REKAN', 1), ('lendir', 1), ('Tulang', 1), (

'mnyerah', 1), ('USA', 1), ('islam', 1), ('Perlu', 1), ('Bonar', 1), ('HITAM', 1), ('T

ed', 1), ('Nurses', 1)]

Most common unigram include stopword:

[('.', 1156), (',', 1122), ('yang', 587), ('dan', 396), ('ini', 307), ('di', 285), ('d

alam', 217), ('!', 205), ('dari', 199), (')', 199), ('(', 193), ('dengan', 163), ('kan

ker', 160), ('tidak', 152), ('untuk', 151), ('pada', 132), ('bahwa', 119), ('itu', 117

), ('akan', 114), ('dapat', 113)]

Distribusi kata-kata

{'yang': 607, 'dan': 441, 'ini': 333, 'di': 292, 'dalam': 261, 'dari': 208, 'kanker':

189, 'tidak': 182, 'dengan': 180, 'untuk': 173, 'dapat': 151, 'pada': 150, 'anda':

130, 'telah': 127, 'fluoride': 125, 'akan': 123, 'makan': 122, 'ada': 122, 'itu': 122,

'bahwa': 119, 'air': 110, 'kita': 109, 'orang': 104, 'lebih': 104, 'saya': 97, 'jadi':

96, 'kandung': 95, 'adalah': 95, 'guna': 95, 'juga': 92, 'minum': 90, 'sakit': 88,

'anak': 85, 'sebab': 85, 'atau': 83, 'buah': 79, 'bagi': 79, 'yg': 79, 'karena': 79,

'sel': 73, 'temu': 71, 'sebut': 71, 'bagai': 71, 'ke': 67, 'bisa': 67, 'tubuh': 67,

'tahu': 66, 'seperti': 65, 'tulang': 65, 'teliti': 64, 'semua': 61, 'produk': 58,

'obat': 58, 'banyak': 58, '1': 57, 'bahaya': 56, 'buat': 55, 'oleh': 55, 'satu': 53,

'lain': 53, 'dia': 52, 'tingkat': 52, 'sudah': 51, 'besar': 51, 'apa': 51, 'jika': 50,

'otak': 50, 'sangat': 50, '2': 49, 'darah': 49, 'cara': 48, 'mereka': 48, 'sehat': 47,

'biasa': 47, 'racun': 46, 'baik': 46, 'laku': 44, 'hanya': 44, 'tahun': 44, 'beri':

44, 'bahan': 42, 'gigi': 41, 'hal': 41, 'zat': 40, 'saat': 40, 'lemon': 40,

'beberapa': 40, 'kurang': 39, 'hasil': 39, 'mineral': 39, 'salah': 39, 'coba': 38,

'saja': 38, 'ketika': 38, 'lihat': 38, 'baru': 38, 'dunia': 38, 'dokter': 37,

'konsumsi': 36, 'milik': 35, 'mati': 35, 'nyata': 35, 'hari': 35, 'lalu': 34,

'wanita': 34, 'kepada': 34, 'jangan': 34, 'indonesia': 34, 'kami': 34, 's': 33,

'waktu': 32, 'tinggi': 32, 'tinggal': 32, 'rasa': 31, 'bunuh': 31, 'kimia': 31,

'tunjuk': 30, 'bahkan': 30, 'teman': 30, 'lama': 30, 'efek': 30, 'utama': 29, 'of':

20

29, 'hilang': 29, 'masuk': 29, 'hadap': 28, 'usaha': 28, 'pakai': 28, 'rupa': 28,

'harus': 28, 'jenis': 28, 'tambah': 28, 'acid': 27, 'botol': 27, 'derita': 27, 'para':

27, 'aspartame': 27, 'punya': 26, 'fluorida': 26, 'masalah': 26, 'rusak': 26, 'aqua':

26, 'teh': 26, 'hati': 25, 'sama': 25, 'sehingga': 25, 'menit': 25, 'selain': 25,

'informasi': 25, 'ikut': 24, 'danone': 24, 'paling': 24, 'hancur': 24, 'tapi': 24,

'produksi': 24, 'tumbuh': 24, 'plastik': 24, 'luar': 24, 'hydroxylic': 23, 'pernah':

23, '3': 23, 'alami': 23, 'kena': 23, 'rusa': 23, 'tumor': 23, 'kuat': 23, 'israel':

22, 'akibat': 22, 'bersih': 22, 'atas': 22, 'payudara': 22, 'kelompok': 22, 'asam':

22, 'mungkin': 22, 'turun': 22, 'tolong': 21, 'mana': 21, 'tiap': 21, 'bantu': 21,

'10': 21, 'rumah': 21, 'coca-cola': 21, 'bukti': 21, 'the': 21, 'kali': 20, 'mobil':

20, 'tentang': 20, 'seluruh': 20, 'keluar': 20, 'belum': 20, 'dioksin': 20, 'tanam':

20, 'bentuk': 20, 'bedak': 20, 'benar': 20, 'manusia': 20, 'and': 20, 'kata': 19,

'enzim': 19, 'mampu': 19, 'aku': 19, 'gejala': 19, 'maka': 19, 'tsb': 19, 'ingin': 19,

'tangan': 19, 'ubah': 19, 'pengaruh': 19, 'lipstik': 18, 'sedikit': 18, 'sistem': 18,

'gula': 18, 'serta': 18, 'agar': 18, 'sampai': 18, 'butuh': 18, 'bawah': 18, 'bila':

18, 'artikel': 18, 'jumlah': 18, 'mengapa': 18, 'panas': 18, '4': 17, 'ahli': 17, '5':

17, 'lagi': 17, 'harvard': 17, 'pete': 17, 'pohon': 17, 'tetapi': 17, 'wadah': 17,

'tanya': 17, 'dr': 17, 'd': 17, 'malam': 16, 'jantung': 16, 'atur': 16, 'masih': 16,

'cepat': 16, 'hubung': 16, 'com': 16, 'australia': 16, 'beli': 16, 'kemoterapi': 16,

'universitas': 16, 'mi': 16, 'kembali': 16, 'rumput': 16, 'cerna': 16, 'blushwood':

16, 'sebar': 16, 'bawa': 15, 'kalau': 15, 'jangka': 15, 'tahan': 15, 'biji': 15,

'kenal': 15, 'sel2': 15, 'kerja': 15, 'senyawa': 15, 'hitam': 15, 'kembang': 15,

'jam': 15, 'namun': 15, 'studi': 14, 'tempat': 14, 'jus': 14, 'ganti': 14, 'drink':

14, 'pasta': 14, 'cerdas': 14, 'n': 14, 'warna': 14, 'umum': 14, 'mulai': 14,

'campur': 14, 'terus': 14, 'pt': 14, 'info': 14, 'jelas': 14, 'ilmuwan': 14, 'ambil':

14, 'zionis': 14, 'ajar': 14, 'makin': 14, 'tanpa': 14, 'penting': 13, 'anti': 13,

'serang': 13, '-': 13, 'panjang': 13, 'kirim': 13, 'manfaat': 13, 'program': 13,

'dingin': 13, 'rendah': 13, 'masak': 13, 'lanjut': 13, 'arti': 13, 'sosro': 13, 'l':

13, 'kemas': 13, 'tdk': 13, 'waspada': 13, 'tikus': 13, 'kaleng': 12, 'kecil': 12,

'soft': 12, 'usus': 12, 'akhir': 12, 'perempuan': 12, 'ginjal': 12, 'langsung': 12,

'kelenjar': 12, 'flouride': 12, 'i': 12, '9': 12, 'hambat': 12, 'flourida': 12,

'lemak': 12, 'ia': 12, 'for': 12, '22': 12, 'health': 12, 'segera': 12, 'kadar': 12,

'antara': 12, 'ingat': 12, 'sesuatu': 12, 'hidup': 12, 'zionisme': 12, 'kampanye': 12,

'kemudian': 12, 'iq': 12, 'sifat': 12, 'tua': 12, 'rebus': 12, 'pupuk': 12, 'hewan':

11, 'daripada': 11, 'a': 11, 'selamat': 11, 'habis': 11, 'lead': 11, 'sembuh': 11,

'amerika': 11,

Visualisasi Wordcloud dari dataset:

Gambar 4. Wordcloud Hoax dengan Stopwords

Gambar 5. Wordcloud Hoax tanpa Stopwords

21

BAB V KESIMPULAN

4.1. Kesimpulan

Dari beberapa eksperimen yang telah dilakukan, dapat ditarik beberapa kesimpulan sebagai berikut:

1. Proses pengumpulan dataset berita kesehatan hoaks cukup sulit. Hal ini dikarenakan sulitnya

menemukan editorial berita hoaks itu sendiri. Yang tersedia di website adalah klarifikasi atas

berita hoaks tersebut. Proses crawling dan scrapping tidak bisa diterapkan karena diperlukan

pengecekan manual untuk menentukan kategori berita tersebut.

2. Dari dataset yang berhasil terbentuk, berita kesehatan hoaks memiliki beberapa ciri sebagai

berikut:

a. Seringkali terdapat salah penulisan (typo)

b. Beberapa kata menggunakan huruf capital semua

c. Beberapa berita kesehatan hoaks menyertakan kata-kata yang berhubungan dengan

SARA (Suku, agama, dan ras)

d. Tidak menyertakan nama narusumber berita atau nama rumah sakit yang bisa

memberikan referensi

3. Fitur-fitur yang berhasil diekstrak sudah cukup lengkap dan dapat menghasilkan model

dengan akurasi di atas 70%. Namun secara umum, performance model sangat dipengaruhi

oleh jumlah dataset/corpus. Model yang dibentuk masih tidak akurat mengklasifikasikan

berita kesehatan yang valid.

4.2. Saran

1. Dataset yang dikumpulkan diperbanyak lagi meskipun proses pengumpulan dataset dilakukan

secara manual dan memakan waktu lama.

2. Perlu dicoba algoritma klasifikasi lainnya seperti Neural Network atau Deep Neural Network yang

secara teori cukup tangguh menangani data yang noisy.

Download - DETEKSI HOAKS KESEHATAN MENGGUNAKAN PENDEKATAN … · 2020. 7. 9. · LEMBAR PENGESAHAN Laporan Penelitian Dosen dengan judul: DETEKSI HOAKS KESEHATAN MENGGUNAKAN PENDEKATAN LINGUISTIK

Top Related