mengklasifikasi cyberbullying dari media ...repository.usd.ac.id/38045/2/155314047_full.pdfgambar...

MENGKLASIFIKASI CYBERBULLYING DARI MEDIA

SOSIAL TWITTER MENGGUNAKAN ALGORITMA

KLASIFIKASI K-NEAREST NEIGHBOR DAN PENDEKATAN

LEKSIKON

SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana

Komputer Program Studi Informatika

Oleh :

Novri Karyadi Sahputra

155314047

PROGRAM STUDI INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2020

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ii

CLASSIFYING CYBERBULLYING FROM SOCIAL MEDIA

USING TWITTER'S CLASSIFICATION ALGORITHM K-

NEAREST NEIGHBOR AND LEXICON APPROACH

THESIS

Presented as Partial Fulfillment of the Requirements To Obtain the Sarjana

Komputer Degree in Informatics Study Program

Written by :

Novri Karyadi Sahputra

155314047

INFORMATICS STUDY PROGRAM

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2020


v

MOTTO

“Air mata pendidikan adalah mata air kehidupan.”

-Mbah Kasih

“Tidur untuk bermimpi dan bangun untuk mewujudkan.”

“Begadang jangan begadang, kalau tiada artinya.

Begadang boleh saja, kalau ada perlunya.”

(Rhoma Irama – Begadang)


viii

ABSTRAK

Kemajuan teknologi interaksi sosial tidak sebaik perilaku sosial masyarakat

dalam bersosial media. Flaming adalah salah satu jenis dari cyberbullying yang

sering dijumpai di platform media sosial manapun. Menurut Satalina (2014),

flaming merupakan pesan teks yang isinya merupakan kata-kata yang penuh amarah

dan frontal (Willard, 2005). Salah satu media sosial yang dengan mudah

menemukan umpatan terhadap orang lain adalah Twitter. Pada umumnya orang

Indonesia senang mengumpat dengan menggunakan nama jenis hewan sebagai

bentuk ekspresinya.

Topik tersebut menjadi sumber data dan dasar dalam penelitian ini.

Klasifikasi adalah metode yang dapat mengelompokkan tweet berdasarkan

maknanya. Algoritma klasifikasi yang cukup populer salah satunya adalah K-

Nearest Neighbor. Ada pula klasifikasi yang mengandalkan kamus sentimen seperti

Leksikon. Penelitian ini mencoba mengukur metode mana yang memiliki akurasi

yang lebih baik antara KNN dan pendekatan kamus Sentimen Leksikon Indonesia

menggunakan Rule Based Method dalam mengklasifikasi antara tweet flaming dan

netral yang mengandung kata umpatan.

Penelitian ini dilakukan dengan jumlah data sebanyak 100 tweet, dimana

semua tweet-nya mengandung kata umpatan ‘anjing’. Kedua metode ini

menggunakan masukan yang sama yaitu berupa teks. Pada tahap KNN terdapat

beberapa proses seperti pre-processing, pembobotan TF-IDF, K-Fold Cross

Validation, dan mengukur jarak tetangga. Akurasi kedua metode ini diukur

menggunakan Confusion Matrix dengan berdasarkan klasifikasi manual oleh Bapak

A. Danang Satria Nugraha, M.A sebagai triangulator.

Dari hasil pengujian yang telah dilakukan, algoritma K-Nearest Neighbor

menghasilkan akurasi tertinggi sebesar 73.0% dengan menggunakan 10 fold saat

jumlah tetangga terdekat berjumlah K = 1. Sedangkan pada pendekatan kamus

Sentimen Leksikon Indonesia dengan menggunakan Rule Based Method

memperoleh hasil akurasi sebesar 64%.

Kata Kunci : Tweet, Klasifikasi, K-Nearest Neighbor, Leksikon, Rule Based

Method


ix

ABSTRACT

The advancement of social interaction technology is not as good as social

behavior of society in social media. Flaming is one of those types of cyber

bullying that is often found on any social media platform. According

to Satalina (2014), flaming is a text message whose contents are anger-filled and

frontal words (Willard, 2005). One of the social media that easily finds a swearing

of others is Twitter. In general, Indonesians love to swear by using animal names

as their expressions.

The topic is a data source and the basis for this study. Classification is a

method that can group tweets by their meaning. The classification algorithm is quite

popular one of which is K-Nearest Neighbor. There are also classifications that rely

on sentiment dictionaries like lexicon. This study tried to gauge which method has

better accuracy between KNN and the dictionary approach Indonesian Lexicon

sentiment uses the Rule Based Method of classifying the flaming and neutral

tweets containing the word swear.

This research is done with a total of 100 tweets, of which all of the tweets

contain the word ' dog '. Both methods use the same input as text. At the KNN stage

there are several processes such as pre-processing, TF-IDF-weighted, K-Fold Cross

Validation, and distance-measuring neighbors. The accuracy of these two methods

is measured using the Confusion Matrix based on manual classification by Mr. A.

Danang Satria Nugraha, M.A as the triangulator.

From the test results, the K-Nearest Neighbor algorithm resulted in the

highest accuracy of 73.0% by using 10 fold when the nearest number of neighbors

was K = 1. Meanwhile, in the dictionary approach of Indonesian lexicon by using

Rule Based Method, the accuracy of 64% is achieved.

Keyword : Tweet, classification, K-Nearest Neighbor, Lexicon, Rule Based Method


x

KATA PENGANTAR

Dalam kesempatan ini penulis ingin mengucapkan terima kasih yang

sebesar-besarnya kepada semua pihak yang telah memberikan doa, motivasi,

bantuan, dan dukungan baik secara langsung maupun tidak langsung dalam

menyelesaikan tugas akhir ini. Dengan kerendahan hati, penulis mengucapkan

terima kasih kepada :

1. Tuhan yang Maha Esa yang selalu membantu dengan caranya yang

misterius.

2. Papa dan Mama yang selalu memberikan kepercayaan dan memotivasi serta

dukungan maupun doa sepanjang menempuh perkuliahan ini.

3. Bapak Robertus Adi Nugroho, S.T., M.Eng. selaku Ketua Program Studi

Informatika Fakultas Sains dan Teknologi dan selaku Dosen Pembimbing

tugas akhir yang telah meluangkan waktu, memberikan saran dan dukungan

bagi penulis dalam menyelesaikan tugas akhir.

4. Bapak A. Danang Satria Nugraha, M.A. selaku Wakil Program Studi

Bahasa dan Sastra Indonesia yang telah memberikan kesempatan dan

bersedia untuk menjadi triangulator dalam penelitian ini.

5. Bapak Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D. selaku Dekan Fakultas

Sains dan Teknologi.

6. Bapak JB. Budi Darmawan S.T., M.Sc. selaku Dosen Pembimbing

Akademik.

7. Seluruh Dosen Program Studi Informatika Fakultas Sains dan Teknologi

Universitas Sanata Dharma yang telah memberikan ilmu pengetahuan,

pengalaman, dan wawasan kepada penulis.

8. Bapak Christopher Yanuar selaku Asisten Laboratorium Basis Data.

9. Karyawan Universitas Sanata Dharma khususnya Bapak Timbul yang telah

mengkondisikan Ruang Akses Mahasiswa / Laboratorium Tugas Akhir

sebagai mana layaknya ruang belajar yang nyaman.


xi

10. Beta Febrida Damanik yang selalu memberikan semangat, dukungan, dan

motivasi dalam penyelesaian tugas akhir.

11. Saudara Jeri Ferdiano dan saudara Adres Kusumawardhana yang telah

meluangkan waktu, tenaga serta menjadi tempat berdiskusi dan membantu

penulis dalam menyelesaikan tugas akhir ini.

12. Saudara Rendi Fong, saudara Heriadi, saudara Novryanto, saudara Hilman

Maulana, saudara Herdyan Faturrahman, saudara Syofian Hadi dan saudara

Fengky Junis yang telah berjuang bersama di perantauan.

13. Teman-teman Program Studi Teknik Informatika Angkatan 2015 yang

selalu solid.

14. Teman-teman “Tempe Benguk” yang selalu ada saat suka maupun duka

dalam pengerjaan tugas akhir ini.

15. Kakak-kakak kelas Program Studi Teknik Informatika Angkatan 2014 yang

selalu bersedia menjadi tempat bertukar pikiran.

16. Kamu, yang telah membaca tugas akhir ini.


xii

DAFTAR ISI

JUDUL .................................................................................................................... 1

TITLE ....................................................................................................................... ii

HALAMAN PERSETUJUAN ................................................................................ iii

HALAMAN PENGESAHAN................................................................................. iv

MOTTO....................................................................................................................v

PERNYATAAN KEASLIAN KARYA.................................................................. vi

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

UNTUK KEPENTINGAN AKADEMIS............................................................... vii

ABSTRAK ............................................................................................................ viii

ABSTRACT .............................................................................................................. ix

KATA PENGANTAR..............................................................................................x

DAFTAR ISI .......................................................................................................... xii

DAFTAR GAMBAR ............................................................................................. xv

DAFTAR TABEL ................................................................................................ xvii

BAB I PENDAHULUAN ....................................................................................... 1

1.1. Latar Belakang.......................................................................................... 1

1.2. Rumusan Masalah .................................................................................... 3

1.3. Batasan Masalah ....................................................................................... 3

1.4. Tujuan Penelitian ...................................................................................... 3

1.5. Sistematika Penulisan ............................................................................... 4

BAB II LANDASAN TEORI ................................................................................. 5

2.1 Cyberbullying ........................................................................................... 5

2.2 Text Mining............................................................................................... 6

2.2.1 Text Classification ............................................................................. 6

2.2.2 Pre-processing .................................................................................. 7

2.3 Ekstraksi Fitur ........................................................................................ 14

2.3.1 Pembobotan TF-IDF ....................................................................... 14

2.3.2 Leksikon .......................................................................................... 16

2.4 Rule Based Method ................................................................................. 17

2.5 Algoritma Klasifikasi K-Nearest Neighbor ............................................ 17

2.6 K-Fold Cross Validation ........................................................................ 19

2.7 Confusion Matrix .................................................................................... 21


xiii

BAB III METODE PENELITIAN....................................................................... 22

3.1 Data......................................................................................................... 22

3.2 Spesifikasi Sistem................................................................................... 23

3.3 Deskripsi Sistem ..................................................................................... 24

3.4 Tahapan Penelitian ................................................................................. 24

3.4.1 Studi Pustaka ................................................................................... 24

3.4.2 Pengumpulan Data .......................................................................... 24

3.4.3 Pembuatan Alat Uji ......................................................................... 25

3.4.4 Pengujian ......................................................................................... 25

3.5 Desain Interface...................................................................................... 25

3.6 Gambaran Umum Sistem ....................................................................... 26

3.7 Pre-processing........................................................................................ 27

3.7.1 Case Folding ................................................................................... 27

3.7.2 Cleaning Data.................................................................................. 27

3.7.3 Tokenizing ....................................................................................... 28

3.7.4 Normalisasi...................................................................................... 30

3.7.5 Stemming ......................................................................................... 31

3.7.6 Stopword Removal........................................................................... 33

3.8 Pembobotan TF-IDF............................................................................... 35

a. Menghitung Term Frequency ................................................................. 35

b. Menghitung Document Frequency ......................................................... 36

c. Menghitung Inverse Document Frequency ............................................ 38

d. Menghitung Bobot .................................................................................. 40

3.9 Leksikon ................................................................................................. 42

3.9.1 Sentimen Leksikon Indonesia ......................................................... 42

3.9.2 Rule Based Method.......................................................................... 43

3.10 Klasifikasi K-NN .................................................................................... 44

3.11 Pengujian ................................................................................................ 44

3.12 Confusion Matrix .................................................................................... 45

BAB IV HASIL DAN ANALISIS........................................................................ 46

4.1 Implementasi .......................................................................................... 46

4.1.1 Uji Perbandingan Hasil Akurasi K-NN dan Rule Based Method

Secara Manul dengan Hasil Akurasi K-NN dan Rule Based Method Secara

Sistem 48


xiv

4.1.2 Hasil Uji .......................................................................................... 50

4.1.3 Analisis ............................................................................................ 53

BAB V PENUTUP................................................................................................ 55

5.1 Kesimpulan ............................................................................................. 55

5.2 Saran ....................................................................................................... 56

DAFTAR PUSTAKA ........................................................................................... 57

LAMPIRAN .......................................................................................................... 60

Lampiran 1. Hitung Manual K-Nearest Neighbor dan Rule Based Method

Leksikon ............................................................................................................ 60

1. Hitung TF IDF ........................................................................................ 60

2. Hitung Euclidean Distance D5 dan D10 ................................................ 62

3. Hitung Euclidean Distance D4 dan D9 .................................................. 66




7. Menghitung Akurasi ............................................................................... 82

8. Hitung Manual Rule Based Method Leksikon........................................ 83

Lampiran 2. Dataset .......................................................................................... 84

1. Surat Keterangan Triangulasi ................................................................. 84

2. Dataset.................................................................................................... 85


xv

DAFTAR GAMBAR

Gambar 2.1 Ilustrasi dari algoritma K-NN .......................................................... 19

Gambar 2.2 Ilustrasi K-Fold Cross Validation .................................................... 20

Gambar 3.1 Tweet flaming................................................................................... 23

Gambar 3.2 Tweet netral ...................................................................................... 23

Gambar 3.3 Desain GUI ...................................................................................... 25

Gambar 3.4 Gambaran umum sistem .................................................................. 26

Gambar 3.5 Potongan program case folding ....................................................... 27

Gambar 3.6 Potongan program cleaning data ..................................................... 28

Gambar 3.7 Tokenizing tweet netral .................................................................... 29

Gambar 3.8 Tokenizing tweet flaming ................................................................. 29

Gambar 3.9 Potongan program tokenizing .......................................................... 29

Gambar 3.10 Normalisasi tweet netral ................................................................ 30

Gambar 3.11 Normalisasi tweet flaming ............................................................. 31

Gambar 3.12 Potongan program normalisasi ...................................................... 31

Gambar 3.13 Stemming tweet netral .................................................................... 32

Gambar 3.14 Stemming tweet flaming ................................................................. 32

Gambar 3.15 Potongan program stemming ......................................................... 33

Gambar 3.16 Stopword removal tweet netral ...................................................... 34

Gambar 3.17 Stopword removal tweet flaming ................................................... 34

Gambar 3.18 Potongan program stopword removal............................................ 34

Gambar 3.19 TF tweet netral ............................................................................... 35

Gambar 3.20 TF tweet flaming ............................................................................ 36

Gambar 3.21 Kamus positif ................................................................................. 42

Gambar 3.22 Kamus negatif ................................................................................ 43

Gambar 3.23 Contoh hasil confusion matrix ....................................................... 45

Gambar 4.1 Kumpulan data yang akan diolah..................................................... 46

Gambar 4.2 Akurasi uji sistem ............................................................................ 48

Gambar 4.3 Hasil perhitungan manual untuk data D5 dan D10.......................... 49

Gambar 4.4 Hasil pengujian sistem pada D5....................................................... 49

Gambar 4.5 Hasil pengujian sistem pada D10..................................................... 50


xvi

Gambar 4.6 Hasil pengujian dengan 3 fold dan 1 tetangga ................................. 51

Gambar 4.7 Grafik pengujian dengan 3 fold ....................................................... 51



Gambar 4.10 Grafik pengujian dengan 10 fold ................................................... 53


xvii

DAFTAR TABEL

Tabel 2.1 Awalan-akhiran .................................................................................... 10

Tabel 2.2 Aturan peluruhan kata dasar ................................................................. 11

Tabel 2.3 Confusion Matrix.................................................................................. 21

Tabel 3.1 Document Frequency............................................................................ 36

Tabel 3.2 Inverse Document Frequency ............................................................... 38

Tabel 3.3 Perhitungan bobot tweet netral ............................................................. 40

Tabel 3.4 Perhitungan bobot tweet flaming .......................................................... 41

Tabel 3.5 Pembagian model data.......................................................................... 44

Tabel 3.6 Contoh perbandingan klasifikasi untuk menguji akurasi ..................... 45


1

BAB I

PENDAHULUAN

1.1. Latar Belakang

Kemajuan teknologi menawarkan kemudahan dari berbagai aspek

kehidupan. Salah satu temuan terbesar umat manusia adalah teknologi

komunikasi, siapa saja dapat berkomunikasi dengan siapa saja, dimana saja

dan kapan saja. Dari teknologi ini seakan melahirkan dunia baru yang kita

kenal dengan sebutan dunia maya. Manusia saat ini sangat memanfaatkan

dunia maya untuk bersosial, karena saat ini ada banyak sekali platform

media sosial untuk mendukung interaksi sosial antar manusia.

Media sosial merupakan sebuah media daring yang dapat

memfasilitasi penggunanya untuk berpartisipasi, berbagi, dan dapat

menciptakan blog, jejaring sosial, wiki, forum dan dunia virtual. Jejaring

sosial merupakan salah satu media sosial yang paling umum digunakan oleh

masyarakat di seluruh dunia.

Selain dimanfaatkan untuk mendukung interaksi sosial, beberapa

atau banyak orang memanfaatkan media sosial sebagai tempat untuk

melakukan tindakan yang tidak menyenangkan terhadap orang lain.

Tindakan yang mungkin sering kita jumpai di media sosial adalah dalam

bentuk intimidasi. Tindakan intimidasi ini biasa bertujuan untuk melakukan

penghinaan, memfitnah, melecehkan, mengancam, mempermalukan dan

mengujar kebencian.

Banyak hal yang menjadi dasar seseorang melakukan tindakan

seperti ini, ada yang berdasarkan marah terhadap seseorang, balas dendam,

politik, atau bahkan hanya sekedar hiburan. Tindak kejahatan di jejaring

sosial ini bernama cyberbullying.

Kejahatan ini lebih umum dijumpai pada media sosial seperti

Facebook, Instagram, Twitter, Youtube, dan lain-lain. Cara seseorang

melakukan bullying pada media sosial pun cukup beragam. Ada yang

mengirimkan komentar pada konten yang diunggah oleh seseorang, ada


2

yang melakukan direct message atau pesan langsung kepada seseorang, ada

pula yang melakukannya dalam bentuk tautan pribadi dengan atau tanpa

menyebut seseorang yang dimaksud.

Menurut Luqyana dkk (2018), cyberbullying adalah tindakan

bullying yang dilakukan pada dunia siber. Flaming, cyberstalking,

harrastment, dan lain-lain, merupakan aspek-aspek yang dimana jika

sebuah opini atau tautan yang terdapat salah satu dari aspek tersebut maka

tautan tersebut dapat dikatakan cyberbullying (Pratiwi, 2017). Flaming

sendiri adalah salah satu jenis cyberbullying yang paling sering dijumpai di

media sosial. Flaming merupakan pesan atau pendapat online dengan

menggunakan bahasa atau kata-kata kasar (Pandie & Weismann, 2016).

Kasus bullying di Indonesia lebih banyak dilakukan di jejaring sosial

(Satalina, 2014).

Secara manusiawi, kita dapat membedakan tweet mana saja yang

merupakan bullying dan tidak, namum apakah sistem yang terkomputasi

dapat membedakan sebuah tweet yang mengandung bullying dalam bentuk

flaming?

Dibutuhkan metode yang dapat mengelompokkan apakah sebuah

tweet termasuk dalam cyberbullying atau tidak. Salah satu metode yang

dapat digunakan untuk melakukan pengelompokkan teks adalah K-Nearest

Neighbor. Menurut Delima dkk (2014), algoritma pada K-Nearest Neighbor

mudah dan efisien dalam melakukan pengelompokkan atau klasifikasi teks.

K-Nearest Neighbor sendiri adalah supervised learning yang mampu

melakukan klasifikasi berdasarkan jarak terdekat antara objek baru dengan

objek lama. Adapun metode lain yang dapat melakukan klasifikasi teks

adalah menggunakan metode aturan (rule base method) dengan pendekatan

leksikon.


3

1.2. Rumusan Masalah

Berdasarkan latar belakang diatas, maka dapat dirumuskan rumusan

masalah sebagai berikut :

1. Bagaimana penerapan K-Nearest Neighbor dalam mengklasifikasi

cyberbullying dalam bentuk flaming pada tweet dari Twitter.

2. Seberapa baik akurasi algoritma klasifikasi K-Nearest Neighbor mampu

mengklasifikasi cyberbullying dalam bentuk flaming pada tweet dari

Twitter.

3. Bagaimana pendekatan Leksikon dalam mengklasifikasi cyberbullying

dalam bentuk flaming pada tweet dari Twitter.

4. Seberapa baik akurasi rule based method dengan pendekatan Leksikon

mampu mengklasifikasi cyberbullying dalam bentuk flaming pada tweet

dari Twitter.

1.3. Batasan Masalah

Batasan masalah dalam pembuatan sistem ini adalah sebagai berikut :

1. Media sosial yang digunakan untuk pengambilan data adalah tweet dari

media sosial Twitter.

2. Tweet yang dianalisis adalah tweet dalam bahasa Indonesia.

3. Tweet yang dianalisis adalah tweet yang mengandung cyberbullying

dalam bentuk flaming.

4. Tweet yang dianalisis adalah tweet yang mengandung kata ‘anjing’.

5. Data diambil dari Twitter secara manual sebanyak 100 tweet.

6. Jangka waktu tweet yang diambil dari Maret 2018 hingga April 2019.

7. Algoritma yang digunakan adalah algoritma klasifikasi K-Nearest

Neighbor dan Rule Based Method dengan pendekatan Leksikon.

8. Pengelompokkan tweet berdasarkan 2 jenis yaitu flaming dan netral.

1.4. Tujuan Penelitian

Adapun tujuan yang ingin dicapai dalam penelitian ini adalah :

1. Melakukan klasifikasi tweet dari Twitter untuk mengenali cyberbullying


2. Mengklasifikasi cyberbullying dalam bentuk flaming menggunakan

algoritma klasifikasi K-Nearest Neighbor.


4

3. Mengklasifikasi cyberbullying dalam bentuk flaming dengan

pendekatan Leksikon menggunakan rule based method.

4. Mengetahui akurasi dari K-Nearest Neighbor dan Rule Based Method

dengan pendekatan Leksikon dalam mengklasifikasi cyberbullying


1.5. Sistematika Penulisan

BAB I : Pendahuluan

Bab ini berisi pendahuluan yang diantaranya adalah latar belakang,

rumusan masalah, manfaat, batasan dan sistematika penulisan.

BAB II : Landasan Teori

Bab ini berisi teori-teori yang menjadi dasar dalam pembuatan

sistem analisis teks yang mengandung cyberbullying di media sosial

Twitter, diantara lain teori tentang cyberbullying, preprocessing, dan

algoritma klasifikasi K-Nearest Neighbor yang akan digunakan untuk

perancangan sistem.

BAB III : Metode Penelitian

Bab ini berisi tentang perancangan yang digunakan dalam

pengembangan sistem.

BAB IV : Implementasi dan Analisa Hasil

Bab ini berisikan mengenai implementasi dan analisis dari hasil

sistem yang telah dibuat.

BAB V : Penutup

Bab ini berisi kesimpulan penelitian dan saran-saran untuk pengembangan

sistem atau penelitian lebih lanjut.


5

BAB II

LANDASAN TEORI

2.1 Cyberbullying

Cyberbullying adalah suatu perilaku agresi yang mengacu pada

perilaku penindasan yang dilakukan seseorang melalui media komunikasi

elektronik atau komputer digital seperti telepon seluler, sms, pesan surel,

jejaring sosial dan lain-lain (Satalina, 2014).

Pada penelitian Sataline menyebutkan jenis-jenis cyberbullying

(Willard, 2005) sebagai berikut :

1. Flaming (terbakar)

Pesan teks yang isinya merupakan kata-kata yang penuh amarah dan

frontal.

2. Harassment (gangguan)

Pesan yang berisi gangguan pada email, sms, maupun pesan teks di

jejaring sosial yang dilakukan secara terus menerus.

3. Cyberstalking

Mengganggu dan mencemarkan nama baik seseorang secara intens

sehingga membuat ketakutan besar pada orang tersebut.

4. Denigration (Pencemaran nama baik)

Menyebarkan keburukan seseorang di internet dengan maksud

merusak reputasi dan nama baik orang tersebut.

5. Impersonation (Peniruan)

Berpura-pura menjadi orang lain dan mengirimkan pesan-pesan atau

status yang tidak baik.

6. Outing & Trickery

Outing : Menyebarkan rahasia atau foto-foto pribadi orang

lain.

Trickery : Tipu daya agar mendapatkan privasi orang lain.

7. Exclusion (Pengeluaran)

Mengeluarkan seseorang dari grup online atau chat room secara

sengaja.


6

Dalam penelitian ini, jenis cyberbullying yang dijadikan topik

penelitian adalah jenis flaming.

2.2 Text Mining

Text mining adalah salah satu penambangan informasi dari data-data

yang berupa tulisan, dokumen atau teks dalam bentuk klasifikasi maupun

klustering (Harjanta, 2015). Menurut Luqyana dkk (2018), text mining

adalah ilmu yang bertujuan untuk memproses teks agar dapat melakukan

peramalan pola dan kecenderungan melalui pola statistik (Jiawei, et al.,

2012).

Pada penelitian Luqyana dkk (2018) juga mengatakan text mining

bertujuan untuk menganalisis pendapat, sentimen, evaluasi, sikap,

penilaian, atau emosi seseorang sehingga dapat diketahui apakah berkenaan

dengan suatu topik, layanan, organisasi, individu, atau kegiatan tertentu

(Liu, 2012).

Menurut Rachmat & Lukito (2016), data-data pada text mining biasa

merupakan informasi yang tidak terstruktur. Maka text mining memerlukan

pemrosesan yang merubah bentuk data dari data yang tidak terstruktur

menjadi data terstruktur.

Pengekstrakkan informasi atau pengetahuan dari penambangan teks

baru dapat dilakukan jika data telah menjadi data yang terstruktur.

Mengekstrak informasi atau pengetahuan tersebut dapat digunakan untuk

analisis dari berbagai bidang ilmu multidisiplin seperti klasifikas,

klasterisasi, machine learning, dan analisis teks lainnya (Rachmat & Lukito,

2016).

2.2.1 Text Classification

Ada banyak penerapan dalam melakukan text mining, salah satunya

adalah klasifikasi teks. Klasifikasi teks merupakan proses pengelompokkan

sebuah dokumen kedalam kategori atau kelas tertentu yang telah ditentukan.

Tugas utama dari klasifikasi teks adalah untuk menentukan kategori dari


7

masing-masing dokumen yang berdasarkan karakteristik masing-masing

kelas (Lailiyah, 2017).

Menurut Lailiya (2017), tahapan dalam klasifikasi teks meliputi :

Document Collecting

Document collecting merupakan tahap pengumpulan data.

Pre-processing

Secara garis besar tahap ini merupakan tahap dimana data di

normalisasi agar data yang digunakan memiliki standar yang

konsisten dan terstruktur sehingga data siap untuk diolah dan

dilanjutkan ke tahap selanjutnya.

Ekstraksi Fitur

Tujuan dari ekstraksi fitur adalah mengubah bentuk ciri data

agar dapat diproses ke tahap selanjutnya. Dalam text mining ciri

data merupakan kumpulan kata-kata, maka kata-kata ini diubah

menjadi angka yang dapat digunakan untuk proses klasifikasi.

Klasifikasi

Menentukan kategori untuk setiap dokumen berdasarkan

karakteristik dari masing-masing kelas terhadap dokumen.

Validasi

Tahap ini adalah mengukur akurasi dari klasifikasi yang

dihasilkan.

2.2.2 Pre-processing

Sebelum proses penambangan data dilakukan, pembersihan data

perlu dilakukan terlebih dahulu. Proses seperti membuang duplikasi,

memperbaiki kesalahan (typo), memeriksa data yang tidak konsisten, dan

lain-lain.

Pre-processing merupakan tahap dimana data dipersiapkan sesuai

dengan format yang dibutuhkan. Proses ini dilakukan agar data tekstual

terstruktur atau tidak terstruktur menjadi lebih terstruktur untuk dijadikan

sumber data yang akan diolah lebih lanjut (Nugroho, 2016).


8

2.2.2.1 Case Folding

Proses case folding bertujuan untuk mengubah semua huruf

menjadi huruf kecil, tujuannya agar semua data menjadi format

yang sama.

Sebagai contoh :

Input :

Hujan Malam-Malam, Memperlihatkan Rrinduku pada Diri

Muuu

Output :

hujan malam-malam, memperlihatkan rrinduku pada diri

muuu

2.2.2.2 Cleaning Data

Tahap cleaning data adalah untuk membuang noise atau

menghilangkan karakter-karakter tertentu seperti tanda baca,

angka, situs WEB atau link url dan lain-lain.

Hasil dari Case folding :

hujan malam-malam, memperlihatkan rrinduku pada diri

muuu

Hasil dari Cleaning data :

hujan malam malam memperlihatkan rrinduku pada diri muuu

2.2.2.3 Tokenizing

Proses tokenizing pada teks adalah proses untuk memecah

sekumpulan karakter sehingga menghasilkan pecahan teks yang

dapat berupa paragraf, kalimat, atau perkata (token).

Hasil dari Cleaning data :

hujan malam malam memperlihatkan rrinduku pada diri muuu


9

Hasil dari Tokenizing :

hujan malam malam memperlihatkan rrinduku pada

diri muuu

2.2.2.4 Normalisasi

Tahap pada pemrosesan normalisasi adalah untuk

mengidentifikasi kata atau huruf yang berlebihan untuk diganti

sesuai dengan Kamus Besar Bahasa Indonesia.

Hasil dari Tokenizing :

hujan malam malam memperlihatkan rrinduku pada

diri muuu

Hasil dari Normalisasi :

hujan malam malam memperlihatkan rinduku pada

diri mu

2.2.2.5 Stemming

Proses stemming merupakan pemrosesan untuk mencari kata

dasar dari seluruh kata tanpa harus menghilangkan makna dari setiap

kata tersebut. Pada proses stemming, kata-kata yang dianggap

penting atau mempunyai makna akan diambil. Terdapat dua

pendekatan dalam proses stemming yaitu pendekatan dengan kamus

atau pendekatan aturan (Utomo, 2013). Dalam penelitian ini, penulis

menggunakan proses stemming dengan pendekatan kamus.

Hasil dari Normalisasi :

hujan malam malam memperlihatkan rinduku pada

diri mu


10

Hasil dari Stemming :

hujan malam malam lihat rinduku pada

diri mu

Berdasarkan algoritma stemming yang dibuat oleh Bobby Nazief

dan Mirna Adriani adalah sebagai berikut :

1. Cari kata yang akan di-stem dalam kamus stemming atau kamus kata

dasar. Setelah ditemukan, asumsikan kata tersebut sebagai root

word, lalu algoritma berhenti.

2. Langkah selanjutnya adalah menghapus inflection suffixes (“-lah”,

“-kah”, “-ku”, “-mu”, atau “-nya”). Hapus jika berupa particles (“-

lah”, “-kah”, “-tah”, atau “-pun”), langkah ini kemudian diulang jika

ada possesive pronouns (“-ku”, “-mu”, atau “-nya”), maka possesive

pronouns-nya dihapus.

3. Hapus derivation suffixes (“-i”, “-an”, atau “-kan”), jika kata telah

ditemukan di kamus, maka algoritma berhenti, jika tidak lanjut ke

langkah 3a.

a. Jika “-an“ telah dihapus dan huruf terakhir dari kata yang dituju

adalah “-k“ maka “-k“ juga dihapus. Jika kata tersebut

ditemukan dalam kamus maka algoritma berhenti. Jika tidak

maka lakukan langkah 3b.

b. Akhiran yang dihapus (“-i“, “-an“, atau “-kan“) dikembalikan,

lalu lanjut ke langkah 4.

4. Pada langkah 4 terdapat tiga iterasi:

a. Iterasi berhenti jika :

(i) Ditemukannya kombinasi akhiran yang tidak diizinkan

berdasarkan awalan.

Tabel 2.1 Awalan-akhiran

Awalan Akhiran yang tidak diizinkan

be- -i

di- -an


11

ke- -i, -kan

me- -an

se- -i, -kan

(ii) Awalan yang dideteksi sama dengan awalan yang

dihilangkan sebelumnya.

(iii) Tiga awalan telah dihilangkan.

b. Identifikasi tipe awalan dan hilangkan. Awalan terdiri dari dua

tipe :

(i) Standar (“di-“, “ke-“, “se-“) yang dapat langsung

dihilingkan dari kata.

(ii) Kompleks (“me-“, “be”, “pe”, “te”) adalah tipe awalan

yang dapat berubah sesuai kata dasar yang mengikutinya.

Dibutuhkan aturan pada tabel berikut untuk

mendapatkan hasil pemenggalan yang tepat.

Tabel 2.2 Aturan peluruhan kata dasar

Aturan Bentuk awalan Peluruhan

1 berV Ber-V... | be-rV...

2 Belajar Bel-ajar

3 beC1erC2 Be-C1erC2.. dimana C!={‘r’|1}

4 terV Ter-V | te-rV

5 teCer Te-Cer... dimana C !=’r’

6 teC1C2 te-C1erC2... dimana C!=’r’

7 me{1|r|w|y}V... Me-{1|r|w|y}V...

8 mem{b|f|v}... Mem-{b|f|v}...

9 Mempe... Mem-pe

10 Mem{rV|V}... Me-m{rV|V}...| Me-p{rV|V}...

11 Men{c|d|j|z}... Men-{c|d|j|z}...

12 menV... Me-nV...|me-tV...

13 Meng{g|h|q|k}... Meng-{g|h|q|k}....

14 mengV... Meng-V...|meng-kV


12

15 mengeC Menge-C

16 menyV Me-ny...|meny-sV...

17 mempV Mem-pV...

18 Pe{w|y}V... Pe-{w|y}V....

19 perV Per-V...|pe-rV

20 Pem{b|f|v} Pe-m{b|f|v}...

21 Pem{rV|V} Pe-m{rV|V}...|pe-p{rV|V}

22 Pen{c|d|j|z}... Pen-{c|d|j|z}...

23 penV Pe-nV..|pe..tV

24 Peng{g|h|q} Peng-{g|h|q}

25 pengV Peng-V | peng-kV

26 penyV Pe-nya | peny-sV

27 pelV Pe-lV..;kecuali untuk kata

“pelajar” menjadi ajar

28 peCP Pe-CP...dimana C!={r|w|y|l|m|n}

dan P!=’er’

29 perCerV Per_CerV dimana C!={r|w|y|l|m|n}

Tabel 2.2 merupakan aturan peluruhan kata dasar yang

berawalan “be-“, “te-“, “me-“, dan “pe-“. Dalam kolom kedua

pada tabel 2.2 menjelaskan bentuk kata dasar yang berawalan

“be-“, “te-“, “me-“, dan “pe-“, dalam kolom ketiga merupakan

perubahan karakter kata dasar setelah algoritma menghilangkan

awalan yang melekat pada kata dasar tersebut. Huruf “V” yang

terdapat pada kolom kedua dan ketiga merupakan huruf vokal.

Sedangkan huruf “C” merupakan huruf konsonan dan huruf “P”

merupakan pecahan “er”.

c. Cari kata yang telah dihilangkan awalannya, jika tidak

ditemukan maka langkah diulang kembali, jika telah ditemukan

maka algoritma berhenti.

5. Jika langkah 4 kata dasar masih belum ditemukan, maka proses

dilakukan dengan mengacu kepada aturan tabel 2.2.


13

6. Jika tetap tidak berhasil, maka kata awal diasumsikan sebagai kata

dasar, kemudian algoritma berhenti.

Dalam mengatasi keterbatasan pada algoritma stemming diatas, maka

ditambahkan aturan dibawah (Agusta, 2009) :

1. Aturan reduplikasi

Jika terdapat dua kata yang dihubungkan dan memiliki

bentuk kata yang sama, maka kata dasarnya adalah

bentuk tunggalnya, seperti “ibu-ibu”, karena memiliki

kata yang sama maka kata dasarnya adalah “ibu”.

Jika terdapat dua kata yang dihubungkan namun

memiliki bentuk kata yang berbeda seperti “bermalas-

malasan” maka cara untuk menjadi kata dasarnya

adalah dengan mengartikan kedua kata tersebut secara

terpisah. Jika kedua kata tersebut memiliki kata dasar

yang sama, maka kedua kata tersebut masing-masing

dirubah menjadi kata dasar tunggal. Sehingga dalam

prosesnya memiliki dua kata dari kata “bermalas-

malasan” menjadi “malas” dan “malas”. Perilaku yang

sama pun dilakukan jika dua kata berhubungan

memiliki kata-kata yang berbeda seperti “bolak-balik”,

maka kata dasar dari “bolak-balik” adalah “bolak” dan

“balik”.

2.2.2.6 Stopword Removal

Pemrosesan stopword removal adalah proses pembuangan

kata yang kemungkinan besar tidak memberikan pengaruh seperti

kata-kata yang bersifat umum, tidak memiliki arti yang penting atau

tidak digunakan. Tujuan stopword removal untuk mengurangi

jumlah kata yang disimpan oleh sistem.

Sebagai contoh :

Hasil dari Stemming :

hujan malam malam lihat rinduku pada diri mu


14

Hasil dari Stopword Removal :

hujan malam malam rinduku

mu

2.3 Ekstraksi Fitur

Menurut Lailiyah (2017), fitur adalah karakteristik unik yang dapat

digunakan untuk mewakili sebuah objek. Ekstraksi fitur sendiri adalah

proses pengambilan ciri dari sebuah objek, dimana objek tersebut digunakan

untuk proses klasifikasi. Tahap ekstraksi fitur ini menentukan fitur mana

yang akan diklasifikasi dan fitur mana yang diabaikan.

Lailiyah juga menjelaskan terdapat dua pendekatan yang dapat

digunakan dalam mengektraksi fitur seperti pendekatan statistik (statistical

based method) dan pendekatan semantik (semantic based method). Dalam

pendekatan statistik, bobot fitur memanfaatkan perhitungan matematis

seperti menggunakan perhitungan kemunculan suatu kata (term frequency)

dalam suatu dokumen dan perhitungan banyaknya dokumen yang

memunculkan suatu term (inverse document frequency).

Pada pendekatan semantik, ekstraksi fiturnya memanfaatkan makna

dari kata penyusun kalimat. Makna kata yang menjadi fitur adalah yang

mengandung (opinion word) seperti sentimen positif maupun sentimen

negatif. Dalam pendekatan semantik ini, lexical resources merupakan poin

penting untuk menemukan kata yang menjadi fitur dari kelas yang

ditentukan.

2.3.1 Pembobotan TF-IDF

Metode TF-IDF adalah metode untuk memberi bobot pada

setiap kata (token) pada sebuah dokumen. Nilai bobot didapat dari

perkalian antara frekuensi kemunculan kata pada suatu dokumen

(term frequency), dan frekuensi kata pada seluruh dokumen (inverse

document frequency).


15

a. Term Frequency

Term frequency adalah frekuensi kemunculan kata pada

suatu dokumen (Perdana & Fauzi, 2017).

b. Document Frequency

Document frequency adalah frekuensi atau jumlah

dokumen yang mengandung kata t.

c. Inverse Document Frequency

Inverse document frequency adalah pembobotan untuk

mengukur penting tidaknya sebuah kata dalam dokumen

dilihat pada seluruh dokumen yang ada (Purwanti, 2015).

Fungsi dari IDF adalah untuk mengurangi bobot suatu term

yang kemunculannya banyak pada keseluruhan dokumen.

Rumus untuk menghitung IDF adalah sebagai berikut :

𝐼𝐷𝐹𝑡 = log10(𝐷 𝑑𝑓⁄ ) (2.1)

Keterangan :

IDFt : Inverse document frequency pada kata t.

D : jumlah keseluruhan dokumen.

df : banyak dokumen yang mengandung kata t.

Kemudian setelah mendapatkan nilai TF dan nilai IDF,

pemberian bobot ke setiap kata adalah dengan menggunakan rumus

TF-IDF sebagai berikut :

𝑊𝑡,𝑑 = 𝑡𝑓𝑡,𝑑 ∗ 𝐼𝐷𝐹𝑡 (2.2)

Keterangan :

Wt,d : Bobot kata ke-t pada dokumen ke-d.

tft,d : Banyaknya kemunculan kata ke-t pada dokumen d.

IDFt : Inverse Document Frequency ke-t nilai IDF adalah

hasil dari log(D/df).

d : Dokumen ke-d.

t : Kata ke-t dari kata kunci.

D : Total dokumen.

df : Banyak dokumen yang mengandung kata kunci.


16

Bobot yang didapat dari perhitungan bobot TF-IDF

merupakan ciri yang akan diklasifikasikan. bobot (W) tersebut

kemudian diurutkan dari bobot yang paling kecil hingga bobot yang

paling besar. Semakin besar nilai dari W maka semakin similaritas

dokumen dengan kata kunci (Maarif, 2015).

2.3.2 Leksikon

2.3.2.1 Lexical Resource

Dalam penelitian Lailiyah (2017), menjelaskan bahwa ada

tiga pendekatan dalam mengumpulkan lexicon resource, antara lain

manual approach, dictionary based approach dan corpus based

approach. Pada pendekatan kamus (dictionary based approach)

memanfaatkan relasi kata, dan pada pendekatan corpus

memanfaatkan kumpulan opinion word sebagai benih dan pola

sintaksis dari benih kata untuk menambang opinion word.

Dalam penelitian ini penulis menggunakan pendekatan

dictionary based approach dengan sentimen leksikon Indonesia

sebagai kamus untuk ekstraksi fitur bersentimen (opinion word).

2.3.2.2 Sentimen Leksikon Indonesia

Sentimen leksikon Indonesia merupakan daftar atau kamus

kata dengan kecenderungan sentimen positif maupun negatif.

Seperti kata “baik”, “cantik”, memiliki kecenderungan positif, dan

kata “buruk”, “jelek”, memiliki kecenderungan negatif (Lailiyah,

2017).

Dalam penelitian Lailiyah (2017) juga menjelaskan jika

sentimen leksikon Indonesia masih sangat terbatas jumlahnya.

Dalam mengektraksi fitur, sentimen leksikon Indonesia

memanfaatkan frekuensi kemunculan opinion word pada setiap

dokumen. Lailiyah juga menjelaskan kenapa sentimen leksikon

Indonesia hanya memanfaatkan frekuensi kemunculan opinion

word, dikarenakan sentimen leksikon Indonesia belum memiliki


17

polarity score seperti leksikon Inggris yaitu sentiwordnet. Dalam

sentimen leksikon Indonesia kata “baik”, dan “senang” memiliki

polarity yang sama yaitu positif.

2.4 Rule Based Method

Menurut Lailiyah (2017), rule based method merupakan metode

klasifikasi yang memanfaatkan aturan dalam membedakan setiap kelas.

Aturan dibuat dalam bentuk “IF (kondisi) ... THEN (solusi)...”, dimana “IF”

merupakan kondisi syarat yang terdiri dari satu atau lebih atribut tes.

Sedangkan “THEN” merupakan konsekuen yang berisi hasil dari prediksi

kelas.

Dalam penelitian ini, label yang digunakan sebanyak dua, dimana

kategori positif dan netral dijadikan sebagai satu kategori yaitu label ‘netral’

sedangkan kategori negatif berlabel flaming. Dalam memisahkan data

antara kelas netral atau flaming, aturan yang dapat digunakan dalam

klasifikasi menggunakan Leksikon adalah sebagai berikut :

Jika jumlah kata positif dalam dokumen lebih banyak dari kata

negatif, maka dokumen tersebut dikategorikan sebagai netral.

Jika jumlah kata negatif dalam dokumen lebih banyak dari kata

positif, maka dokumen tersebut dikategorikan sebagai flaming.

Jika jumlah kata positif dalam dokumen berjumlah sama dengan

jumlah kata negatif, maka dokumen tersebut dikategorikan sebagai

netral.

2.5 Algoritma Klasifikasi K-Nearest Neighbor

Metode K-Nearest Neighbor adalah pendekatan untuk mencari

kecocokkan bobot dari kasus baru dengan kasus lama (Kusrini & Luthfi,

2009).

Menurut Delima & Rachmat (2014), algoritma K-Nearest Neighbor

memiliki sifat self-learning yang dimana jika terdapat banyak dokumen,

banyak pula sumber yang digunakan (Miah, 2009).


18

K-NN merupakan supervised learning yang bekerja berdasarkan

jarak tetangga (neighbor) terdekatnya. Tujuan dari K-NN adalah untuk

melakukan klasifikasi objek baru yang berdasarkan data pembelajaran.

Euclidean distance adalah salah satu metode untuk menghitung

jarak yang dapat di implementasi pada algoritma K-Nearest Neighbor ini.

Rumus euclidean distance adalah rumus untuk menghitung atau mencari

jarak antara 2 objek dalam ruang dua dimensi. Rumus untuk menghitung K

pada euclidean distance adalah sebagai berikut :

𝑑 = √(𝑥2 − 𝑥1)2 + (𝑦2 − 𝑦1)2 (2.3)

Keterangan :

d : jarak data latih dan data uji

x : data training

y : data testing

Berikut merupakan langkah- langkah dari algoritma K-Nearest Neighbor :

1. Tentukan nilai K. Dimana K = banyak tetangga terdekat.

2. Hitung jarak data testing dengan seluruh data training.

3. Urutkan jarak dari jarak yang paling dekat hingga nilai K.

4. Tentukan kelompok tetangga terdekat.

5. Gunakan mayoritas dari kelompok tetangga terdekat sebagai nilai

klasifikasi untuk data testing.


19

Gambar 2.1 Ilustrasi dari algoritma K-NN

Gambar 2.1 merupakan ilustrasi dari algoritma K-NN. Dimana data

baru dimasukkan kemudian menentukan nilai dari K. Dalam percobaan

K=3, data baru masuk kedalam kelompok ‘Netral’, itu karena mayoritas

tetangga terdekat dari data baru adalah netral yaitu sebanyak 2, sementara

jumlah flaming dalam K=3 hanya berjumlah 1. Sedangkan pada percobaan

K=5 mayoritas tetangga terdekat ke data baru adalah kelompok ‘flaming’

yang berjumlah 3.

2.6 K-Fold Cross Validation

Menurut Emerensye S. Y. Pandie (2012), k-fold cross validation

adalah salah satu metode yang dapat digunakan untuk mengetahui rata-rata

keberhasilan dari suatu sistem dengan cara melakukan perulangan dengan

mengacak atribut masukan, sehingga sistem tersebut teruji untuk beberapa

atribut input yang acak. K-fold cross validation diawali dengan membagi

data sejumlah k-fold yang ingin diujikan. Dalam proses cross validation data

akan dibagi dalam k buah partisi dengan ukuran yang sama D1, D2, D3...Dn

selanjutnya proses testing dan training dilakukan sebanyak k. Dalam iterasi

ke-i partisi Di akan menjadi data testing dan sisanya akan menjadi data


20

training. (Ron Kohavi, 1995). Contoh proses k-fold cross validation seperti

ilustrasi dibawah ini:

10 Fold

Fold 1 :

Test Train Train Train Train Train Train Train Train Train

Fold 2 :

Train Test Train Train Train Train Train Train Train Train

.

.

.

Fold 10 :

Train Train Train Train Train Train Train Train Train Test

Data Testing

Data Training

Gambar 2.2 Ilustrasi K-Fold Cross Validation

Ilustrasi pada gambar 2.2 diatas menjelaskan pembagian k-fold cross

validation, K-fold cross validation ini diawali dengan menentukan nilai dari

K. Setelah itu data dibagi sebanyak K. Contoh, data yang dimiliki terdapat

100 data, dari 100 data tersebut dibagi menjadi K lipatan, katakanlah K =

10. Maka setiap lipatan atau partisi berisi masing-masing 10 data. Setelah

itu tentukan data mana yang merupakan data training dan yang mana data

testing. Katakanlah set data training sebanyak 90 data dimana disetiap

partisi masing-masing terdapat 10 data, dan sisanya adalah data testing

dengan jumlah 10 data. Berdasarkan K = 10, maka 9 partisi dikali 1 partisi

yang berisi masing-masing 10 data dan diulang sebanyak 10 kali kesetiap

10 partisi yang berbeda. Setiap partisi menjadi data testing sebanyak 1 kali

dan menjadi data training berkali-kali.


21

2.7 Confusion Matrix

Menurut M.Fadly Rahman, dkk (2017), Confusion matrix adalah

suatu metode yang biasanya digunakan untuk menghitung akurasi.

Confusion matrix digambarkan dengan tabel yang menyatakan jumlah data

uji yang benar diklasifikasikan dan jumlah data uji yang salah diklasifikasi.

Menurut Gregorius A. P. Nugroho (2016), data pelatihan dan pengujian

merupakan data yang berbeda sehingga klasifikasi dapat diuji. Akurasi dari

klasifikasi dihitung dari jumlah data yang dikenali sesuai dengan target

kelasnya (Tan, Steinbach, dan Kumar, 2006).

Tabel 2.3 Confusion Matrix

Klasifikasi Prediksi Positif Prediksi Negatif

Positif TP (True Positive) FN (False Negative)

Negatif FP (False Positive) TN (True Negative)

Dimana :

TP (True Positive) merupakan jumlah dari data positif yang

terklasifikasi dengan benar oleh sistem.

FP (False Positive) merupakan jumlah dari data negatif yang

diklasifikasi salah atau dianggap positif oleh sistem.

TN (True Negative) merupakan jumlah dari data negatif yang

terklasifikasi dengan benar oleh sistem.

FN (False Negative) merupakan jumlah dari data positif yang

diklasifikasi salah atau dianggap negatif.

Dengan berdasarkan TP (True Positive), FN (False Negative), FP

(False Positive), TN (True Negative) maka dapat memperoleh akurasi.

Akurasi adalah nilai untuk mengukur ketepatan sistem dalam

mengklasifikasi data dengan membandingan antara data yang sudah

diklasifikasi dengan keseluruhan data. Rumus untuk menghitung akurasi

pada confusion matrix adalah sebagai berikut :

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =𝑇𝑃 +𝑇𝑁

𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁∗ 100% (2.4)


22

BAB III

METODE PENELITIAN

3.1 Data

Dalam Penelitian ini, data diperoleh dari media sosial Twitter yang

berupa tweet dalam bahasa Indonesia. Tweet diperoleh secara manual

dengan memanfaatkan fasilitas dari Twitter yaitu Twitter search advanced.

Tweet dipilih secara acak dan berdasarkan kata kunci ‘anjing’. Kata kunci

ini dipilih karena kata anjing umum dijadikan kata umpatan dan

berkemungkinan pula tidak, sehingga data tweet umpatan dan tidak umpatan

dapat dicari dengan mudah.

Data yang digunakan sebanyak 100 data, seluruh data ini juga

terlebih dahulu diklasifikasi oleh ahli bahasa agar data latih memiliki

standar untuk diuji. Data diklasifikasi secara manual oleh Bapak A. Danang

Satria Nugraha, M.A sebagai triangulator dalam penelitian ini.

Dalam penelitian ini, penulis hanya menggunakan dua label, dimana

label positif dan netral menjadi satu label dengan nama label ‘netral’ dan

label negatif menjadi label ‘flaming’.

Gambar 3.1 merupakan contoh tweet flaming yang menggunakan

kata ‘anjing’. Isi dari tweet tersebut menuliskan kata-kata yang berapi-api

dengan meluapkan pesan amarah yang frontal.

@AAAchdan1 : Hei rokcy gerung kau manusia bangsat,jokowi bukan

Prabowo yg bicara asal tanpa data,Presiden udh perhitungkan anggaran

a,bukan seperti mulut anjing kau yg menghina memfitnah,aku ketemu

kau kurobek mulut anjing kau itu

@meupkiss : @JNECare jne anjing!! payah!! bangkrut aja lo njing!!

ngirim paket kaga becus! yg laen paket udh pd sampe ini gua ngirim 2-

2nya masih aja nyangkut di batam. di shope brg hrs udh sampe sblm tgl

17, mau nyampe gmn coba tu sblm tgl segitu


23

@folkatire : @SekreSBMPTN eh anjing daripada lu sok sokan ngurus

orang masuk ptn , mending lu belajar aja bikin webbsite yg ga down pas

di masukin ratusan ribu bahkan jutaan orang. NYUSAHIN BANGSAT,

yang dirugiin iti bukan satu dua org, tapi ribuan org dirugikan dengan

website yg bgini.

Gambar 3.1 Tweet flaming

Gambar 3.2 merupakan contoh tweet netral yang menggunaan kata

‘anjing’. Isi dari tweet pada contoh ini beragam, seperti membahas seputar

pemeliharaan hewan anjing, berita mengenai anjing dan lain-lain.

@HistoriDunia : Pada tahun 1980an, Georgia Kraft Corp. menebang

pohon-pohon dan salah satu pohon terdapat jasad anjing yang kemudian

diberi julukan “Stuckie”. Anjing pemburu ini terjebak di dalam batang

pohon selama 50 tahun lebih. Lalu pohon ini ditempatkan di Southern

Forest World museum

@atawannee : Ada lowongan kerja sementara buat libur lebaran ini job

desknya ngurus anjing didaerah serpong. Ada yg minat gak yaaa?

Mayan nambah uang jajan liburan

@LordPratama : Foto prewed kami berkonsep prakemerdekaan sperti

foto2 bangsawan Bali 1930. Dan sangat terinspirasi dari project2 gung

ama yg terkenal dengan hastag #mekenyemsubebiasa difoto oleh adik

ipar dengan keris di punggung dan anjing Bali yg terkenal setia masuk

frame bersama kmi berdua

Gambar 3.2 Tweet netral

3.2 Spesifikasi Sistem

Dalam proses menguji dan perancangan sistem, dibutuhkan software

dan hardware sebagai berikut :

3.2.1 Perangkat Keras (Hardware)

a) System Model : HP 14 Notebook PC


24

b) Processor : AMD E1-2100 APU Radeon(TM)

HD Graphics

c) Harddisk : 500 Gb

3.2.2 Perangkat Lunak (Software)

a) Sistem Operasi : Windows 8.1 Single Language 64-

bit

b) Bahasa Pemrograman : Java

c) Aplikasi Editor : NetBeans IDE 8.2

3.3 Deskripsi Sistem

Sistem ini dirancang untuk menguji algoritma K-Nearest Neighbor

dan klasifikasi rule based method dengan pendekatan Leksikon dalam

mengklasifikasi tweet. Tweet dibagi menjadi dua jenis data yaitu data

training dan data testing. Setelah itu proses dilanjutkan kedalam pre-

processing. Tahap terakhir adalah klasifikasi tweet yang akan menghasilkan

tweet mana saja yang dikelompokkan sebagai tweet flaming dan tweet

netral.

3.4 Tahapan Penelitian

3.4.1 Studi Pustaka

Dalam studi pustaka ini penulis menggunakan dan

mencantumkan teori-teori yang berkaitan dengan penelitian ini,

yang meliputi cyberbullying, text mining, ekstraksi fitur, k-nearest

neighbor, k-fold validation, eucludiean distance, rule based method,

lexical resource, dan confusion matrix.

3.4.2 Pengumpulan Data

Data yang digunakan dalam penelitian ini merupakan tweet

berbahasa Indonesia. Pengumpulan tweet sebanyak 100 tweet dan

pencarian tweet berdasarkan kata kunci ‘anjing’ dengan

memanfaatkan fasilitas pencarian dari Twitter yaitu Twitter search

advanced.


25

3.4.3 Pembuatan Alat Uji

Pada tahap ini dirancang alat uji untuk menguji k-nearest

neighbor dan pendekatan Leksikon menggunakan metode rule

based method dalam pengelompokkan tweet. Dalam mengukur

akurasi sistem menggunakan metode confusion matrix.

3.4.4 Pengujian

Dalam tahap pengujian, data terlebih dahulu melalui pre-

processing text untuk dapat diklasifikasi. Hasil dari klasifikasi

tersebut digunakan untuk menguji akurasi sistem dengan confusion

matrix.

3.5 Desain Interface

Gambar 3.3 Desain GUI


26

3.6 Gambaran Umum Sistem

Gambar 3.4 Gambaran umum sistem

Sistem ini dirancang untuk dapat mengklasifikasi, menganalisis

sebarapa baik akurasi hasil uji dan membandingkan hasil klasifikasi antara

algoritma k-nearest neighbor dengan rule base method menggunakan

pendekatan leksikon. Tahap awal dari sistem ini adalah melakukan input

data kedalam proses pre-processing. Pada proses pre-processing terdapat

beberapa proses seperti tokenizing, normalisasi, stemming, stopword

removal, dan ekstraksi fitur menggunakan pembobotan kata TF-IDF dan

Sentimen Leksikon Indonesia.

Proses akan berjalan dua kali, dimana proses pertama setelah pre-

processing akan melanjutkan ke proses sentimen leksikon Indonesia tanpa


27

menggunakan pembobotan TF-IDF dan akan diklasifikasi menggunakan

rule based method. Pada proses kedua, setelah proses pre-processing selesai

dilanjutkan dengan pembobotan TF-IDF tanpa menggunakan proses

sentimen leksikon Indonesia dan kemudian akan diklasifikasi menggunakan

k-nearest neighbor.

Setelah itu, kedua metode klasifikasi ini akan diukur akurasinya

menggunakan confusion matrix untuk dapat dianalisis perbedaan dari kedua

metode dan menganalisis sebarapa baik akurasi dari masing-masing metode

dalam mengklasifikasi tweet netral dan flaming.

3.7 Pre-processing

Tahap pre-processing adalah proses untuk mempersiapkan data

mentah sebelum dapat diolah oleh proses lain. Tahap ini penting terutama

dalam pengolahan data teks dari media sosial yang memiliki banyak kata

tidak baku dan memiliki banyak noise. Pada penelitian ini, adapun Library

yang digunakan dalam pre-processing adalah milik Sastrawi melaui Github.

3.7.1 Case Folding

Proses case folding akan mengubah semua huruf yang

berupa kapital menjadi huruf kecil, tujuannya agar data memiliki

format yang sama.

Berikut cara kerja case folding :

1. Baca setiap baris dokumen

2. Ubah setiap huruf kapital yang ditemukan menjadi huruf kecil.

3. Recording.

Gambar 3.5 Potongan program case folding

3.7.2 Cleaning Data

Tahap cleaning data adalah algoritma untuk menghapus

noise seperti tanda baca, link url, dan karakter baca.

Langkah-langkah dalam Cleaning data :

1. Baca setiap satu baris dokumen.


28

2. Jika dalam satu dokumen terdapat karakter baca pada daftar

karakter baca didalam Array.

3. Maka karakter tersebut dihapus.

Gambar 3.6 Potongan program cleaning data

3.7.3 Tokenizing

Algoritma ini akan memisah kalimat menjadi potongan-

potongan perkata yang disebut token.

Langkah-langkah dalam Tokenizing :

1. Baca setiap baris data teks sebagai satu dokumen.

2. Ambil setiap token dalam satu kalimat dokumen dengan

memanfaatkan spasi sebagai pemisah antara token dengan token

lain.

3. Simpan setiap kalimat dokumen yang terdiri dari token

penyusun.

Berikut contoh tokenizing pada tweet netral :

Ada lowongan kerja

sementara buat libur lebaran

ini job desknya ngurus anjing

didaerah serpong. Ada yg

minat gak yaaa? Mayan

nambah uang jajan liburan

➡

ada

sementara

lebaran

desknya

didaerah

yg

lowongan

buat

ini

ngurus

serpong

minat

kerja

libur

job

anjing

ada

gak


29

yaaa

uang

mayan

jajan

nambah

liburan

Gambar 3.7 Tokenizing tweet netral

Berikut contoh tokenizing pada tweet flaming :

Rokiiii rokii gw kira lo

pinter ilmu filsafat.

Jawaban elu yg ini

memperlihatkan,

bahwa selama ini elu

cuma rajin belajar kata

asing dari kamus.

Makan daging anjing

sana!!

➡

rokiiii

kira

ilmu

elu

memperlihatkan

ini

rajin

asing

makan

sana

rokii

lo

filsafat

yg

bahwa

elu

belajar

dari

daging

gw

pinter

jawaban

ini

selama

cuma

kata

kamus

anjing

Gambar 3.8 Tokenizing tweet flaming

Gambar 3.9 Potongan program tokenizing


30

3.7.4 Normalisasi

Proses ini dilakukan untuk memperbaiki kata dan huruf yang

berlebihan berdasarkan Kamus Besar Bahasa Indonesia.

Langkah-langkah dalam normalisasi :

1. Buat kondisi looping sebanyak huruf pada token ke-t.

2. Lakukan pengecekkan kondisi token ke-t pada kamus KBBI.

3. Jika kondisi ke-t tidak terkandung dalam kamus KBBI, lakukan

langkah 4.

4. Hapus 1 huruf dari belakang pada token, kamudian lakukan

langkah 2 kembali.

5. Jika token pada looping ke-i terkandung dalam kamus KBBI,

maka token adalah kata.

6. Jika looping sebanyak token tidak ada yang terkandung dalam

kamus, maka return token.

Berikut contoh normalisasi pada tweet netral :

ada

sementara

lebaran

desknya

didaerah

yg

yaaa

uang

lowongan

buat

ini

ngurus

serpong

minat

mayan

jajan

kerja

libur

job

anjing

ada

gak

nambah

liburan

➡

ada

sementara

lebaran

desknya

didaerah

yg

ya

uang

lowongan

buat

ini

ngurus

serpong

minat

mayan

jajan

kerja

libur

job

anjing

ada

gak

nambah

liburan

Gambar 3.10 Normalisasi tweet netral

Berikut contoh normalisasi pada tweet flaming :

rokiii

kira

ilmu

elu

rokii

lo

filsafat

yg

gw

pinter

jawaban

ini

➡

roki

kira

ilmu

elu

roki

lo

filsafat

yg

gw

pinter

jawaban

ini


31

memperlihatkan

ini

rajin

asing

makan

sana

bahwa

elu

belajar

dari

daging

selama

cuma

kata

kamus

anjing

memperlihatkan

ini

rajin

asing

makan

sana

bahwa

elu

belajar

dari

daging

selama

cuma

kata

kamus

anjing

Gambar 3.11 Normalisasi tweet flaming

Gambar 3.12 Potongan program normalisasi

3.7.5 Stemming

Proses stemming ini bertugas untuk mencari kata dasar

demgam pendekatan pada kamus stemming, stemming bekerja

dengan cara menghilangkan awalan dan akhiran kata.

Langkah-langkah dalam Stemming :

1. Baca setiap kata hasil normalisasi pada setiap dokumen.


32

2. Cocokkan hasil normalisasi dengan kamus stemming, jika hasil

kata normalisasi cocok dengan kamus stemming maka kata

tersebut adalah kata dasarnya.

3. Jika tidak ada kata yang cocok dengan kata hasil normalisasi,

hapus awalan dan akhiran pada kata hasil normalisasi.

4. Cocokkan hasil dari langkah 3 ke kamus stemming, jika cocok

maka kata tersebut adalah kata dasarnya.

5. Jika tidak ditemukan juga, maka kata hasil dari normalisasi

sebelum masuk langkah 3 proses stemming dijadikan sebagai

kata dasarnya.

Berikut contoh stemming dari tweet netral :

ada

sementara

lebaran

desknya

didaerah

yg

ya

uang

lowongan

buat

ini

ngurus

serpong

minat

mayan

jajan

kerja

libur

job

anjing

ada

gak

nambah

liburan

➡

ada

sementara

lebaran

desknya

daerah

yg

ya

uang

lowong

buat

ini

ngurus

serpong

minat

mayan

jajan

kerja

libur

job

anjing

ada

gak

nambah

libur

Gambar 3.13 Stemming tweet netral

roki

kira

ilmu

elu

memperlihatkan

ini

rajin

asing

makan

sana

roki

lo

filsafat

yg

bahwa

elu

belajar

dari

daging

gw

pinter

jawaban

ini

selama

cuma

kata

kamus

anjing

➡

roki

kira

ilmu

elu

lihat

ini

rajin

asing

makan

sana

roki

lo

filsafat

yg

bahwa

elu

belajar

dari

daging

gw

pinter

jawab

ini

selama

cuma

kata

kamus

anjing

Gambar 3.14 Stemming tweet flaming


33

Gambar 3.15 Potongan program stemming

3.7.6 Stopword Removal

Proses stopword removal adalah menyaring kata-kata yang

penting dan akan menghapus kata yang dianggap tidak penting.

Langkah-langkah stopword removal :

1. Baca setiap kata dari hasil stemming, lalu cek setiap kata hasil

dari stemming dengan kamus stopword removal.

2. Jika kata hasil stemming terdapat pada kamus stopword removal

maka kata tersebut dihapus.

3. Jika tidak maka disimpan.

Berikut contoh stopword removal dari tweet netral :

ada

sementara

lebaran

desknya

daerah

lowong

buat

ini

ngurus

serpong

kerja

libur

job

anjing

ada

➡

lebaran

desknya

daerah

lowong

ngurus

serpong

kerja

libur

job

anjing


34

yg

ya

uang

minat

mayan

jajan

gak

nambah

libur

yg

ya

uang

minat

mayan

jajan

gak

nambah

libur

Gambar 3.16 Stopword removal tweet netral

Berikut contoh stopword removal dari tweet flaming :

rokiii

kira

ilmu

elu

lihat

ini

rajin

asing

makan

sana

rokii

lo

filsafat

yg

bahwa

elu

belajar

dari

daging

gw

pinter

jawab

ini

selama

cuma

kata

kamus

anjing

➡

roki

ilmu

elu

rajin

asing

makan

roki

lo

filsafat

yg

elu

belajar

daging

gw

pinter

kamus

anjing

Gambar 3.17 Stopword removal tweet flaming

Gambar 3.18 Potongan program stopword removal


35

3.8 Pembobotan TF-IDF

Sebelum dapat melakukan klasifikasi setelah tahap pre-processing

menggunakan algoritma K-NN, setiap kata diberi bobot sebagai ekstraksi

cirinya dengan menggunakan algoritma TF-IDF. Langkah pertama dalam

pembobotan TF-IDF adalah menghitung nilai term frequency (kemunculan

token) setiap kata. Pada langkah kedua hitung nilai document frequency

(jumlah dokumen yang memiliki token t). Dalam langkah ketiga yaitu

menghitung inverse document frequency. Langkah terakhir adalah

menghitung bobot dimana nilai bobot didapat dari hasil perkalian term

frequency dikalikan dengan inverse document frequency.

a. Menghitung term frequency

Menghitung term frequency adalah menghitung kemunculan

token/kata dalam sebuah dokumen.

Berikut adalah contoh menghitung term frequency pada tweet netral :

lebaran

desknya

daerah

yg

ya

uang

lowong

ngurus

serpong

minat

mayan

jajan

kerja

libur

job

anjing

gak

nambah

libur

➡

lowong

kerja

libur

lebaran

job

desknya

ngurus

anjing

daerah

serpong

= 1

= 1

= 2

= 1

= 1

= 1

= 1

= 1

= 1

= 1

yg

ya

minat

gak

ya

mayan

nambah

uang

jajan

= 1

= 1

= 1

= 1

= 1

= 1

= 1

= 1

= 1

Gambar 3.19 TF tweet netral

Gambar 3.13 adalah contoh proses perhitungan term frequency

pada tweet netral. Semua kata pada tweet ini hanya muncul satu kali

kecuali kata ‘libur’ yang muncul dua kali.


36

Berikut adalah contoh menghitung term frequency pada tweet flaming :

roki

ilmu

elu

rajin

asing

makan

roki

lo

filsafat

yg

elu

belajar

daging

gw

pinter

kamus

anjing

➡

roki

gw

lo

pinter

ilmu

filsafat

elu

yg

= 2

= 1

= 1

= 1

= 1

= 1

= 2

= 1

rajin

belajar

asing

kamus

makan

daging

anjing

= 1

= 1

= 1

= 1

= 1

= 1

= 1

Gambar 3.20 TF tweet flaming

Gambar 3.14 adalah contoh proses perhitungan term frequency

pada tweet flaming. Terdapat dua kata yang muncul dua kali dalam tweet

ini yaitu kata ‘roki’ dan kata ‘elu’, sedangkan kata lainnya dalam tweet

ini hanya muncul satu kali.

b. Menghitung document frequency

Setelah menghitung term frequency, langkah selanjutnya adalah

menghitung document frequency. Document frequency adalah banyak

dokumen yang mengandung kata kunci.

Berikut adalah contoh tabel menghitung document frequency :

Tabel 3.1 document frequency kata d1 d2 D df

lowong 1 0 2 1

kerja 1 0 2 1

libur 2 0 2 1

lebaran 1 0 2 1

job 1 0 2 1

desknya 1 0 2 1

ngurus 1 0 2 1


37

anjing 1 1 2 2

daerah 1 0 2 1

serpong 1 0 2 1

yg 1 1 2 2

ya 2 0 2 1

minat 1 0 2 1

gak 1 0 2 1

mayan 1 0 2 1

nambah 1 0 2 1

uang 1 0 2 1

jajan 1 0 2 1

roki 0 2 2 1

gw 0 1 2 1

lo 0 1 2 1

pinter 0 1 2 1

ilmu 0 1 2 1

filsafat 0 1 2 1

elu 0 2 2 1

rajin 0 1 2 1

belajar 0 1 2 1

asing 0 1 2 1

kamus 0 1 2 1

makan 0 1 2 1

daging 0 1 2 1


38

Tabel 3.1 merupakan contoh dari perhitungan document

frequency pada seluruh tweet atau dokumen. Pada tabel 3.1, kolom

pertama menampilkan seluruh kata yang terdapat pada seluruh

dokumen. Pada kolom kedua dan ketiga menunjukkan kemunculan

kata pada dokumen d1 dan dokumen d2. Simbol D pada kolom ketiga

merupakan total seluruh dokumen yaitu 2 (d1 dan d2). Kemudian df

adalah dokumen frekuensi yaitu jumlah dokumen yang mengandung

kata ke-t.

Sebagai contoh berdasarkan tabel 3.1, kata ‘lowong’ muncul 1

kali yang terdapat pada dokumen d1 dan tidak terdapat pada dokumen

d2. Maka nilai pada kolom d1 bernilai 1 dan nilai pada kolom d2

bernilai 0. Sehingga nilai dari df-nya adalah 1 dikarenakan kata

‘lowong’ hanya muncul pada 1 dokumen saja. Kata ‘libur’ bernilai 2

karena kata tersebut muncul 2 kali dan nilai dari df-nya tetap bernilai 1

karena kata ‘libur’ hanya muncul dalam 1 dokumen saja yaitu di d1.

Sedangkan kata ‘anjing’ muncul disetiap dokumen maka nilai df-nya

adalah 2.

c. Menghitung inverse document frequency

Fungsi dari menghitung inverse document frequency adalah

untuk mengurangi frekuensi kata yang terlalu tinggi, karena

kemunculan kata yang terlalu sering dapat membuatnya menjadi kata

yang tidak penting nilainya.

Tabel 3.2 inverse document frequency kata d1 d2 D df D/df IDF

lowong 1 0 2 1 2 0,30103

kerja 1 0 2 1 2 0,30103

libur 2 0 2 1 2 0,30103

lebaran 1 0 2 1 2 0,30103

job 1 0 2 1 2 0,30103


39

desknya 1 0 2 1 2 0,30103

ngurus 1 0 2 1 2 0,30103

anjing 1 1 2 2 0 0

daerah 1 0 2 1 2 0,30103

serpong 1 0 2 1 2 0,30103

yg 1 1 2 2 0 0

ya 2 0 2 1 2 0,30103

minat 1 0 2 1 2 0,30103

gak 1 0 2 1 2 0,30103

mayan 1 0 2 1 2 0,30103

nambah 1 0 2 1 2 0,30103

uang 1 0 2 1 2 0,30103

jajan 1 0 2 1 2 0,30103

roki 0 2 2 1 2 0,30103

gw 0 1 2 1 2 0,30103

lo 0 1 2 1 2 0,30103

pinter 0 1 2 1 2 0,30103

ilmu 0 1 2 1 2 0,30103

filsafat 0 1 2 1 2 0,30103

elu 0 2 2 1 2 0,30103

rajin 0 1 2 1 2 0,30103

belajar 0 1 2 1 2 0,30103

asing 0 1 2 1 2 0,30103

kamus 0 1 2 1 2 0,30103


40

makan 0 1 2 1 2 0,30103

daging 0 1 2 1 2 0,30103

Tabel 3.2 merupakan contoh dari perhitungan inverse document

frequency pada seluruh tweet atau dokumen.

d. Menghitung bobot

Setelah menghitung TF dan IDF, maka langkah selanjutnya

adalah menghitung bobot setiap kata. Nilai bobot didapat dari perkalian

term frequency dengan inverse document frequency.

Berikut adalah contoh dengan tabel perhitungan bobot kata pada tweet

netral:

Tabel 3.3 perhitungan bobot tweet netral kata tf IDF W

lowong 1 0,30103 0,30103

kerja 1 0,30103 0,30103

libur 2 0,30103 0,60206

lebaran 1 0,30103 0,30103

job 1 0,30103 0,30103

desknya 1 0,30103 0,30103

ngurus 1 0,30103 0,30103

anjing 1 0 0

daerah 1 0,30103 0,30103

serpong 1 0,30103 0,30103

yg 1 0 0

ya 1 0,30103 0,30103

minat 1 0,30103 0,30103

gak 1 0,30103 0,30103


41

mayan 1 0,30103 0,30103

nambah 1 0,30103 0,30103

uang 1 0,30103 0,30103

jajan 1 0,30103 0,30103

Tabel 3.3 merupakan contoh perhitungan bobot per-kata pada

tweet netral.

Berikut adalah contoh dengan tabel perhitungan bobot pada pada tweet

flaming:

Tabel 3.4 perhitungan bobot tweet flaming

kata tf IDF W

roki 2 0,30103 0,60206

gw 1 0,30103 0,30103

lo 1 0,30103 0,30103

pinter 1 0,30103 0,30103

ilmu 1 0,30103 0,30103

filsafat 1 0,30103 0,30103

elu 2 0,30103 0,60206

yg 1 0 0

rajin 1 0,30103 0,30103

belajar 1 0,30103 0,30103

asing 1 0,30103 0,30103

kamus 1 0,30103 0,30103

makan 1 0,30103 0,30103

daging 1 0,30103 0,30103

anjing 1 0 0


42

Tabel 3.3 merupakan contoh perhitungan bobot per-kata pada

tweet flaming.

3.9 Leksikon

3.9.1 Sentimen Leksikon Indonesia

Metode rule based method dapat digunakan untuk

mengklasifikasi fitur dalam pendekatan semantik. Metode ini

memanfaatkan sentimen leksikon Indonesia sebagai kamusnya.

Kamus sentimen leksikon Indonesia adalah kamus yang berisi daftar

kata positif dan kata negatif. Setiap kata yang terdapat dikamus

positif maka kata tersebut memiliki polarity positif begitu pula

sebaliknya. Nilai polaritas kata tersebut dapat menjadi ciri fitur yang

dapat diimplementasikan dalam rule based method.

Gambar 3.21 Kamus positif


43

Gambar 3.22 Kamus negatif

3.9.2 Rule Based Method

Klasifikasi menggunakan metode rule base method dilakukan

dengan cara menjumlahkan dan membandingkan jumlah kata positif

dengan jumlah kata negatif dalam satu dokumen. Dalam penelitian

ini, penulis menggunakan dua label dimana kategori positif dan

netral menjadi satu kategori sebagai label netral sedangkan kategori

negatif diberi label sebagai flaming. Aturan yang dapat digunakan

adalah sebagai berikut :

Jika jumlah kata positif dalam dokumen lebih banyak dari kata

negatif, maka dokumen tersebut dikategorikan sebagai netral.

Jika jumlah kata negatif dalam dokumen lebih banyak dari kata

positif, maka dokumen tersebut dikategorikan sebagai flaming.

Jika jumlah kata positif dan jumlah kata negatif berjumlah

sama, maka dokumen tersebut dikategorikan sebagai netral.

Setelah proses Rule Based Method ini dijalankan, proses

selanjutnya adalah menghitung akurasinya dengan confusion matrix.


44

3.10 Klasifikasi K-NN

Dalam K-NN setiap bobot kata dibandingkan untuk menghitung

kemiripan atau kedekatan antar dokumen. Dalam penerapannya, metode K-

NN harus memiliki label terlebih dahulu sebelum dapat mengklasifikasikan

data, oleh karena itu dibutuhkan data training untuk membentuk label

klasifikasi. Setelah memiliki label klasifikasi, metode K-NN bekerja

berdasarkan jarak terdekat antara data testing ke data training dengan

menentukan nilai dari variabel k-nya. Menghitung jarak antara data testing

ke data training dapat menggunakan metode euclidean distance.

3.11 Pengujian

K-fold cross validation merupakan salah metode yang dapat

mengevaluasi algoritma dan menguji data silang agar memperolah data

model mana yang terbaik. Dalam melakukan validasi, data dibagi sejumlah

k, dan data ke-kn digunakan untuk data testing dan sisa data lainnya

digunakan sebagai data training. Dalam penelitian ini menggunakan 100

data dan menggunakan 10 model data, maka pengujian dilakukan sebanyak

10 kali dan 100 data dibagi menjadi 10. Dengan 10 model data maka

pembagian data pada setiap modelnya adalah sebagai berikut :

Tabel 3.5 pembagian model data Model Data

1 1-10

2 11-20

3 21-30

4 31-40

5 41-50

6 51-60

7 61-70

8 71-80

9 81-90

10 91-100


45

3.12 Confusion Matrix

Pengukuran akurasi dalam penelitian ini menggunakan confusion

matrix. Perhitungan yang dilakukan adalah dengan menjumlahkan total

hasil tweet yang benar diklasifikasi oleh sistem lalu dibagi dengan jumlah

total keseluruhan data atau tweet lalu kemudian dikali dengan 100. Berikut

contoh perhitungan akurasi menggunakan confusion matrix :

Tabel 3.6 contoh perbandingan klasifikasi untuk menguji akurasi

Dokumen Klasifikasi Sistem Klasifikasi Pakar

Tweet 1 Negatif Negatif


Tweet 3 Positif Negatif


Tweet 5 Positif Negatif

Tweet 6 Positif Positif



Tweet 9 Negatif Positif


Pada tabel 3.6 merupakan contoh hasil dari klasifikasi sistem,

dengan berdasarkan tabel 3.6 dapat digunakan untuk mengukur akurasi

dengan menggunakan rumus confusion matrix sebagai berikut :

𝐶𝑜𝑛𝑓𝑢𝑠𝑖𝑜𝑛 𝑀𝑎𝑡𝑟𝑖𝑥 =𝐽𝑢𝑚𝑙𝑎ℎ 𝑦𝑎𝑛𝑔 𝑏𝑒𝑛𝑎𝑟 𝑑𝑖𝑘𝑙𝑎𝑠𝑖𝑓𝑖𝑘𝑎𝑠𝑖

𝐽𝑢𝑚𝑙𝑎ℎ 𝑡𝑜𝑡𝑎𝑙 𝑠𝑒𝑙𝑢𝑟𝑢ℎ 𝑑𝑎𝑡𝑎∗ 100% (3.1)

Dengan berdasarkan tabel perbandingan klasifikasi, dapat dilihat

jumlah tweet yang benar diklasifikasi sebanyak tujuh tweet yaitu pada tweet

1,2,4,6,7,8, dan 10 dari 10 tweet. Maka dengan menggunakan rumus

confusion matrix adalah sebagai berikut :

𝐶𝑜𝑛𝑓𝑢𝑠𝑖𝑜𝑛 𝑀𝑎𝑡𝑟𝑖𝑥 =7

10∗ 100%

= 70%

Gambar 3.23 Contoh hasil confusion matrix


46

BAB IV

HASIL DAN ANALISIS

4.1 Implementasi

Data diperoleh dari media sosial Twitter yang kemudian disimpan

dalam format .xls. Tweet dipilih secara acak berdasarkan keyword ‘anjing’

sebanyak 100 tweet. Data sejumlah 100 ini kemudian diserahkan kepada

ahli/pakar bahasa untuk diklasifikasi secara manual terlebih dahulu. Berikut

adalah data yang akan diolah dalam penelitian ini.

Gambar 4.1 Kumpulan data yang akan diolah

Pengolahan awal terhadap data adalah pre-processing dimana

semua teks dirubah menjadi huruf kecil (case folding), setelah itu teks dalam

satu kalimat dipecah menjadi perkata dan menghapus semua tanda baca

(tokenizing). Teks yang telah dipecah kemudian dinormalisasi agar sesuai

dengan KBBI. Kemudian dilanjutkan dengan proses stemming untuk


47

mencari kata dasar dari setiap kata dan langkah terakhir adalah

menghilangkan kata yang dianggap tidak penting(stopword removal).

Setelah pre-processing, proses selanjutnya adalah ekstraksi ciri yang

berupa bobot dengan menggunakan algoritma TF-IDF. Fungsi pembobotan

adalah untuk menghitung bobot setiap kata dimana nilai bobot didapat

dengan menghitung kemunculan setiap kata lalu dikalikan dengan idf.

Setelah bobot kata didapatkan, bobot tersebut digunakan untuk

menghitung jarak kedekatan antara suatu tweet ke seluruh tweet

menggunakan euclidean distance. Seluruh hasil perhitungan jarak ke suatu

tweet disortir berdasarkan nilai dari K. Penentuan klasifikasi tweet

berdasarkan mayoritas tweet dari ranking nilai K tersebut.

Sedangkan dalam pengujian menggunakan rule based method

proses setelah pre-processing tidak dilakukan pembobotan kata. Setelah

pre-processing, proses yang dilakukan adalah klasifikasi menggunakan rule

based method berdasarkan kamus sentimen leksikon Indonesia. Terdapat

dua kamus didalam kamus sentiment leksikon Indonesia, yaitu kamus yang

berisikan kata-kata yang berpolaritas positif dan yang berpolaritas negatif.

Metode klasifikasi menggunakan rule based adalah menghitung jumlah

mayoritas polaritas kata yang terdapat dalam satu tweet. Jika suatu tweet

memiliki jumlah polaritas kata positif lebih banyak dari pada polaritas kata

negatif maka klasifikasi dari tweet tersebut adalah ‘netral’ dan jika

sebaliknya maka akan diklasifikasikan sebagai ‘flaming’ namun jika

memiliki jumlah polaritas yang sama maka akan diklasifikasikan sebagai

‘netral’.

Dalam pengujian akurasi, dua metode ini menggunakan pengujian

yang sama yaitu confusion matrix. Sistem akan menjumlahkan total tweet

yang benar diklasifikan atau diprediksi oleh sistem kemudian akan dibagi

dengan jumlah seluruh data lalu dikali dengan 100%. Akurasi sistem

dikatakan baik jika nilai akurasi yang didapat bernilai tinggi, sedangkan

akurasi sistem dikatakan kurang baik jika nilai akurasi yang didapat bernilai

rendah.


48

4.1.1 Uji Perbandingan Hasil Akurasi K-NN dan Rule Based Method

Secara Manul dengan Hasil Akurasi K-NN dan Rule Based

Method Secara Sistem

4.1.1.1 Hasil Akurasi K-NN dan Rule Based Method Secara

Manual

Dalam pengujian secara manual, data yang digunakan

sebanyak 10 data dari 100 data. Proses hitung akurasi K-

Nearest Neighbor dan Rule Based Method secara manual ini

menggunakan Mircosoft Excel. Data yang diujikan dalam

proses manual adalah data yang telah di pre-processing.

Perhitungan akurasi manual K-NN menggunakan jumlah

tetangga terdekat sebanyak 1 dan menggunakan 5 fold. Hasil

dari perhitungan manual dapat dilihat pada bagian lampiran.

4.1.1.2 Hasil Akurasi K-NN dan Rule Based Method Secara

Sistem

Dalam pengujian menggunakan sistem, 10 data

digunakan dari 100 data tweet. File dengan format .xls adalah

input untuk sistem. Perhitungan akurasi sistem ini

menggunakan jumlah tetangga terdekat sebanyak 1 dan

menggunakan 5 fold untuk algoritma K-Nearest Neighbor.

Gambar 4.2 Akurasi uji sistem


49

4.1.1.3 Evaluasi Hasil Prediksi Secara Manual Dan

Menggunakan Sistem

Berikut salah satu gambar persamaan hasil antara

perhitungan manual dengan hasil dari program.

Gambar 4.3 Hasil perhitungan manual untuk data D5 dan D10

Gambar 4.3 adalah perhitungan manual untuk fold ke-

1 dengan jumlah tetangga sebanyak 1 pada data D5 dan D10.

Gambar 4.4 Hasil pengujian sistem pada D5

Gambar 4.4 menunjukkan urutan data yang memiliki

jarak terdekat dengan data D5, dari jarak yang paling dekat

hingga paling jauh. Pada gambar 4.4 menjelaskan jika K=1

maka tetangga terdekat dari D5 adalah D1, dan begitu

seterusnya. Hasil output dari program pada gambar 4.4 juga

menunjukkan hasil yang sama pada pengujian manual

digambar 4.3.


50

Gambar 4.5 Hasil pengujian sistem pada D10

Pada gambar 4.5 juga menunjukkan hasil yang sama

pada perhitungan manual digambar 4.3. Dengan pengujian

menggunakan 5 fold, perhitungan manual sama dengan hasil

yang di output-kan oleh sistem. Dapat disimpulkan bahwa

sistem berjalan baik sesuai dengan yang diharapkan. Seluruh

hasil pengujian 5 fold dapat dilihat dilampiran.

4.1.2 Hasil Uji

Dalam penelitian ini data yang digunakan sebanyak 100 data

tweet dari Twitter. 3, 5, 7 dan 10 fold digunakan untuk mencari

akurasi tertinggi dalam algoritma K-Nearest Neighbor dan jumlah

tetangga terdekat yang digunakan dalam pengujian ini adalah 1, 3,

dan 5.


51

Gambar 4.6 Hasil pengujian dengan 3 fold dan 1 tetangga

Dari gambar 4.6, hasil akurasi dari algoritma K-Nearest

Neighbor menghasilkan 61% dengan menggunakan 3 fold dan

menggunakan 1 tetangga terdekat. Sedangkan dengan pendekan

Leksikon menghasilkan akurasi 64 %.

Gambar 4.7 Grafik pengujian dengan 3 fold

Dari grafik pada gambar 4.7, dapat dilihat akurasi tertinggi

dalam pengujian 3 fold adalah 61% pada jumlah tetangga terdekat

sebanyak 1.


52




sebanyak 1.




sebanyak 1.


53




sebanyak 1.

4.1.3 Analisis

Hasil pengujian sistem menggunakan algoritma K-Nearest

Neighbor dengan K-Fold Cross Validation sebagai pembagian

model antara data training dan data testing dengan percobaan nilai

K-Fold 3, 5, 7, dan 10 dan dengan jumlah tetangga terdekat

sebanyak 1, 3, dan 5. Akurasi yang dihasilkan dengan 3 fold saat

diuji dengan K = 1 adalah 61%. Akurasi saat diuji dengan K = 3

adalah 57%. Akurasi saat diuji dengan K = 5 adalah sebesar 50%.

Pada pengujian 5 fold, saat diuji dengan K = 1 menghasilkan akurasi

sebesar 70%. Saat diuji dengan K = 3 menghasilkan akurasi 66%.

Pengujian dengan K = 5 menghasilkan akurasi 53%.

Pengujian dilanjutkan dengan menggunakan 7 fold. Hasil

akurasi dengan K = 1 adalah 72%. K = 3 menghasilkan akurasi 65%.

Kemudian pada K = 5 menghasilkan akurasi 54%. Pada pengujian

terakhir menggunakan 10 fold. Akurasi yang dihasilkan ketika diuji

dengan K = 1 adalah 73%. Kemudian diuji dengan K = 3


54

menghasilkan akurasi 68%. Dilanjutkan dengan K = 5 menghasilkan

akurasi sebesar 54%.

Pengujian dengan pendekatan kamus Sentimen Leksikon

Indonesia menggunakan Rule Based Method menghasilkan akurasi

sebesar 64%.

Jumlah K-Fold dan tetangga terdekat dalam algoritma K-

Nearest Neighbor mempengaruhi nilai akurasi sistem. Semua

jumlah fold mendapatkan akurasi terbaiknya ketika K = 1. Akurasi

terbaik dengan K = 1 adalah dengan 10 fold dengan tinggat akurasi

73%. Semakin besar nilai K pada algoritma K-Nearest Neighbor

mengakibatkan akurasi algoritma berkurang.


55

BAB V

PENUTUP

5.1 Kesimpulan

Berdasarkan hasil penelitian, penerapkan algoritma klasifikasi K-

Nearest Neighbor dan dibandingkan dengan Rule Based Method dengan

pendekatan kamus Leksikon terhadap tweet cyberbullying dalam bentuk

flaming pada media sosial Twitter dengan menggunakan 100 data, diperoleh

kesimpulan sebagai berikut :

1) Algoritma K-Nearest Neihbor dapat diterapkan dalam

mengklasifikasi cyberbullying dalam bentuk flaming

berdasarkan tweet yang mengandung kata ‘anjing’.

2) Berdasarkan hasil pengujian, algoritma klasifikasi K-Nearest

Neighbor menggunakan 100 data didapatkan akurasi tertinggi

dengan metode 10 fold.

3) Akurasi tertinggi didapatkan ketika jumlah tetangga terdekat

berjumlah 1 dan ketika lebih dari 1 maka hasil klasifikasi KNN

akan mulai menurun.

4) Semakin besar nilai fold, semakin besar pula akurasinya, tetapi

semakin banyak tetangga terdekat semakin kecil akurasi yang

diperoleh.

5) Pendekatan kamus Sentimen Leksikon Indonesia dengan

menggunakan Rule Base Method dapat diterapkan untuk

mengklasifikasi cyberbullying dalam bentuk flaming

berdasarkan tweet yang mengandung kata ‘anjing’.

6) Berdasarkan hasil pengujian, akurasi terbaik yang dihasilkan

menggunakan pendekatan kamus Leksikon dengan Rule Based

Method adalah sebesar 64%.

7) Berdasarkan hasil pengujian akurasi, disimpulkan bahwa

akurasi algoritma K-Nearest Neighbor lebih baik

dibandingkan dengan pendekatan kamus Sentimen Leksikon

Indonesia menggunakan Rule Based Method.


56

5.2 Saran

Saran untuk mengembangkan sistem :

1) Lakukan penelitian selanjutnya dengan menambahkan kamus kata

slang.

2) Manfaatkan Twitter API untuk memperoleh data dari Twitter.


57

DAFTAR PUSTAKA

Agusta, L. 2009. Perbandingan Algoritma Stemming Porter dengan Algoritma

Nazief & Adriani untuk Stemming Dokumen Teks Bahasa Indonesia.

Konferensi Nasional Sistem dan Informatika, (hal 196-201). Bali.

Delima, Rosa dan Antonius Rachmat. 2014. Implementasi Metode K-Nearest

Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita.

Universitas Kristen Duta Wacana.

Harjanta, Aris Tri Jaka. 2015. Preprocessing Text Untuk Meminimalisir Kata yang

Tidak Berarti dalam Proses Text Mining. Universitas PGRI Semarang.

Hariani dan Imam Riadi. Detection Of Cyberbullying On Social Media Using Data

Mining Techniques. International Journal of Computer Science and

Information Security (IJCSS). Vol. 15, No.3, March 207.

Jiawei, H., Kamber, M. & Pei, J., 2012. Data Mining: Concepts and Techniques

Third Edition. MA: Morgan Kaufmann.

Kohavi, R. 1995. A Study of Cross Validation and Bootstrap for Accuracy

Estimation and Model Selection. Lecture Note in Computer Science 6440,

114-124.

Lailiyah, Masfulatul. 2017. Sentiment Analysis Menggunakan Rule Based Method

Pada Data Pengaduan Publik Berbasis Lexical Resources. Institut

Teknologi Sepuluh Nopember Surabaya.

Librian, Andy dan R. Kukuh. (2014). JSastrawi. Diakses dari

https://github.com/sastrawi. Diakses pada 12 Maret 2019.

Liu, B., 2012. Sentiment Analysis and Opinion Mining. In: Chicago: Morgan &

Claypool Publisher.

Luqyana, Wanda Athira; Imam Cholissodin dan Rizal Setya Perdana. Analisis

Sentimen Cyberbullying Pada Komentar Instagram Dengan Metode

Klasifikasi Support Vector Machine. Junal Pengembangan Teknologi

Infomasi dan Ilmu Komputer. Vol. 2, No. 11, Desember 2018, hlm. 4704-

4713.

Luthfi, Anshori; Rekyan Regasari Mardi Putri dan Tibyani. Implementasi Metode

K-Nearest Neighbor Untuk Rekomendasi Keminatan Sutdi (Studi Kasus :


https://github.com/sastrawi

58

Jurusan Teknik Informatika Universitas Brawijaya). Jurnal Pengembangan

Teknologi Informasi dan Ilmu Komputer. Vol. 2, No. 7, Juli 2018, hlm.

2745-2753.

Maarif, Abdul Aziz. 2015. Penerapan Algoritma TF-IDF Untuk Pencarian Karya

Ilmiah. Universitas Dian Nuswantoro.

Miah, M. 2009. Improved k-nn Algorithm for Text Classification Journal

Department of Science and Engineering. University of Texas.

Nugroho, Gregorius Agung Purwanto. 2016. Analisis Sentimen Data Twitter

Menggunakan K-Means Clustering. Universitas Sanata Dharma

Yogyakarta.

Nugroho, Moh Aziz dan Heru Agus Santoso. 2016. Klasifikasi Dokumen Komentar

Pada Situs Youtube Menggunakan Algoritma K-Nearest Neighbor (K-NN).

Universitas Dian Nuswantoro.

Pandie, Emerensye S. Y. Pandie. 2012. Sistem Informasi Pengambilan Keputusan

Pengajuan Kredit Dengan Algoritma K-Nearest Neighbour (Studi Kasus

Koperasi Simpan Pinjam). Universitas Diponogoro Semarang.

Pandie, Mira Marleni dan Ivan Th. J. Weismann. 2016. Pengaruh Cyberbullying Di

Media Sosial Terhadap Perilaku Reaktif Sebagai Pelaku Maupun Sebagai

Korban Cyberbullying Pada Sisw Kristen SMP Nasional Makassar.

Sekolah Tinggi Filsafat Jaffray Makassar.

Purwanti, Endah. 2015. Klasifikasi Dokumen Temu Kembali Informasi dengan K-

Nearest Neighbour. e-ISSN 2442-5168. 1(2), 129-138.

Rahman, M.Fadly; M.Ilham Darmawidjadja dan Dion Alamsah. Klasifikasi Untuk

Diagnosis Diabetes Menggunakan Metode Bayesian Regularization Neural

Network (RBNN). Jurnal Informatika. Vol.11 No.1, Januari 2017.

Rachmat, Antonius dan Yuan Lukito. Klasifikasi Sentimen Komentar Politik dari

Facebook Page Menggunakan Naive Bayes. JUISI, Vol. 02, No. 02.

Agustus 2016.

Rosdiansyah, Defri dan Surya Agustian. 2014. Analisis Sentimen Twitter

Menggunakan Metode K-Nearest Neighbor Dan Pendekatan Lexicon. UIN

SUSKA Riau.


59

Satalina, Dina. Kecenderungan Perilaku Cyberbullying Ditinjau Dari Tipe

Kepribadian Ekstrovert Dan Introvert. ISSN: 2301-8267. Vol.02, No.02,

Januari 2014.

Tan, P.-N., Steinbach, M., & Kumar, V. 2006. Introduction To Data Mining.

Boston: Pearson Addison Wesley.

Utomo, M. S. Implementasi Stemmer Tala pada Aplikasi Berbasis Web. Jurnal

Teknologi Informasi DINAMIK Volume 18, No.1, Januari 2013 : 41-45.

Willard, N. 2005. Cyberbullying and cyberthreats. Washington: U.S. Department

of Education.


60

LAMPIRAN

Lampiran 1. Hitung Manual K-Nearest Neighbor dan Rule Based Method Leksikon

1. Hitung TF IDF


61


62

2. Hitung Euclidean Distance D5 dan D10


63


64

2.1. Confusion matrix 1 Fold


65

2.2. Output program 1 fold untuk D5



66



67


68

3.1. Confusion matrix 2 Fold


69




70



71


72

4.1. Confusion Matrix 3 Fold


73




74



75


76

5.1. Confusion Matrix 4 fold


77




78



79


80

6.1. Confusion Matrix 5 fold


81




82

7. Menghitung Akurasi


83

8. Hitung Manual Rule Based Method Leksikon


84

Lampiran 2. Dataset

1. Surat Keterangan Triangulasi


85

2. Dataset


86


87


88


89


90


91


92


93


94


95


96


97


mengklasifikasi cyberbullying dari media ...repository.usd.ac.id/38045/2/155314047_full.pdfgambar...

Documents