mengklasifikasi cyberbullying dari media ...repository.usd.ac.id/38045/2/155314047_full.pdfgambar...
TRANSCRIPT
MENGKLASIFIKASI CYBERBULLYING DARI MEDIA
SOSIAL TWITTER MENGGUNAKAN ALGORITMA
KLASIFIKASI K-NEAREST NEIGHBOR DAN PENDEKATAN
LEKSIKON
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana
Komputer Program Studi Informatika
Oleh :
Novri Karyadi Sahputra
155314047
PROGRAM STUDI INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2020
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ii
CLASSIFYING CYBERBULLYING FROM SOCIAL MEDIA
USING TWITTER'S CLASSIFICATION ALGORITHM K-
NEAREST NEIGHBOR AND LEXICON APPROACH
THESIS
Presented as Partial Fulfillment of the Requirements To Obtain the Sarjana
Komputer Degree in Informatics Study Program
Written by :
Novri Karyadi Sahputra
155314047
INFORMATICS STUDY PROGRAM
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2020
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
v
MOTTO
βAir mata pendidikan adalah mata air kehidupan.β
-Mbah Kasih
βTidur untuk bermimpi dan bangun untuk mewujudkan.β
βBegadang jangan begadang, kalau tiada artinya.
Begadang boleh saja, kalau ada perlunya.β
(Rhoma Irama β Begadang)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
viii
ABSTRAK
Kemajuan teknologi interaksi sosial tidak sebaik perilaku sosial masyarakat
dalam bersosial media. Flaming adalah salah satu jenis dari cyberbullying yang
sering dijumpai di platform media sosial manapun. Menurut Satalina (2014),
flaming merupakan pesan teks yang isinya merupakan kata-kata yang penuh amarah
dan frontal (Willard, 2005). Salah satu media sosial yang dengan mudah
menemukan umpatan terhadap orang lain adalah Twitter. Pada umumnya orang
Indonesia senang mengumpat dengan menggunakan nama jenis hewan sebagai
bentuk ekspresinya.
Topik tersebut menjadi sumber data dan dasar dalam penelitian ini.
Klasifikasi adalah metode yang dapat mengelompokkan tweet berdasarkan
maknanya. Algoritma klasifikasi yang cukup populer salah satunya adalah K-
Nearest Neighbor. Ada pula klasifikasi yang mengandalkan kamus sentimen seperti
Leksikon. Penelitian ini mencoba mengukur metode mana yang memiliki akurasi
yang lebih baik antara KNN dan pendekatan kamus Sentimen Leksikon Indonesia
menggunakan Rule Based Method dalam mengklasifikasi antara tweet flaming dan
netral yang mengandung kata umpatan.
Penelitian ini dilakukan dengan jumlah data sebanyak 100 tweet, dimana
semua tweet-nya mengandung kata umpatan βanjingβ. Kedua metode ini
menggunakan masukan yang sama yaitu berupa teks. Pada tahap KNN terdapat
beberapa proses seperti pre-processing, pembobotan TF-IDF, K-Fold Cross
Validation, dan mengukur jarak tetangga. Akurasi kedua metode ini diukur
menggunakan Confusion Matrix dengan berdasarkan klasifikasi manual oleh Bapak
A. Danang Satria Nugraha, M.A sebagai triangulator.
Dari hasil pengujian yang telah dilakukan, algoritma K-Nearest Neighbor
menghasilkan akurasi tertinggi sebesar 73.0% dengan menggunakan 10 fold saat
jumlah tetangga terdekat berjumlah K = 1. Sedangkan pada pendekatan kamus
Sentimen Leksikon Indonesia dengan menggunakan Rule Based Method
memperoleh hasil akurasi sebesar 64%.
Kata Kunci : Tweet, Klasifikasi, K-Nearest Neighbor, Leksikon, Rule Based
Method
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ix
ABSTRACT
The advancement of social interaction technology is not as good as social
behavior of society in social media. Flaming is one of those types of cyber
bullying that is often found on any social media platform. According
to Satalina (2014), flaming is a text message whose contents are anger-filled and
frontal words (Willard, 2005). One of the social media that easily finds a swearing
of others is Twitter. In general, Indonesians love to swear by using animal names
as their expressions.
The topic is a data source and the basis for this study. Classification is a
method that can group tweets by their meaning. The classification algorithm is quite
popular one of which is K-Nearest Neighbor. There are also classifications that rely
on sentiment dictionaries like lexicon. This study tried to gauge which method has
better accuracy between KNN and the dictionary approach Indonesian Lexicon
sentiment uses the Rule Based Method of classifying the flaming and neutral
tweets containing the word swear.
This research is done with a total of 100 tweets, of which all of the tweets
contain the word ' dog '. Both methods use the same input as text. At the KNN stage
there are several processes such as pre-processing, TF-IDF-weighted, K-Fold Cross
Validation, and distance-measuring neighbors. The accuracy of these two methods
is measured using the Confusion Matrix based on manual classification by Mr. A.
Danang Satria Nugraha, M.A as the triangulator.
From the test results, the K-Nearest Neighbor algorithm resulted in the
highest accuracy of 73.0% by using 10 fold when the nearest number of neighbors
was K = 1. Meanwhile, in the dictionary approach of Indonesian lexicon by using
Rule Based Method, the accuracy of 64% is achieved.
Keyword : Tweet, classification, K-Nearest Neighbor, Lexicon, Rule Based Method
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
x
KATA PENGANTAR
Dalam kesempatan ini penulis ingin mengucapkan terima kasih yang
sebesar-besarnya kepada semua pihak yang telah memberikan doa, motivasi,
bantuan, dan dukungan baik secara langsung maupun tidak langsung dalam
menyelesaikan tugas akhir ini. Dengan kerendahan hati, penulis mengucapkan
terima kasih kepada :
1. Tuhan yang Maha Esa yang selalu membantu dengan caranya yang
misterius.
2. Papa dan Mama yang selalu memberikan kepercayaan dan memotivasi serta
dukungan maupun doa sepanjang menempuh perkuliahan ini.
3. Bapak Robertus Adi Nugroho, S.T., M.Eng. selaku Ketua Program Studi
Informatika Fakultas Sains dan Teknologi dan selaku Dosen Pembimbing
tugas akhir yang telah meluangkan waktu, memberikan saran dan dukungan
bagi penulis dalam menyelesaikan tugas akhir.
4. Bapak A. Danang Satria Nugraha, M.A. selaku Wakil Program Studi
Bahasa dan Sastra Indonesia yang telah memberikan kesempatan dan
bersedia untuk menjadi triangulator dalam penelitian ini.
5. Bapak Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D. selaku Dekan Fakultas
Sains dan Teknologi.
6. Bapak JB. Budi Darmawan S.T., M.Sc. selaku Dosen Pembimbing
Akademik.
7. Seluruh Dosen Program Studi Informatika Fakultas Sains dan Teknologi
Universitas Sanata Dharma yang telah memberikan ilmu pengetahuan,
pengalaman, dan wawasan kepada penulis.
8. Bapak Christopher Yanuar selaku Asisten Laboratorium Basis Data.
9. Karyawan Universitas Sanata Dharma khususnya Bapak Timbul yang telah
mengkondisikan Ruang Akses Mahasiswa / Laboratorium Tugas Akhir
sebagai mana layaknya ruang belajar yang nyaman.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xi
10. Beta Febrida Damanik yang selalu memberikan semangat, dukungan, dan
motivasi dalam penyelesaian tugas akhir.
11. Saudara Jeri Ferdiano dan saudara Adres Kusumawardhana yang telah
meluangkan waktu, tenaga serta menjadi tempat berdiskusi dan membantu
penulis dalam menyelesaikan tugas akhir ini.
12. Saudara Rendi Fong, saudara Heriadi, saudara Novryanto, saudara Hilman
Maulana, saudara Herdyan Faturrahman, saudara Syofian Hadi dan saudara
Fengky Junis yang telah berjuang bersama di perantauan.
13. Teman-teman Program Studi Teknik Informatika Angkatan 2015 yang
selalu solid.
14. Teman-teman βTempe Bengukβ yang selalu ada saat suka maupun duka
dalam pengerjaan tugas akhir ini.
15. Kakak-kakak kelas Program Studi Teknik Informatika Angkatan 2014 yang
selalu bersedia menjadi tempat bertukar pikiran.
16. Kamu, yang telah membaca tugas akhir ini.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xii
DAFTAR ISI
JUDUL .................................................................................................................... 1
TITLE ....................................................................................................................... ii
HALAMAN PERSETUJUAN ................................................................................ iii
HALAMAN PENGESAHAN................................................................................. iv
MOTTO....................................................................................................................v
PERNYATAAN KEASLIAN KARYA.................................................................. vi
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN AKADEMIS............................................................... vii
ABSTRAK ............................................................................................................ viii
ABSTRACT .............................................................................................................. ix
KATA PENGANTAR..............................................................................................x
DAFTAR ISI .......................................................................................................... xii
DAFTAR GAMBAR ............................................................................................. xv
DAFTAR TABEL ................................................................................................ xvii
BAB I PENDAHULUAN ....................................................................................... 1
1.1. Latar Belakang.......................................................................................... 1
1.2. Rumusan Masalah .................................................................................... 3
1.3. Batasan Masalah ....................................................................................... 3
1.4. Tujuan Penelitian ...................................................................................... 3
1.5. Sistematika Penulisan ............................................................................... 4
BAB II LANDASAN TEORI ................................................................................. 5
2.1 Cyberbullying ........................................................................................... 5
2.2 Text Mining............................................................................................... 6
2.2.1 Text Classification ............................................................................. 6
2.2.2 Pre-processing .................................................................................. 7
2.3 Ekstraksi Fitur ........................................................................................ 14
2.3.1 Pembobotan TF-IDF ....................................................................... 14
2.3.2 Leksikon .......................................................................................... 16
2.4 Rule Based Method ................................................................................. 17
2.5 Algoritma Klasifikasi K-Nearest Neighbor ............................................ 17
2.6 K-Fold Cross Validation ........................................................................ 19
2.7 Confusion Matrix .................................................................................... 21
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiii
BAB III METODE PENELITIAN....................................................................... 22
3.1 Data......................................................................................................... 22
3.2 Spesifikasi Sistem................................................................................... 23
3.3 Deskripsi Sistem ..................................................................................... 24
3.4 Tahapan Penelitian ................................................................................. 24
3.4.1 Studi Pustaka ................................................................................... 24
3.4.2 Pengumpulan Data .......................................................................... 24
3.4.3 Pembuatan Alat Uji ......................................................................... 25
3.4.4 Pengujian ......................................................................................... 25
3.5 Desain Interface...................................................................................... 25
3.6 Gambaran Umum Sistem ....................................................................... 26
3.7 Pre-processing........................................................................................ 27
3.7.1 Case Folding ................................................................................... 27
3.7.2 Cleaning Data.................................................................................. 27
3.7.3 Tokenizing ....................................................................................... 28
3.7.4 Normalisasi...................................................................................... 30
3.7.5 Stemming ......................................................................................... 31
3.7.6 Stopword Removal........................................................................... 33
3.8 Pembobotan TF-IDF............................................................................... 35
a. Menghitung Term Frequency ................................................................. 35
b. Menghitung Document Frequency ......................................................... 36
c. Menghitung Inverse Document Frequency ............................................ 38
d. Menghitung Bobot .................................................................................. 40
3.9 Leksikon ................................................................................................. 42
3.9.1 Sentimen Leksikon Indonesia ......................................................... 42
3.9.2 Rule Based Method.......................................................................... 43
3.10 Klasifikasi K-NN .................................................................................... 44
3.11 Pengujian ................................................................................................ 44
3.12 Confusion Matrix .................................................................................... 45
BAB IV HASIL DAN ANALISIS........................................................................ 46
4.1 Implementasi .......................................................................................... 46
4.1.1 Uji Perbandingan Hasil Akurasi K-NN dan Rule Based Method
Secara Manul dengan Hasil Akurasi K-NN dan Rule Based Method Secara
Sistem 48
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiv
4.1.2 Hasil Uji .......................................................................................... 50
4.1.3 Analisis ............................................................................................ 53
BAB V PENUTUP................................................................................................ 55
5.1 Kesimpulan ............................................................................................. 55
5.2 Saran ....................................................................................................... 56
DAFTAR PUSTAKA ........................................................................................... 57
LAMPIRAN .......................................................................................................... 60
Lampiran 1. Hitung Manual K-Nearest Neighbor dan Rule Based Method
Leksikon ............................................................................................................ 60
1. Hitung TF IDF ........................................................................................ 60
2. Hitung Euclidean Distance D5 dan D10 ................................................ 62
3. Hitung Euclidean Distance D4 dan D9 .................................................. 66
4. Hitung Euclidean Distance D3 dan D8 .................................................. 70
5. Hitung Euclidean Distance D2 dan D7 .................................................. 74
6. Hitung Euclidean Distance D1 dan D6 .................................................. 78
7. Menghitung Akurasi ............................................................................... 82
8. Hitung Manual Rule Based Method Leksikon........................................ 83
Lampiran 2. Dataset .......................................................................................... 84
1. Surat Keterangan Triangulasi ................................................................. 84
2. Dataset.................................................................................................... 85
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xv
DAFTAR GAMBAR
Gambar 2.1 Ilustrasi dari algoritma K-NN .......................................................... 19
Gambar 2.2 Ilustrasi K-Fold Cross Validation .................................................... 20
Gambar 3.1 Tweet flaming................................................................................... 23
Gambar 3.2 Tweet netral ...................................................................................... 23
Gambar 3.3 Desain GUI ...................................................................................... 25
Gambar 3.4 Gambaran umum sistem .................................................................. 26
Gambar 3.5 Potongan program case folding ....................................................... 27
Gambar 3.6 Potongan program cleaning data ..................................................... 28
Gambar 3.7 Tokenizing tweet netral .................................................................... 29
Gambar 3.8 Tokenizing tweet flaming ................................................................. 29
Gambar 3.9 Potongan program tokenizing .......................................................... 29
Gambar 3.10 Normalisasi tweet netral ................................................................ 30
Gambar 3.11 Normalisasi tweet flaming ............................................................. 31
Gambar 3.12 Potongan program normalisasi ...................................................... 31
Gambar 3.13 Stemming tweet netral .................................................................... 32
Gambar 3.14 Stemming tweet flaming ................................................................. 32
Gambar 3.15 Potongan program stemming ......................................................... 33
Gambar 3.16 Stopword removal tweet netral ...................................................... 34
Gambar 3.17 Stopword removal tweet flaming ................................................... 34
Gambar 3.18 Potongan program stopword removal............................................ 34
Gambar 3.19 TF tweet netral ............................................................................... 35
Gambar 3.20 TF tweet flaming ............................................................................ 36
Gambar 3.21 Kamus positif ................................................................................. 42
Gambar 3.22 Kamus negatif ................................................................................ 43
Gambar 3.23 Contoh hasil confusion matrix ....................................................... 45
Gambar 4.1 Kumpulan data yang akan diolah..................................................... 46
Gambar 4.2 Akurasi uji sistem ............................................................................ 48
Gambar 4.3 Hasil perhitungan manual untuk data D5 dan D10.......................... 49
Gambar 4.4 Hasil pengujian sistem pada D5....................................................... 49
Gambar 4.5 Hasil pengujian sistem pada D10..................................................... 50
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvi
Gambar 4.6 Hasil pengujian dengan 3 fold dan 1 tetangga ................................. 51
Gambar 4.7 Grafik pengujian dengan 3 fold ....................................................... 51
Gambar 4.8 Grafik pengujian dengan 5 fold ....................................................... 52
Gambar 4.9 Grafik pengujian dengan 7 fold ....................................................... 52
Gambar 4.10 Grafik pengujian dengan 10 fold ................................................... 53
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvii
DAFTAR TABEL
Tabel 2.1 Awalan-akhiran .................................................................................... 10
Tabel 2.2 Aturan peluruhan kata dasar ................................................................. 11
Tabel 2.3 Confusion Matrix.................................................................................. 21
Tabel 3.1 Document Frequency............................................................................ 36
Tabel 3.2 Inverse Document Frequency ............................................................... 38
Tabel 3.3 Perhitungan bobot tweet netral ............................................................. 40
Tabel 3.4 Perhitungan bobot tweet flaming .......................................................... 41
Tabel 3.5 Pembagian model data.......................................................................... 44
Tabel 3.6 Contoh perbandingan klasifikasi untuk menguji akurasi ..................... 45
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1
BAB I
PENDAHULUAN
1.1. Latar Belakang
Kemajuan teknologi menawarkan kemudahan dari berbagai aspek
kehidupan. Salah satu temuan terbesar umat manusia adalah teknologi
komunikasi, siapa saja dapat berkomunikasi dengan siapa saja, dimana saja
dan kapan saja. Dari teknologi ini seakan melahirkan dunia baru yang kita
kenal dengan sebutan dunia maya. Manusia saat ini sangat memanfaatkan
dunia maya untuk bersosial, karena saat ini ada banyak sekali platform
media sosial untuk mendukung interaksi sosial antar manusia.
Media sosial merupakan sebuah media daring yang dapat
memfasilitasi penggunanya untuk berpartisipasi, berbagi, dan dapat
menciptakan blog, jejaring sosial, wiki, forum dan dunia virtual. Jejaring
sosial merupakan salah satu media sosial yang paling umum digunakan oleh
masyarakat di seluruh dunia.
Selain dimanfaatkan untuk mendukung interaksi sosial, beberapa
atau banyak orang memanfaatkan media sosial sebagai tempat untuk
melakukan tindakan yang tidak menyenangkan terhadap orang lain.
Tindakan yang mungkin sering kita jumpai di media sosial adalah dalam
bentuk intimidasi. Tindakan intimidasi ini biasa bertujuan untuk melakukan
penghinaan, memfitnah, melecehkan, mengancam, mempermalukan dan
mengujar kebencian.
Banyak hal yang menjadi dasar seseorang melakukan tindakan
seperti ini, ada yang berdasarkan marah terhadap seseorang, balas dendam,
politik, atau bahkan hanya sekedar hiburan. Tindak kejahatan di jejaring
sosial ini bernama cyberbullying.
Kejahatan ini lebih umum dijumpai pada media sosial seperti
Facebook, Instagram, Twitter, Youtube, dan lain-lain. Cara seseorang
melakukan bullying pada media sosial pun cukup beragam. Ada yang
mengirimkan komentar pada konten yang diunggah oleh seseorang, ada
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
yang melakukan direct message atau pesan langsung kepada seseorang, ada
pula yang melakukannya dalam bentuk tautan pribadi dengan atau tanpa
menyebut seseorang yang dimaksud.
Menurut Luqyana dkk (2018), cyberbullying adalah tindakan
bullying yang dilakukan pada dunia siber. Flaming, cyberstalking,
harrastment, dan lain-lain, merupakan aspek-aspek yang dimana jika
sebuah opini atau tautan yang terdapat salah satu dari aspek tersebut maka
tautan tersebut dapat dikatakan cyberbullying (Pratiwi, 2017). Flaming
sendiri adalah salah satu jenis cyberbullying yang paling sering dijumpai di
media sosial. Flaming merupakan pesan atau pendapat online dengan
menggunakan bahasa atau kata-kata kasar (Pandie & Weismann, 2016).
Kasus bullying di Indonesia lebih banyak dilakukan di jejaring sosial
(Satalina, 2014).
Secara manusiawi, kita dapat membedakan tweet mana saja yang
merupakan bullying dan tidak, namum apakah sistem yang terkomputasi
dapat membedakan sebuah tweet yang mengandung bullying dalam bentuk
flaming?
Dibutuhkan metode yang dapat mengelompokkan apakah sebuah
tweet termasuk dalam cyberbullying atau tidak. Salah satu metode yang
dapat digunakan untuk melakukan pengelompokkan teks adalah K-Nearest
Neighbor. Menurut Delima dkk (2014), algoritma pada K-Nearest Neighbor
mudah dan efisien dalam melakukan pengelompokkan atau klasifikasi teks.
K-Nearest Neighbor sendiri adalah supervised learning yang mampu
melakukan klasifikasi berdasarkan jarak terdekat antara objek baru dengan
objek lama. Adapun metode lain yang dapat melakukan klasifikasi teks
adalah menggunakan metode aturan (rule base method) dengan pendekatan
leksikon.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3
1.2. Rumusan Masalah
Berdasarkan latar belakang diatas, maka dapat dirumuskan rumusan
masalah sebagai berikut :
1. Bagaimana penerapan K-Nearest Neighbor dalam mengklasifikasi
cyberbullying dalam bentuk flaming pada tweet dari Twitter.
2. Seberapa baik akurasi algoritma klasifikasi K-Nearest Neighbor mampu
mengklasifikasi cyberbullying dalam bentuk flaming pada tweet dari
Twitter.
3. Bagaimana pendekatan Leksikon dalam mengklasifikasi cyberbullying
dalam bentuk flaming pada tweet dari Twitter.
4. Seberapa baik akurasi rule based method dengan pendekatan Leksikon
mampu mengklasifikasi cyberbullying dalam bentuk flaming pada tweet
dari Twitter.
1.3. Batasan Masalah
Batasan masalah dalam pembuatan sistem ini adalah sebagai berikut :
1. Media sosial yang digunakan untuk pengambilan data adalah tweet dari
media sosial Twitter.
2. Tweet yang dianalisis adalah tweet dalam bahasa Indonesia.
3. Tweet yang dianalisis adalah tweet yang mengandung cyberbullying
dalam bentuk flaming.
4. Tweet yang dianalisis adalah tweet yang mengandung kata βanjingβ.
5. Data diambil dari Twitter secara manual sebanyak 100 tweet.
6. Jangka waktu tweet yang diambil dari Maret 2018 hingga April 2019.
7. Algoritma yang digunakan adalah algoritma klasifikasi K-Nearest
Neighbor dan Rule Based Method dengan pendekatan Leksikon.
8. Pengelompokkan tweet berdasarkan 2 jenis yaitu flaming dan netral.
1.4. Tujuan Penelitian
Adapun tujuan yang ingin dicapai dalam penelitian ini adalah :
1. Melakukan klasifikasi tweet dari Twitter untuk mengenali cyberbullying
dalam bentuk flaming.
2. Mengklasifikasi cyberbullying dalam bentuk flaming menggunakan
algoritma klasifikasi K-Nearest Neighbor.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4
3. Mengklasifikasi cyberbullying dalam bentuk flaming dengan
pendekatan Leksikon menggunakan rule based method.
4. Mengetahui akurasi dari K-Nearest Neighbor dan Rule Based Method
dengan pendekatan Leksikon dalam mengklasifikasi cyberbullying
dalam bentuk flaming.
1.5. Sistematika Penulisan
BAB I : Pendahuluan
Bab ini berisi pendahuluan yang diantaranya adalah latar belakang,
rumusan masalah, manfaat, batasan dan sistematika penulisan.
BAB II : Landasan Teori
Bab ini berisi teori-teori yang menjadi dasar dalam pembuatan
sistem analisis teks yang mengandung cyberbullying di media sosial
Twitter, diantara lain teori tentang cyberbullying, preprocessing, dan
algoritma klasifikasi K-Nearest Neighbor yang akan digunakan untuk
perancangan sistem.
BAB III : Metode Penelitian
Bab ini berisi tentang perancangan yang digunakan dalam
pengembangan sistem.
BAB IV : Implementasi dan Analisa Hasil
Bab ini berisikan mengenai implementasi dan analisis dari hasil
sistem yang telah dibuat.
BAB V : Penutup
Bab ini berisi kesimpulan penelitian dan saran-saran untuk pengembangan
sistem atau penelitian lebih lanjut.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5
BAB II
LANDASAN TEORI
2.1 Cyberbullying
Cyberbullying adalah suatu perilaku agresi yang mengacu pada
perilaku penindasan yang dilakukan seseorang melalui media komunikasi
elektronik atau komputer digital seperti telepon seluler, sms, pesan surel,
jejaring sosial dan lain-lain (Satalina, 2014).
Pada penelitian Sataline menyebutkan jenis-jenis cyberbullying
(Willard, 2005) sebagai berikut :
1. Flaming (terbakar)
Pesan teks yang isinya merupakan kata-kata yang penuh amarah dan
frontal.
2. Harassment (gangguan)
Pesan yang berisi gangguan pada email, sms, maupun pesan teks di
jejaring sosial yang dilakukan secara terus menerus.
3. Cyberstalking
Mengganggu dan mencemarkan nama baik seseorang secara intens
sehingga membuat ketakutan besar pada orang tersebut.
4. Denigration (Pencemaran nama baik)
Menyebarkan keburukan seseorang di internet dengan maksud
merusak reputasi dan nama baik orang tersebut.
5. Impersonation (Peniruan)
Berpura-pura menjadi orang lain dan mengirimkan pesan-pesan atau
status yang tidak baik.
6. Outing & Trickery
Outing : Menyebarkan rahasia atau foto-foto pribadi orang
lain.
Trickery : Tipu daya agar mendapatkan privasi orang lain.
7. Exclusion (Pengeluaran)
Mengeluarkan seseorang dari grup online atau chat room secara
sengaja.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6
Dalam penelitian ini, jenis cyberbullying yang dijadikan topik
penelitian adalah jenis flaming.
2.2 Text Mining
Text mining adalah salah satu penambangan informasi dari data-data
yang berupa tulisan, dokumen atau teks dalam bentuk klasifikasi maupun
klustering (Harjanta, 2015). Menurut Luqyana dkk (2018), text mining
adalah ilmu yang bertujuan untuk memproses teks agar dapat melakukan
peramalan pola dan kecenderungan melalui pola statistik (Jiawei, et al.,
2012).
Pada penelitian Luqyana dkk (2018) juga mengatakan text mining
bertujuan untuk menganalisis pendapat, sentimen, evaluasi, sikap,
penilaian, atau emosi seseorang sehingga dapat diketahui apakah berkenaan
dengan suatu topik, layanan, organisasi, individu, atau kegiatan tertentu
(Liu, 2012).
Menurut Rachmat & Lukito (2016), data-data pada text mining biasa
merupakan informasi yang tidak terstruktur. Maka text mining memerlukan
pemrosesan yang merubah bentuk data dari data yang tidak terstruktur
menjadi data terstruktur.
Pengekstrakkan informasi atau pengetahuan dari penambangan teks
baru dapat dilakukan jika data telah menjadi data yang terstruktur.
Mengekstrak informasi atau pengetahuan tersebut dapat digunakan untuk
analisis dari berbagai bidang ilmu multidisiplin seperti klasifikas,
klasterisasi, machine learning, dan analisis teks lainnya (Rachmat & Lukito,
2016).
2.2.1 Text Classification
Ada banyak penerapan dalam melakukan text mining, salah satunya
adalah klasifikasi teks. Klasifikasi teks merupakan proses pengelompokkan
sebuah dokumen kedalam kategori atau kelas tertentu yang telah ditentukan.
Tugas utama dari klasifikasi teks adalah untuk menentukan kategori dari
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7
masing-masing dokumen yang berdasarkan karakteristik masing-masing
kelas (Lailiyah, 2017).
Menurut Lailiya (2017), tahapan dalam klasifikasi teks meliputi :
Document Collecting
Document collecting merupakan tahap pengumpulan data.
Pre-processing
Secara garis besar tahap ini merupakan tahap dimana data di
normalisasi agar data yang digunakan memiliki standar yang
konsisten dan terstruktur sehingga data siap untuk diolah dan
dilanjutkan ke tahap selanjutnya.
Ekstraksi Fitur
Tujuan dari ekstraksi fitur adalah mengubah bentuk ciri data
agar dapat diproses ke tahap selanjutnya. Dalam text mining ciri
data merupakan kumpulan kata-kata, maka kata-kata ini diubah
menjadi angka yang dapat digunakan untuk proses klasifikasi.
Klasifikasi
Menentukan kategori untuk setiap dokumen berdasarkan
karakteristik dari masing-masing kelas terhadap dokumen.
Validasi
Tahap ini adalah mengukur akurasi dari klasifikasi yang
dihasilkan.
2.2.2 Pre-processing
Sebelum proses penambangan data dilakukan, pembersihan data
perlu dilakukan terlebih dahulu. Proses seperti membuang duplikasi,
memperbaiki kesalahan (typo), memeriksa data yang tidak konsisten, dan
lain-lain.
Pre-processing merupakan tahap dimana data dipersiapkan sesuai
dengan format yang dibutuhkan. Proses ini dilakukan agar data tekstual
terstruktur atau tidak terstruktur menjadi lebih terstruktur untuk dijadikan
sumber data yang akan diolah lebih lanjut (Nugroho, 2016).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8
2.2.2.1 Case Folding
Proses case folding bertujuan untuk mengubah semua huruf
menjadi huruf kecil, tujuannya agar semua data menjadi format
yang sama.
Sebagai contoh :
Input :
Hujan Malam-Malam, Memperlihatkan Rrinduku pada Diri
Muuu
Output :
hujan malam-malam, memperlihatkan rrinduku pada diri
muuu
2.2.2.2 Cleaning Data
Tahap cleaning data adalah untuk membuang noise atau
menghilangkan karakter-karakter tertentu seperti tanda baca,
angka, situs WEB atau link url dan lain-lain.
Hasil dari Case folding :
hujan malam-malam, memperlihatkan rrinduku pada diri
muuu
Hasil dari Cleaning data :
hujan malam malam memperlihatkan rrinduku pada diri muuu
2.2.2.3 Tokenizing
Proses tokenizing pada teks adalah proses untuk memecah
sekumpulan karakter sehingga menghasilkan pecahan teks yang
dapat berupa paragraf, kalimat, atau perkata (token).
Hasil dari Cleaning data :
hujan malam malam memperlihatkan rrinduku pada diri muuu
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9
Hasil dari Tokenizing :
hujan malam malam memperlihatkan rrinduku pada
diri muuu
2.2.2.4 Normalisasi
Tahap pada pemrosesan normalisasi adalah untuk
mengidentifikasi kata atau huruf yang berlebihan untuk diganti
sesuai dengan Kamus Besar Bahasa Indonesia.
Hasil dari Tokenizing :
hujan malam malam memperlihatkan rrinduku pada
diri muuu
Hasil dari Normalisasi :
hujan malam malam memperlihatkan rinduku pada
diri mu
2.2.2.5 Stemming
Proses stemming merupakan pemrosesan untuk mencari kata
dasar dari seluruh kata tanpa harus menghilangkan makna dari setiap
kata tersebut. Pada proses stemming, kata-kata yang dianggap
penting atau mempunyai makna akan diambil. Terdapat dua
pendekatan dalam proses stemming yaitu pendekatan dengan kamus
atau pendekatan aturan (Utomo, 2013). Dalam penelitian ini, penulis
menggunakan proses stemming dengan pendekatan kamus.
Hasil dari Normalisasi :
hujan malam malam memperlihatkan rinduku pada
diri mu
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
10
Hasil dari Stemming :
hujan malam malam lihat rinduku pada
diri mu
Berdasarkan algoritma stemming yang dibuat oleh Bobby Nazief
dan Mirna Adriani adalah sebagai berikut :
1. Cari kata yang akan di-stem dalam kamus stemming atau kamus kata
dasar. Setelah ditemukan, asumsikan kata tersebut sebagai root
word, lalu algoritma berhenti.
2. Langkah selanjutnya adalah menghapus inflection suffixes (β-lahβ,
β-kahβ, β-kuβ, β-muβ, atau β-nyaβ). Hapus jika berupa particles (β-
lahβ, β-kahβ, β-tahβ, atau β-punβ), langkah ini kemudian diulang jika
ada possesive pronouns (β-kuβ, β-muβ, atau β-nyaβ), maka possesive
pronouns-nya dihapus.
3. Hapus derivation suffixes (β-iβ, β-anβ, atau β-kanβ), jika kata telah
ditemukan di kamus, maka algoritma berhenti, jika tidak lanjut ke
langkah 3a.
a. Jika β-anβ telah dihapus dan huruf terakhir dari kata yang dituju
adalah β-kβ maka β-kβ juga dihapus. Jika kata tersebut
ditemukan dalam kamus maka algoritma berhenti. Jika tidak
maka lakukan langkah 3b.
b. Akhiran yang dihapus (β-iβ, β-anβ, atau β-kanβ) dikembalikan,
lalu lanjut ke langkah 4.
4. Pada langkah 4 terdapat tiga iterasi:
a. Iterasi berhenti jika :
(i) Ditemukannya kombinasi akhiran yang tidak diizinkan
berdasarkan awalan.
Tabel 2.1 Awalan-akhiran
Awalan Akhiran yang tidak diizinkan
be- -i
di- -an
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11
ke- -i, -kan
me- -an
se- -i, -kan
(ii) Awalan yang dideteksi sama dengan awalan yang
dihilangkan sebelumnya.
(iii) Tiga awalan telah dihilangkan.
b. Identifikasi tipe awalan dan hilangkan. Awalan terdiri dari dua
tipe :
(i) Standar (βdi-β, βke-β, βse-β) yang dapat langsung
dihilingkan dari kata.
(ii) Kompleks (βme-β, βbeβ, βpeβ, βteβ) adalah tipe awalan
yang dapat berubah sesuai kata dasar yang mengikutinya.
Dibutuhkan aturan pada tabel berikut untuk
mendapatkan hasil pemenggalan yang tepat.
Tabel 2.2 Aturan peluruhan kata dasar
Aturan Bentuk awalan Peluruhan
1 berV Ber-V... | be-rV...
2 Belajar Bel-ajar
3 beC1erC2 Be-C1erC2.. dimana C!={βrβ|1}
4 terV Ter-V | te-rV
5 teCer Te-Cer... dimana C !=βrβ
6 teC1C2 te-C1erC2... dimana C!=βrβ
7 me{1|r|w|y}V... Me-{1|r|w|y}V...
8 mem{b|f|v}... Mem-{b|f|v}...
9 Mempe... Mem-pe
10 Mem{rV|V}... Me-m{rV|V}...| Me-p{rV|V}...
11 Men{c|d|j|z}... Men-{c|d|j|z}...
12 menV... Me-nV...|me-tV...
13 Meng{g|h|q|k}... Meng-{g|h|q|k}....
14 mengV... Meng-V...|meng-kV
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12
15 mengeC Menge-C
16 menyV Me-ny...|meny-sV...
17 mempV Mem-pV...
18 Pe{w|y}V... Pe-{w|y}V....
19 perV Per-V...|pe-rV
20 Pem{b|f|v} Pe-m{b|f|v}...
21 Pem{rV|V} Pe-m{rV|V}...|pe-p{rV|V}
22 Pen{c|d|j|z}... Pen-{c|d|j|z}...
23 penV Pe-nV..|pe..tV
24 Peng{g|h|q} Peng-{g|h|q}
25 pengV Peng-V | peng-kV
26 penyV Pe-nya | peny-sV
27 pelV Pe-lV..;kecuali untuk kata
βpelajarβ menjadi ajar
28 peCP Pe-CP...dimana C!={r|w|y|l|m|n}
dan P!=βerβ
29 perCerV Per_CerV dimana C!={r|w|y|l|m|n}
Tabel 2.2 merupakan aturan peluruhan kata dasar yang
berawalan βbe-β, βte-β, βme-β, dan βpe-β. Dalam kolom kedua
pada tabel 2.2 menjelaskan bentuk kata dasar yang berawalan
βbe-β, βte-β, βme-β, dan βpe-β, dalam kolom ketiga merupakan
perubahan karakter kata dasar setelah algoritma menghilangkan
awalan yang melekat pada kata dasar tersebut. Huruf βVβ yang
terdapat pada kolom kedua dan ketiga merupakan huruf vokal.
Sedangkan huruf βCβ merupakan huruf konsonan dan huruf βPβ
merupakan pecahan βerβ.
c. Cari kata yang telah dihilangkan awalannya, jika tidak
ditemukan maka langkah diulang kembali, jika telah ditemukan
maka algoritma berhenti.
5. Jika langkah 4 kata dasar masih belum ditemukan, maka proses
dilakukan dengan mengacu kepada aturan tabel 2.2.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13
6. Jika tetap tidak berhasil, maka kata awal diasumsikan sebagai kata
dasar, kemudian algoritma berhenti.
Dalam mengatasi keterbatasan pada algoritma stemming diatas, maka
ditambahkan aturan dibawah (Agusta, 2009) :
1. Aturan reduplikasi
Jika terdapat dua kata yang dihubungkan dan memiliki
bentuk kata yang sama, maka kata dasarnya adalah
bentuk tunggalnya, seperti βibu-ibuβ, karena memiliki
kata yang sama maka kata dasarnya adalah βibuβ.
Jika terdapat dua kata yang dihubungkan namun
memiliki bentuk kata yang berbeda seperti βbermalas-
malasanβ maka cara untuk menjadi kata dasarnya
adalah dengan mengartikan kedua kata tersebut secara
terpisah. Jika kedua kata tersebut memiliki kata dasar
yang sama, maka kedua kata tersebut masing-masing
dirubah menjadi kata dasar tunggal. Sehingga dalam
prosesnya memiliki dua kata dari kata βbermalas-
malasanβ menjadi βmalasβ dan βmalasβ. Perilaku yang
sama pun dilakukan jika dua kata berhubungan
memiliki kata-kata yang berbeda seperti βbolak-balikβ,
maka kata dasar dari βbolak-balikβ adalah βbolakβ dan
βbalikβ.
2.2.2.6 Stopword Removal
Pemrosesan stopword removal adalah proses pembuangan
kata yang kemungkinan besar tidak memberikan pengaruh seperti
kata-kata yang bersifat umum, tidak memiliki arti yang penting atau
tidak digunakan. Tujuan stopword removal untuk mengurangi
jumlah kata yang disimpan oleh sistem.
Sebagai contoh :
Hasil dari Stemming :
hujan malam malam lihat rinduku pada diri mu
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14
Hasil dari Stopword Removal :
hujan malam malam rinduku
mu
2.3 Ekstraksi Fitur
Menurut Lailiyah (2017), fitur adalah karakteristik unik yang dapat
digunakan untuk mewakili sebuah objek. Ekstraksi fitur sendiri adalah
proses pengambilan ciri dari sebuah objek, dimana objek tersebut digunakan
untuk proses klasifikasi. Tahap ekstraksi fitur ini menentukan fitur mana
yang akan diklasifikasi dan fitur mana yang diabaikan.
Lailiyah juga menjelaskan terdapat dua pendekatan yang dapat
digunakan dalam mengektraksi fitur seperti pendekatan statistik (statistical
based method) dan pendekatan semantik (semantic based method). Dalam
pendekatan statistik, bobot fitur memanfaatkan perhitungan matematis
seperti menggunakan perhitungan kemunculan suatu kata (term frequency)
dalam suatu dokumen dan perhitungan banyaknya dokumen yang
memunculkan suatu term (inverse document frequency).
Pada pendekatan semantik, ekstraksi fiturnya memanfaatkan makna
dari kata penyusun kalimat. Makna kata yang menjadi fitur adalah yang
mengandung (opinion word) seperti sentimen positif maupun sentimen
negatif. Dalam pendekatan semantik ini, lexical resources merupakan poin
penting untuk menemukan kata yang menjadi fitur dari kelas yang
ditentukan.
2.3.1 Pembobotan TF-IDF
Metode TF-IDF adalah metode untuk memberi bobot pada
setiap kata (token) pada sebuah dokumen. Nilai bobot didapat dari
perkalian antara frekuensi kemunculan kata pada suatu dokumen
(term frequency), dan frekuensi kata pada seluruh dokumen (inverse
document frequency).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15
a. Term Frequency
Term frequency adalah frekuensi kemunculan kata pada
suatu dokumen (Perdana & Fauzi, 2017).
b. Document Frequency
Document frequency adalah frekuensi atau jumlah
dokumen yang mengandung kata t.
c. Inverse Document Frequency
Inverse document frequency adalah pembobotan untuk
mengukur penting tidaknya sebuah kata dalam dokumen
dilihat pada seluruh dokumen yang ada (Purwanti, 2015).
Fungsi dari IDF adalah untuk mengurangi bobot suatu term
yang kemunculannya banyak pada keseluruhan dokumen.
Rumus untuk menghitung IDF adalah sebagai berikut :
πΌπ·πΉπ‘ = log10(π· ππβ ) (2.1)
Keterangan :
IDFt : Inverse document frequency pada kata t.
D : jumlah keseluruhan dokumen.
df : banyak dokumen yang mengandung kata t.
Kemudian setelah mendapatkan nilai TF dan nilai IDF,
pemberian bobot ke setiap kata adalah dengan menggunakan rumus
TF-IDF sebagai berikut :
ππ‘,π = π‘ππ‘,π β πΌπ·πΉπ‘ (2.2)
Keterangan :
Wt,d : Bobot kata ke-t pada dokumen ke-d.
tft,d : Banyaknya kemunculan kata ke-t pada dokumen d.
IDFt : Inverse Document Frequency ke-t nilai IDF adalah
hasil dari log(D/df).
d : Dokumen ke-d.
t : Kata ke-t dari kata kunci.
D : Total dokumen.
df : Banyak dokumen yang mengandung kata kunci.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16
Bobot yang didapat dari perhitungan bobot TF-IDF
merupakan ciri yang akan diklasifikasikan. bobot (W) tersebut
kemudian diurutkan dari bobot yang paling kecil hingga bobot yang
paling besar. Semakin besar nilai dari W maka semakin similaritas
dokumen dengan kata kunci (Maarif, 2015).
2.3.2 Leksikon
2.3.2.1 Lexical Resource
Dalam penelitian Lailiyah (2017), menjelaskan bahwa ada
tiga pendekatan dalam mengumpulkan lexicon resource, antara lain
manual approach, dictionary based approach dan corpus based
approach. Pada pendekatan kamus (dictionary based approach)
memanfaatkan relasi kata, dan pada pendekatan corpus
memanfaatkan kumpulan opinion word sebagai benih dan pola
sintaksis dari benih kata untuk menambang opinion word.
Dalam penelitian ini penulis menggunakan pendekatan
dictionary based approach dengan sentimen leksikon Indonesia
sebagai kamus untuk ekstraksi fitur bersentimen (opinion word).
2.3.2.2 Sentimen Leksikon Indonesia
Sentimen leksikon Indonesia merupakan daftar atau kamus
kata dengan kecenderungan sentimen positif maupun negatif.
Seperti kata βbaikβ, βcantikβ, memiliki kecenderungan positif, dan
kata βburukβ, βjelekβ, memiliki kecenderungan negatif (Lailiyah,
2017).
Dalam penelitian Lailiyah (2017) juga menjelaskan jika
sentimen leksikon Indonesia masih sangat terbatas jumlahnya.
Dalam mengektraksi fitur, sentimen leksikon Indonesia
memanfaatkan frekuensi kemunculan opinion word pada setiap
dokumen. Lailiyah juga menjelaskan kenapa sentimen leksikon
Indonesia hanya memanfaatkan frekuensi kemunculan opinion
word, dikarenakan sentimen leksikon Indonesia belum memiliki
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17
polarity score seperti leksikon Inggris yaitu sentiwordnet. Dalam
sentimen leksikon Indonesia kata βbaikβ, dan βsenangβ memiliki
polarity yang sama yaitu positif.
2.4 Rule Based Method
Menurut Lailiyah (2017), rule based method merupakan metode
klasifikasi yang memanfaatkan aturan dalam membedakan setiap kelas.
Aturan dibuat dalam bentuk βIF (kondisi) ... THEN (solusi)...β, dimana βIFβ
merupakan kondisi syarat yang terdiri dari satu atau lebih atribut tes.
Sedangkan βTHENβ merupakan konsekuen yang berisi hasil dari prediksi
kelas.
Dalam penelitian ini, label yang digunakan sebanyak dua, dimana
kategori positif dan netral dijadikan sebagai satu kategori yaitu label βnetralβ
sedangkan kategori negatif berlabel flaming. Dalam memisahkan data
antara kelas netral atau flaming, aturan yang dapat digunakan dalam
klasifikasi menggunakan Leksikon adalah sebagai berikut :
Jika jumlah kata positif dalam dokumen lebih banyak dari kata
negatif, maka dokumen tersebut dikategorikan sebagai netral.
Jika jumlah kata negatif dalam dokumen lebih banyak dari kata
positif, maka dokumen tersebut dikategorikan sebagai flaming.
Jika jumlah kata positif dalam dokumen berjumlah sama dengan
jumlah kata negatif, maka dokumen tersebut dikategorikan sebagai
netral.
2.5 Algoritma Klasifikasi K-Nearest Neighbor
Metode K-Nearest Neighbor adalah pendekatan untuk mencari
kecocokkan bobot dari kasus baru dengan kasus lama (Kusrini & Luthfi,
2009).
Menurut Delima & Rachmat (2014), algoritma K-Nearest Neighbor
memiliki sifat self-learning yang dimana jika terdapat banyak dokumen,
banyak pula sumber yang digunakan (Miah, 2009).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18
K-NN merupakan supervised learning yang bekerja berdasarkan
jarak tetangga (neighbor) terdekatnya. Tujuan dari K-NN adalah untuk
melakukan klasifikasi objek baru yang berdasarkan data pembelajaran.
Euclidean distance adalah salah satu metode untuk menghitung
jarak yang dapat di implementasi pada algoritma K-Nearest Neighbor ini.
Rumus euclidean distance adalah rumus untuk menghitung atau mencari
jarak antara 2 objek dalam ruang dua dimensi. Rumus untuk menghitung K
pada euclidean distance adalah sebagai berikut :
π = β(π₯2 β π₯1)2 + (π¦2 β π¦1)2 (2.3)
Keterangan :
d : jarak data latih dan data uji
x : data training
y : data testing
Berikut merupakan langkah- langkah dari algoritma K-Nearest Neighbor :
1. Tentukan nilai K. Dimana K = banyak tetangga terdekat.
2. Hitung jarak data testing dengan seluruh data training.
3. Urutkan jarak dari jarak yang paling dekat hingga nilai K.
4. Tentukan kelompok tetangga terdekat.
5. Gunakan mayoritas dari kelompok tetangga terdekat sebagai nilai
klasifikasi untuk data testing.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
19
Gambar 2.1 Ilustrasi dari algoritma K-NN
Gambar 2.1 merupakan ilustrasi dari algoritma K-NN. Dimana data
baru dimasukkan kemudian menentukan nilai dari K. Dalam percobaan
K=3, data baru masuk kedalam kelompok βNetralβ, itu karena mayoritas
tetangga terdekat dari data baru adalah netral yaitu sebanyak 2, sementara
jumlah flaming dalam K=3 hanya berjumlah 1. Sedangkan pada percobaan
K=5 mayoritas tetangga terdekat ke data baru adalah kelompok βflamingβ
yang berjumlah 3.
2.6 K-Fold Cross Validation
Menurut Emerensye S. Y. Pandie (2012), k-fold cross validation
adalah salah satu metode yang dapat digunakan untuk mengetahui rata-rata
keberhasilan dari suatu sistem dengan cara melakukan perulangan dengan
mengacak atribut masukan, sehingga sistem tersebut teruji untuk beberapa
atribut input yang acak. K-fold cross validation diawali dengan membagi
data sejumlah k-fold yang ingin diujikan. Dalam proses cross validation data
akan dibagi dalam k buah partisi dengan ukuran yang sama D1, D2, D3...Dn
selanjutnya proses testing dan training dilakukan sebanyak k. Dalam iterasi
ke-i partisi Di akan menjadi data testing dan sisanya akan menjadi data
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
20
training. (Ron Kohavi, 1995). Contoh proses k-fold cross validation seperti
ilustrasi dibawah ini:
10 Fold
Fold 1 :
Test Train Train Train Train Train Train Train Train Train
Fold 2 :
Train Test Train Train Train Train Train Train Train Train
.
.
.
Fold 10 :
Train Train Train Train Train Train Train Train Train Test
Data Testing
Data Training
Gambar 2.2 Ilustrasi K-Fold Cross Validation
Ilustrasi pada gambar 2.2 diatas menjelaskan pembagian k-fold cross
validation, K-fold cross validation ini diawali dengan menentukan nilai dari
K. Setelah itu data dibagi sebanyak K. Contoh, data yang dimiliki terdapat
100 data, dari 100 data tersebut dibagi menjadi K lipatan, katakanlah K =
10. Maka setiap lipatan atau partisi berisi masing-masing 10 data. Setelah
itu tentukan data mana yang merupakan data training dan yang mana data
testing. Katakanlah set data training sebanyak 90 data dimana disetiap
partisi masing-masing terdapat 10 data, dan sisanya adalah data testing
dengan jumlah 10 data. Berdasarkan K = 10, maka 9 partisi dikali 1 partisi
yang berisi masing-masing 10 data dan diulang sebanyak 10 kali kesetiap
10 partisi yang berbeda. Setiap partisi menjadi data testing sebanyak 1 kali
dan menjadi data training berkali-kali.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21
2.7 Confusion Matrix
Menurut M.Fadly Rahman, dkk (2017), Confusion matrix adalah
suatu metode yang biasanya digunakan untuk menghitung akurasi.
Confusion matrix digambarkan dengan tabel yang menyatakan jumlah data
uji yang benar diklasifikasikan dan jumlah data uji yang salah diklasifikasi.
Menurut Gregorius A. P. Nugroho (2016), data pelatihan dan pengujian
merupakan data yang berbeda sehingga klasifikasi dapat diuji. Akurasi dari
klasifikasi dihitung dari jumlah data yang dikenali sesuai dengan target
kelasnya (Tan, Steinbach, dan Kumar, 2006).
Tabel 2.3 Confusion Matrix
Klasifikasi Prediksi Positif Prediksi Negatif
Positif TP (True Positive) FN (False Negative)
Negatif FP (False Positive) TN (True Negative)
Dimana :
TP (True Positive) merupakan jumlah dari data positif yang
terklasifikasi dengan benar oleh sistem.
FP (False Positive) merupakan jumlah dari data negatif yang
diklasifikasi salah atau dianggap positif oleh sistem.
TN (True Negative) merupakan jumlah dari data negatif yang
terklasifikasi dengan benar oleh sistem.
FN (False Negative) merupakan jumlah dari data positif yang
diklasifikasi salah atau dianggap negatif.
Dengan berdasarkan TP (True Positive), FN (False Negative), FP
(False Positive), TN (True Negative) maka dapat memperoleh akurasi.
Akurasi adalah nilai untuk mengukur ketepatan sistem dalam
mengklasifikasi data dengan membandingan antara data yang sudah
diklasifikasi dengan keseluruhan data. Rumus untuk menghitung akurasi
pada confusion matrix adalah sebagai berikut :
π΄ππ’πππ π =ππ +ππ
ππ+ππ+πΉπ+πΉπβ 100% (2.4)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
22
BAB III
METODE PENELITIAN
3.1 Data
Dalam Penelitian ini, data diperoleh dari media sosial Twitter yang
berupa tweet dalam bahasa Indonesia. Tweet diperoleh secara manual
dengan memanfaatkan fasilitas dari Twitter yaitu Twitter search advanced.
Tweet dipilih secara acak dan berdasarkan kata kunci βanjingβ. Kata kunci
ini dipilih karena kata anjing umum dijadikan kata umpatan dan
berkemungkinan pula tidak, sehingga data tweet umpatan dan tidak umpatan
dapat dicari dengan mudah.
Data yang digunakan sebanyak 100 data, seluruh data ini juga
terlebih dahulu diklasifikasi oleh ahli bahasa agar data latih memiliki
standar untuk diuji. Data diklasifikasi secara manual oleh Bapak A. Danang
Satria Nugraha, M.A sebagai triangulator dalam penelitian ini.
Dalam penelitian ini, penulis hanya menggunakan dua label, dimana
label positif dan netral menjadi satu label dengan nama label βnetralβ dan
label negatif menjadi label βflamingβ.
Gambar 3.1 merupakan contoh tweet flaming yang menggunakan
kata βanjingβ. Isi dari tweet tersebut menuliskan kata-kata yang berapi-api
dengan meluapkan pesan amarah yang frontal.
@AAAchdan1 : Hei rokcy gerung kau manusia bangsat,jokowi bukan
Prabowo yg bicara asal tanpa data,Presiden udh perhitungkan anggaran
a,bukan seperti mulut anjing kau yg menghina memfitnah,aku ketemu
kau kurobek mulut anjing kau itu
@meupkiss : @JNECare jne anjing!! payah!! bangkrut aja lo njing!!
ngirim paket kaga becus! yg laen paket udh pd sampe ini gua ngirim 2-
2nya masih aja nyangkut di batam. di shope brg hrs udh sampe sblm tgl
17, mau nyampe gmn coba tu sblm tgl segitu
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
23
@folkatire : @SekreSBMPTN eh anjing daripada lu sok sokan ngurus
orang masuk ptn , mending lu belajar aja bikin webbsite yg ga down pas
di masukin ratusan ribu bahkan jutaan orang. NYUSAHIN BANGSAT,
yang dirugiin iti bukan satu dua org, tapi ribuan org dirugikan dengan
website yg bgini.
Gambar 3.1 Tweet flaming
Gambar 3.2 merupakan contoh tweet netral yang menggunaan kata
βanjingβ. Isi dari tweet pada contoh ini beragam, seperti membahas seputar
pemeliharaan hewan anjing, berita mengenai anjing dan lain-lain.
@HistoriDunia : Pada tahun 1980an, Georgia Kraft Corp. menebang
pohon-pohon dan salah satu pohon terdapat jasad anjing yang kemudian
diberi julukan βStuckieβ. Anjing pemburu ini terjebak di dalam batang
pohon selama 50 tahun lebih. Lalu pohon ini ditempatkan di Southern
Forest World museum
@atawannee : Ada lowongan kerja sementara buat libur lebaran ini job
desknya ngurus anjing didaerah serpong. Ada yg minat gak yaaa?
Mayan nambah uang jajan liburan
@LordPratama : Foto prewed kami berkonsep prakemerdekaan sperti
foto2 bangsawan Bali 1930. Dan sangat terinspirasi dari project2 gung
ama yg terkenal dengan hastag #mekenyemsubebiasa difoto oleh adik
ipar dengan keris di punggung dan anjing Bali yg terkenal setia masuk
frame bersama kmi berdua
Gambar 3.2 Tweet netral
3.2 Spesifikasi Sistem
Dalam proses menguji dan perancangan sistem, dibutuhkan software
dan hardware sebagai berikut :
3.2.1 Perangkat Keras (Hardware)
a) System Model : HP 14 Notebook PC
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
24
b) Processor : AMD E1-2100 APU Radeon(TM)
HD Graphics
c) Harddisk : 500 Gb
3.2.2 Perangkat Lunak (Software)
a) Sistem Operasi : Windows 8.1 Single Language 64-
bit
b) Bahasa Pemrograman : Java
c) Aplikasi Editor : NetBeans IDE 8.2
3.3 Deskripsi Sistem
Sistem ini dirancang untuk menguji algoritma K-Nearest Neighbor
dan klasifikasi rule based method dengan pendekatan Leksikon dalam
mengklasifikasi tweet. Tweet dibagi menjadi dua jenis data yaitu data
training dan data testing. Setelah itu proses dilanjutkan kedalam pre-
processing. Tahap terakhir adalah klasifikasi tweet yang akan menghasilkan
tweet mana saja yang dikelompokkan sebagai tweet flaming dan tweet
netral.
3.4 Tahapan Penelitian
3.4.1 Studi Pustaka
Dalam studi pustaka ini penulis menggunakan dan
mencantumkan teori-teori yang berkaitan dengan penelitian ini,
yang meliputi cyberbullying, text mining, ekstraksi fitur, k-nearest
neighbor, k-fold validation, eucludiean distance, rule based method,
lexical resource, dan confusion matrix.
3.4.2 Pengumpulan Data
Data yang digunakan dalam penelitian ini merupakan tweet
berbahasa Indonesia. Pengumpulan tweet sebanyak 100 tweet dan
pencarian tweet berdasarkan kata kunci βanjingβ dengan
memanfaatkan fasilitas pencarian dari Twitter yaitu Twitter search
advanced.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25
3.4.3 Pembuatan Alat Uji
Pada tahap ini dirancang alat uji untuk menguji k-nearest
neighbor dan pendekatan Leksikon menggunakan metode rule
based method dalam pengelompokkan tweet. Dalam mengukur
akurasi sistem menggunakan metode confusion matrix.
3.4.4 Pengujian
Dalam tahap pengujian, data terlebih dahulu melalui pre-
processing text untuk dapat diklasifikasi. Hasil dari klasifikasi
tersebut digunakan untuk menguji akurasi sistem dengan confusion
matrix.
3.5 Desain Interface
Gambar 3.3 Desain GUI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
26
3.6 Gambaran Umum Sistem
Gambar 3.4 Gambaran umum sistem
Sistem ini dirancang untuk dapat mengklasifikasi, menganalisis
sebarapa baik akurasi hasil uji dan membandingkan hasil klasifikasi antara
algoritma k-nearest neighbor dengan rule base method menggunakan
pendekatan leksikon. Tahap awal dari sistem ini adalah melakukan input
data kedalam proses pre-processing. Pada proses pre-processing terdapat
beberapa proses seperti tokenizing, normalisasi, stemming, stopword
removal, dan ekstraksi fitur menggunakan pembobotan kata TF-IDF dan
Sentimen Leksikon Indonesia.
Proses akan berjalan dua kali, dimana proses pertama setelah pre-
processing akan melanjutkan ke proses sentimen leksikon Indonesia tanpa
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
27
menggunakan pembobotan TF-IDF dan akan diklasifikasi menggunakan
rule based method. Pada proses kedua, setelah proses pre-processing selesai
dilanjutkan dengan pembobotan TF-IDF tanpa menggunakan proses
sentimen leksikon Indonesia dan kemudian akan diklasifikasi menggunakan
k-nearest neighbor.
Setelah itu, kedua metode klasifikasi ini akan diukur akurasinya
menggunakan confusion matrix untuk dapat dianalisis perbedaan dari kedua
metode dan menganalisis sebarapa baik akurasi dari masing-masing metode
dalam mengklasifikasi tweet netral dan flaming.
3.7 Pre-processing
Tahap pre-processing adalah proses untuk mempersiapkan data
mentah sebelum dapat diolah oleh proses lain. Tahap ini penting terutama
dalam pengolahan data teks dari media sosial yang memiliki banyak kata
tidak baku dan memiliki banyak noise. Pada penelitian ini, adapun Library
yang digunakan dalam pre-processing adalah milik Sastrawi melaui Github.
3.7.1 Case Folding
Proses case folding akan mengubah semua huruf yang
berupa kapital menjadi huruf kecil, tujuannya agar data memiliki
format yang sama.
Berikut cara kerja case folding :
1. Baca setiap baris dokumen
2. Ubah setiap huruf kapital yang ditemukan menjadi huruf kecil.
3. Recording.
Gambar 3.5 Potongan program case folding
3.7.2 Cleaning Data
Tahap cleaning data adalah algoritma untuk menghapus
noise seperti tanda baca, link url, dan karakter baca.
Langkah-langkah dalam Cleaning data :
1. Baca setiap satu baris dokumen.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
28
2. Jika dalam satu dokumen terdapat karakter baca pada daftar
karakter baca didalam Array.
3. Maka karakter tersebut dihapus.
Gambar 3.6 Potongan program cleaning data
3.7.3 Tokenizing
Algoritma ini akan memisah kalimat menjadi potongan-
potongan perkata yang disebut token.
Langkah-langkah dalam Tokenizing :
1. Baca setiap baris data teks sebagai satu dokumen.
2. Ambil setiap token dalam satu kalimat dokumen dengan
memanfaatkan spasi sebagai pemisah antara token dengan token
lain.
3. Simpan setiap kalimat dokumen yang terdiri dari token
penyusun.
Berikut contoh tokenizing pada tweet netral :
Ada lowongan kerja
sementara buat libur lebaran
ini job desknya ngurus anjing
didaerah serpong. Ada yg
minat gak yaaa? Mayan
nambah uang jajan liburan
β‘
ada
sementara
lebaran
desknya
didaerah
yg
lowongan
buat
ini
ngurus
serpong
minat
kerja
libur
job
anjing
ada
gak
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29
yaaa
uang
mayan
jajan
nambah
liburan
Gambar 3.7 Tokenizing tweet netral
Berikut contoh tokenizing pada tweet flaming :
Rokiiii rokii gw kira lo
pinter ilmu filsafat.
Jawaban elu yg ini
memperlihatkan,
bahwa selama ini elu
cuma rajin belajar kata
asing dari kamus.
Makan daging anjing
sana!!
β‘
rokiiii
kira
ilmu
elu
memperlihatkan
ini
rajin
asing
makan
sana
rokii
lo
filsafat
yg
bahwa
elu
belajar
dari
daging
gw
pinter
jawaban
ini
selama
cuma
kata
kamus
anjing
Gambar 3.8 Tokenizing tweet flaming
Gambar 3.9 Potongan program tokenizing
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
30
3.7.4 Normalisasi
Proses ini dilakukan untuk memperbaiki kata dan huruf yang
berlebihan berdasarkan Kamus Besar Bahasa Indonesia.
Langkah-langkah dalam normalisasi :
1. Buat kondisi looping sebanyak huruf pada token ke-t.
2. Lakukan pengecekkan kondisi token ke-t pada kamus KBBI.
3. Jika kondisi ke-t tidak terkandung dalam kamus KBBI, lakukan
langkah 4.
4. Hapus 1 huruf dari belakang pada token, kamudian lakukan
langkah 2 kembali.
5. Jika token pada looping ke-i terkandung dalam kamus KBBI,
maka token adalah kata.
6. Jika looping sebanyak token tidak ada yang terkandung dalam
kamus, maka return token.
Berikut contoh normalisasi pada tweet netral :
ada
sementara
lebaran
desknya
didaerah
yg
yaaa
uang
lowongan
buat
ini
ngurus
serpong
minat
mayan
jajan
kerja
libur
job
anjing
ada
gak
nambah
liburan
β‘
ada
sementara
lebaran
desknya
didaerah
yg
ya
uang
lowongan
buat
ini
ngurus
serpong
minat
mayan
jajan
kerja
libur
job
anjing
ada
gak
nambah
liburan
Gambar 3.10 Normalisasi tweet netral
Berikut contoh normalisasi pada tweet flaming :
rokiii
kira
ilmu
elu
rokii
lo
filsafat
yg
gw
pinter
jawaban
ini
β‘
roki
kira
ilmu
elu
roki
lo
filsafat
yg
gw
pinter
jawaban
ini
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31
memperlihatkan
ini
rajin
asing
makan
sana
bahwa
elu
belajar
dari
daging
selama
cuma
kata
kamus
anjing
memperlihatkan
ini
rajin
asing
makan
sana
bahwa
elu
belajar
dari
daging
selama
cuma
kata
kamus
anjing
Gambar 3.11 Normalisasi tweet flaming
Gambar 3.12 Potongan program normalisasi
3.7.5 Stemming
Proses stemming ini bertugas untuk mencari kata dasar
demgam pendekatan pada kamus stemming, stemming bekerja
dengan cara menghilangkan awalan dan akhiran kata.
Langkah-langkah dalam Stemming :
1. Baca setiap kata hasil normalisasi pada setiap dokumen.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
32
2. Cocokkan hasil normalisasi dengan kamus stemming, jika hasil
kata normalisasi cocok dengan kamus stemming maka kata
tersebut adalah kata dasarnya.
3. Jika tidak ada kata yang cocok dengan kata hasil normalisasi,
hapus awalan dan akhiran pada kata hasil normalisasi.
4. Cocokkan hasil dari langkah 3 ke kamus stemming, jika cocok
maka kata tersebut adalah kata dasarnya.
5. Jika tidak ditemukan juga, maka kata hasil dari normalisasi
sebelum masuk langkah 3 proses stemming dijadikan sebagai
kata dasarnya.
Berikut contoh stemming dari tweet netral :
ada
sementara
lebaran
desknya
didaerah
yg
ya
uang
lowongan
buat
ini
ngurus
serpong
minat
mayan
jajan
kerja
libur
job
anjing
ada
gak
nambah
liburan
β‘
ada
sementara
lebaran
desknya
daerah
yg
ya
uang
lowong
buat
ini
ngurus
serpong
minat
mayan
jajan
kerja
libur
job
anjing
ada
gak
nambah
libur
Gambar 3.13 Stemming tweet netral
roki
kira
ilmu
elu
memperlihatkan
ini
rajin
asing
makan
sana
roki
lo
filsafat
yg
bahwa
elu
belajar
dari
daging
gw
pinter
jawaban
ini
selama
cuma
kata
kamus
anjing
β‘
roki
kira
ilmu
elu
lihat
ini
rajin
asing
makan
sana
roki
lo
filsafat
yg
bahwa
elu
belajar
dari
daging
gw
pinter
jawab
ini
selama
cuma
kata
kamus
anjing
Gambar 3.14 Stemming tweet flaming
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
33
Gambar 3.15 Potongan program stemming
3.7.6 Stopword Removal
Proses stopword removal adalah menyaring kata-kata yang
penting dan akan menghapus kata yang dianggap tidak penting.
Langkah-langkah stopword removal :
1. Baca setiap kata dari hasil stemming, lalu cek setiap kata hasil
dari stemming dengan kamus stopword removal.
2. Jika kata hasil stemming terdapat pada kamus stopword removal
maka kata tersebut dihapus.
3. Jika tidak maka disimpan.
Berikut contoh stopword removal dari tweet netral :
ada
sementara
lebaran
desknya
daerah
lowong
buat
ini
ngurus
serpong
kerja
libur
job
anjing
ada
β‘
lebaran
desknya
daerah
lowong
ngurus
serpong
kerja
libur
job
anjing
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34
yg
ya
uang
minat
mayan
jajan
gak
nambah
libur
yg
ya
uang
minat
mayan
jajan
gak
nambah
libur
Gambar 3.16 Stopword removal tweet netral
Berikut contoh stopword removal dari tweet flaming :
rokiii
kira
ilmu
elu
lihat
ini
rajin
asing
makan
sana
rokii
lo
filsafat
yg
bahwa
elu
belajar
dari
daging
gw
pinter
jawab
ini
selama
cuma
kata
kamus
anjing
β‘
roki
ilmu
elu
rajin
asing
makan
roki
lo
filsafat
yg
elu
belajar
daging
gw
pinter
kamus
anjing
Gambar 3.17 Stopword removal tweet flaming
Gambar 3.18 Potongan program stopword removal
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35
3.8 Pembobotan TF-IDF
Sebelum dapat melakukan klasifikasi setelah tahap pre-processing
menggunakan algoritma K-NN, setiap kata diberi bobot sebagai ekstraksi
cirinya dengan menggunakan algoritma TF-IDF. Langkah pertama dalam
pembobotan TF-IDF adalah menghitung nilai term frequency (kemunculan
token) setiap kata. Pada langkah kedua hitung nilai document frequency
(jumlah dokumen yang memiliki token t). Dalam langkah ketiga yaitu
menghitung inverse document frequency. Langkah terakhir adalah
menghitung bobot dimana nilai bobot didapat dari hasil perkalian term
frequency dikalikan dengan inverse document frequency.
a. Menghitung term frequency
Menghitung term frequency adalah menghitung kemunculan
token/kata dalam sebuah dokumen.
Berikut adalah contoh menghitung term frequency pada tweet netral :
lebaran
desknya
daerah
yg
ya
uang
lowong
ngurus
serpong
minat
mayan
jajan
kerja
libur
job
anjing
gak
nambah
libur
β‘
lowong
kerja
libur
lebaran
job
desknya
ngurus
anjing
daerah
serpong
= 1
= 1
= 2
= 1
= 1
= 1
= 1
= 1
= 1
= 1
yg
ya
minat
gak
ya
mayan
nambah
uang
jajan
= 1
= 1
= 1
= 1
= 1
= 1
= 1
= 1
= 1
Gambar 3.19 TF tweet netral
Gambar 3.13 adalah contoh proses perhitungan term frequency
pada tweet netral. Semua kata pada tweet ini hanya muncul satu kali
kecuali kata βliburβ yang muncul dua kali.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
36
Berikut adalah contoh menghitung term frequency pada tweet flaming :
roki
ilmu
elu
rajin
asing
makan
roki
lo
filsafat
yg
elu
belajar
daging
gw
pinter
kamus
anjing
β‘
roki
gw
lo
pinter
ilmu
filsafat
elu
yg
= 2
= 1
= 1
= 1
= 1
= 1
= 2
= 1
rajin
belajar
asing
kamus
makan
daging
anjing
= 1
= 1
= 1
= 1
= 1
= 1
= 1
Gambar 3.20 TF tweet flaming
Gambar 3.14 adalah contoh proses perhitungan term frequency
pada tweet flaming. Terdapat dua kata yang muncul dua kali dalam tweet
ini yaitu kata βrokiβ dan kata βeluβ, sedangkan kata lainnya dalam tweet
ini hanya muncul satu kali.
b. Menghitung document frequency
Setelah menghitung term frequency, langkah selanjutnya adalah
menghitung document frequency. Document frequency adalah banyak
dokumen yang mengandung kata kunci.
Berikut adalah contoh tabel menghitung document frequency :
Tabel 3.1 document frequency kata d1 d2 D df
lowong 1 0 2 1
kerja 1 0 2 1
libur 2 0 2 1
lebaran 1 0 2 1
job 1 0 2 1
desknya 1 0 2 1
ngurus 1 0 2 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
37
anjing 1 1 2 2
daerah 1 0 2 1
serpong 1 0 2 1
yg 1 1 2 2
ya 2 0 2 1
minat 1 0 2 1
gak 1 0 2 1
mayan 1 0 2 1
nambah 1 0 2 1
uang 1 0 2 1
jajan 1 0 2 1
roki 0 2 2 1
gw 0 1 2 1
lo 0 1 2 1
pinter 0 1 2 1
ilmu 0 1 2 1
filsafat 0 1 2 1
elu 0 2 2 1
rajin 0 1 2 1
belajar 0 1 2 1
asing 0 1 2 1
kamus 0 1 2 1
makan 0 1 2 1
daging 0 1 2 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
38
Tabel 3.1 merupakan contoh dari perhitungan document
frequency pada seluruh tweet atau dokumen. Pada tabel 3.1, kolom
pertama menampilkan seluruh kata yang terdapat pada seluruh
dokumen. Pada kolom kedua dan ketiga menunjukkan kemunculan
kata pada dokumen d1 dan dokumen d2. Simbol D pada kolom ketiga
merupakan total seluruh dokumen yaitu 2 (d1 dan d2). Kemudian df
adalah dokumen frekuensi yaitu jumlah dokumen yang mengandung
kata ke-t.
Sebagai contoh berdasarkan tabel 3.1, kata βlowongβ muncul 1
kali yang terdapat pada dokumen d1 dan tidak terdapat pada dokumen
d2. Maka nilai pada kolom d1 bernilai 1 dan nilai pada kolom d2
bernilai 0. Sehingga nilai dari df-nya adalah 1 dikarenakan kata
βlowongβ hanya muncul pada 1 dokumen saja. Kata βliburβ bernilai 2
karena kata tersebut muncul 2 kali dan nilai dari df-nya tetap bernilai 1
karena kata βliburβ hanya muncul dalam 1 dokumen saja yaitu di d1.
Sedangkan kata βanjingβ muncul disetiap dokumen maka nilai df-nya
adalah 2.
c. Menghitung inverse document frequency
Fungsi dari menghitung inverse document frequency adalah
untuk mengurangi frekuensi kata yang terlalu tinggi, karena
kemunculan kata yang terlalu sering dapat membuatnya menjadi kata
yang tidak penting nilainya.
Tabel 3.2 inverse document frequency kata d1 d2 D df D/df IDF
lowong 1 0 2 1 2 0,30103
kerja 1 0 2 1 2 0,30103
libur 2 0 2 1 2 0,30103
lebaran 1 0 2 1 2 0,30103
job 1 0 2 1 2 0,30103
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
39
desknya 1 0 2 1 2 0,30103
ngurus 1 0 2 1 2 0,30103
anjing 1 1 2 2 0 0
daerah 1 0 2 1 2 0,30103
serpong 1 0 2 1 2 0,30103
yg 1 1 2 2 0 0
ya 2 0 2 1 2 0,30103
minat 1 0 2 1 2 0,30103
gak 1 0 2 1 2 0,30103
mayan 1 0 2 1 2 0,30103
nambah 1 0 2 1 2 0,30103
uang 1 0 2 1 2 0,30103
jajan 1 0 2 1 2 0,30103
roki 0 2 2 1 2 0,30103
gw 0 1 2 1 2 0,30103
lo 0 1 2 1 2 0,30103
pinter 0 1 2 1 2 0,30103
ilmu 0 1 2 1 2 0,30103
filsafat 0 1 2 1 2 0,30103
elu 0 2 2 1 2 0,30103
rajin 0 1 2 1 2 0,30103
belajar 0 1 2 1 2 0,30103
asing 0 1 2 1 2 0,30103
kamus 0 1 2 1 2 0,30103
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
40
makan 0 1 2 1 2 0,30103
daging 0 1 2 1 2 0,30103
Tabel 3.2 merupakan contoh dari perhitungan inverse document
frequency pada seluruh tweet atau dokumen.
d. Menghitung bobot
Setelah menghitung TF dan IDF, maka langkah selanjutnya
adalah menghitung bobot setiap kata. Nilai bobot didapat dari perkalian
term frequency dengan inverse document frequency.
Berikut adalah contoh dengan tabel perhitungan bobot kata pada tweet
netral:
Tabel 3.3 perhitungan bobot tweet netral kata tf IDF W
lowong 1 0,30103 0,30103
kerja 1 0,30103 0,30103
libur 2 0,30103 0,60206
lebaran 1 0,30103 0,30103
job 1 0,30103 0,30103
desknya 1 0,30103 0,30103
ngurus 1 0,30103 0,30103
anjing 1 0 0
daerah 1 0,30103 0,30103
serpong 1 0,30103 0,30103
yg 1 0 0
ya 1 0,30103 0,30103
minat 1 0,30103 0,30103
gak 1 0,30103 0,30103
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
41
mayan 1 0,30103 0,30103
nambah 1 0,30103 0,30103
uang 1 0,30103 0,30103
jajan 1 0,30103 0,30103
Tabel 3.3 merupakan contoh perhitungan bobot per-kata pada
tweet netral.
Berikut adalah contoh dengan tabel perhitungan bobot pada pada tweet
flaming:
Tabel 3.4 perhitungan bobot tweet flaming
kata tf IDF W
roki 2 0,30103 0,60206
gw 1 0,30103 0,30103
lo 1 0,30103 0,30103
pinter 1 0,30103 0,30103
ilmu 1 0,30103 0,30103
filsafat 1 0,30103 0,30103
elu 2 0,30103 0,60206
yg 1 0 0
rajin 1 0,30103 0,30103
belajar 1 0,30103 0,30103
asing 1 0,30103 0,30103
kamus 1 0,30103 0,30103
makan 1 0,30103 0,30103
daging 1 0,30103 0,30103
anjing 1 0 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
42
Tabel 3.3 merupakan contoh perhitungan bobot per-kata pada
tweet flaming.
3.9 Leksikon
3.9.1 Sentimen Leksikon Indonesia
Metode rule based method dapat digunakan untuk
mengklasifikasi fitur dalam pendekatan semantik. Metode ini
memanfaatkan sentimen leksikon Indonesia sebagai kamusnya.
Kamus sentimen leksikon Indonesia adalah kamus yang berisi daftar
kata positif dan kata negatif. Setiap kata yang terdapat dikamus
positif maka kata tersebut memiliki polarity positif begitu pula
sebaliknya. Nilai polaritas kata tersebut dapat menjadi ciri fitur yang
dapat diimplementasikan dalam rule based method.
Gambar 3.21 Kamus positif
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
43
Gambar 3.22 Kamus negatif
3.9.2 Rule Based Method
Klasifikasi menggunakan metode rule base method dilakukan
dengan cara menjumlahkan dan membandingkan jumlah kata positif
dengan jumlah kata negatif dalam satu dokumen. Dalam penelitian
ini, penulis menggunakan dua label dimana kategori positif dan
netral menjadi satu kategori sebagai label netral sedangkan kategori
negatif diberi label sebagai flaming. Aturan yang dapat digunakan
adalah sebagai berikut :
Jika jumlah kata positif dalam dokumen lebih banyak dari kata
negatif, maka dokumen tersebut dikategorikan sebagai netral.
Jika jumlah kata negatif dalam dokumen lebih banyak dari kata
positif, maka dokumen tersebut dikategorikan sebagai flaming.
Jika jumlah kata positif dan jumlah kata negatif berjumlah
sama, maka dokumen tersebut dikategorikan sebagai netral.
Setelah proses Rule Based Method ini dijalankan, proses
selanjutnya adalah menghitung akurasinya dengan confusion matrix.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
44
3.10 Klasifikasi K-NN
Dalam K-NN setiap bobot kata dibandingkan untuk menghitung
kemiripan atau kedekatan antar dokumen. Dalam penerapannya, metode K-
NN harus memiliki label terlebih dahulu sebelum dapat mengklasifikasikan
data, oleh karena itu dibutuhkan data training untuk membentuk label
klasifikasi. Setelah memiliki label klasifikasi, metode K-NN bekerja
berdasarkan jarak terdekat antara data testing ke data training dengan
menentukan nilai dari variabel k-nya. Menghitung jarak antara data testing
ke data training dapat menggunakan metode euclidean distance.
3.11 Pengujian
K-fold cross validation merupakan salah metode yang dapat
mengevaluasi algoritma dan menguji data silang agar memperolah data
model mana yang terbaik. Dalam melakukan validasi, data dibagi sejumlah
k, dan data ke-kn digunakan untuk data testing dan sisa data lainnya
digunakan sebagai data training. Dalam penelitian ini menggunakan 100
data dan menggunakan 10 model data, maka pengujian dilakukan sebanyak
10 kali dan 100 data dibagi menjadi 10. Dengan 10 model data maka
pembagian data pada setiap modelnya adalah sebagai berikut :
Tabel 3.5 pembagian model data Model Data
1 1-10
2 11-20
3 21-30
4 31-40
5 41-50
6 51-60
7 61-70
8 71-80
9 81-90
10 91-100
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
45
3.12 Confusion Matrix
Pengukuran akurasi dalam penelitian ini menggunakan confusion
matrix. Perhitungan yang dilakukan adalah dengan menjumlahkan total
hasil tweet yang benar diklasifikasi oleh sistem lalu dibagi dengan jumlah
total keseluruhan data atau tweet lalu kemudian dikali dengan 100. Berikut
contoh perhitungan akurasi menggunakan confusion matrix :
Tabel 3.6 contoh perbandingan klasifikasi untuk menguji akurasi
Dokumen Klasifikasi Sistem Klasifikasi Pakar
Tweet 1 Negatif Negatif
Tweet 2 Negatif Negatif
Tweet 3 Positif Negatif
Tweet 4 Negatif Negatif
Tweet 5 Positif Negatif
Tweet 6 Positif Positif
Tweet 7 Positif Positif
Tweet 8 Positif Positif
Tweet 9 Negatif Positif
Tweet 10 Positif Positif
Pada tabel 3.6 merupakan contoh hasil dari klasifikasi sistem,
dengan berdasarkan tabel 3.6 dapat digunakan untuk mengukur akurasi
dengan menggunakan rumus confusion matrix sebagai berikut :
πΆππππ’π πππ πππ‘πππ₯ =π½π’πππβ π¦πππ πππππ ππππππ ππππππ π
π½π’πππβ π‘ππ‘ππ π πππ’ππ’β πππ‘πβ 100% (3.1)
Dengan berdasarkan tabel perbandingan klasifikasi, dapat dilihat
jumlah tweet yang benar diklasifikasi sebanyak tujuh tweet yaitu pada tweet
1,2,4,6,7,8, dan 10 dari 10 tweet. Maka dengan menggunakan rumus
confusion matrix adalah sebagai berikut :
πΆππππ’π πππ πππ‘πππ₯ =7
10β 100%
= 70%
Gambar 3.23 Contoh hasil confusion matrix
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
46
BAB IV
HASIL DAN ANALISIS
4.1 Implementasi
Data diperoleh dari media sosial Twitter yang kemudian disimpan
dalam format .xls. Tweet dipilih secara acak berdasarkan keyword βanjingβ
sebanyak 100 tweet. Data sejumlah 100 ini kemudian diserahkan kepada
ahli/pakar bahasa untuk diklasifikasi secara manual terlebih dahulu. Berikut
adalah data yang akan diolah dalam penelitian ini.
Gambar 4.1 Kumpulan data yang akan diolah
Pengolahan awal terhadap data adalah pre-processing dimana
semua teks dirubah menjadi huruf kecil (case folding), setelah itu teks dalam
satu kalimat dipecah menjadi perkata dan menghapus semua tanda baca
(tokenizing). Teks yang telah dipecah kemudian dinormalisasi agar sesuai
dengan KBBI. Kemudian dilanjutkan dengan proses stemming untuk
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
47
mencari kata dasar dari setiap kata dan langkah terakhir adalah
menghilangkan kata yang dianggap tidak penting(stopword removal).
Setelah pre-processing, proses selanjutnya adalah ekstraksi ciri yang
berupa bobot dengan menggunakan algoritma TF-IDF. Fungsi pembobotan
adalah untuk menghitung bobot setiap kata dimana nilai bobot didapat
dengan menghitung kemunculan setiap kata lalu dikalikan dengan idf.
Setelah bobot kata didapatkan, bobot tersebut digunakan untuk
menghitung jarak kedekatan antara suatu tweet ke seluruh tweet
menggunakan euclidean distance. Seluruh hasil perhitungan jarak ke suatu
tweet disortir berdasarkan nilai dari K. Penentuan klasifikasi tweet
berdasarkan mayoritas tweet dari ranking nilai K tersebut.
Sedangkan dalam pengujian menggunakan rule based method
proses setelah pre-processing tidak dilakukan pembobotan kata. Setelah
pre-processing, proses yang dilakukan adalah klasifikasi menggunakan rule
based method berdasarkan kamus sentimen leksikon Indonesia. Terdapat
dua kamus didalam kamus sentiment leksikon Indonesia, yaitu kamus yang
berisikan kata-kata yang berpolaritas positif dan yang berpolaritas negatif.
Metode klasifikasi menggunakan rule based adalah menghitung jumlah
mayoritas polaritas kata yang terdapat dalam satu tweet. Jika suatu tweet
memiliki jumlah polaritas kata positif lebih banyak dari pada polaritas kata
negatif maka klasifikasi dari tweet tersebut adalah βnetralβ dan jika
sebaliknya maka akan diklasifikasikan sebagai βflamingβ namun jika
memiliki jumlah polaritas yang sama maka akan diklasifikasikan sebagai
βnetralβ.
Dalam pengujian akurasi, dua metode ini menggunakan pengujian
yang sama yaitu confusion matrix. Sistem akan menjumlahkan total tweet
yang benar diklasifikan atau diprediksi oleh sistem kemudian akan dibagi
dengan jumlah seluruh data lalu dikali dengan 100%. Akurasi sistem
dikatakan baik jika nilai akurasi yang didapat bernilai tinggi, sedangkan
akurasi sistem dikatakan kurang baik jika nilai akurasi yang didapat bernilai
rendah.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
48
4.1.1 Uji Perbandingan Hasil Akurasi K-NN dan Rule Based Method
Secara Manul dengan Hasil Akurasi K-NN dan Rule Based
Method Secara Sistem
4.1.1.1 Hasil Akurasi K-NN dan Rule Based Method Secara
Manual
Dalam pengujian secara manual, data yang digunakan
sebanyak 10 data dari 100 data. Proses hitung akurasi K-
Nearest Neighbor dan Rule Based Method secara manual ini
menggunakan Mircosoft Excel. Data yang diujikan dalam
proses manual adalah data yang telah di pre-processing.
Perhitungan akurasi manual K-NN menggunakan jumlah
tetangga terdekat sebanyak 1 dan menggunakan 5 fold. Hasil
dari perhitungan manual dapat dilihat pada bagian lampiran.
4.1.1.2 Hasil Akurasi K-NN dan Rule Based Method Secara
Sistem
Dalam pengujian menggunakan sistem, 10 data
digunakan dari 100 data tweet. File dengan format .xls adalah
input untuk sistem. Perhitungan akurasi sistem ini
menggunakan jumlah tetangga terdekat sebanyak 1 dan
menggunakan 5 fold untuk algoritma K-Nearest Neighbor.
Gambar 4.2 Akurasi uji sistem
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
49
4.1.1.3 Evaluasi Hasil Prediksi Secara Manual Dan
Menggunakan Sistem
Berikut salah satu gambar persamaan hasil antara
perhitungan manual dengan hasil dari program.
Gambar 4.3 Hasil perhitungan manual untuk data D5 dan D10
Gambar 4.3 adalah perhitungan manual untuk fold ke-
1 dengan jumlah tetangga sebanyak 1 pada data D5 dan D10.
Gambar 4.4 Hasil pengujian sistem pada D5
Gambar 4.4 menunjukkan urutan data yang memiliki
jarak terdekat dengan data D5, dari jarak yang paling dekat
hingga paling jauh. Pada gambar 4.4 menjelaskan jika K=1
maka tetangga terdekat dari D5 adalah D1, dan begitu
seterusnya. Hasil output dari program pada gambar 4.4 juga
menunjukkan hasil yang sama pada pengujian manual
digambar 4.3.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
50
Gambar 4.5 Hasil pengujian sistem pada D10
Pada gambar 4.5 juga menunjukkan hasil yang sama
pada perhitungan manual digambar 4.3. Dengan pengujian
menggunakan 5 fold, perhitungan manual sama dengan hasil
yang di output-kan oleh sistem. Dapat disimpulkan bahwa
sistem berjalan baik sesuai dengan yang diharapkan. Seluruh
hasil pengujian 5 fold dapat dilihat dilampiran.
4.1.2 Hasil Uji
Dalam penelitian ini data yang digunakan sebanyak 100 data
tweet dari Twitter. 3, 5, 7 dan 10 fold digunakan untuk mencari
akurasi tertinggi dalam algoritma K-Nearest Neighbor dan jumlah
tetangga terdekat yang digunakan dalam pengujian ini adalah 1, 3,
dan 5.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
51
Gambar 4.6 Hasil pengujian dengan 3 fold dan 1 tetangga
Dari gambar 4.6, hasil akurasi dari algoritma K-Nearest
Neighbor menghasilkan 61% dengan menggunakan 3 fold dan
menggunakan 1 tetangga terdekat. Sedangkan dengan pendekan
Leksikon menghasilkan akurasi 64 %.
Gambar 4.7 Grafik pengujian dengan 3 fold
Dari grafik pada gambar 4.7, dapat dilihat akurasi tertinggi
dalam pengujian 3 fold adalah 61% pada jumlah tetangga terdekat
sebanyak 1.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
52
Gambar 4.8 Grafik pengujian dengan 5 fold
Dari grafik pada gambar 4.8, dapat dilihat akurasi tertinggi
dalam pengujian 5 fold adalah 70% pada jumlah tetangga terdekat
sebanyak 1.
Gambar 4.9 Grafik pengujian dengan 7 fold
Dari grafik pada gambar 4.9, dapat dilihat akurasi tertinggi
dalam pengujian 7 fold adalah 72% pada jumlah tetangga terdekat
sebanyak 1.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
53
Gambar 4.10 Grafik pengujian dengan 10 fold
Dari grafik pada gambar 4.10, dapat dilihat akurasi tertinggi
dalam pengujian 10 fold adalah 73% pada jumlah tetangga terdekat
sebanyak 1.
4.1.3 Analisis
Hasil pengujian sistem menggunakan algoritma K-Nearest
Neighbor dengan K-Fold Cross Validation sebagai pembagian
model antara data training dan data testing dengan percobaan nilai
K-Fold 3, 5, 7, dan 10 dan dengan jumlah tetangga terdekat
sebanyak 1, 3, dan 5. Akurasi yang dihasilkan dengan 3 fold saat
diuji dengan K = 1 adalah 61%. Akurasi saat diuji dengan K = 3
adalah 57%. Akurasi saat diuji dengan K = 5 adalah sebesar 50%.
Pada pengujian 5 fold, saat diuji dengan K = 1 menghasilkan akurasi
sebesar 70%. Saat diuji dengan K = 3 menghasilkan akurasi 66%.
Pengujian dengan K = 5 menghasilkan akurasi 53%.
Pengujian dilanjutkan dengan menggunakan 7 fold. Hasil
akurasi dengan K = 1 adalah 72%. K = 3 menghasilkan akurasi 65%.
Kemudian pada K = 5 menghasilkan akurasi 54%. Pada pengujian
terakhir menggunakan 10 fold. Akurasi yang dihasilkan ketika diuji
dengan K = 1 adalah 73%. Kemudian diuji dengan K = 3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
54
menghasilkan akurasi 68%. Dilanjutkan dengan K = 5 menghasilkan
akurasi sebesar 54%.
Pengujian dengan pendekatan kamus Sentimen Leksikon
Indonesia menggunakan Rule Based Method menghasilkan akurasi
sebesar 64%.
Jumlah K-Fold dan tetangga terdekat dalam algoritma K-
Nearest Neighbor mempengaruhi nilai akurasi sistem. Semua
jumlah fold mendapatkan akurasi terbaiknya ketika K = 1. Akurasi
terbaik dengan K = 1 adalah dengan 10 fold dengan tinggat akurasi
73%. Semakin besar nilai K pada algoritma K-Nearest Neighbor
mengakibatkan akurasi algoritma berkurang.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
55
BAB V
PENUTUP
5.1 Kesimpulan
Berdasarkan hasil penelitian, penerapkan algoritma klasifikasi K-
Nearest Neighbor dan dibandingkan dengan Rule Based Method dengan
pendekatan kamus Leksikon terhadap tweet cyberbullying dalam bentuk
flaming pada media sosial Twitter dengan menggunakan 100 data, diperoleh
kesimpulan sebagai berikut :
1) Algoritma K-Nearest Neihbor dapat diterapkan dalam
mengklasifikasi cyberbullying dalam bentuk flaming
berdasarkan tweet yang mengandung kata βanjingβ.
2) Berdasarkan hasil pengujian, algoritma klasifikasi K-Nearest
Neighbor menggunakan 100 data didapatkan akurasi tertinggi
dengan metode 10 fold.
3) Akurasi tertinggi didapatkan ketika jumlah tetangga terdekat
berjumlah 1 dan ketika lebih dari 1 maka hasil klasifikasi KNN
akan mulai menurun.
4) Semakin besar nilai fold, semakin besar pula akurasinya, tetapi
semakin banyak tetangga terdekat semakin kecil akurasi yang
diperoleh.
5) Pendekatan kamus Sentimen Leksikon Indonesia dengan
menggunakan Rule Base Method dapat diterapkan untuk
mengklasifikasi cyberbullying dalam bentuk flaming
berdasarkan tweet yang mengandung kata βanjingβ.
6) Berdasarkan hasil pengujian, akurasi terbaik yang dihasilkan
menggunakan pendekatan kamus Leksikon dengan Rule Based
Method adalah sebesar 64%.
7) Berdasarkan hasil pengujian akurasi, disimpulkan bahwa
akurasi algoritma K-Nearest Neighbor lebih baik
dibandingkan dengan pendekatan kamus Sentimen Leksikon
Indonesia menggunakan Rule Based Method.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
56
5.2 Saran
Saran untuk mengembangkan sistem :
1) Lakukan penelitian selanjutnya dengan menambahkan kamus kata
slang.
2) Manfaatkan Twitter API untuk memperoleh data dari Twitter.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
57
DAFTAR PUSTAKA
Agusta, L. 2009. Perbandingan Algoritma Stemming Porter dengan Algoritma
Nazief & Adriani untuk Stemming Dokumen Teks Bahasa Indonesia.
Konferensi Nasional Sistem dan Informatika, (hal 196-201). Bali.
Delima, Rosa dan Antonius Rachmat. 2014. Implementasi Metode K-Nearest
Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita.
Universitas Kristen Duta Wacana.
Harjanta, Aris Tri Jaka. 2015. Preprocessing Text Untuk Meminimalisir Kata yang
Tidak Berarti dalam Proses Text Mining. Universitas PGRI Semarang.
Hariani dan Imam Riadi. Detection Of Cyberbullying On Social Media Using Data
Mining Techniques. International Journal of Computer Science and
Information Security (IJCSS). Vol. 15, No.3, March 207.
Jiawei, H., Kamber, M. & Pei, J., 2012. Data Mining: Concepts and Techniques
Third Edition. MA: Morgan Kaufmann.
Kohavi, R. 1995. A Study of Cross Validation and Bootstrap for Accuracy
Estimation and Model Selection. Lecture Note in Computer Science 6440,
114-124.
Lailiyah, Masfulatul. 2017. Sentiment Analysis Menggunakan Rule Based Method
Pada Data Pengaduan Publik Berbasis Lexical Resources. Institut
Teknologi Sepuluh Nopember Surabaya.
Librian, Andy dan R. Kukuh. (2014). JSastrawi. Diakses dari
https://github.com/sastrawi. Diakses pada 12 Maret 2019.
Liu, B., 2012. Sentiment Analysis and Opinion Mining. In: Chicago: Morgan &
Claypool Publisher.
Luqyana, Wanda Athira; Imam Cholissodin dan Rizal Setya Perdana. Analisis
Sentimen Cyberbullying Pada Komentar Instagram Dengan Metode
Klasifikasi Support Vector Machine. Junal Pengembangan Teknologi
Infomasi dan Ilmu Komputer. Vol. 2, No. 11, Desember 2018, hlm. 4704-
4713.
Luthfi, Anshori; Rekyan Regasari Mardi Putri dan Tibyani. Implementasi Metode
K-Nearest Neighbor Untuk Rekomendasi Keminatan Sutdi (Studi Kasus :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
58
Jurusan Teknik Informatika Universitas Brawijaya). Jurnal Pengembangan
Teknologi Informasi dan Ilmu Komputer. Vol. 2, No. 7, Juli 2018, hlm.
2745-2753.
Maarif, Abdul Aziz. 2015. Penerapan Algoritma TF-IDF Untuk Pencarian Karya
Ilmiah. Universitas Dian Nuswantoro.
Miah, M. 2009. Improved k-nn Algorithm for Text Classification Journal
Department of Science and Engineering. University of Texas.
Nugroho, Gregorius Agung Purwanto. 2016. Analisis Sentimen Data Twitter
Menggunakan K-Means Clustering. Universitas Sanata Dharma
Yogyakarta.
Nugroho, Moh Aziz dan Heru Agus Santoso. 2016. Klasifikasi Dokumen Komentar
Pada Situs Youtube Menggunakan Algoritma K-Nearest Neighbor (K-NN).
Universitas Dian Nuswantoro.
Pandie, Emerensye S. Y. Pandie. 2012. Sistem Informasi Pengambilan Keputusan
Pengajuan Kredit Dengan Algoritma K-Nearest Neighbour (Studi Kasus
Koperasi Simpan Pinjam). Universitas Diponogoro Semarang.
Pandie, Mira Marleni dan Ivan Th. J. Weismann. 2016. Pengaruh Cyberbullying Di
Media Sosial Terhadap Perilaku Reaktif Sebagai Pelaku Maupun Sebagai
Korban Cyberbullying Pada Sisw Kristen SMP Nasional Makassar.
Sekolah Tinggi Filsafat Jaffray Makassar.
Purwanti, Endah. 2015. Klasifikasi Dokumen Temu Kembali Informasi dengan K-
Nearest Neighbour. e-ISSN 2442-5168. 1(2), 129-138.
Rahman, M.Fadly; M.Ilham Darmawidjadja dan Dion Alamsah. Klasifikasi Untuk
Diagnosis Diabetes Menggunakan Metode Bayesian Regularization Neural
Network (RBNN). Jurnal Informatika. Vol.11 No.1, Januari 2017.
Rachmat, Antonius dan Yuan Lukito. Klasifikasi Sentimen Komentar Politik dari
Facebook Page Menggunakan Naive Bayes. JUISI, Vol. 02, No. 02.
Agustus 2016.
Rosdiansyah, Defri dan Surya Agustian. 2014. Analisis Sentimen Twitter
Menggunakan Metode K-Nearest Neighbor Dan Pendekatan Lexicon. UIN
SUSKA Riau.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
59
Satalina, Dina. Kecenderungan Perilaku Cyberbullying Ditinjau Dari Tipe
Kepribadian Ekstrovert Dan Introvert. ISSN: 2301-8267. Vol.02, No.02,
Januari 2014.
Tan, P.-N., Steinbach, M., & Kumar, V. 2006. Introduction To Data Mining.
Boston: Pearson Addison Wesley.
Utomo, M. S. Implementasi Stemmer Tala pada Aplikasi Berbasis Web. Jurnal
Teknologi Informasi DINAMIK Volume 18, No.1, Januari 2013 : 41-45.
Willard, N. 2005. Cyberbullying and cyberthreats. Washington: U.S. Department
of Education.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
60
LAMPIRAN
Lampiran 1. Hitung Manual K-Nearest Neighbor dan Rule Based Method Leksikon
1. Hitung TF IDF
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
61
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
62
2. Hitung Euclidean Distance D5 dan D10
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
63
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
64
2.1. Confusion matrix 1 Fold
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
65
2.2. Output program 1 fold untuk D5
2.3. Output program 1 fold untuk D10
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
66
3. Hitung Euclidean Distance D4 dan D9
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
67
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
68
3.1. Confusion matrix 2 Fold
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
69
3.2. Output program 2 fold untuk D4
3.3. Output program 2 fold untuk D9
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
70
4. Hitung Euclidean Distance D3 dan D8
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
71
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
72
4.1. Confusion Matrix 3 Fold
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
73
4.2. Output program 3 fold untuk D3
4.3. Output program 3 fold untuk D8
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
74
5. Hitung Euclidean Distance D2 dan D7
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
75
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
76
5.1. Confusion Matrix 4 fold
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
77
5.2. Output program 4 fold untuk D2
5.3. Output program 4 fold untuk D7
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
78
6. Hitung Euclidean Distance D1 dan D6
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
79
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
80
6.1. Confusion Matrix 5 fold
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
81
6.2. Output program 5 fold untuk D1
6.3. Output program 5 fold untuk D5
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
82
7. Menghitung Akurasi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
83
8. Hitung Manual Rule Based Method Leksikon
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
84
Lampiran 2. Dataset
1. Surat Keterangan Triangulasi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
85
2. Dataset
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
86
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
87
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
88
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
89
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
90
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
91
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
92
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
93
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
94
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
95
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
96
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
97
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI