deteksi spammer di twitter dengan mempelajari … filedeteksi spammer di twitter ... v kata...

14
perpustakaan.uns.ac.id digilib.uns.ac.id commit to user DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI TWEET-BASED FEATURES SKRIPSI Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu Jurusan Informatika disusun oleh: YULIA WARDHANI M0508012 JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA 2012

Upload: ledan

Post on 25-Apr-2019

227 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI … fileDETEKSI SPAMMER DI TWITTER ... v KATA PENGANTAR ... membimbing dan memberikan ide maupun koreksi pada penulis sehingga

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

DETEKSI SPAMMER DI TWITTER

DENGAN MEMPELAJARI TWEET-BASED FEATURES

SKRIPSI

Diajukan untuk memenuhi sebagian persyaratan mendapatkan

gelar Strata Satu

Jurusan Informatika

disusun oleh:

YULIA WARDHANI

M0508012

JURUSAN INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

SURAKARTA

2012

Page 2: DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI … fileDETEKSI SPAMMER DI TWITTER ... v KATA PENGANTAR ... membimbing dan memberikan ide maupun koreksi pada penulis sehingga

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

ii

Page 3: DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI … fileDETEKSI SPAMMER DI TWITTER ... v KATA PENGANTAR ... membimbing dan memberikan ide maupun koreksi pada penulis sehingga

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

iii

MOTTO

”If you have God on your side, everything becomes clear.”

(Ayrton Senna )

“True heroism is minutes, hours, weeks, year upon year of the quiet, precise, judicious

exercise of probity and care—with no one there to see or cheer. This is the world.”

(David Foster Wallace, The Pale King)

“Mengalah bukan berarti kalah, hanya orang-orang besarlah yang berani mengalah untuk

mencapai kemenangan yang hakiki.”

(Ali Bin Abi Thalib)

Page 4: DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI … fileDETEKSI SPAMMER DI TWITTER ... v KATA PENGANTAR ... membimbing dan memberikan ide maupun koreksi pada penulis sehingga

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

iv

PERSEMBAHAN

Untuk Ibu, Bapak,dan Kakak-kakakku...

Page 5: DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI … fileDETEKSI SPAMMER DI TWITTER ... v KATA PENGANTAR ... membimbing dan memberikan ide maupun koreksi pada penulis sehingga

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

v

KATA PENGANTAR

Puji syukur penulis ucapkan pada Allah SWT, yang telah membimbing dan

menemani penulis hingga dapat menyelesaikan skripsi yang berjudul ”Deteksi

Spammer di Twitter dengan mempelajari Tweet-Based Features” yang disusun

sebagai persyaratan mendapatkan gelar Starata Satu jurusan Informatika Universitas

Sebelas Maret.

Penyusunan skripsi ini juga tak lepas dari bimbingan dan bantuan yang tidak ada

habisnya dari segenap pihak. Untuk itu perkenankan penulis mengucapkan

terimakasih yang sebesar-besarnya kepada:

1. Bapak dan Ibu di rumah, atas dukungan, doa restu, dan kepercayaan yang telah

diberikan selama ini,

2. Ibu Dewi Wisnu Wardani, S. Kom, M. S, selaku dosen pembimbing I yang

selalu mengarahkan penulis ke arah yang benar dan selalu menimbulkan sikap

optimis pada penulis akan selesainya skripsi ini,

3. Bapak Didiek S. Wiyono, S. T, M. T, selaku dosen pembimbing II yang selalu

membimbing dan memberikan ide maupun koreksi pada penulis sehingga

mampu mewujudkan skripsi ini,

4. Ibu Sari Widya Sihwi, S. Kom, M. TI, selaku penguji I dan Bapak Meiyanto

Eko Sulistyo, S. T, M. Eng, selaku penguji II yang telah meluangkan waktunya

dan memberikan saran untuk perbaikan skripsi ini,

5. Ibu Umi Salamah, S. Si, M. Kom, selaku pembimbing akademik, yang selalu

memberikan dorongan semangat dan bimbingannya.

6. Kakak-kakakku, @playgroundpilot khususnya, untuk doa, dorongan, bantuan

yang tiada henti.

7. Teman-teman, @ndrer atas mottonya, @christinethuel, @rikybagoes,

@agathariyadi, @ifantraadindo, bintang7, tbcfamily, dan teman-teman

informatika UNS atas dukungan tiada henti.

Page 6: DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI … fileDETEKSI SPAMMER DI TWITTER ... v KATA PENGANTAR ... membimbing dan memberikan ide maupun koreksi pada penulis sehingga

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

vi

8. Semua pihak yang turut terlibat baik secara langsung maupun tidak langsung

dalam penulisan skripsi ini yang tidak dapat disebutkan satu persatu,

terimakasih banyak atas semua bantuannya.

Semoga Allah SWT membalas budi baik semua pihak yang telah membantu dalam

penulisan skripsi ini, Amin ya robbal ’alamin. Penulis menyadari bahwa kemampuan

dan pengalaman penulis masih sangat terbatas. Akan tetapi penulis berharap skripsi ini

dapat bermanfaat bagi semua pihak.

Penulis

Page 7: DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI … fileDETEKSI SPAMMER DI TWITTER ... v KATA PENGANTAR ... membimbing dan memberikan ide maupun koreksi pada penulis sehingga

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

vii

DETEKSI SPAMMER DI TWITTER

DENGAN MEMPELAJARI TWEET-BASED FEATURES

Yulia Wardhani

Jurusan Informatika. Fakultas Matematika dan Ilmu Pengetahuan Alam.

Universitas Sebelas Maret

ABSTRAK

Spam merupakan penyalahgunaan dalam pengiriman berita dari jaringan

komunikasi dan memiliki berbagai bentuk dan definisi yang berbeda tergantung pada

jenis jaringannya. Dengan jutaan pengguna di seluruh dunia, Twitter menyediakan

berbagai berita dan peristiwa yang terjadi. Namun, dengan adanya kemudahan dalam

penyebaran berita dan memungkinkan pengguna untuk membahas berita tersebut

dalam status mereka, layanan ini juga membuka peluang terbentuknya spam.

Pada penelitian ini dilakukan deteksi spammer untuk mengklasifikasikan akun ke

dalam spammer atau nonspammer dengan mempelajari tweet-based features (jumlah

follower, following, URL, @mention dan #hashtag).

Hasil penelitian menunjukkan bahwa algoritma yang dibangun mempunyai

kesalahan (error) lebih sedikit dibanding dengan algoritma pembandingnya (algoritma

C5.0), yaitu sebesar 11% untuk dataset 1, 14% untuk dataset 2, dan 6,3% untuk

dataset 3. Ketelitian mengklasifikasikan sebesar 87,8% untuk dataset 1, 82,35% untuk

dataset 2, dan 92,10% untuk dataset 3. Keakurasian sebesar 89% untuk dataset 1, 86%

untuk dataset 2, dan 93,67% untuk dataset 3.

Kata Kunci: Algoritma C5.0, Deteksi Spammer, Tweet-based Features, Twitter.

Page 8: DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI … fileDETEKSI SPAMMER DI TWITTER ... v KATA PENGANTAR ... membimbing dan memberikan ide maupun koreksi pada penulis sehingga

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

viii

DETECTING SPAMMERS ON TWITER

BY IDENTIFYING TWEET-BASED FEATURES

Yulia Wardhani

Department of Informatics. Mathematic and Science Faculty.

Sebelas Maret University

ABSTRACT

Spam is the abuse in the delivery of news and communication networks. It has

different shapes and different definitions depending on the type of network. With

millions of users worldwide, Twitter provides a variety of news and events. However,

with the ease of dissemination of news, and allow users to discuss the stories in their

status, these services also open opportunities for another kind of spam.

In this study, spammer detection algorithm is applied to classify accounts into a

spammer or non spammer by identifying tweet-based features (number of followers,

followings, URLs, @mentions and #hashtags).

The results showed that the algorithm has constructed an error 11% (dataset 1),

14% (dataset 2), 6,3% (dataset 3) is less than the comparison algorithm (C5.0

algorithm), achieve 87.8% precision (dataset 1), 82,35% precision (dataset 2),

92,10% precision (dataset 3) and 89% accuracy (dataset 1), 86% accuracy (dataset 2),

93,67% accuracy (dataset 3).

Keywords: C.50 Algorithm, Spammer Detection, Tweet-based Features, Twitter.

Page 9: DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI … fileDETEKSI SPAMMER DI TWITTER ... v KATA PENGANTAR ... membimbing dan memberikan ide maupun koreksi pada penulis sehingga

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

ix

DAFTAR ISI

Halaman

HALAMAN JUDUL .............................................................................................. i

HALAMAN PENGESAHAN ................................................................................ ii

HALAMAN MOTTO ............................................................................................ iii

HALAMAN PERSEMBAHAN ............................................................................. iv

KATA PENGANTAR ........................................................................................... v

ABSTRAK ............................................................................................................. vii

ABSTRACT ........................................................................................................... viii

DAFTAR ISI .......................................................................................................... ix

DAFTAR GAMBAR ............................................................................................. xi

DAFTAR TABEL .................................................................................................. xii

DAFTAR LAMPIRAN .......................................................................................... xiii

BAB I PENDAHULUAN .................................................................................. 1

1.1 Latar Belakang Masalah........................................................ 1

1.2 Perumusan Masalah............................................................... 2

1.3 Batasan Masalah................................................................... 2

1.4 Tujuan dan Manfaat Penelitian............................................. 3

1.4.1 Tujuan Penelitian....................................................... 3

1.4.2 Manfaat Penelitian..................................................... 3

1.5 Sistematika Penulisan............................................................ 3

BAB II LANDASAN TEORI.............................................................................. . 5

2.1 Dasar Teori................................................................................ 5

2.1.1. Microbloging.................................................................. 5

2.1.1.1 Twitter................................................................ 5

2.1.1.2 Twitter API......................................................... 6

2.1.2 Spam............................................................................... 6

2.1.2.1 Spam di Twitter .................................................. 7

2.1.3. Metode Pendeteksian Spammer di Twitter..................... 8

2.1.3.1 Web Crawler....................................................... 8

2.1.3.2 Pemilihan Fitur untuk Pendeteksian Spammer... 9

2.1.3.3 Decision Tree .................................................... 10

Page 10: DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI … fileDETEKSI SPAMMER DI TWITTER ... v KATA PENGANTAR ... membimbing dan memberikan ide maupun koreksi pada penulis sehingga

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

x

2.1.3.3.1 Algoritma C5.0 ................................. 10

2.1.4. Evaluasi…..................................................................... 11

2.2 Penelitian Terkait……............................................................. 12

2.2.1. Detecting Spammers on Twitter ................................... 12

2.2.2. Mutually Reinforcing Spam Detection on Twitter

and Web……………………………………………….. 13

2.2.3. Detecting Spam Bots in Online Social Networking

Sites: A Machine Learning Approach ........................... 14

2.3 Rencana Penelitian …….......................................................... 15

BAB III METODE PENELITIAN ....................................................................... 16

3.1 Kerangka Pemikiran…............................................................. 16

3.1.1 Studi Pustaka............................................................ 16

3.1.2 Perancangan Web Crawler........................................ 16

3.1.3 Pengumpulan Data.................................................... 17

3.1.4 Eksperimen…............................................................ 17

3.1.5 Evaluasi..................................................................... 19

BAB IV HASIL DAN PEMBAHASAN. ............................................................. 20

4.1 Perancangan Web Crawler........................................……........ 20

4.2 Pengumpulan Data…………………………………..……...... 24

4.3 Eksperimen…………………………………………...……..... 25

4.3.1 Anotasi Data…….......................................................... 25

4.3.2 Proses Pendeteksian....................................................... 26

4.3.2.1 Algoritma Pendeteksian Spammer……………. 26

4.3.2.2 Algoritma C5.0……………………………….. 28

4.3.2.2.1 Features Importance Analysis…….…. 28

4.4 Evaluasi….…………………………………………...……..... 32

BAB V KESIMPULAN DAN SARAN .............................................................. 35

5.1 Kesimpulan……...................................................................... 35

5.2 Saran……................................................................................ 35

DAFTAR PUSTAKA ............................................................................................ 37

LAMPIRAN ........................................................................................................... 39

Page 11: DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI … fileDETEKSI SPAMMER DI TWITTER ... v KATA PENGANTAR ... membimbing dan memberikan ide maupun koreksi pada penulis sehingga

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

xi

DAFTAR GAMBAR

Halaman

Gambar 2.1 Klasifikasi sebagai pemetaan sebuah atribut input x

ke dalam label kelas ........................................................................ 10

Gambar 2.2 Confusion Matrix ................................................................................ 12

Gambar 2.3 Twitter Graph.. ................................................................................... 14

Gambar 3.1 Kerangka Pemikiran Penelitian .......................................................... 16

Gambar 3.2 Gambaran umum sistem deteksi spam di Twitter .............................. 17

Gambar 4.1 Interface aplikasi web-based untuk labeling data ....................... 26

Gambar 4.2 Grafik distribusi berdasar ishashtag .............................................. 27

Gambar 4.3 Grafik distribusi berdasar ismention ............................................. 27

Gambar 4.4 Grafik distribusi berdasar URL ...................................................... 28

Gambar 4.5 Grafik distribusi berdasar friend .................................................... 28

Gambar 4.6 Hasil Klasifikasi dengan algoritma C5 menggunakan

weka classifier dalam bentuk decision tree ................................. 31

Page 12: DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI … fileDETEKSI SPAMMER DI TWITTER ... v KATA PENGANTAR ... membimbing dan memberikan ide maupun koreksi pada penulis sehingga

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

xii

DAFTAR TABEL

Halaman

Tabel 4.1 Keterangan atribut Friends, Isurl,

Ismention, Ishashtag .......................................................................... 25

Tabel 4.2 Contoh instances dengan atribut terpilih .......................................... 25

Tabel 4.3 Contoh data dengan kelas spammer dan nonspammer berdasar

atribut Ishashtag ................................................................................. 29

Tabel 4.4 Confusion Matrix: Deteksi spammer dengan menggunakan

algoritma pendeteksi spammer (Data testing 1, 100 records) ..... 32

Tabel 4.5 Confusion Matrix: Deteksi spammer dengan menggunakan

algoritma pendeteksi spammer (Data testing 2, 150 records)..... 32

Tabel 4.6 Confusion Matrix: Deteksi spammer dengan menggunakan

algoritma pendeteksi spammer (Data testing 3, 300 records) ..... 32

Tabel 4.7 Confusion Matrix: Deteksi spammer dengan menggunakan

algoritma C5.0 (Data testing 1, 100 records) ................................ 33

Tabel 4.8 Confusion Matrix: Deteksi spammer dengan menggunakan

algoritma C5.0 (Data testing 2, 150 records) .............................. 33

Tabel 4.9 Confusion Matrix: Deteksi spammer dengan menggunakan

algoritma C5.0 (Data testing 3, 300 records) ................................ 33

Tabel 4.10 Persentase hasil klasifikasi berdasarkan alat ukur evaluasi

confussion matrix ............................................................................... 34

Page 13: DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI … fileDETEKSI SPAMMER DI TWITTER ... v KATA PENGANTAR ... membimbing dan memberikan ide maupun koreksi pada penulis sehingga

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

xiii

DAFTAR LAMPIRAN

Halaman

Hasil Klasifikasi: Algoritma Pendeteksian Spammer (data testing 1)……. 38

Hasil Klasifikasi: Algoritma Pendeteksian Spammer (data testing 2).......... 40

Hasil Klasifikasi: Algoritma Pendeteksian Spammer (data testing 3).......... 44

Hasil Klasifikasi: Algoritma C5.0 (data testing 1) .......................................... 51

Hasil Klasifikasi: Algoritma C5.0 (data testing 2) .......................................... 54

Hasil Klasifikasi: Algoritma C5.0 (data testing 3) .......................................... 58

Page 14: DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI … fileDETEKSI SPAMMER DI TWITTER ... v KATA PENGANTAR ... membimbing dan memberikan ide maupun koreksi pada penulis sehingga

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user