analisis sentimen pada twitter menggunakan … · dari, menghitung matriks jarak antar data,...
TRANSCRIPT
i
ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN PENDEKATAN
AGGLOMERATIVE HIERARCHICAL CLUSTERING
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana
Komputer Program Studi Teknik Informatika
Oleh:
Yenni Tresnawati
135314018
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2017
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ii
SENTIMENT ANALYSIS OF TWITTER
USING AGGLOMERATIVE HIERARCHICAL CLUSTERING
A THESIS
Presented as Partial Fulfillment of Requirements to Obtain Sarjana Komputer
Degree in Informatics Engineering Department
By :
Yenni Tresnawati
135314018
INFORMATICS ENGINEERING STUDY PROGRAM
INFORMATICS ENGINEERING DEPARTMENT
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2017
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
iii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
iv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
v
HALAMAN PERSEMBAHAN
“Serahkaan segala kekhawatiran mu kepada-Nya, sebab Ia
yang memelihara kamu”
- 1 Petrus 5 : 7 -
“Dan segala sesuatu yang kamu lakukan dengan perkatan atau
perbuatan, lakukan semuanya itu dalam nama Tuhan Yesus,
sambil mengucap syukur oleh Dia kepada Allah, Bapa kita”
- Kolose 3:17 -
Skripsi ini saya persembahkan untuk :
Tuhan Yesus Kristus,
Bunda Maria,
Keluarga tercinta, dosen dan teman - teman terkasih,
Terima kasih sudah memberikan semangat, GBU!
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
vi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
vii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
viii
INTISARI
Twitter merupakan salah satu situs microblogging memungkinkan
penggunanya untuk menulis tentang berbagai opini, komentar, dan berita yang
membahas isu-isu yang tejadi pada saat ini. Banyak pengguna yang melakukan posting
pendapat mereka akan sebuah produk atau layanan yang mereka gunakan. Hal tersebut
dapat digunakan sebagai sumber data untuk menilai sentimen pada Twitter. Cara
pengelompokkan emosi secara otomatis dapat digunakan, salah satunya menggunakan
Agglomerative Hierarchical Clustering. Tujuan dari penelitian ini adalah membangun
sistem yang secara otomatis mampu mengelompokkan emosi setiap tweet, dan
mengetahui tingkat akurasi pengelompokkan.
Tahapan proses dimulai dari preprocessing, terdapat beberapa proses yaitu
tokenizing, stopword, stemming, pembobotan kata, serta normalisasi, selanjutnya dapat
diolah menggunakan Agglomerative Hierarchical Clustering. Proses clustering terdiri
dari, menghitung matriks jarak antar data, mencari jarak terdekat, menggabungkan
menjadi satu cluster, memperbaharui matriks hingga semua data menjadi satu cluster.
Setelah itu melakukan perhitungan akurasi menggunakan confusion matrix.
Selanjutnya untuk melihat kesesuaian sistem yang dibuat, maka dimasukkan data baru
yang diproses dengan sistem, lalu dapat menentukan data tergolong salah satu jenis
emosi.
Dari penelitian yang telah dilakukan, didapatkan total data tweet sebanyak 500
data serta jumlah cluster terbagi menjadi lima yaitu cinta, marah, sedih, senang, dan
takut. Hasil penelitian analisis sentimen pada twitter dapat berjalan dengan baik
dengan akurasi 81,6% untuk jumlah frekuensi kata unik maksimal 85 dan kata unik
minimal 2 dengan melakukan normalisasi menggunakan Z-Score, perhitungan jarak
menggunakan Cosine Similarity serta metode AHC Average Linkage.
Kata Kunci : Tweet, Agglomearive Hierarchical Clustering, Cluster, Cosine
similarity, Euclidean Distance, Z-Score, Min-Max, Confusion Matrix
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ix
ABSTRACT
Twitter is one of the site microblogging that allows users to write about
various opinion, comments, and news that discussing issues that are happening at this
time. Many users post their opinions on a product or service they use. It can be used as
a data source to assess sentiment on Twitter. Automatic grouping of emotions can be
used, one of them is using agglomerative hierarchical clustering. The purpose of this
research is to build a system that automatically able to group the emotions of every
tweet, and know the level of accuracy of grouping.
Stages of the process starts from preprocessing, there are several processes
that are tokenizing, stopword, stemming, word weighting, and normalization, then can
be processed using Agglomerative Hierarchical Clustering. The clustering process
consists of, calculating the distance matrix between data, finding the closest distance,
merging into one cluster, updating the matrix until all the data into one cluster.
After that perform the calculation of accuracy using confusion matrix. Next to see the
suitability of the system created, then inserted new data processed with the system, and
then can determine the data belong to one type of emotion.
From the research that has been done, got the total data tweet as much as 500
data and the number of cluster is divided into five clusters that is love, angry, sad,
happy, and afraid. The results of sentimental analysis on twitter can run well with an
accuracy of 81.6% for the maximum number of unique word of 85 and minimum
number of unique word of at least 2 by normalizing using Z-Score, Cosine Similarity
distance and AHC Average Linkage method.
Keyword : Tweet, Agglomearive Hierarchical Clustering, Cluster, Cosine similarity,
Euclidean Distance, Z-Score, Min-Max, Confusion Matrix
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
x
KATA PENGANTAR
Puji dan syukur penulis panjatkan kepada Tuhan Yesus Kristus atas berkat yang
diberikan dalam penyusunan Skripsi ini sehingga semuanya dapat berjalan dengan baik
dan lancar.
Skripsi ini merupakan salah satu syarat mahasiswa untuk mendapatkan gelar S-
1 pada Prodi Teknik Informatika, Fakultas Sains dan Teknologi, Universitas Sanata
Dharma Yogyakarta.
Berkat bimbingan dan dukungan dari berbagai pihak, Skripsi ini dapat
terselesaikan. Pada kesempatan ini dengan segenap kerendahan hati penulis
menyampaikan rasa terima kasih kepada :
1. Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D selaku Dekan Fakultas Sains dan
Teknologi Universitas Sanata Dharma Yogyakarta.
2. Dr. C. Kuntoro Adi, S.J., M.A.,M.Sc., selaku Dosen Pembimbing Skripsi, yang
dengan sabar memberi arahan, bimbingan, serta waktunya kepada penulis dalam
pembuatan Skripsi.
3. Heri Bertus S.Pd.,M.Si, Asna Nuraini,S.Ag, Millavenia Pusparini, Krisna Wahyu
Tri Anugrah selaku keluarga penulis yang senantiasa mendoakan, memberikan
motivasi dan pengorbanannya baik dari segi moril, materi kepada penulis sehingga
penulis dapat menyelesaikan Skripsi ini.
4. Ian Arisaputra yang selalu mendukung, memberikan semangat serta menjadi
pendengar setiap cerita suka-duka yang penulis rasakan dalam proses pembuatan
skripsi hingga dapat menyelesaikan skripsi ini.
5. Ronni, Ratri, Rusdy, Nindia, Bella, Kak Agung, Kak Dion, Kak Ary serta teman –
teman Teknik Informatika Universitas Sanata Dharma khususnya angkatan 2013
dan teman penulis yang tidak dapat disebutkan satu per satu yang telah mendukung
penulis dalam menyelesaikan Skripsi ini.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xii
DAFTAR ISI
ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN PENDEKATAN
AGGLOMERATIVE HIERARCHICAL CLUSTERING ............................................ i
SENTIMENT ANALYSIS OF TWITTER ................................................................... ii
USING AGGLOMERATIVE HIERARCHICAL CLUSTERING .............................. ii
HALAMAN PERSETUJUAN PEMBIMBING ......... Error! Bookmark not defined.
ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN PENDEKATAN
AGGLOMERATIVE HIERARCHICAL CLUSTERING ........ Error! Bookmark not
defined.
HALAMAN PENGESAHAN ...................................................................................... iii
ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN PENDEKATAN
AGGLOMERATIVE HIERARCHICAL CLUSTERING ........ Error! Bookmark not
defined.
HALAMAN PERSEMBAHAN .................................................................................. iv
PERNYATAAN KEASLIAN KARYA ..................... Error! Bookmark not defined.
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN AKADEMIS ................... Error! Bookmark not defined.
INTISARI ................................................................................................................... viii
ABSTRACT ................................................................................................................. ix
KATA PENGANTAR .................................................................................................. x
DAFTAR ISI ............................................................................................................... xii
DAFTAR TABEL ....................................................................................................... xv
DAFTAR GAMBAR ................................................................................................ xvii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiii
BAB I ............................................................................................................................ 1
PENDAHULUAN ........................................................................................................ 1
1.1 Latar Belakang ................................................................................................... 1
1.2 Rumusan Masalah .............................................................................................. 3
1.3 Tujuan Penelitian ............................................................................................... 3
1.4 Manfaat .............................................................................................................. 4
1.5 Luaran ................................................................................................................ 4
1.6 Batasan Masalah................................................................................................. 4
1.7 Sistematika Penulisan ........................................................................................ 4
BAB II ........................................................................................................................... 6
LANDASAN TEORI .................................................................................................... 6
2.1 Analisis Sentimen ........................................................................................... 6
2.2 Emosi .............................................................................................................. 7
2.3 Information Retrieval ..................................................................................... 9
2.4 Euclidean Distance ....................................................................................... 19
2.5 Cosine Similarity .......................................................................................... 19
2.6 Agglomerative Hierarchical Clustering ........................................................ 20
2.7 Confusion Matriks ........................................................................................ 32
BAB III ....................................................................................................................... 33
METODE PENELITIAN ............................................................................................ 33
3.1 Data .................................................................................................................. 33
3.2 Kebutuhan Sistem ............................................................................................ 35
3.3 Tahapan Penelitian ........................................................................................... 35
3.4 Desain Interface ............................................................................................... 37
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiv
3.5 Perancangan Struktur Data ............................................................................... 37
3.6 Skenario Sistem ................................................................................................ 38
3.6.1 Gambaran Umum Sistem ................................................................................. 38
3.7 Desain Pengujian .............................................................................................. 67
BAB IV ....................................................................................................................... 68
HASIL DAN ANALISIS HASIL ............................................................................... 68
4.1 Implementasi .................................................................................................... 68
4.2 Hasil & Analisis Hasil ...................................................................................... 79
4.3 User Interface ................................................................................................... 88
BAB V ......................................................................................................................... 89
PENUTUP ................................................................................................................... 89
5.1 Kesimpulan ...................................................................................................... 89
5.2 Saran ................................................................................................................. 90
LAMPIRAN ................................................................................................................ 94
1. Uji Validitas Sistem menggunakan 15 data ......................................................... 94
2. Tabel .................................................................................................................. 111
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xv
DAFTAR TABEL
Tabel 2. 1 Kosa Kata Emosi .......................................................................................... 8
Tabel 2. 2 Tabel awalan-akhiran ................................................................................. 12
Tabel 2. 3 Aturan peluruhan kata dasar ...................................................................... 13
Tabel 2. 4 Contoh Data ............................................................................................... 22
Tabel 2. 5 Similarity Matriks ...................................................................................... 22
Tabel 2. 6 Matriks Jarak .............................................................................................. 23
Tabel 2. 7 Matriks Jarak pertama Single Linkage....................................................... 23
Tabel 2. 8 Matriks Jarak kedua Single Linkage .......................................................... 24
Tabel 2. 9 Matriks jarak pertama Complete Linkage .................................................. 25
Tabel 2. 10 Matriks Jarak kedua Complete Linkage................................................... 26
Tabel 2. 11 Matriks Jarak pertama Average Linkage ................................................. 27
Tabel 2. 12 Matriks Jarak kedua Average Linkage..................................................... 27
Tabel 2. 13 Tabel Confusion Matriks ......................................................................... 32
Tabel 3. 1 Tabel menghitung df .................................................................................. 47
Tabel 3. 2 idf ............................................................................................................... 48
Tabel 3. 3 Hitung Wij Tweet Cinta ............................................................................. 49
Tabel 3. 4 Hitung Wij Tweet Senang .......................................................................... 49
Tabel 3. 5 Hitung Wij Tweet Marah ........................................................................... 50
Tabel 3. 6 Hitung Wij Tweet Sedih ............................................................................ 50
Tabel 3. 7 Hitung Wij tweet takut ............................................................................... 51
Tabel 3. 8 Tabel contoh data belum mengalami proses penggabungan ...................... 51
Tabel 3. 9 Tabel contoh data setelah penggabungan................................................... 52
Tabel 3. 10 Tabel Contoh data pembobotan ............................................................... 52
Tabel 3. 11 Tabel Min-max ......................................................................................... 53
Tabel 3. 12 Tabel data hasil normalisasi min - max ................................................... 53
Tabel 3. 13 Tabel Rata - Rata...................................................................................... 55
Tabel 3. 14 Tabel Standar Deviasi .............................................................................. 55
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvi
Tabel 3. 15 Hasil Normalisasi Zscore ......................................................................... 56
Tabel 3. 16 Tabel hasil matriks jarak dari normalisasi min - max .............................. 57
Tabel 3. 17 Hasil matriks jarak normalisasi Z-Score .................................................. 59
Tabel 3. 18 Hasil max cluster 5 single linkage- Z-Score ............................................ 64
Tabel 3. 19 Hasil max cluster 5 complete linkage- Z-Score ....................................... 64
Tabel 3. 20 Hasil max cluster 5 average linkage- Z-Score ......................................... 64
Tabel 3. 21 Hasil max cluster 5 single linkage- Min - Max ........................................ 64
Tabel 3. 22 Hasil max cluster 5 complete linkage- Min - Max................................... 65
Tabel 3. 23 Hasil max cluster 5 average linkage- Min - Max ..................................... 65
Tabel 3. 24 Tabel perbandingan cluster hasil prediksi dan label aktual ..................... 66
Tabel 3. 25 Tabel Confusion matriks .......................................................................... 66
Tabel 4. 1 Tabel Percobaan tanpa normalisasi dengan batas atas = 85 dan batas bawah
=2 ......................................................................................................................... 80
Tabel 4. 2 Confusion matrix data tanpa normalisasi average linkage......................... 82
Tabel 4. 3 Tabel Percobaan normalisasi min - max dengan batas atas = 85 dan batas
bawah =2 .............................................................................................................. 82
Tabel 4. 4 Confusion matrix data normalisasi min – max average linkage ............... 84
Tabel 4. 5 Tabel Percobaan normalisasi z-score dengan batas atas = 85 dan batas bawah
=2 ......................................................................................................................... 85
Tabel 4. 6 Confusion matrix data normalisasi z-score average linkage ..................... 86
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvii
DAFTAR GAMBAR
Gambar 2. 1 Dendrogram ............................................................................................ 21
Gambar 2. 2 Dendrogram Single linkage .................................................................... 25
Gambar 2. 3 Dendrogram Complete Linkage ............................................................. 26
Gambar 2. 4 Dendrogram average linkage ................................................................. 28
Gambar 2. 5 Flowchart AHC ...................................................................................... 31
Gambar 3. 1 Tweet Cinta ............................................................................................ 33
Gambar 3. 2Tweet Senang .......................................................................................... 34
Gambar 3. 3 Tweet Marah .......................................................................................... 34
Gambar 3. 4 Tweet Takut............................................................................................ 34
Gambar 3. 5 Tweet Sedih ............................................................................................ 35
Gambar 3. 6 Desain Interface...................................................................................... 37
Gambar 3. 7 Block Diagram ....................................................................................... 38
Gambar 3. 8 Tokenizing tweet cinta ........................................................................... 40
Gambar 3. 9 Tokenizing tweet senang ........................................................................ 40
Gambar 3. 10 Tokenizing tweet marah ....................................................................... 40
Gambar 3. 11 Tokenizing tweet takut ......................................................................... 41
Gambar 3. 12 Tokenizing tweet sedih ........................................................................ 41
Gambar 3. 13 Stopword tweet cinta ........................................................................... 42
Gambar 3. 14 Stopword tweet senang........................................................................ 42
Gambar 3. 15 Stopword tweet marah ......................................................................... 42
Gambar 3. 16 Stopword tweet sedih ........................................................................... 43
Gambar 3. 17 Stopword tweet takut ............................................................................ 43
Gambar 3. 18 Stemming tweet cinta ........................................................................... 44
Gambar 3. 19 Stemming tweet senang ........................................................................ 44
Gambar 3. 20 Stemming tweet marah ......................................................................... 44
Gambar 3. 21 Stemming tweet sedih .......................................................................... 44
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xviii
Gambar 3. 22 Stemming tweet takut ........................................................................... 45
Gambar 3. 23 TF tweet cinta ....................................................................................... 45
Gambar 3. 24 TF tweet senang ................................................................................... 46
Gambar 3. 25 TF tweet marah..................................................................................... 46
Gambar 3. 26 TF tweet sedih ...................................................................................... 46
Gambar 3. 27 TF tweet takut....................................................................................... 47
Gambar 3. 28 Data min – max Single linkage ........................................................... 60
Gambar 3. 29 Data min – max Complete linkage ....................................................... 60
Gambar 3. 30 Data min – max average linkage .......................................................... 61
Gambar 3. 31 Source code AHC min –max ................................................................ 61
Gambar 3. 32 Data Z-Score Single linkage ................................................................ 62
Gambar 3. 33 Data Z-Score Complete linkage ........................................................... 62
Gambar 3. 34 Data Z-Score Average linkage ............................................................. 63
Gambar 3. 35 Source code AHC Z-Score ................................................................... 63
Gambar 4. 1 Kumpulan Data ...................................................................................... 68
Gambar 4. 2 Contoh Data............................................................................................ 69
Gambar 4. 3 Source code Tokenizing ......................................................................... 69
Gambar 4. 4 Source code Stopword ............................................................................ 70
Gambar 4. 5 Source code Stemming ........................................................................... 70
Gambar 4. 6 Kamus Kata Sinonim ............................................................................. 71
Gambar 4. 7 Source code Penanganan Sinonim ......................................................... 71
Gambar 4. 8 Source code Pembobotan ....................................................................... 72
Gambar 4. 9 Source code Normalisasi Min – Max ..................................................... 72
Gambar 4. 10 Source code Normalisasi Z-Score ........................................................ 73
Gambar 4. 11 Source code Hitung Jarak Euclidean .................................................... 73
Gambar 4. 12 Source code Hitung Jarak Cosine......................................................... 74
Gambar 4. 13 Source code AHC ................................................................................. 76
Gambar 4. 14 Gambar Output Hasil ........................................................................... 76
Gambar 4. 15 Source code Confusion Matrix ............. Error! Bookmark not defined.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xix
Gambar 4. 16 Hasil Implementasi Confusion Matrix ................................................. 77
Gambar 4. 17 Contoh Tweet Uji ................................................................................. 78
Gambar 4. 18 Hasil Tweet Uji .................................................................................... 78
Gambar 4. 19 Grafik percobaan tanpa normalisasi ..................................................... 80
Gambar 4. 20 Dendrogram data tanpa normalisasi average linkage ........................... 81
Gambar 4. 21 Grafik percobaan normalisasi min – max ............................................ 83
Gambar 4. 22 Dendrogram data normalisasi min – max average linkage ................. 84
Gambar 4. 23 Grafik percobaan normalisasi z-score .................................................. 85
Gambar 4. 24 Dendrogram data normalisasi z-score average linkage ........................ 86
Gambar 4. 25 Grafik percobaan menggunakan batas atas=85 dan batas bawah =2 ... 87
Gambar 4. 26 User Interface Sistem ........................................................................... 88
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Pada saat ini situs microblogging telah menjadi alat komunikasi yang sangat
populer di kalangan pengguna internet. Microblogging merupakan suatu layanan
media social yang memungkinkan pengguna mem-publish pesan pendek berupa
opini, komentar, berita dalam karakter terbatas (kurang dari 200 karakter). Contoh
layanan microblogging yaitu Twitter, Plurk, Jaiku, Posterous, Pownce, Kronologger,
Koprol, Moofmill, dan Tumblr.
Menurut data yang dirilis Twitter, pada tahun 2012 Indonesia menjadi negara
dengan pengguna Twitter terbesar kelima di dunia (Tempo,2012). Twitter
memungkinkan pengguna untuk berbagi pesan menggunakan teks pendek disebut
Tweet.
Twitter seringkali digunakan untuk mengungkapkan emosi mengenai sesuatu
hal, baik memuji ataupun mencela. Emosi dapat dikelompokkan menjadi emosi positif
dan emosi negatif. Emosi manusia dapat dikategorikan menjadi lima emosi dasar yaitu
cinta, senang, sedih, marah, dan takut. Emosi cinta dan senang merupakan emosi
positif. Emosi sedih, marah, dan takut merupakan emosi negatif (Shaver & Fraley ,
2001)
Analisa mengenai tweet emosi para pengguna twitter disebut sebagai analisa
opini atau sentimen (opinion analysis atau sentimen analysis). Analisis sentimen
dilakukan untuk melihat pendapat atau kecenderungan opini terhadap sebuah masalah
atau objek oleh seseorang, apakah cenderung beropini negatif atau positif. Dari hasil
survey terhadap lebih dari 2000 orang Amerika dewasa, diketahui 81% melakukan
penelitian terhadap suatu produk secara online setiap hari. Review terhadap rumah
makan, hotel, agen perjalanan wisata, dan dokter di internet dapat meningkatkan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
penjualan antara 73% sampai dengan 87%, pelanggan bersedia membayar lebih
sebesar 20% sampai 99% terhadap review di internet yang mendapatkan bintang 5
daripada bintang 4 (Pang & Lee,2008). Pengaruh dan manfaat dari sentimen
sedemikian besar sehingga penelitian ataupun aplikasi mengenai analisis sentimen
berkembang sangat pesat. Terdapat kurang lebih 20-30 perusahaan di Amerika yang
fokus pada layanan analisis sentiment (Liu, 2012). Faktor keuntungan tersebut
mendorong perlunya dilakukan penelitian analisis sentimen terhadap tweet berbahasa
Indonesia.
Dengan cara manual, analisa sentimen bisa saja dilakukan. Misalnya
memonitor berita-berita di media massa. Akan tetapi untuk data tweet, cara manual
tidak mungkin bisa dilakukan karena jumlah datanya yang sangat besar dan terus
mengalir. Disinilah peranan text mining, yang secara otomatis dapat mengolah kata.
Pada text mining terdapat beberapa proses yaitu tokenizing, stopword, stemming, dan
pembobotan kata (Liu, 2010). Setelah melakukan text mining, diperlukan normalisasi.
Setelah melakukan normalisasi, dilakukan penggolongan atau clustering pada setiap
tweet, salah satunya menggunakan metode Agglomeartive Hierarchical Clustering.
Contoh kasus yang telah diselesaikan menggunakan metode Agglomerative
Hierarchical Clustering adalah aplikasi automated text integration, dimana pada
penelitian ini menghasilkan cluster yang baik. Dari hasil survei terhadap 100 orang
responden, sebanyak 78% responden mengatakan bahwa integrasi dokumen yang
dihasilkan telah benar (Budhi,Rahardjo,Taufik, 2008). Sehingga dengan melakukan
penelitian menggunakan metode Agglomerative Hierarchical Clustering dapat
mengetahui tingkat akurasi serta efisien untuk menyelesaikan masalah clustering data
twitter berdasarkan emosi.
Penelitian mengenai analisis sentimen pernah dilakukan yaitu untuk
mengelompokkan dokumen bahasa Indonesia menggunakan pendekatan Support
Vector Machine. Pada penelitian ini data yang digunakan didapat dengan crawling
pada Twitter. Akurasi menggunakan Support Vector Machine sebesar 73.07% (Nur &
Santika , 2011).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3
Salah satu faktor yang mempengaruhi agar fitur klasifikasi memberikan hasil
yang maksimal adalah pada tahap preprocessing data tweet dilakukan filtering dengan
menghapus kata-kata yang tidak ada di KBBI dan dilakukan proses stemming,
sehingga hanya berupa kumpulan kata dasar (Nur & Santika, 2011).
Berdasarkan penelitian yang telah ada sebelumnya, penelitan ini mencoba
melakukan analisis sentimen dengan mengklasifikasi data twitter berbahasa
Indonesia. Data tersebut akan diproses dengan text mining untuk menghindari data
yang kurang sempurna kemudian mengelompokkan data tweet berdasarkan emosi ke
dalam lima cluster yaitu senang, takut, sedih, marah, cinta. Pengelompokkan ini
menggunakan algoritma Agglomerative Hierarchical Clustering.
1.2 Rumusan Masalah
Berdasarkan Latar Belakang yang telah dikemukakan diatas, maka
permasalahan yang akan dibahas dalam penelitian ini, yaitu :
1. Bagaimana pendekatan Agglomerative Hierarchical Clustering mampu
mengelompokkan emosi setiap tweet dengan baik ?
2. Berapakah tingkat akurasi analisis sentimen twitter menggunakan pendekatan
Agglomerative Hierarchical Clustering?
1.3 Tujuan Penelitian
Tujuan dari penelitian ini adalah membangun sistem yang secara otomatis
mampu mengelompokkan emosi setiap tweet menggunakan Agglomerative
Hierarchical Clustering dan mengetahui tingkat akurasi pengelompokkan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4
1.4 Manfaat
Manfaat yang diberikan pada penelitian ini, yaitu :
1. Dapat membantu menganalisis sentimen pada twitter dengan metode
Agglomerative Hierarchical Clustering.
2. Menjadi referensi bagi penelitian – penelitian berikutnya yang relevan dengan
kasus analisis sentimen twitter.
1.5 Luaran
Luaran yang diharapkan pada penelitian ini berupa suatu sistem yang secara
otomatis mampu mengelompokkan emosi setiap tweet.
1.6 Batasan Masalah
Pada pengerjaan penelitian ini diberikan batasan-batasan masalah untuk
permasalahan yang ada antara lain:
1. Tweet yang dianalisis sentimen hanya tweet berbahasa Indonesia.
2. Pengelompokkan tweet berdasarkan lima emosi yaitu cinta, marah, senang, sedih,
dan takut
3. Tweet yang digunakan hanya tweet yang berupa text, tidak mengandung gambar.
1.7 Sistematika Penulisan
Sistematika penulisan proposal tugas akhir ini dibagi menjadi beberapa bab
dengan susunan sebagai berikut:
BAB I : Pendahuluan
Berisi penjelasan mengenai masalah yang akan diteliti, berisi
latar belakang, rumusan masalah, tujuan penelitian,manfaat penelitian,
luaran, batasan masalah, dan sistematika penulisan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5
BAB II : Landasan Teori
Berisi mengenai penjelasan dan uraian teori-teori yang berkaitan
dengan topik analisis sentimen twitter, antara lain teori tentang analisis
sentimen, emosi, preprocessing teks( Information Retrieval ),
pembobotan kata, normalisasi min-max, normalisasi z-score, algoritma
Agglomerative Hierarchical Clustering, Cosine Similarity, Euclidean
Distance, dan Confusion Matriks
BAB III : Metodologi Penelitian
Berisi analisa dan design yang merupakan detail teknis sistem
yang akan dibangun.
BAB IV : Implementasi dan Analisis Hasil
Bab ini berisi implementasi dari perancangan yang telah dibuat
sebelumnya serta analisis dari hasil program yang telah dibuat
BAB V : Penutup
Bab ini berisi kesimpulan dari penelitian dan saraan – saran
untuk pengembangan penelitian lebih lanjut.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6
BAB II
LANDASAN TEORI
Bab ini berisi penjabaran teori-teori yang bersangkutan dengan penulisan Tugas
Akhir ini. Teori-teori tersebut mencakup Analisis Sentimen, Emosi, Information
Retrieval, Agglomerative Hierarchical Clustering, Euclidean Distance, dan Confusion
Matriks.
2.1 Analisis Sentimen
Analisis sentimen adalah bidang studi yang menganalisi pendapat, sentimen,
evaluasi, penilaian, sikap, dan emosi seseorang terhadap sebuah produk, organisasi,
individu, masalah, peristiwa atau topik (Liu, 2012). Analisis sentimen dilakukan untuk
melihat pendapat terhadap sebuah masalah, atau dapat juga digunakan untuk
identifikasi kecenderungan hal yang sedang menjadi topik pembicaran. Analisis
sentimen dalam penelitian ini adalah proses pengelompokkan tweet ke dalam lima
emosi yaitu emosi senang, emosi cinta, emosi sedih, emosi marah dan emosi takut.
Pengaruh dan manfaat dari analisis setimen, menyebabkan penelitian mengenai
analisis sentimen berkembang pesat. Di Amerika kurang lebih 20-30 perusahaan yang
memfokuskan pada layanan analisis sentimen (Liu,2012). Manfaat Analisis sentimen
dalam dunia usaha antara lain untuk melakukan pemantauan terhadap suatu produk.
Secara cepat dapat digunakan sebagai alat bantu untuk melihat respon masyarakat
terhadap produk tersebut, sehingga dapat segera diambil langkah- langkah strategis
berikutnya.
Pada umumnya analisis sentimen merupakan klasifikasi tetapi kenyataannya
tidak semudah proses klasifikasi biasa karena terkait penggunaan bahasa, dimana
terdapat ambigu dalam penggunaan kata serta perkembangan bahasa itu sendiri.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7
2.1.1 Level Analisis Sentimen
Analisis sentimen terdiri dari tiga level analisis yaitu :
1. Level Dokumen
Level dokumen menganalisis satu dokumen penuh dan mengklasifikasikan
dokumen tersebut memiliki sentimen positif atau Negatif. Level analisis ini berasumsi
bahwa keseluruhan dokumen hanya berisi opini tentang satu entitas saja. Level analisis
ini tidak cocok diterapkan pada dokumen yang membandingkan lebih dari satu entitas
(Liu, 2012).
2. Level Kalimat
Level kalimat menganalisis satu kalimat dan menentukan tiap kalimat bernilai
sentimen positif, netral, atau Negatif. Sentimen netral berarti kalimat tersebut bukan
opini (Liu, 2012).
3. Level Entitas dan Aspek
Level aspek tidak melakukan analisis pada konstruksi bahasa (dokumen,
paragraph, kalimat, klausa, atau frase) melainkan langsung pada opini itu sendiri. Hal
ini didasari bahwa opini terdiri dari sentimen (positif dan negatif) dan target dari opini
tersebut. Tujuan level analisis ini adalah untuk menemukan sentimen entitas pada tiap
aspek yang dibahas (Liu,2012).
2.2 Emosi
Emosi adalah suatu pikiran dan perasaan khas yang disertai perubahan
fisiologis dan biologis serta menimbulkan kecendrungan untuk melakukan tindakan
(Goleman, 2006).
Twitter seringkali digunakan untuk mengungkapkan emosi mengenai sesuatu
hal, baik memuji ataupun mencela. Pengenalan emosi pada tweet dapat dilakukan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8
menggunakan analisis sentimen. Analisis sentimen dapat dimanfaatkan untuk
menggali opini publik tentang suatu topik.
2.2.1 Emosi Dasar
Emosi yang dimiliki manusia dikategorikan menjadi lima emosi dasar yaitu
cinta, senang, marah, khawatir/takut, dan sedih. Emosi cinta dan senang merupakan
emosi positif. Emosi marah, takut, dan sedih merupakabb emosi Negatif (Shaver,
Murdaya, dan Fralet, 2001).
2.2.2 Kosakata Emosi
Penelitian terhadap 124 kosakata emosi di Indonesia menghasilkan dua
kelompok besar yaitu kosakata emosi positif dan Negatif. Kelompokan kosakata emosi
positif terdiri dari dua emosi dasar yaitu emosi cinta dan senang. Kelompokan kosakata
emosi Negatif terdiri dari tiga emosi dasar yaitu marah, takut, dan sedih (Shaver,
Murdaya, dan Fraley, 2001).
Pengelompokkan terhadap 124 kosakata emosi di Indonesia terlihat pada Tabel
2.1 berikut:
Tabel 2. 1 Kosa Kata Emosi
Superordinat Emosi
Dasar
Subordinat
Positif Cinta Ingin, kepingin, hasrat, berahi, terangsang, gairah, demen,
suka, terbuai, terpesona, terkesiap, terpikat, tertarik,
perasaan, getar hati, setia, edan kesmaran, kangen, rindu,
kemesraan, asmara, mesra, cinta, kasih, sayang, hati.
Positif Senang Bangga, kagum, asik, sukacita, sukaria, bahagia, senang,
girang, gembira, ceria, riang, damai, aman, tentram, lega,
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9
kepuasan, puas, berani, yakin, ikhlas, tulus, berbesar, besar
hati, rendah hati, sabar, tabah
Negatif Marah Bosan, jenuh, cemburu, curiga, histeris, tinggi hati, iri,
dengki, gemas, gregetan, ngambek, tersinggung, muak,
benci, emosi, kesal, sebal, mangkel, jengkel, dendam,
dongkol, panas hati, kalap, murka, naik darah, naik pitam,
marah, berang, geram
Negatif Takut Gentar, takut, berdebar, kebat – kebit, kalut, gusar, cemas,
khawatir, waswas, bimbang, bingung, galau, gundah, gelisah,
risau
Negatif Sedih Patah hati,kecil hati, malu, simpati, tersentuh, haru, prihatin,
iba, kasihan, murung,pilu, sendu, sedih , duka, dukacita, sakit
hati, pedih hati, patah hati, remuk hati, frustasi, putus asa,
putus harapan, menyesal, penyesalan, sesal, berat hati.
2.3 Information Retrieval
Penelitian ini mencoba menganalisis emosi yang terkandung dalam sebuah
tweet berbahasa Indonesia.
Dengan cara manual, analisis emosi atau analisis sentimen bisa saja dilakukan.
Misalnya memonitor berita-berita di media massa. Akan tetapi untuk data tweet, cara
manual tidak mungkin bisa dilakukan karena jumlah datanya yang sangat besar dan
terus mengalir. Disinilah peranan Information Retrieval, yang secara otomatis
dapat mengolah kata.
Information Retrieval merupakan sekumpulan algoritma dan teknologi untuk
melakukan pemrosesan, penyimpanan, dan menemukan kembali informasi
(terstruktur) pada suatu koleksi data yang besar (Manning,Raghavan,dan Schutze,
2009).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
10
Berikut proses-proses Information Retrieval :
a. Tokenizing
Tokenizing merupakan langkah untuk memotong dokumen menjadi potongan-
potongan kecil yang disebut token dan terkadang disertai langkah untuk membuang
karakter tertentu seperti tanda baca (Manning,Raghavan,dan Schutze, 2009).
Contoh proses tokenizing :
Kalimat asal :
Disaat sedih jangan lupakan kamu juga pernah bahagia, sedih itu membuatMu dewasa
Hasil dari tokenizing :
Disaat Juga MembuatMu
Sedih Pernah Dewasa
Jangan Bahagia
Lupakan Sedih Kamu itu
b. Stopwords Removal
Stopword merupakan kosakata yang bukan ciri(kata) unik dari suatu dokumen
(Dragut et all, 2009). Contoh stopword adalah dia, mereka , saya, pada, di, kenapa, apa,
dan lain sebagainya. Sebelum proses stopword removal dilakukan, harus dibuat daftar
stopword (stoplist) dimana stoplist ini berisi kata – kata umum,kata-kata penghubung,
kata ganti orang dan bukan kata unik. Jika suatu kata termasuk di dalam stoplist maka
kata – kata tersebut akan dihapus dari deskripsi sehingga kata – kata yang tersisa di
dalam deskripsi dianggap sebagai kata-kata yang mencirikan isi dari suatu dokumen.
Daftar stoplist dipenelitian ini bersumber dari Tala (2003).
Contoh proses stopword :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11
Hasil dari tokenizing :
Disaat Juga MembuatMu
Sedih Pernah Dewasa Jangan
Bahagia Lupakan Sedih Kamu itu
Hasil dari Stopword
Disaat Membuat
Sedih Pernah Dewasa
Jangan Bahagia
Lupakan Sedih
c. Stemming
Stemming merupakan tahap menghilangkan kata berimbuhan menjadi kata
dasar (root) dari tiap kata hasil stopword dengan menggunakan aturan – aturan tertentu.
Contoh Proses Stemming :
Hasil dari Stopwords :
Disaat Membuat
Sedih Pernah Dewasa
Jangan Bahagia
Lupakan Sedih
Hasil dari Stemming :
Saat Buat Dewasa
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12
Sedih Pernah
Jangan Bahagia
Lupa Sedih
1) Rule Stemming
Algoritma Stemming untuk menghilangkan kata berimbuhan memiliki tahap –
tahap sebagai berikut (Nazief dan Adriani, 2007) :
1. Pertama cari kata yang akan distem dalam kamus kata dasar. Jika ditemukan maka
diasumsikan kata adalah root word. Maka algoritma berhenti. Jika tidak
ditemukan maka lakukan langkah 2.
2. Hilangkan Inflection Suffixes bila ada. Dimulai dari Inflectional Particle(“-lah”,
“-kah”, “-ku”, “-mu”, atau “-nya”) ,kemudian Possesive Pronouns (“-ku”, “-mu”,
atau “-nya”). Cari kata pada kamus kata dasar jika ditemukan maka algoritma
berhenti, jika tidak ditemukan maka lakukan langkah 3.
3. Hapus Derivation Suffixes (“-i”, “-an”, atau “-kan”).
Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah
3a
a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “-k”, maka
“-k” juga ikut dihapus. Jika tidak ditemukan maka lakukan langkah 3b.
b. Akhiran yang dihapus (“-i”, “-an”, atau “-kan”) dikembalikan, lanjut ke langkah
4.
4. Pada langkah 4 terdapat tiga iterasi:
a. Iterasi berhenti jika :
1. Ditemukannya kombinasi akhiran yang tidak diizinkan berdasarkan awalan
Tabel 2. 2 Tabel awalan-akhiran
Awalan Akhiran yang tidak diizinkan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13
be- -i
di- -an
ke- -i , -kan
me- -an
se- -i, -kan
2. Awalan yang dideteksi sama dengan awalan yang dihilangkan
sebelumnnya.
3. Tiga awalan telah dihilangkan
b. Identifikasi tipe awalan dan hilangkan. Awalan terdiri dari dua tipe :
1. Standar(“di-”, “ke-”, “se-”) yang dapat langsung dihilangkan dari kata
2. Kompleks (“me-”, “be”, “pe”, “te”) adalah tipe awalan yang dapat berubah
sesuai kata dasar yang mengikutinya. Oleh karena itu dibutuhkan aturan
pada tabel berikut untuk mendapakan hasil pemenggalan yang tepat.
Tabel 2. 3 Aturan peluruhan kata dasar
Aturan Bentuk awalan Peluruhan
1 berV Ber-V… | be-rV….
2 Belajar Bel-ajar
3 beC1erC2 Be-C1erC2.. dimana C!={‘r’|1}
4 terV Ter-V | te-rV
5 teCer Te-Cer… dimana C !=’r’
6 teC1erC2….. Te-C1erC2… dimana C!=’r’
7 me{l|r|w|y}V… Me-{l|r|w|y}V…
8 mem{b|f|v}… Mem-{b|f|v}…
9 Mempe… Mem-pe
10 Mem{rV|V}… Me-m{rV|V}…| Me-
p{rV|V}…
11 Men{c|d|j|z}…. Men-{c|d|j|z}….
12 menV…. Me-nV…|me-tV….
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14
13 Meng{g|h|q|k}….. Meng-{g|h|q|k}…..
14 mengV….. Meng-V…|meng-kV
15 mengeC Menge-C
16 menyV Me-ny…|meny-sV…
17 mempV Mem-pV…
18 Pe{w|y}V… Pe-{w|y}V….
19 perV Per-V….|pe-rV
20 Pem{b|f|v}… Pe-m{b|f|v}…
21 Pem{rV|V} Pe-m{rV|V}…|pe-p{rV|V}
22 Pen{c|d|j|z}…. Pen- { c|d|j|z}….
23 penV Pe-nV..|pe..tV
24 Peng{g|h|q} Peng-{g|h|q}
25 pengV Peng-V | peng-kV
26 penyV Pe-nya |peny-sV
27 pelV Pe-IV..;kecuali untuk kata
“pelajar” menjadi ajar
28 peCP Pe-CP…dimana
C!={r|w|y|l|m|n} dan P!=’er’
29 perCerV Per-CerV dimana
C!={r|w|y|l|m|n}
Pada tabel 2.3 dapat dilihat aturan – aturan peluruhan kata dasar yang apabila
dilekati oleh awalan “me-”, “be-”, “te-”, “pe-”. Dimana pada kolom kedua dari tabel
tersebut menjelaskan bentuk – bentuk kata dasar yang dilekati awalan “me-”, “be-”,
“te-”, “pe-” , sedangkan pada kolom ketiga menjelaskan perubahan – perubahan
karakter pada kata dasar yang mungkin terjadi apabila algoritma telah menghilangkan
awalan yang telah melekati kata dasar tersebut. Huruf “V” pada tabel tersebut
menunjukkan huruf hidup atau huruf vocal, huruf “C” menunjukkan huruf mati atau
konsonan, dan huruf “P” menunjukkan pecahan “er”. Sebagai contoh, jika algoritma
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15
menerima kata “menyusun”, maka proses Stemming pada kata tersebut mengikuti
aturan ke-16 yaitu “menyV..” dan perubahannya menjadi “me-ny” atau “meny-sV..”.
Berdasarkan aturan tersebut maka algoritma akan menghilangkan awalan “me-” maka
akan didapatkan kata “nyusun”, selanjutnya kata “nyusun” akan diperiksa ke dalam
database kata dasar karena kata “nyusun” bukan kata dasar maja tahap selanjutnya
algoritma akan menghilangkan kata “meny-” dan kemudian algoritma akan
menambahkan huruf “s” diddepan huruf “u”, maka akan didapatkan kata “susun”,
selanjutnya kata “susun” akan diperiksa kedalam database kata dasar. Karena kata
“susun” merupakan kata dasar maka kata tersebut akan diidentifikasikan sebagai kata
dasar.
c. Cari kata yang telah dihilangkan awalannya. Apabila tidak ditemukan maka
langkah diulang kembali. Jika ditemukan maka algoritma berhenti.
5. Apabila setelah langkah 4 kata dasar masih belum ditemukan, maka
proses recording dilakukan dengan mengacu pada aturan tabel
2.3. Recording dilakukan dengan menambahkan karakter recording di awal kata
yang dipenggal. Pada tabel 2.3 , karakter recording adalah huruf kecil setelah
tanda hubung (‘-‘) dan terkadang berada sebelum tanda kurung. Sebagai contoh,
kata “menangkap” (aturan 15) pada tabel 2.3 , setelah dipenggal menjadi
“nangkap”. Karena tidak valid, maka recording dilakukan dan menghasilkan
kata “tangkap”.
6. Jika semua langkah selesai tetapi tidak juga berhasil maka kata awal
diasumsikan sebagai rootword. Algoritma berhenti..
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16
Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan
– aturan dibawah ini (Agusta, 2009) :
1. Aturan untuk reduplikasi
➢ Jika kedua kata yang dihubungkan oleh kata penghubung adalah kata yang sama
maka root word adalah bentuk tunggalnya, contoh : “buku - buku” root wordnya
adalah “buku”.
➢ Kata lain, misalnya “bolak-balik”, “berbalas-balasan”, dan “seolah-olah”. Untuk
mendapatkan root wordnya, kedua kata diartikan secara terpisah. Jika keduanya
memiliki root word yang sama maka diubah menjad bentuk tunggal, contoh :
kata “berbalas-balasan”, “berbalas” dan “balasan” memiliki root word yang
sama yaitu “balas”. Maka root word “berbalas-balasan” adalah “balas”.
Sebaliknya, pada kata “bolak-balik” , “bolak ” dan “balik” memiliki root word
yang berbeda, maka root wordnya adalah “bolak- balik”.
2. Tambahan bentuk awalan dan akhiran serta aturannya
➢ Untuk tipe awalan “mem-”, kata yang diawali dengan awalan “memp” memiliki
tipe awalan “mem-”.
➢ Tipe awalan “meng-”, kata yang diawali dengan awalan “mengk-” memiliki tipe
awalan “meng-”
d. Penggabungan Kata Berdasarkan Sinonim
Menurut Kamus Besar Bahasa Indonesia (KBBI) sinonim adalah bentuk bahasa
yang maknanya mirip atau sama dengan bahasa lain. Proses sinonim akan dilakukan
ketika ada kata berbeda namun memiliki makna yang sama, untuk me-minimal-kan
jumlah kata yang terdapat pada sistem, tanpa menghilangkan jumlah frekuensi
(Rarasati,2015).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17
e. Pembobotan Kata
Setelah melalui preprocessing text dihasilkan berbentuk token yang terpisah dari
kata yang lain dan sudah dalam bentuk dasar. Pada langkah selanjutnya kata-kata
atau term akan dirubah kedalam bentuk numerik untuk diketahui bobot setiap kata
dari satu dokumen ke dokumen lainya. Metode TF-IDF merupakan metode
pembobotan dalam bentuk sebuah metode yang merupakan integrasi antar term
frequency (tf), dan inverse document frequency (idf) (Yan dan Liu,1999).
Berikut rumus yang digunakan untuk mencari bobot kata dengan metode Term
Frequency (TF) - Inverse Document Frequency (IDF) :
𝑖𝑑𝑓 = log(𝐷/𝑑𝑓) (2.1)
Keterangan :
D : Jumlah semua dokumen dalam koleksi
df : Jumlah dokumen yang mengandung term t
𝑊𝑖𝑗 = 𝑡𝑓𝑖𝑗𝑥𝑖𝑑𝑓
𝑊𝑖𝑗 = 𝑡𝑓𝑖𝑗𝑥 log(𝐷/𝑑𝑓𝑗) (2.2)
Keterangan :
𝑊𝑖𝑗 : bobot term 𝑡𝑗 terhadap dokumen 𝑑𝑖
𝑡𝑓𝑖𝑗 : jumlah kemunculan term 𝑡𝑗 dalam dokumen 𝑑𝑖
𝐷 : jumlah semua dokumen yang ada dalam database
𝑑𝑓𝑗 : jumlah dokumen yang mengandung term 𝑡𝑗
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18
f. Normalisasi
1. Z-Score
Normalisasi Z-Score umumnya digunakan jika nilai minimum dan maksimum
sebuah atribut tidak diketahui (Mustaffa dan Yusof,2011). Normalisasi Z-Score
dirumuskan sebagai berikut :
𝑣′ = (𝑣−�̅�
𝜎𝐴) (2.3)
Keterangan
𝑣′ : nilai yang baru
𝑣 : nilai yang lama
�̅� : rata - rata dari atribut A
𝜎𝐴 : nilai standar deviasi dari Atribut A
2. Min-max
Normalisasi min – max dirumuskan sebagai berikut (Mustaffa dan Yusof, 2011) :
𝑋𝑛 =𝑋0−𝑋𝑚𝑖𝑛
𝑋𝑚𝑎𝑥−𝑋𝑚𝑖𝑛 (2.4)
Keterangan :
𝑋𝑛 : nilai baru untuk variable X
𝑋0 : nilai lama untuk variable X
𝑋𝑚𝑖𝑛 : nilai minimum dalam data set
𝑋𝑚𝑖𝑛 : nilai maksimum dalam data set
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
19
2.4 Euclidean Distance
Euclidean Distance digunakan untuk menghitung nilai kedekatan antara dua
dokumen. Perhitungan Euclidean Distance dirumuskan sebagai berikut (Prasetyo,
2014) :
𝑑(𝐴, 𝐵) = √|𝐴1 − 𝐵1|2 + |𝐴2 − 𝐵2|2 + …… .+|𝐴𝑖 − 𝐵𝑖|2 (2.5)
Atau
𝑑(𝐴, 𝐵) = √∑ (𝐵𝑖 − 𝐴𝑖)2𝑛𝑖=1 (2.6)
Keterangan :
𝑛 : Jumlah atribut
𝐵𝑖 − 𝐴𝑖 : Data
2.5 Cosine Similarity
Menurut Prasetyo pada buku Data Mining: Pengelolahan Data menjadi
infromasi menggunakan matlab (2014), ukuran kemiripan yang sering digunakan untuk
mengukur kemiripan dua dokumen x dan y adalah Cosine Similarity. Kemiripan yang
diberikan adalah 1 jika dua vektor x dan y sama , dan bernilai 0 jika kedua vektor
berbeda. Nilai jarak 1 menyatakan sudut yang dibentuk oleh vektor x day y adalah 0º,
yang artinya vektor x dan y adalah sama (dalam hal jarak).
Perhitungan Cosine Similarity dirumuskan sebagai berikut :
𝑠(𝑥, 𝑦) = cos(𝑥, 𝑦) =𝑥∙𝑦
||𝑥||||𝑦|| (2.7)
Tanda titik (∙) melambangkan inner-product,
𝑥 ∙ 𝑦 = ∑ 𝑥𝑖𝑦𝑖𝑟𝑖=1 (2.8)
Tanda ||𝑥|| adalah panjang dari vektor x, dimana :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
20
||𝑥|| = √∑ 𝑥𝑖2𝑟
𝑖=1 = √𝑥 ∙ 𝑥 (2.9)
2.6 Agglomerative Hierarchical Clustering
Agglomerative Hierarchical Clustering merupakan metode pengelompokkan
berbasis hierarki dengan pendekatan bottom up, yaitu proses penggelompokkan dimulai
dari masing-masing data sebagai satu cluster, kemudian secara rekursif mencari cluster
terdekat sebagai pasangan untuk bergabung sebagai satu cluster yang lebih besar
(Prasetyo,2014). Proses tersebut diulang terus sehingga tampak bergerak ke atas
membentuk hierarki.
Kunci operasi metode Agglomerative Hierarchical Clustering adalah
penggunaan ukuran kedekatan diantara dua cluster (Hartini,2012). Ada tiga teknik yang
dapat digunakan untuk menghitung kedekatan diantara dua cluster dalam metode
Agglomerative Hierarchical Clustering yaitu Single linkage, Complete Linkage, dan
Average Linkage.
Pada metode Single linkage kedekatan di antara dua cluster ditentukan dari
jarak terdekat (terkecil) di antara pasangan diantara dua data dari dua cluster berbeda
(satu dari cluster pertama satu dari cluster yang lain) . Dengan menggunakan single
linkage jarak antara dua cluster didefinisikan sebagai berikut :
𝑑(𝐴, 𝐵) = 𝑀𝑖𝑛𝑥∈𝐴,𝑦∈𝐵{𝑆𝑥,𝑦} (2.10)
Keterangan :
{𝑆𝑥,𝑦} : jarak antara data x dan y dari masing – masing Cluster A dan B.
Pada Complete Linkage kedekatan diantara dua cluster ditentukan dari jarak
terjauh (terbesar) diantara pasangan diantara dua data dari dua cluster berbeda (satu dari
cluster pertama satu dari cluster yang lain). Dengan menggunakan metode complete
lingkage jarak antara dua cluster didefinisikan sebagai berikut :
𝑑(𝐴, 𝐵) = 𝑀𝑎𝑥𝑥∈𝐴,𝑦∈𝐵{𝑆𝑥,𝑦} (2.11)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21
Keterangan :
{𝑆𝑥,𝑦} : jarak antara data x dan y dari masing – masing Cluster A dan B.
Pada Average Linkage kedekatan diantara dua cluster ditentukan dari jarak rata-
rata diantara pasangan diantara dua data dari dua cluster berbeda (satu dari cluster
pertama satu dari cluster yang lain). Dengan menggunakan metode average lingkage
jarak antara dua cluster didefinisikan sebagai berikut :
𝑑(𝐴, 𝐵) = 1
𝑛𝐴𝑛𝐵∑ ∑ 𝑆{𝑥, 𝑦}𝑥∈𝐵𝑥∈𝐴 (2.12)
Keterangan :
𝑛𝐴 : banyaknya data dalam cluster A
𝑛𝐵 : banyaknya data dalam cluster B
Dengan menggunakan rumus perhitungan-perhitungan diatas akan diketahui
jarak antar cluster. Masing – masing perhitungan dapat menghasilkan dendrogram.
Gambar 2. 1 Dendrogram
Dari penjelasan yang telah dipaparkan diatas, maka secara singkat AHC dapat
dimengerti sebagai metode yang dimulai dengan setiap n cluster yang membentuk
cluster masing-masing. Kemudian dua cluster dengan jarak terdekat bergabung.
Selanjutnya cluster yang lama akan bergabung dengan cluster yang sudah ada dan
membentuk cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar cluster.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
22
Proses akan berulang hingga akhirnya membentuk satu cluster yang memuat
keseluruhan cluster.
Sebagai contoh, diketahui data seperti pada tabel dibawah ini
Tabel 2. 4 Contoh Data
Data X Y
A 2 1
B 1 2
C 3 4
D 4 2
Dengan menggunakan rumus Euclidean Distance setiap obyek data tersebut
dihitung similaritasnya sebagai berikut :
𝑑(𝑎, 𝑏) = √(|1 − 2|2 + |2 − 1|2) = 1
𝑑(𝑎, 𝑐) = √(|3 − 2|2 + |4 − 1|2) = 3.16
𝑑(𝑎, 𝑑) = √(|4 − 2|2 + |2 − 1|2) = 2.236
𝑑(𝑏, 𝑐) = √(|3 − 1|2 + |4 − 2|2) = 2.82
𝑑(𝑏, 𝑑) = √(|4 − 1|2 + |2 − 2|2) =3
𝑑(𝑐, 𝑑) = √(|4 − 3|2 + |2 − 4|2) = 2.236
Berdasarkan perhitungan tersebut dapat dibentuk similarity matriks seperti
tabel berikut.
Tabel 2. 5 Similarity Matriks
A b C d
A 0 1 3.16 2.236
B 1 0 2.82 3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
23
C 3.16 2.82 0 2.236
D 2.236 3 2.236 0
Karena similarity matriks bersifat simetris maka dapat ditulis seperti dibawah
ini dan menjadi matriks jarak:
Tabel 2. 6 Matriks Jarak
A B C D
A 0 1 3.16 2.236
B 0 2.82 3
C 0 2.236
D 0
1. Single linkage
Dari tabel 2.6 jarak obyek yang paling dekat yaitu a dan b,berjarak 1. Kedua obyek
data ini menjadi satu cluster pertama. Kemudian untuk menemukan cluster berikutnya
dicari jarak antar obyek data dari sisa yang ada (c,d) dan berada paling dekat (jarak
minimum) dengan cluster(ab). Untuk pencarian jarak ini pertama digunakan Single
linkage.
𝑑(𝑎𝑏)𝑐 = min{𝑑𝑎𝑐, 𝑑𝑏𝑐} = min{3.16, 2.82} = 2.82
𝑑(𝑎𝑏)𝑑 = min{𝑑𝑎𝑑 , 𝑑𝑏𝑑} = min{2.236, 3} = 2.236
Setelah mendapat cluster ab, baris – baris dan kolom – kolom matriks jarak yang
bersesuaian dengan cluster a dan b dihapus, kemudian ditambahkan baris dan kolom
untuk cluster ab, matriks jarak menjadi seperti berikut :
Tabel 2. 7 Matriks Jarak pertama Single Linkage
Ab C d
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
24
Ab 0 2.82 2.236
C 0 2.236
D 0
Berdasarkan pada matriks jarak pertama, dipilih kembali jarak terdekat antar
cluster yaitu abd dan cd dengan nilai 2.236. Maka dapat dipilih salah satu dari kedua
nilai tersebut. Dalam contoh ini cluster yang dipilih yaitu cd. Kemudian hitung jarak
cluster cd dengan cluster ab.
𝑑(𝑐𝑑)𝑎𝑏 = min{𝑑𝑐𝑎, 𝑑𝑐𝑏 , 𝑑𝑑𝑎, 𝑑𝑑𝑏} = min{3.16, 2.82, 2.236, 3} = 2.236
Setelah mendapatkan cluster cd, baris – baris dan kolom – kolom matriks jarak
yang bersesuaian dengan cluster c dan d dihapus, kemudian ditambahkan baris dan
kolom untuk cluster cd, sehingga matriks jarak menjadi seperti berikut :
Tabel 2. 8 Matriks Jarak kedua Single Linkage
ab cd
ab 0 2.236
cd 0
Ketika jarak antar cluster tersisa satu maka proses iterasi perhitungan jarak
untuk pembentukan cluster selesai. Jadi cluster ab dan cd digabung agar membentuk
satu cluster yaitu abcd dengan jarak terdekat 2.236. Berikut ini hasil dendrogram AHC
dengan Single linkage:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25
Gambar 2. 2 Dendrogram Single linkage
2. Complete Linkage
Perhitungan jarak dengan Complete Linkage akan dicari jarak antar cluster
dengan yang paling jauh. Dengan tetap menggunakan tabel matriks jarak (tabel
2.7),perhitungan Complete Linkage ini dilakukan. Pada awal perhitungan, cluster ab
tetap digunakan sebagai cluster pertama karena jarak antar obyek yang paling dekat
yaitu 1. Berikut akan dilakukan perhitungan jarak antar cluster ab dengan c dan d.
𝑑(𝑎𝑏)𝑐 = max{𝑑𝑎𝑐, 𝑑𝑏𝑐} = max{3.16, 2.82} = 3.26
𝑑(𝑎𝑏)𝑑 = max{𝑑𝑎𝑑, 𝑑𝑏𝑑} = max{2.236, 3} = 3
Setelah mendapatkan cluster ab,baris-baris dan kolom-kolom matriks jarak
yang bersesuaian dengan cluster a dan b dihapus, kemudian ditambahkan baris dan
kolom untuk cluster ab, sehingga matriks jarak seperti berikut :
Tabel 2. 9 Matriks jarak pertama Complete Linkage
ab c d
ab 0 3.16 3
c 0 2.236
d 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
26
Dari tabel diatas dipilih jarak terdekat antar cluster yaitu 2.236. Kemudian
dihitung jarak dengan cluster ab.
𝑑(𝑐𝑑)𝑎𝑏 = max{𝑑𝑐𝑎, 𝑑𝑐𝑏 , 𝑑𝑑𝑎 , 𝑑𝑑𝑏} = max{3.16, 2.82, 2.236, 3} = 3.16
Setelah mendapat cluster cd, baris – baris dan kolom – kolom matriks jarak
yang bersesuaian dengan cluster c dan d dihapus, kemudian ditambahkan baris dan
kolom untuk cluster cd, sehingga matriks jarak menjadi seperti berikut :
Tabel 2. 10 Matriks Jarak kedua Complete Linkage
ab cd
ab 0 3.16
cd 0
Ketika jarak antar cluster tersisa satu, maka proses iterasi perhitungan jarak
untuk pembentukan cluster selesai. Jadi cluster ab dan cd digabung menjadi satu
cluster yaitu abcd dengan jarak terdekat 3.16. Berikut ini hasil dendrogram AHC
dengan Complete Linkage:
Gambar 2. 3 Dendrogram Complete Linkage
3. Average Linkage
Menggunakan Average Linkage akan dicari jarak antara cluster dengan
menghitung nilai rata-rata pasangan setiap cluster. Dengan tetap menggunakan tabel
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
27
matriks jarak (tabel 2.7), perhitungan Average Linkage ini dilakukan. Pada awal
perhitungan, cluster ab teta digunakan sebagai cluster pertama karena jarak antar obyek
yang paling dekat. Berikut ini akan dilakukan perhitungan jarak antara cluster ab
dengan c dan d.
𝑑(𝑎𝑏)𝑐 = average{𝑑𝑎𝑐, 𝑑𝑏𝑐} = average{3.16, 2.82} =3.16+2.82
2= 2.99
𝑑(𝑎𝑏)𝑑 = average{𝑑𝑎𝑑, 𝑑𝑏𝑑} = average{2.236, 3} =2.236+3
2= 2.618
Setelah mendapatan cluster ab, baris-baris dan kolom-kolom matriks jarak yang
bersesuaian dengan cluster a dan b dihapus dan ditambahkan baris dan kolom untuk
cluster ab, sehingga matriks jarak menjadi seperti berikut :
Tabel 2. 11 Matriks Jarak pertama Average Linkage
ab c d
ab 0 2.99 2.618
c 0 2.236
d 0
Dari matriks diatas, dipilih kembali jarak terdekat antar cluster. Ditemukan
cluster cd paling dekat, yaitu bernilai 2.236. Kemudian dihitung jarak dengan cluster
ab.
𝑑(𝑐𝑑)𝑎𝑏 = average{𝑑𝑐𝑎, 𝑑𝑐𝑏 , 𝑑𝑑𝑎 , 𝑑𝑑𝑏} = average{3.16, 2.82, 2.236, 3} =
3.16+2.82+2.236+3
4= 2.804
Setelah mendapatan cluster cd, baris – baris dan kolom – kolom matriks jarak
yang bersesuaian dengan cluster c dan d dihapus dan ditambahkan baris dan kolom
untuk cluster cd, sehingga matriks jarak menjadi seperti berikut :
Tabel 2. 12 Matriks Jarak kedua Average Linkage
ab cd
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
28
ab 0 2.804
cd 0
Ketika jarak antar cluster tersisa satu, maka proses iterasi perhitungan jarak
untuk pembentukan cluster selesai. Jadi cluster ab dan cd digabung menjadi satu
cluster yaitu abcd dengan jarak terdekat 2.804. Berikut ini hasil dendrogram AHC
dengan Average Linkage:
Gambar 2. 4 Dendrogram average linkage
2.5.1 Langkah Algoritma Agglomerative Hierarchical Clustering
Algoritma Agglomerative Hierarchical Clustering untuk mengelompokkan n
obyek adalah sebagai berikut ( Tan, Steinbach dan Kumar,2006 ) :
1. Hitung matriks kedekatan berdasarkan jenis jarak yang digunakan.
2. Ulangi langkat 3 sampai 4, hingga hanya satu kelompok yang tersisa
3. Gabungkan dua cluster terdekat berdasarkan parameter kedekatan yang ditentukan.
4. Perbarui matriks kedekatan untuk merepresentasikan kedekatan diantara kelompok
baru dan kelompok yang tersisa.
5. Selesai
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29
2.5.2 Flowchart Agglomerative Hierarchical Clustering
1. Single Linkage
Gambar 2. 5 Flowchart Single Linkage
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
30
2. Complete Linkage
Gambar 2. 6 Flowchart Complete Linkage
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31
3. Average Linkage
Gambar 2. 7 Flowchart Average Linkage
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
32
2.7 Confusion Matriks
Pada penelitian ini metode evaluasi clustering yang digunakan yaitu metode
external evaluasi. External evaluasi bekerja dengan membandingkan hasil
pengelompokkan sistem dengan label class. Salah satu metode external evaluasi yaitu,
Confusion Matrix.
Confusion Matriks merupakan metode external evaluasi yang berisi informasi
yang actual dan dapat diprediksi (Kohavi dan Provost, 1998), dimana kinerja sistem
dapat di evaluasi menggunakan data dalam matriks. Tabel berikut menunjukkan
Confusion matrix :
Tabel 2. 13 Tabel Confusion Matriks
Predicted
Negatif Positif
Actual Negatif a b
Positif c d
Keterangan :
a : jumlah prediksi yang benar bahwa contoh bersifat negatif
b : jumlah prediksi yang benar bahwa contoh bersifat negatif
c : jumlah prediksi yang benar bahwa contoh bersifat positif
d : jumlah prediksi yang salah bahwa contoh bersifat positif
Perhitungan akurasi dirumuskan sebagai berikut :
𝐴 =𝑎+𝑑
𝑎+𝑏+𝑐+𝑑𝑥100% (2.13)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
33
BAB III
METODE PENELITIAN
Bab ini berisi perancangan penelitian yang akan dibuat oleh penulis meliputi
data, kebutuhan system, tahapan penelitian, desain interface, skenario sistem, dan
desain pengujian.
3.1 Data
Pada penelitian ini, data yang digunakan ialah tweet berbahasa Indonesia yang
terdapat pada Twitter. Tweet yang digunakan ialah tweet-tweet yang mengandung
emosi cinta, senang, marah, takut, dan sedih. Dari masing- masing emosi, diambil 100
data per emosi sehingga total tweet yang digunakan sebagai data berjumlah 500 .
Pencarian data dilakukan dengan menggunakan hashtag #cinta, #senang,
#takut, dan #sedih pada website www.netlytic.org. Pemilihan data secara manual yaitu
memilih kalimat-kalimat tweet yang berbahasa Indonesia dan tidak mengandung
gambar. Tweet yang telah dipilih kemudian di simpan ke file teks. Kemudian file teks
tersebut digunakan sebagai input pada sistem untuk diolah lebih lanjut.
Berikut contoh tweet dengan emosi cinta :
Gambar 3. 1 Tweet Cinta
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34
Berikut contoh tweet dengan emosi senang :
Gambar 3. 2Tweet Senang
Berikut contoh tweet dengan emosi marah :
Gambar 3. 3 Tweet Marah
Berikut contoh tweet dengan emosi takut :
Gambar 3. 4 Tweet Takut
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35
Berikut contoh tweet dengan emosi sedih :
Gambar 3. 5 Tweet Sedih
3.2 Kebutuhan Sistem
Untuk proses membuat sistem digunakan software dan hardware sebagai
berikut :
1. Software
a) Sistem Operasi : Windows 8 64-bit
b) Bahasa Pemograman : Matlab R2010A
2. Hardware
a) Processor : Intel (R) Core(TM) i3-3217U CPU @ 1.8GHz
b) Memory : 2 Gb
c) Harddisk : 500 Gb
3.3 Tahapan Penelitian
3.3.1 Studi Pustaka
Pada Studi Pustaka ini penulis mencantumkan dan menggunakan teori –
teori yang terkait dengan penelitian yang dilakukan,seperti teori Analisis sentimen,
emosi, Preprocessing text( Information Retrieval), Pembobotan kata, Normalisasi,
Agglomerative Hierarchical Clustering, Euclidean Distance, dan Confusion
matriks.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
36
3.3.2 Pengumpulan Data
Data yang digunakan pada penelitian ini adalah tweet berbahasa Indonesia
yang ditulis oleh para pengguna Twitter. Tweet yang dikumpulkan berupa tweet
yang berisi emosi cinta, marah, senang, sedih, dan takut.
3.3.3 Pembuatan Alat Uji
Pada tahap ini, akan dirancang suatu alat uji yang dimulai dengan
perancangan interface dan pembuatan alat uji untuk menguji Agglomerative
Hierarchical Clustering untuk mengelompokkan tweet serta mendapatkan akurasi
dari sistem yang telah dibangun.
3.3.4 Pengujian
Pada tahap pengujian ini, data terlebih dahulu di-preprocessing sehingga
dari data yang dihasilkan dapat dilakukan proses clustering. Dari hasil clustering
yang dilakukan, pengujian dilakukan dengan menggunakan Cofusion Matriks.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
37
3.4 Desain Interface
Gambar 3. 6 Desain Interface
3.5 Perancangan Struktur Data
Struktur data digunakan untuk mengelola penyimpanan data agar data dapat
diakses sewaktu – waktu jika sedang diperlukan. Pada penelitian ini konsep
struktur data yang digunakan ialah :
a. ArrayList
ArrayList digunakan untuk menampung data tweet. Sebagai contoh dapat
dilihat pada ilustrasi berikut :
[ 𝐷𝑎𝑡𝑎1𝐷𝑎𝑡𝑎2𝐷𝑎𝑡𝑎3𝐷𝑎𝑡𝑎4𝐷𝑎𝑡𝑎5]
Obyek data 1, Data 2, Data 3, Data 4, Data 5 merupakan representasi dari data
tweet yang akan dijelaskan pada tabel berikut :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
38
Obyek Atribut
Data 1 Cinta tak kan menuntut kesempurnaan. Cinta kan menerima,
memahami, rela berkorban. Karena seharusnya cinta
membuat mu bahagia
Data 2 Dalam hidup ini berbagi kepada sesama memberi jiwa rasa
damai. Berbagi dengan tulus tanpa pamrih memberikan
perasaan sukacita..
Data 3 Aku patah hati, mas! Sakit sesakit-sakitnya.
Data 4 Resah dan gelisah tanpa arah.
Data 5 Baru ditinggal berapa jam rasanya khawatir.
3.6 Skenario Sistem
3.6.1 Gambaran Umum Sistem
Gambar 3. 7 Block Diagram
Sistem ini digunakan untuk mengetahui tingkat akurasi penggolongan tweet
berdasarkan emosi dengan menggunakan metode Agglomerative Hierarchical
Clustering. Langkahnya adalah melalui data tweet yang berekstensi .txt. Teks akan
mengalami tahap preprocessing yang terdiri dari Tokenizing, stopword, dan
stemming. Tahap kedua yaitu tahap pembobotan kata menggunakan TF-IDF untuk
menentukan nilai frekuensi dari dokumen, serta melakukan penggabungan kata
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
39
(sinonim), jika ditemukan kata yang berbeda namun memiliki makna yang sama
maka gabungkan menjadi satu kata. Setelah mendapatkan bobot, maka hasil
pembobotan di normalisasi. Pada tahap normalisasi ini peneliti menggunakan
normalisasi Min-Max dan Z-Score, dilakukan dua macam normalisasi agar
mendapatkan metode yang lebih optimal pada penelitian ini. Tahap selanjutnya
yaitu menentukan kedekatan data emosi (cinta, senang, sedih, marah,dan takut)
dengan metode Agglomerative Hierarchical Clustering menggunakan Euclidean
Distance. Tahap terakhir adalah proses perhitungan akurasi menggunakan
Confusion matriks.
Setelah menemukan hasil akurasi serta pengelompokkan selanjutnya sistem
melakukan proses input data baru, yang berfungsi untuk mengetahui data baru
termasuk dalam cluster emosi yang mana. Maka data baru dapat dikategorikan
termasuk salah satu dari emosi yang ada.
3.5.1.1 Tahap Preprocessing
Tahap preprocessing meliputi tahap Tokenizing, stopword removal, dan
stemming. Sistem akan menghapus link url, username, dan tanda retweet. Sistem
akan mengubah kata tidak baku atau kata yang disingkat menjadi kata yang baku.
Sistem juga akan mengambil kata yang diawali tanda pagar (hashtag).
Penjelasan tahap preprocessing adalah sebagai berikut:
a. Tokenizing
Pada tahap ini sistem akan memotong dokumen menjadi potongan-
potongan kecil yang disebut token dan terkadang disertai langkah untuk membuang
karakter tertentu seperti tanda baca (Manning,Raghavan,dan Schutze, 2009).
Langkah-Langkah Tokenizing :
1. Baca tiap baris pada file text sebagai satu tweet
2. Ambil tiap token pada kalimat tweet dengan menggunakan spasi sebagai
pemisah antara satu token dengan token lain.
3. Simpan tiap kalimat tweet yang terdiri dari token penyusun.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
40
Berikut contoh Tokenizing terhadap kalimat tweet cinta, senang, marah, sedih, dan
takut :
- Tokenizing tweet cinta
-
Gambar 3. 8 Tokenizing tweet cinta
- Tokenizing tweet senang
Gambar 3. 9 Tokenizing tweet senang
- Tokenizing tweet marah
Gambar 3. 10 Tokenizing tweet marah
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
41
- Tokenizing tweet takut
Gambar 3. 11 Tokenizing tweet takut
- Tokenizing tweet sedih
Gambar 3. 12 Tokenizing tweet sedih
b. Stopword
Setelah mengalami proses tokenizing , kemudian data tweet diolah melalui
proses stopword. Dalam proses stopword, kata-kata yang penting akan disaring
sehingga kata yang tidak relevan dapat dibuang.
Langkah – langkah stopword :
1. Baca data hasil tokenizing
2. Cek setiap kata hasil tokenizing dengan stoplist
3.Jika kata pada hasil tokenizing sama dengan kata pada stoplist, maka kata tersebut
dihapus.
4.Jika tidak maka kata akan disimpan.
Maka dibawah ini merupakan contoh tweet yang mengandung emosi cinta,
senang, marah, sedih , dan takut yang mengalami proses stopword.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
42
Gambar 3. 13 Stopword tweet cinta
Gambar 3. 14 Stopword tweet senang
Gambar 3. 15 Stopword tweet marah
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
43
Gambar 3. 16 Stopword tweet sedih
Gambar 3. 17 Stopword tweet takut
c. Stemming
Setelah mengalami proses stopword, proses selanjutnya ialah proses
stemming dimana mencari kata dasar dari data tweet. Stemming dilakukan dengan
menghilangkan awalan dan akhiran. Berikut langkah – langkah stemming :
1. Baca tiap kata dan cek dengan kata pada kamus kata dasar.
2. Jika kata sama dengan kata pada daftar kamus kata dasar, maka kata tersebut
adalah kata dasar.
3. Jika kata tidak sama dengan kata pada daftar kamus kata dasar, hapus
akhiran dan awalan pada kata.
4. Cek hasil langkah ke 3 dengan kata pada daftar kamus kata dasar, jika tidak
sama dengan, anggap kata sebelum dikenali langkah 3 sebagai kata dasar.
Dibawah ini merupakan contoh data tweet yang mengalami proses
stemming:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
44
Gambar 3. 18 Stemming tweet cinta
Gambar 3. 19 Stemming tweet senang
Gambar 3. 20 Stemming tweet marah
Gambar 3. 21 Stemming tweet sedih
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
45
Gambar 3. 22 Stemming tweet takut
3.5.1.2 Tahap Pembobotan dan Penggabungan Sinonim Kata
Setelah data melewati proses preprocessing, langkah selanjutnya ialah
tahap pembobotan. Tahap pembobotan ini bertujuan untuk memberi nilai frekuensi
suatu kata sebagai bobot yang nantinya dapat di proses pada Agglomerative
Hierarchical Clustering. Langkah pertama ialah menghitung nilai term frequency
tiap kata. Langkah kedua yaitu menghitung nilai document frequency tiap kata.
Langkah ketiga yaitu menghitung inverse document frequency. Langkah terakhir
yaitu menghitung bobot atau weight dari hasil perkalian term frequency dikalikan
dengan inverse document frequency. Berikut contoh proses pembobotan kata :
a. Menghitung term frequency
Gambar 3. 23 TF tweet cinta
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
46
Gambar 3.23 merupakan contoh kalimat tweet yang mengalami proses
penghitungan term frequency. Kalimat tweet yang digunakan pada diatas adalah
tweet yang mengandung emosi cinta.
Gambar 3. 24 TF tweet senang
Gambar 3.24 merupakan contoh kalimat tweet yang mengalami proses
penghitungan term frequency. Kalimat tweet yang digunakan pada diatas adalah
tweet yang mengandung emosi senang.
Gambar 3. 25 TF tweet marah
Gambar 3.25 merupakan contoh kalimat tweet yang mengalami proses
penghitungan term frequency. Kalimat tweet yang digunakan pada diatas adalah
tweet yang mengandung emosi marah.
Gambar 3. 26 TF tweet sedih
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
47
Gambar 3.26 merupakan contoh kalimat tweet yang mengalami proses
penghitungan term frequency. Kalimat tweet yang digunakan pada diatas adalah
tweet yang mengandung emosi sedih.
Gambar 3. 27 TF tweet takut
Gambar 3.27 merupakan contoh kalimat tweet yang mengalami proses
penghitungan term frequency. Kalimat tweet yang digunakan pada diatas adalah
tweet yang mengandung emosi takut.
b. Menghitung document frequency
Tabel 3. 1 Tabel menghitung df
No Kata df
1. Cinta 2
2. Sayang 3
3. Ikhlas 1
4. Enak 1
5. Muak 1
6. Sifat 1
7. Selamat 1
8. Sore 1
9. Rumah 1
10. Suasana 1
11. Duka 1
12. Pergi 1
13. Mamah 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
48
14. Sedih 1
15. Ajak 1
16. Nonton 1
17. Horror 1
18. Indonesia 1
19. takut 1
Pada tabel 3.1 merupakan contoh perhitungan document frequency,
document frequency merupakan banyaknya bobot yang terkandung dalam seluruh
data tweet.
c. Menghitung inverse document frequency
Tabel 3. 2 idf
No Kata df Idf
1. Cinta 2 0.397940009
2. Sayang 3 0.22184875
3. Ikhlas 1 0.698970004
4. Enak 1 0.698970004
5. Muak 1 0.698970004
6. Sifat 1 0.698970004
7. Selamat 1 0.698970004
8. Sore 1 0.698970004
9. Rumah 1 0.698970004
10. Suasana 1 0.698970004
11. Duka 1 0.698970004
12. Pergi 1 0.698970004
13. Mamah 1 0.698970004
14. Sedih 1 0.698970004
15. Ajak 1 0.698970004
16. Nonton 1 0.698970004
17. Horror 1 0.698970004
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
49
18. Indonesia 1 0.698970004
19. Takut 1 0.698970004
Pada tabel 3.2 merupakan contoh perhitungan inverse document frequency.
d. Menghitung bobot atau weight
Setelah menghitung TF dan IDF, langkah selanjutnya ialah menghitung
bobot (Wij) yang terdapat pada masing – masing tweet. Dimana bobot ialah hasil
perkalian term frequency dengan inverse document frequency. Berikut merupakan
contoh perhitungan bobot data tweet :
Hitung bobot (Wij) tweet cinta
Tabel 3. 3 Hitung Wij Tweet Cinta
Kata tf idf Wij
Cinta 2 0.397940009 0.795880018
Sayang 3 0.22184875 0.66554625
Total 1.461426268
Pada tabel 3.3 menunjukkan conntoh perhitungan bobot yang
terkandung dalam tweet. Tweet yang digunakan pada gambar diatas adalah
tweet yang mengandung emosi cinta.
Hitung bobot (Wij) tweet senang
Tabel 3. 4 Hitung Wij Tweet Senang
Kata TF Idf Wij
Ikhlas 1 0.698970004 0.698970004
Enak 1 0.698970004 0.698970004
Total 1.397940008
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
50
Pada tabel 3.4 menunjukkan conntoh perhitungan bobot yang terkandung
dalam tweet. Tweet yang digunakan pada gambar diatas adalah tweet yang
mengandung emosi senang.
Hitung bobot (Wij) tweet marah
Tabel 3. 5 Hitung Wij Tweet Marah
Kata TF Idf Wij
Muak 1 0.698970004 0.698970004
Sifat 1 0.698970004 0.698970004
Total 1.397940008
Pada tabel 3.5 menunjukkan conntoh perhitungan bobot yang terkandung
dalam tweet. Tweet yang digunakan pada gambar diatas adalah tweet yang
mengandung emosi marah.
Hitung bobot (Wij) tweet sedih
Tabel 3. 6 Hitung Wij Tweet Sedih
Kata TF Idf Wij
Selamat 1 0.698970004 0.698970004
Sore 1 0.698970004 0.698970004
Rumah 1 0.698970004 0.698970004
Suasana 1 0.698970004 0.698970004
Duka 1 0.698970004 0.698970004
Pergi 1 0.698970004 0.698970004
Mamah 1 0.698970004 0.698970004
Sedih 1 0.698970004 0.698970004
Total 5.591760032
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
51
Pada tabel 3.6 menunjukkan conntoh perhitungan bobot yang terkandung
dalam tweet. Tweet yang digunakan pada gambar diatas adalah tweet yang
mengandung emosi sedih.
Hitung bobot (Wij) tweet takut
Tabel 3. 7 Hitung Wij tweet takut
Kata TF Idf Wij
Ajak 1 0.698970004 0.698970004
Nonton 1 0.698970004 0.698970004
Horror 1 0.698970004 0.698970004
Indonesia 1 0.698970004 0.698970004
Takut 1 0.698970004 0.698970004
Total 3.49485002
Pada tabel 3.7 menunjukkan conntoh perhitungan bobot yang terkandung
dalam tweet. Tweet yang digunakan pada gambar diatas adalah tweet yang
mengandung emosi takut.
e. Penggabungan Kata (Sinonim)
Menurut Kamus Besar Bahasa Indonesia (KBBI) sinonim adalah bahasa
yang maknanya mirip, maka pada proses penggabungan kata dapat dilakukan ketika
terdapat kata berbeda namun memiliki makna yang sama, dapat digabungkan
menjadi satu kata, tanpa mengubah nilai frekuensi.
Berikut contoh kata yang mengalami proses penggabungan kata :
Tabel 3. 8 Tabel contoh data belum mengalami proses penggabungan
Kata TF
Riang 1
Gembira 1
Senang 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
52
Senank 1
Umpat 1
Kesel 1
Kesal 1
Tabel 3. 9 Tabel contoh data setelah penggabungan
Kata TF
Gembira 3
Kesal 3
3.5.1.3 Tahap Normalisasi
Setelah data diproses melalui tahap preprocessing, data selanjutnya di
normalisasi. Normalisasi pada penelitian ini menggunakan normalisasi min-max
dan normalisasi Z-Score.
a) Normalisasi Min-max
Tabel 3. 10 Tabel Contoh data pembobotan
Kata
Cinta senang Kesal Takut Sedih
Tweet 1 1.397940 0 0 0 0
Tweet 2 1.397940 0.698970 0 0 0
Tweet 3 0 2.096910 0 0 0
Tweet 4 0 1.397940 0 0 0
Tweet 5 0 0 1.397940 0 0
Tweet 6 0 0 0.698970 0 0
Tweet 7 0 0 0 0.698970 0
Tweet 8 0 0 0 1.397940 0
Tweet 9 0 0 0 0 1.39794
Tweet
10 0 0 0 0 1.39794
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
53
Pada tabel 3.10 terdapat bobot yang dominan dibandingkan bobot-bobot
lain. Pada contoh diatas, bobot yang dianggap dominan adalah bobot yang paling
banyak muncul. Bobot dominan diitunjukkan dengan warna biru.
Langkah – Langkah Normalisasi Min-max :
1. Cari masing – masing nilai terkecil (min) dan nilai terbesar (max) pada
setiap kata.
Tabel 3. 11 Tabel Min-max
cinta Senang kesal takut Sedih
Min 0 0 0 0 0
Max 1.397940 2.096910 1.397940 1.397940 1.39794
Tabel 3.11 menunjukkan nilai terkecil dan nilai terbesar pada data. Nilai
terkecil dan terbesar digunakan pada normalisasi min-max.
2. Hitung nilai bobot baru :
𝑋𝑛 =𝑋0−𝑋𝑚𝑖𝑛
𝑋𝑚𝑎𝑥−𝑋𝑚𝑖𝑛 (3.1)
Tabel 3. 12 Tabel data hasil normalisasi min - max
Kata
Cinta Senang kesal Takut Sedih
Tweet 1 1 0 0 0 0
Tweet 2 1 0,3333 0 0 0
Tweet 3 0 1 0 0 0
Tweet 4 0 0,6667 0 0 0
Tweet 5 0 0 1 0 0
Tweet 6 0 0 0,5 0 0
Tweet 7 0 0 0 0,5 0
Tweet 8 0 0 0 1 0
Tweet 9 0 0 0 0 1
Tweet 10 0 0 0 0 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
54
Tabel 3.12 menunjukkan hasil hitung bobot baru menggunakan normalisasi
min-max. Bobot baru ditunjukkan dengan warna biru.
b) Normalisasi Z-Score
Normalisasi Z-Score digunakan supaya kata hasil pembobotan data dapat
dibandingkan. Dibawah ini merupakan langkah – langkah untuk mendapatkan hasil
normalisasi Z-Score.
1. Hasil pembobotan setelah proses preprocessing
Tabel 3.10 Tabel contoh data pembobotan
Kata
Cinta senang kesal Takut Sedih
Tweet 1 1.397940 0 0 0 0
Tweet 2 1.397940 0.698970 0 0 0
Tweet 3 0 2.096910 0 0 0
Tweet 4 0 1.397940 0 0 0
Tweet 5 0 0 1.397940 0 0
Tweet 6 0 0 0.698970 0 0
Tweet 7 0 0 0 0.698970 0
Tweet 8 0 0 0 1.397940 0
Tweet 9 0 0 0 0 1.39794
Tweet 10 0 0 0 0 1.39794
Pada tabel 3.10 terdapat bobot yang dominan dibandingkan bobot-bobot
lain. Pada contoh diatas, bobot yang dianggap dominan adalah bobot yang paling
banyak muncul. Bobot dominan diitunjukkan dengan warna biru..
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
55
2. Mencari nilai rata-rata dari masing – masing data tweet.
Tabel 3. 13 Tabel Rata - Rata
Rata – rata
Tweet 1 0.279588
Tweet 2 0.419382
Tweet 3 0.419382
Tweet 4 0.279588
Tweet 5 0.279588
Tweet 6 0.139794
Tweet 7 0.139794
Tweet 8 0.279588
Tweet 9 0.279588
Tweet 10 0.279588
Rata-rata
total 0,279588
Tabel 3.13 menunjukkan hasil perhitungan rata-rata setiap kalimat tweet.
Kemudian dicari total rata-rata tweet untuk dapat diproses pada tahap normalisasi
3. Mencari nilai standar deviasi dari masing – masing tweet.
Tabel 3. 14 Tabel Standar Deviasi
Standar Deviasi
Standar
deviasi
0,564853063
Pada tabel 3.14 dicari standar deviasi dari semua data untuk dapat diproses
pada tahap normalisasi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
56
4. Hasil Normalisasi
Perhitungan rumus yang telah dipaparkan pada bab sebelumnya pada persamaan
2.6.
Tabel 3. 15 Hasil Normalisasi Zscore
Kata
cinta Senang kesal Takut Sedih
Tweet 1 1,39794 -0,49497 -0,49497 -0,49497 -0,49497
Tweet 2 1,39794 0,69897 -0,49497 -0,49497 -0,49497
Tweet 3 -0,49497 2,09691 -0,49497 -0,49497 -0,49497
Tweet 4 -0,49497 1,39794 -0,49497 -0,49497 -0,49497
Tweet 5 -0,49497 -0,49497 1,39794 -0,49497 -0,49497
Tweet 6 -0,49497 -0,49497 0,69897 -0,49497 -0,49497
Tweet 7 -0,49497 -0,49497 -0,49497 0,69897 -0,49497
Tweet 8 -0,49497 -0,49497 -0,49497 1,39794 -0,49497
Tweet 9 -0,49497 -0,49497 -0,49497 -0,49497 1,39794
Tweet 10 -0,49497 -0,49497 -0,49497 -0,49497 1,39794
Tabel 3.15 Menunjukkan hasil normalisasi menggunakan Z-Score. Bobot
baru ditunjukkan dengan warna biru.
3.5.1.4 Agglomerative Hierarchical Clustering
Setelah data dinormalisasi, data kemudian masuk pada tahap clustering.
Pengelompokkan pada penelitian ini menggunakan Agglomerative Hierarchical
Clustering (AHC). Matriks jarak dihitung dengan menggunakan Cosine Similarity.
Masing-masing data akan dikelompokkan berdasarkan karakteristik kedekatannya.
Proses pengelompokkan ini akan menggunakan tiga metode yaitu, single linkage,
complete linkage, dan average linkage. Berikut langkah – langkah pengelompokkan
menggunakan AHC.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
57
1. Hitung matriks jarak menggunakan Cosine Similarity
a. Hasil Normalisasi min – max
Tabel 3.12 Tabel data hasil normalisasi min – max
Kata
Cinta Senang kesal Takut Sedih
Tweet 1 1 0 0 0 0
Tweet 2 1 0,3333 0 0 0
Tweet 3 0 1 0 0 0
Tweet 4 0 0,6667 0 0 0
Tweet 5 0 0 1 0 0
Tweet 6 0 0 0,5 0 0
Tweet 7 0 0 0 0,5 0
Tweet 8 0 0 0 1 0
Tweet 9 0 0 0 0 1
Tweet 10 0 0 0 0 1
Tabel 3.12 menunjukkan hasil hitung bobot baru menggunakan normalisasi
min-max. Bobot baru ditunjukkan dengan warna biru.
Hasil matriks jarak dari normalisasi min-max :
Tabel 3. 16 Tabel hasil matriks jarak dari normalisasi min - max
Tweet
1
Tweet
2
Tweet
3
Tweet
4
Tweet
5
Tweet
6
Tweet
7
Tweet
8
Tweet
9
Tweet
10
Tweet
1
0 0,333 1,414 1,202 1,414 1,118 1,118 1,414 1,414 1,414
tweet
2
0 1,202 1,054 1,453 1,167 1,167 1,453 1,453 1,453
tweet
3
0 0,333 1,414 1,118 1,118 1,414 1,414 1,414
tweet
4
0 1,202 0,833 0,833 1,202 1,202 1,202
tweet
5
0 0,500 1,118 1,414 1,414 1,414
tweet
6
0 0,707 1,118 1,118 1,118
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
58
tweet
7
0 0,500 1,118 1,118
tweet
8
0 1,414 1,414
tweet
9
0 0
tweet
10
0
b. Hasil Normalisasi Z-Score
Tabel 3.15 Hasil Normalisasi ZSscore
Kata
cinta Senang kesal Takut Sedih
Tweet 1 1,39794 -0,49497 -0,49497 -0,49497 -0,49497
Tweet 2 1,39794 0,69897 -0,49497 -0,49497 -0,49497
Tweet 3 -0,49497 2,09691 -0,49497 -0,49497 -0,49497
Tweet 4 -0,49497 1,39794 -0,49497 -0,49497 -0,49497
Tweet 5 -0,49497 -0,49497 1,39794 -0,49497 -0,49497
Tweet 6 -0,49497 -0,49497 0,69897 -0,49497 -0,49497
Tweet 7 -0,49497 -0,49497 -0,49497 0,69897 -0,49497
Tweet 8 -0,49497 -0,49497 -0,49497 1,39794 -0,49497
Tweet 9 -0,49497 -0,49497 -0,49497 -0,49497 1,39794
Tweet 10 -0,49497 -0,49497 -0,49497 -0,49497 1,39794
Tabel 3.15 Menunjukkan hasil normalisasi menggunakan Z-Score. Bobot
baru ditunjukkan dengan warna biru.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
59
Hasil matriks jarak dari normalisasi Z-Score:
Tabel 3. 17 Hasil matriks jarak normalisasi Z-Score
Tweet
1
Tweet
2
Tweet
3
Tweet
4
Tweet
5
Tweet
6
Tweet
7
Tweet
8
Tweet
9
Tweet
10
Tweet
1 1,000 0,767
-
0,185
-
0,221
-
0,221
-
0,146
-
0,146
-
0,221
-
0,221
-
0,221
tweet
2
1,000 0,365 0,334
-
0,406
-
0,414
-
0,414
-
0,406
-
0,406
-
0,406
tweet
3
1,000 0,985
-
0,250
-
0,231
-
0,231
-
0,250
-
0,250
-
0,250
tweet
4
1,000
-
0,221
-
0,146
-
0,146
-
0,221
-
0,221
-
0,221
tweet
5
1,000 0,943
-
0,146
-
0,221
-
0,221
-
0,221
tweet
6
1,000 0,029
-
0,146
-
0,146
-
0,146
tweet
7
1,000 0,943
-
0,146
-
0,146
tweet
8
1,000
-
0,221
-
0,221
tweet
9
1,000 1,000
tweet
10
1,000
2. Setelah didapatkan matriks jarak, kemudian melakukan perhitungan AHC
seperti yang dapat dilihat dalam bab ke dua pada tulisan ini. Dengan
menggunakan matlab, data sample pada tabel 3.16 menghasilkan dendrogram
seperti berikut :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
60
a. Hasil data normalisasi min – max
Gambar 3. 28 Data min – max Single linkage
Gambar 3. 29 Data min – max Complete linkage
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
61
Gambar 3. 30 Data min – max average linkage
Berikut source code matlab yang digunakan untuk menghasilkan gambar
dendrogram diatas :
Gambar 3. 31 Source code AHC min –max
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
62
b. Hasil data normalisasi Z-Score
Gambar 3. 32 Data Z-Score Single linkage
Gambar 3. 33 Data Z-Score Complete linkage
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
63
Gambar 3. 34 Data Z-Score Average linkage
Berikut source code matlab yang digunakan untuk menghasilkan gambar
dendrogram diatas :
Gambar 3. 35 Source code AHC Z-Score
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
64
3. Hasil Cluster
a. Hasil cluster menggunakan normalisasi Z-Score
Tabel 3. 18 Hasil max cluster 5 single linkage- Z-Score
Cluster
1
Cluster
2
Cluster
3
Cluster
4
Cluster 5
Tweet 7 Tweet 5 Tweet 1 Tweet 3 Tweet 9
Tweet 8 Tweet 6 Tweet 2 Tweet 4 Tweet 10
Tabel 3. 19 Hasil max cluster 5 complete linkage- Z-Score
Cluster
1
Cluster
2
Cluster 3 Cluster
4
Cluster 5
Tweet 1 Tweet 5 Tweet 9 Tweet 1 Tweet 3
Tweet 2 Tweet 6 Tweet 10 Tweet 2 Tweet 4
Tabel 3. 20 Hasil max cluster 5 average linkage- Z-Score
Cluster
1
Cluster 2 Cluster 3 Cluster
4
Cluster 5
Tweet 7 Tweet 10 Tweet 6 Tweet 3 Tweet 1
Tweet 8 Tweet 9 Tweet 5 Tweet 4 Tweet 2
b. Hasil cluster menggunakan normalisasi Min - Max
Tabel 3. 21 Hasil max cluster 5 single linkage- Min - Max
Cluster
1
Cluster
2
Cluster
3
Cluster
4
Cluster 5
Tweet 7 Tweet 5 Tweet 3 Tweet 1 Tweet 9
Tweet 8 Tweet 6 Tweet 4 Tweet 2 Tweet 10
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
65
Tabel 3. 22 Hasil max cluster 5 complete linkage- Min - Max
Cluster
1
Cluster
2
Cluster
3
Cluster
4
Cluster 5
Tweet 3 Tweet 1 Tweet 7 Tweet 5 Tweet 9
Tweet 4 Tweet 2 Tweet 8 Tweet 6 Tweet 10
Tabel 3. 23 Hasil max cluster 5 average linkage- Min - Max
Cluster
1
Cluster
2
Cluster
3
Cluster
4
Cluster 5
Tweet 8 Tweet 5 Tweet 4 Tweet 2 Tweet 9
Tweet 7 Tweet 6 Tweet 3 Tweet 1 Tweet 10
3.5.1.5 Tahap Hitung Akurasi
Setelah dendrogram ditampilkan, maka pengujian akurasi dilakukan agar
dapat mengetahui keakuratan hasil pengelompokkan. Pada pengujian akurasi
menggunakan confusion matriks. Confusion matriks digunakan untuk mengetahui
seberapa besar keberhasilan sistem. Confusion matriks dipilih sebagai alat ukur
evaluasi karena data yang digunakan dalam penelitian ini sudah memiliki label.
Confusion matriks juga dapat memudahkan dalam menganalisa hasil dan
memudahkan dalam melihat suatu permodelan antara 2 class yaitu class prediksi
dan class actual.
Berikut langkah – langkah uji akurasi :
1. Baca label aktual tweet.
2. Baca label tweet hasil prediksi
3. Representasikan label aktual dan prediksi ke dalam confusion matriks
4. Hitung akurasi dengan cara membagi jumlah tweet yang benar dikenali
dengan jumlah seluruh data kemudian dikalikan dengan 100%.
Berikut perbandingan Cluster hasil prediksi dan label aktual :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
66
Tabel 3. 24 Tabel perbandingan cluster hasil prediksi dan label aktual
Prediksi Aktual
Tweet 1 3 4
Tweet 2 3 4
Tweet 3 4 3
Tweet 4 4 3
Tweet 5 2 2
Tweet 6 2 2
Tweet 7 1 1
Tweet 8 1 1
Tweet 9 5 5
Tweet
10
5 5
Berikut adalah contoh tabel confusion matriks dari perhitungan sebelumnya
(data yang dinormalisasi menggunakan Z-Score dengan menggunakan single
linkage):
Tabel 3. 25 Tabel Confusion matriks
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5
Cluster 1 2
Cluster 2 2
Cluster 3 0 2
Cluster 4 2 0
Cluster 5 2
Akurasi = 60
10𝑥100% = 60%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
67
3.7 Desain Pengujian
Pengujian yang dilakukan pada penelitian ini menggunakan tiga macam
pendekatan yaitu pengujian tanpa menggunakan normalisasi, pengujian
menggunakan normalisasi z-score, dan pengujian menggunakan normalisasi min-
max. Pengujian – pengujian tersebut dikombinasikan dengan batas atas,batas
bawah, perhitungan jarak, dan metode AHC. Perbedaan perlakuan pada saat
pengujian dilakukan untuk menemukan perlakuan yang paling optimal untuk
mendapatkan hasil akurasi tertinggi.
a. Pengujian Tanpa normalisasi
Pengujian dilakukan tanpa menggunakan tahap normalisasi data. Nilai
parameter yang diubah-ubah pada pengujian ini yaitu batas minimal
kemunculan kata pada keseluruhan dokumen.
b. Pengujian menggunakan normalisasi min - max
Pengujian dilakukan menggunakan normalisasi min - max. Nilai bobot yang
diubah pada penelitian ini ialah nilai bobot yang mendominasi.
c. Pengujian menggunakan normalisasi Z-Score
Pengujian dilakukan menggunakan normalisasi Z-Score. Nilai bobot yang
diubah pada penelitian ini ialah nilai bobot yang mendominasi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
68
BAB IV
HASIL DAN ANALISIS HASIL
Bab ini berisi mengenai implementasi, hasil dan analisis hasil dari
metodologi yang dibahas pada bab sebelumnya.
4.1 Implementasi
4.1.1 Data
Data yang digunakan ialah data berekstensi .txt diambil dari tweet yang
bersumber dari netlytic.org. Tweet yang diambil merupakan tweet yang memiliki
emosi yaitu cinta, senang, sedih, takut, dan marah. Tweet yang digunakan sebanyak
500 data. Berikut kumpulan data dan contoh data tweet :
Gambar 4. 1 Kumpulan Data
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
69
Gambar 4. 2 Contoh Data
4.1.2 Preprocessing
Preprocessing merupakan tahap awal dalam proses agglomerative
hierarchical clustering. Pada tahap ini data mentah berupa teks kumpulan tweet
akan diubah menjadi data yang memiliki nilai bobot, sehingga dapat diproses pada
tahap selanjutnya. Tahap preprocessing adalah sebagai berikut :
1. Tokenizing
Tokenizing bertujuan untuk memecah kalimat menjadi per kata dengan
memanfaatkan karakter spasi sebagai pemisah setiap kata. Tahap pertama ialah
sistem akan membaca data tweet, lalu data tersebut dipisah menjadi per kata,
selanjutnya data tweet diubah menjadi huruf kecil (lowercase), selanjutnya karakter
yang terdiri dari tanda baca dan angka dihapus. Gambar berikut menunjukkan
potongan source code proses tokenizing :
Gambar 4. 3 Source code Tokenizing (Rarasati,2015 )
2. Stopword
Proses stopword bertujuan untuk menghilangkan kata – kata umum yang
sering muncul. Sistem akan mengambil data dari file stopwords.txt, kemudian
sistem akan mengecek apakah data pada file stopword.txt ada di data tweet, jika ada
kata yang terkandung dalam data tweet tersebut maka kata tersebut akan dihapus.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
70
Gambar 4. 4 Source code Stopword (Rarasati, 2015)
3. Stemming
Proses stemming ialah mencari kata dasar dengan menghilangkan imbuhan
pada suatu kata. Proses dilakukan dengan menghapus awalan dan akhiran . Dalam
proses ini, program dibantu dengan kamus kata dasar. Berikut merupakan
implementasi program stemming :
Gambar 4. 5 Source code Stemming (Rarasati,2015)
4. Penanganan Sinonim
Kata yang terkandung di dalam data tweet mengandung kata umum yang
sering digunakan, oleh karena itu proses penanganan sinonim ini dilakukan untuk
mendeteksi kata yang memiliki makna sama pada tweet. Berikut implementasi
penanganan sinonim :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
71
Gambar 4. 6 Kamus Kata Sinonim
Gambar 4. 7 Source code Penanganan Sinonim (Rarasati, 2015)
Pada gambar 4.7 merupakan implementasi tahap penanganan sinonim. Pada
penanganan sinonim ini sistem akan membandingkan data tweet dengan kamus
sinonim, jika data tweet terdapat dalam kamus sinonim, maka sistem akan
mengenali sebagai kata unik.
5. Pembobotan
Tahap selanjutnya ialah tahap pembobotan menggunakan tf-idf, dimana
pada tahap ini akan menghitung bobot tweet yaitu pertama menghitung frekuensi
kata dari tiap kata pada tiap tweet kemudian mengalikannya dengan idf. Berikut
implementasi pembobotan tf-idf :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
72
Gambar 4. 8 Source code Pembobotan (Rarasati,2015)
6. Normalisasi
Setelah menghitung bobot kata tiap tweet, selanjutnya data di normalisasi.
Normalisasi dilakukan agar tidak ada nilai yang mendominasi. Normalisasi yang
digunakan yaitu normalisasi Z-Score dan normalisasi min – max. Normalisasi ini
dilakukan terpisah untuk mengetahui normalisasi yang lebih cocok pada penelitian
ini.
a. Normalisasi Min – Max
Berikut implementasi normalisasi min- max :
Gambar 4. 9 Source code Normalisasi Min – Max
b. Normalisasi Z-Score
Berikut implementasi normalisasi Z-Score :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
73
Gambar 4. 10 Source code Normalisasi Z-Score
4.1.3 Pengujian Sistem
1. Perhitungan Jarak
Setelah data dinormalisasi, selanjutnya dilakukan perhitungan jarak antar
setiap data tweet. Perhitungan jarak yang digunakan ialah perhitungan jarak
menggunakan euclidean distance dan perhitungan jarak menggunakan cosine
similarity. Perhitungan jarak ini dilakukan terpisah agar mengetahui perhitungan
jarak yang cocok untuk penelitian ini.
a. Euclidean distance
Berikut implementasi perhitungan jarak menggunakan euclidean distance
Gambar 4. 11 Source code Hitung Jarak Euclidean
b. Cosine similarity
Berikut implementasi perhitungan jarak menggunakan cosine similarity
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
74
Gambar 4. 12 Source code Hitung Jarak Cosine
2. Agglomerative Hierarchical Clustering
Setelah mengukur jarak setiap tweet, selanjutnya data akan dikelompokkan
menggunakan Agglomerative hierarchical clustering. Agglomerative hierarchical
clustering dibagi menjadi tiga metode yaitu single linkage , complete linkage, dan
average linkage. Metode pengelompokkan AHC ini dilakukan terpisah agar
mengetahui metode yang cocok untuk penelitian ini. Berikut implementasi AHC :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
75
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
76
Gambar 4. 13 Source code AHC
3. Output
Hasil setiap metode AHC akan ditampilkan dalam tabel yang berisi hasil
prediksi dan dendrogram.
Gambar 4. 14 Gambar Output Hasil
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
77
4. Akurasi
Pada penelitian ini, perhitungan akurasi yang digunakan ialah Confusion
Matrix. Hasil prediksi akan dibandingkan dengan label aktual. Banyaknya
kecocokan antara prediksi dan label aktual akan mempengaruhi tingkat akurasi
sistem. Berikut implementasi proses perhitungan Confusion Matrix :
Gambar 4. 15 Source code Confusion Matrix
Gambar 4. 16 Hasil Implementasi Confusion Matrix
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
78
4.1.4 Pengujian Data Baru
Pada pengujian data baru data yang diuji ialah data tweet yang tidak
digunakan untuk data training pada proses sebelumnya. Data baru tersebut diproses
melalui tahap preprocessing, kemudian program akan menentukan tweet termasuk
pada cluster cinta, marah, senang, sedih, atau takut. Penentuan pengelompokkan
dilakukan dengan cara mengukur jarak kedekatan antara data baru dengan centroid
tiap cluster.
Gambar 4.17 menunjukkan contoh tweet yang digunakan sebagai data baru.
Menurut prediksi, data baru termasuk dalam cluster cinta. Hasil prediksi
ditunjukkan pada Gambar 4.18.
Gambar 4. 17 Contoh Tweet Uji
Gambar 4. 18 Hasil Tweet Uji
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
79
4.2 Hasil & Analisis Hasil
Pada penelitian ini, data yang digunakan sebanyak 500 data tweet dari 100
data masing – masing emosi. Untuk pengelompokkan tweet, tahap pertama yang
dilakukan ialah preprocessing. Preprocessing terdiri dari tokenizing untuk
memisahkan kalimat tweet menjadi tiap - tiap kata dan menghilangkan tanda baca,
stopword untuk menghapus kata yang umum, stemming untuk mencari kata dasar
dari kata berimbuhan. Setelah melakukan stemming, kata – kata unik yang tersaring
akan diberi bobot menggunakan pembobotan TF-IDF. Pembobotan ini bertujuan
menghitung frekuensi kemunculan kata pada tiap data tweet, sehingga kata yang
lebih sering muncul pada suatu tweet dianggap lebih penting. Frekuensi
kemunculan kata unik perlu dibatasi. Kemudian melakukan proses normalisasi data,
pada penelitian ini menggunakan normalisasi min - max dan normalisasi z-score.
Hal ini dilakukan agar dapat mengetahui normalisasi yang paling optimal. Setelah
melakukan normalisasi data, kemudian masuk pada proses Agglomerative
Hierarchical Clustering (AHC) dalam tiga metode(single linkage, complete
linkage, average linkage). Masing – masing metode menggunakan euclidean
distance dan cosine similarity untuk perhitungan jarak. Sejalan dengan proses
AHC, setiap pengelompokkan diuji dengan Confusion Matrix, dimana data prediksi
dibandingkan dengan data actual kemudian dikalikan dengan 100%.
Berikut langkah – langkah percobaan yang dilakukan :
1. Menentukan jumlah cluster=5. Sesuai dengan emosi yang telah ditentukan.
2. Data tweet=500
3. Menginputkan batas atas dan batas bawah yang pada akhirnya sangat
menentukan tingkat akurasi
4. Memilih normalisasi (min – max atau z-score)
5. Memilih perhitungan jarak (euclidean distance atau cosine similarity)
6. Memilih metode AHC (single linkage, complete linkage, average linkage)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
80
Sebelum masuk pada tahap normalisasi, frekuensi kemunculan kata perlu
dibatasi. Frekuensi kemunculan kata dengan batas atas = 85 dan batas bawah = 2
menghasilkan pengelompokkan yang baik sehingga batas atas = 85 dan batas bawah
= 2 digunakan untuk percobaan ini. Hasil dari percobaan dapat dilihat pada tabel
dan gambar berikut :
1. Percobaan tanpa normalisasi
Tabel 4. 1 Tabel Percobaan tanpa normalisasi dengan batas atas = 85 dan batas
bawah =2
No Perhitungan Jarak AHC Akurasi
1. Euclidean Distance Average Linkage 34.4
2. Euclidean Distance Single Linkage 34.4
3. Euclidean Distance Complete Linkage 34.4
4. Cosine Similarity Average Linkage 21.4
5. Cosine Similarity Single Linkage 20.2
6. Cosine Similarity Complete Linkage 21.8
Gambar 4. 19 Grafik percobaan tanpa normalisasi
15
19
23
27
31
35
euclidean -average
euclidean -single
euclidean -complete
cosine -average
cosine -single cosine -complete
Akura
si
Perhitungan jarak - Metode AHC
Percobaan Tanpa Normalisasi dengan batas atas = 85 dan
batas bawah = 2
Tanpa Normalisasi 2 3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
81
Tabel 4.1 menunjukkan hasil percobaan tanpa menggunakan normalisasi.
Percobaan dilakukan dengan memasukkan batas atas = 85 dan batas bawah = 2,
serta mengubah-ubah perhitungan jarak dan metode AHC. Batas atas dan batas
bawah merupakan batas yang digunakan untuk membatasi total hasil term
frequency yang terdapat pada kata unik. Batas atas = 85 berarti kata unik yang
digunakan hanyalah kata yang mempunyai jumlah kemunculan kurang dari 85,
maka sistem akan membatasi maksimal term frequency = 85. Batas bawah = 2
berarti kata unik yang digunakan hanyalah kata yang mempunyai jumlah
kemunculan lebih dari 2, maka sistem akan membatasi minimal term frequency =
2. Akurasi tertinggi ditandai dengan warna biru yaitu sebesar 34.4 % dengan
menggunakan perhitungan jarak euclidean distance dan metode AHC average
linkage, complete linkage, single linkage. Berikut dendrogram dan confusion matrix
dari akurasi tertinggi :
a. Dendrogram
- Average linkage
Gambar 4. 20 Dendrogram data tanpa normalisasi average linkage
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
82
b. Confusion Matrix
- Average linkage
Tabel 4. 2 Confusion matrix data tanpa normalisasi average linkage
Cluster tweet 1 2 3 4 5
1 100 0 0 0 0
2 100 0 0 0 0
3 100 0 0 0 0
4 67 13 20 0 0
5 0 0 10 18 72
Akurasi == 100+0+0+0+72
500x100% = 34.4%
2. Percobaan menggunakan normalisasi min – max
Tabel 4. 3 Tabel Percobaan normalisasi min - max dengan batas atas = 85 dan
batas bawah =2
No Perhitungan Jarak AHC Akurasi
1. Euclidean Distance Average Linkage 20,2
2. Euclidean Distance Single Linkage 20,2
3. Euclidean Distance Complete Linkage 22,8
4. Cosine Similarity Average Linkage 21,2
5. Cosine Similarity Single Linkage 20,2
6. Cosine Similarity Complete Linkage 21,4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
83
Gambar 4. 21 Grafik percobaan normalisasi min – max
Tabel 4.3 menunjukkan hasil percobaan menggunakan normalisasi min-max.
Percobaan dilakukan dengan memasukkan batas atas = 85 dan batas bawah = 2,
serta mengubah-ubah perhitungan jarak dan metode AHC. Batas atas dan batas
bawah merupakan batas yang digunakan untuk membatasi total hasil term
frequency yang terdapat pada kata unik. Batas atas = 85 berarti kata unik yang
digunakan hanyalah kata yang mempunyai jumlah kemunculan kurang dari 85,
maka sistem akan membatasi maksimal term frequency = 85. Batas bawah = 2
berarti kata unik yang digunakan hanyalah kata yang mempunyai jumlah
kemunculan lebih dari 2, maka sistem akan membatasi minimal term frequency =
2. Akurasi tertinggi ditandai dengan warna biru yaitu sebesar 22,8 % dengan
menggunakan perhitungan jarak euclidean distance dan metode AHC complete
linkage. Berikut dendrogram dan confusion matrix dari akurasi tertinggi :
a. Dendrogram
- Complete linkage
19
21
23
25
Euclidean -Average
Euclidean -Single
Euclidean -Complete
Cosine -Average
Cosine -Single
Cosine -Complete
Akura
si
Perhitungan Jarak - Metode AHC
Percobaan Normalisasi Min-Max dengan batas atas = 85
dan batas akhir = 2
Normalisasi Min-Max Column2 Column3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
84
Gambar 4. 22 Dendrogram data normalisasi min – max complete linkage
b. Confusion Matrix
- Complete linkage
Tabel 4. 4 Confusion matrix data normalisasi min – max complete
linkage
Cluster tweet 1 2 3 4 5
1 100 0 0 0 0
2 100 0 0 0 0
3 100 0 0 0 0
4 100 0 0 0 0
5 41 8 3 34 14
Akurasi == 100+0+0+0+14
500x100% = 22,8%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
85
3. Percobaan menggunakan normalisasi z-score
Tabel 4. 5 Tabel Percobaan normalisasi z-score dengan batas atas = 85 dan batas
bawah =2
No Perhitungan Jarak AHC Akurasi
1. Euclidean Distance Average Linkage 34.4
2. Euclidean Distance Single Linkage 34.4
3. Euclidean Distance Complete Linkage 34.4
4. Cosine Similarity Average Linkage 81.6
5. Cosine Similarity Single Linkage 20.2
6. Cosine Similarity Complete Linkage 54
Gambar 4. 23 Grafik percobaan normalisasi z-score
Tabel 4.5 menunjukkan hasil percobaan menggunakan normalisasi z-score.
Percobaan dilakukan dengan memasukkan batas atas = 85 dan batas bawah = 2,
serta mengubah-ubah perhitungan jarak dan metode AHC. Batas atas dan batas
bawah merupakan batas yang digunakan untuk membatasi total hasil term
frequency yang terdapat pada kata unik. Batas atas = 85 berarti kata unik yang
digunakan hanyalah kata yang mempunyai jumlah kemunculan kurang dari 85,
maka sistem akan membatasi maksimal term frequency = 85. Batas bawah = 2
0
20
40
60
80
100
Euclidean -Average
Euclidean -Single
Euclidean -Complete
Cosine -Average
Cosine -Single
Cosine -Complete
Akura
si
Perhitungan Jarak - Metode AHC
Percobaan Normalisasi ZScore dengan menggunakan
batas atas= 85 dan batas akhir = 2
Normalisasi Zscore Column1 Column2
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
86
berarti kata unik yang digunakan hanyalah kata yang mempunyai jumlah
kemunculan lebih dari 2, maka sistem akan membatasi minimal term frequency =
2. Akurasi tertinggi ditandai dengan warna biru yaitu sebesar 81.6 % dengan
menggunakan perhitungan jarak cosine similarity dan metode AHC average
linkage. Berikut dendrogram dan confusion matrix dari akurasi tertinggi :
b. Dendrogram
- Average linkage
Gambar 4. 24 Dendrogram data normalisasi z-score average linkage
c. Confusion Matrix
- Average linkage
Tabel 4. 6 Confusion matrix data normalisasi z-score average
linkage
Cluster
tweet
1 2 3 4 5
1 81 19 0 0 0
2 0 100 0 0 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
87
3 0 24 76 0 0
4 0 0 30 51 19
5 0 0 0 0 100
Akurasi == 81+100+76+51+100
500x100% = 81.6%
Berikut grafik keseluruhan percobaan dengan menggunakan batas atas = 85
dan batas bawah = 2 :
Gambar 4. 25 Grafik percobaan menggunakan batas atas=85 dan batas bawah =2
Melalui Gambar 4.25 dapat disimpulkan bahwa pengelompokkan paling
optimal berada pada percobaan menggunakan batas atas = 85 dan batas bawah =
2 dengan normalisasi z-score, perhitungan jarak cosine similarity dan metode AHC
average linkage.
Euclidean- Average
Euclidean- Single
Euclidean-
Complete
Cosine -Average
Cosine -Single
Cosine -Complete
Tanpa Normalisasi 34,4 34,4 34,4 21,4 20,2 21,8
Normalisasi Z-Score 34,4 34,4 34,4 81,6 20,2 54
Normalisasi Min - Max 34,8 34,4 35,6 50,6 20,2 36,8
0
10
20
30
40
50
60
70
80
90
Akura
si
Perhitungan jarak & metode AHC
Percobaan menggunakan batas atas = 85 dan batas bawah = 2
Tanpa Normalisasi Normalisasi Z-Score Normalisasi Min - Max
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
88
4.3 User Interface
Dalam pembuatan user interface, sistem menggunakan matlab. Bab ini
mengimplementasikan user interface untuk melakukan preprocessing hingga
mengetahui akurasi dari pengelompokkan data dengan Agglomerative
Hierarchical Clustering. Gambar berikut merupakan tampilan keseluruhan sistem:
Gambar 4. 26 User Interface Sistem
Dari gambar diatas, langkah pertama pengguna ialah menginputkan
banyaknya data yang diinginkan, maksimal banyaknya data ialah 500, kemudian
menekan tombol Preprocessing, untuk melihat kata-kata unik yang digunakan
dalam proses, maka seluruh kata unik akan muncul beserta dengan jumlah dan nilai
terbesar serta terkecil. Setelah itu akan ada pemberitahuan bahwa proses
preprocessing telah berhasil. Maka langkah selanjutnya pengguna memasukkan
batas atas dan batas bawah, kemudian memilih perhitungan jarak, memilih jenis
normalisasi dan memilih jenis clusteringnya, kemudian setelah itu menekan tombol
Clustering. Maka muncul keseluruhan proses, dendrogram, hasil cluster yang
terbentuk, Confusion Matrix dan akurasi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
89
BAB V
PENUTUP
Bab ini berisi mengenai kesimpulan dan saran. Kesimpulan berisi mengenai hal
yang berkaitan dengan pengelompokkan tweet, dan saran berisi mengenai
pengembangan sistem.
5.1 Kesimpulan
Berdasarkan hasil penelitian, analisis sentimen data twitter menggunakan
Agglomrative Hierarchical Clustering dengan data tweet berjumlah 500 dan cluster =
5, diperoleh kesimpulan sebagai berikut :
1. Agglomerative Hierarchical Clustering dapat mengelompokkan data untuk
analisis sentimen data twitter dengan optimal dengan menunjukkan tingkat akurasi
tertinggi dalam percobaan pengelompokkannya
2. Tingkat akurasi tertinggi berada pada batas atas dengan jumlah kata unik sebesar
85, batas bawah dengan jumlah kata unik sebesar 2, menggunakan normalisasi z-score,
menggunakan perhitungan jarak cosine dan metode AHC average linkage yaitu 81,6%.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
90
5.2 Saran
Berikut ini saran yang dapat membantu penelitian ini agar lebih baik dan
berkembang, antara lain :
1. Bahasa yang terkandung didalam kalimat tweet - tweet tidak hanya bahasa
Indonesia.
2. Data yang digunakan lebih banyak sehingga dapat mencakup lebih banyak
kosakata dan pengenalan emosi menjadi lebih akurat.
3. Metode AHC dapat dicoba dengan metode lain selain single linkage, average
linkage, dan complete linkage.
4. Perhitungan jarak dapat dicoba dengan perhitungan jarak lain selain euclidean
distance dan cosine similarity.
5. Metode normalisasi dapat dicoba dengan metode lain selain min – max dan z-score.
6. Perhitungan akurasi dapat dicoba dengan perhitungan lain selain confusion matrix
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
91
Daftar Pustaka
Agusta,L. (2009). Perbandingan Algoritma Stemming Porter dengan Algoritma
Nazief & Adrian untuk Stemming dokumen teks bahasa Indonesia.
Konferensi Nasional sistm dan informatika. Bali.
Budhi, G.S., Rahardjo, A.I.,& Taufik, H, 21 Juni 2008, “Hierarchical Clustering
untuk aplikasi automated text integration”, Seminar Nasional Aplikasi
Teknologi Informasi, Universitas Kristen Petra Jurusan Teknik
Informatika, Surabaya.
Dragut, E., Fang, F., Sistla, P., Yu, S. & Meng, W. 2009. Stop Word and Related
Problems in Web Interface Integration. Diakses dari
http://www.vldb.org/pvldb/2/vldb09-384.pdf. Diakses pada 20 November
2016.
Goleman, D. (2006). Emotional Intelligenve : Kecerdasan emosional, Mengapa
EI lebih penting dari IQ. Jakarta : P.T. Gramedia Pustaka Utama
Harlian, Milkha., (2006) . Text Mining . Di akses dari
http://tessy.lecturer.pens.ac.id/kuliah/dm/6Text%20Mining.pdf . Diakses
pada 1 November 2016
Hartini, E. (2012). Metode Clustering Hirarki. Diakses dari
http://digilib.batan.go.id/ppin/katalog/file/0853-9812-2004-168.pdf.
Diakses pada 9 Oktober 2016
Kohavi dan Provost,. (1998)., Confusion Matriks. Diakses dari
http://faculty.smu.edu/TFomby/eco5385_eco6380/lecture/Confusion%2
0Matriks.pdf , Diakses pada 5 November 2016
Kurniawan, Aloysius Ary. (2017). Implementasi Algoritma Agglomerative
Hierarchical Clustering Untuk Mengelompokkan Capaian Belajar Siswa
SD. Skripsi. Universitas Sanata Dharma
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
92
Liu,B. (2012)., Sentimen Analysis and Opinion Mining., Morgan & Claypool
Publishers. Diakses dari
https://www.cs.uic.edu/~liub/FBS/SentimentAnalysis-and-
OpinionMining.pdf. Di akses pada 18 September 2016
Mandala, R., dan Setiwan, H. ( 2004)., Peningkatan Performannsi Sistem temu
Kembali Informasi dengan perluasan Query secara otomatis. Bandung,
Indonesia : Institut Teknologi Bandung.
Manning,C.D., raghavan, P., & Schutze, H (2009). An Introduction too
Information Retrieval. Cambridge: Cambridge University Press. Diakses
dari http://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf.
Diakses pada 10 September 2016.
Mustaffa,Z., Yusof, Y. (2011). A Comparison of Normalization Techniques in
Predicting Dengue Outbreak. 2010 International Conference on Bussiness
and Economic Research, hal 345 -349. Kuala Lumpur: IACSIT Press
Nazief, B., dan Mirna Adriani.,(2007), Confix-Stripping : Approach to Stemming
algorithm for bahasa Indonesia, Faculty of computer science university of
Indonesia.
Nugroho, Gregorius A.P,.(2016)., Analisis Sentimen Twitter menggunakan K-
Means. Skripsi. Universitas Sanata Dharma
Nur,M.Y.,dan Santika,D.D,.(2011), Analisis Sentimen pada Dokumen berbahasa
Indonesia dengan pendekatan Suport Vector Machine. Konferensi
Nasional Sistem dan Informatika. Universitas Bina Nusantara, Jakarta.
Pang,B dan Lee,L. (2008). Opinion Mining and Sentimen Analysis, Foundations
and Trends in Information Retrieval , vol. Volume 2, no. Issue 1-2,pp. 1-
135.
Prasetyo, E. ( 2014 ), Data Mining : Pengelolahan Data menjadi infromasi
menggunakan matlab. Andi Yogyakarta .
Rarasati, Dionisia B.(2015). Pengelompokkan Tema Lirik Lagu Menggunakan
Metode K-Means Clustering. Skripsi. Universitas Sanata Dharma
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
93
Shaver, P.R., Murdaya,U.,& Fraley, R.C.(2001). Structure of Indonesian Emotion
Lexicon. Asian Journal of Psychology,4,201-224.
Tala, Fadillah Z. (2003). A Study of Stemming Efects on Information Retrieval in
Bahasa Indonesia. Institute for Logic, Language and
ComputationUniversiteit van Amsterdam The Netherlands. Diakses dari
http://www.illc.uva.nl/Research/Reports/MoL-2003-02.text.pdf. Diakses
pada 29 November 2016.
Tan,P.N., Steinbach,M.,& Kumar,V. (2006). Introduction to Data Mining. Boston
: Pearson Addison Wesley
Yang, Y., dan Liu, X. (1999). A Re-examination of Text Categorization Methods.
Proceedings of SIGIR-99, 22nd ACM International Conference on
Research and Development in Information Retrieval: 42-49
https://m.tempo.co/read/news/2012/02/02/072381323/indonesia-pengguna-
twitter-terbesar-kelima-dunia di akses 1 September 2016
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
94
LAMPIRAN
1. Uji Validitas Sistem menggunakan 15 data
a. Perhitungan Manual menggunakan Excel
Berikut data perhitungan manual menggunakan excel dengan 15 data, data
1,2, dan 3 merupakan cluster 1. Data 4,5,6 merupakan cluster 2. Data 7,8, dan 9
merupakan cluster 3. Data 10,11, dan 12 merupakan cluster 4. Data 13,14, dan
15 merupakan cluster 5.
Data
1
kan ku berikan kau SENJA iya SENJA SENandung manJA agar kau
merasakan betapa tulusnya sayang ku
2
kamu itu SENJA! SEksi dan maNJA buat aku juga jadi SENJA!
SEmangat mENJalin cintA
3 Ditepi senja yang mulai beranjak pergi ini ku titip kan cinta ku untuk mu
4 Pramuka keren gembira asik. Selalu ceria bersama pramuka
5 Ketika anak-anak ceria Hati ku jadi gembira
6 Bahagia itu melihat dia bisa tersenyum riang gembira.
7
Anies oh anies.... Demi jabatan Gubernur semua dihalalkan... Disitu
kadang saya merasa sedih
8 Ya Allah beneran sedih banget ini keluar dari mulut Anies
9
Gue sebenarnya sangat sedih sekali mengapa Kubu Anies Baswedan
begitu tega menyakiti hati Gue........
10 Ya Tuhan.. Serem banget angin di luar... #takut
11 SENDIRIAN DIRUMAH.. SEREM AMAT #TAKUT
12 Ada yang nangis tapi ga ada orang yah,ih serem #takut
13 kesal hati jengkel gue lembur mulu
14
Dari tadi di jahilin terus sama dia di buat marah kesel jengkel Sampai lupa
hari
15
sangat jengkel dan kesal. Dan kami berharap setelah itu ia akan berhenti
menjahili orang-orang
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
95
TOKENIZING
1
kan ku berikan kau senja iya senja senandung manja agar kau merasakan
betapa tulusnya sayang ku
2
kamu itu senja seksi dan manja buat aku juga jadi senja semangat
menjalin cinta
3 ditepi senja yang mulai beranjak pergi ini ku titip kan cinta ku untuk mu
4 pramuka keren gembira asik selalu ceria bersama pramuka
5 ketika anak anak ceria hati ku jadi gembira
6 bahagia itu melihat dia bisa tersenyum riang gembira
7
anies oh anies demi jabatan gubernur semua dihalalkan disitu kadang saya
merasa sedih
8 ya allah beneran sedih banget ini keluar dari mulut anies
9
gue sebenarnya sangat sedih sekali mengapa kubu anies baswedan begitu
tega menyakiti hati gue
10 ya Tuhan serem banget angin di luar takut
11 sendirian dirumah serem amat takut
12 ada yang nangis tapi ga ada orang yah ih serem takut
13 kesal hati jengkel gue lembur mulu
14
dari tadi di jahilin terus sama dia di buat marah kesal jengkel sampai lupa
hari
15
sangat jengkel dan kesal dan kami berharap setelah itu ia akan berhenti
menjahili orang orang
STOPWORD
1 senja senja senandung manja merasakan tulusnya sayang
2 senja seksi manja senja semangat menjalani cinta
3 senja beranjak pergi cinta
4 pramuka keren gembira asik selalu ceria bersama pramuka
5 ceria hati gembira
6 bahagia melihat tersenyum riang gembira
7 demi jabatan dihalalkan merasa sedih
8 beneran sedih keluar
9 sebenarnya sedih kubu tega menyakiti hati
10 serem angin takut
11 sendirian serem takut
12 nangis serem takut
13 kesal hati jengkel lembur
14 jahilin marah kesal jengkel lupa
15 jengkel kesal berharap berhenti menjahili
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
96
STEMMING
1 senja senja senandung manja rasa tulus sayang
2 senja seksi manja senja semangat jalan cinta
3 senja pergi cinta
4 pramuka keren gembira asik selalu ceria pramuka
5 ceria hati gembira
6 bahagia senyum riang gembira
7 demi jabatan halal rasa sedih
8 sedih
9 sedih kudu tega sakit hati
10 serem angin takut
11 serem takut
12 nangis serem takut
13 kesal hati jengkel lembur
14 jahil marah kesal jengkel lupa
15 jengkel kesal harap henti jahil
TF
1 senja = 2
senandung =
1 manja = 1 rasa = 1 tulus =1
sayang
=1
2 senja = 2 seksi =1 manja =1
semangat
=1 jalan =1 cinta =1
3 senja =1 pergi =1 cinta =1
4 pramuka =2 keren =1
gembira
=1 asik =1 selalu=1 ceria =1
5 ceria =1 hati =1
gembira
=1
6 bahagia = 1 senyum =1 riang =1 gembira =1
7 demi =1 jabatan =1 halal =1 rasa =1 sedih =1
8 sedih =1
9 sedih =1 kudu = 1 tega =1 sakit =1 hati =1
10 serem =1 angin =1 takut =1
11 serem =1 takut =1
12 nangis =1 serem =1 takut=1
13 kesal = 1 hati =1 jengkel =1 lembur =1
14 jahil = 1 marah =1 kesal =1 jengkel =1 lupa =1
15 jengkel =1 kesal =1 harap=1 jhenti=1 jahil=1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
97
Kata Unik df D D/DF IDF
1 senja 5 15 3 0,477121255
2 senandung 1 15 15 1,176091259
3 manja 2 15 7,5 0,875061263
4 rasa 2 15 7,5 0,875061263
5 tulus 1 15 15 1,176091259
6 seksi 1 15 15 1,176091259
7 semangat 1 15 15 1,176091259
8 jalan 1 15 15 1,176091259
9 cinta 3 15 5 0,698970004
10 pergi 1 15 15 1,176091259
11 pramuka 2 15 7,5 0,875061263
12 keren 1 15 15 1,176091259
13 gembira 6 15 2,5 0,397940009
14 asik 1 15 15 1,176091259
15 selalu 1 15 15 1,176091259
16 hati 3 15 5 0,698970004
17 rasa 1 15 15 1,176091259
18 senyum 1 15 15 1,176091259
19 riang 1 15 15 1,176091259
20 demi 1 15 15 1,176091259
21 jabatan 1 15 15 1,176091259
22 halal 1 15 15 1,176091259
23 sedih 3 15 5 0,698970004
24 kudu 1 15 15 1,176091259
25 tega 1 15 15 1,176091259
26 sakit 1 15 15 1,176091259
27 serem 3 15 5 0,698970004
28 angin 1 15 15 1,176091259
29 takut 3 15 5 0,698970004
30 nangis 1 15 15 1,176091259
31 lembur 1 15 15 1,176091259
32 jahil 2 15 7,5 0,875061263
33 marah 7 15 2,142857143 0,330993219
34 lupa 1 15 15 1,176091259
35 harap 1 15 15 1,176091259
36 henti 1 15 15 1,176091259
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
98
Sinonim
cinta = sayang
gembira = ceria = bahagia
kesal = jengkel = marah
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
99
Bobot setiap data
ATRIBUT
Data senja Senandung manja rasa tulus seksi Semangat jalan cinta pergi pramuka keren gembira asik selalu hati rasa senyum
1 0,954 1,176 0,875 0,875 1,176 0,000 0,000 0,000 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
2 1,908 0,000 0,875 0,000 0,000 1,176 1,176 1,176 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
3 0,477 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 1,176 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 1,750 1,176 0,796 1,176 1,176 0,000 0,000 0,000
5 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,796 0,000 0,000 0,699 0,000 0,000
6 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,796 0,000 0,000 0,000 0,000 1,176
7 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 1,176 0,000
8 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
9 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,000 0,000
10 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
11 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
12 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
13 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,000 0,000
14 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
15 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
100
Atribut
Data riang demi jabatan halal sedih kudu tega sakit serem angin takut nangis lembur jahil marah lupa harap henti
1 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
2 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
3 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
5 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
6 1,176 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
7 0,000 1,176 1,176 1,176 1,176 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
8 0,000 0,000 0,000 0,000 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
9 0,000 0,000 0,000 0,000 0,699 1,176 1,176 1,176 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
10 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 1,176 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000
11 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,000 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000
12 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,000 0,699 1,176 0,000 0,000 0,000 0,000 0,000 0,000
13 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 1,176 0,000 0,662 0,000 0,000 0,000
14 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,875 0,993 1,176 0,000 0,000
15 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 1,176 0,662 0,000 1,176 1,176
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
101
Normalisasi Z-score
Warna merah menunjukkan hasil normalisasi.
Atribut
Data senja senandung manja rasa tulus seksi semangat jalan cinta pergi pramuka keren gembira asik selalu hati rasa senyum
1 0,954 0,616 0,875 0,875 0,616 0,000 0,000 0,000 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
2 1,000 0,000 0,875 0,000 0,000 1,176 1,176 1,176 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
3 0,477 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,616 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,917 0,917 0,796 0,917 0,917 0,000 0,000 0,000
5 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,417 0,000 0,000 0,699 0,000 0,000
6 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,796 0,000 0,000 0,000 0,000 0,917
7 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,917 0,000
8 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
9 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,000 0,000
10 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
11 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
12 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
13 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,000 0,000
14 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
15 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
102
Normalisasi Z-score
Atribut
Data riang demi jabatan halal sedih kudu tega sakit serem angin takut nangis lembur jahil marah lupa harap henti
1 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
2 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
3 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
5 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
6 0,917 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
7 0,000 0,917 0,917 0,917 0,917 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
8 0,000 0,000 0,000 0,000 0,366 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
9 0,000 0,000 0,000 0,000 0,699 0,917 0,917 0,917 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
10 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,917 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000
11 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,366 0,000 0,366 0,000 0,000 0,000 0,000 0,000 0,000 0,000
12 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,000 0,699 0,616 0,000 0,000 0,000 0,000 0,000 0,000
13 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,616 0,000 0,662 0,000 0,000 0,000
14 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,875 0,993 0,616 0,000 0,000
15 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,616 0,662 0,000 0,616 0,616
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
103
Matriks Jarak menggunakan Cosine similarity
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1 1 0,45 0,47 0 0 0 0 0 0 0 0 0 0 0 0
2 1 0,36 0 0 0 0 0 0 0 0 0 0 0 0
3 1 0 0 0 0 0 0 0 0 0 0 0 0
4 1 0,20 0,21 0 0 0 0 0 0 0 0 0
5 1 0,27 0 0 0,32 0 0 0 0,53 0 0
6 1 0 0 0 0 0 0 0 0 0
7 1 0,45 0,17 0 0 0 0 0 0
8 1 0,37 0 0 0 0 0 0
9 1 0 0 0 0,23 0 0
10 1 0,73 0,62 0 0 0
11 1 0,85 0 0 0
12 1 0 0 0
13 1 0,39 0,31
14 1 0,65
15 1
Pengelompokkan menggunakan AHC dengan metode Average linkage
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1 1 0,45 0,47 0 0 0 0 0 0 0 0 0 0 0 0
2 1 0,36 0 0 0 0 0 0 0 0 0 0 0 0
3 1 0 0 0 0 0 0 0 0 0 0 0 0
4 1 0,20 0,21 0 0 0 0 0 0 0 0 0
5 1 0,27 0 0 0,32 0 0 0 0,53 0 0
6 1 0 0 0 0 0 0 0 0 0
7 1 0,45 0,17 0 0 0 0 0 0
8 1 0,37 0 0 0 0 0 0
9 1 0 0 0 0,23 0 0
10 1 0,73 0,62 0 0 0
11 1 0,85 0 0 0
12 1 0 0 0
13 1 0,39 0,31
14 1 0,65
15 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
104
2
1 2 3 4 5 6 7 8 9 10 11.12 13 14 15
1 1 0,45 0,47 0 0 0 0 0 0 0 0,00 0,00 0,00 0,00
2 1 0,36 0 0 0 0 0 0 0 0,00 0,00 0,00 0,00
3 1 0 0 0 0 0 0 0 0,00 0,00 0,00 0,00
4 1 0,20 0,21 0 0 0 0 0,00 0,00 0,00 0,00
5 1 0,27 0 0 0,32 0 0,00 0,53 0,00 0,00
6 1 0 0 0 0 0,00 0,00 0,00 0,00
7 1 0,45 0,17 0 0,00 0,00 0,00 0,00
8 1 0,37 0 0,00 0,00 0,00 0,00
9 1 0 0,00 0,23 0,00 0,00
10 1 0,68 0,00 0,00 0,00
11.12 1,00 0,00 0,00 0,00
13 1,00 0,39 0,31
14 1,00 0,65
15 1,00
3
1 2 3 4 5 6 7 8 9
11.12.
10 13 14 15
1 1,00 0,45 0,47 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
2 1,00 0,36 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
3 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
4 1,00 0,20 0,21 0,00 0,00 0,00 0,00 0,00 0,00 0,00
5 1,00 0,27 0,00 0,00 0,32 0,00 0,53 0,00 0,00
6 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
7 1,00 0,45 0,17 0,00 0,00 0,00 0,00
8 1,00 0,37 0,00 0,00 0,00 0,00
9 1,00 0,00 0,23 0,00 0,00
11.12.
10 1,00 0,00 0,00 0,00
13 1,00 0,39 0,31
14 1,00 0,65
15 1,00
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
105
4
1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 11.12.10 13,00 14.15
1,00 1,00 0,45 0,47 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
2,00 1,00 0,36 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
3,00 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
4,00 1,00 0,20 0,21 0,00 0,00 0,00 0,00 0,00 0,00
5,00 1,00 0,27 0,00 0,00 0,32 0,00 0,53 0,00
6,00 1,00 0,00 0,00 0,00 0,00 0,00 0,00
7,00 1,00 0,45 0,17 0,00 0,00 0,00
8,00 1,00 0,37 0,00 0,00 0,00
9,00 1,00 0,00 0,23 0,00
11.12.10 1,00 0,00 0,00
13,00 1,00 0,35
14.15 1,00
5
1,00 2,00 3,00 4,00 5.13 6,00 7,00 8,00 9,00 11.12.10 14.15
1,00 1,00 0,45 0,47 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
2,00 1,00 0,36 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
3,00 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
4,00 1,00 0,10 0,21 0,00 0,00 0,00 0,00 0,00
5.13 1,00 0,13 0,00 0,00 0,27 0,00 0,17
6,00 1,00 0,00 0,00 0,00 0,00 0,00
7,00 1,00 0,45 0,17 0,00 0,00
8,00 1,00 0,37 0,00 0,00
9,00 1,00 0,00 0,00
11.12.10 1,00 0,00
14.15 1,00
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
106
6
1.3 2,00 4,00 5.13 6,00 7,00 8,00 9,00 11.12.13 14.15
1.3 1,00 0,41 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
2,00 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
4,00 1,00 0,10 0,21 0,00 0,00 0,00 0,00 0,00
5.13 1,00 0,10 0,21 0,00 0,00 0,00 0,00
6,00 1,00 0,00 0,00 0,00 0,00 0,00
7,00 1,00 0,45 0,17 0,00 0,00
8,00 1,00 0,37 0,00 0,00
9,00 1,00 0,00 0,00
11.12.13 1,00 0,00
14.15 1,00
7
1.3 2,00 4,00 5.13 6,00 7.8 9,00 11.12.13 14.15
1.3 1,00 0,41 0,00 0,00 0,00 0,00 0,00 0,00 0,00
2,00 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
4,00 1,00 0,10 0,21 0,00 0,00 0,00 0,00
5.13 1,00 0,10 0,10 0,00 0,00 0,00
6,00 1,00 0,00 0,00 0,00 0,00
7.8 1,00 0,27 0,00 0,00
9,00 1,00 0,00 0,00
11.12.13 1,00 0,00
14.15 1,00
8
1.3.2 4,00 5.13 6,00 7.8 9,00 11.12.13 14.15
1.3.2 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
4,00 1,00 0,10 0,21 0,00 0,00 0,00 0,00
5.13 1,00 0,10 0,10 0,00 0,00 0,00
6,00 1,00 0,00 0,00 0,00 0,00
7.8 1,00 0,27 0,00 0,00
9,00 1,00 0,00 0,00
11.12.13 1,00 0,00
14.15 1,00
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
107
9
1.3.2 4,00 5.13 6,00 7.8.9 11.12.13 14.15
1.3.2 1,00 0,00 0,00 0,00 0,00 0,00 0,00
4,00 1,00 0,10 0,21 0,00 0,00 0,00
5.13 1,00 0,10 0,05 0,00 0,00
6,00 1,00 0,00 0,00 0,00
7.8.9 1,00 0,00 0,00
11.12.13 1,00 0,00
14.15 1,00
10
1.3.2 4.6 5.13 7.8.9 11.12.13 14.15
1.3.2 1,00 0,00 0,00 0,00 0,00 0,00
4.6 1,00 0,10 0,00 0,00 0,00
5.13 1,00 0,05 0,00 0,00
7.8.9 1,00 0,00 0,00
11.12.13 1,00 0,00
14.15 1,00
11
1.3.2 4.6.5.13 7.8.9 11.12.13 14.15
1.3.2 1,00 0,00 0,00 0,00 0,00
4.6.5.13 1,00 0,03 0,00 0,00
7.8.9 1,00 0,00 0,00
11.12.13 1,00 0,00
14.15 1,00
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
108
Dendrogram
Hasil Cluster :
Cluster 1 : Data 1, Data 2, dan Data 3
Cluster 2 : Data 4, Data 5, Data 6, dan Data 13
Cluster 3 : Data 7, Data 8 dan Data 9
Cluster 4 : Data 10. Data 11, dan Data 12
Cluster 5 : Data 14 dan Data 15
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
109
Confusion Matriks
Cluster tweet 1 2 3 4 5
1 3 0 0 0 0
2 0 3 0 0 1
3 0 0 3 0 0
4 0 0 0 3 0
5 0 1 0 0 2
Akurasi == 3+3+3+3+2
15x100% = 93.3%
b. Pengujian menggunakan sistem dengan perhitungan jarak cosine similarity,
normalisasi Z-score dan metode Average linkage
No Batas Atas Batas Bawah Akurasi
1. 5 0 66.67 %
2. 5 1 86.67 %
3. 5 2 93.33 %
4. 4 0 66.67 %
5. 4 1 86.67 %
6. 4 2 100 %
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
110
Berikut Dendrogram dan Confusion matriks dari hasil clustering menggunakan
batas atas = 4 dan batas bawah = 2.
Dendrogram
Confusion Matriks
Cluster tweet 1 2 3 4 5
1 3 0 0 0 0
2 0 3 0 0 0
3 0 0 3 0 0
4 0 0 0 3 0
5 0 0 0 0 3
Akurasi == 3+3+3+3+3
15x100% = 100%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
111
2. Tabel
2.1 Tabel Tanpa Normalisasi
2.1.1 Percobaan Menggunakan Euclidean distance
a. Metode Average linkage
Pengujian
Data Tanpa Normalisasi, Euclidean Distane,Average
B
A
T
A
S
B
A
W
A
H
Batas
Atas 86 85 84 83 82
0 23.8 34.4 34.4 34.4 34.4
1 23.8 34.4 34.4 34.4 34.4
2 23.8 34.4 34.4 34.4 34.4
3 23.8 34.4 34.4 34.4 34.4
4 23.8 34.4 34.4 34.4 34.4
5 23.8 34.4 34.4 34.4 34.4
6 23.8 34.4 34.4 34.4 34.4
7 23.8 34.4 34.4 34.4 34.4
8 23.8 34.4 34.4 34.4 34.4
9 23.8 36 36 36 36
10 23.8 36 36 36 36
11 27 36 36 36 36
12 20.2 36 36 36 36
13 20.2 36 36 36 36
14 20.2 34.4 34.4 34.4 34.4
15 34.2 23.6 23.6 23.6 23.6
16 34.2 34.4 34.4 34.4 34.4
17 38 34.4 34.4 34.4 34.4
18 38 34.4 34.4 34.4 34.4
19 38 34.4 34.4 34.4 34.4
20 38 34.4 34.4 34.4 34.4
21 38 34.4 34.4 34.4 34.4
22 38 34.4 34.4 34.4 34.4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
112
b. Metode Single linkage
Pengujian
Data Tanpa Normalisasi, Euclidean Distane,Single
B
A
T
A
S
B
A
W
A
H
Batas
Atas 86 85 84 83 82
0 20.2 34.4 34.4 34.4 34.4
1 20.2 34.4 34.4 34.4 34.4
2 20.2 34.4 34.4 34.4 34.4
3 20.2 34.4 34.4 34.4 34.4
4 20.2 34.4 34.4 34.4 34.4
5 20.2 34.4 34.4 34.4 34.4
6 23.8 34.4 34.4 34.4 34.4
7 23.8 34.4 34.4 34.4 34.4
8 23.8 34.4 34.4 34.4 34.4
9 23.8 34.4 34.4 34.4 34.4
10 23.8 34.4 34.4 34.4 34.4
11 23.8 34.4 34.4 34.4 34.4
12 23.8 34.4 34.4 34.4 34.4
13 23.8 34.4 34.4 34.4 34.4
14 23.8 34.4 34.4 34.4 34.4
15 23.8 34.4 34.4 34.4 34.4
16 23.8 34.4 34.4 34.4 34.4
17 23.8 34.4 34.4 34.4 34.4
18 23.8 34.4 34.4 34.4 34.4
19 23.8 34.4 34.4 34.4 34.4
20 23.8 34.4 34.4 34.4 34.4
21 23.8 34.4 34.4 34.4 34.4
22 23.8 34.4 34.4 34.4 34.4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
113
c. Metode Complete linkage
Pengujian
Data Tanpa Normalisasi, Euclidean Distane,Complete
B
A
T
A
S
B
A
W
A
H
Batas
Atas 86 85 84 83 82
0 24 34.4 34.4 34.4 34.4
1 24 34.4 34.4 34.4 34.4
2 24 34.4 34.4 34.4 34.4
3 24 34.4 34.4 34.4 34.4
4 24 34.4 34.4 34.4 34.4
5 24 34.4 34.4 34.4 34.4
6 24 34.4 34.4 34.4 34.4
7 24 34.4 34.4 34.4 34.4
8 24 34.4 34.4 34.4 34.4
9 24 34.4 34.4 34.4 34.4
10 24 34.4 34.4 34.4 34.4
11 24 34.4 34.4 34.4 34.4
12 24 34.4 34.4 34.4 34.4
13 27.2 34.4 34.4 34.4 34.4
14 27.2 34.4 34.4 34.4 34.4
15 34.4 34.4 34.4 34.4 34.4
16 34.4 34.4 34.4 34.4 34.4
17 34.4 34.4 34.4 34.4 34.4
18 34.4 34.4 34.4 34.4 34.4
19 34.4 34.4 34.4 34.4 34.4
20 34.4 34.4 34.4 34.4 34.4
21 34.4 34.4 34.4 34.4 34.4
22 34.4 34.4 34.4 34.4 34.4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
114
2.1.2 Percobaan Menggunakan Cosine similarity
a. Metode Average linkage
Pengujian
Data Tanpa Normalisasi, Cosine similarity, Average
B
A
T
A
S
B
A
W
A
H
Batas
Atas 86 85 84 83 82
0 20.4 20.4 20.4 20.4 20.4
1 21.4 20.6 20.6 20.6 20.6
2 21.4 21.4 21.4 21.4 21.4
3 23.8 23.8 23.8 23.8 23.8
4 26 26 26 26 26
5 29.2 26 26 26 26
6 28.2 28.2 28.2 28.2 28.2
7 28.2 28.2 28.2 28.2 28.2
8 30.2 30.2 30.2 30.2 30.2
9 39.2 40.2 40.2 40.2 40.2
10 28.2 30.2 30.2 30.2 30.2
11 40.2 39.8 39.8 39.8 39.8
12 40.2 40.2 40.2 40.2 40.2
13 37.6 40.2 40.2 40.2 40.2
14 27.4 40.2 40.2 40.2 40.2
15 40.2 40.2 40.2 40.2 40.2
16 39.8 27.4 27.4 27.4 27.4
17 27.4 50 50 50 50
18 27.4 50 50 50 50
19 27.4 50 50 50 50
20 27.4 50 50 50 50
21 27.4 50 50 50 50
22 49.2 27.4 27.4 27.4 27.4
b. Metode Single linkage
Pengujian
Data Tanpa Normalisasi, Cosine similarity, Single
86 85 84 83 82
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
115
B
A
T
A
S
B
A
W
A
H
Batas
Atas
0 20.2 20.2 20.2 20.2 20.2
1 20.2 20.2 20.2 20.2 20.2
2 20.2 20.2 20.2 20.2 20.2
3 20.2 20.2 20.2 20.2 20.2
4 20.2 20.2 20.2 20.2 20.2
5 20.2 20.2 20.2 20.2 20.2
6 20.2 20.2 20.2 20.2 20.2
7 20.2 20.2 20.2 20.2 20.2
8 20.2 20.2 20.2 20.2 20.2
9 20.2 20.2 20.2 20.2 20.2
10 20.2 20.2 20.2 20.2 20.2
11 20.2 20.2 20.2 20.2 20.2
12 20.2 20.2 20.2 20.2 20.2
13 20.2 20.2 20.2 20.2 20.2
14 20.2 20.2 20.2 20.2 20.2
15 20.2 20.2 20.2 20.2 20.2
16 20.2 20.2 20.2 20.2 20.2
17 20.2 20.2 20.2 20.2 20.2
18 20.2 20.2 20.2 20.2 20.2
19 20.2 20.2 20.2 20.2 20.2
20 20.2 20.2 20.2 20.2 20.2
21 20.2 20.2 20.2 20.2 20.2
22 20.2 20.2 20.2 20.2 20.2
c. Metode Complete linkage
Pengujian
Data Tanpa Normalisasi, Cosine similarity, Complete
Batas
Atas 86 85 84 83 82
0 21.8 21.8 21.8 21.8 21.8
1 21.8 21.8 21.8 21.8 21.8
2 21.8 21.8 21.8 21.8 21.8
3 21.8 21.8 21.8 21.8 21.8
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
116
B
A
T
A
S
B
A
W
A
H
4 21.8 21.8 21.8 21.8 21.8
5 21.8 21.8 21.8 21.8 21.8
6 21.8 21.8 21.8 21.8 21.8
7 21.8 21.8 21.8 21.8 21.8
8 21.8 21.8 21.8 21.8 21.8
9 21.8 21.8 21.8 21.8 21.8
10 21.8 21.8 21.8 21.8 21.8
11 21.8 21.8 21.8 21.8 21.8
12 21.8 21.8 21.8 21.8 21.8
13 21.8 21.8 21.8 21.8 21.8
14 21.8 21.8 21.8 21.8 21.8
15 21.8 21.8 21.8 21.8 21.8
16 21.8 21.8 21.8 21.8 21.8
17 21.8 21.8 21.8 21.8 21.8
18 21.8 21.8 21.8 21.8 21.8
19 21.8 21.8 21.8 21.8 21.8
20 21.8 21.8 21.8 21.8 21.8
21 21.8 21.8 21.8 21.8 21.8
22 21.8 21.8 21.8 21.8 21.8
2.2 Tabel Normalisasi Min – Max
2.2.1 Percobaan Menggunakan Euclidean distance
a. Metode Average linkage
Pengujian
Data Normalisasi Min - max, Euclidean Distane,Average
B
A
T
Batas
Atas 86 85 84 83 82
0 20,6 20,2 20,2 20,2 20,2
1 20,2 20,2 20,2 20,2 20,2
2 20,2 20,2 20,2 20,2 20,2
3 20,2 20,2 20,2 20,2 20,2
4 20,4 20,2 20,2 20,2 20,2
5 20,2 20,4 20,4 20,4 20,4
6 20,2 20,2 20,2 20,2 20,2
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
117
A
S
B
A
W
A
H
7 20,2 20,4 20,4 20,4 20,4
8 20,2 20,4 20,4 20,4 20,4
9 20,2 20,4 20,4 20,4 20,4
10 20,4 20,4 20,4 20,4 20,4
11 20,4 20,4 20,4 20,4 20,4
12 21 20,4 20,4 20,4 20,4
13 21 25,2 25,2 25,2 25,2
14 20,8 25,2 25,2 25,2 25,2
15 25,2 23,2 23,2 23,2 23,2
16 25,2 23,2 23,2 23,2 23,2
17 23,2 34,4 34,4 34,4 34,4
18 23,2 34,4 34,4 34,4 34,4
19 23,2 34,4 34,4 34,4 34,4
20 23,2 34,4 34,4 34,4 34,4
21 23,2 34,4 34,4 34,4 34,4
22 23,2 34,4 34,4 34,4 34,4
b. Metode Single linkage
Pengujian
Data Normalisasi Min - max, Euclidean Distane,Single
B
A
T
A
S
B
A
W
A
H
Batas
Atas 86 85 84 83 82
0 20,2 20,2 20,2 20,2 20,2
1 20,2 20,2 20,2 20,2 20,2
2 20,2 20,2 20,2 20,2 20,2
3 20,2 20,2 20,2 20,2 20,2
4 20,2 20,2 20,2 20,2 20,2
5 20,2 20,2 20,2 20,2 20,2
6 20,2 20,2 20,2 20,2 20,2
7 20,2 20,2 20,2 20,2 20,2
8 20,2 20,2 20,2 20,2 20,2
9 20,2 20,2 20,2 20,2 20,2
10 20,2 20,2 20,2 20,2 20,2
11 20,2 20,2 20,2 20,2 20,2
12 20,2 20,2 20,2 20,2 20,2
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
118
13 20,2 20,2 20,2 20,2 20,2
14 20,2 20,2 20,2 20,2 20,2
15 22,6 22,6 22,6 22,6 22,6
16 22,6 22,6 22,6 22,6 22,6
17 22,6 22,6 22,6 22,6 22,6
18 22,6 22,6 22,6 22,6 22,6
19 22,6 22,6 22,6 22,6 22,6
20 22,6 22,6 22,6 22,6 22,6
21 22,6 22,6 22,6 22,6 22,6
22 22,6 22,6 22,6 22,6 22,6
c. Metode Complete linkage
Pengujian
Data Normalisasi Min - max, Euclidean
Distane,Complete
B
A
T
A
S
B
A
W
A
H
Batas
Atas 86 85 84 83 82
0 20,4 20,4 20,4 20,4 20,4
1 21 23,4 23,4 23,4 23,4
2 27,6 22,8 22,8 22,8 22,8
3 21 20,2 20,2 20,2 20,2
4 24,6 24,2 24,2 24,2 24,2
5 25,8 24 24 24 24
6 21,8 22,8 22,8 22,8 22,8
7 21,6 38,2 38,2 38,2 38,2
8 27,4 30,2 30,2 30,2 30,2
9 27,4 20,2 20,2 20,2 20,2
10 20,2 72,2 72,2 72,2 72,2
11 58,6 24,2 24,2 24,2 24,2
12 43,4 31 31 31 31
13 23,4 40,2 40,2 40,2 40,2
14 27,6 35,4 35,4 35,4 35,4
15 20,4 25,8 25,8 25,8 25,8
16 20,4 25,8 25,8 25,8 25,8
17 38,6 40,8 40,8 40,8 40,8
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
119
18 38,6 40,8 40,8 40,8 40,8
19 38,6 40,8 40,8 40,8 40,8
20 38,6 40,8 40,8 40,8 40,8
21 38,6 40,8 40,8 40,8 40,8
22 38,6 40,8 40,8 40,8 40,8
2.2.2 Percobaan Menggunakan Cosine similarity
a. Metode Average linkage
Pengujian
Data Normalisasi Min - max, Cosine similarity, Average
B
A
T
A
S
B
A
W
A
H
Batas
Atas 86 85 84 83 82
0 20,2 20,4 20,4 20,4 20,4
1 21,4 20,6 20,6 20,6 20,6
2 21,4 21,2 21,2 21,2 21,2
3 23,8 23,8 23,8 23,8 23,8
4 26 26 26 26 26
5 26 26 26 26 26
6 31.2 28,2 28,2 28,2 28,2
7 28,2 30,2 30,2 30,2 30,2
8 30,2 40,2 40,2 40,2 40,2
9 28,2 40,2 40,2 40,2 40,2
10 28,2 28,2 28,2 28,2 28,2
11 40,2 39,8 39,8 39,8 39,8
12 40,2 40,2 40,2 40,2 40,2
13 37,6 40,2 40,2 40,2 40,2
14 40,2 40,2 40,2 40,2 40,2
15 40,2 40,2 40,2 40,2 40,2
16 39,8 27,4 27,4 27,4 27,4
17 27,4 27,2 27,2 27,2 27,2
18 27,4 27,2 27,2 27,2 27,2
19 27,4 27,2 27,2 27,2 27,2
20 27,4 27,2 27,2 27,2 27,2
21 27,4 27,2 27,2 27,2 27,2
22 27,4 27,2 27,2 27,2 27,2
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
120
b. Metode Single linkage
Pengujian
Data Normalisasi Min - max, Cosine similarity, Single
B
A
T
A
S
B
A
W
A
H
Batas
Atas 86 85 84 83 82
0 20.2 20.2 20.2 20.2 20.2
1 20.2 20.2 20.2 20.2 20.2
2 20.2 20.2 20.2 20.2 20.2
3 20.2 20.2 20.2 20.2 20.2
4 20.2 20.2 20.2 20.2 20.2
5 20.2 20.2 20.2 20.2 20.2
6 20.2 20.2 20.2 20.2 20.2
7 20.2 20.2 20.2 20.2 20.2
8 20.2 20.2 20.2 20.2 20.2
9 20.2 20.2 20.2 20.2 20.2
10 20.2 20.2 20.2 20.2 20.2
11 20.2 20.2 20.2 20.2 20.2
12 20.2 20.2 20.2 20.2 20.2
13 20.2 20.2 20.2 20.2 20.2
14 20.2 20.2 20.2 20.2 20.2
15 20.2 20.2 20.2 20.2 20.2
16 20.2 20.2 20.2 20.2 20.2
17 20.2 20.2 20.2 20.2 20.2
18 20.2 20.2 20.2 20.2 20.2
19 20.2 20.2 20.2 20.2 20.2
20 20.2 20.2 20.2 20.2 20.2
21 20.2 20.2 20.2 20.2 20.2
22 20.2 20.2 20.2 20.2 20.2
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
121
c. Metode Complete linkage
Pengujian
Data Normalisasi Min - max, Cosine similarity, Complete
B
A
T
A
S
B
A
W
A
H
Batas
Atas 86 85 84 83 82
0 21,8 21,8 21,8 21,8 21,8
1 21,4 21,4 21,4 21,4 21,4
2 21,4 21,4 21,4 21,4 21,4
3 21,4 21,4 21,4 21,4 21,4
4 21,4 21,4 21,4 21,4 21,4
5 21,4 21,4 21,4 21,4 21,4
6 21,4 21,4 21,4 21,4 21,4
7 21,4 21,8 21,8 21,8 21,8
8 21,8 21,8 21,8 21,8 21,8
9 21,8 21,8 21,8 21,8 21,8
10 21,8 21,8 21,8 21,8 21,8
11 21,8 21,8 21,8 21,8 21,8
12 21,8 21,8 21,8 21,8 21,8
13 21,8 21,8 21,8 21,8 21,8
14 21,8 21,8 21,8 21,8 21,8
15 21,8 21,8 21,8 21,8 21,8
16 21,8 21,8 21,8 21,8 21,8
17 21,8 21,8 21,8 21,8 21,8
18 21,8 21,8 21,8 21,8 21,8
19 21,8 21,8 21,8 21,8 21,8
20 21,8 21,8 21,8 21,8 21,8
21 21,8 21,8 21,8 21,8 21,8
22 21,8 21,8 21,8 21,8 21,8
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
122
2.3 Tabel Normalisasi Z-score
2.3.1 Percobaan Menggunakan Euclidean distance
a. Metode Average linkage
Pengujian
Data Normalisasi zscore, Euclidean Distane,Average
B
A
T
A
S
B
A
W
A
H
Batas
Atas 86 85 84 83 82
0 23.8 34.4 34.4 34.4 34.4
1 23.8 34.4 34.4 34.4 34.4
2 23.8 34.4 34.4 34.4 34.4
3 23.8 34.4 34.4 34.4 34.4
4 23.8 34.4 34.4 34.4 34.4
5 23.8 34.4 34.4 34.4 34.4
6 23.8 34.4 34.4 34.4 34.4
7 23.8 34.4 34.4 34.4 34.4
8 23.8 34.4 34.4 34.4 34.4
9 23.8 23.6 23.6 23.6 23.6
10 23.8 23.6 23.6 23.6 23.6
11 27 23.6 23.6 23.6 23.6
12 20.2 23.6 23.6 23.6 23.6
13 20.3 23.6 23.6 23.6 23.6
14 20.4 34.4 34.4 34.4 34.4
15 34.2 23.6 23.6 23.6 23.6
16 34.2 34.4 34.4 34.4 34.4
17 38 34.4 34.4 34.4 34.4
18 38 34.4 34.4 34.4 34.4
19 38 34.4 34.4 34.4 34.4
20 38 34.4 34.4 34.4 34.4
21 38 34.4 34.4 34.4 34.4
22 38 34.4 34.4 34.4 34.4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
123
b. Metode Single linkage
Pengujian
Data Normalisasi zscore, Euclidean Distane,Single
B
A
T
A
S
B
A
W
A
H
Batas
Atas 86 85 84 83 82
0 20.2 34.4 34.4 34.4 34.4
1 20.2 34.4 34.4 34.4 34.4
2 20.2 34.4 34.4 34.4 34.4
3 20.2 34.4 34.4 34.4 34.4
4 20.2 34.4 34.4 34.4 34.4
5 20.2 34.4 34.4 34.4 34.4
6 23.8 34.4 34.4 34.4 34.4
7 23.8 34.4 34.4 34.4 34.4
8 23.8 34.4 34.4 34.4 34.4
9 23.8 34.4 34.4 34.4 34.4
10 23.8 34.4 34.4 34.4 34.4
11 23.8 34.4 34.4 34.4 34.4
12 23.8 34.4 34.4 34.4 34.4
13 23.8 34.4 34.4 34.4 34.4
14 23.8 34.4 34.4 34.4 34.4
15 23.8 34.4 34.4 34.4 34.4
16 23.8 34.4 34.4 34.4 34.4
17 23.8 34.4 34.4 34.4 34.4
18 23.8 34.4 34.4 34.4 34.4
19 23.8 34.4 34.4 34.4 34.4
20 23.8 34.4 34.4 34.4 34.4
21 23.8 34.4 34.4 34.4 34.4
22 23.8 34.4 34.4 34.4 34.4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
124
c. Metode Complete linkage
Pengujian
Data Normalisasi zscore, Euclidean Distane,Complete
B
A
T
A
S
B
A
W
A
H
Batas
Atas 86 85 84 83 82
0 24 34.4 34.4 34.4 34.4
1 24 34.4 34.4 34.4 34.4
2 24 34.4 34.4 34.4 34.4
3 24 34.4 34.4 34.4 34.4
4 24 34.4 34.4 34.4 34.4
5 24 34.4 34.4 34.4 34.4
6 24 34.4 34.4 34.4 34.4
7 24 34.4 34.4 34.4 34.4
8 24 34.4 34.4 34.4 34.4
9 24 34.4 34.4 34.4 34.4
10 24 34.4 34.4 34.4 34.4
11 24 34.4 34.4 34.4 34.4
12 24 34.4 34.4 34.4 34.4
13 27.2 34.4 34.4 34.4 34.4
14 23.8 34.4 34.4 34.4 34.4
15 34.4 34.4 34.4 34.4 34.4
16 34.4 34.4 34.4 34.4 34.4
17 34.4 34.4 34.4 34.4 34.4
18 34.4 34.4 34.4 34.4 34.4
19 34.4 34.4 34.4 34.4 34.4
20 34.4 34.4 34.4 34.4 34.4
21 34.4 34.4 34.4 34.4 34.4
22 34.4 34.4 34.4 34.4 34.4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
125
2.3.2 Percobaan Menggunakan Cosine similarity
a. Metode Average linkage
Pengujian
Data Normalisasi zscore, Cosine similarity, Average
B
A
T
A
S
B
A
W
A
H
Batas
Atas 86 85 84 83 82
0 57 79,8 79,8 79,8 79,8
1 60.4 72 72 72 72
2 61.6 81.6 81.6 81.6 81.6
3 29.2 81.2 81.2 81.2 81.2
4 69.8 80.6 80.6 80.6 80.6
5 61,8 61.2 61.2 61.2 61.2
6 63.8 64 64 64 64
7 65 65 65 65 65
8 66.8 63.2 63.2 63.2 63.2
9 66.8 61.6 61.6 61.6 61.6
10 65.2 67.4 67.4 67.4 67.4
11 64.8 59.6 59.6 59.6 59.6
12 72.8 67.6 67.6 67.6 67.6
13 72.4 67.2 67.2 67.2 67.2
14 68.4 64 64 64 64
15 60.6 58.2 58.2 58.2 58.2
16 48 34 34 34 34
17 40.6 49 49 49 49
18 40.6 49 49 49 49
19 40.6 49 49 49 49
20 40.6 49 49 49 49
21 40.6 49 49 49 49
22 40.6 49 49 49 49
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
126
b. Metode Single linkage
Pengujian
Data Normalisasi zscore, Cosine similarity, Single
B
A
T
A
S
B
A
W
A
H
Batas
Atas 86 85 84 83 82
0 20.2 20.2 20.2 20.2 20.2
1 20.2 20.2 20.2 20.2 20.2
2 20.2 20.2 20.2 20.2 20.2
3 20.2 20.2 20.2 20.2 20.2
4 20.2 20.2 20.2 20.2 20.2
5 20.2 20.2 20.2 20.2 20.2
6 20.2 20.2 20.2 20.2 20.2
7 20.2 20.2 20.2 20.2 20.2
8 20.2 20.2 20.2 20.2 20.2
9 20.2 20.2 20.2 20.2 20.2
10 20.2 20.2 20.2 20.2 20.2
11 20.2 20.2 20.2 20.2 20.2
12 20.2 20.2 20.2 20.2 20.2
13 20.2 20.2 20.2 20.2 20.2
14 20.2 20.2 20.2 20.2 20.2
15 20.2 20.2 20.2 20.2 20.2
16 20.2 20.2 20.2 20.2 20.2
17 20.2 20.2 20.2 20.2 20.2
18 20.2 20.2 20.2 20.2 20.2
19 20.2 20.2 20.2 20.2 20.2
20 20.2 20.2 20.2 20.2 20.2
21 20.2 20.2 20.2 20.2 20.2
22 20.2 20.2 20.2 20.2 20.2
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
127
c. Metode Complete linkage
Pengujian
Data Normalisasi zscore, Cosine similarity, Complete
B
A
T
A
S
B
A
W
A
H
Batas
Atas 86 85 84 83 82
0 44.8 33.2 33.2 33.2 33.2
1 63.6 68.6 68.6 68.6 68.6
2 70.2 54 54 54 54
3 76.4 67.2 67.2 67.2 67.2
4 74.8 51.8 51.8 51.8 51.8
5 47.8 65.6 65.6 65.6 65.6
6 65.2 60.2 60.2 60.2 60.2
7 58.6 58.2 58.2 58.2 58.2
8 45.6 45.4 45.4 45.4 45.4
9 45.6 71.2 71.2 71.2 71.2
10 44.8 45.8 45.8 45.8 45.8
11 50.6 69 69 69 69
12 62.4 41.6 41.6 41.6 41.6
13 66.8 46.6 46.6 46.6 46.6
14 37 58.6 58.6 58.6 58.6
15 75.4 56.4 56.4 56.4 56.4
16 62.4 24 24 24 24
17 55.6 44.4 44.4 44.4 44.4
18 55.6 44.4 44.4 44.4 44.4
19 55.6 44.4 44.4 44.4 44.4
20 55.6 44.4 44.4 44.4 44.4
21 55.6 44.4 44.4 44.4 44.4
22 55.6 44.4 44.4 44.4 44.4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI