universitas indonesia analisis opini konsumen berbasis...

UNIVERSITAS INDONESIA

ANALISIS OPINI KONSUMEN BERBASIS FITUR DALAM BAHASA INDONESIA : STUDI KASUS PADA PRODUK

GADGET E-COMMERCE

KARYA AKHIR

LISTIAN PRATOMO 1106042132

FAKULTAS ILMU KOMPUTER PROGRAM STUDI MAGISTER TEKNOLOGI INFORMASI

JAKARTA JANUARI 2013

Analisis opini ..., Yova Ruldeviyani, Fasilkom UI, 2013

UNIVERSITAS INDONESIA

ANALISIS OPINI KONSUMEN BERBASIS FITUR DALAM BAHASA INDONESIA : STUDI KASUS PADA PRODUK

GADGET E-COMMERCE

KARYA AKHIR

Diajukan sebagai salah satu syarat untuk memperoleh gelar Magister Teknologi Informasi

LISTIAN PRATOMO 1106042132

FAKULTAS ILMU KOMPUTER PROGRAM STUDI MAGISTER TEKNOLOGI INFORMASI

JAKARTA JANUARI 2013


ii


iii


iv

KATA PENGANTAR/UCAPAN TERIMA KASIH

Puji syukur saya haturkan kepada Allah SWT yang telah memberikan berkat dan

rahmat-Nya sehingga saya dapat menyelesaikan Karya Akhir ini. Saya menyadari,

tanpa bantuan dari berbagai pihak, sangatlah sulit bagi saya untuk

menyelesaikannya. Maka dari itu, saya mengucapkan terima kasih saya kepada :

1. Mama dan papa yang selalu memberikan kasih sayang, dukungan dan doa

selama ini kepada penulis. Serta untuk adik-adikku Dimas dan Aji;

2. Ibu Yova Ruldeviyani, M.Kom, selaku dosen pembimbing yang selalu sabar

menyediakan waktu membimbing penulis menyelesaikan Karya Akhir ini;

3. Bapak Edric Mandagi, beserta pihak PT. WEBARQ yang telah banyak

membantu memberikan data penelitian Karya Akhir ini;

4. Dosen pengajar dan staf MTI UI yang telah memberikan banyak ilmu dan

bantuan kepada saya;

5. Teman – teman MTI UI 2011SB, yang telah menghadirkan keluarga baru bagi

saya saat di perkuliahan; dan

6. Seluruh pihak yang tidak dapat saya sebutkan satu per satu yang telah

memberikan dukungan kepada saya dalam menyelesaikan Karya Akhir ini.

Jakarta, 15 Januari 2013

Penulis


v


vi

Universitas Indonesia

ABSTRAK

Nama : Listian Pratomo Program Studi : Magister Teknologi Informasi Judul : Analisis Opini Konsumen Berbasis Fitur dalam Bahasa

Indonesia : Studi Kasus pada Produk Gadget E-commerce Jumlah review mengalami peningkatan yang sangat pesat untuk setiap produk nya. Hal ini berakibat sulit nya bagi setiap pengguna untuk membaca semua review yang ada. Karya akhir ini menawarkan solusi menggunakan feature based opinion mining untuk mempermudah pengguna membaca review lebih mudah. Pada karya akhir ini terdapat 2 langkah yang akan dilakukan. Langkah pertama ialah melakukan ekstraksi feature menggunakan association rule dan pruning. Sedangkan langkah terakhir ialah menentukan orientasi dari setiap opini dengan menggunakan teknik klasifikasi. Beberapa algoritma klasifikasi seperti C45, Naïve Bayes dan Support Vector Machine cocok untuk mengatasi masalah ini. Dari hasil pengujian algoritma Support Vector Machine memiliki performa terbaik jika dibandingkan dengan algoritma lainnya. Kata kunci : Feature Extraction, Sentiment Analysis, C45, Naïve Bayes, SVM


vii


ABSTRACT

Name : Listian Pratomo Program Study : Master of Information Technology Title : Analysis of Indonesian Feature Based Customer Opinion :

Case Study in E-commerce Gadget Product The number of customer reviews for each product grows rapidly. This condition makes customer difficult to read all the review.This thesis propose feature based opinion mining to help customer reads review easily. Feature based opinion mining in this thesis consist of two steps. First step identify product features using association technique and pruning. The last step identify opinion sentence orientation using classification technique. Several classification algorithm, such as C45, Naive Bayes, and Support Vector Machines are good approaches to solve this problem. Support Vector Machine has the best performance compared to other algorithms. Keywords : Feature Extraction, Sentiment Analysis, C45, Naïve Bayes, SVM


viii


DAFTAR ISI

HALAMAN PERNYATAAN ORISINALITAS ........................................................................II

HALAMAN PENGESAHAN ...................................................................................................III

KATA PENGANTAR/UCAPAN TERIMA KASIH ............................................................... IV

HALAMAN PERNYATAAN PERSETUJUAN PUBLIKASI KARYA AKHIR UNTUK KEPENTINGAN AKADEMIS ................................................................................................. V

ABSTRAK ............................................................................................................................... VI

ABSTRACT ............................................................................................................................ VII

DAFTAR ISI .......................................................................................................................... VIII

DAFTAR TABEL ..................................................................................................................... X

DAFTAR GAMBAR ................................................................................................................ XI

BAB 1 PENDAHULUAN...................................................................................................... 1

1.1 LATAR BELAKANG....................................................................................................... 1 1.2 PERUMUSAN MASALAH ............................................................................................... 2 1.3 RUANG LINGKUP PENELITIAN ...................................................................................... 3 1.4 TUJUAN DAN MANFAAT PENELITIAN ............................................................................ 3 1.5 SISTEMATIKA PEMBAHASAN ........................................................................................ 3

BAB 2 LANDASAN TEORI ................................................................................................. 5

2.1 TEXT MINING .............................................................................................................. 5 2.1.1 POS Tagging .......................................................................................................... 5 2.1.2 StopWord ................................................................................................................ 7 2.1.3 Stemming ................................................................................................................ 7 2.1.4 Pembobotan ............................................................................................................ 7

2.2 FEATURE EXTRACTION ................................................................................................ 8 2.3 FP-GROWTH .............................................................................................................. 13 2.4 SENTIMENT ANALYSIS ............................................................................................... 14 2.5 C45 ........................................................................................................................... 17 2.6 NAÏVE BAYES ............................................................................................................ 20 2.7 SUPPORT VECTOR MACHINE ...................................................................................... 23 2.8 EVALUASI KLASIFIKASI ............................................................................................. 24

2.8.1 Confusion Matrix .................................................................................................. 24 2.8.2 Accuracy............................................................................................................... 25 2.8.3 Precision .............................................................................................................. 25 2.8.4 Recall ................................................................................................................... 25 2.8.5 F-Measure ............................................................................................................ 26

BAB 3 METODOLOGI PENELITIAN ............................................................................. 27

3.1 PERUMUSAN MASALAH ............................................................................................. 27 3.2 STUDI LITERATUR ...................................................................................................... 28 3.3 PENGUMPULAN DATA................................................................................................. 28 3.4 PENGUJIAN ................................................................................................................ 28 3.5 ANALISIS ................................................................................................................... 28


ix


3.6 HASIL PENELITIAN ..................................................................................................... 28

BAB 4 PEMROSESAN DATA ........................................................................................... 29

4.1 PROFIL PERUSAHAAN ................................................................................................. 29 4.2 TAHAPAN PEMROSESAN DATA ................................................................................... 29

4.2.1 Pengumpulan Data ............................................................................................... 30 4.2.2 POS Tagging ........................................................................................................ 30 4.2.3 Identifikasi Opini .................................................................................................. 32 4.2.4 Pencarian Frequent Feature ................................................................................. 35 4.2.5 Prunning............................................................................................................... 37 4.2.6 Pemberian Label Opini ......................................................................................... 38 4.2.7 Proses Stopword ................................................................................................... 38 4.2.8 Konversi ke Bentuk Vector Space Model ................................................................ 39

BAB 5 ANALISIS ............................................................................................................... 41

5.1 DATA ........................................................................................................................ 41 5.2 FEATURE EXTRACTION .............................................................................................. 41

5.2.1 Frequent Feature .................................................................................................. 42 5.2.2 Redundancy Prunning ........................................................................................... 44

5.3 KLASIFIKASI .............................................................................................................. 45 5.3.1 Pengujian menggunakan data asli ......................................................................... 46 5.3.2 Pengujian menggunakan data hasil overssampling ................................................ 49 5.3.3 Pengujian menggunakan data produk yang berbeda .............................................. 51

BAB 6 KESIMPULAN DAN SARAN ................................................................................ 54

6.1 KESIMPULAN ................................................................................................................ 54 6.2 SARAN ........................................................................................................................ 54

DAFTAR REFERENSI ........................................................................................................... 56

LAMPIRAN ............................................................................................................................. 59

1. PART OF SPEECH LABEL ................................................................................................. 59 2. STOPWORD .................................................................................................................... 60 3. AKTUAL FEATURE IPHONE 4S ........................................................................................ 64 4. AKTUAL FEATURE SAMSUNG GALAXY TAB 2.7.0 ........................................................ 65 5. FREQUENT FEATURE IPHONE 4S .................................................................................... 66 6. FREQUENT FEATURE SAMSUNG GALAXY TAB 2.7.0 .................................................... 68 7. FEATURE HASIL PRUNNING IPHONE 4S .......................................................................... 69 8. FEATURE HASIL PRUNNING SAMSUNG GALAXY TAB 2.7.0 .......................................... 71 9. CONTOH HASIL KLASIFIKASI .......................................................................................... 72


x


DAFTAR TABEL

TABEL 2.1 RANGKUMAN BEBERAPA METODE FEATURE EXTRACTION .............................................. 9 TABEL 2.2 PERBANDINGAN ALGORITMA KLASIFIKASI UNTUK SENTIMENT ANALYSIS .................... 15 TABEL 2.3 DATA SAMPEL (WITTEN, ET AL., 199) ......................................................................... 18 TABEL 2.4 PERHITUNGAN GAIN ................................................................................................. 19 TABEL 2.5 DATA SAMPEL NAÏVE BAYES ..................................................................................... 21 TABEL 2.6 PERHITUNGAN PROBABILITAS UNTUK ATRIBUT OUTLOOK ............................................ 21 TABEL 2.7 PERHITUNGAN PROBABILITAS UNTUK ATRIBUT TEMPERATURE ..................................... 21 TABEL 2.8 PERHITUNGAN PROBABILITAS UNTUK ATRIBUT HUMIDITY ............................................ 21 TABEL 2.9 PERHITUNGAN PROBABILITAS UNTUK ATRIBUT WIND .................................................. 21 TABEL 2.10CONFUSION MATRIX ................................................................................................... 25 TABEL 4.1 HASIL IDENTIFIKASI OPINI DAN KANDIDAT FEATURE .................................................. 34 TABEL 4.2 CONTOH KANDIDAT FEATURE .................................................................................... 36 TABEL 4.3 PROSES PERHITUNGAN SUPPORT ................................................................................ 36 TABEL 4.4 PERHITUNGAN NILAI PURITY SUPPORT ....................................................................... 37 TABEL 4.5 CONTOH OPINI ........................................................................................................... 38 TABEL 4.6 PROSES STOPWORD .................................................................................................... 39 TABEL 5.1 DATA REVIEW YANG DIGUNAKAN ............................................................................... 41 TABEL 5.2 DATA OPINI HASIL EKSTRAKSI .................................................................................... 46 TABEL 5.3 DATA HASIL KLASIFIKASI ........................................................................................... 47 TABEL 5.4 CONFUSION MATRIX IPHONE 4S ................................................................................. 48 TABEL 5.5 CONFUSION MATRIX SAMSUNG GALAXY TAB 7.0 ........................................................ 48 TABEL 5.6 DATA OPINI HASIL EKSTRAKSI .................................................................................... 49 TABEL 5.7 DATA HASIL KLASIFIKASI MENGUNAKAN DATA OVERSAMPLING ................................... 50 TABEL 5.8 CONFUSION MATRIX IPHONE 4S ................................................................................. 50 TABEL 5.9 CONFUSION MATRIX SAMSUNG GALAXY TAB 7.0 ........................................................ 51 TABEL 5.10 DATA LATIH DAN DATA UJI ....................................................................................... 52 TABEL 5.11 DATA HASIL KLASIFIKASI MENGUNAKAN DATA YANG BERBEDA ................................. 52 TABEL 5.12 CONFUSION MATRIX ................................................................................................ 52


xi


DAFTAR GAMBAR

GAMBAR 2.1 ILUSTRASI ALGORITMA FP-GROWTH(VERHEIN, 2008) .............................................. 14 GAMBAR 2.2 PROSES PEMECAHAN NODE PADA ALGORITMA C45 .................................................. 19 GAMBAR 2.3 PRISNSIP KERJA SVM MENCARI HYPERPLANE(ANTO SATRIYO NUGROHO, 2003) ....... 23 GAMBAR 3.1 METODOLOGI PENELITIAN ...................................................................................... 27 GAMBAR 4.1 LANGKAH-LANGKAH PEMROSESAN DATA ................................................................ 30 GAMBAR 4.2 OPINI DALAM BENTUK VECTOR SPACE MODEL ......................................................... 40 GAMBAR 5.1 EKSTRAKSI FEATURE PADA REVIEW IPHONE 4S ....................................................... 42 GAMBAR 5.2 EKSTRAKSI FEATURE PADA REVIEW SAMSUNG GALAXY TAB 7 ............................. 43 GAMBAR 5.3 PRUNNING FEATURE PADA REVIEW IPHONE 4S ....................................................... 44 GAMBAR 5.4 PRUNNING FEATURE PADA REVIEW SAMSUNG GALAXY TAB 7 ............................. 45


1


BAB 1 PENDAHULUAN

Jumlah review produk mengalami peningkatan yang signifikan setiap tahunnya,

seiring dengan perkembangan e-commerce. Data review merupakan sumber

informasi yang sangat bermanfaat bukan hanya bagi user tetapi juga bagi

perusahaan manufaktur yang memproduksi produk tersebut. Bagi user data review

dapat menjadi masukan untuk menentukan produk apa yang akan dibeli,

sedangkan bagi perusahaan manufaktur data review dapat menjadi feedback untuk

pengembangan produk selanjutnya. Namun data review merupakan unstructure

data, sehingga sulit untuk memperoleh informasi penting dari suatu review.

1.1 Latar Belakang Perkembangan Internet yang begitu pesat diikuti oleh pertumbuhan e-commerce

di Indonesia, ditandai dengan bermunculannya situ-situs e-commerce baru setiap

tahunnya.

PT. Web Architect Technology sebagai salah satu pengembang aplikasi lokal

dengan portofolio e-commerce terbanyak terus berusaha mengembangkan e-

commerce system yang handal dan mampu bersaing. PT. Web Architect

Technology terus melakukan perbaikan terhadap e-commerce system yang ada dan

melakukan penambahan fitur sesuai dengan feedback yang diberikan oleh

pengguna e-commerce.

Salah satu fitur yang terdapat didalam suatu sistem e-commerce ialah produk

review, dimana setiap user dapat melakukan review mengenai suatu barang yang

ditawarkan. Produk review sejatinya sangat berguna bagi pelanggan lain sebagai

bahan referensi sebelum membeli produk tertentu, produk review menjadi sangat

penting dalam e-commerce karena pelanggan tidak dapat mencoba secara

langsung produk yang akan dibelinya, sehingga bantuan review dari pelanggan-

pelanggan lain diharapkan dapat membantu pelanggan dalam menentukan produk

yang akan dibelinya. Penggunaan gambar dan deskripsi saja dirasakan tidak

cukup untuk menggambarkan kondisi suatu barang, sehingga review dari

pengguna barang dirasakan sangat bermanfaat. Berdasarkan penelitian yang

dilakukan oleh comScore dan the Kelsey group (Lipsman, 2007) menunjukkan


2


bahwa review yang dilakukan oleh pengguna memilki pengaruh yang signifikan

terhadap pembeli. Penelitian yang dilakukan oleh comScore dan the Kelsey group

didukung pula oleh Shih Yung Chou (Chou, 2011) yang menunjukkan bahwa

review online menjadi prediktor yang signifikan terhadap reputasi dari penjual.

Hal tersebut menunjukan bahwa review online merupakan komponen penting dari

sebuah e-commerce.

Review menyimpan berbagai informasi yang penting baik bagi pelanggan dan

perusahaan manufaktur. Namun jumlahnya yang banyak menyulitkan pembaca

untuk memperoleh informasi dari review. Diperlukan suatu sistem untuk

melakukan ekstraksi informasi dari review sehingga dapat dengan mudah

dipahami tanpa perlu membaca keseluruhan review.

Sentiment analysis atau opinion mining merupakan salah satu cabang penelitian

dari text mining yang berusaha melakukan ekstraksi informasi dari suatu opini.

Sentiment analysis mencakup proses ekstraksi feature secara otomatis dan

menentukan orientasi dari suatu opini. Dengan sentiment analysis dapat diperoleh

informasi secara otomatis mengenai objek yang menjadi inti dari opini dan

orientasi dari opini tersebut apakah positif , negatif atau netral.

1.2 Perumusan Masalah Jumlah review yang banyak disetiap produk menyulitkan pengguna untuk

memperoleh gambaran mengenai kualitas produk yang akan dibeli. Dari data yang

diperoleh jumlah review untuk suatu produk yang cukup populer bisa mencapai

puluhan bahkan ratusan review. Pembeli perlu membaca satu persatu setiap

review yang ada. Semakin banyak user yang menggunakan produk dan menulis

review maka semakin sulit bagi pembeli untuk membaca semua review yang ada

dan semakin sulit menentukan produk mana yang akan dibeli. Diperlukan sistem

untuk melakukan pengelompokkan review yang positif dan negatif. Sehingga

tanpa perlu membaca satu-persatu pengguna dapat memperoleh gambaran secara

umum dari suatu produk.

Berdasarkan uraian singkat diatas, secara garis besar permasalahan yang harus

dijawab pada penelitian yang dilakukan dalam karya akhir ini adalah :


3


Bagaimana model untuk melakukan pengkategorian review yang sesuai

dengan studi kasus?

Secara spesifik, pertanyaan yang dijawab dalam penelitian ini yaitu :

1. Proses apa saja yang perlu dilakukan sebelum melakukan pengkategorian

review?

2. Algoritma apa yang tepat untuk pengkategorian review berbahasa

Indonesia?

1.3 Ruang Lingkup Penelitian Ruang lingkup pembahasan dalam penelitian ini adalah sebagai berikut :

1. Studi kasus penelitian yang dibahas dalam karya akhir ini adalah layanan

e-commerce yang dikembangkan oleh PT. Web Architect Technology.

2. Data yang digunakan diperoleh dari review gadget dari beberapa e-

commerce kemudian digabungkanmenjadi satu.

1.4 Tujuan dan Manfaat Penelitian Tujuan yang ingin dicapai dari penulisan karya akhir ini adalah menentukan

model yang tepat untuk digunakan dalam pengkategorian review berbahasa

Indonesia.

Manfaat yang diharapkan dari penulisan karya akhir ini yaituhasil dari penelitian

ini dapat diimplementasikan menjadi sebuah modul didalam WEBARQ e-

commerce system yang akan digunakan untuk melakukan pengkategorian secara

otomatis setiap review.

1.5 Sistematika Pembahasan Sistematika pembahasan masalah dalam penulisan karya akhir ini dibagi menjadi

5 bab dengan penjelasan mengenai cakupan pembahasan masing-masing bab

sebagai berikut :

1. BAB 1 : Pendahuluan

Bab pendahuluan terdiri dari latar belakang penulisan, perumusan

permasalahan, ruang lingkup penelitian, tujuan dan manfaat penelitian,

serta sistematika pembahasan karya akhir.

2. BAB 2 : Landasan Teori


4


Bab ini berisi dasar-dasar teori yang akan digunakan pada penelitian,

termasu penelitian-penelitian sebelumnya yang akan dijadikan acuan

dalam penulisan karya akhir ini.

3. BAB 3 : Metodologi Penelitian

Pada bab ini ditulis langkah-langkahyang digunakan dalam menyusun

karya akhir. Setiap langkah yang ada dan metode yang digunakan.

4. BAB 4 : Analisis Penerapan Sentiment Analysis

Melakukan pengujian terhadap setiap metode dan melakukan komparasi

untuk memperoleh model yang paling tepat untuk digunakan pada

sentiment analysis dari produk review berbahasa Indonesia.

5. BAB 5 : Kesimpulan dan Saran

Pada bab terakhir ini, ditulis kesimpulan dari hasil penelitian dan saran

perbaikan karya akhir ke depan.


5


BAB 2 LANDASAN TEORI

2.1 Text Mining

Text mining merupakan salah satu bagian dari data mining yang menerapkan

konsep dan teknik data mining kedalam teks. Text mining dapat didefinisikan

sebagai suatu proses menggali informasi dimana seorang user berinteraksi dengan

sekumpulan dokumen menggunakan tools analisis yang merupakan komponen-

komponen dalam data mining(Feldman, et al., 2007). Pada data mining data yang

digunakan adalah data terstruktur sedangkan dalam Text mining data yang

digunakan adalah data yang tidak terstruktur berupa teks. Tujuan utama dari Text

mining ialah melakukan pemrosesan data yang tidak terstruktur menjadi

terstruktur supaya dapat digali berbagai informasi didalamnya menggunakan

berbagai teknik yang ada di data mining. Data teks akan diproses menjadi data

numerik agar dapat dilakukan proses lebih lanjut.

Text mining menjadi salah satu topik yang cukup populer karena saat ini jumlah

data yang tidak terstruktur(tekstual) jauh lebih banyak dibandingkan data yang

terstruktur dan munculnya kebutuhan untuk ekstraksi informasi secara otomatis

dari kumpulan data tekstual yang besar.Faktor lain yang membuat Text mining

menjadi topik yang menarik karenajumlah data meningkat pesat sedangkan

kemampuan manusia memproses informasi konstan.

Sebelum data teks diproses terlebih dahulu dilakukan preprocessing dengan

tahapan-tahapan antara lain sebagai berikut:

2.1.1 POS Tagging POS Tagging ialah proses pemberian label setiap bagian dari kalimat. Proses POS

Tagging bermaanfaat untuk language generator, information extraction,

summarization dan machine translation. Pada penelitian ini POS Tagging berguna

untuk melakukan ekstraksi feature. Sesuai dengan penelitian Bing Liu(Liu, 2010),

term yang akan digunakan untuk sentiment analysis mencakup sifat (adjective),

kata keterangan (adverb), kata benda (Noun) dan kata kerja (verb). Terdapat


6


beberapa pendekatan yang dapat digunakan untuk melakukan pelabelan, antara

lain:

Pendekatan rule-based

Pendekatan ini menggunakan karakteristik morfolojik dan informasi Part-

Of-Speech serta kata kunci untuk memberikan tag pada sebuah kata atau

frase.

Pendekatan dictionary-based

Pendekatan ini melakukan identifikasi setiap kata dengan melakukan

pencocokkan terhadap entry dalam kamus, baru kemudian memberikan

tag tertentu.

Pendekatan machine-learning-based

Teknik machine-learning dapat juga digunakan untuk melakukan

pelabelan. Diperlukan data latih untuk membentuk model yang akan

digunakan untuk melakukan pelabelan. Beberapa metode yang cukup

sering digunakan antara lain Hidden Markov Model, Naive Bayes, dan

Support Vector Machine.

Analisis statistik

Analisis statistik dilakukan untuk melakukan clustering terhadap teks dan

melakukan identifikasi kata kunci yang terdapat dalam teks. Identifikasi

term dan metode klasifikasi berdasarkan pembelajaran statistik ini secara

umum dapat menangani tipe pengetahuan baru melakukan representasi

dengan lebih efektif daripada pendekatan dengan rule-based dan

dictionary-based.

Pendekatan hibrid

Pendekatan hibrid menggabungkan pendekatan rule-based dan

dictionary-based untuk identifikasi setiap kata. Walaupun hasil yang

dicapai dengan metode ini cukup memuaskan, namun permasalahan

sinonim tak spesifik belum dapat ditangani sepenuhnya.

Pada penelitian ini metode yang digunakan ialah POS Tagging menggunakan

Hidden Markov Model (Wicaksono, et al., 2010), metode tersebut dipilih karena

memiliki akurasi yang cukup baik untuk bahasa Indonesia yaitu 83-95%.


7


2.1.2 StopWord Stopwords adalah kata-kata sangat umum yang biasanya hanya sedikit

pengaruhnya di dalam suatu teks. Proses stopword penyaringan kata-kata yang

memiliki arti tidak penting, yang dikhawatirkan akan mengurangi performansi

dari proses penambangan teks. Proses stopword pada umumnya dilakukan dengan

menggunakan kamus stopword. Dimana kata-kata yang terdapat di dalam kamus

akan dihilangkan sedangkan kata-kata yang tidak terdapat didalam kamus akan

digunakan pada proses selanjutnya.

2.1.3 Stemming Proses stemming yaitu mengembalikan kata-kata yang telah diproses pada tahap

sebelumnya menjadi kata dasar. Tujuan utama dari stemming ialah mengurangi

dimensi dari data. Dengan stemming kata-kata dengan imbuhan akan

dikembalikan ke kata dasar sehingga dimensi data yang akan diproses dapat

berkurang. Stemming merupakan proses untuk memetakan berbagai variasi

morfologikal dari kata menjadi bentuk dasar yang sama. Proses stemming

berperan pula dalam meningkatkan efisiensi sistem.

Terdapat berbagai metode untuk melakukan stemming salah satunya

menggunakan kamus atau algoritma tertentu. Algoritma stemming untuk bahasa

yang satu berbeda dengan algoritma stemming untuk bahasa lainnya. Sebagai

contoh Bahasa Inggris memiliki morfologi yang berbeda dengan Bahasa

Indonesia sehingga algoritma stemming untuk kedua bahasa tersebut juga berbeda.

Proses stemming pada teks berbahasa Indonesia lebih rumit/kompleks karena

terdapat variasi imbuhan yang harus dibuang untuk mendapatkan kata dasar dari

sebuah kata. Beberapa algoritma stemming Bahasa Indonesia telah dikembangkan

sebelumnya. Penggunaan algoritma stemming yang sesuai mempengaruhi

performa sistem.

2.1.4 Pembobotan Sebelum dapat di proses data teks akan dikonversi menjadi numerik dengan

berbagai metode pembobotan. Penggunaan metode pembobotan yang tepat dapat

mempengaruhi akurasi dari teknik yang digunakan.


8


Term Frequency

Salah satu metode pembobotan yang paling sederhana, menggunakan

jumlah dari kemunculan suatu term didalam dokumen. Metode

pembobotan ini digunakan oleh Pang (Pang, et al., 2002) dalam sentiment

analysis.

Term Presence

Term presence tidak memperhitungkan jumlah kemunculan suatu term

tetapi hanya melakukan pengecekan apakan term tersebut ada di dalam

dokumen. Jika term tersebut ada di dalam dokumen makan akan diberi

nilai 1 sedangkan jika terdapat dalam dokumen makan akan diberi nilai 0.

Pang(Pang, et al., 2002) juga menggunakan metode pembobotan ini untuk

sentiment analysis.

Term Frequency - Inverse Document Frequency (TF-IDF)

TF-IDF merupakan metode pembobotan yang paling banyak digunakan di dalam kategorisasi teks (Sebastiani., 2002). TF-IDF melakukan dua buah perhitungan yaitu TF dan IDF. TF diperoleh dari jumlah term tersebut didalam dokumen. Sedangkan IDF merupakan jumlah dokumen dibagi jumlah dokumen dengan kemunculan term tersebut. IDF dirumuskan sebagai berikut :

IDF bernilai 0 jika term t muncul disetiap dokumen.

2.2 Feature Extraction Feature extraction merupakan ekstraksi feature dari suatu opini. Feature sendiri

dapat didefinisikan sebagai objek dari suatu opini. Dalam suatu kalimat suatu

feature dibentuk dari kata benda/frase (Henrique Siqueira, 2008). Feature

merupakan kata benda (noun) dengan panjang maksimal 3 kata (Hu, et al., 2004).

Suatu kata benda dapat dikatakan feature jika memenuhi salah satu dari ketiga

syarat berikut (Liliana Ferreira, 2008):

Merupakan bagian dari produk pada dokumen tersebut. Contoh : kamera

pada produk ponsel

Atribut dari produk. Contoh: Ukuran dari notebook

Atribut dari feature. Contoh kualitas kamera pada ponsel


9


Terdapat beberapa pendekatan yang dapat dilakukan untuk melakukan ekstraksi

feature. Hasil rangkuman beberapa penelitian sebelumnya mengenai feature

extraction dapat dilihat di table 2.1.

Tabel 2.1 Rangkuman beberapa metode feature extraction

Penulis Judul Deskripsi

Minqing Hu dan Bing

Liu(Hu, 2004)

Mining Opinion

Features in

Customer Reviews

Menggunakan association

rule mining dan prunning

untuk memperoleh feature.

Didasari bahwa feature

yang frequent merupakan

feature yang penting karena

paling sering

diperbincangkan. Nilai

precision dan recall yang

diperoleh berkisan antara

0,6 hingga 0,8.

Alejandra Lopez Fernandez,

Tony Veale dan Prasenjit

Majumder(Fernandez, et al.,

2009)

Feature Extraction

from Product

Reviews using

Feature Similarity

and Polarity

Memanfaatkan

SentiWordNet untuk

menghitung similarity antar

feature. Feature yang

diperoleh dalam kualitas

baik namun dalam jumlah

yang sedikit.

Gamgarn Somprasertsri dan

Pattarachai

Lalitrojwong(Somprasertsri,

et al., 2009)

Mining Feature-

Opinion in Online

Customer Reviews

for Opinion

Summarization

Feature diperoleh dengan

pendekatan NLP dengan

melihat struktur kalimat

dan keyword. Nilai rata-rata

fmeasure yang diperoleh

0,75.

Hana Jeong, Dongwook FEROM: Feature Memperkenalkan algoritma


10


Shin, dan Joongmin

Choi(Jeong, et al., 2011)

Extraction and

Refinement for

Opinion Mining

feature extraction yang

diberi nama FEROM.

Ekstraksi feature dilakukan

dengan melihat struktur

kalimat, hanya feature yang

terdapat dalam kalimat

lengkap yang akan

dipergunakan. Setelah

feature diperoleh akan

dilakukan proses refinement

dengan memanfaatkan

WordNet untuk mengetahui

sinonim dan relasi antar

feature. Feature-feature

yang meiliki kesamaan

akan digabungkan menjadi

1. Hasil ekstraksi memiliki

nilai recall dan precision

antara 0,8 sampai 0,9.

Ana-Maria Popescu dan

Oren Etzioni(Popescu, et

al., 2009)

Extracting Product

Features and

Opinions from

Reviews

Menggunakan metode yang

diberi nama OPINE,

dengan pendekatan

clustering dan WordNet

untuk memperoleh feature-

feature yang relevan. Hasil

penelitian menunjukan

metode yang digunakan

memiliki nilai precision

22% lebih baik dan recal

lebih rendah 3% dari

penelitian sebelumnya (Hu,


11


2004).

Pada penelitian ini metode ekstraksi yang akan digunakan ialah metode dengan

memanfaatkan association rule dan prunning (Hu, 2004). Hal ini didasari karena

metode tersebut merupakan metode yang umum digunakan untuk feature

extraction dan memiliki akurasi yang cukup baik. FEROM memiliki akurasi yang

paling baik diantara beberapa metode yang ada, namun salah satu kendala untuk

menggunakan metode ini ialah belum ada WordNet yang cukup baik untuk

Bahasa Indonesia. Sehingga metode ini sulit untuk digunakan untuk ektraksi

feature dengan Bahasa Indonesia.

Berdasarkan penelitian sebelumnya (Hu, 2004) proses ekstraksi melalui beberapa

tahap yaitu :

POS Tagging

POS Tagging ialah proses pemberian label setiap bagian dari kalimat.

Pada penelitian ini metode yang digunakan ialah POS Tagging

menggunakan Hidden Markov Model (Wicaksono, et al., 2010), metode

tersebut dipilih karena memiliki akurasi yang cukup baik untuk bahasa

Indonesia yaitu 83-95%. Hasil POS Tagging berguna untuk melakukan

ekstraksi opini dan memperoleh candidate feature.

Generate Candidate Feature

Setelah diperoleh semua opini dari sebuah review, dilakukan ekstraksi

kandidat feature. Ekstraksi kandidat feature dilakukan mengikuti rule

yang telah didefinisikan sebelumnya.

Frequent Noun Identification

Setelah memperoleh kandidat feature akan dicari feature-feature yang

frequent. Hal ini dikarenakan tidak semua kandidat feature merupakan

feature yang relevan, sehingga perlu dicari feature yang frequent. Feature

yang frequent merupakan feature yang lebih relevan karena banyak

dibahas pada berbagai review(Hu, et al., 2004). Feature yang frequent

diperoleh dengan menghitung nilai support untuk setiap feature, feature


12


dengan nilai support diatas minimum support merupakan feature yang

frequent.

Prunning

Tidak semua feature yang frequent merupakan feature yang relevan,

sehingga perlu dilakukan prunning. Proses prunning yang dilakukan ialah

redundancy prunning. Redundancy pruning merupakan teknik pruning

yakni menghilangkan feature yang redundan. Nilai purity support

diperoleh dengan cara menghitung frekuensi kemunculan suatufeature

tanpa superset nya. Sebagai contoh terdapat beberapa opini sebagai

berikut :

o Model baru tetapi masih menggunakan prosesor tipe lama.

o Prosesor dual core mampu menjalankan beberapa pekerjaan

sekaligus.

o Kalah dari para pesaingnya yang telah menggunakan prosesor

quad core.

o Handphone dengan prosesor keluaran terbaru, sangat

menakjubkan.

Keempat opini tersebut memiliki feature prosesor didalamnya. Jika

prosesor dual core dan prosesor quad core merupakan feature yang

frequent maka nilai purity support dari feature prosesor ialah 2. Nilai

purity support tersebut diperoleh dari kemunculan feature prosesor dalam

opini tanpa superset nya yaitu dual core prosesor atau quad core prosesor.

Semakin banyak tingkat kemunculan suatu feature tanpa supersetnya

maka nilai puritysupport nya semakin tinggi. Feature-feature dengan nilai

purity support dibawah nilai minimum akan dibuang (prunning).

Evaluasi

Prose evaluasi dari feature extraction dilakukan dengan cara

membandingkan hasil aktual feature yang dilakukan secara manual dan

feature yang diperoleh dari system. Parameter yang digunakan ialah

precision, recall dan fmeasure. Nilai precision diperoleh dari jumlah

feature yang sesuai dibagi dengan jumlah feature yang diekstrak oleh

sistem. Sedangankan nilai recall merupakan jumlah feature yang sesuai


13


dibagi jumlah aktual feature. Pada penelitian ini digunakan fmeasure

sebagai parameter untuk menghitung akurasi dari feature extraction.

Fmeasure menggabungkan nilai precision dan recall, fmeasure sendiri

dapat dihitung sebagai berikut

퐹푀푒푎푠푢푟푒 =2푥푅푒푐푎푙푙푥푃푟푒푐푖푠푖표푛푅푒푐푎푙푙 + 푃푟푒푐푖푠푖표푛

2.3 FP-Growth FP-growth merupakan salah satu algoritma pencarian frequent itemset yang cukup

populer digunakan saat ini. Kelebihan utama dari algoritma ini ialah jumlah

pengaksesan terhadap data dapat dikurangi. Berbeda dengan algoritma apriori

yang memerlukan proses inisialisasi untuk memperoleh kandidat item dengan cara

membaca data berulang-ulang.Karakteristik algoritma FP-Growth adalah struktur

data yang digunakan adalah tree yang disebut dengan FP-Tree. Dengan

menggunakan FP-Tree, algoritma FP-growth dapat langsung mengekstrak

frequent Itemset dari FP-Tree tanpa perlu melakukan pengaksesan data secara

berulang-ulang seperti yang dilakukan pada algoritma apriori. Gambar 2.1

menggambarkan pembentukan FP-tree pada algoritma fpgrowth.


14


Gambar 2.1 Ilustrasi algoritma FP-growth(Verhein, 2008)

Proses pembentukan FP-tree dilakukan dengan membaca data transaksi satu per

satu. Jika terdapat item pada data transaksi yang belum terdapat di dalam tree

maka akan dibentuk node dalam tree yang menyimpan informasi dari item

tersebut. Setiap node menyimpan pula informasi frekuensi dari masing-masing

item. Setelah semua data diproses maka terbentuk FP-tree akhir, dari FP-tree bisa

diambil node yang memiliki frekuensi diatas nilai minimum support.

2.4 Sentiment Analysis Sentiment analysis atau opinion mining merupakan salah satu cabang penelitian

dari domain data mining. Sentiment analysis menggunakan data opini mengenai

suatu objek yang direpresentasikan dalam bentuk teks.Sentiment analysis dapat

didefinisikan sebagai suatu komputasi lingusitik yang berfokus untuk memeriksa

apakah suatu feature tekstual memberikansuatu afektif konten terhadap suatu teks


15


dan bagaimana melakukan ekstraksi feature tersebut secara otomatis.(Ann Devitt,

2007). Tujuan utama dari sentiment analysis ialah melakukan ekstraksi dari

atribut dan komponen dari objek yang ada di dalam opini. Dengan memanfaatkan

Sentiment Analysis pada produk review, pengguna dapat mengetahui gambaran

secara umum kualitas suatu produk tanpa harus membaca review satu-persatu.

Pada dasarnya Sentiment Analysis tidak jauh berbeda dengan Text mining pada

umumnya. Namun pada kenyataannya Sentiment Analysis tidak semudah Text

mining pada umumnya, hal ini dikarenakan penggunaan bahasa yang digunakan

bisa menimbulkan ambiguitas.

Beberapa penelitian sebelumnya mengenai Sentiment Analysis diperoleh hasil

rangkuman yang dapat dilihat pada tabel 2.2:

Tabel 2.2 Perbandingan Algoritma Klasifikasi untuk sentiment analysis

Penulis Judul Metode Hasil

Pang&Lee(Pang,

et al., 2002)

Thumbs up?

Sentiment

classification using

machine learning

techniques

Naïve Bayes,

SVM, Maximum

entropy

Akurasi yang

diperoleh

dikisaran 77%–

82.9%. Akurasi

tertinggi

diperoleh

menggunakan

feature unigram

dan Algoritma

klasifikasi SVM.

Pang&Lee (Pang,

et al., 2004)

A sentimental

education: Sentiment

analysis using

subjectivity

summarization based

on minimum cuts

Naïve Bayes,

SVM

Akurasi 87%,

tidak ada

perbedaan

signifikan antara

akurasi terbaik

dan terburuk.

Fanky&Ruli Machine Learning- Naïve Bayes, Akurasi yang


16


Manurung(Franky,

et al.)

based Sentiment

Analysis of Automatic

Indonesian

Translations of

English Movie

Reviews

Multinomial

Naïve Bayes,

SVM, Maximum

entropy

diperoleh

kisaran 72%-

81%

Wang

Zuhui&Jiang

Wei(Zuhui, et al.,

2012)

Online Reviews

Sentiment Analysis

Applying Mutual

Information

Naïve Bayes,

SVM, Maximum

entropy

Membandingkan

ketiga algoritma

Naïve Baye,

SVM dan

Maximum

entropy dengan

mengaplikasikan

Mutual

Information.

Penggunaan

Mutual

Information

mampu

meningkatkan

akurasi

Xiaowen

Ding&Bing

Liu(Ding, et al.,

2010)

Resolving Object and

Attribute Coreference

in Opinion Mining

C45 Nilai fmeasure

tertinggi 75%

Grigori

Sidorov&Sabino

Miranda-

Jiménez(Sidorov,

et al., 2010)

Empirical Study of

Machine Learning

Based Approach for

Opinion Mining in

Tweets

SVN, Naïve

Bayes, C45

Pengujian

dilakukan untuk

berbagai

kondisi. C45

dan SVM

memiliki


17


performa terbaik

dan cukup baik

untuk data

imbalance

Berdasarkan pada beberapa penelitian sebelumnya, pada penelitian ini algoritma

klasifikasi yang akan digunakan ialah C45, SVM dan Naïve Bayes. C45, SVM

dan Naïve Bayes dipilih karena memiliki akurasi yang paling baik diantara

algoritma-algoritma lainnya.

2.5 C45 C45 merupakan salah satu algoritma decision tree yang cukup populer. Algoritma

C45 merupakan perbaikan dari algortima sebelumnya yaitu ID3(Iterative

Dichotomiser 3).

Pada decision tree terdapat 3 jenis node, yaitu:

Root Node, merupakan node paling awal

Internal Node , merupakan node percabangan, pada node ini hanya

terdapat satu input dan mempunyai output minimal dua.

Leafnode atau terminal node , merupakan node akhir pada node ini

tersimpan informasi mengenai kelas

Proses pembentukan tree pada C45 dilakukan dengan melakukan perhitungan

Information GAIN. Atribut dengan nilai Information GAIN tertinggi akan

digunakan sebagai titik percabangan. Untuk memperoleh nilai Information GAIN

terlebih dahulu harus dihitung nilai entrophy nya.

S = Himpunan Kasus

N= Jumlah Partisi S

pi = Proporsi dari Si terhadap S

sementara nilai Information GAIN diperoleh dari


18


S = Himpunan Kasus

A = Atribut

n = Jumlah Partisi Atribut A

| Si | = Jumlah Kasus pada partisi ke-i

| S | = Jumlah Kasus dalam S

Perhitungan information GAIN dilakukan untuk setiap atribut yang terdapat pada

data. Tujuan utama dari perhitungan Information GAIN ialah memperoleh atribut

terbaik yang akan digunakan pada proses percabangan suatu node. Proses

perhitungan akan dilakukan berulang-ulang sampai semua record telah

dikelompokan pada suatu kelas tertentu. Tabel 2.3 merupakan data sampel yang

akan digunakan untuk mensimulasikan agoritma C45.

Tabel 2.3 Data sampel (Witten, et al., 199)

Outlook Temperature Humidity Windy Play Sunny Hot High FALSE No Sunny Hot High TRUE No overcast Hot High FALSE Yes rainy Mild High FALSE Yes rainy Cool Normal FALSE Yes rainy Cool Normal TRUE No overcast Cool Normal TRUE Yes Sunny Mild High FALSE No Sunny Cool Normal FALSE Yes rainy Mild Normal FALSE Yes Sunny Mild Normal TRUE Yes overcast Mild High TRUE Yes overcast Hot Normal FALSE Yes rainy Mild High TRUE No

Untuk menentukan atribut mana yang akan digunakan untuk membuat titik

percabangan dilakukan perhitungan nilai Information GAIN untuk setiap atribut

sebagai berikut:


19


Tabel 2.4 Perhitungan GAIN

Total Play=YES Play=NO Entropy Information GAIN

Total 15 4 10 0.863 Outlook 0.259 Cloudy 4 0 4 0 Rainy 5 1 4 0.722 Sunny 5 3 2 0.971 Temperature 0.184 Cool 4 0 4 0 Hot 4 2 2 1 Mild 6 2 4 0.918 Humidity 0.371 High 7 4 3 0.985 Normal 7 0 7 0 Windy 0.06 FALSE 8 2 6 0.811 TRUE 6 4 2 0.918

Dapat dilihat dari tabel 2.4 bahwa nilai Information Gain tertinggi terdapat pada

atribut Humadity. Kemudian Humadity akan menjadi titik percabangan, dengan

jumlah percabangan sebanyak nilai atribut dari atribut Humidity. Pada kasus ini

proses node dicabangkan menjadi dua sesuai atribut Humadity yaitu high dan

normal. Proses percabangan dapat dilihat di gambar 2.2

Gambar 2.2 Proses pemecahan node pada algoritma C45


20


Dikarenakan untuk Humidity=normal semua record telah memiliki 1 kelas yaitu

Yes maka node tersebut menjadi leaf. Sedangkan untuk Humidity=high akan

dilakukan perhitungan ulang tanpa melibatkan atribut humidity. Proses ini terus

dilakukan sampe data telah dikelompokkan pada suatu leaf node.

Proses yang membedakan lagoritma C45 dan ID3 ialah untuk algoritma C45 pada

setiap iterasi percabangan akan dilakukan perhitungan error untuk setiap node.

Jika ternyata pada saat proses perbangan memiliki nilai error yang lebih besar

dibandingkan tanpa percabangan maka akan dilakukan pruning terhadap node

tersebut.

2.6 Naïve Bayes Naïve Bayes merupakan salah satu algoritma yang sering digunakan untuk

melakukan klasifikasi teks. Hal ini dikarenakan Naïve Bayes memiliki kelebihan

yaitu cepat dan mudah untuk diimplementasikan (Rennie, et al., 2003). Naïve

Bayes sendiri menerapkan prinsip probabilitas untuk melakukan klasifikasi,

bekerja dengan cara mencari nilai probabilitas tertinggi dari masing-masing kelas.

Disebut Naïve karena dalam perhitungan peluang suatu atribut tidak ada

pengaruhnya dengan atribut-atribut lain di dalam data. Teorema Bayes berawal

dari rumus:

P(A| B) merupakan peluang A jika keadaan B. Dari rumus tersebut diperoleh

Teorema Bayes yaitu :

Dari Teorema Bayes tersebut diperoleh

Dimana V merupakan kelas dan A adalah atribut darri data. Kelas yang dipilih

ialah kelas dengan nilai probabilitas tertinggi. Berikut ini merupakan cara kerja


21


algoritma Naïve Bayes menggunakan data sampel(Witten, et al., 199) pada tabel

2.5.

Tabel 2.5 Data Sampel Naïve Bayes

Outlook Temperature Humidity Windy Play Sunny Hot High FALSE No Sunny Hot High TRUE No overcast Hot High FALSE Yes rainy Mild High FALSE Yes rainy Cool Normal FALSE Yes rainy Cool Normal TRUE No overcast Cool Normal TRUE Yes Sunny Mild High FALSE No Sunny Cool Normal FALSE Yes rainy Mild Normal FALSE Yes Sunny Mild Normal TRUE Yes overcast Mild High TRUE Yes overcast Hot Normal FALSE Yes rainy Mild High TRUE No

Algorimtma Naïve Bayes bekerja dengan menghitung probabilitas dari masing-

masing atribut untuk setiap kelas. Data sampel yang digunakan memiliki 5 atribut

dengan 1 atribut sebagai atribut kelas. Sehingga akan dilakukan perhitungan

terhadap keempat atribut non kelas. Tabel 2.6 hingga tabel 2.9 menggambarkan

perhitungan probabilitas setiap kelas terhadap masing-masing kelas.

Tabel 2.6 Perhitungan probabilitas untuk atribut Outlook

Outlook Play=Yes Play=No Sunny 2/9 3/5 Overcast 4/9 0/5 Rain 3/9 2/5

Tabel 2.7 Perhitungan probabilitas untuk atribut Temperature

Temperature Play=Yes Play=No Hot 2/9 2/5 Mild 4/9 2/5 Cool 3/9 1/5

Tabel 2.8 Perhitungan probabilitas untuk atribut Humidity

Humidity Play=Yes Play=No High 3/9 4/5 Normal 6/9 1/5

Tabel 2.9 Perhitungan probabilitas untuk atribut Wind


22


Wind Play=Yes Play=No Strong 9-Mar 5-Mar Weak 9-Jun 5-Feb

Perhitungan probabilitas setiap atribut merupakan fase training dari algoritma

Naïve Bayes. Setelah melewati fase training maka algoritma Naïve Bayes siap

untuk melakukan klasifikasi.

Proses klasifikasi mengacu pada model yang terbentuk pada fase training, sebagai

contoh suatu recordr1=(Outlook=Sunny, Temperature=Cool, Humidity=High,

Wind=Strong) akan diklasifikasikan masuk kedalam kelas No atau Yes dengan

cara menghitungnya:

Kelas Yes :

• P(Outlook=Sunny|Play=Yes) = 2/9

• P(Temperature=Cool|Play=Yes) = 3/9

• P(Humidity=High|Play=Yes) = 3/9

• P(Wind=Strong|Play=Yes) = 3/9

• P(Play=Yes) = 9/14

Kelas No :

• P(Outlook=Sunny|Play=No) = 3/5

• P(Temperature=Cool|Play==No) = 1/5

• P(Humidity=High|Play=No) = 4/5

• P(Wind=Strong|Play=No) = 3/5

• P(Play=No) = 5/14

Kemudian dihitung nilai untuk masing-masing kelas

P(Yes|r1): [P(Sunny|Yes)P(Cool|Yes)P(High|Yes)P(Strong|Yes)]P(Play=Yes) = 0.0053

P(No|r1): [P(Sunny|No) P(Cool|No)P(High|No)P(Strong|No)]P(Play=No) = 0.0206

Karena P(No|r1)> P(Yes|r1) maka kelas untuk r1 ialah No


23


2.7 Support Vector Machine Support Vector Machine (SVM) dikembangkan oleh Boser, Guyon, Vapnik, dan

pertama kali dipresentasikan pada tahun 1992 di Annual Workshop on

Computational Learning Theory. Prinsip dasar dari SVM ialah mencari

hyperplane atau himpunan hyperplane terbaik untuk memisahkan kelas yang ada.

Gambar 2.3 Prisnsip kerja SVM mencari Hyperplane(Nugroho, et al., 2003)

Dari gambar 2.3 terlihat perinip kerja dari algoritma SVM berusaha mencari

hyperplane terbaik. Hyperplane terbaik dapat diperoleh dengan mengukur margin

(jarak) hyperplane dengan masing-masing record dari masing-masing kelas dan

mencari titik maksimalnya. Dengan diperolehnya hyperplane dengan margin

maksimal maka hyperplane tersebut akan membagi data menjadi menjadi bentuk

klasifikasi yang optimal. Sebagai supervised algoritma SVM memerlukan data

latih untuk menentukan hyperplane yang akan digunakan pada proses klasifikasi.

Proses learning pada SVM ialah mencari hyperplane terbaik untuk klasifikasi.

Misalkan Ɗ merupkan dataset yang ada direpresentasikan kedalam vektor:

Ɗ = {(xi, yi)|xiϵR , yiϵ{−1,1}}n

Dimana yi merupakan kelas yang bernilai 1 atau -1 dimana titik xi berada. SVM

berusaha mencari hyperplane dengan margin maksimum dari titik dengan yi =

+1dantitikdenganyi = -1.


24


Diperolehpersamaan:

w . x+ + b = +1

w . x- + b = -1

w . (x+-x-) = 2

Tujuan utama pembuatan hyperplane ialah:

Mengelompokkan setiap elemen dengan benar

1bwxi jika y=+1 dan 1bwxi untuk y=-1 dan 1)( bwxy ii

untuk semua i.

Memaksimalkan margin denganw

M 2 ,akan sama dengan dengan

meminimalkan wwt

21

2.8 Evaluasi Klasifikasi Proses evaluasi pada klasifikasi dilakukan dengan membandingkan kelas hasil

klasifikasi dengan kelas aktual dari record tersebut. Beberapa pendekatan yang

dapat dijadikan sebagai parameter performansi dari algoritma klasifikasi yaitu:

2.8.1 Confusion Matrix Confusion matrix disebut juga matriks klasifikasi yang menjadi suatu alat visual

dalam supervised learning. Confusion matrix merupakan sebuah tabel yang terdiri

atas banyaknya baris data uji yang diprediksi benar dan tidak benar oleh model

klasifikasi, digunakan untuk menentukan kinerja suatu model klasifikasi.

wwwxxM 2)(


25


Tabel 2.10 Confusion matrix

Actual

Positive Negative

Predicted Positive True Positive (TP) False Positive (FP)

Negative False Negative (FN) True Negative (TN)

True Positive (TP) adalah jumlah record yang diprediksi benar dengan

kelas Positive.

False Positive (FP) adalah jumlah record yang diprediksi salah dengan

kelas Positive.

True Negative (TN) adalah jumlah record yang diprediksi benar dengan

kelas Negative.

False Negative (FN)adalah jumlah record yang diprediksi salah dengan

kelas Negative.

2.8.2 Accuracy Accuracy ialah jumlah data yang diklasifikasikan benar dibagi jumlah keseluruhan

data. Perhitungan accuracy dapat dirumuskan sebagai berikut :

퐴푐푐푢푟푎푐푦 =푇푃 + 푇푁

푇푃 + 퐹푃 + 푇푁 + 퐹푁

2.8.3 Precision Precision (P) adalah tingkat ketepatan hasil klasifikasi dan jumlah keseluruhan

pengenalan yang dilakukan sistem.Perhitungan precision dapat dirumuskan

sebagai berikut :

푃푟푒푐푖푠푖표푛(푃) =푇푃

푇푃 + 퐹푃

2.8.4 Recall Recall (R) dinyatakan dalam jumlah pengenalan entitas bernilai benar dibagi

jumlah entitas yang dikenali sistem.Perhitungan recall dapat dirumuskan sebagai

berikut :


26


푅푒푐푎푙푙(푅) =푇푃

푇푃 + 퐹푁

2.8.5 F-Measure F-Measure menggabungkan antara Precision dan Recall. Dengan rumusan

sebagai berikut:

퐹 −푀푒푎푠푢푟푒(퐹) =2푅푃푅 + 푃

Nilai tertinggi untuk F-Measure ialah 1 yang akan diperoleh jika Recall dan

Precision bernilai 1.


27


BAB 3 METODOLOGI PENELITIAN

Dalam menyusun Sentiment Analysis yang akan digunakan pada review produk

online diperlukan tahapan-tahapan untuk memperoleh hasil yang sesuai dengan

tujuan penelitian.

Gambar 3.1 Metodologi Penelitian

Alur pikir penelitian karya akhir dilaksanakan dengan menggunakan metodologi

penelitian seperti yang terlihat dalam gambar 3.1. Ada enam aktivitas utama yakni

perumusan masalah, studi literatur, pengumpulan data, pengujian, analisis, serta

hasil penelitian. Berikut penjelasan keenam aktivitas tersebut :

3.1 Perumusan Masalah Dalam tahapan ini dilakukan penentuan pokok masalah dan tujuan dari penelitian,

berikut ruang lingkup penelitian. Tujuan dari perumusan masalah ialah untuk

menentukan dasar yang akan digunakan selama proses penelitian. Pada tahap ini

ditentukan pula batasan-batasan dari penelitian agar memperjelas ruang lingkup

penelitian.


28


3.2 Studi Literatur Setelah dilakukan perumusan masalah dilakukan studi literatur untuk mempelajari

landasan teori yang akan digunakan. Studi literatur mencakup memahami teori-

teori dasar yang akan digunakan pada penelitian dan membandingkan penelitian-

penelitian serupa yang sebelumnya pernah dilakukan.

3.3 Pengumpulan data Pada tahap ini dilakukan pengumpulan data yang akan digunakan sebagai data

latih dan data uji. Data yang digunakan diperoleh dari berbagai e-commerce lokal

dengan data produk review berbahasa Indonesia. Setiap data dikelompokan

berdasarkan setiap produk.

3.4 Pengujian Proses pengujian bertujuan untuk melakukan evaluasi dari setiap tahapan yang

dilakukan. Untuk masing-masing tahap akan dicatat nilai akurasi yang diperoleh.

Nilai akurasi akan digunakan untuk analisis pada tahap selanjutnya, untuk

menentukan nilai konfigurasi dan algoritma yang paling sesuai untuk digunakan

pada penelitian ini.

3.5 Analisis Dalam tahap ini akan dilakukan analisis terhadap hasil pengujian dari tahapan

sebelumnya. Pengujian dilakukan dengan membandingkan hasil feature extraction

dengan parameter fmeasure dan hasil klasifikasi dengan parameter macro

average dan confusion matrix untuk setiap skenario yang telah dilakukan.

3.6 Hasil Penelitian Pada tahapan ini akan diperoleh hasil dari penelitian yang telah dilakukan. Hasil

penelitian mencakup kesimpulan dan saran untuk penelitian selanjutnya.

Kesimpulan berisi tahapan proses yang perlu dilakukan serta rekomendasi

algoritma yang dapat digunakan untuk proses sentiment analysis.


29


BAB 4 PEMROSESAN DATA

Bab 4 menjelaskan rangkaian proses dari aplikasi Sentiment Analysis.

Implementasi aplikasi berdasarkan landasan teori yang telah dibahas pada bab

sebelumnya

4.1 Profil Perusahaan

PT. Web Architect Technology merupakan pengembang aplikasi lokal dengan

spesialisasi pengembangan aplikasi berbasis web. Berdiri sejak 2009 PT. Web

Architect Technology telah menyelesaikan banyak aplikasi berbasis web seperti

ERP, CRM, e-commerce dan company profile website. Bekerja sama dengan

agency-agency besar dari luar negeri, PT. Web Architect Technology banyak

mengerjakan pesanan website dari dari perusahaan-perusahaan di negara lain.PT.

Web Architect Technology merupakan salah satu perusahaan di Indonesia yang

merupakan google adwords certified partner.

PT. Web Architect Technology memiliki beberapa sistem yang siap disesuaikan

dan digunakan sesuai kebutuhan dari konsumen, antara lain WCMS (WEBARQ

Content Management System) dan WEBARQ ecommerce. Setiap sistem yang ada

terus dikembangkan dan dilakukan perbaikan sesuai dengan masukan dari user

pengguna sistem.

4.2 Tahapan Pemrosesan Data

Berdasarkan beberapa penilitian terdahulu proses sentiment analysis melalui

proses feature extraction sebelum dilakukan klasifikasi.Terdapat beberapa

subproses untuk setiap tahap nya. Gambar 4.1 menggambarkan tahapan-tahapan

yang perlu dilakukan dalam proses sentiment analysis.


30


Gambar 4.1 langkah-langkah pemrosesan data

Beberapa proses dilakukan secara manual dan sebagian dilakukan oleh sistem.

Proses feature extraction memiliki 4 subproses yang kesemuanya dilakukan secara

sistem. Sedangkan untuk proses klasifikasi terdapat proses yang perlu dilakukan

secara manual yaitu pemberian label dari masing-masing opini.

4.2.1 Pengumpulan Data Pengumpulan data yang digunakan pada karya akhir ini dilakukan secara manual,

data yang digunakan merupakan data review berbahasa Indonesia dari beberapa e-

commerce yaitu yota, sinarelectronic dan beberapa e-commerce lain yang

dirahasiakan. Data yang digunakan merupakan data review dari periode 20

Januari 2012 hingga 1 November 2012. Total jumlah review yang digunakan ialah

150 dari 3 produk yang berbeda dan terdiri dari 3048 kalimat. Data dikelompokan

berdasarkan produk dan disimpan didalam file teks untuk setiap reviewnya.

4.2.2 POS Tagging Proses POS Tagging diperlukan untuk menentukan label dari setiap kata didalam

review. Hal ini diperlukan karena feature dalam suatu opini merupakan kata


31


benda(Liu, 2010), sehingga perlu diidentifikasi kata-kata mana saja yang

berpotensi menjadi feature.

Pada penelitian ini metode yang digunakan ialah POS Tagging menggunakan

Hidden Markov Model (Wicaksono, et al., 2010), metode tersebut dipilih karena

memiliki akurasi yang cukup baik untuk bahasa Indonesia yaitu 83-95%. Output

dari tahapan ini ialah data review yang telah diberi label untuk setiap kata dalam

review.

Contoh data sebelum POS tagging :

Iphone apple 4s memiliki prosesor yang lebih cepat. Semua keuntungan

didapat dari ios 5

Pemilik iphone akhir nya mendapatkan model 64gb dan kamera yang lebih

baik. prosesor dual core memberikan kecepatan lebih.

Prosesor sudah dual core dengan chipset terbaru. sayang harganya mahal.

handphone ini tampil dengan retina display beresolusi tinggi dan sistem

operasi ios 5

Dengan dukungan dual core prosesor segala macam proses terasa lebih

optimal dan cepat menggunakan iphone 4s ini.

Prosesor dual core ini memiliki kecepatan 1ghz yang memberikan kinerja

super cepat. Siri adalah fitur baru yang paling banyak dibicarakan.

Contoh data setelah dilakukan POS Tagging menggunakan algoritma Hidden

Markov :

iphone/NN apple/NN 4s/CDP memiliki/VBT prosesor/NN yang/SC

lebih/RB cepat/JJ ./. semua/CDI keuntungan/NN didapat/JJ dari/IN ios/NN

5/CDP

pemilik/NN iphone/NN akhir/JJ nya/RB mendapatkan/VBT model/NN

64gb/NN dan/CC kamera/NN yang/SC lebih/RB baik./. prosesor/NN

dual/NN core/NN memberikan/VBT kecepatan/NN lebih/JJ

prosesor/NN sudah/MD dual/VBT core/NN dengan/IN chipset/NN

terbaru./. sayang/NN harga/NN nya/NNG mahal/JJ ./. handphone/NN


32


ini/DT tampil/VBT dengan/IN retina/NN display/NN beresolusi/NN

tinggi/JJ dan/CC sistem/NN operasi/NN ios/NN 5/CDP

dengan/IN dukungan/NN dual/NN core/NN prosesor/NN segala/NN

macam/NN proses/NN terasa/VBI lebih/RB optimal/JJ dan/CC cepat/JJ

menggunakan/VBT iphone/NN 4s/NN ini/DT

prosesor/NN dual/NN core/NN ini/DT memiliki/VBT kecepatan/NN

1ghz/NN yang/SC memberikan/VBT kinerja/NN super/NN cepat/JJ ./.

siri/NN adalah/VBT fitur/NN baru/JJ yang/SC paling/RB banyak/JJ

dibicarakan/VBT

Terdapat 35 jenis label yang mungkin untuk setiap kata, jenis label pada POS

Tagging terdapat pada lampiran 1.Hasil POS Tagging berguna untuk melakukan

ekstraksi opini dan memperoleh candidate feature.

4.2.3 Identifikasi Opini Tidak semua kalimat didalam review berisi opini, untuk proses ekstraksi feature

hanya kalimat-kalimat yang merupakan opini saja yang akan diikutsertakan pada

proses selanjutnya. Opini dari suatu feature dapat dibentuk dari beberapa kata

antara lain kata sifat(adj) atau simbol-simbol tertentu dengan rincian sebagai

berikut.

Kata Sifat

Kata sifat pada suatu opini berfungsi menerangkan kondisi suatu objek

yang menjadi fokus opini tersebut. Kata sifat dapat menerangkan

kuantitas, kecukupan, urutan, kualitas, maupun penekanan suatu kata.

Berdasarkan tata bahasa indonesia, Kata sifat lazim mengikuti kata benda

sebagai sifat

Contoh :

harga mahal (NN + JJ) : mahal merupakan kata sifat yang menerangkan

harga sebagai feature.

Antara kata benda dan kata sifat dapat disisipkan beberapa kata antara lain

conjunction, adverb, negation atau kombinasi beberapa kata tersebut.

Contoh :


33


kualitas yang baik (NN + Conjunction + JJ), prosesor sangat luar

biasa(NN + adverb + JJ), Kamera sangat tidak bagus (NN + adverb +

negation + JJ)

Satu kata sifat dapat juga menerangkan beberapa objek (feature) sekaligus

Contoh :

kamera, quad core prosesor dan layar sangat fantastis (NN , NN+NN+NN

+ conjunction + NN + JJ)

Simbol

Pada beberapa review opini dapat pula diekspresikan hanya dengan

feature dan simbol. Simbol biasanya menerangkan bagaimana kondisi

objek(feature) dalam opini tersebut.

Contoh :

Kelebihan iPhone 4s:

+ Prosesor dual core ARM Cortex A9

+ Kamera 8 Megapiksel

+ Siri

+ Performa

+ Dukungan App Store

Kekurangan iPhone 4s:

- Desain

- Harga iPhone

- Sangat bergantung pada iTunes

- Tidak ada slot micro SD

- Beberapa pemakai iPhone 4S melaporkan masalah kegagalan dalam

membaca kartu SIM untuk semua operator

Menggunakan rule yang telah didefinisikan dapat dilakukan ektraksi opini yang

terdapat pada review. Berikut ini contoh ekstraksi feature menggunakan rule yang

telah didefinisikan:

Contoh data review yang telah melalui proses POS Tagging :


34


iphone/NN apple/NN 4s/CDP memiliki/VBT prosesor/NN yang/SC

lebih/RB cepat/JJ ./. semua/CDI keuntungan/NN didapat/JJ dari/IN ios/NN

5/CDP

pemilik/NN iphone/NN akhir/JJ nya/RB mendapatkan/VBT model/NN

64gb/NN dan/CC kamera/NN yang/SC lebih/RB baik./. prosesor/NN

dual/NN core/NN memberikan/VBT kecepatan/NN lebih/JJ

prosesor/NN sudah/MD dual/NN core/NN dengan/IN chipset/NN

terbaru/JJ ./. sayang/NN harga/NN nya/NNG mahal/JJ ./. handphone/NN

ini/DT tampil/VBT dengan/IN retina/NN display/NN beresolusi/NN

tinggi/JJ dan/CC sistem/NN operasi/NN ios/NN 5/CDP

dengan/IN dukungan/NN dual/NN core/NN prosesor/NN segala/NN

macam/NN proses/NN terasa/VBI lebih/RB optimal/JJ dan/CC cepat/JJ

menggunakan/VBT iphone/NN 4s/NN ini/DT

prosesor/NN dual/NN core/NN ini/DT memiliki/VBT kecepatan/NN

1ghz/NN yang/SC memberikan/VBT kinerja/NN super/NN cepat/JJ ./.

siri/NN adalah/VBT fitur/NN baru/JJ yang/SC paling/RB banyak/JJ

dibicarakan/VBT

Tabel 4.1 Hasil Identifikasi Opini dan Kandidat Feature

Opini Feature

iphone apple 4s memiliki prosesor yang

lebih cepat.

Iphone, apple, prosesor

semua keuntungan didapat dari ios 5 Keuntungan, ios

pemilik iphone akhir nya mendapatkan

model 64gb dan kamera yang lebih

baik.

pemilik, iphone, model, 64gb, kamera

prosesor dual core memberikan

kecepatan lebih

prosesor, dual, core, kecepatan

prosesor sudah dual core dengan

chipset terbaru.

prosesor, dual, core, chipset


35


sayang harganya mahal. Sayang, harga

handphone ini tampil dengan retina

display beresolusi tinggi dan sistem

operasi ios 5

handphone, retina, display, beresolusi,

sistem, operasi, ios

dengan dukungan dual core prosesor

segala macam proses terasa lebih

optimal dan cepat menggunakan iphone

4s ini

dukungan, dual, core, prosesor, segala,

macam, proses, iphone, 4s

prosesor dual core ini memiliki

kecepatan 1ghz yang memberikan

kinerja super cepat.

prosesor, dual, core, kecepatan, 1ghz,

kinerja, super

siri adalah fitur baru yang paling

banyak dibicarakan

siri, fitur

Tabel 4.1 menunjukan proses identifikasi opini dari kumpulan review. Setelah

diperoleh semua opini dari sebuah review, dilakukan ekstraksi kandidat feature.

Ekstraksi kandidat feature dilakukan mengambil setiap kata benda yang muncul

berurutan yang terdapat didalam setiap opini.

Untuk proses identifikasi opini, penulis membuat sebuah modul aplikasi dengan

inputan data review yang telah melalui proses POS Tagging. Data yang telah

diberi label setiap katanya akan dilakukan pencocokan sesuai pola opini yang

telah didefinisikan sebelumnya. Jika suatu kalimat memenuhi kriteria opini maka

kalimat tersebut akan disimpan kedalam daftar opini. Output yang diberikan ialah

kumpulan opini beserta setiap feature yang terdapat didalamnya.

4.2.4 Pencarian Frequent Feature Setelah memperoleh kandidat feature akan dicari feature-feature yang frequent.

Hal ini dikarenakan tidak semua kandidat feature merupakan feature yang

relevan. Feature yang frequent merupakan feature yang lebih relevan karena

banyak dibahas pada berbagai review (Hu, 2004). Pada penelitian ini proses

pencarian feature yang frequent menggunakan algoritma fpgrowth. Contoh

kandidat feature terdapat pada tabel 4.2.


36


Tabel 4.2 Contoh Kandidat feature

Opini Feature

O1 Iphone, apple, prosesor

O2 Keuntungan, ios

O3 pemilik, iphone, model, 64gb, kamera

O4 prosesor, dual, core, kecepatan

O5 prosesor, dual, core, chipset

O6 Sayang, harga

O7 handphone, retina, display, beresolusi, sistem, operasi, ios

O8 dukungan, dual, core, prosesor, segala, macam, proses, iphone, 4s

O9 prosesor, dual, core, kecepatan, 1ghz, kinerja, super

O10 siri, fitur

Dari tabel 4.2 akan dilakukan proses pencarian feature yang frequent

menggunakan algoritma asosiasi. Hanya feature dengan nilai support diatas nilai

minimum support yang akan digunakan untuk proses selanjutnya

Tabel 4.3 Proses Perhitungan Support

Feature Support

Prosesor 50% Core 40% Dual 40% dual, core 40% prosesor,core 40% prosesor,dual 40% prosesor,dual,core 40% Iphone 30% kecepatan 20%


37


Jika nilai minimum support yang digunakan adalah 20% akan menghasilkan 9

feature. Feature dengan nilai support dibawah minimum support akan dieliminasi.

4.2.5 Prunning Tidak semua feature yang frequent merupakan feature yang relevan, sehingga

perlu dilakukan prunning. Proses prunning yang dilakukan ialah redundancy

prunning. Redundancy pruning merupakan teknik prunning yakni menghilangkan

feature yang redundan. Tujuan dari perhitungan purity support ialah untuk

mengetahui frekuensi kemunculan feature tersebut tanpa superset nya. Sebagai

contoh feature prosesor muncul dalam suatu opini tanpa superset nya yaitu dual

core prosesor atau quad core prosesor. Semakin banyak tingkat kemunculan suatu

feature tanpa supersetnya maka nilai purity support nya semakin tinggi. Feature-

feature dengan nilai purity support dibawah nilai minimum akan dibuang

(prunning). Tabel 4.4 menunjukan contoh perhitungan purity support.

Tabel 4.4 Perhitungan Nilai Purity Support

Feature Support Purity Support

Prosesor 50% 10%

Core 40% 0%

Dual 40% 0%

dual, core 40% 0%

prosesor,core 40% 0%

prosesor,dual 40% 0%

prosesor,dual,core 40% 40%

Iphone 30% 30%

kecepatan 20% 20% Perhitungan nilai purity support dilakukan dengan menghitung kemunculan setiap

feature tanpa superset nya, perhitungan nilai purity support mengacu kepada tabel

4.4. Feature {prosesor, dual},{prosesor,core} dan {dual, core} memiliki nilai

purity support 0 karena selalu muncul bersamaan dengan supersetnya yaitu

{prosesor, dual, core}.


38


4.2.6 Pemberian Label Opini Opini yang telah diperoleh dari feature extraction akan diberi label kelas secara

manual untuk digunakan sebagai data latih dan data uji. Proses pemberian kelas

mengacu pada opini yang terdapat pada data review.

Tabel 4.5 Contoh Opini

Opinion Kelas iphone apple 4s memiliki prosesor yang lebih cepat. Positif

semua keuntungan didapat dari ios 5 Positif

pemilik iphone akhir nya mendapatkan model 64gb dan kamera yang

lebih baik.

Positif

prosesor dual core memberikan kecepatan lebih Positif

prosesor sudah dual core dengan chipset terbaru. Positif

sayang harganya mahal. Negatif

handphone ini tampil dengan retina display beresolusi tinggi dan

sistem operasi ios 5

Netral

dengan dukungan dual core prosesor segala macam proses terasa

lebih optimal dan cepat menggunakan iphone 4s ini

Positif

prosesor dual core ini memiliki kecepatan 1ghz yang memberikan


Positif

siri adalah fitur baru yang paling banyak dibicarakan Netral

iphone apple 4s memiliki prosesor yang lebih cepat. Positif

Terdapat 3 kelas yang dipakai pada penelitian ini yaitu positif, negatif dan netral.

4.2.7 Proses Stopword Opini yang telah diberi label akan dikonversi ke dalam vector space model agar

dapat digunakan pada proses klasifikasi. Proses konversi diawali dengan proses

stopword dengan mengeliminasi kata-kata(term) yang umum. Tujuan dari proses


39


stopword yaitu untuk mengurangi dimensi dari data. Selain itu kata-kata umum

dikhawatirkan mampu mengurangi performansi dari algoritma klasifikasi.

Tabel 4.6 Proses Stopword

Opinion Kelas iphone apple 4s memiliki prosesor yang lebih cepat. Positif

semua keuntungan didapat dari ios 5 Positif

pemilik iphone akhir nya mendapatkan model 64gb dan kamera

yang lebih baik.

Positif

prosesor dual core memberikan kecepatan lebih Positif

prosesor sudah dual core dengan chipset terbaru. Positif

sayang harganya mahal. Negatif

handphone ini tampil dengan retina display beresolusi tinggi dan

sistem operasi ios 5

Netral

dengan dukungan dual core prosesor segala macam proses terasa

lebih optimal dan cepat menggunakan iphone 4s ini

Positif

prosesor dual core ini memiliki kecepatan 1ghz yang memberikan


Positif

Proses stopword dilakukan dengan kamus stopword, setiap kata yang terdapat

didalam kamus akan dieliminasi dari opini. Kamus yang digunakan untuk proses

stopword dapat dilihat pada lampiran 2.

4.2.8 Konversi ke Bentuk Vector Space Model Setelah melewati proses stopword data siap dikonversi kedalam bentuk vector

space model. Beberapa kata kembali dielimininasi seperti angka dan simbol-

simbol. Gambar 4.1 merupakan bentuk review setelah dikonversi kedalam bentuk

vector space model.


40


Gambar 4.2 Opini dalam bentuk vector space model

Proses konversi dilakukan dengan mengubah kedalam bentuk tabel. Dimana

setiap atribut dari tabel merupakan kata-kata yang terdapat dari opini. Setiap baris

mewakili satu opini yang akan dihitung frekuensi kemunculan setiap kata dalam

opini.


41


BAB 5 ANALISIS

Bab 5 menjelaskan hasil analisis dari setiap tahap sesuai metodologi yang telah

dijelaskan pada bab 3. Hasil dari tahapan ini yaitu evaluasi dari setiap tahap

beserta nilai konfigurasi yang tepat untuk kasus ini.

5.1 Data

Data yang digunakan pada penelitian ini merupakan data review yang berasal dari

beberapa e-commerce lokal kemudian digabungkan menjadi 1. Data yang

digunakan merupakan data review dari 2 produk dengan rincian data terdapat pada

tabel 5.1.

Tabel 5.1 Data review yang digunakan

No Produk Jumlah Review Jumlah Kalimat

1 Iphone 4S 50 1129

2 SAMSUNG Galaxy Tab 2 7.0 47 1038

Proses ekstraksi feature dan klasifikasi akan dilakukan di masing-masing data dan

akan menghasilkan feature dan model klasifikasi yang berbeda untuk kedua

review tersebut.

5.2 Feature Extraction

Proses pengujian untuk ekstraksi feature dilakukan dengan nilai minimum support

yang berbeda-beda dari 0,1% hingga 1% untuk masing-masing data. Proses

evaluasi dilakukan dengan menghitung nilai precision, recall dan fmeasure pada

setiap tahap. Nilai precision, recall dan fmeasure diperoleh dari perhitungan hasil

feature yang diperoleh dari system dan aktual feature yang diperoleh secara

manual. Aktual feature pada data Iphone 4S berjumlah 48 sedangkan pada

SAMSUNG galaxy TAB 2.7.0 berjumlah 55. Aktual feature untuk data Iphone 4S

dan SAMSUNG galaxy TAB 2.7.0 dapat dilihat di lampiran 3 dan 4.

Skenario pengujian dibagi menjadi 2 bagian yaitu ekstraksi feature yang frequent

dan proses prunning dari frequent feature. Proses ekstraksi frequent feature

dilakukan dengan cara menghitung nilai support untuk setiap feature dari semua


42


opini. Feature-feature yang terpilih ialah feature dengan nilai support diatas nilai

minimum support. Sementara proses prunning dilakukan dengan menghitung nilai

purity support untuk masing-masing feature yang frequent.

5.2.1 Frequent Feature Proses ekstraksi feature dilakukan dengan mencari kata benda (noun) yang

frequent. Pengujian dilakukan dengan nilai minimum support 0,1% hingga 1%

untuk masing-masing data. Gambar 5.1 dan 5.2 menunjukkan hasil ekstraksi

untuk setiap nilai minimum support dengan parameter evaluasi precision, recall

dan fmeasure.

Gambar 5.1 Ekstraksi Feature pada review Iphone 4S

0102030405060708090

100

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Minimum Support

precision

recall

fmeasure


43


Gambar 5.2 Ekstraksi Feature pada review SAMSUNG Galaxy Tab 7

Dari hasil pengujian pada kedua data menunjukan kecenderungan semakin rendah

minimum support semakin tinggi nilai recall yang dihasilkan. Hal ini dikarenakan

semakin rendah minimum support maka semakin banyak jumlah feature yang di

hasilkan, dengan semakin banyaknya feature yang dihasilkan maka kemungkinan

feature tersebut sesuai dengan aktual feature semakin besar sehingga nilai

precision semakin besar, karena recal lmerupakan pembagian jumlah feature yang

sesuai dibagi jumlah aktual feature. Karena jumlah feature aktual konstan maka

semakin rendah minimum support memiliki kemungkinan nilai recall semakin

besar.

Hal ini berbanding terbalik dengan precision. Nilai precision diperoleh dari

jumlah feature yang sesuai dibagi jumlah feature yang digenerate. Semakin

rendah nilai minimum support maka semakin banyak feature yang digenerate,

meskipun kemungkinan jumlah feature yang sesuai semakin besar tetapi nilai

pembagi juga semakin besar. Hal ini berakibat nilai precision semakin kecil jika

minimum support yang digunakan semakin kecil.

Sedangkan fmeasure merupakan gabungan dari recall dan precision. Hasil

fmeasure tertinggi untuk data tersebut diperoleh di nilai minimum support 0.4 dan

0.3. Fmeasure maksimal diperoleh dengan mengoptimalkan recall dan precision.

Hasil extraksi feature untuk kedua data dapat dilihat di lampiran 5 dan 6.

0102030405060708090

100

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Minimum Support

precision

recall

fmeasure


44


5.2.2 Redundancy Prunning Proses ekstraksi feature menggunakan pendekatan frequent feature memiliki

kekurangan karena feature yang terdiri dari 1 kata memiliki nilai support yang

lebih besar dibandingkan dengan superset nya. Sebagai contoh nilai support dari

kamera pasti lebih besar atau sama dengan nilai support dari kamera digital.

Padahal besar kemungkinan yang menajdi feature yang dibahas dalam review

ialah kamera digital. Oleh karena itu perlu dilakukan prunning dengan

menghitung purity support nya. Nilai purity support diperoleh dari nilai

kemunculan suatu feature tanpa superset nya didalam sebuah kalimat. Proses

pengujian dilakukan untuk setiap frequent feature pada nilai minimum support

antara 0.1% hingga 1%. Gambar 5.3 dan 5.4 menunjukkan hasil yang diperoleh

untuk setiap frequent feature setelah proses prunning.

Gambar 5.3 Prunning Feature pada review Iphone 4S

0102030405060708090

100

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Minimum Support

precision

recall

fmeasure


45


Gambar 5.4 Prunning Feature pada review SAMSUNG Galaxy Tab 7

Dengan melakukan prunning terhadap feature-feature yang redundant nilai dari

precision dapat ditingkatkan karena jumlah feature yang digenerate lebih sedikit

dibandingkan tanpa prunning. Dengan adanya prunning, meskipun nilai minimum

support yang digunakan kecil tetapi banyak feature-feature yang redundant di

eliminasi ketika proses prunning, sehingga feature yang dihasilkan tidak terlalu

banyak dan nilai precision semakin tinggi. Dengan meningkatnya nilai precision

maka nilai fmeasure meningkat untuk setiap nilai support. Untuk kedua data

diatas diperoleh nilai support yang optimal ialah 0,3%. Daftar feature hasil

ekstraksi terlampir pada lampiran 7 dan 8.

5.3 Klasifikasi

Setelah feature diperoleh pada tahap sebelumnya dilakukan proses ekstraksi opini

dari data review berdasarkan feature yang ada. Dari opini hasil ekstraksi akan

dilakukan penentuan kelas setiap opini secara manual, kelas terdiri dari negatif,

positif dan netral. Setelah diberi label kelas untuk masing-masing opini akan

dilakukan pembangunan model klasifikasi dan evaluasi model menggunakan

cross fold validation. Rincian data yang diperoleh dari hasil ekstraksi terdapat

pada tabel 5.2.

0102030405060708090

100

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Minimum Support

precision

recall

fmeasure


46


Tabel 5.2 Data opini hasil ekstraksi

No Produk JumlahOpini Kelas

Netral Positif Negatif 1 Iphone 4S 643 319 180 144 2 SAMSUNG Galaxy Tab 2 7.0 421 213 129 79

Data opini akan dikonversi kedalam vector space model sebelum dilakukan

dilakukan proses pembentukan model klasifikasi.

Dari kedua data tersebut terlihat bahwa jumlah kelas netral cukup mendominasi

dengan persentase diatas 50%. Dikarenakan data yang tidak seimbang pengujian

akan dilakukan dengan 3 skenario yaitu menggunakan data asli, data yang telah

di oversampling dan data dari 2 produk yang berbeda. Evaluasi akan dilakukan

dengan menggunakan 10-fold cross validation pada skenario 1 dan skenario

2.Cross validation akan membagi data menjadi 10 bagian yang dengan jumlah

dari masing-masing bagian yang hampir seragam. Proses pelatihan dan pengujian

akan dilakukan sebanyak 10 kali, dimana pada masing-masing iterasi satu bagian

akan dijadikan sebagai data uji dan sisanya sebagai data latih. Akurasi yang

diperoleh merupakan penjumlahan dari seluruh iterasi.

Algoritma yang akan digunakan untuk melakukan pengujian ialah SVM, Naïve

Bayes dan C45. Tools data mining yang digunakan ialah WEKA 3.6.8. Parameter

yang digunakan untuk menentukan akurasi ialah macro average fmeasure. Nilai

macro average diperoleh dari nilai rata-rata fmeasure untuk setiap kelas.

5.3.1 Pengujian menggunakan data asli Pengujian menggunakan 3 algoritma klasifikasi yaitu SVM, Naïve Bayes dan

C45. Data yang digunakan untuk pengujian ialah data yang telah dikonversi

kedalam vector space model dengan persentase setiap kelas sesuai dengan rincian

data pada tabel 5.2. Hasil pengujian data dengan 3 algoritma dapat dilihat pada

tabel 5.3 dengan paramater evaluasi fmeasure untuk setiap kelas dan nilai macro

average dari fmeasure.


47


Tabel 5.3 Data hasil klasifikasi

Fmeasure

Negatif Netral Positif Macro Average

Iphone 4S

C45 0.548 0.656 0.467 0.579

Naïve Bayes 0.567 0.586 0.461 0.547

SVM 0.611 0.713 0.471 0.622

Galaxy Tab 7.0

C45 0.302 0.609 0.386 0.483

Naïve Bayes 0.276 0.626 0.456 0.508

SVM 0.156 0.703 0.314 0.481

Untuk data review Iphone 4S algoritma SVM memiliki akurasi yang paling baik,

sedangkan C45 dan Naïve bayes memiliki nilai macro average yang sama. Dari

ketiga algoritma tersebut nilai fmeasure terbesar terdapat pada kelas netral. Hal ini

dipengaruhi banyaknya jumlah record dengan kelas netral dengan persentase

hampir 50%.

Pada data review untuk produk Samsung Galaxy TAB 7.0 nilai fmeasure

tertinggi dimiliki oleh Naïve Bayes sedangkan terendah oleh C45. Nilai fmeasure

tertinggi terdapat pada kelas netral sama seperti pada review dari Iphone 4s, kelas

netral sendiri merupakan kelas mayoritas dari dataset. Jumlah kelas netral pada

dataset sebanyak 50%. Sementara fmeasure terendah dimiliki kelas negatif yang

merupakan kelas minoritas, kelas negatif hanya berjumlah 19% dari data. Bahkan

untuk algoritma SVM nilai fmeasure untuk kelas negatif hanya 0.15.

Untuk mengetahui rincian hasil klasifikasi digunakan confusion matrix dari hasil

pengujian. Hasil confusion matrix untuk ketiga algoritma terdapat pada tabel 5.4

dan 5.5.


48


Tabel 5.4 Confusion Matrix Iphone 4S

C45

Negatif Netral Positif <-- diklasifikasikan

69 61 14 Negatif

29 231 59 Netral

10 93 77 Positif

Naïve Bayes


91 41 12 Negatif

63 181 75 Netral

23 77 80 Positif

SVM


69 74 1 Negatif

11 281 27 Netral

2 114 64 Positif

Tabel 5.5 Confusion Matrix Samsung galaxy Tab 7.0

C45


19 48 12 Negatif

19 147 47 Netral

9 75 45 Positif


49


Naïve Bayes


21 33 25 Negatif

32 135 46 Netral

20 50 59 Positif

SVM


7 64 8 Negatif

1 204 8 Netral

3 99 27 Positif

Dari confusion matrix terlihat bahwa dari ketiga algoritma memiliki

kecenderungan mengklasifikasikan ke kelas yang mayoritas yaitu kelas netral,

baik untuk data review Iphone 4S ataupun review Samsung Galaxy Tab 7.0. hal

ini yang mengakibatkan akurasi dari ketiga algoritma untuk masing-masing data

tidak akurat, karena sebagian besar record di klasifikasikan kedalam kelas

mayoritas.

5.3.2 Pengujian menggunakan data hasil overssampling Sebelum masuk ke tahap klasifikasi dilakukan proses oversampling terhadap kelas

minoritas. Proses oversampling dilakukan dengan algoritma SMOTE(Chawla, et

al., 2002) dengan persentase 50% untuk setiap kelas minoritas. Tabel 5.6

menggambarkan persentase kelas untuk masing-masing data setelah dilakukan

oversampling.

Tabel 5.6 Data opini hasil ekstraksi

No Produk JumlahOpini

Kelas

Netral Positif Negatif

1 Iphone 4S 643 319 270 216

2 SAMSUNG Galaxy Tab 2 7.0 421 213 193 118


50


Proses oversampling hanya dilakukan pada kelas-kelas yang minoritas, sedangkan

untuk kelas mayoritas pada kedua data tidak dilakukan overssampling. Data hasil

oversampling tersebut akan digunakan pada proses klasifikasi.

Tabel 5.7 Data hasil klasifikasi mengunakan data oversampling

Fmeasure


Iphone 4S

C45 0.706 0.603 0.61 0.633

Naïve Bayes 0.677 0.56 0.57 0.595

SVM 0.861 0.777 0.788 0.803

Galaxy Tab 7.0

C45 0.475 0.596 0.582 0.564

Naïve Bayes 0.44 0.579 0.552 0.538

SVM 0.796 0.77 0.769 0.776

Dari hasil pengujian, oversampling pada kelas minoritas mampu meningkatkan

akurasi dari hasil klasifikasi. Peningkatan terbesar terdapat pada algoritma SVM.

Peningkatan nilai fmeasure juga terjadi pada kelas-kelas yang dilakukan

oversampling yaitu kelas positif dan negatif.

Tabel 5.8 Confusion Matrix Iphone 4S

C45


144 58 14 Negatif

34 204 81 Netral

14 96 160 Positif

Naïve Bayes


148 57 11 Negatif

55 189 75 Netral

18 110 142 Positif

SVM



51


173 39 4 Negatif

11 268 40 Netral

2 64 204 Positif

Tabel 5.9 Confusion Matrix Samsung galaxy Tab 7.0

C45


47 56 15 Negatif

25 150 38 Netral

8 84 101 Positif

Naïve Bayes


57 47 14 Negatif

50 134 29 Netral

34 69 90 Positif

SVM


82 29 7 Negatif

5 184 24 Netral

1 52 140 Positif

Dari confusion matrix terlihat kecenderungan klasifikasi terhadap kelas mayoritas

mampu dikurangi dengan oversampling. Pengaruh oversampling benar-benar

terlihat pada algoritma SVM untuk kedua data. Meskipun jumlah record yang

diklasifikasikan kedalam kelas netral masih menjadi mayoritas.

5.3.3 Pengujian menggunakan data produk yang berbeda

Pengujian bertujuan untuk mengetahui bagaimana akurasi yang dihasilkan jika

menggunakan data latih dan data uji dari 2 produk yang berbeda. Untuk data latih

digunakan data review produk Iphone 4S sedangkan pengujian menggunakan data

review produk Galaxy Note. Rincian data yang akan digunakan terdapat pada

tabel 5.10.


52


Tabel 5.10 Data latih dan data uji

No Produk JumlahOpini

Kelas

Netral Positif Negatif

1 Iphone 4S 643 319 270 216

2 Galaxy Note 433 233 130 70

Pemilihan data Galaxy Note dikarenakan kesamaan kategori antara Iphone 4S dan

Galaxy Note yaitu smartphone. Selain itu harga dan spesifikasi antara kedua

produk tersebut tidak terlalu berbeda. Sebelum dilakukan klasifikasi data latih

dilakukan oversampling terlebih dahulu unutk kelas-kelas minoritas.

Tabel 5.11 Data hasil klasifikasi mengunakan data yang berbeda

Fmeasure


C45 0.444 0.654 0.297 0.513

Naïve Bayes 0.409 0.527 0.481 0.489

SVM 0.608 0.787 0.486 0.668

Dari hasil pengujian, akurasi yang dihasilkan tidak terlalu baik. nilai akurasi

tertinggi hanya 0.668 pada algoritma SVM. Hal ini dikarenakan feature yang

dimiliki antara kedua produk tersebut tidak sama. Opini positif pada suatu produk

bisa jadi menjadi negatif pada produk lainnya. Sehingga pengujian menggunakan

data latih dan data uji dengan produk berbeda tidak menghasilkan akurasi yang

cukup baik.

Tabel 5.12 Confusion Matrix

C45


32 33 5 Negatif

26 170 37 Netral

16 84 30 Positif

Naïve Bayes


38 30 2 Negatif


53


58 108 67 Netral

20 47 63 Positif

SVM


31 37 2 Negatif

0 231 2 Netral

1 86 43 Positif

Dari confusion matrix terlihat kecenderungan klasifikasi masih terhadap kelas

netral. Meskipun SVM memiliki akurasi terbaik namun sebagian besar data

diklasifikasikan ke dalam satu kelas yaitu netral. Dari confusion matrix terlihat

bahwa lebih dari ¾ data pada algoritma SVM diklasifikasikan kedalam kedalam

kelas netral. Sedangkan untuk algoritma lain jumlah record yang diklasifikasikan

terhadap masing-masing kelas lebih merata namun jumlah yang tepat

diklasifikasikan cukup sedikit.

Salah satu penyebab rendahnya akurasi yang dihasilkan ialah perbedaaan feature

yang dimiliki oleh kedua produk, sehingga beberapa feature pada Galaxy Note

tidak terdapat dalam model klasifikasi yang dibangun menggunakan Iphone 4S.

Sebagai contoh opini “+ disertakan stylus pen yg dapat digunakan untuk

navigasi smartphone sendiri menulis hal penting dgn teknik handwriting,

capture layar atau mengedit photo ” merupakan opini yang positif tetapi untuk

ketiga model klasifikasi memberikan label netral. Hal ini dikarenakan feature

styluspen tidak terdapat pada Iphone 4s.


54


BAB 6 KESIMPULAN DAN SARAN

Bab ini terdiri dari kesimpulan penelitian yang dilakukan, dan saran untuk

perbaikan penelitian di masa yang akan datang.

6.1 Kesimpulan Berikut kesimpulan dari penelitian yang dilakukan:

1. Sebelum dilakukan proses pengkategorian review perlu dilakukan proses

feature extraction untuk memperoleh setiap opini dan feature yang

terdapat pada opini tersebut.

2. Proses asosiasi dapat diimplementasikan dalam proses feature extraction.

Nilai minimum support terbaik untuk feature extraction pada penelitian ini

adalah 0,3.

3. Proses prunning pada feature extraction mampu meningkatkan akurasi

hasil ekstraksi dengan mengeliminasi feature-feature yang redundant.

4. Algoritma klasifikasi yang paling tepat untuk kasus ini ialah SVM yang

memiliki nilai akurasi terbaik dihampir semua skenario.

5. Proses oversampling untuk menyeimbangkan porsi dari setiap kelas dari

data review dapat meningkatkan akurasi dari model yang terbentuk, hal ini

dikarenakan mayoritas opini yang berhasil diekstrak merupkan opini yang

netral.

6. Proses pembangunan model klasifikasi memiliki akurasi yang lebih baik

jika dilakukan per produk. Penggunaan model klasifikasi pada suatu

prduk untuk produk lain mampu mengurangi akurasi dari model yang telah

terbentuk

6.2 Saran Berikut beberapa saran untuk perbaikan penelitian ke depan :

1. Perlu penelitian lebih lanjut untuk feature extraction. Perlu nya Natural

Language Processing

2. untuk memperoleh feature yang lebih baik dibandingkan hanya

memanfaatkan frequent feature. Hal ini dikarenakan masih terdapat


55


feature-feature yang tidak relevan jika hanya memanfaatkan pencarian

feature yang frequent.

3. Perlu adanya penanganan sinonim pada ekstraksi feature. Jika hanya

menggunakan feature yang frequent, 2 feature yang sebenarnya sama

namun menjadi feature yang berbeda. Sebagai contoh feature retina

display dan layar retina merupakan 2 feature yang sama, namun jika

memanfaatkan frequent feature, kedua feature tersebut diperlakukan

sebagai 2 feature yang berbeda.


56


DAFTAR REFERENSI Ann Devitt Khurshid Ahmad. (2007). Sentiment Polarity Identification in Financial News: A Cohesion-based Approach. Prague, Czech Republic : Association for Computational Linguistics.

Chawla Nitesh V., Bowyer Kevin W. and Hall Lawrence O. (2002).SMOTE: Synthetic Minority Over-sampling Technique. AI Access Foundation, 2002. - 1 : Vol. 16.

Chou Shih Yung. (2011).Do Online Reviews Affect an Online Intermediary’s Reputation? A Transaction Cost Economics Perspective [Online]. - 2011. - September 10, 2012. - http://jib.debii.curtin.edu.au/iss09_chou.pdf.

Ding Xiaowen and BingLiu. (2010).Resolving Object and Attribute Coreference in Opinion Mining. COLING '10 Proceedings of the 23rd International Conference on Computational Linguistics, 2010.

Feldman Ronen and Sanger James. (2007).The Text Mining Handbook.Cambridge University Press, - 9780521836579.

Fernandez Alejandra Lopez, Veale Tony and Majumder Prasenjit. (2009).Feature Extraction from Product Reviews using Feature Similarity and Polarity. UCD School of Computer Science and Informatics.

Fernandez Alejandra Lopez, Veale Tony and Majumder Prasenjit. (2009).Feature extraction from Product Reviews using Feature Similarity and Polarity.

Franky and RuliManurung. (2008).Machine Learning-based Sentiment Analysis of Automatic Indonesian Translations of English Movie Reviews. Depok : International Conference on Advanced Computational Intelligence and Its Applications 2008 (ICACIA 2008).

Henrique Siqueira Flavia Barros A.Feature Extraction Process for Sentiment Analysis of Opinions on Services [Online]. - 2008. - September 10, 2012. - http://www.labic.icmc.usp.br/wti2010/IIIWTI_camera_ready/74769.pdf.

Hu Minqing and Liu Bing. (2004).Mining Opinion Features in Customer Reviews [Online]. September 10, 2012. - http://www.aaai.org/Papers/AAAI/2004/AAAI04-119.pdf.

Jeong Hana, Shin Dongwook and Choi Joongmin. (2011).FEROM: Feature Extraction and Refinement for Opinion Mining.


57


Liliana Ferreira Niklas Jakob, Iryana Gurevych. (2008).A comparative Study of Feature Extraction Algorithm in Customer Reviews. - Aveiro : Inst. of Electron. & Telematics Eng. of Aveiro.

Lipsman Andrew. (2007).Online Consumer-Generated Reviews Have Significant Impact on Offline Purchase Behavior [Online]. - http://www.comscore.com/Press_Events/Press_Releases/2007/11/Online_Consumer_Reviews_Impact_Offline_Purchasing_Behavior.

Liu Bing. (2010).Sentiment Analysis and Subjectivity, in Handbook of Natural Language Processing [Online]. - 2010. - September 10, 2012. - http://www.cs.uic.edu/~liub/FBS/NLP-handbook-sentiment-analysis.pdf.

Nugroho Anto Satriyo, Witarto Arief Budi and Handoko Dwi. (2003).Support Vector Machine [Online]. - September 10, 2012. - http://asnugroho.net/papers/ikcsvm.pdf.

Pang B. and Lee. L. (2004). A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts. ACL '04 Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics.

Pang Bo and Lee Lillian. 2(002).Thumbs up? Sentiment classification using machine learning techniques. Philadelphia : EMNLP '02 Proceedings of the ACL-02 conference on Empirical methods in natural language processing, 2002.

Popescu Ana-Maria and Etzioni Oren. (2009).Extracting Product Features and Opinions from Reviews.

Rennie Jason D. M. and Shih Lawrence. (2003).Tackling the Poor Assumptions of Naive Bayes Text Classifier. Cambridge : In Proceedings of the Twentieth International Conference on Machine Learning.

Sebastiani. F. (2002).Machine learning in automated text. ACM Computing Surveys (CSUR), 2002. - 1 : Vol. 34.

Sidorov Grigori and Miranda-Jiménez Sabino. (2010).Empirical Study of Machine Learning Based Approach for Opinion Mining in Tweets [Online]. - 2010. - September 10, 2012. - http://www.cic.ipn.mx/~sidorov/SEL.pdf.

Somprasertsri Gamgarn and Lalitrojwong Pattarachai. (2009).Mining Feature-Opinion in Online Customer Reviews for Opinion Summarization.

Verhein Florian. (2008).Frequent Pattern Growth (FP-Growth) Algorithm An Introduction.


58


Wicaksono Alfan Farizki and AyuPurwarianti. (2010).HMM Based Part-of-Speech Tagger for Bahasa Indonesia. Jakarta : Fourth International MALINDO Workshop (MALINDO2010).

Witten I. H. and Frank E.Data Mining: Practical Machine Learning Tools and Techniques. - San Francisco : [s.n.], 199.

Zuhui Wang and Wei Jiang. (2012).Online Reviews Sentiment Analysis Applying Mutual Information. - Harbin : Fuzzy Systems and Knowledge Discovery (FSKD), 2012 9th International Conference.


59


LAMPIRAN

1. Part of Speech Label No POS Nama POS Contoh

1 OP Open Parenthesis ({[ 2 CP Close Parenthesis )}] 3 GM Slash / 4 ; Semicolon ; 5 : Colon : 6 “ Quotation “ ’ 7 . Sentence Terminator . ! ? 8 , Comma , 9 - Dash -

10 ... Ellipsis ... 11 JJ Adjective Kaya, bagus, jelek 12 RB Adverb Sementara, Nanti 13 NN Common Noun Mobil 14 NNP Proper Noun Bekasi, Indonesia 15 NNG Genitive Noun Bukunya 16 VBI Intransitive Verb Pergi 17 VBT Transitive Verb Membeli 18 IN Preposition Di, ke , dari 19 MD Modal Bisa 20 CC Coor-Conjunction Dan, atau, tetapi 21 SC Subor-Conjunction Jika, ketika 22 DT Determiner Para, ini, itu 23 UH Interjection Wah, aduh, oi 24 CDO Ordinal Numerals Pertama, Kedua 25 CDC Collective Numerals Bertiga 26 CDP Primary Numerals Satu, Dua 27 CDI Irregular Numerals Beberapa 28 PRP Personal Pronouns Saya, kamu 29 WP WH-Pronouns Apa 30 PRN Number Pronouns Kedua-duanya 31 PRL Locative Pronouns Sini, Situ, Sana 32 NEG Negation Bukan, Tidak 33 SYM Symbols @#$%^& 34 RP Particles Pun, Kah 35 FW Foreign Words Foreign, Word


60


2. Stopword

ada banyak bermula di diperlihatkan adalah bapak bersama dia diperlukan

adanya baru bersama-sama diakhiri diperlukannya

adapun bawah bersiap diakhirinya dipersoalkan agar beberapa bersiap-siap dialah dipertanyakan aja begini bertanya diantara dipunyai

akan beginian bertanya-tanya diantaranya diri

akankah beginikah berturut diberi dirinya

akhir beginilah berturut-turut diberikan disampaikan

akhiri begitu bertutur diberikannya disebut akhirnya begitukah berujar dibuat disebutkan aku begitulah berupa dibuatnya disebutkannya akulah begitupun besar didapat disini amat bgt betul didatangkan disinilah amatlah banget betulkah digunakan ditambahkan anda bekerja biasa diibaratkan ditandaskan andalah belakang biasanya diibaratkannya ditanya ane belakangan bila diingat ditanyai antar benar bilakah diingatkan ditanyakan antara benarkah bisa diinginkan ditegaskan antaranya benarlah bisakah dijawab ditujukan apa berada boleh dijelaskan ditunjuk apaan berakhir bolehkah dijelaskannya ditunjuki apabila berakhirlah bolehlah dikarenakan ditunjukkan

apakah berakhirnya buat dikatakan ditunjukkannya

apalagi berapa bukan dikatakannya ditunjuknya apatah berapakah bukankah dikerjakan dituturkan artinya berapalah bukanlah diketahui dituturkannya asal berapapun bukannya diketahuinya diucapkan asalkan berarti bulan dikira diucapkannya atas berawal bung dilakukan diungkapkan atau berbagai cara dilalui dong ataukah berdatangan caranya dilihat dua ataupun beri cukup dimaksud dulu awal berikan cukupkah dimaksudkan empat

awalnya berikut cukuplah dimaksudkannya enggak


61


bagai berikutnya dahulu dimaksudnya enggaknya bagaikan berjumlah dalam diminta entah bagaimana berkali-kali dan dimintai entahlah bagaimanakah berkata dapat dimisalkan ga bagaimanapun berkehendak dari dimulai gan bagi berkeinginan daripada dimulailah ghz bagian berkenaan datang dimulainya guna bahkan berlainan dekat dimungkinkan gunakan bahwa berlalu demi dini ha bahwasanya berlangsung demikian dipastikan hal baik berlebihan demikianlah diperbuat hampir bakal bermacam dengan diperbuatnya hanya

bakalan bermacam-macam depan dipergunakan hanyalah

balik bermaksud dgn diperkirakan hari

harus kalaulah kini memastikan mengucapkannya

haruslah kalaupun kinilah memberi mengungkapkan

harusnya kali kira memberikan menjadi hendak kalian kira-kira membuat menjawab hendaklah kalo kiranya memerlukan menjelaskan hendaknya klo kiri memihak menuju hingga kami kita meminta menunjuk ia kamilah kitalah memintakan menunjuki ialah kamu kok memisalkan menunjukkan ibarat kamulah lagi memperbuat menunjuknya

ibaratkan kan lagian mempergunakan menurut

ibaratnya kanan lah memperkirakan menuturkan

ibu kapan lain memperlihatkan menyampaikan

ikut kapankah lainnya mempersiapkan menyangkut inci kapanpun lalu mempersoalkan menyatakan

indonesia karena lama mempertanyakan menyebutkan

ingat karenanya lamanya mempunyai menyeluruh ingat-ingat kasus lancar memulai menyiapkan ingin kata lanjut memungkinkan merasa inginkah katakan lanjutnya menaiki mereka inginkan katakanlah lebih menambahkan merekalah ini katanya lewat menandaskan merupakan


62


inikah ke lima menanti meski inilah keadaan luar menanti-nanti meskipun itu kebetulan macam menantikan meyakini itukah kebutuhan maka menanya meyakinkan itulah kelebihan makanya menanyai minta jadi kecil makin menanyakan mirip jadilah kedua malah mendapat misal jadinya keduanya malahan mendapatkan misalkan jam keinginan mampu mendatang misalnya jangan kelamaan mampukah mendatangi mula jangankan kelihatan mana mendatangkan mulai janganlah kelihatannya manakala menegaskan mulailah jauh kelima manalagi mengakhiri mulanya jawab keluar masa mengapa mungkin jawaban kembali masalah mengatakan mungkinkah jawabnya kemudian masalahnya mengatakannya nah jelas kemungkinan masih mengenai naik

jelaskan kemungkinannya masihkah mengerjakan namun

jelaslah kenapa masing mengetahui nanti

jelasnya kepada masing-masing menggunakan nantinya

jika kepadanya mau menghendaki nya jikalau kesampaian maupun mengibaratkan nyaris

juga keseluruhan melainkan mengibaratkannya nyatanya

jumlah keseluruhannya melakukan mengingat oleh

jumlahnya kesan melalui mengingatkan olehnya justru keterlaluan melihat menginginkan orang kala ketika melihatnya mengira pada kalau khususnya memang mengucapkan padahal padanya sayalah sekaligus sering tandasnya pak sayang sekalipun seringnya tangan paling se sekarang serta tanpa panjang sebab sekarang serupa tanya pantas sebabnya sekecil sesaat tanyakan para sebagai seketika sesama tanyanya pasti sebagaimana sekiranya sesampai tapi pastilah sebagainya sekitar sesegera tegas pengguna sebagian sekitarnya sesekali tegasnya

penting sebaik sekurang-kurangnya seseorang telah

pentingnya sebaik- sekurangnya sesuatu tempat


63


baiknya per sebaiknya sela sesuatunya tengah percuma sebaliknya selain sesudah tentang perlu sebanyak selaku sesudahnya tentu perlukah sebegini selalu setelah tentulah perlunya sebegitu selama setempat tentunya

pernah sebelum selama-lamanya setengah tepat

persoalan sebelumnya selamanya seterusnya terakhir pertama sebenarnya selanjutnya setiap terasa pertama-tama seberapa seluruh setiba terbanyak pertanyaan sebesar seluruhnya setibanya terdahulu

pertanyakan sebetulnya semacam setidak-tidaknya terdapat

pihak sebisanya semakin setidaknya terdiri pihaknya sebuah semampu setinggi terhadap pilihan sebut semampunya seusai terhadapnya posisi sebutlah semasa sewaktu teringat pukul sebutnya semasih siap teringat-ingat pula secara semata siapa terjadi pun secukupnya semata-mata siapakah terjadilah punya sedang semaunya siapapun terjadinya rasa sedangkan sementara sih terkira rasanya sedemikian semisal sini terlalu rata sedikit semisalnya sinilah terlebih rupanya sedikitnya sempat soal terlihat saat seenaknya semua soalnya termasuk saatnya segala semuanya suatu ternyata saja segalanya semula sudah tersampaikan sajalah segera sendiri sudahkah tersebut saling seharusnya sendirian sudahlah tersebutlah sama sehingga sendirinya supaya tertentu sama-sama seingat seolah tadi tertuju sambil sejak seolah-olah tadinya terus sampai sejauh seorang tahu terutama sampai-sampai sejenak sepanjang tahun tetap sampaikan sejumlah sepantasnya tak tetapi

sana sekadar sepantasnyalah tambah tiap

sangat sekadarnya seperlunya tambahnya tiba sangatlah sekali seperti tampak tiba-tiba satu sekali-kali sepertinya tampaknya tidakkah


64


saya sekalian sepihak tandas tidaklah tiga tutur ujarnya untuk wahai tinggi tuturnya umum usah waktu toh ucap umumnya usai waktunya tunjuk ucapnya ungkap waduh walau turut ujar ungkapnya wah walaupun

3. Aktual Feature Iphone 4S Feature a5 aplikasi apple baterai browsing camera data desain dual core facetime fitur flash foto gambar game hardware harga icloud iMessage ios iphone 4s itunes kamera kecepatan kemampuan kualitas layanan layar memori musik performa ponsel prosesor


65


resolusi retina display sim siri slot smartphone sms suara tampilan teknologi tombol versi video warna wifi

4. Aktual Feature SAMSUNG galaxy TAB 2.7.0 Feature android aplikasi audio baterai berat bodi browser desain device dual core espresso fitur flash galaxy tab samsung game harga ice cream sandwich internet ipad kamera kecepatan kemampuan kinerja koneksi


66


konektivitas kualitas layar memori menu multimedia os perangkat performa player produk prosesor resolusi samsung sistem smartphone speaker spesifikasi suara tablet tablet samsung tampilan telpon terjangkau tombol ukuran usb video warna web wifi

5. Frequent Feature Iphone 4S Feature Support sprint 9 pengaturan 9 penggunaan 9 slot 9 photo 9 flash 9 perbedaan 9 memori 9


67


emang 9 tahan 9 bahasa 9 suara 10 itunes 10 internet 10 processor 10 sim 11 wifi 11 musik 11 daya 11 camera 12 sms 12 browsing 12 versi 12 layanan 14 tombol 14 imessage 14 game 14 a5 14 display 14 performa 16 kecepatan 16 jaringan 16 produk 16 retina 16 hasil 17 warna 19 core 19 dual 19 teknologi 20 gambar 21 resolusi 21 smartphone 21 tampilan 23 kemampuan 23 desain 23 harga 23 prosesor 24 kualitas 25 baterai 31


68


ponsel 32 data 33 foto 34 aplikasi 44 ios 48 video 54 layar 55 4s 61 siri 70 kamera 73 fitur 87 apple 89 iphone 309 retina, display 12 dual, core 9 iphone, 4s 50 apple, iphone 12

6. Frequent Feature SAMSUNG galaxy TAB 2.7.0

Feature Support warna 8 sistem 8 bodi 9 player 9 os 10 perangkat 11 wifi 11 browser 11 memori 11 prosesor 12 versi 12 kualitas 12 flash 13 ukuran 13 suara 13 desain 14 performa 14 tombol 14 internet 14


69


speaker 16 menu 17 baterai 17 game 20 produk 23 harga 27 android 29 fitur 30 aplikasi 36 kamera 37 layar 37 video 48 samsung 81 tab 83 tablet 99 dual, core 11 galaxy, tab 42 tablet, samsung 7 ice, cream, sandwich 8 galaxy, tab, samsung 11

7. Feature Hasil Prunning Iphone 4S Feature Purity Support pengaturan 9 penggunaan 9 slot 9 photo 9 flash 9 perbedaan 8 memori 8 emang 9 tahan 13 suara 8 itunes 10 internet 9 processor 8 sim 10 wifi 9 musik 11 daya 9 camera 13


70


sms 12 browsing 12 versi 11 layanan 12 tombol 12 imessage 12 game 10 a5 15 performa 15 kecepatan 15 jaringan 16 produk 16 hasil 16 warna 17 teknologi 18 gambar 21 resolusi 20 smartphone 21 tampilan 23 kemampuan 23 desain 23 harga 21 prosesor 23 kualitas 25 baterai 29 ponsel 31 data 22 foto 28 aplikasi 38 ios 47 video 43 layar 48 4s 14 siri 65 kamera 69 fitur 72 apple 44 iphone 83 retina, display 12 dual, core 18 iphone, 4s 152


71


apple, iphone 43 apple 89 iphone 309 retina, display 12 dual, core 9 iphone, 4s 50 apple, iphone 12

8. Feature Hasil Prunning SAMSUNG galaxy TAB 2.7.0 Feature Purity Support warna 8 sistem 8 bodi 9 player 8 os 11 perangkat 11 wifi 11 browser 9 memori 11 prosesor 11 versi 12 kualitas 12 flash 12 ukuran 13 suara 9 desain 14 performa 14 tombol 11 internet 13 speaker 15 menu 16 baterai 14 game 16 produk 22 harga 25 android 29 fitur 24 aplikasi 29 kamera 30 layar 33 video 37


72


samsung 34 tab 43 tablet 61 dual, core 18 galaxy, tab 32 tablet, samsung 20 ice, cream, sandwich 8 galaxy, tab, samsung 30

9. Contoh Hasil Klasifikasi

Review Actual C45 Naïve Bayes SVM

kekurangan yang saya rasakan akhir nya adalah baterai yang terasa boros 2:negative 2:negative 2:negative 2:negative sedotan baterai terbesar pada layar 2:negative 2:negative 2:negative 3:neutral kekurangan lain adalah beberapa fitur dan aplikasi terasa kurang responsif 2:negative 2:negative 3:neutral 3:neutral kamera nya juga mantap 1:positive 1:positive 1:positive 1:positive + layar 5 1:positive 3:neutral 3:neutral 1:positive + s pen dan s memo 1:positive 3:neutral 3:neutral 3:neutral + kamera dan perekam video bagus 1:positive 1:positive 1:positive 1:positive galaxy note menurut samsung merupakan sebuah tipe baru dari smartphone 3:neutral 3:neutral 1:positive 3:neutral terlepas dari ukuran jumbonya jika dilihat dari depan note mirip seperti samsung galaxy s pertama 2:negative 3:neutral 2:negative 3:neutral untuk masalah besar nya ponsel memang akan bermasalah ketika anda memegang note dengan satu tangan misal nya ketika anda memegang dengan tangan kanan ketika anda berusaha menyentuh bagian ujung kiri pada layar maka anda yang mempunyai jempol panjang sekalipun akan kesulitan karena akan mentok antara pangkal jempol dan layar sebelah kanan 2:negative 1:positive 2:negative 3:neutral + prosesor dual - core 1 1:positive 1:positive 1:positive 1:positive 4ghz membantu menjalankan aplikasi bersamaan multitasking dgn cepat dan tanpa hambatan 1:positive 3:neutral 1:positive 1:positive


73


+ layar menggunakan super amoled dgn resolusi 800 x 1280 yg membuat tampilan warna tampak cerah membaca ebook akan + menyenangkan dgn ukuran layar nya yg besar 1:positive 2:negative 1:positive 3:neutral + disertakan stylus pen yg dapat digunakan untuk navigasi smartphone sendiri menulis hal penting dgn teknik handwriting + capture layar mengedit photo atau sekedar menggambar 1:positive 3:neutral 3:neutral 3:neutral + kamera 8 mp yg mampu merekam video full hd video call akan tampak jernih dgn kamera 2 mp pada bagian depan 1:positive 1:positive 1:positive 1:positive + dukungan berbagai format video untuk memutar film 1:positive 3:neutral 1:positive 3:neutral + konektivitas sudah didukung hsdpa hsupa kecepatan download ataupun upload menjadi cepat 1:positive 1:positive 1:positive 3:neutral - ukuran nya terlalu besar tidak dapat dimasukkan ke dalam saku kurang nyaman digenggam 2:negative 3:neutral 2:negative 3:neutral - harga mahal 2:negative 2:negative 2:negative 2:negative - baterai cukup boros apalagi jika penggunaan intens 2:negative 2:negative 2:negative 2:negative dengan kata lain kamera galaxy note patut diacungi jempol 1:positive 1:positive 1:positive 3:neutral selain storage baterai juga cepet habis boro banget 2:negative 2:negative 2:negative 3:neutral riset konsumen menunjukkan bahwa orang selalu ingin mengerjakan lebih banyak tugas dengan lebih baik bahkan ketika sedang di perjalanan baik untuk web browsing email game atau melihat foto dan video 3:neutral 3:neutral 1:positive 3:neutral galaxy note meminimalkan kebutuhan untuk beralih ke perangkat lain saat bepergian 1:positive 1:positive 1:positive 3:neutral praktis dengan ukuran tersebut galaxy note muncul ke pasaran nyaris tanpa pesaing hanya ada dell streak itupun bernama tablet dan memiliki ukuran yang tebal 1:positive 3:neutral 1:positive 3:neutral


universitas indonesia analisis opini konsumen berbasis...

Documents