slide pendadaran

50
IMPLEMENTASI ALGORITMA IB1 TERHADAP KLASIFIKASI SENTIMEN PADA REVIEW FILM OSWIN RAHADIYAN HARTONO 71110012

Upload: oswin-rahadiyan-hartono

Post on 15-Apr-2017

199 views

Category:

Documents


7 download

TRANSCRIPT

Page 1: SLIDE PENDADARAN

IMPLEMENTASI ALGORITMA IB1 TERHADAP KLASIFIKASI SENTIMEN

PADA REVIEW FILM

OSWIN RAHADIYAN HARTONO71110012

Page 2: SLIDE PENDADARAN

LATAR BELAKANG• Tinjauan atau review seseorang yang ditujukan kepada suatu

objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013)

• Kebanyakan review tidak dikategorikan berdasarkan isinya secara eksplisit apakah tergolong dalam review yang positif atau negatif

• Adapun penelitian ini ditujukan untuk melakukan klasifikasi dengan menggunakan review film yang terdapat dalam situs rottentomatoes.com dengan menggunakan metode klasifikasi Instance-Based Learning: IB1

Page 3: SLIDE PENDADARAN

RUMUSAN MASALAH

1. Bagaimana akurasi dari klasifikasi yang dihasilkan oleh metode IB1?

2. Bagaimanakah pengaruh hasil klasifikasi dan evaluasi dengan menggunakan WordNet?

Page 4: SLIDE PENDADARAN

BATASAN MASALAH

• Klasifikasi hanya dilakukan terhadap dokumen teks.

• Teks review film berbahasa Inggris dan diambil dari http://rottentomatoes.com

• Review film dibagi ke dalam 2 kategori yaitu positive review dan negative review.

• Stoplist bersumber dari http://tonyb.sk/_my/ir/stop-words-collection-2014-02-24.zip

Page 5: SLIDE PENDADARAN

TUJUAN PENELITIAN

Penelitian ini bertujuan untuk menerapkan algoritma IB1 secara efektif dalam sebuah sistem klasifikasi sentimen review film yang akan mengkategorikan review dalam dua kelas, yaitu positive review atau negative review. Penggunaan WordNet bertujuan untuk meningkatkan kualitas hasil klasifikasi teks.

Page 6: SLIDE PENDADARAN

METODOLOGI PENELITIAN

1. Studi Literatur2. Pengumpulan Data3. Pembuatan Sistem4. Evaluasi5. Analisis

Page 7: SLIDE PENDADARAN

PROFIL KORPUS• Sumber Korpus : www.rottentomatoes.com• Jumlah Korpus : 100 dokumen latih & 20 dokumen uji• Bahasa : Inggris• Kategori : positif dan negatif• Rata-rata jumlah kata per dokumen : 27.9 kata per dokumen• Rata-rata jumlah huruf per dokumen : 169.91 huruf per

dokumen

• Dalam 1 film terdiri dari 10 teks review film yang dibagi menjadi 5 review negatif dan 5 review positif.

Page 8: SLIDE PENDADARAN

ALUR SISTEM

Data review film Data Preprocessing WordNet

Pembobotan TF-IDFKlasifikasi

Hasil Klasifikasi &

Evaluasi

Page 9: SLIDE PENDADARAN

LANDASAN TEORIPEMBOBOTAN TF-IDF

tfd,t = fd,t idft = log (N/dft)+1wfd,t = tfd,t . Idft

Dimana : tfd,t = term frequency , jumlah token t dalam dokumen dfd,t = frekuensi kemunculan token t dalam dokumen dwfd,t = nilai bobot dokumen didft = inverse document frequencyN = jumlah dokumendft = jumlah dokumen d dimana token t muncul

Page 10: SLIDE PENDADARAN

LANDASAN TEORIEKSPANSI WORDNET

Token WordNet

movie movie 106626039

id lemma tagcount

106626039 film 38

106626039 movie 26

106626039 flick 9

106626039 picture 3

moviefilm

1 2 3

4

5

Page 11: SLIDE PENDADARAN

LANDASAN TEORIALGORITMA IB1

for each x Є Test Set do1. for each y Є Training Set do sim[y] ← Similarity(x,y)2. ymax ← some y Є Training Set with maximal Sim[y]3. if class(x) = class(ymax) then classification ← correct else classification ← incorrect4. Training Set ← Training Set ∪ {x}

Page 12: SLIDE PENDADARAN

LANDASAN TEORICOSINE SIMILARITY

Dimana :A = dokumen ujiB = dokumen pelatihann = jumlah term dalam dokumeni = indeks ke i dari sebuah term

Page 13: SLIDE PENDADARAN

LANDASAN TEORIEVALUASI

Dimana :P = PrecisionR = Recalltp = true positive, yaitu jumlah dokumen yang terambil dan relevanfp = false positive, yaitu jumlah dokumen yang terambil dan tidak relevanfn = false negative, yaitu jumlah dokumen yang tidak terambil dan relevantn = true negative, yaitu jumlah dokumen yang tidak terambil dan tidak relevanF = F Measure

Page 14: SLIDE PENDADARAN

ARSITEKTUR SISTEM

Page 15: SLIDE PENDADARAN

FLOWCHART SISTEM

Page 16: SLIDE PENDADARAN

SKEMA BASIS DATA

Page 17: SLIDE PENDADARAN

HASIL PENGUJIANEVALUASI TANPA WORDNET

Page 18: SLIDE PENDADARAN

HASIL PENGUJIANEVALUASI DENGAN WORDNET

Page 19: SLIDE PENDADARAN

HASIL PENGUJIANGRAFIK PERBANDINGAN AKURASI SISTEM

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 9950

55

60

65

70

75

80

85

90

95

100

Tanpa WordNet

Dengan WordNet

72,7%

78,7%

Page 20: SLIDE PENDADARAN

HASIL PENGUJIANGRAFIK REGRESI LINIER AKURASI SISTEM

0 10 20 30 40 50 60 70 80 90 1000

10

20

30

40

50

60

70

80

90

100

Tanpa WordNetLinear (Tanpa WordNet)Dengan WordNetLinear (Dengan WordNet)

k

Akurasi

Page 21: SLIDE PENDADARAN

HASIL PENGUJIANGRAFIK PERBANDINGAN F-MEASURE

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 990

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Tanpa WordNet

Dengan WordNet0,7190,772

Page 22: SLIDE PENDADARAN

HASIL PENGUJIANGRAFIK REGRESI LINIER F-MEASURE

0 10 20 30 40 50 60 70 80 90 1000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Tanpa WordNetLinear (Tanpa WordNet)Dengan WordNetLinear (Dengan WordNet)

k

F-Measure

Page 23: SLIDE PENDADARAN

HASIL PENGUJIANGRAFIK EVALUASI KELAS POSITIF TANPA WORDNET

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 990

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Precision Recall

F-Measure

Page 24: SLIDE PENDADARAN

HASIL PENGUJIANGRAFIK EVALUASI KELAS POSITIF DENGAN WORDNET

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 990

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Precision Recall

F-Measure

Page 25: SLIDE PENDADARAN

HASIL PENGUJIANGRAFIK EVALUASI KELAS NEGATIF TANPA WORDNET

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 990

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Precision Recall

F-Measure

Page 26: SLIDE PENDADARAN

HASIL PENGUJIANGRAFIK EVALUASI KELAS NEGATIF DENGAN WORDNET

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 990

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Precision Recall

F-Measure

Page 27: SLIDE PENDADARAN

KESIMPULAN• Dalam analisis performa sistem, klasifikasi menggunakan WordNet memiliki

nilai rata-rata akurasi sebesar 78,7% dan F-Measure 0,778. Sedangkan klasifikasi tanpa menggunakan Wordnet menghasilkan rata-rata akurasi sebesar 72,7% dan F-Measure 0,719. Akurasi klasifikasi IB1 pada kasus ini menghasilkan akurasi paling rendah sebesar 60% dan paling tinggi 95%. Hal ini menunjukan metode Instance Based Learning mampu menghasilkan klasifikasi yang baik (diatas 50%) untuk studi kasus dalam penelitian ini. Untuk pengujian secara keseluruhan (1 sampai dengan 99 instances), klasifikasi dengan WordNet menunjukan hasil yang lebih baik dari klasifikasi tanpa WordNet.

• Sistem klasifikasi dengan menggunakan komponen database WordNet menunjukan hasil yang optimal pada pemakaian 1 - 33 instances atau k ≤ 30% dari jumlah dokumen latih. Sedangkan untuk klasifikasi tanpa WordNet menunjukan hasil optimal jika pemakaian k ≤ 20% dari dokumen latih.

Page 28: SLIDE PENDADARAN

SARAN• Penggunaan API dalam pengumpulan data secara otomatis sehingga

mempersingkat waktu pengumpulan data.• Penggunaan stemming saat tahap preprocessing untuk memperkecil

dimensi vektor.• Penggunaan hash map, store procedure dan PL-SQL untuk mempercepat

proses pembacaan data dan efisiensi waktu pemrosesan data.• Identifikasi sentimen berdasarkan konteks kalimatnya dengan menerapkan

metode-metode yang ada dalam Natural Language Processing. Misalnya untuk deteksi frase seperti life support, true love dan lain sebagainya.

• Penerapan feature selection untuk penggunaan data dalam jumlah besar.• Optimalisasi penggunaan WordNet, misalnya penggunaan tabel-tabel lain

dalam database WordNet sehingga hasil klasifikasi lebih baik.• Penambahan kelas netral dalam klasifikasi sentimen review film.

Page 29: SLIDE PENDADARAN

DEMO PROGRAM

Page 30: SLIDE PENDADARAN

DAFTAR PUSTAKA Aha, D., Kibler., D., & Albert, M. (1991). Instance-Based Learning.Amiri, H., & Chua, T.-S. (2012). Sentiment Classification Using the Meaning of Words. AAAI .Berry, M. W., & Kogan, J. (2010). Text Mining : Application and Theory. New Jersey: John Wiley & Sons.Cufoglu, A. d. (2008). Classification Accuracy Performance of Naïve Bayesian (NB), Bayesian Networks (BN), Lazy Learning of

Bayesian Rules(LBR) and Instance-Based Learner (IB1) – comparative study. Cairo: University of Westminster.Feldman, R., & Sanger, J. (2007). The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge:

Cambridge University Press.Han, J., & Kamber, M. (2006). Data Mining: Concepts and Techniques, 2nd Edition. San Fransisco: Morgan Kauffman Publishers.Jivani, A. G. (2011). A Comparative Study of Stemming Algorithms.Liu, B. (n.d.). Opinion Mining and Summarization. Retrieved September 4, 2014, from http://www.cs.uic.edu/~liub/FBS/sentiment-

analysis.html.Manning, C. D., Raghavan, P., & Schutze, H. (2008). Introduction to Information Retrieval. New York: Cambridge University Press.Sahoo, N. d. (2013). The Impact of Online Product Reviews on Product Returns and Net Sales.Tala, F. Z. (2008). A Study of Stemming Effects on Information.Vijayarani, S., & Muthulakshmi, M. (2013). Comparative Analysis of Bayes and Lazy Classification Algorithms. ijarcce .Widjojo, E. (2013). Implementasi Rocchio's Classification Dalam Mengkategorikan Renungan Harian Kristen.Witten, I. H. (2010). Text Mining. Hamilton: University of Waikato.

Page 31: SLIDE PENDADARAN

SEKIAN DAN TERIMA KASIH

Page 32: SLIDE PENDADARAN

STUDI KASUSTraining SetD1 : This movie has amazing story and full of emotion! (positive)D2 : Good film and cast with realistic effect. (positive)D3 : The plot is bad, kind of confusing film. (negative)D4 : Meaningless scenes also twisted plot. (negative)

Test SetD5 : Unfortunately bad film and so many junk scenes.D6 : Another amazing movie with great humor!

Page 33: SLIDE PENDADARAN

PREPROCESSING (CAPITALIZATION)Training SetD1 : this movie has amazing story and full of emotion (positive)D2 : good film and cast with realistic effect (positive)D3 : the plot is bad kind of confusing film (negative)D4 : meaningless scenes also twisted plot (negative)

Test SetD5 : unfortunately bad film and so many junk scenesD6 : another amazing movie with great humor

Page 34: SLIDE PENDADARAN

PREPROCESSING (TOKENISASI)

D1 D2 D3 D4 D5 D6

this good the meaningless unfortunately another

movie film plot scene bad amazing

has and is also film movie

amazing cast bad twisted and with

story with kind plot so great

and realistic of many humor

full effect confusing junk

of film scenes

emotion

Page 35: SLIDE PENDADARAN

PREPROCESSING (STOPWORD REMOVAL)

Sumber stoplist : http://nlp.cs.nyu.edu/GMA_files/resources/english.stoplist

D1 D2 D3 D4 D5 D6this good the meaningless unfortunately another

movie film plot scene bad amazing

has and is also film movie

amazing cast bad twisted and with

story with kind plot so great

and realistic of many humor

full effect confusing junk

of film scenes

emotion

Page 36: SLIDE PENDADARAN

PREPROCESSING (STOPWORD REMOVAL)

Sumber stoplist : http://nlp.cs.nyu.edu/GMA_files/resources/english.stoplist

D1 D2 D3 D4 D5 D6

movie good plot meaningless bad amazing

amazing film bad scene film movie

story cast confusing twisted junk great

emotion realistic film plot scenes humor

effect

Page 37: SLIDE PENDADARAN

RELASI WORDNETD1  D2  D3  D4  D5  D6 movie great story meaningless bad amazing

film good plot junk disappointed good

amazing movie bad scenes movie movie

good film disappointed confusing film film

story realistic confusing twisted meaningless good

plot effect twisted story junk great

emotion film plot scenes humor movie

Page 38: SLIDE PENDADARAN

PEMBOBOTAN TF-IDF (TRAINING)DENGAN WORDNET

Page 39: SLIDE PENDADARAN

PEMBOBOTAN TF-IDF (TRAINING)TANPA WORDNET

Page 40: SLIDE PENDADARAN

PENGUJIAN D5TANPA WORDNET

Page 41: SLIDE PENDADARAN

PENGUJIAN D5DENGAN WORDNET

Page 42: SLIDE PENDADARAN

HASIL PENGUJIAN D5sim(D5,D1) = 0sim(D5,D2) = 0.183328sim(D5,D3) = 0.424279sim(D5,D4) = 0

Sorting jarak kemiripan secara descending : D3(-)

Kesimpulan : maka D5 masuk ke kelas negatif

sim(D5,D1) = 0.134084sim(D5,D2) = 0sim(D5,D3) = 0.262537sim(D5,D4) = 0

Sorting jarak kemiripan secara descending : D3(-)

Kesimpulan : maka D5 masuk ke kelas negatif

Page 43: SLIDE PENDADARAN

PENGUJIAN D6TANPA WORDNET

Page 44: SLIDE PENDADARAN

PENGUJIAN D6DENGAN WORDNET

Page 45: SLIDE PENDADARAN

HASIL PENGUJIAN D6sim(D6,D1) = 0.57735sim(D6,D2) = 0sim(D6,D3) = 0sim(D6,D4) = 0

Sorting jarak kemiripan secara descending : D1(+)

Kesimpulan : maka D6 masuk ke kelas positif

sim(D6,D1) = 0.490856sim(D6,D2) = 0.288675sim(D6,D3) = 0sim(D6,D4) = 0

Sorting jarak kemiripan secara descending : D1(+)

Kesimpulan : maka D6 masuk ke kelas positif

Page 46: SLIDE PENDADARAN

EVALUASI

• tp = true positif, jumlah dokumen yang terklasifikasi dengan benar ke kelas positif• tn = true negatif, jumlah dokumen yang terklasifikasi dengan benar ke kelas

negatif• fp = false positif, jumlah dokumen dengan kelas negatif yang terklasifikasi

kedalam kelas positif• fn = false negatif, jumlah dokumen dengan kelas positif yang terklasifikasi

kedalam kelas negatif

Page 47: SLIDE PENDADARAN

EVALUASI

Kategori Positif :Precision = tp/(tp+fp) = 2 / (2+0) = 1Recall = tp/(tp+fn) = 2 / (2+0) = 1F = 2/(1/Precision)+(1/Recall) = 2/2 = 1

Kategori Negatif :Precision = tn/(tn+fn) = 2 / (2+0) = 1Recall = tn/(tn+fp) = 2 / (2+0) = 1F = 2/(1/Precision)+(1/Recall) = 2/2 = 1

Page 48: SLIDE PENDADARAN
Page 49: SLIDE PENDADARAN

TAHAP PREPROCESSING

• Lowercase & aftabetik• Tokenisasi• Stopword Removal• Pembobotan TF-IDF

Page 50: SLIDE PENDADARAN

Data review film yang diambil dari http://api.rottentomatoes.com