klasifikasi supervised learning pada teks bahasa … isi.pdf · ii klasifikasi supervised learning...

14
TESIS KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER IDA BAGUS GEDE WIDNYANA PUTRA NIM 1491761007 PROGRAM MAGISTER PROGRAM STUDI TEKNIK ELEKTRO PROGRAM PASCASARJANA UNIVERSITAS UDAYANA DENPASAR 2016

Upload: truongnhu

Post on 18-Mar-2019

236 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA … ISI.pdf · ii KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

TESIS

KLASIFIKASI SUPERVISED LEARNING

PADA TEKS BAHASA BALI DENGAN METODE

INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

IDA BAGUS GEDE WIDNYANA PUTRA

NIM 1491761007

PROGRAM MAGISTER

PROGRAM STUDI TEKNIK ELEKTRO

PROGRAM PASCASARJANA

UNIVERSITAS UDAYANA

DENPASAR

2016

Page 2: KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA … ISI.pdf · ii KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

ii

KLASIFIKASI SUPERVISED LEARNING

PADA TEKS BAHASA BALI DENGAN METODE

INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

Tesis untuk Memperoleh Gelar Magister

pada Program Magister, Program Studi Teknik Elektro,

Program Pascasarjana Universitas Udayana

IDA BAGUS GEDE WIDNYANA PUTRA

NIM 1491761007

PROGRAM MAGISTER

PROGRAM STUDI TEKNIK ELEKTRO

PROGRAM PASCASARJANA

UNIVERSITAS UDAYANA

DENPASAR

2016

Page 3: KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA … ISI.pdf · ii KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

iii

Page 4: KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA … ISI.pdf · ii KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

iv

Tesis Ini Telah Diuji Pada

Tanggal 15 Juli 2016

Panitia Penguji Tesis Berdasarkan SK Rektor Universitas Udayana,

Nomor : 3241/UN14.4/HK/2016, Tanggal 14 Juli 2016

Ketua : Dr. Ir. Made Sudarma, M.A.Sc

Anggota :

1. I Nyoman Satya Kumara, ST., M.Sc, PhD

2. Prof. Ir. Rukmi Sari Hartati, MT., PhD

3. NMAE Dewi Wirastuti, ST., MSc., PhD

4. Prof. Ir. Ida Ayu Dwi Girintari, MengSc., PhD

Page 5: KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA … ISI.pdf · ii KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

v

SURAT PERNYATAAN BEBAS PLAGIAT

Nama : Ida Bagus Gede Widnyana Putra

NIM : 1491761007

Program Studi : Magister Teknik Elektro

Judul : KLASIFIKASI SUPERVISED LEARNING PADA TEKS

BAHASA BALI DENGAN METODE INFORMATION

GAIN DANNAIVE BAYES CLASSIFIER

Dengan ini menyatakan bahwa karya tulis ilmiah Tesis ini bebas plagiat. Apabila

dikemudian hari terbukti terdapat plagiat dalam karya ilmiah ini, maka saya

bersedia menerima sanksi sesuai peraturan Mendiknas RI No. 17 Tahun 2010 dan

Peraturan Perundang-undangan yang berlaku.

Denpasar, 15 Juli 2015

Yang Membuat Pernyataan

Ida Bagus Gede Widnyana Putra

Page 6: KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA … ISI.pdf · ii KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

vi

UCAPAN TERIMAKASIH

Puji dan syukur penulis panjatkan kehadapan Ida Sang Hyang Widhi Wasa

atas asung kerta waranugraha-Nya, penulis dapat menyelesaikan tesis yang berjudul

“KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI

DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER”.

Dalam menyelesaikan tesis ini, penulis mendapatkan banyak bantuan, bimbingan

dan dorongan dari berbagai pihak. Maka dari itu pada kesempatan ini penulis ingin

mengucapkan terimakasih kepada :

Bapak Gubernur Bali dan Kepala BKD Provinsi Bali atas beasiswa dan

kesempatan yang diberikan untuk melanjutkan pendidikan di Program Pasca

Sarjana Universitas Udayana serta Bapak Kalaksa BPBD Provinsi Bali dan Kepala

UPT. Pusdalops PB BPBD Provinsi Bali selaku pimpinan tempat penulis bekerja

atas ijin yang diberikan untuk mengikuti pendidikan di Program Magister Teknik

Elektro, program studi Manajemen Sistem Informasi dan Komputer, Pascasarjana

Universitas Udayana.

Prof. Dr. dr. Ketut Suastika SpPD KEMD selaku Rektor Universitas

Udayana dan Prof. Dr. dr. A.A. Raka Sudewi, Sp.S(K) selaku Direktur Program

Pascasarjana Universitas Udayana atas kesempatan dan fasilitas yang diberikan

kepada penulis untuk mengikuti dan menyelesaikan pendidikan pada Program

Magister di UniversitasUdayana.

Prof. Ir. Ida Ayu Dwi Girintari, MengSc., PhD selaku Ketua Program

Magister Program Studi Teknik Elektro Pascasarjana Universitas Udayana dan

dosen penguji tesis atas kesempatan dan masukan yang diberikan kepada penulis

untuk mengikuti dan menyelesaikan pendidikan pada Program Magister Teknik

Elektro Universitas Udayana.

Dr.Ir. Made Sudarma, M.A.Sc selaku dosen pembimbing I dan I Nyoman

Satya Kumara, ST.,MSc.,PhD selaku dosen pembimbing II atas bimbingan, arahan,

saran, dan dukungan selama penyusunan tesis ini serta para dosen penguji Prof. Ir.

Rukmi Sari Hartati, MT., PhD, NMAE Dewi Wirastuti, ST., MSc., PhD,Wayan

Page 7: KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA … ISI.pdf · ii KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

vii

Gede Ariastina, ST.,MengSc.,PhD, yang telah memberikan saran, sanggahan dan

koreksi sehingga tesis ini menjadi lebih baik serta seluruh dosen Program Magister

Teknik Elektro Universitas Udayana atas ilmu yang telah diberikan.

Orang tua terbaik Drs. Ida Bagus Antara dan Ida Ayu Gde Suwardani, S.Pd

serta istri tercinta Anak Agung Diah Pratiwi, S.Pd. yang tiada hentinya berdoa,

memberi semangat dan dukungan yang sangat besar sehingga penulis bisa

menyelesaikan pendidikan tepat waktu.

Teman-teman Magister Teknik Elektro program studi Manajemen Sistem

Informasi dan Komputer Angkatan 2014 atas kerjasama dan dukungannya serta

semua pihak yang telah membantu dalam penyusunan laporan tesis ini yang tidak

dapat disebutkan satu per satu.

Penulis menyadari bahwa penulisan tesis yang telah dibuat masih jauh dari

kesempurnaan. Oleh karena itu, penulis sangat mengharapkan kritik dan saran yang

membangun dari pembaca dan mohon maaf apabila ada kesalahan dalam penulisan

dan penyusunan tesis ini.

Penulis

Page 8: KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA … ISI.pdf · ii KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

viii

ABSTRAK

KLASIFIKASI SUPERVISED LEARNINGPADA TEKS BAHASA

BALIDENGAN METODE INFORMATION GAIN DAN

NAIVE BAYES CLASSIFIER

Ketersediaan dokumen teks bahasa Bali yang meningkat jumlahnya membuat

proses pencarian informasi pada dokumen teks berbahasa Bali menjadi semakin

sulit. Mengklasifikasikanya secara manual menjadi tidak efisien mengingat

peningkatan jumlah dokumen yang semakin banyak. Pada penelitian ini

dikembangkan sebuah aplikasi yang dapat mengklasifikasikan teks bahasa Bali ke

dalam kategori yang ditentukan. Aplikasi ini menggunakan metode klasifikasi

Naive Bayes Classifier (NBC) dan metode Information Gain (IG) untuk seleksi

fitur. Aplikasi ini diuji dengan teknik cross validation. Hasilnya adalah nilai rata-

rata akurasi dari 10 fold cross validation sebesar 95,22%.

Keywords : information gain, naive bayes classifier, text mining, cross

validation

Page 9: KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA … ISI.pdf · ii KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

ix

ABSTRACT

KLASIFIKASI SUPERVISED LEARNINGPADA TEKS BAHASA

BALIDENGAN METODE INFORMATION GAIN DAN

NAIVE BAYES CLASSIFIER

Increasing availability of Balinese language text documents making the

process of finding or classifying information in Balinese text documents is

becoming increasingly difficult. Manual classification is inefficient in view of the

increase in the number of Balinese written documents. On this paper, application

that can classify Balinese text into various document class is presented. The

application is developed using Naive Bayes classifier (NBC) method and feature

selection using Information Gain (IG) technique. Application is tested using cross

validation method. The resultsshows that average accuracy of 10 fold cross

validation is 95.22%.

Keywords : information gain, naive bayes classifier, text mining, cross

validation

Page 10: KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA … ISI.pdf · ii KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

x

DAFTAR ISI

HALAMAN JUDUL .................................................................................................. i

PERSYARATAN GELAR ........................................................................................ ii

LEMBAR PERSETUJUAN ..................................................................................... iii

PENETAPAN PANITIA PENGUJI ......................................................................... iv

SURAT PERNYATAAN BEBAS PLAGIAT ........................................................... v

UCAPAN TERIMA KASIH ..................................................................................... vi

ABSTRAK .............................................................................................................. viii

ABSTRACT .............................................................................................................. ix

DAFTAR ISI ............................................................................................................... x

DAFTAR TABEL .................................................................................................... xii

DAFTAR GAMBAR .............................................................................................. xiii

DAFTAR ISTILAH DAN SINGKATAN .............................................................. xiv

I PENDAHULUAN ............................................................................................... 1

1.1 LatarBelakang .......................................................................................... 1

1.2 RumusanMasalah ..................................................................................... 5

1.3 TujuanPenelitian ...................................................................................... 6

1.4 ManfaatPenelitian .................................................................................... 6

1.5 RuangLingkupPenelitian .......................................................................... 6

1.6 KeaslianPenelitian .................................................................................... 7

II KAJIAN PUSTAKA .......................................................................................... 10

2.1 State Of The Art Review ......................................................................... 10

2.2 Klasifikasi Dokumen .............................................................................. 13

2.3 Morfologi Bahasa Bali ........................................................................... 15

2.4 Text Mining ............................................................................................ 18

2.5 Information Retrieval ............................................................................. 20

Page 11: KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA … ISI.pdf · ii KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

xi

2.6 Natural Langguage Processing.............................................................. 24

2.7 Naive Bayes Classifier ........................................................................... 28

2.8 Term Weighting ...................................................................................... 30

2.9 Information Gain .................................................................................... 32

2.10 Cross Validation..................................................................................... 32

III METODELOGI PENELITIAN ........................................................................ 35

3.1 GambaranUmumSistem ......................................................................... 35

3.2 RancanganAlurPenelitian ....................................................................... 36

3.3 AlatdanBahanPenelitian ......................................................................... 45

3.4 JadwalPenelitian ..................................................................................... 45

IV HASIL DAN PEMBAHASAN ......................................................................... 47

4.1 Antar MukaSistem ................................................................................. 47

4.2 Tahap Preprocessing .............................................................................. 48

4.3 Tahap Seleksi Fitur ................................................................................ 54

4.4 Tahap Pelatihan ...................................................................................... 57

4.5 Tahap Klasifikasi ................................................................................... 61

4.6 Hasil Validasi dan Evaluasi dengan K-Fold Cross Validation .............. 63

4.7 Waktu Proses Sistem .............................................................................. 64

V KESIMPULAN DAN SARAN ......................................................................... 66

5.1 Kesimpulan ............................................................................................ 66

5.2 Saran ...................................................................................................... 67

DAFTAR PUSTAKA ............................................................................................... 68

Page 12: KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA … ISI.pdf · ii KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

xii

DAFTAR TABEL

Tabel 2.1 Pemetaan Keaslian Penelitian................................................................... 12

Tabel 2.2 Kemungkinan Hasil Test IR .................................................................... 23

Tabel 3.1 Ilustrasi Eksperimen 10 Fold Validation .................................................. 44

Tabel 3.2 JadwalPenelitian ....................................................................................... 46

Tabel4.1 Tahapan Proses Stemming ........................................................................ 53

Tabel4.2 Hasil Seleksi Fitur .................................................................................... 55

Tabel4.3 Hasil Perbandingan Klasifikasi dengan TFIDF dan IG ........................... 57

Tabel4.4 Hasil Percobaan Untuk Menentukan Jumlah Fitur ................................... 58

Tabel4.5 Hasil Tahap Pelatihan ............................................................................... 59

Tabel4.6 Hasil 10 Fold Cross Validation ................................................................ 63

Tabel4.7 Lama Waktu Proses Setiap Tahap ............................................................ 65

Page 13: KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA … ISI.pdf · ii KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

xiii

DAFTAR GAMBAR

Gambar 1.1 DiagramFishbonePenelitian ................................................................ 9

Gambar 2.1 High-level text mining functional architecture ................................. 20

Gambar 2.2 Arsitektur Dasar Sistem IR................................................................ 21

Gambar 2.3 Flowchart 10 Fold Cross Validation................................................. 34

Gambar3.1 Gambaran Umum Sistem .................................................................. 35

Gambar3.2 Alur Penelitian ................................................................................... 36

Gambar3.3 Alur Proses Processing ...................................................................... 38

Gambar 3.4 Alur Proses Pelatihan dengan Algoritma NBC ................................ 41

Gambar 3.5 Alur Proses Klasifikasi dengan Algoritma NBC .............................. 42

Gambar 3.6 Penggunaan Rumus pada Tahap Pelatihan dan Klasifikasi............... 42

Gambar 3.7 Alur Proses 10 Fold Cross Validation .............................................. 44

Gambar4.1 Antar Muka Sistem ............................................................................ 47

Gambar4.2 Dokumen Asli.................................................................................... 48

Gambar4.3 Hasil Transform Case ........................................................................ 49

Gambar4.4 Hasil Tokenization ............................................................................. 50

Gambar4.5 Hasil Filter Token (by Length) .......................................................... 51

Gambar4.6 Hasil Filter Stopwords ....................................................................... 52

Gambar4.7 Form Input Seleksi Fitur.................................................................... 54

Gambar4.8 Hasil Seleksi Fitur ............................................................................. 55

Gambar4.9 Grafik Hasil Perbandingan Klasifikasi dengan TFIDF dan IG ......... 57

Gambar4.10 Form Input Tahap Pelatihan .............................................................. 58

Gambar4.11 Grafik Perbandingan Berdasarkan Jumlah Fitur ............................... 59

Gambar4.12 Form Input Tahap Klasifikasi ........................................................... 61

Gambar4.13 Hasil Tahap Klasifikasi .................................................................... 62

Gambar4.14 Hasil Tidak Terklasifikasi ................................................................. 62

Gambar4.15 Grafik Tingkat Precision, Recal dan Akurasi pada setiap fold ......... 64

Page 14: KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA … ISI.pdf · ii KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

xiv

DAFTAR ISTILAH DAN SINGKATAN

CV : Cross Validation

IDF : Inverse Document Frequency

IG : Information Gain

IR : Information Retrieval

NBC : Naive Bayes Classifier

NLP : Natural Language Processing

TF : Term Frequency