klasifikasi berita olahraga menggunakan …eprints.umm.ac.id/49484/1/pendahuluan.pdftabel 19 daftar...

15
1 KLASIFIKASI BERITA OLAHRAGA MENGGUNAKAN ALGORITMA C5.0 BERBASIS ONTOLOGI Skripsi Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Informatika Universitas Muhammadiyah Malang LUQMAN ARIF SYAIFUDDIN (201310370311133) Bidang Minat DATA SCIENCE PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH MALANG 2019

Upload: others

Post on 07-Feb-2021

12 views

Category:

Documents


0 download

TRANSCRIPT

  • 1

    KLASIFIKASI BERITA OLAHRAGA MENGGUNAKAN

    ALGORITMA C5.0 BERBASIS ONTOLOGI

    Skripsi

    Diajukan Untuk Memenuhi

    Persyaratan Guna Meraih Gelar Sarjana

    Informatika Universitas Muhammadiyah Malang

    LUQMAN ARIF SYAIFUDDIN

    (201310370311133)

    Bidang Minat

    DATA SCIENCE

    PROGRAM STUDI INFORMATIKA

    FAKULTAS TEKNIK

    UNIVERSITAS MUHAMMADIYAH MALANG

    2019

  • 2

  • 3

  • 4

  • 5

    KATA PENGANTAR

    Assalamu’alaikum Wr. Wb.

    Dengan memanjatkan puji syukur kehadirat Allah SWT yang telah

    memberikan rahmat dan hidayah-Nya kepada penulis sehingga dapat

    menyelesaikan skripsi sebagai tugas akhir. Berkat limpahan nikmat dan karunia

    yang telah Allah SWT berikan sehingga skripsi berjudul “Klasifikasi Berita

    Olahraga Menggunakan Algoritma C5.0 Berbasis Ontologi” ini dapat terselesaikan.

    Skripsi ini dimaksudkan untuk memenuhi persyaratan guna memperoleh gelar

    sarjana S1 Universitas Muhammadiyah Malang.

    Penulis menyadari bahwa sepenuhnya penulisan Tugas Akhir ini masih

    banyak kekurangan, oleh karena itu penulis mengharapkan saran dan kritik agar

    tulisan ini bermanfaat bagi pembaca maupun peneliti lainnya. Akhir kata penulis

    mengucapkan terima kasih kepada semua pihak yang telah membantu sehingga

    terselesaikannya tugas akhir ini.

    Wassalamu’alaikum Wr.Wb.

    Malang, 15 Juli 2019

    Penulis

  • 6

    LEMBAR PERSEMBAHAN

    Penulis menyadari bahwa penyusunan dan pembuatan karya sederhana ini

    tidak lepas dari bantuan berbagai pihak, oleh karena itu penulisan tugas akhir ini

    penulis mengucapkan terima kasih kepada:

    1. Allah Subhanahu Wa Ta’ala yang tiada henti memberikan rahmat dan hidayah-

    Nya serta menerangi setiap langkah saya.

    2. Rasulullah Muhammad SAW, suri tauladanku, panutan terbaikku, dan toko

    idolaku.

    3. Ibu dan bapak yang tiada kata-kata yang bisa menggambarkan rasa terima kasih

    atas do’a dan pengorbanan yang telah diberikan serta dukungan moril dan

    materil.

    4. Yufis Azhar, S.Kom, M.Kom selaku dosen pembimbing I dan Maskur, S.Kom,

    M.Kom selaku dosen pembimbing II yang senantiasa telah banyak memberikan

    pengarahan dan bimbingannya selama dalam penyelesaian penulisan Tugas

    Akhir ini.

    5. Seluruh dosen pengajar di Jurusan Teknik Informatika yang telah membimbing

    saya dalam menuntut ilmu sehingga saya bisa menjadi seseorang yang lebih

    baik lagi.

    6. Seluruh teman-teman Teknik Informatika angkatan 2013 tercinta yang selalu

    memberikan bantuan, doa, dan dukungan moril yang tak terhingga.

    7. Bagi semua teman-teman saya di Universitas Muhammadiyah Malang dan juga

    bagi pembaca yang tertarik dengan pembahasan yang saya angkat dalam tugas

    akhir ini.

    8. Kepada semua pihak yang telah membantu dalam menyelesaikan penyusunan

    maupun pengerjaan tugas akhir ini.

    9. Semua pihak yang membantu dalam penulisan skripsi ini yang tidak dapat

    penulis sebutkan satu persatu.

    Semoga segala bantuan dan kebaikan tersebut mendapat balasan dari Allah

    SWT. Penulis menyadari bahwa skripsi ini jauh dari sempurna dan masih banyak

    kekurangan, oleh karena itu apabila ada kesalahan dalam penulisan skripsi ini

    mohon dimaafkan. Penulis berharap semoga skripsi ini dapat bermanfaat bagi

    pembaca.

  • 7

    DAFTAR ISI

    LEMBAR PERSETUJUAN .............................................................................. I

    LEMBAR PENGESAHAN............................................................................... II

    LEMBAR PERNYATAAN ............................................................................ III

    ABSTRAK ....................................................................................................... IV

    ABSTRACT ....................................................................................................... V

    KATA PENGANTAR ...................................................................................... VI

    LEMBAR PERSEMBAHAN ........................................................................ VII

    DAFTAR ISI ................................................................................................. VIII

    DAFTAR GAMBAR......................................................................................... X

    DAFTAR TABEL ............................................................................................ XI

    DAFTAR SOURCE CODE .......................................................................... XIII

    BAB I .................................................................................................................. 1

    1.1 Latar Belakang ...................................................................................... 1

    1.2 Rumusan Masalah ................................................................................. 3

    1.3 Tujuan Penelitian ................................................................................... 3

    1.4 Cakupan Masalah .................................................................................. 3

    1.5 Metodologi ............................................................................................ 3

    1.5.1 Studi Pustaka .................................................................................. 4

    1.5.2 Pengumpulan Data.......................................................................... 4

    1.5.3 Analisa Dan Perancangan Sistem .................................................... 4

    1.5.4 Implementasi .................................................................................. 4

    1.5.5 Pengujian dan Evaluasi ................................................................... 4

    1.6 Sistematika Penulisan ............................................................................ 4

    BAB II ................................................................................................................ 6

    2.1 Klasifikasi Tekss ................................................................................... 6

    2.2 Berita ..................................................................................................... 6

    2.3 Text Mining ........................................................................................... 7

    2.4 Text Preprocessing ................................................................................ 7

    2.4.1 Case folding ................................................................................... 8

    2.4.2 Tokenezing ..................................................................................... 8

    2.4.3 Filtering .......................................................................................... 8

    2.4.4 Stemming ....................................................................................... 8

  • 8

    2.4.5 Dictionary Construction .................................................................. 8

    2.4.6 Feature Selection ............................................................................ 9

    2.4.7 Ontology Extraction ....................................................................... 9

    2.4.8 Feature weighting ......................................................................... 10

    2.5 Data Mining ........................................................................................ 11

    2.6 Decesion Tree ...................................................................................... 11

    2.7.1 AlgoritmanC5.0 ............................................................................ 11

    2.7.2 Splitting Attribute ......................................................................... 13

    2.7 Evaluasin ............................................................................................. 13

    BAB III ............................................................................................................. 15

    3.1 Deskripsi umum sistem ........................................................................ 15

    3.2 Perancangan Proses ............................................................................. 16

    3.2.1 Preprocessing dokumen latih ..................................................... 16

    3.2.2 Preprocessing Dokumen Uji ....................................................... 19

    3.2.4 Pembentukan Tree ..................................................................... 20

    3.3 Perhitngan Manual .............................................................................. 21

    3.4 Rancangan Antarmuka ......................................................................... 52

    BAB IV ............................................................................................................. 54

    4.1 Lingkungan implementasi .................................................................... 54

    Lingkungan Implementasi Perangkat Keras ................................................ 54

    Lingkungan Implementasi Perangkat Lunak ............................................... 54

    4.2 Implementasi Program ......................................................................... 54

    4.2.1 Kelas dan Method ....................................................................... 54

    4.2.2 Tahapan Pemprosesan ............................................................... 56

    4.3 Pengujian sistem .................................................................................. 70

    4.4 Analisa Hasil Pengujian ....................................................................... 73

    BABIV .............................................................................................................. 75

    1. Kesimpulane ........................................................................................... 75

    2. Sarane ..................................................................................................... 75

    DAFTAR PUSTAKA ....................................................................................... 76

  • 9

    DAFTAR GAMBAR

    Gambar 1 representasi ontologi olahraga .......................................................... 10

    Gambar 2 representasi domain olahraga pada ontologi ..................................... 10 Gambar 3 Skema perancangan sistem ............................................................... 15

    Gambar 4 flowchart proses mencari term yang bersinonim ............................... 18 Gambar 5 flowchart proses ontology extraction ................................................ 19

    Gambar 6 flowchart proses training C5.0.......................................................... 21 Gambar 7 Atribut Liga Sebagai Root Awal ...................................................... 36

    Gambar 8 Tree hasil cabang ≤1.429 dari atribut liga ......................................... 38 Gambar 9 Tree hasil cabang ≤1.531 dari atribut suporter .................................. 40 Gambar 10 Tree hasil cabang ≤0.250 dari atribut indonesia .............................. 41

    Gambar 11 Tree hasil cabang >0.250 dari atribut indonesia ............................. 43

    Gambar 12 Tree hasil cabang ≤ 0.102 pada atribut tim .................................... 44 Gambar 13 Tree hasil cabang >0.102 dari atribut tim ....................................... 45

    Gambar 14 Tree hasil pembentukan cabang >1.531 dari atribut suporter .......... 46 Gambar 15 Tree hasil cabang >1.429 dari atribut liga ....................................... 48

    Gambar 16 Tree hasil Pembentukan Cabang ≤1.633 dari Atribut tim ................ 49 Gambar 17 Tree hasil pembentukan cabang ≤1.633 dari atribut tim .................. 50

    Gambar 18 Rancangan antarmuka sistem ......................................................... 53 Gambar 19 Hasil setelah dilakukan proses preprocessing dan training data latih71

    Gambar 20 menampilkan antarmuka bobot data uji .......................................... 72 Gambar 21 nemampilkan antarmuka decision tree ............................................ 73

    Gambar 22 Tampilan antarmuka tab Data akurasi............................................. 74

  • 10

    DAFTAR TABEL

    Tabel 1 Dokumen Latih ..................................................................................... 22 Tabel 2 Dokumen Latih Sebelum Proses Case Folding ...................................... 23

    Tabel 3 Dokumen Latih Setelah Proses Case Folding ........................................ 24 Tabel 4 Dokumen Latih Setelah Proses Case Folding ........................................ 24

    Tabel 5 Dokumen Latih Setelah Proses Filtering ............................................... 25 Tabel 6 Dokumen Latih Hasil Proses Stemming ................................................ 26

    Tabel 7 Inverted index, term frequency dan dokumen frequensi pada Dokumen

    Latih .................................................................................................................. 27 Tabel 8 Dokumen Latih Setelah Proses Feature Selection.................................. 28

    Tabel 9 sebelum proses ontology ....................................................................... 29 Tabel 10 setelah proses ontology ....................................................................... 29

    Tabel 11 Hasil Nilai DF Dari Semua Term Dokumen Latih............................... 30 Tabel 12 Dokumen Latih Hasil Pembobotan TF-IDF ........................................ 30

    Tabel 13 Hasil Perhitungan Information Gain ................................................... 32 Tabel 14 Bobot Term Liga Sebelum Proses Sorting .......................................... 32

    Tabel 15 Bobot Term liga Setelah Proses Sorting .............................................. 33 Tabel 16 Hasil Perhitungan Median Dari Term Liga ......................................... 33

    Tabel 17 Hasil Spplit Point Dari Nilai Median Untuk Atribut Liga .................... 33 Tabel 18 Daftar Dokumen dengan Nilai Bobot ≤1.429 Untuk Atribut Liga........ 34

    Tabel 19 Daftar Dokumen dengan Nilai Bobot >1.429 untuk Atribut Liga ........ 34 Tabel 20 Hasil Perhitungan IG Untuk Setiap Split -Point Pada Atribut Liga ...... 35

    Tabel 21 Hasil Pembentukan Cabang ≤1.429 Dari Atribut Liga......................... 36 Tabel 22 Perhitungan IG Untuk Cabang ≤1.429 Dari Atribut Liga ................... 37

    Tabel 23 Hasil Split-Point Dari Nilai Median Untuk Atribut suporter ................ 37 Tabel 24 Hasil Perhitungan IG Untuk Setiap Split-Point Pada Atribut suporter . 37

    Tabel 25 Hasil Pembentukan Cabang ≤1.531 dari Atribut suporter .................... 38 Tabel 26 Hasil Perhitungan IG untuk Cabang ≤1.531 dari Atribut suporter....... 39

    Tabel 27 Hasil Split-Point Dari Nilai Median Untuk Atribut indonesia .............. 39 Tabel 28 Hasil Perhitungan IG Untuk Setiap Split-Point Pada Atribut indonesia 39

    Tabel 29 Hasil Pembentukan Cabang ≤0.250 Dari Atribut indonesia ................. 40 Tabel 30 Hasil Pembentukan Cabang >0.250 Dari Atribut indonesia ................. 41

    Tabel 31 Hasil Perhitungan IG Untuk Cabang >0.250 Dri Atribut indonesia ..... 42 Tabel 32 Hasil Split-Point Dari Nilai Median Untuk Atribut tim ....................... 42

    Tabel 33 Hasil Perhitungan IG Untuk Setiap Split-Point Pada Atribut tim ......... 42 Tabel 34 Hasil Pembentukan Cabang ≤0.102 Dari Atribut tim .......................... 43

    Tabel 35 Hasil Pembentukan Cabang >1.02 Dari Atribut tim ............................ 44 Tabel 36 Hasil Pembentukan Cabang >1.531 Dari Atribut suporter ................... 45

    Tabel 37 Hasil Pembentukan Cabang >1.429 Dari Atribut liga .......................... 46 Tabel 38 Hasil Perhitungan IG Untuk Cabang >1.429 Dari Atribut liga............. 47

    Tabel 39 Hasil Split-Point Dari Nilai Median Untuk Atribut tim ....................... 47 Tabel 40 Hasil Pembentukan Cabang ≤1.633 dari Atribut tim ........................... 48

    Tabel 41 Hasil Pembentukan Cabang >1633 Dari Atribut tim ........................... 49 Tabel 42 Contoh Dokumen uji .......................................................................... 51

    Tabel 43 Hasil Perhitungan Frekuensi Term ...................................................... 51 Tabel 44 Term frekuensi dari dokumen uji setelah proses ontology extraction ... 52

    Tabel 45 hasil pembobotan dokumen uji ........................................................... 52

  • 11

    Tabel 46 Method-method dalam class TextProcessing ....................................... 56 Tabel 47 Method-method pada kelas ontology .................................................. 56

    Tabel 48 Method-method pada kelas Weighting.java ........................................ 57 Tabel 49 Method-method pada kelas C5processing.java .................................... 57

  • 12

    DAFTAR SOURCE CODE

    Source Code 1 proses case folding & tokenezing ------------------------------------58

    Source Code 2 proses filtering ---------------------------------------------------------58 Source Code 3 proses stemming -------------------------------------------------------58

    Source Code 4 proses dictionary constraction----------------------------------------59 Source Code 5 proses menghitung dokumen frekuensi -----------------------------59

    Source Code 6 proses feature selection -----------------------------------------------60 Source Code 7 proses ontology extraction --------------------------------------------61

    Source Code 8 proses pengecekan synonim term ------------------------------------61 Source Code 9 proses perhitungan IDF -----------------------------------------------62 Source Code 10 proses perhitungan TF-IDF -----------------------------------------62

    Source Code 11 proses pembentukan root melalui perhitungan information gain

    ----------------------------------------------------------------------------------------------64

    Source Code 12 proses penentuan split point ----------------------------------------65 Source Code 13 proses pencarian dokumen untuk node selanjutnya --------------66

    Source Code 14 proses pembentukan leaf --------------------------------------------67 Source Code 15 proses perhitungan TF-IDF -----------------------------------------68

    Source Code 16 proses perhitungan term frequency dari dokummen uji---------68 Source Code 17 proses pengkategorian dokumen uji -------------------------------69

    Source Code 18 proses perhitungan precision, recall, f-measure……………….70

  • 13

    DAFTAR PUSTAKA

    [1] H. Februariyanti, “Klasifikasi Dokumen Berita Teks Bahasa Indonesia

    menggunakan Ontologi,” Teknol. Inf. Din., vol. 17, no. 1, pp. 14–23, 2012.

    [2] B. Kurniawan, S. Effendi, and O. S. Sitompul, “Klasifikasi Konten Berita

    Dengan Metode Text Mining,” J. Dunia Teknol. Inf., vol. 1, no. 1, pp. 14–

    19, 2012.

    [3] I. Ernawati, “Prediksi Status Keaktifan Studi Mahasiswa dengan Algoritme

    C5. 0 dan K-Nearest Neighbor,” 2008.

    [4] K. P. Wirdhaningsih, D. E. Ratnawati, U. B. Malang, D. Mining, and D.

    Tree, “Penerapan Algoritma Decision Tree C5.0 Untuk Peramalan Forex,”

    pp. 1–6, 2012.

    [5] P. Widodo, J. A. Putra, S. Afiadi, A. Z. Arifin, and D. Herumurti,

    “Klasifikasi Kategori Dokumen Berita Berbahasa Indonesia dengan

    Metode Kategorisasi Multi-Label Berbasis Domain Specific Ontology,” J.

    Teknosains, vol. II, no. 2, pp. 101–112, 2017.

    [6] M. Jurusan, T. Telekomunikasi, D. Pembimbing, P. Elektronika, and N.

    Surabaya, “Kontrol Ekspresi Wajah Berdasarkan Klasifikasi Teks,” pp. 1–

    5.

    [7] X. F. Zhang, H. Y. Huang, and K. L. Zhang, “KNN text categorization

    algorithm based on semantic centre,” in Proceedings - 2009 International

    Conference on Information Technology and Computer Science, ITCS 2009,

    2009, vol. 1, pp. 249–252.

    [8] M. Stephens, A History of News, Third edit. Oxford University Press, 2007.

    [9] D. P. Langgeni, Z. K. A. Baizal, and Y. F. A. W, “CLUSTERING

    ARTIKEL BERITA BERBAHASA INDONESIA,” vol. 2010, no.

    semnasIF, pp. 1–10, 2010.

    [10] A. Ridok and R. Latifah, “Klasifikasi Teks Bahasa Indonesia Pada Corpus

    Tak Seimbang Menggunakan NWKNN,” Konf. Nas. Sist. dan Inform.

    2015, pp. 222–227, 2015.

    [11] Librian Andy, “Stemming Bahasa Indonesia · sastrawi/sastrawi Wiki ·

    GitHub,” 2016. [Online]. Available:

    https://github.com/sastrawi/sastrawi/wiki/Stemming-Bahasa-Indonesia.

    [Accessed: 17-Jul-2019].

    [12] A. R. C. (3) Amalia Indranandita (1) , Budi Susanto(2), “Sistem Klasifikasi

    dan Pencarian Jurnal dengan Menggunakan Metode Naive Bayes dan

    Vector Space Model,” J. Inform., vol. 4, no. 2, p. 10, 2008.

    [13] A. Elsayed, S. El-Beltagy, M. Rafea, and O. Hegazy, “Applying data

    mining for ontology building,” Proc. ISSR, 2007.

    [14] A. Achmad and A. A. Ilham, “Implementasi Algoritma Term Frequency –

    Inverse Document Frequency dan Vector Space Model untuk Klasifikasi

    Dokumen Naskah Dinas,” vol. 257, pp. 88–92, Sep. 2012.

    [15] S. Sumathi and S. N. Sivanandam, Introduction to Data Mining and its

  • 14

    Applications, vol. 29. 2006.

    [16] J. Han, M. Kamber, and J. Pei, “DATA MINING Concepts and

    Techniques,” in Data Mining, 3rd ed., 2012, pp. 1–38.

    [17] A. R. Winy Firdasari, Indriati, “KLASIFIKASI BERITA BERBAHASA

    INGGRIS MENGGUNAKAN ALGORITMA C4.5 BERBASIS

    ONTOLOGI,” vol. 4, pp. 1–12, 2014.

    [18] I. Destuardi and S. Sumpeno, “Klasifikasi Emosi Untuk Teks Bahasa

    Indonesia Menggunakan Metode Naive Bayes,” Semin. Nas. Pascasarj.

    Inst. Teknol. Sepuluh Nop., no. c, 2009.

  • 15