artikel klasifikasi kategori berita bahasa...

12
ARTIKEL KLASIFIKASI KATEGORI BERITA BAHASA INDONESIA MENGGUNAKAN ALGORITMA LATENT SEMANTIC ANALAYSIS (LSA) Oleh: HAISYAM 13.1.03.02.0331 Dibimbing oleh : 1. INTAN NUR FARIDA, M.KOM 2. PATMI KASIH, M.KOM PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS NUSANTARA PGRI KEDIRI 2017 Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX

Upload: others

Post on 18-Sep-2019

37 views

Category:

Documents


1 download

TRANSCRIPT

ARTIKEL

KLASIFIKASI KATEGORI BERITA BAHASA INDONESIA

MENGGUNAKAN ALGORITMA LATENT SEMANTIC ANALAYSIS

(LSA)

Oleh:

HAISYAM

13.1.03.02.0331

Dibimbing oleh :

1. INTAN NUR FARIDA, M.KOM

2. PATMI KASIH, M.KOM

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS TEKNIK

UNIVERSITAS NUSANTARA PGRI KEDIRI

2017

Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX

Artikel Skripsi

Universitas Nusantara PGRI Kediri

HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA

simki.unpkediri.ac.id || 2||

Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX

Artikel Skripsi

Universitas Nusantara PGRI Kediri

HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA

simki.unpkediri.ac.id || 3||

Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX

Artikel Skripsi

Universitas Nusantara PGRI Kediri

HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA

simki.unpkediri.ac.id || 4||

Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX

Artikel Skripsi

Universitas Nusantara PGRI Kediri

HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA

simki.unpkediri.ac.id || 5||

Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX

Artikel Skripsi

Universitas Nusantara PGRI Kediri

HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA

simki.unpkediri.ac.id || 6||

KLASIFIKASI KATEGORI BERITA BAHASA INDONESIA

MENGGUNAKAN ALGORITMA LATENT SEMNATIC ANALYSIS

(LSA)

HAISYAM

13.1.03.02.0331

TEKNIK - TEKNIK INFORMATIKA

[email protected]

Intan Nur Farida, M.Kom dan Patmi Kasih, M.Kom

UNIVERSITAS NUSANTARA PGRI KEDIRI

ABSTRAK

Permasalahan dari penelitian ini adalah (1) Bagaimana mengklasifikasi kategori berita yang

jelas agar berita yang akan disebarkan mudah dicari? (2) Bagaimana merancang suatu sistem yang

dapat melakukan klasifikasi kategori berita yang baik? (3) Bagaimana penggunaan algoritma latent

semantic analysis (LSA) untuk proses klasifikasi kategori berita?.

Tujuan yang ingin dicapai pada skripsi ini yaitu mengklasifikasi kategori berita Bahasa

Indonesia dan dengan adanya sistem ini diharapkan mampu membantu pengguna dalam menentukan

kategori berita dengan tepat. Pemilihan kategori berita ini didasarkan pada kata-kata dalam berita yang

relevan dengan kata kunci dari tiap kategori.

Pemanfaatan penambangan teks (text mining) menggunakan algoritma latent semantic

analysis merupakan salah satu alternatif pilihan yang berkenaan dengan masalah klasifikasi kategori

berita.

Penggunaan latent semantic analysis (LSA) menjadi alternatif pilihan karena mampu

menyeleksi kategori berita berdasarkan kata kunci yang telah ditentukan tiap kategori. Hasil dari

sistem klasifikasi kategori berita ini adalah untuk membantu pengguna dalam menentukan kategori

dari berita yang akan disebarluaskan kemudian.

Pengujian sistem klasifikasi kategori berita Bahasa Indonesia menggunakan algoritma latent

semantic analysis (LSA) menghasilkan tingkat akurasi dari sistem sebesar 80% dan waktu yang

diperlukan sekitar 1 menit. Hasil yang diperoleh dari sistem berupa sebuah kategori berita yang sesuai

dan sistem harus melakukan setiap tahapan secara berurutan.

KATA KUNCI : Klasifikasi, kategori berita, Bahasa Indonesia, latent semantic analysis.

Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX

Artikel Skripsi

Universitas Nusantara PGRI Kediri

HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA

simki.unpkediri.ac.id || 7||

I. LATAR BELAKANG

Informasi telah menjadi

suatu kebutuhan dalam kehidupan

manusia. Informasi bisa dikatakan

sebagai suatu pengetahuan yang

didapatkan dari pembelajaran,

pengalaman, atau instruksi. Dalam

beberapa hal, pengetahuan tentang

peristiwa-peristiwa tertentu dapat

dikumpulkan melalui suatu proses,

ataupun didapatkan dari berita.

Berita merupakan informasi

mengenai sesuatu yang sedang

terjadi, disajikan lewat bentuk cetak,

siaran, internet, atau dari mulut ke

mulut. Berdasarkan kamus besar

Bahasa Indonesia, yang dimaksud

dengan berita adalah cerita atau

keterangan yang terdiri dari suatu

kejadian atau peristiwa yang baru.

Berita juga bisa disebut cerita atau

keterangan mengenai kejadian atau

peristiwa yang hangat.

Di era perkembangan

teknologi ini, seseorang dapat

mengakses berita yang ingin dicari

menggunakan internet pada beberapa

portal berita seperti kompas.com,

vivanews.com dan portal berita yang

lain. Banyak informasi yang dapat

kita terima dalam website tersebut.

Atas dasar itu banyak dari media

informasi yang melakukan

pengklasifikasian dengan proses

kategorisasi terlebih dulu untuk

memudahkan masyarakat mencari

informasi yang mereka inginkan.

Untuk mempermudah dalam

proses pengklasifikasian, dapat

menggunakan text mining sebagai

salah satu alternatif. Text mining

merupakan penerapan konsep dan

teknik data mining untuk mencari

pola dalam suatu teks. Proses

penganalisisan teks ini berguna

menyarikan informasi bermanfaat

untuk tujuan tertentu. Salah satu

algoritma yang dapat digunakan

adalah algoritma Latent Semantic

Analysis (LSA).

Latent Semantic Analysis

(LSA) adalah suatu algoritma untuk

mengekstrak kata-kata dan

merepresentasikannya dalam bentuk

perhitungan matematis. Algoritma

ini perlu melakukan preprocessing

dulu untuk penyeragaman dan

memudahkan pembacaan oleh

sistem.

Dalam penelitian ini, akan

dibangun suatu “Sistem Klasifikasi

Kategori Berita Bahasa Indonesia

Menggunakan Algoritma Latent

Semantic Analysis” dan mengambil

tempat studi di portal berita radar

kediri.

Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX

Artikel Skripsi

Universitas Nusantara PGRI Kediri

HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA

simki.unpkediri.ac.id || 8||

II. METODE

Algoritma Latent Semantic

Analysis dapat diartikan sebagai

“sebuah teori dan metode

mengekstrak kata-kata dan

merepresentasikannya dalam bentuk

perhitungan matematis.” (Landauer

et al., 2001).

Sebelum dapat dilakukan

perhitungan dengan algoritma latent

semantic analysis harus melalui

tahap preprocessing terlebih dahulu.

Tahapan dalam preprocessing adalah

case folding (pembersihan teks dari

karakter selain alfabet), tokenizing

(memisahkan kalimat menjadi kata),

stopword removal (menghilangkan

kata yang tidak mengandung arti),

stemming (perubahan kata ke kata

dasarnya) dan term weighting

(pembobotan).

Langkah pertama dari LSA

adalah membuat matriks kata-

dokumen, dimana baris matriks

merepresentasikan kata-kata yang

bersifat unik dan kolom matriks

merepresentasikan dokumen. Setiap

sel matriks aij menyatakan frekuensi

kemunculan suatu kata pada

dokumen j. Setiap frekuensi yang

terdapat pada suatu sel aij kemudian

akan dikenai operasi transformasi

awal yang berupa pemberian bobot

yang ditujukan untuk menyatakan

tingkat kepentingan suatu kata dalam

dokumen dan tingkat kepentingan

kata tersebut bagi suatu domain

pengetahuan secara umum.

Kemudian LSA menerapkan

proses SVD (Singular Value

Decomposition) terhadap matriks

tersebut. Pada SVD, matriks Awal

(utama) akan didekomposisi menjadi

3 komponen matriks, yaitu: matriks

ortogonal baris disebut {U}, matriks

orthogonal kolom disebut {V}, dan

matriks diagonal {S}.

Untuk sembarang matriks Awalmxn

dimana n ≥ m, maka penerapan SVD

terhadap matriks Awal tersebut dapat

dilihat dengan persamaan 1 di bawah

ini:

Amxn = Umxn . Snxn

. VTnxn………...…….(1)

Keterangan:

A = matriks

U = matriks orthogonal

berukuran m x m

S = matriks diagonal berukuran

m x m, dengan elemen

matriks positif atau nol

V = matriks orthogonal

berukuran n x n

m = jumlah baris matriks

n = jumlah kolom matriks

Matriks U merupakan

matriks orthogonal yang kolom-

Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX

Artikel Skripsi

Universitas Nusantara PGRI Kediri

HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA

simki.unpkediri.ac.id || 9||

kolomnya terdiri atas n eigenvector

yang dinormalkan (normalized

eigenvector) dari n eigenvalue

matriks AwalAwalT. Matriks S

merupakan matriks diagonal yang

elemen-elemennya adalah nilai

singular matriks Awal. Matriks V

merupakan matriks orthogonal yang

kolom-kolomnya terdiri atas n

eigenvector yang dinormalkan

(normalized eigenvector) dari n

eigenvalue matriks AwalTAwal.

III. HASIL DAN KESIMPULAN

1. Hasil

1.1.Tampilan halaman awal

Pada halaman awal,

pengguna akan melihat judul

sistem dan sebuah gambar.

1.2.Tampilan input berita

Pada halaman input berita,

pengguna dapat memasukkan

sebuah data berita yang akan

diklasifikasikan.

1.3.Tampilan output kategori

Pada halaman klasifikasi,

pengguna dapat melihat hasil

perhitungan jarak antar vektor

dari matriks svd dari setiap

kategori dan form dialog tentang

kategori yang sesuai.

1.4.Tampilan simpan berita

Pada halaman kata kunci,

setelah pengguna memilih kata

kunci dan menekan button

simpan maka akan muncul form

dialog yang berisi data berhasil

disimpan ke dalam database.

Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX

Artikel Skripsi

Universitas Nusantara PGRI Kediri

HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA

simki.unpkediri.ac.id || 10||

1.5.Tampilan database

Pada halaman database,

pengguna dapat melihat tabel

database dari sistem.

1.6.Tampilan about

Pada halaman about,

pengguna dapat melihat

informasi mengenai instansi,

penulis dan mengenai sistem.

1.7.Pengujian

Sistem klasifikasi kategori

berita Bahasa Indonesia yang

telah dibuat dilakukan pengujian

sebanyak 50 kali yang terdiri dari

5 kategori berita dan tiap-tiap

kategori berita terdapat 10 berita.

Dari hasil pengujian yang telah

dilakukan diperoleh 44 data

berita yang memiliki kategori

yang tepat dan 6 berita yang

memiliki kategori yang kurang

tepat.

Dari hasil pengujian dapat

dilakukan dihitung nilai akurasi

tiap kategori dan nilai akurasi

total.

Akurasi tiap kategori =

jumlah berita yang benar

total berita 𝑥 100

Akurasi total =

jumlah akurasi tiap kategori

total kategori 𝑥 100%

Sehingga dapat dihitung nilai

akurasi tiap kategori dan akurasi

total dari sistem adalah sebagai

berikut:

Akurasi olahraga =

9

10 𝑥 100% = 90%

Akurasi politik = 7

10 𝑥 100% =

70%

Akurasi kriminal =

8

10 𝑥 100% = 80%

Akurasi ekonomi =

9

10 𝑥 100% = 90%

Akurasi pendidikan =

7

10 𝑥 100% = 70%

Akurasi total =

90+70+80+90+70

5 𝑥 100% = 80%

Waktu yang diperlukan untuk

melakukan sekali proses

klasifikasi berita sekitar 1 menit.

Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX

Artikel Skripsi

Universitas Nusantara PGRI Kediri

HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA

simki.unpkediri.ac.id || 11||

2. Kesimpulan

Berdasarkan penelitian

yang telah dilakukan maka dapat

disimpulkan sebagai berikut:

a. Agar berita dapat mudah

dicari maka sistem perlu

memberikan kategori

sehingga tidak terjadi

kategori berita ganda atau

salah kategori.

b. Agar sistem dapat

melakukan klasifikasi

dengan baik maka sistem

harus melakukan tahap demi

tahap dengan benar

sehingga menghasilkan

output yang sesuai.

c. Dengan algoritma latent

semantic analysis tingkat

akurasi dari sistem dengan

percobaan sebanyak 50 kali

dan menggunakan 10 data

setiap kategori diperoleh

hasil sebesar 80%. Untuk

kategori olahraga 90%,

kategori politik 70%,

kategori ekonomi 90%,

kategori pendidikan 70%,

kategori kriminal 80% dan

waktu yang dibutuhkan

untuk melakukan proses

klasifikasi sekitar 1 menit.

IV. DAFTAR PUSTAKA

Aji, R.B., Baizal, A., & Firdaus, Y.

2011. Automatic essay grading

system menggunakan metode

Latent Semantic Analysis.

Makalah disajikan dalam

Seminar Nasional Aplikasi

Teknologi Informasi. Jurusan

Teknik Informatika Universitas

Islam Indonesia Yogyakarta,

Yogyakarta.

Chandra, D.N., Indrawan, G.,

Sukajaya, I.N. 2016.

Klasifikasi Berita Lokal Radar

Malang Menggunakan Metode

Naïve Bayes Dengan Fitur N-

Gram. Jurnal Ilmiah Teknologi

dan Informasi ASIA, (Online),

10 (1): 11-19, tersedia:

http://stmikasia.ac.id/, diunduh

19 November 2016.

Feldman, R & Sanger, J. 2007. The

Text Mining Handbook:

Advanced Approaches In

Analyzing Unstructured Data.

New York: Cambridge

University Press.

Khairunnisa, N., Syarif D., Wibowo,

A. 2012. Aplikasi Pendeteksi

Plagiat Dengan Metode Latent

Semantic Analysis (Studi Kasus

: Laporan PA PCR). Jurnal

Aksara Komputer Terapan

Politeknik Caltex Riau,

(Online), 1 (1): 15-20 tersedia:

http://jurnal.pcr.ac.id/, diunduh 23

November 2016.

Landauer, T.K., Foltz, P.W., &

Laham, D. 1998. Introduction

to Latent Semantic Analysis.

Discourse Processes, (Online),

26 (2): 259-284 tersedia:

http://tandfonline.com/, diunduh

17 November 2016.

Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX

Artikel Skripsi

Universitas Nusantara PGRI Kediri

HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA

simki.unpkediri.ac.id || 12||

Luthfiarta, A., Zeniarja, J., Salam, A.

2014. Integrasi Peringkas

Dokumen Otomatis Dengan

Algoritma Latent Semantic

Analysis (LSA) Pada Peringkas

Dokumen Otomatis Untuk

Proses Clustering Dokumen.

Jurnal Techno.com, (Online),

13 (1): 61-68 tersedia:

http://publikasi.dinus.ac.id/,

diunduh 21 November 2016.

Nugroho, E. 2011. Perancangan

Sistem Deteksi Plagiarisme

Dokumen Teks Dengan

Menggunakan Algoritma

Rabin-Karp. Skripsi. Malang:

Fakultas Matematika dan Ilmu

Pengetahuan Alam, Universitas

Brawijaya.

Peter, R., Shivapratap, G., Divya, G.,

& Soman, K.P. 2009.

Evaluation of SVD and NMF

Methods for Latent Semantic

Analysis. International Journal

of Recent Trends in

Engineering, (Online), 1 (3):

308-310, tersedia:

http://ijrte.academypublisher.com/,

diunduh 17 November 2016.

Yustiana, D. 2015. Penilaian

Otomatis Terhadap Jawaban

Esai Pada Soal Berbahasa

Indonesia Menggunakan

Latent Semantic Analysis.

Tesis. Surabaya: Jurusan

Teknik Informatika, Sekolah

Tinggi Teknik Surabaya.

Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX