artikel klasifikasi kategori berita bahasa...
TRANSCRIPT
ARTIKEL
KLASIFIKASI KATEGORI BERITA BAHASA INDONESIA
MENGGUNAKAN ALGORITMA LATENT SEMANTIC ANALAYSIS
(LSA)
Oleh:
HAISYAM
13.1.03.02.0331
Dibimbing oleh :
1. INTAN NUR FARIDA, M.KOM
2. PATMI KASIH, M.KOM
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS NUSANTARA PGRI KEDIRI
2017
Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX
Artikel Skripsi
Universitas Nusantara PGRI Kediri
HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA
simki.unpkediri.ac.id || 2||
Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX
Artikel Skripsi
Universitas Nusantara PGRI Kediri
HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA
simki.unpkediri.ac.id || 3||
Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX
Artikel Skripsi
Universitas Nusantara PGRI Kediri
HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA
simki.unpkediri.ac.id || 4||
Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX
Artikel Skripsi
Universitas Nusantara PGRI Kediri
HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA
simki.unpkediri.ac.id || 5||
Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX
Artikel Skripsi
Universitas Nusantara PGRI Kediri
HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA
simki.unpkediri.ac.id || 6||
KLASIFIKASI KATEGORI BERITA BAHASA INDONESIA
MENGGUNAKAN ALGORITMA LATENT SEMNATIC ANALYSIS
(LSA)
HAISYAM
13.1.03.02.0331
TEKNIK - TEKNIK INFORMATIKA
Intan Nur Farida, M.Kom dan Patmi Kasih, M.Kom
UNIVERSITAS NUSANTARA PGRI KEDIRI
ABSTRAK
Permasalahan dari penelitian ini adalah (1) Bagaimana mengklasifikasi kategori berita yang
jelas agar berita yang akan disebarkan mudah dicari? (2) Bagaimana merancang suatu sistem yang
dapat melakukan klasifikasi kategori berita yang baik? (3) Bagaimana penggunaan algoritma latent
semantic analysis (LSA) untuk proses klasifikasi kategori berita?.
Tujuan yang ingin dicapai pada skripsi ini yaitu mengklasifikasi kategori berita Bahasa
Indonesia dan dengan adanya sistem ini diharapkan mampu membantu pengguna dalam menentukan
kategori berita dengan tepat. Pemilihan kategori berita ini didasarkan pada kata-kata dalam berita yang
relevan dengan kata kunci dari tiap kategori.
Pemanfaatan penambangan teks (text mining) menggunakan algoritma latent semantic
analysis merupakan salah satu alternatif pilihan yang berkenaan dengan masalah klasifikasi kategori
berita.
Penggunaan latent semantic analysis (LSA) menjadi alternatif pilihan karena mampu
menyeleksi kategori berita berdasarkan kata kunci yang telah ditentukan tiap kategori. Hasil dari
sistem klasifikasi kategori berita ini adalah untuk membantu pengguna dalam menentukan kategori
dari berita yang akan disebarluaskan kemudian.
Pengujian sistem klasifikasi kategori berita Bahasa Indonesia menggunakan algoritma latent
semantic analysis (LSA) menghasilkan tingkat akurasi dari sistem sebesar 80% dan waktu yang
diperlukan sekitar 1 menit. Hasil yang diperoleh dari sistem berupa sebuah kategori berita yang sesuai
dan sistem harus melakukan setiap tahapan secara berurutan.
KATA KUNCI : Klasifikasi, kategori berita, Bahasa Indonesia, latent semantic analysis.
Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX
Artikel Skripsi
Universitas Nusantara PGRI Kediri
HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA
simki.unpkediri.ac.id || 7||
I. LATAR BELAKANG
Informasi telah menjadi
suatu kebutuhan dalam kehidupan
manusia. Informasi bisa dikatakan
sebagai suatu pengetahuan yang
didapatkan dari pembelajaran,
pengalaman, atau instruksi. Dalam
beberapa hal, pengetahuan tentang
peristiwa-peristiwa tertentu dapat
dikumpulkan melalui suatu proses,
ataupun didapatkan dari berita.
Berita merupakan informasi
mengenai sesuatu yang sedang
terjadi, disajikan lewat bentuk cetak,
siaran, internet, atau dari mulut ke
mulut. Berdasarkan kamus besar
Bahasa Indonesia, yang dimaksud
dengan berita adalah cerita atau
keterangan yang terdiri dari suatu
kejadian atau peristiwa yang baru.
Berita juga bisa disebut cerita atau
keterangan mengenai kejadian atau
peristiwa yang hangat.
Di era perkembangan
teknologi ini, seseorang dapat
mengakses berita yang ingin dicari
menggunakan internet pada beberapa
portal berita seperti kompas.com,
vivanews.com dan portal berita yang
lain. Banyak informasi yang dapat
kita terima dalam website tersebut.
Atas dasar itu banyak dari media
informasi yang melakukan
pengklasifikasian dengan proses
kategorisasi terlebih dulu untuk
memudahkan masyarakat mencari
informasi yang mereka inginkan.
Untuk mempermudah dalam
proses pengklasifikasian, dapat
menggunakan text mining sebagai
salah satu alternatif. Text mining
merupakan penerapan konsep dan
teknik data mining untuk mencari
pola dalam suatu teks. Proses
penganalisisan teks ini berguna
menyarikan informasi bermanfaat
untuk tujuan tertentu. Salah satu
algoritma yang dapat digunakan
adalah algoritma Latent Semantic
Analysis (LSA).
Latent Semantic Analysis
(LSA) adalah suatu algoritma untuk
mengekstrak kata-kata dan
merepresentasikannya dalam bentuk
perhitungan matematis. Algoritma
ini perlu melakukan preprocessing
dulu untuk penyeragaman dan
memudahkan pembacaan oleh
sistem.
Dalam penelitian ini, akan
dibangun suatu “Sistem Klasifikasi
Kategori Berita Bahasa Indonesia
Menggunakan Algoritma Latent
Semantic Analysis” dan mengambil
tempat studi di portal berita radar
kediri.
Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX
Artikel Skripsi
Universitas Nusantara PGRI Kediri
HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA
simki.unpkediri.ac.id || 8||
II. METODE
Algoritma Latent Semantic
Analysis dapat diartikan sebagai
“sebuah teori dan metode
mengekstrak kata-kata dan
merepresentasikannya dalam bentuk
perhitungan matematis.” (Landauer
et al., 2001).
Sebelum dapat dilakukan
perhitungan dengan algoritma latent
semantic analysis harus melalui
tahap preprocessing terlebih dahulu.
Tahapan dalam preprocessing adalah
case folding (pembersihan teks dari
karakter selain alfabet), tokenizing
(memisahkan kalimat menjadi kata),
stopword removal (menghilangkan
kata yang tidak mengandung arti),
stemming (perubahan kata ke kata
dasarnya) dan term weighting
(pembobotan).
Langkah pertama dari LSA
adalah membuat matriks kata-
dokumen, dimana baris matriks
merepresentasikan kata-kata yang
bersifat unik dan kolom matriks
merepresentasikan dokumen. Setiap
sel matriks aij menyatakan frekuensi
kemunculan suatu kata pada
dokumen j. Setiap frekuensi yang
terdapat pada suatu sel aij kemudian
akan dikenai operasi transformasi
awal yang berupa pemberian bobot
yang ditujukan untuk menyatakan
tingkat kepentingan suatu kata dalam
dokumen dan tingkat kepentingan
kata tersebut bagi suatu domain
pengetahuan secara umum.
Kemudian LSA menerapkan
proses SVD (Singular Value
Decomposition) terhadap matriks
tersebut. Pada SVD, matriks Awal
(utama) akan didekomposisi menjadi
3 komponen matriks, yaitu: matriks
ortogonal baris disebut {U}, matriks
orthogonal kolom disebut {V}, dan
matriks diagonal {S}.
Untuk sembarang matriks Awalmxn
dimana n ≥ m, maka penerapan SVD
terhadap matriks Awal tersebut dapat
dilihat dengan persamaan 1 di bawah
ini:
Amxn = Umxn . Snxn
. VTnxn………...…….(1)
Keterangan:
A = matriks
U = matriks orthogonal
berukuran m x m
S = matriks diagonal berukuran
m x m, dengan elemen
matriks positif atau nol
V = matriks orthogonal
berukuran n x n
m = jumlah baris matriks
n = jumlah kolom matriks
Matriks U merupakan
matriks orthogonal yang kolom-
Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX
Artikel Skripsi
Universitas Nusantara PGRI Kediri
HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA
simki.unpkediri.ac.id || 9||
kolomnya terdiri atas n eigenvector
yang dinormalkan (normalized
eigenvector) dari n eigenvalue
matriks AwalAwalT. Matriks S
merupakan matriks diagonal yang
elemen-elemennya adalah nilai
singular matriks Awal. Matriks V
merupakan matriks orthogonal yang
kolom-kolomnya terdiri atas n
eigenvector yang dinormalkan
(normalized eigenvector) dari n
eigenvalue matriks AwalTAwal.
III. HASIL DAN KESIMPULAN
1. Hasil
1.1.Tampilan halaman awal
Pada halaman awal,
pengguna akan melihat judul
sistem dan sebuah gambar.
1.2.Tampilan input berita
Pada halaman input berita,
pengguna dapat memasukkan
sebuah data berita yang akan
diklasifikasikan.
1.3.Tampilan output kategori
Pada halaman klasifikasi,
pengguna dapat melihat hasil
perhitungan jarak antar vektor
dari matriks svd dari setiap
kategori dan form dialog tentang
kategori yang sesuai.
1.4.Tampilan simpan berita
Pada halaman kata kunci,
setelah pengguna memilih kata
kunci dan menekan button
simpan maka akan muncul form
dialog yang berisi data berhasil
disimpan ke dalam database.
Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX
Artikel Skripsi
Universitas Nusantara PGRI Kediri
HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA
simki.unpkediri.ac.id || 10||
1.5.Tampilan database
Pada halaman database,
pengguna dapat melihat tabel
database dari sistem.
1.6.Tampilan about
Pada halaman about,
pengguna dapat melihat
informasi mengenai instansi,
penulis dan mengenai sistem.
1.7.Pengujian
Sistem klasifikasi kategori
berita Bahasa Indonesia yang
telah dibuat dilakukan pengujian
sebanyak 50 kali yang terdiri dari
5 kategori berita dan tiap-tiap
kategori berita terdapat 10 berita.
Dari hasil pengujian yang telah
dilakukan diperoleh 44 data
berita yang memiliki kategori
yang tepat dan 6 berita yang
memiliki kategori yang kurang
tepat.
Dari hasil pengujian dapat
dilakukan dihitung nilai akurasi
tiap kategori dan nilai akurasi
total.
Akurasi tiap kategori =
jumlah berita yang benar
total berita 𝑥 100
Akurasi total =
jumlah akurasi tiap kategori
total kategori 𝑥 100%
Sehingga dapat dihitung nilai
akurasi tiap kategori dan akurasi
total dari sistem adalah sebagai
berikut:
Akurasi olahraga =
9
10 𝑥 100% = 90%
Akurasi politik = 7
10 𝑥 100% =
70%
Akurasi kriminal =
8
10 𝑥 100% = 80%
Akurasi ekonomi =
9
10 𝑥 100% = 90%
Akurasi pendidikan =
7
10 𝑥 100% = 70%
Akurasi total =
90+70+80+90+70
5 𝑥 100% = 80%
Waktu yang diperlukan untuk
melakukan sekali proses
klasifikasi berita sekitar 1 menit.
Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX
Artikel Skripsi
Universitas Nusantara PGRI Kediri
HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA
simki.unpkediri.ac.id || 11||
2. Kesimpulan
Berdasarkan penelitian
yang telah dilakukan maka dapat
disimpulkan sebagai berikut:
a. Agar berita dapat mudah
dicari maka sistem perlu
memberikan kategori
sehingga tidak terjadi
kategori berita ganda atau
salah kategori.
b. Agar sistem dapat
melakukan klasifikasi
dengan baik maka sistem
harus melakukan tahap demi
tahap dengan benar
sehingga menghasilkan
output yang sesuai.
c. Dengan algoritma latent
semantic analysis tingkat
akurasi dari sistem dengan
percobaan sebanyak 50 kali
dan menggunakan 10 data
setiap kategori diperoleh
hasil sebesar 80%. Untuk
kategori olahraga 90%,
kategori politik 70%,
kategori ekonomi 90%,
kategori pendidikan 70%,
kategori kriminal 80% dan
waktu yang dibutuhkan
untuk melakukan proses
klasifikasi sekitar 1 menit.
IV. DAFTAR PUSTAKA
Aji, R.B., Baizal, A., & Firdaus, Y.
2011. Automatic essay grading
system menggunakan metode
Latent Semantic Analysis.
Makalah disajikan dalam
Seminar Nasional Aplikasi
Teknologi Informasi. Jurusan
Teknik Informatika Universitas
Islam Indonesia Yogyakarta,
Yogyakarta.
Chandra, D.N., Indrawan, G.,
Sukajaya, I.N. 2016.
Klasifikasi Berita Lokal Radar
Malang Menggunakan Metode
Naïve Bayes Dengan Fitur N-
Gram. Jurnal Ilmiah Teknologi
dan Informasi ASIA, (Online),
10 (1): 11-19, tersedia:
http://stmikasia.ac.id/, diunduh
19 November 2016.
Feldman, R & Sanger, J. 2007. The
Text Mining Handbook:
Advanced Approaches In
Analyzing Unstructured Data.
New York: Cambridge
University Press.
Khairunnisa, N., Syarif D., Wibowo,
A. 2012. Aplikasi Pendeteksi
Plagiat Dengan Metode Latent
Semantic Analysis (Studi Kasus
: Laporan PA PCR). Jurnal
Aksara Komputer Terapan
Politeknik Caltex Riau,
(Online), 1 (1): 15-20 tersedia:
http://jurnal.pcr.ac.id/, diunduh 23
November 2016.
Landauer, T.K., Foltz, P.W., &
Laham, D. 1998. Introduction
to Latent Semantic Analysis.
Discourse Processes, (Online),
26 (2): 259-284 tersedia:
http://tandfonline.com/, diunduh
17 November 2016.
Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX
Artikel Skripsi
Universitas Nusantara PGRI Kediri
HAISYAM | 13.1.03.02.0331 TEKNIK - TEKNIK INFORMATIKA
simki.unpkediri.ac.id || 12||
Luthfiarta, A., Zeniarja, J., Salam, A.
2014. Integrasi Peringkas
Dokumen Otomatis Dengan
Algoritma Latent Semantic
Analysis (LSA) Pada Peringkas
Dokumen Otomatis Untuk
Proses Clustering Dokumen.
Jurnal Techno.com, (Online),
13 (1): 61-68 tersedia:
http://publikasi.dinus.ac.id/,
diunduh 21 November 2016.
Nugroho, E. 2011. Perancangan
Sistem Deteksi Plagiarisme
Dokumen Teks Dengan
Menggunakan Algoritma
Rabin-Karp. Skripsi. Malang:
Fakultas Matematika dan Ilmu
Pengetahuan Alam, Universitas
Brawijaya.
Peter, R., Shivapratap, G., Divya, G.,
& Soman, K.P. 2009.
Evaluation of SVD and NMF
Methods for Latent Semantic
Analysis. International Journal
of Recent Trends in
Engineering, (Online), 1 (3):
308-310, tersedia:
http://ijrte.academypublisher.com/,
diunduh 17 November 2016.
Yustiana, D. 2015. Penilaian
Otomatis Terhadap Jawaban
Esai Pada Soal Berbahasa
Indonesia Menggunakan
Latent Semantic Analysis.
Tesis. Surabaya: Jurusan
Teknik Informatika, Sekolah
Tinggi Teknik Surabaya.
Simki-Techsain Vol. 01 No. 07 Tahun 2017 ISSN : XXXX-XXXX