urai paper : indonesian stemming

7
Urai Paper “Indonesian Stemming” Jelita Asian Hugh E. Williams S.M.M. Tahaghoghi School of Computer Science and Information Technology RMIT University, GPO Box 2476V, Melbourne 3001, Australia. {jelita,hugh,saied}@cs.rmit.edu.au Kelompok 2

Upload: herpiko-dwi-aguno

Post on 22-Jan-2018

206 views

Category:

Education


7 download

TRANSCRIPT

Page 1: Urai paper : Indonesian Stemming

Urai Paper

“Indonesian Stemming”

Jelita Asian Hugh E. Williams

S.M.M. Tahaghoghi

School of Computer Science and Information Technology RMIT University, GPO Box 2476V, Melbourne 3001, Australia.

{jelita,hugh,saied}@cs.rmit.edu.au

Kelompok 2

Page 2: Urai paper : Indonesian Stemming

Abstrak

● Apa itu stemming?● Lima algoritma stemming sudah ditemukan● Apakah algoritma tersebut sudah sempurna?

Page 3: Urai paper : Indonesian Stemming

mencintaimu

men-cinta-i-mu

cinta

Page 4: Urai paper : Indonesian Stemming

Tujuan

Menyempurnakan algoritma yang sudah ada

● Skala kecil :

Menemukan kata dasar / lema● Skala menengah :

Information Retrieval● Skala besar (masa depan) :

Robot AI mampu membaca koran dan memahami maksud / konteksnya. Mampu mengobrol dengan manusia dan mengerti konteks pembicaraan yang panjang lebar.

DORAEMON is scientifically possible to be exists.

Page 5: Urai paper : Indonesian Stemming

Metode Penelitian

● Hipotesis :

Akurasi algoritma yang ada masih bisa ditingkatkan lagi.● Metode penelitian : Experiment● Menguji algoritma stemming secara otomatis dengan 9.901 artikel

dari kabar harian Kompas.● Meminta 4 orang penutur asli bahasa Indonesia untuk men-

stemming sejumlah besar kata (3.986) secara manual.● Menggunakan hasil stemming manual sebagai pembantu patokan

toleransi dari hasil uji stemming otomatis● Merumuskan aturan algoritma baru untuk kata-kata yang gagal di-

stemming dengan benar.

Page 6: Urai paper : Indonesian Stemming

Kesimpulan

● Beberapa kata berimbuhan gagal di-stemming dengan benar oleh algoritma yang sudah ada.

● Algoritma Nazief Adriani adalah algoritma dengan performa dan akurasi terbaik.

● Aturan baru (dari kesalahan di poin 1) ditambahkan ke algoritma Nazief Adriani

● Masih ada kemungkinan performa algoritma yang sudah diperbaiki di paper ini bisa ditingkatkan lagi dengan sumber data eksperimen yang lebih besar.

Page 7: Urai paper : Indonesian Stemming

Trims