urai paper : indonesian stemming

Urai Paper

“Indonesian Stemming”

Jelita Asian Hugh E. Williams

S.M.M. Tahaghoghi

School of Computer Science and Information Technology RMIT University, GPO Box 2476V, Melbourne 3001, Australia.

{jelita,hugh,saied}@cs.rmit.edu.au

Kelompok 2

Abstrak

● Apa itu stemming?● Lima algoritma stemming sudah ditemukan● Apakah algoritma tersebut sudah sempurna?

mencintaimu

men-cinta-i-mu

cinta

Tujuan

Menyempurnakan algoritma yang sudah ada

● Skala kecil :

Menemukan kata dasar / lema● Skala menengah :

Information Retrieval● Skala besar (masa depan) :

Robot AI mampu membaca koran dan memahami maksud / konteksnya. Mampu mengobrol dengan manusia dan mengerti konteks pembicaraan yang panjang lebar.

DORAEMON is scientifically possible to be exists.

Metode Penelitian

● Hipotesis :

Akurasi algoritma yang ada masih bisa ditingkatkan lagi.● Metode penelitian : Experiment● Menguji algoritma stemming secara otomatis dengan 9.901 artikel

dari kabar harian Kompas.● Meminta 4 orang penutur asli bahasa Indonesia untuk men-

stemming sejumlah besar kata (3.986) secara manual.● Menggunakan hasil stemming manual sebagai pembantu patokan

toleransi dari hasil uji stemming otomatis● Merumuskan aturan algoritma baru untuk kata-kata yang gagal di-

stemming dengan benar.

Kesimpulan

● Beberapa kata berimbuhan gagal di-stemming dengan benar oleh algoritma yang sudah ada.

● Algoritma Nazief Adriani adalah algoritma dengan performa dan akurasi terbaik.

● Aturan baru (dari kesalahan di poin 1) ditambahkan ke algoritma Nazief Adriani

● Masih ada kemungkinan performa algoritma yang sudah diperbaiki di paper ini bisa ditingkatkan lagi dengan sumber data eksperimen yang lebih besar.

urai paper : indonesian stemming

Education