urai paper : indonesian stemming
TRANSCRIPT
Urai Paper
“Indonesian Stemming”
Jelita Asian Hugh E. Williams
S.M.M. Tahaghoghi
School of Computer Science and Information Technology RMIT University, GPO Box 2476V, Melbourne 3001, Australia.
{jelita,hugh,saied}@cs.rmit.edu.au
Kelompok 2
Abstrak
● Apa itu stemming?● Lima algoritma stemming sudah ditemukan● Apakah algoritma tersebut sudah sempurna?
mencintaimu
men-cinta-i-mu
cinta
Tujuan
Menyempurnakan algoritma yang sudah ada
● Skala kecil :
Menemukan kata dasar / lema● Skala menengah :
Information Retrieval● Skala besar (masa depan) :
Robot AI mampu membaca koran dan memahami maksud / konteksnya. Mampu mengobrol dengan manusia dan mengerti konteks pembicaraan yang panjang lebar.
DORAEMON is scientifically possible to be exists.
Metode Penelitian
● Hipotesis :
Akurasi algoritma yang ada masih bisa ditingkatkan lagi.● Metode penelitian : Experiment● Menguji algoritma stemming secara otomatis dengan 9.901 artikel
dari kabar harian Kompas.● Meminta 4 orang penutur asli bahasa Indonesia untuk men-
stemming sejumlah besar kata (3.986) secara manual.● Menggunakan hasil stemming manual sebagai pembantu patokan
toleransi dari hasil uji stemming otomatis● Merumuskan aturan algoritma baru untuk kata-kata yang gagal di-
stemming dengan benar.
Kesimpulan
● Beberapa kata berimbuhan gagal di-stemming dengan benar oleh algoritma yang sudah ada.
● Algoritma Nazief Adriani adalah algoritma dengan performa dan akurasi terbaik.
● Aturan baru (dari kesalahan di poin 1) ditambahkan ke algoritma Nazief Adriani
● Masih ada kemungkinan performa algoritma yang sudah diperbaiki di paper ini bisa ditingkatkan lagi dengan sumber data eksperimen yang lebih besar.
Trims