stemming - fsolihin.files.wordpress.com · corpus {apus, asbak, april, abu, anggur, apel}...
TRANSCRIPT
1
Firdaus Solihin (unijoyo) 2008
STEMMING
FIRDAUS SOLIHIN
UNIVERSITAS TRUNOJOYO
Firdaus Solihin (unijoyo) 2008
Stemming
� menghapus variasi kata untuk mendapatkan
kata dasar sebagai term pembeda, yang
mengacu pada morfologi kata
� Contoh
� Himpunan {kerja, bekerja, pekerja, dikerjakan,
memperkerjakan} akan dihitung sebagai 1 term
pembeda dengan frekuensi 5.
� Diperdengarkannya = Di per dengar kan nya
� Memperlakukan = mem per laku kan
2
Firdaus Solihin (unijoyo) 2008
Conflation Methods
� Manual
� Automatic (stemmers)
� Succesor Variety
� N-gram Stemmers
� Affiks Removal Stemmers
� Simple Removal
� Longest Match
� Table Look up
Firdaus Solihin (unijoyo) 2008
SUCCESOR VARIETY
3
Firdaus Solihin (unijoyo) 2008
Succesor Variety
� Dikembangkan Hafer and Weiss 1974
� Didasarkan pada struktur bahasa untuk
memisahkan kata dari dokumen dengan
melihat distribusi dari fonem dalam suatu
dokumen
Firdaus Solihin (unijoyo) 2008
Contoh 1
� Corpus {apus, asbak, april, abu, anggur, apel}
� Succesor variety untuk kata apel
� Huruf pertama “a”
� Kumpulan huruf berikutnya setelah “a” dari corpus adalah
“p”, “s”, “b”, “n” � SV
� u/ Substring “ap”
� Kumpulan huruf berikutnya setelah “ap” adalah “u”, “r”, “e”
� SV
� Untuk substring “a” memiliki 4 succecor variety
� Untuk substring “ap” memiliki 3 succecor variety
4
Firdaus Solihin (unijoyo) 2008
Contoh 2
� Corpus { menjadi, dijadikan, terjadi, jadilah, jadikan, menjahit, menjenguk, menjemur}
� Succesor variety untuk kata “menjadikan” adalah :
-1Menjadikan
n1Menjadika
a1Menjadik
k,-2Menjadi
i1Menjad
d,h2Menja
a,e2Menj
j1Men
n1Me
e1M
Huruf BerikutnyaSVSubstring
Firdaus Solihin (unijoyo) 2008
Contoh 3
� Corpus {jadi, jadikan, jadikanlah, dls} akan
diwakili dengan index pada kata “jadi”
� Simpulan
� Metoda stemming ini hanya cocok untuk mencari
kata jadian berbahasa inggris dan tidak cocok
untuk bahasa Indonesia
� Metoda ini berjalan maksimal pada kata yang
memiliki akhiran saja.
5
Firdaus Solihin (unijoyo) 2008
N-GRAM STEMMERS
Firdaus Solihin (unijoyo) 2008
N-gram Stemmers
� Dikembangkan : Adam dan Boreham (1974)
� Menjelaskan stemming menggunakan
metoda digram yang selanjutnya
berkembang dengan sebutan N-Gram
Methods
� Menghitung persamaan term yang
didasarkan pada jumlah uniq digram yang
dipakai bersama antar kata
6
Firdaus Solihin (unijoyo) 2008
Digram
� Definisi
substring yang diambil 2 karakter secaraberurutan dalam suatu kata
� Contoh
� Pendudukan
� Digram : pe en nd du ud du uk ka an
� Uniq digram : pe en nd du ud uk ka an
� Diduduki
� Digram : di id du ud du uk ki
� Uniq digram : di id du ud du uk ki
Firdaus Solihin (unijoyo) 2008
Dice’s coefficient
� Rumus:
� Kemiripan antar kata didasarkan pada
persamaan tersebut, sehingga
� Pendudukan = 9 digram dan 8 unik digram
� Diduduki = 7 digram dan 6 unik digram
� Menghasilkan Dice = 2*3/(8+6) = 6/14
7
Firdaus Solihin (unijoyo) 2008
AFFIKS REMOVAL
Firdaus Solihin (unijoyo) 2008
Affiks Removal Stemmer
� Dilakukan untuk menghilangkan awalan dan atau
akhiran dari kata yang distem
� Dalam banyak kasus affiks removal biasanya
menggunakan Longest Match Stemmers yaitu:
� Sebuah iterasi dilakukan dengan penghilangan string
terpanjang yang mungkin dari sebuah kata dengan
mengacu pada kumpulan aturan tertentu.
� Proses ini akan diulangi sampai mendapatkan hasil yang
diiginkan (kata dasar) atau tidak adanya substriing yang
bisa dihapus lagi.
8
Firdaus Solihin (unijoyo) 2008
Longest Match Stemmer
� Ahli pengembang LMS
� Salton (1968)
� Dawson (1974)
� Porter (1980)
� Lawins (1986)
� Paice (1990)
Firdaus Solihin (unijoyo) 2008
Porter Stemmers
� Melakukan pemotongan dengan aturan dan
format tertentu
� Format
� *S = kata stem diakhiri dengan huruf “S”
� *v* = kata stem mengandung vowel
� *d = kata stem diakhiri double consonant ex –SS
� *o = kata stem diakhiri cvc dimana c kedua bukan
termasuk “W”, “X” atau “Y”