stemming - fsolihin.files.wordpress.com · corpus {apus, asbak, april, abu, anggur, apel}...

14
1 Firdaus Solihin (unijoyo) 2008 STEMMING FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO Firdaus Solihin (unijoyo) 2008 Stemming menghapus variasi kata untuk mendapatkan kata dasar sebagai term pembeda, yang mengacu pada morfologi kata Contoh Himpunan {kerja, bekerja, pekerja, dikerjakan, memperkerjakan} akan dihitung sebagai 1 term pembeda dengan frekuensi 5. Diperdengarkannya = Di per dengar kan nya Memperlakukan = mem per laku kan

Upload: buihanh

Post on 26-May-2019

223 views

Category:

Documents


0 download

TRANSCRIPT

1

Firdaus Solihin (unijoyo) 2008

STEMMING

FIRDAUS SOLIHIN

UNIVERSITAS TRUNOJOYO

Firdaus Solihin (unijoyo) 2008

Stemming

� menghapus variasi kata untuk mendapatkan

kata dasar sebagai term pembeda, yang

mengacu pada morfologi kata

� Contoh

� Himpunan {kerja, bekerja, pekerja, dikerjakan,

memperkerjakan} akan dihitung sebagai 1 term

pembeda dengan frekuensi 5.

� Diperdengarkannya = Di per dengar kan nya

� Memperlakukan = mem per laku kan

2

Firdaus Solihin (unijoyo) 2008

Conflation Methods

� Manual

� Automatic (stemmers)

� Succesor Variety

� N-gram Stemmers

� Affiks Removal Stemmers

� Simple Removal

� Longest Match

� Table Look up

Firdaus Solihin (unijoyo) 2008

SUCCESOR VARIETY

3

Firdaus Solihin (unijoyo) 2008

Succesor Variety

� Dikembangkan Hafer and Weiss 1974

� Didasarkan pada struktur bahasa untuk

memisahkan kata dari dokumen dengan

melihat distribusi dari fonem dalam suatu

dokumen

Firdaus Solihin (unijoyo) 2008

Contoh 1

� Corpus {apus, asbak, april, abu, anggur, apel}

� Succesor variety untuk kata apel

� Huruf pertama “a”

� Kumpulan huruf berikutnya setelah “a” dari corpus adalah

“p”, “s”, “b”, “n” � SV

� u/ Substring “ap”

� Kumpulan huruf berikutnya setelah “ap” adalah “u”, “r”, “e”

� SV

� Untuk substring “a” memiliki 4 succecor variety

� Untuk substring “ap” memiliki 3 succecor variety

4

Firdaus Solihin (unijoyo) 2008

Contoh 2

� Corpus { menjadi, dijadikan, terjadi, jadilah, jadikan, menjahit, menjenguk, menjemur}

� Succesor variety untuk kata “menjadikan” adalah :

-1Menjadikan

n1Menjadika

a1Menjadik

k,-2Menjadi

i1Menjad

d,h2Menja

a,e2Menj

j1Men

n1Me

e1M

Huruf BerikutnyaSVSubstring

Firdaus Solihin (unijoyo) 2008

Contoh 3

� Corpus {jadi, jadikan, jadikanlah, dls} akan

diwakili dengan index pada kata “jadi”

� Simpulan

� Metoda stemming ini hanya cocok untuk mencari

kata jadian berbahasa inggris dan tidak cocok

untuk bahasa Indonesia

� Metoda ini berjalan maksimal pada kata yang

memiliki akhiran saja.

5

Firdaus Solihin (unijoyo) 2008

N-GRAM STEMMERS

Firdaus Solihin (unijoyo) 2008

N-gram Stemmers

� Dikembangkan : Adam dan Boreham (1974)

� Menjelaskan stemming menggunakan

metoda digram yang selanjutnya

berkembang dengan sebutan N-Gram

Methods

� Menghitung persamaan term yang

didasarkan pada jumlah uniq digram yang

dipakai bersama antar kata

6

Firdaus Solihin (unijoyo) 2008

Digram

� Definisi

substring yang diambil 2 karakter secaraberurutan dalam suatu kata

� Contoh

� Pendudukan

� Digram : pe en nd du ud du uk ka an

� Uniq digram : pe en nd du ud uk ka an

� Diduduki

� Digram : di id du ud du uk ki

� Uniq digram : di id du ud du uk ki

Firdaus Solihin (unijoyo) 2008

Dice’s coefficient

� Rumus:

� Kemiripan antar kata didasarkan pada

persamaan tersebut, sehingga

� Pendudukan = 9 digram dan 8 unik digram

� Diduduki = 7 digram dan 6 unik digram

� Menghasilkan Dice = 2*3/(8+6) = 6/14

7

Firdaus Solihin (unijoyo) 2008

AFFIKS REMOVAL

Firdaus Solihin (unijoyo) 2008

Affiks Removal Stemmer

� Dilakukan untuk menghilangkan awalan dan atau

akhiran dari kata yang distem

� Dalam banyak kasus affiks removal biasanya

menggunakan Longest Match Stemmers yaitu:

� Sebuah iterasi dilakukan dengan penghilangan string

terpanjang yang mungkin dari sebuah kata dengan

mengacu pada kumpulan aturan tertentu.

� Proses ini akan diulangi sampai mendapatkan hasil yang

diiginkan (kata dasar) atau tidak adanya substriing yang

bisa dihapus lagi.

8

Firdaus Solihin (unijoyo) 2008

Longest Match Stemmer

� Ahli pengembang LMS

� Salton (1968)

� Dawson (1974)

� Porter (1980)

� Lawins (1986)

� Paice (1990)

Firdaus Solihin (unijoyo) 2008

Porter Stemmers

� Melakukan pemotongan dengan aturan dan

format tertentu

� Format

� *S = kata stem diakhiri dengan huruf “S”

� *v* = kata stem mengandung vowel

� *d = kata stem diakhiri double consonant ex –SS

� *o = kata stem diakhiri cvc dimana c kedua bukan

termasuk “W”, “X” atau “Y”

9

Firdaus Solihin (unijoyo) 2008

Aturan 1a

Firdaus Solihin (unijoyo) 2008

Aturan 1b

10

Firdaus Solihin (unijoyo) 2008

Aturan 1b (cont)

Firdaus Solihin (unijoyo) 2008

Aturan 1c

11

Firdaus Solihin (unijoyo) 2008

Aturan 2

Firdaus Solihin (unijoyo) 2008

Aturan 2 (cont)

12

Firdaus Solihin (unijoyo) 2008

Aturan 3

Firdaus Solihin (unijoyo) 2008

Aturan 4

13

Firdaus Solihin (unijoyo) 2008

Aturan 4 (cont)

Firdaus Solihin (unijoyo) 2008

Aturan 5

14

Firdaus Solihin (unijoyo) 2008

Contoh