pemenggalan suku kata

9

Click here to load reader

Upload: dito-c-argiatama

Post on 04-Jul-2015

4.663 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Pemenggalan suku kata

SUATU MODEL KAIDAH PEMENGGALAN SUKU

PERTAMA PADA KATA BAHASA INDONESIA: KASUS

PADA HURUF AWAL B

Dali Santun Naga1) Viny Christanti Mawardi 2) Freddy Kurniawan 3)

1,2,3) Fakultas Teknologi Informasi

Jl. Let.Jend.S.Parman no. 1, Jakarta 11440 Indonesia 1) email : [email protected], 2) email : [email protected], 1) email : [email protected]

ABSTRACT Almost all words in Indonesian consist of syllables. Occasionally due to certain reasons the words have to be

segmented or cut into pieces by putting hyphens between them. In Indonesian there are rules as to where in the

word the hyphens should be placed. In order that the hyphenation could be done by computer program some

rules even with their exceptions have to be introduced into the program. At this occasion we begin this

hyphenation rules at the first syllables of the words starting with letter B.

Key words Information Retrieval, Natural Language Processing, Pemenggalan kata

1. Pendahuluan

Sejak komputer berhasil diciptakan orang, di kalangan pakar komputer timbul keinginan untuk

menggunakannya sebagai alat penerjemah bahasa. Mereka menamakannya mesin penerjemah. Ternyata

keinginan ini tidak mudah dilaksanakan karena bahasa tidak mengenal aturan yang ketat seperti halnya aturan

pada matematika atau logika. Sekalipun demikian, dari keinginan demikian muncul bidang pengetahuan baru

yang berkenaan dengan komputer dan bahasa. Di antaranya muncul bidang pengetahuan seperti linguistik

komputasional dan bahkan inteligensi buatan. Di bidang tersebut pun muncul berbagai ilmu yang berkaitan

dengan bahasa seperti Information Retrieval dan Natural Language Processing.

NLP adalah salah satu bidang ilmu dalam computer science dan linguistik yang berkonsentrasi pada interaksi

antara mesin dan bahasa alami manusia [1]. Sedangkan IR adalah ilmu yang berkaitan dengan representasi,

penyimpanan, pengelolaan, dan pengaksesan terhadap informasi [2]. Pada saat ini NLP sudah banyak digunakan

Page 2: Pemenggalan suku kata

sebagai teknik dalam IR. Di dalam taksonomi computer science pada gambar 1, IR berada di bawah NLP. Dan

teknik yang terdapat di dalam NLP dapat digunakan untuk mengembangkan IR.

Gambar 1. Diagram Taksonomi Computer Science

Mesin penerjemah adalah salah satu aplikasi dalam NLP yang terus diteliti agar dapat dihasilkan mesin

penerjemah yang dapat menerjemahkan bahasa yang satu ke dalam bahasa yang lain. Pembangunan mesin

penerjemah haruslah melalui beberapa tahap dan salah satu di antaranya adalah pengenalan kata untuk

memperoleh makna dari sebuah kalimat. Di bidang IR dan NLP dikenal pula kajian mengenai pemrosesan

naskah (text processing). Salah satu kajian di bidang pemrosesan naksah adalah pengenalan kata oleh komputer

melalui kaidah tertentu.

Di dalam NLP dikenal beberapa tingkatan pengenalan kata yaitu fonologi, morfologi, leksikal, sintaktik,

semantik, discourse dan pragmatik [3]. Untuk dapat mencapai tingkat paling atas yaitu pragmatik diperlukan

pengetahuan mengenai fonologi, morfologi, dan seterusnya. Permasalahan yang muncul dalam NLP adalah

komputer harus dapat memodelkan morfologi dari kata untuk mengerti sebuah kalimat dan morfologi tersebut

digunakan untuk membangun kalimat yang betul. Banyak penelitian telah dilakukan untuk memperoleh hasil

pengenalan kata yang betul. Mereka dimulai dari pemotongan imbuhan untuk dapat memperoleh kata dasar

sampai ke memberikan part-of-speech tagging untuk dapat mengenali jenis kata dan pengenalan subyek,

predikat, dan obyek.

Computer

Databases Artificial Intelligence

Algorithms Networking

Robotics Natural Language Processing

Search

Information Retrieval

Machine Translation

Language Analysis

Semantics Parsing

Page 3: Pemenggalan suku kata

Stemmer adalah pemotongan imbuhan pada kata berimbuhan untuk mendapatkan kata dasar. Stemmer untuk

bahasa Indonesia sudah banyak diteliti. Nazief melakukan penelitian pemotongan imbuhan berdasarkan kamus

bahasa Indonesia [4]. Dalam hal ini kualitas stemmer selalu berdasarkan besarnya kamus yang digunakan.

Selain itu kelemahan dari stemmer Nazief adalah panjangnya waktu yang diperlukan dalam proses pencarian

kata di dalam kamus.

Fadillah F. Tala melakukan penelitian pemotongan imbuhan berdasarkan aturan morfologi pada bahasa

Indonesia dan mengadaptasi stemmer Porter dalam bahasa Inggris [5]. Kesalahan yang umum terjadi pada

algoritma stemmer untuk bahasa Indonesia adalah overstemming atau understemming. Kesalahan ini terjadi

karena dalam algoritma stemmer, kata langsung dipenggal mulai dari akhir atau awal kata. Contoh

overstemming adalah berbadan => bad seharusnya badan. Sedangkan contoh understemming adalah mengecek

=> ecek seharusnya cek.

Part of Speech tagging (POS-Tagging) adalah proses menandai kata-kata pada teks (korpus) berkenaan

dengan part-of-speech tertentu berdasarkan definisi maupun konteksnya [6]. Bentuk-bentuk sederhananya

adalah identifikasi kata-kata sebagai kata benda (noun), kata kerja (verb), kata sifat (adjective), kata keterangan

(adverb), dan lain-lain. Beberapa penelitian telah berhasil menemukan bagaimana cara memberikan tagging

secara otomatis untuk bahasa Inggris.

Tagger Brill adalah salah satu POS-tagging untuk bahasa Inggris berdasarkan aturan lingustik dari suatu

bahasa [7] seperti aturan leksikal penggunaan imbuhan. Tagger Brill banyak diadaptasi untuk bahasa lain seperti

untuk bahasa Indonesia namun dalam hal ini masih muncul banyak kesalahan karena pengenalan kata imbuhan

yang masih salah. Di dalam tagger Brill diperoleh aturan leksikal seperti kan hassuf 3 VB yang berarti dalam

kata terdapat akhiran –kan. Namun dalam penerapannya masih terdapat kekeliruan berupa tagger tidak dapat

mengenal pemenggalan kata yang betul. Kata makan dan perkenalkan dianggap merupakan kata yang memiliki

akhiran –kan.

Penelitian ini akan membahas pengenalan kata. Pengenalan kata demikian berguna pada olah kata

(wordprocessing) di dalam komputer. Melalui kaidah tertentu, pengenalan kata ini dapat digunakan untuk

pemeriksaan betul-tidaknya ejaan dan bahkan lebih jauh lagi sampai ke pemeriksaan betul-tidaknya tata bahasa.

Diharapkan hasil penelitian ini dapat diteruskan dan digunakan untuk penelitian lebih lanjut seperti penelitian

stemmer dengan pemenggalan kata sehingga tidak terjadi overstemming atau understemming. Pemenggalan kata

dapat memberikan informasi tempat bagian kata tersebut dipotong.

2. Pemenggalan Suku Kata

Kata di dalam bahasa Indonesia terdiri atas suku kata, baik pada kata dasar maupun pada kata berimbuhan.

Ada kata yang teridri atas satu suku kata, atas dua suku kata, dan ada pula kata yang terdiri atas tiga atau lebih

suku kata. Menurut ketentuan bahasa, pemenggalan kata bahasa Indonesia hanya boleh dilakukan pada suku

kata. Kata bendahara, misalnya, hanya boleh dipenggal menurut suku kata menjadi ben-da-ha-ra.

Pemenggalan kata ke dalam suku kata dilakukan dengan memberikan tanda suku -. Dengan sedikit

pengecualian, misalnya, do-a, hanya kata dengan empat atau lebih huruf yang menggunakan tanda suku pada

pemenggalan suku kata. Agar pemenggalan suku kata seperti ini dapat dilakukan oleh komputer, kita

Page 4: Pemenggalan suku kata

memerlukan kaidah-kaidah tentang pemenggalan suku kata. Diperkirakan ada banyak model kaidah yang dapat

ditemukan orang untuk pemenggalan suku kata ini.

Di sini kita berbicara tentang salah satu model kaidah pemenggalan suku kata. Kaidah inipun masih dibatasi

pada pemenggalan suku pertama pada kata. Pemenggalan suku pertama pada kata ini ditandai dengan tanda

suku -. Sebagai contoh, pemenggalan suku pertama pada kata bendahara adalah ben-dahara. Dengan kaidah

demikian, komputer diharapkan dapat dengan tanpa keliru memenggal suku pertama pada kata dengan

memberikan tanda suku – di belakang suku kata itu.

2.1. Pemenggalan Suku Pertama pada Kata

Di sini kita menggunakan kata yang berawal dengan huruf b sebagai prototipe dalam pencarian kaidah

untuk pemenggalan suku pertama pada kata itu. Pemenggalan suku pertama ini berlaku untuk kata yang terdiri

atas empat atau lebih huruf. Diharapkan melalui kaidah pada kata berawal dengan huruf b, secara analogi, kita

dapat mencari kaidah serupa untuk kata-kata berawal dengan huruf lainnya.

Kita memerlukan beberapa ketentuan untuk mencari kaidah pemenggalan suku pertama ini. Kita membagi

huruf ke dalam dua kategori berupa kategori konsonan yang diberi notasi [k] serta kategori vokal yang diberi

notasi [v]. Kombinasi konsonan dan vokal atau vokal dan konsonan diberi notasi [kv] atau [vk]. Selanjutnya

kombinasi huruf kh, ng, ny, dan sy yang terdiri atas dua huruf tetapi memiliki satu bunyi, di sini, dianggap

sebagai satu konsonan.

Sebelum mencari kaidah yang memadai untuk pemenggalan suku pertama pada kata yang berawal dengan

huruf b, kita coba melihat kombinasi empat huruf pertama dari berbagai kata. Kombinasi empat huruf pertama

demikian tampak pada Tabel 1.

Tabel 1. Kombinasi empat huruf pertama kata berawal huruf b

ba[kv] be[kv] bi[kv] bo[kv] bu[kv]

ba[vk] bel[k] bi[vk] bo[vk] bu[vk]

bad[k] bel[v] bim[k] bok[k] buk[k]

bah[k] ben[k] bin[k] bol[k] bum[k]

bam[k] beng[k] bing[k] bon[k] bun[k]

ban[k] ber[k] bis[k] bong[k] bung[k]

bang[k] ber[v] bor[k] bur[k]

Sebagian di antara kombinasi empat huruf pertama di dalam Tabel 1 dapat diringkas menjadi kombinasi

ba[kk], be[kk], bi[kk], bo[kk], dan bu[kk]. Di antara semua kombinasi empat huruf ini, terdapat bel[v] dan

ber[v] yang perlu diperlakukan secara tersendiri. Mereka mengenal dua macam pemenggalan, misalnya, belajar

yang menjadi bel-ajar dengan tanda suku di belakang huruf l dan belakang yang menjadi be-lakang dengan

tanda suku di depan huruf l. Hal serupa terjadi pula pada ber[v].

Page 5: Pemenggalan suku kata

2.2. Kaidah Pemenggalan Suku Pertama

Kita mulai dengan kaidah umum untuk hal-hal yang sudah disebut di atas. Kaidah umum pada tabel 2 berkaitan

dengan konsonan dan vokal serta ketentuan empat huruf pertama.

Tabel 2. Kaidah umum pemenggalan kata berwalan b

Kaidah Umum 1 Konsonan diberi notasi [k] dan vokal diberi notasi

[v] di dalam tanda kurung siku. Huruf kembar kh,

ng, ny, dan sy dianggap sebagai satu konsonan.

Kaidah Umum 2 Pembacaan dilakukan terhadap empat huruf pertama

berurutan pada kata yang akan dipenggal.

Kaidah Umum 3 Jika kata hanya terdiri dari 3 huruf atau kurang,

maka tidak dilakukan pemenggalan

Kaidah selanjutnya khusus berkaitan dengan kata yang berawal dengan huruf b dengan memperhatikan

kombinasi empat huruf pertama seperti tercantum di dalam Tabel 1. Untuk sementara kaidah pemenggalan suku

pertama ini dibahas secara terpisah untuk kombinasi huruf ba, be, bi, bo, dan bu dengan membuat kaidah

sementara seperti pada tabel 3.

Tabel 3. Kaidah sementara pemenggalan kata berawalan b

Kaidah sementara 1 Pada kelompok huruf ba[kv] dan ba[vk] tanda

suku diletakkan pada ba-[kv] dan ba-[vk]

Melalui kaidah ini, kita menemukan

pemenggalan suku pertama seperti ba-gi, ba-

ginda, ba-dan, ba-tang, ba-gaimana, ba-ik, ba-it,

ba-ur, ba-ut, dan semacam itu.

Kaidah sementara 2 Pada kelompok huruf ba[kk], tanda suku

diletakkan pada ba[k-k]. Jika kata itu hanya

terdiri atas empat huruf maka tidak ada

pemenggalan, misalnya, kata bank.

Melalui kaidah ini, kita menemukan

pemenggalan suku pertama seperti bak-ti, ban-

ting, bang-sal, ban-dar, ban-tuan, bad-minton,

dan semacam itu.

Kaidah sementara 3 Pada kelompok huruf be[kv] kecuali untuk k = l

dan k = r, tanda suku diletakkan pada be-[kv].

Melalui kaidah ini, kita menemukan

pemenggalan suku pertama seperti be-berapa,

be-canda, be-debah, be-kal, be-nang, be-tung,

dan semacam itu.

Kaidah sementara 4 Pada kelompok huruf be[kv] untuk k = l dan k =

r, pada daftar kata tertentu, tanda suku

Page 6: Pemenggalan suku kata

diletakkan pada be[k-v] dan pada kata lainnya,

letak tanda suku mengikuti kaidah sementara 3.

Daftar kata perlu disusun tersendiri. Melalui

kaidah ini, kita menemukan pemenggalan suku

pertama seperti bel-ajar, ber-alamat, ber-alasan,

ber-anggapan, ber-urut, ber-ulang, dan semacam

itu.

Kaidah sementara 5 Pada kelompok huruf be[kk], tanda suku

diletakkan pada be[k-k]. Jika kata itu hanya

terdiri atas empat huruf maka tidak ada

pemenggalan, misalnya, kata belt.

Melalui kaidah ini, kita menemukan

pemenggalan suku pertama seperti beng-kak,

ber-karya, ben-dahara, ben-turan, bes-tari, dan

semacam itu.

Kaidah sementara 6 Pada kelompok huruf bi[kv] dan bi[vk] kecuali

untuk bio[k], tanda suku diletakkan pada bi-[kv]

dan bi-[vk]. Untuk bio[k], tanda suku

diletakkan pada bio-[k]

Melalui kaidah ini, kita menemukan

pemenggalan suku pertama seperti bi-dang, bi-

lang, bi-sing, bi-ang, bi-asa, bi-awak bi-us, bio-

logi, bio-fisika, dan semacam itu.

Kaidah sementara 7 Pada kelompok huruf bi[kk], tanda suku

diletakkan pada bi[k-k].

Jika kata itu hanya terdiri atas empat huruf maka

tidak ada pemenggalan.

Melalui kaidah ini, kita menemukan

pemenggalan suku pertama seperti bim-bang,

bim-bingan, bin-tang, bin-cang, bis-tik, dan

semacam itu.

Kaidah sementara 8 Pada kelompok huruf bo[kv] dan bo[vk], tanda

suku diletakkan pada bo-[kv] dan bo[v-k].

Melalui kaidah ini, kita menemukan penggalan

suku pertama seperti bo-kong, bo-la, bo-long,

bo-tak, boi-kot, dan semacam itu.

Kaidah sementara 9 Pada kelompok huruf bo[kk], tanda suku

diletakkan pada bo[k-k]. Jika kata itu hanya

terdiri atas empat huruf maka tidak ada

pemenggalan, misalnya, kata bolt.

Melalui kaidah ini, kita menemukan penggalan

suku pertama seperti bong-kok, bong-kar, bor-

gol, bom-bardir, dan semacam itu.

Kaidah sementara 10 Pada kelompok huruf bu[kv] dan bu[vk], tanda

Page 7: Pemenggalan suku kata

suku diletakkan pada bu-[kv] dan bu-[vk].

Melalui kaidah ini, kita menemukan penggalan

suku pertama seperti bu-kan, bu-daya, bu-lan,

bu-nga, bu-sung, bu-al, bu-at, bu-aya, dan

semacam itu.

Kaidah sementara 11 Pada kelompok huruf bu[kk], tanda suku

diletakkan pada bu[k-k]. Jika kata itu hanya

terdiri atas empat huruf maka tidak ada

pemenggalan, misalnya, kata bulk.

Melalui kaidah ini, kita menemukan penggalan

suku pertama seperti bum-bu, bung-kam, bung-

kus, bun-tut, bur-sa, dan semacam itu.

Kaidah sementara 12 Pada kelompok kata dimulai dengan bl, br, dan

by pembacaan dilakukan sebanyak lima huruf

pertama berupa bl[vkv] dan br[vkv] yang

dipenggal menjadi bl[v-kv] dan br[v-kv] serta

bl[vkk] dan r[vkk] yang dipenggal menjadi

bl[vk-k] dan br[vk-k]

Melalui kaidah ini, kita menemukan penggalan

suku pertama seperti blo-ger, bra-ta, blang-ko,

bran-dal, byar-pet.

Ringkasan Kaidah Pemenggalan Suku Pertama

Dua belas kaidah di atas masih dapat diringkas karena terdapat kesamaan di antara beberapa kaidah.

Ringkasan kaidah demikian dapat dilihat pada tabel 4.

Tabel 4. Kaidah pemenggalan kata berwalan b

Kaidah 1 Pada kelompok huruf b[vkv] kecuali untuk bel[v] dan

ber[v], tanda suku diletakkan pada b[v-kv]. Pada bel[v] dan

ber[v], untuk daftar kata pengecualian, tanda suku

diletakkan pada bel-[v] dan ber-[v].

Kaidah 2 Pada kelompok huruf b[vvk], kecuali untuk bio[k], tanda

suku diletakkan pada b[v-vk]. Pada bio[k], tanda suku

diletakkan pada bio-[k].

Kaidah 3 Pada kelompok huruf b[vkk], tanda suku diletakkan pada

b[vk-k]. Jika kata itu hanya terdiri atas empat huruf maka

tidak ada pemenggalan.

Kaidah 4 Jika kelompok huruf diawali oleh b[k] maka pembacaan

dilakukan sebanyak lima huruf pertama berupa b[kvkv] yang

dipenggal menjadi b[kv-kv] dan b[kvkk] yang dipenggal

menjadi b[kvk-k]

Page 8: Pemenggalan suku kata

Khusus untuk kelompok huruf bel[v] dan ber[v], diperlukan suatu daftar kata tersendiri untuk memisahkan

dua kemungkinan letak tanda suku. Namun pembedaan ini masih mungkin ditemukan melalui kaidah pada

pemenggalan suku kedua. Sementara belum ada kaidah suku kedua yang dapat membedakannya, kita

menggunakan daftar kata khusus untuk itu.

3. Percobaan

Percobaan dilakukan dengan mengumpulkan kata berawalan b dari artikel berita yang diperoleh dari

internet. Percobaan pertama dilakukan terhadap koleksi berita Suara Pembaruan dan percobaan kedua dilakukan

terhadap koleksi berita Kompas. Kata yang digunakan adalah kata berawalan b yang bukan merupakan nama

orang, singkatan, atau nama lokasi. Seluruh kata berawalan b dikumpulkan dan diurutkan berdasarkan abjad.

4. Hasil Percobaan

Koleksi pertama adalah koleksi dari Suara Pembaruan bulan Februari–Maret 2005. Kata berawalan b yang

diperoleh dari koleksi pertama adalah sebanyak 463 kata. Sedangkan koleksi kedua adalah koleksi dari

Kompas 2001-2002. Kata berawalan b yang diperoleh dari koleksi kedua adalah sebanyak 4600 kata. Setelah

diteliti maka kata b yang digunakan hanya 2096 sedangkan sisanya adalah kata yang berupa singkatan seperti

bppt, bapenas, nama orang, nama lokasi, dan istilah asing. Hasil percobaan ini menggunakan 195 daftar kata

tertentu sebagai pengecualian untuk kaidah 1.

Hasil percobaan ini dapat dilihat pada tabel 5.

Tabel 5 Perbandingan algoritma A dan algoritma B

Koleksi Jumlah Benar Salah % Koleksi 1 463 kata 463 kata 0 100

Koleksi 2 2096 kata 2088 kata 8 kata 99.61

Beberapa kata yang salah dipenggal adalah kata-kata seperti:

bioskop => bio-skop seharusnya bios-kop

baunya => ba-unya seharusnya bau-nya

5. Kesimpulan

Demikianlah salah satu model untuk kaidah pemenggalan suku pertama pada kata di dalam bahasa

Indonesia. Di sini kaidah demikian masih dilakukan pada kata yang berawal dengan huruf b sebagai prototipe.

Kaidah ini belum diuji secara tuntas dengan berbagai kata yang ada di dalam bahasa Indonesia. Masih

diperlukan pengujian selanjutnya untuk menentukan apakah diperlukan kaidah tambahan ataukah model kaidah

ini terlalu rumit untuk keperluan praktis.

Page 9: Pemenggalan suku kata

Melalui kaidah yang serupa dengan kaidah ini, kata yang berawal dengan huruf bukan b dapat dipenggal

melalui peletakan tanda suku. Dalam hal khusus, peletakan tanda suku itu dapat dilengkapi dengan kaidah

tambahan.

REFERENSI [1] Wikipedia, Natural Language Processing, http://en.wikipedia.org/wiki/Natural_language_processing, 17 February

2010

[2] Baeza-Yates, R. and B. Ribiero-Neto, Modern Information Retrieval. Addison-Wesley, New York

[3] Liddy, E. D. Natural Language Processing. In Encyclopedia of Library and Information Science, 2nd Ed. Marcel

Decker, Inc.

[4] B. Nazief and M. Adriani. Confix Stripping: Approach to Stemming Algorithm for Bahasa Indonesia. Technical report,

Faculty of Computer Science, University of Indonesia, Depok, 1996.

[5] Tala. Fadillah Z., A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. Tesis. Master of Logic

Project Institute for Logic, Language and Computation Universiteit van Amsterdam the Netherlands.

[6] Wikipedia, Part-of-speech tagger, http://en.wikipedia.

org/wiki/Part-of-speech_tagger.html. [7] Eric Brill, A Simple Rule-Based Part of Speech Tagger, http://www.aclweb.org/anthology/H/H92/H92-1022.pdf, 20

February 2010.

[8] Pusat Bahasa. Pedoman Umum Ejaan Bahasa Indonesia yang Disempurnakan. Jakarta: Balai Pustaka, 2005.

[9] Pusat Bahasa. Kamus Besar Bahasa Indonesia, edisi keempat. Jakarta: Penerbit Gramedia Pustaska Utama, 2008.

Dali Santun Naga, adalah guru besar emeritus di Fakultas Teknologi Informasi, Universitas Tarumanagara, yang memiliki

minat yang besar di bidang bahasa Indonesia.

Viny Christanti Mawardi, memperoleh gelar M.Kom dari Universitas Indonesia pada tahun 2008 dengan research interest

Information Retrieval, staf pengajar program studi Teknik Informatika, Fakultas Teknologi Informasi, Universitas

Tarumanagara.

Freddy Kurniawan, mahasiswa Teknik Informatika dari Universitas Tarumanagara angkatan 2007.