penguraian bahasa indonesia dengan menggunakan …rosa-as.id/download/tesis-rosa-23507024.pdf ·...

http://www.gangsir.com

PENGURAIAN BAHASA INDONESIA DENGAN

MENGGUNAKAN PENGURAI COLLINS

TESIS

Karya tulis sebagai salah satu syarat untuk memperoleh gelar Magister dari

Institut Teknologi Bandung

Oleh

ROSA ARIANI SUKAMTO

NIM : 23507024

(Program Magister Informatika)

INSTITUT TEKNOLOGI BANDUNG 2009

ii



Oleh

Rosa Ariani Sukamto

NIM : 23507024 (Program Magister Informatika)

Institut Teknologi Bandung

Menyetujui

Pembimbing

Tanggal 24 Juni 2009

Ir. Dwi Hendratmo Widyantoro, M.Sc., Ph.D NIP. 132084094

iii

ABSTRAK



Oleh

Rosa Ariani Sukamto

NIM : 23507024

(Program Magister Informatika)

Pemrosesan bahasa alami berawal dari keinginan manusia untuk

berkomunikasi dengan komputer menggunakan bahasa manusia. Pengurai (parser) akan membentuk pohon pola tata bahasa sehingga dapat disimpulkan dimana inti dari sebuah kalimat berbahasa manusia. Pengurai (parser) merupakan pengurai kalimat menjadi pohon pola tata bahasa yang digunakan dalam pemrosesan bahasa alami. Pengurai Collins merupakan pengurai yang dibuat untuk bahasa Inggris. Pengurai Collins termasuk pengurai yang memiliki kecepatan yang cukup baik dalam melakukan penguraian dengan metode statistik.

Tesis ini melakukan adaptasi yang perlu dilakukan pada pengurai Collins agar dapat digunakan untuk bahasa Indonesia. Adaptasi yang dilakukan adalah memproses kumpulan file yang digunakan pada pengurai Collins agar dapat digunakan pada bahasa Indonesia. Kumpulan file masukan pengurai Collins antara lain file leksikon, file grammar, file simbol non-terminal, file events, dan file korpus. Beberapa kendala yang muncul adalah tidak adanya treebank dalam bahasa Indonesia yang dapat digunakan sebagai data pembelajaran pengurai Collins. Treebank digunakan sebagai data awal untuk menggenerasi events dan grammar yang dijadikan data pembelajaran pada pengurai Collins.

Pengujian dilakukan dengan menggunakan dua buah kelompok kalimat. Kelompok kalimat pertama terdiri dari kalimat-kalimat sederhana dan kelompok kalimat kedua terdiri dari kalimat-kalimat kompleks. Pengurai Collins berhasil menguraikan semua kalimat pada kelompok pertama dan lebih dari separuh kalimat dari kelompok kedua. Hampir semua kalimat pada kelompok pertama diuraikan dengan benar. Tidak ada kalimat yang benar diuraikan secara kesatuan kalimat pada kelompok kedua. Dengan jumlah treebank yang sangat terbatas, pengurai Collins telah mampu menguraikan kalimat berbahasa Indonesia. Kata Kunci : pengurai, statistik, probabilistik, pola tata bahasa

iv

ABSTRACT

INDONESIAN PARSING USING COLLINS’S PARSER

Natural language processing appear caused of human desire to

communicated with computer using human language. Parser will generates parse trees so computer can make main conclusion from human language. Parser is a natural language processing component where parse sentences to be parse trees. Collins’s parser is english language parser. Collins’s parser is one of statistic parser that has good speed.

Adaptation processing is needed to adapt all input files, which were originally designed for English, so as to suit the parsing requirement for Indonesian language. These include lexicon file, grammar file, non terminal file, and event file, as well as corpus file. One of the main obstacles in this attempt is providing treebank needed to calculate probability values.

Two group where build to test Collins’s parser for Indonesian. First group consist of simple sentences and second group consist of complex sentences. Collins’s parser is able to parse all sentences in first group and more than a half from second group. Almost all sentences in first group are able to parse correctly. None of sentences in second group that being parsed perfect correctly. Collins’s parser could parse Indonesian sentences thought using limited treebank. Key Words : parser, statistic, probabilistic, grammar

v

PEDOMAN PENGGUNAAN TESIS

Tesis S2 yang tidak dipublikasikan terdaftar dan tersedia di Perpustakaan Institut

Teknologi Bandung, dan terbuka untuk umum dengan ketentuan bahwa hak cipta

ada pada pengarang dengan mengikuti aturan HaKI yang berlaku di Institut

Teknologi Bandung. Referensi kepustakaan diperkenankan dicatat, tetapi

pengutipan atau peringkasan hanya dapat dilakukan seizin pengarang dan harus

disertai dengan kebiasaan ilmiah untuk menyebutkan sumbernya.

Memperbanyak atau menerbitkan sebagian atau seluruh tesis haruslah seizin

Direktur Program Pascasarjana, Institut Teknologi Bandung.

vi

Dipersembahkan kepada Gadiza dan Udin

vii

KATA PENGANTAR

Segala puji syukur bagi Allah SWT karena atas rahmat yang dilimpahkan-Nya

penulis dapat menyelesaikan pembuatan laporan tesis yang berjudul “Penguraian

Bahasa Indonesia dengan Menggunakan Pengurai Collins”. Laporan ini dibuat

untuk memenuhi syarat kelulusan tahap magister, namun kelulusan bukanlah

segalanya, yang terpenting adalah ilmu pengetahuan, kebijaksanaan, pengalaman,

serta kemampuan menerima keterbatasan yang terkadang tidak sesuai dengan

keinginan.

Penulis mengucapkan terima kasih yang sebesar-besarnya kepada nama-nama

yang tercantum di bawah ini atas bantuan yang telah diberikan selama penulis

menyelesaikan tesis.

1. Bapak Dwi Hendratmo Widyantoro selaku dosen pembimbing, terima

kasih atas bimbingan dan pengalaman yang diberikan.

2. Ibu Masayu Leylia Khodra dan Bu Ayu Purwarianti selaku penguji,

terima kasih atas bantuan, saran, dan kritiknya.

3. Pak Santika atas segala bantuan serta saran mengenai permasalahan yang

dihadapi penulis, dan kesediaan menjadi penguji pada sidang tesis

penulis.

4. Suamiku M. Shalahuddin dan anakku Gadiza Mutia Shalahuddin terima

kasih atas dukungan moral, bantuan, kerja sama, kasih sayang dan

semuanya yang sudah diberikan pada penulis.

5. Keluargaku terutama ibuku tercinta yang sangat kusayangi, terima kasih

atas pengorbanan, perjuangan, doa, dan dukunganmu, dan mendiang

ayahku tercinta yang banyak memberi inspirasi tentang hidup.

6. Petugas tata usaha (Mbak Nur dan Pak Ade), administrasi laboratorium

(Pak Maman dan Pak Wawan), dapur lantai dua, dan perpustakaan (Bu

Tita dan Pak Kandayat) departemen Teknik Informatika yang bersedia

membantu.

7. Teman-teman seperjuangan angkatan 2007 yang tidak bisa disebutkan

satu persatu serta berbagai pihak yang telah membantu tesis ini.

viii

Penulis menyadari bahwa hasil tesis ini masih jauh dari sempurna. Oleh karena

itu, penulis mengharapkan saran dan masukan dari semua pihak untuk

penyempurnaan tesis ini. Akhir kata, penulis berharap semoga Laporan Tesis ini

dapat bermanfaat bagi penulis, pembaca, dan semua pihak yang terkait.

Bandung, 20 Juni 2009

Penulis

ix

DAFTAR ISI

BAB I PENDAHULUAN...............................................................................I-1

I.1 Latar Belakang ..........................................................................I-1

I.2 Rumusan Masalah .....................................................................I-3

I.3 Tujuan .......................................................................................I-3

I.4 Ruang Lingkup..........................................................................I-3

I.5 Batasan Masalah .......................................................................I-4

I.6 Metode Penelitian .....................................................................I-4

I.7 Sistematika Pembahasan ...........................................................I-5

BAB II TINJAUAN PUSTAKA.................................................................... II-1

II.1 Model-model Pola Tata Bahasa .............................................. II-1

II.2 Penelitian mengenai Pengurai (parser)................................... II-5

II.2.1 Perhitungan Probabilitas Aturan Produksi ......................... II-11

II.2.1.1 Model 1............................................................................ II-12

II.2.1.2 Model 2............................................................................ II-14

II.2.1.3 Model 3............................................................................ II-15

II.2.2 Perhitungan Probabilitas Setiap Pohon .............................. II-18

II.3 Penelitian Mengenai Pembangkitan Pola Tata Bahasa

dengan Pendekatan Probabilistik (Probabilistic Parsing) ..... II-18

II.4 Rangkuman Tinjauan Pustaka............................................... II-20

BAB III PENYESUAIAN PENGURAI COLLINS UNTUK BAHASA

INDONESIA...................................................................................................... III-1

III.1 Analisis Proses ...................................................................... III-1

III.1.1 Penyesuaian Kumpulan File Masukan Pengurai Collins

untuk Bahasa Indonesia...................................................... III-6

III.1.1.1 Penyesuaian File Treebank untuk Membuat

File Events....................................................................... III-6

III.1.1.2 Penyesuaian File Korpus................................................. III-8

III.1.1.3 Penyesuaian File Grammar ............................................. III-9

III.1.1.4 Penyesuaian File Simbol Non-terminal ........................ III-10

III.1.1.5 Penyesuaian File Leksikon ........................................... III-11

x

III.1.2 Penentuan Jenis Kata (Part of Speech Tagging) .............. III-11

BAB IV PENENTUAN JENIS KATA (PART OF SPEECH TAGGING)

UNTUK BAHASA INDONESIA ..................................................................... IV-1

IV.1 Leksikon/Kamus ................................................................... IV-2

IV.2 Morfologi Tata Bahasa Indonesia ......................................... IV-4

IV.2.1 Jenis Kata ........................................................................... IV-4

IV.2.2 Imbuhan ............................................................................. IV-6

IV.2.3 Pengulangan Kata .............................................................. IV-7

IV.2.4 Proses Pemeriksaan Imbuhan ............................................ IV-8

IV.3 Prediksi Jenis Kata dengan Metode Bigram ....................... IV-10

BAB V PENGUJIAN..................................................................................... V-1

V.1 Tujuan Pengujian .................................................................... V-1

V.2 Perancangan Pengujian ........................................................... V-1

V.2.1 Hasil dan Analisis Pengujian................................................ V-3

BAB VI PENUTUP........................................................................................VI-1

VI.1 Kesimpulan ...........................................................................VI-1

VI.2 Saran .....................................................................................VI-1

xi

DAFTAR GAMBAR Gambar II-1 Contoh Pohon pada Collins parser .............................................. II-10

Gambar II-2 Parameter Jarak ............................................................................ II-13

Gambar II-3 Pohon Model 3 ............................................................................. II-17

Gambar III-1 Keterkaitan Antar File Masukan pada Pengurai Collins ............. III-4

Gambar III-2 Arsitektur Global Proses Awal Pengurai Collins

untuk Membuat file Events, file Grammar, file Leksikon

format Collins (Menu 1) ............................................................ III-5

Gambar III-3 Arsitektur Global Proses Awal Pengurai Collins

untuk Membuat file korpus dengan Format Pengurai Collins

(Menu 2)..................................................................................... III-5

Gambar III-4 Contoh Pohon Kalimat dalam Bahasa Indonesia......................... III-9

Gambar IV-1 Proses Penentuan Jenis Kata........................................................ IV-1

Gambar IV-2 Proses Memperkaya Kamus ........................................................ IV-4

Gambar IV-3. Urutan Proses Prediksi Jenis Kata dengan Morfologi .............. IV-10

Gambar IV-4 Urutan Proses Prediksi Jenis Kata dengan Metode Bigram ...... IV-13

xii

DAFTAR TABEL Tabel III-1 Perbedaan Bahasa Indonesia dan Bahasa Inggris ............................ III-2

Tabel III-2 Contoh Isi Treebank ........................................................................ III-7

Tabel III-3 Contoh Isi File Events untuk Sebuah Kalimat................................. III-7

Tabel III-4 Contoh File Korpus untuk Satu Kalimat ......................................... III-9

Tabel III-5 Contoh Penulisan Grammar........................................................... III-10

Tabel IV-1 Penamaan Jenis Kata yang Digunakan............................................ IV-5

Tabel IV-2 Simbol Non Terminal ...................................................................... IV-6

Tabel IV-3 Aturan Imbuhan [21] ....................................................................... IV-7

Tabel IV-4 Aturan Pengulangan Kata Berimbuhan ........................................... IV-8

Tabel V-1 Kalimat ke-4 Kelompok ke-2 yang Tidak Berhasil Diuraikan .......... V-3

Tabel V-2 Proses Penguraian Kalimat ke-4 Kelompok ke-2 .............................. V-4

Tabel V-3 Proses Penguraian Kalimat ke-2 Kelompok ke-2 .............................. V-5

xiii

DAFTAR LAMPIRAN

Lampiran 1 Jenis Kata Dalam Bahasa Indonesia [21] .....................................L-1.1

Lampiran 2 Awalan dalam Bahasa Indonesia [21] ..........................................L-2.1

Lampiran 3 Akhiran dalam Bahasa Indonesia [21]..........................................L-3.1

Lampiran 4 Konfiks dalam Bahasa Indonesia [21]..........................................L-4.1

Lampiran 5 Aturan Imbuhan dalam Bahasa Indonesia [21] ............................L-5.1

Lampiran 6 Hasil Pengujian..............................................................................L-6.1

Lampiran 7 Aturan Grammar Hasil Pembangkitan Pemrosesan Awal

(preprocessing) dan Aturan Grammar yang Digunakan .............L-7.1

Lampiran 8 Kalimat dalam File Korpus ...........................................................L-8.1

Lampiran 9 Hasil Generasi Events....................................................................L-9.1

Lampiran 10 Contoh File Treebank Berbahasa Indonesia..............................L-10.1

Lampiran 11 Contoh File Leksikon ................................................................L-11.1

Lampiran 12 Contoh File Simbol Non-terminal.............................................L-12.1

Lampiran 13 Penjelasan Teknis Struktur Data yang Digunakan pada

Pemrosesan Awal (preprocessing): Struktur Grammar .............L-13.1


Pemrosesan Awal (preprocessing): Struktur Morfologi ............L-14.1


Pemrosesan Awal (preprocessing): Struktur Pohon/Tree ..........L-15.1

Lampiran 16 Cara Penggunaan Program ........................................................L-16.1

Lampiran 17 Algoritma Chart Pengurai Collins .............................................L-17.1

.

.

xiv

DAFTAR ISTILAH

Istilah Pengertian/Keterangan corpus kumpulan dokumen yang berisi kalimat beserta

jenis katanya, misal Ayah NN mencangkul VB tanah NN . PU

model pola tata bahasa kumpulan pola tata bahasa pengurai Collins (Collins parser)

pengurai hasil dari penelitian Michael Collins; hasil disertasi Michael Collins

pohon pola tata bahasa satu atau lebih pola tata bahasa yang membentuk suatu pohon

pola tata bahasa aturan bahasa (aturan poduksi) seperti S → NN VB NN

tata bahasa grammar; representasi bahasa treebank dokumen atau file yang berisi pohon kalimat

I-1

BAB I PENDAHULUAN

I.1 Latar Belakang

Pola tata bahasa memiliki manfaat dalam pemrosesan bahasa alami. Pemrosesan

bahasa alami berawal dari keinginan manusia untuk berkomunikasi dengan

komputer menggunakan bahasa manusia. Untuk memahami makna bahasa

manusia dengan benar maka komputer perlu mengetahui tata bahasa manusia.

Perangkat untuk memahami pola tata bahasa alami inilah yang disebut pengurai

(parser). Pengurai akan membentuk pohon pola tata bahasa sehingga dapat

disimpulkan dimana inti dari sebuah kalimat berbahasa manusia.

Selama ini penelitian yang banyak dilakukan menggunakan bahasa Inggris. Oleh

karena itu di dalam tesis ini akan dibuat sebuah sistem yang melakukan proses

penguraian kalimat untuk bahasa Indonesia dengan pendekatan probabilistik

(probabilistic parsing). Pemrosesan yang dilakukan pada tesis ini secara garis

besar adalah melakukan pemrosesan awal (preprocessing) untuk menyesuaikan

masukan dari sebuah pengurai (parser) hasil disertasi milik Michael Collins [12].

Pengurai Collins merupakan pengurai yang memiliki lisensi GNU (open source).

Pengurai Collins dianggap sebagai pengurai berbasis statistik yang cukup cepat

pemrosesannya dan pada setiap level pohon memiliki kepala kata. Pengurai

Collins dibuat untuk bahasa Inggris. Oleh karena itu diperlukan adanya

pemrosesan awal untuk menghasilkan beberapa file masukan dengan format file

masukan pengurai Collins dengan bahasa Indonesia. Selain itu pekerjaan

menyesuaikan beberapa bagian pada pengurai Collins juga perlu dilakukan pada

tesis ini agar benar-benar dapat digunakan untuk bahasa Indonesia.

I-2

Sebelumnya telah dilakukan beberapa penelitian mengenai topik tesis ini untuk

bahasa Czech yang dibuat oleh Michael Collins, Jan Hajic dan beberapa rekannya

[13]. Pembentukan pola tata bahasa untuk bahasa Inggris menggunakan metode

probabilistik telah dibahas pada buku karangan Daniel Jurafsky dan James H.

Martin terbitan tahun 2000 [17]. Pada buku tersebut penguraian dengan metode

probabilistik (probabilistic parsing) digunakan untuk memilih pohon-pohon pola

tata bahasa terbaik yang dibangkitkan dari teks masukan berisi kumpulan kalimat

dalam bahasa Inggris. Pembangkitan pohon pola tata bahasa juga digunakan untuk

membangkitkan pola tata bahasa Melayu Malaysia sebagai jenis bahasa yang

serumpun dengan bahasa Indonesia [3]. Pada Penelitian tersebut pola tata bahasa

telah didefinisikan dan pendefinisian fungsi nilai digunakan untuk memilih pohon

yang terbaik dari pohon-pohon pola tata bahasa yang mungkin. Sebelumnya telah

ada penelitian mengenai pengurai dengan metode probabilistik yang dilakukan

oleh Ria Hari Gusmita dan Ruli Manurung [14]. Dalam penelitian tersebut

digunakan sebuah perangkat PC-PATR. Sampai saat ini belum ada paper atau

penelitian yang dipublikasikan secara resmi (telah mengikuti seminar paper)

mengenai pengurai dengan metode statistik untuk bahasa Indonesia menggunakan

pengurai Collins. Penelitian-penelitian yang mendukung pemrosesan dalam tesis

ini juga telah dilakukan oleh Jelita Asian dengan tesisnya mengenai pemrosesan

temu balik informasi bahasa Indonesia [2]. Representasi pohon pola tata bahasa

dengan menggunakan probabilistic context-free grammar (PCFG) juga telah

dibahas pada paper Mark Johnson [16].

Dari tesis ini, nantinya di masa depan dapat menjadi bagian dari sebuah sistem

pemrosesan bahasa alami untuk bahasa Indonesia. Pekerjaan yang harus dilakukan

selanjutnya setelah tesis ini adalah membuat komponen fungsi-fungsi lain yang

belum diimplementasikan dan mendukung sebuah sistem pemrosesan bahasa

alami untuk bahasa Indonesia. Sehingga bangsa ini nantinya akan memiliki

sebuah mesin pemrosesan bahasa alami untuk bahasa Indonesia.

I-3

I.2 Rumusan Masalah

Rumusan masalah dalam tesis ini adalah sebagai berikut:

1. Bagaimana melakukan penyesuaian kumpulan file masukan dari pengurai

Collins dengan bahasa Indonesia,

2. Bagaimana melakukan penentuan jenis kata (POS tagging) untuk bahasa

Indonesia guna mendukung pemrosesan awal.

3. Bagaimana kinerja pengurai Collins setelah menerima masukan kumpulan

file hasil pemrosesan awal (apakah sudah cukup mampu

merepresentasikan pola tata bahasa Indonesia).

I.3 Tujuan

Tujuan dari tesis ini adalah sebagai berikut:

1. Mengimplementasikan pemrosesan awal kumpulan file masukan dari

pengurai Collins menggunakan contoh-contoh teks yang berisi kumpulan

kalimat berbahasa Indonesia; modul pemrosesan awal pengurai Collins

akan diimplementasikan dalam sebuah program,

2. Mengimplementasikan POS tagging untuk bahasa Indonesia guna

mendukung pemrosesan awal.

3. Melakukan evaluasi kinerja model pola tata bahasa yang dihasilkan;

hasil model pola tata bahasa akan dievalusi kinerjanya, apakah sudah

sesuai dengan pola tata bahasa Indonesia baku.

I.4 Ruang Lingkup

Pekerjaan yang dilakukan dalam tesis ini yang akan dilaksanakan oleh penulis

adalah:

1. Mengimplementasikan pemrosesan awal (preprocessing) dan penentuang

jenis kata (POS tagging) untuk mempersiapkan kumpulan file masukan

dari pengurai Collins dari file teks yang berisi kumpulan kalimat berbahasa

Indonesia,

2. Melakukan pengujian terhadap pengurai Collins guna mengetahui kinerja

pengurai Collins untuk bahasa Indonesia.

I-4

I.5 Batasan Masalah

Batasan-batasan pada tesis ini adalah:

1. Proses-proses yang dilakukan untuk pemrosesan awal (preprocessing) dan

penentuan jenis kata (POS tagging) menggunakan jenis kalimat berbahasa

Indonesia tanpa melibatkan ahli bahasa,

2. Tidak semua aturan grammar (tata bahasa) bahasa Indonesia dipakai

dalam tesis ini.

3. Permasalahan ambiguitas penguraian kalimat tidak diujikan pada tesis ini.

I.6 Metode Penelitian

Tesis yang dilakukan adalah berupa penelitian dan membuat pemrosesan awal

pengurai Collins untuk bahasa Indonesia. Metode yang dipergunakan dalam Tesis

ini adalah sebagai berikut:

1. Studi literatur yang berkaitan dengan:

a. Penguraian dengan metode probabilistik (probabilistic parsing),

digunakan untuk pembangkitan pohon-pohon pola tata bahasa,

kemudian memilih yang terbaik dari pohon-pohon yang

dibangkitkan untuk setiap kalimat. Setiap kalimat dapat

menghasilkan lebih dari satu pohon pola tata bahasa (struktur

kalimat) pada setiap proses pembangkitan,

b. Tata penulisan bahasa Indonesia yang terkait dengan penguraian

probabilistik untuk bahasa Indonesia,

seperti kaidah makna imbuhan dan kata dasar agar diketahui jenis

kata yang digunakan untuk membentuk model pola tata bahasa,

c. Penelitian-penelitian terkait pemrosesan temu balik informasi

bahasa Indonesia dan tesis ini,

misalnya mengenai pemrosesan awal bagaimana sebuah kalimat

dapat dibangkitkan pohon pola tata bahasanya dengan

menggunakan pengurai Collins (meliputi proses penguraian

kalimat sesuai kaidah bahasa Indonesia, proses penguraian kalimat

I-5

menjadi kumpulan kata, proses penentuan jenis kata, dan proses

pembentukan pohon atau model pola tata bahasa),

2. Analisis masalah,

menganalisa proses-proses apa saja beserta cara kerjanya yang dibutuhkan

untuk penguraian kalimat,

3. Implementasi metode dan algoritma untuk memodelkan pola tata bahasa

Indonesia dari contoh-contoh teks yang berisi kumpulan kalimat berbahasa

Indonesia,

4. Pengujian hasil implementasi metode dan algoritma untuk memodelkan

pola tata bahasa Indonesia dengan menggunakan beberapa contoh teks

yang terdiri dari kumpulan kalimat berbahasa Indonesia,

5. Evaluasi dan penarikan kesimpulan,

evaluasi kinerja pengurai Collins untuk bahasa Indonesia dan penarikan

kesimpulan sebagai hasil dari penelitian yang dilakukan dalam tesis ini.

I.7 Sistematika Pembahasan

Laporan tesis ini berisi beberapa bab yang terdiri dari Pendahuluan, Tinjauan

Pustaka, Penyesuaian Pengurai Collins untuk Bahasa Indonesia, Penentuan Jenis

Kata (Part of Speech Tagging) untuk Bahasa Indonesia, Pengujian, dan Penutup.

Penjelasan untuk tiap bab tersebut adalah sebagai berikut:

1. Bab Pendahuluan berisi penjelasan mengenai latar belakang ide judul,

rumusan masalah, tujuan, ruang lingkup, batasan masalah, metodologi, dan

sistematika pembahasan. Bab ini bertujuan untuk memudahkan pemanfaatan

laporan tesis ini.

2. Bab Tinjauan Pustaka berisi bahasan penelitian-penelitian yang pernah

dilakukan oleh orang lain sebelumnya dan berkaitan dengan topik tesis ini.

3. Bab Penyesuaian Pengurai Collins untuk Bahasa Indonesia berisi analisis

sistem pemrosesan awal (preprocessing) untuk menyesuaikan kumpulan file

masukan pada pengurai Collins. Bab ini bertujuan untuk mempermudah

memahami proses apa saja yang akan diimplementasikan.

4. Bab Penentuan Jenis Kata (Part of Speech Tagging) untuk Bahasa Indonesia

berisi analisis proses penentuan jenis kata (part of speech tagging) pada

I-6

bahasa Indonesia yang mendukung sistem pemrosesan awal (preprocessing)

pada tesis ini.

5. Bab Pengujian berisi implementasi pengujian beserta hasil dan analisis hasil

pengujian perangkat lunak.

6. Bab Penutup berisi kesimpulan hasil tesis ini dan saran untuk kedepannya

yang terkait tesis ini.

II-1

BAB II TINJAUAN PUSTAKA

Bab ini membahas hal-hal apa saja yang pernah dilakukan sebelumnya mengenai

model-model pola tata bahasa, pengurai (parser) untuk bahasa lain, dan

pembangkitan pola tata bahasa khususnya yang menggunakan pendekatan

probabilistik untuk bahasa lain. Penelitian mengenai pengurai dengan metode

probabilistik untuk bahasa Indonesia belum ditemukan oleh penulis. Penelitian-

penelitian yang dibahas pada bab ini dibagi menjadi tiga kelompok besar yaitu

penelitian mengenai model-model pola tata bahasa, pengurai (parser), dan

pembangkitan pola tata bahasa dengan pendekatan probabilistik. Penelitian

mengenai model-model pola tata bahasa perlu dibahas agar diketahui model pola

tata bahasa apa saja yang telah dibuat oleh orang lain. Penelitian mengenai

pengurai (parser) perlu dibahas agar diketahui model-model pengurai (parser)

yang telah dikembangkan beserta keuntungan dan kelemahannya. Penelitian

mengenai pembangkitan pola tata bahasa dengan pendekatan probabilistik disini

agar diketahui metode-metode yang digunakan.

II.1 Model-model Pola Tata Bahasa

Grammar (tata bahasa) sering dianggap sebagai sebuah jalan alternatif untuk

menspesifikasikan bahasa. Grammar secara teknis merupakan sebuah alat untuk

merepresentasikan sebuah bahasa. Grammar untuk bahasa reguler atau ekspresi

reguler disebut dengan regular grammar [19]. Sebuah regular grammar terdiri

dari empat parameter (4-tuple) yaitu kumpulan simbol non-terminal, kumpulan

simbol terminal, kumpulan aturan produksi, dan kumpulan simbol awal [19].

Grammar memiliki beberapa jenis. Grammar yang berbasis struktur frase (phrase

structure) antara lain seperti context-free grammar (CFG) beserta turunannya dan

tree-grammar, sedangkan grammar berbasis struktur kebergantungan adalah

dependency grammar. Pola tata bahasa dapat dimodelkan dengan CFG. CFG juga

terdiri dari empat parameter (4-tuple) yaitu kumpulan simbol non-terminal,

kumpulan simbol terminal, kumpulan aturan produksi, dan kumpulan simbol

II-2

awal. Perbedaan antara regular grammar dan context-free grammar terletak pada

aturan yang diterapkan pada aturan produksinya [19].

Dalam perkembangannya, CFG dikembangkan menjadi lexicalized context-free

grammar (LCFG) untuk keperluan representasi pohon pola tata bahasa. Hal ini

karena CFG tidak dapat mengakomodasi perlunya fungsi leksikal (aturan seperti

kata benda, kata kerja, kata sifat, dan lain-lain (jenis kata)) dalam membentuk

pohon pola tata bahasa. LCFG memiliki lima parameter (5-tuple) dimana tiga

parameter sama dengan CFG yaitu kumpulan simbol non-terminal, kumpulan

simbol terminal, dan kumpulan simbol awal ditambah dengan dua buah parameter

untuk merepresentasikan aturan produksi yang merepresentasikan pohon [19].

LCFG dikembangkan menjadi Stochastic Lexicalized Context-Free Grammar

(SLCFG) oleh Yves Schabes dan Richard C. Waters (1993) [23]. SLCFG

merupakan LCFG yang menambahkan komponen probabilitas untuk mengontrol

kombinasi pohon hasil dari proses penambahan simpul atau pergantian simpul.

SLCFG memilik sebelas parameter (11-tuple). Enam parameter tambahan SLCFG

merupakan probabilitas kemungkinan pertambahan dan perubahan yang dapat

terjadi pada pohon pada aturan produksi [21]. Kesimpulan dari penelitian ini

adalah bahwa SLCFG sangat bermanfaat sebagai alat pemrosesan bahasa alami

dimana perkiraan statistik atau prediksi dibutuhkan.

Pada perkembangannya, dibuat sebuah model CFG yang menambahkan

probabilitas pada aturan produksinya yang dikenal dengan Probabilistic Context-

Free Grammar (PCFG) atau dikenal juga dengan Stochastic Context-Free

Grammar (SCFG). Model PCFG memiliki lima buah parameter (5-tuple) yaitu

kumpulan simbol non-terminal, kumpulan simbol terminal, kumpulan aturan

produksi, kumpulan simbol awal, dan kumpulan probabilistik untuk aturan

produksinya. Perbedaan PCFG dengan CFG terletak pada penambahan

probabilitas pada setiap aturan produksi pada PCFG [17]. Perhitungan probabilitas

dapat menggunakan berbagai metode misalnya dengan menggunakan bigram

(keterkaitan dua buah elemen), atau trigram (keterkaitan tiga buah elemen). PCFG

(Probabilistic Context-Free Grammar)

II-3

PCFG (Probabilistic Context-Free Grammar) pada tesis ini digunakan untuk

representasi pohon. Aturan produksi pada PCFG digunakan sebagai sub pohon

(bagian-bagian yang membangun pohon). PCFG merupakan pengembangan dari

Context-Free Grammar (CFG). Sebuah CFG didefinisikan dengan empat buah

parameter (N, Σ, P, S) dimana:

N : kumpulan simbol non-terminal

Σ : kumpulan simbol terminal

P : kumpulan produksi, setiap bentuk α →β, dimana α adalah sebuah simbol

terminal dan β adalah string dari kumpulan string tak terbatas (Σ U N)*.

S : Simbol awal

Probabilistic context-free grammar menambah setiap aturan di dalam P dengan

sebuah kondisi probabilitas:

α → β [p] (II-1)

dimana [p] adalah probabilitas dari aturan produksi α → β.

Sebuah PCFG terdiri dari lima buah tuple yaitu G = (N, Σ, P, S, D), dimana D

adalah fungsi probabilitas yang dikenakan pada setiap aturan di P. Fungsi ini

merepresentasikan probabilitas p yang diberikan non-terminal α diekpansi ke β;

hal ini biasanya ditulis sebagai:

P(α→ β) atau P(α→β|α) (II-2)

Secara formal kondisi ini merupakan kondisi probabilitas yang dihasilkan dari

ekspansi di sisi kiri dari simbol non-terminal α.

Sebuah PCFG dapat digunakan untuk memperkirakan sebuah nilai probabiltas

yang berguna terkait dengan sebuah kalimat dan pohon hasil penguraian (parse-

tree). Probabilitas dari pohon hasil penguraian (parse-tree) T didefinisikan

sebagai produk probabilitas dari semua aturan r yang digunakan untuk

pembangkitan setiap simpul n dalam pohon hasil penguraian (parse-tree), S

II-4

adalah kalimat (sentence) sehingga hubungan antara pohon dan kalimat adalah

sebagai berikut:

P(T, S) = ∏∈Tn

p(r(n)) (II-3)

atau

P(T,S) = ∏=

n

i 1

P(RHSi|LHSi) (II-4)

dimana n adalah jumlah aturan produksi, i adalah aturan produksi ke-i dan 1 ≤ i ≤

n, aturan produksinya adalah LHSi → RHSi [12]. Hasil dari probabilitas P(T, S)

adalah gabungan probabilitas dari hasil penguraian (parse) dan kalimat dan juga

probabilitas dari pohon P(T). Pada mulanya

P(T, S) = P(T)P(S|T) = P(T) (II-5)

karena P(S|T) bernilai 1. Setiap kalimat yang dibangkitkan pohon pola tata

bahasanya dapat diambil probabilitas pohon yang terbaik, sehingga pohon terbaik

dapat dilihat sebagai berikut:

T (S) = argmax )(ST π∈ P(T) (II-6)

Kegunaan dari PCFG untuk pemodelan bahasa adalah dapat memberikan

probabilitas pada bagian kalimat [16]. Pada tesis ini PCFG digunakan sebagai

model representasi pohon pola tata bahasa menggunakan aturan produksinya.

Glen Carroll (1995) melakukan sebuah penelitian mengenai pembelajaran tata

bahasa probabilistik untuk pemodelan bahasa [10]. Penelitian ini fokus pada

bahasa Inggris. Model yang digunakan dalam penelitian ini adalah PCFG

(probabilistic context-free grammar). Dalam penelitian ini PCFG didefinisikan

sebagai context-free grammar biasa dengan kumpulan distribusi probabilitas

II-5

aturan-aturan. Penelitian ini menggunakan trigram untuk menghitung probabilistik

setiap kata. Sistem yang dibangun pada penelitian ini diberi nama SINGER

(Single Reader) yang merefleksikan bahwa kalimat dibaca berdasarkan aturan.

Secara umum cara kerja sistem ini adalah sebagai berikut:

• Didefinisikan aturan-aturan yang diterima. PCFG yang digunakan untuk

membangun aturan-aturan,

• Melakukan perhitungan probabilitas per aturan PCFG dengan melihat

probabilitas simpul orang tua di atasnya.

Penelitian ini menghasilkan model grammar tambahan yang cukup besar. Perlu

adanya perbaikan lebih lanjut pada model grammar pada penelitian ini sehingga

performansi dan hasil dapat terus ditingkatkan kualitasnya.

Mark Johnson (1998) melakukan penelitian mengenai model PCFG (Probabilistic

Context-Free Grammar) untuk representasi pohon pola tata bahasa [16].

Penelitian ini mencoba menggunakan PCFG sebagai model pola tata bahasa

Inggris. Masukan dari sistem yang diimplementasikan adalah teks yang berisi

kumpulan kalimat. PCFG digunakan untuk membangkitkan pohon pola tata

bahasa per kalimat. Dalam penelitian ini model dengan PCFG dibandingkan

dengan beberapa model pola tata bahasa lainnya. Penulis penelitian ini

menyimpulkan bahwa perbedaan representasi pohon pola tata bahasa dengan

menggunakan PCFG dapat menimbulkan perbedaan performansi. PCFG cukup

baik digunakan sebagai representasi pohon pola tata bahasa untuk berbagai kasus

secara umum.

II.2 Penelitian mengenai Pengurai (parser)

Pengurai (parser) dalam tesis ini merupakan pengurai kalimat yang digunakan

dalam pemrosesan bahasa alami. Fungsi pengurai (parser) pada tesis ini adalah

sebagai pengurai kalimat untuk membuat pohon pola tata bahasanya dari teks

masukan yang berisi kumpulan kalimat (corpus) berbahasa Indonesia. Pengurai

(parser) pada tesis ini menggunakan aturan grammar untuk membangkitkan

pohon pola tata bahasa dari setiap kalimat, sedangkan proses penguraian (parsing)

II-6

merupakan proses yang mengubah kalimat menjadi model pola tata bahasa.

Pengurai (parser) yang baik harus memenuhi hal-hal berikut:

• Dapat menangani ambiguitas dari parse-tree,

• Dapat menangani kalimat yang keluar dari domain,

• Menggunakan sumber daya (resources) seperti grammar, atau treebank,

• Efisien, terutama pada kecepatan performansi,

• Dapat ditelusuri hasilnya.

Pengurai (parser) memiliki beberapa jenis. Pengurai (parser) berdasarkan jenis

hasil parser-tree adalah phrase structure parser dan depedency structure parser.

Jenis pengurai (parser) jika dilihat dari penggunaan statistik atau tidak maka ada

statistical parser dan ruled-based parser.

Parse-tree merupakan struktur pohon yang dihasilkan oleh pengurai (parser).

Parser-tree dibagi menjadi dua buah jenis yaitu stuktur frase (phrase structure)

dan struktur kebergantungan (dependency structure). Parse-tree berbasis struktur

frase merupakan parse-tree yang dibangun dengan mempertimbangkan

keterkaitan kata satu dengan lainnya yang berdekatan (frase) sedangkan parse-tree

berbasis struktur kebergantungan merupakan parse-tree yang dibangun tanpa

mempertimbangakan posisi yang berdekatan dari tiap kata, tapi berdasarkan

kombinasi dua buah kata yang ada dalam kalimat.

Algoritma yang digunakan untuk proses penguraian (parsing algorithm) banyak

digunakan adalah sebagai berikut:

• Algoritma top-down;

proses penguraian diawali dari akar pohon lalu diteruskan sampai ke daun,

kelemahan dari algoritma ini adalah kurang efisien untuk pembangkitan

pohon kalimat yang tidak sesuai dengan kalimat masukan (salah

membangkitkan ketika sampai pada level tertentu),

• Algoritm bottom-up

proses penguraian diawali dari daun yaitu kata-kata dari kalimat kemudian

diproses sampai ke akar daun.

II-7

• Algoritma kombinasi top-down dengan bottom-up;

karena masalah yang dihadapi adalah pembangkitan pohon yang kurang

efisien maka muncul algoritma kombinasi top-down dan bottom-up

dimana pohon dibangkitkan dari akar pohon, tapi dengan melihat kata-kata

(simpul daun) dari kalimat masukan (untuk filter).

Dari ketiga jenis algoritma di atas, masih ditemukan masalah yang timbul yaitu

adanya aturan produksi yang bersifat rekursif, ambiguitas, pengulangan proses

penguraian untuk sub pohon. Untuk mengatasi permasalahan yang timbul

digunakan dynamic programming. Dynamic programming membagi-bagi masalah

menjadi permasalahan yang lebih kecil untuk diselesaikan. Algoritma yang

menggunakan dynamic programming untuk proses penguraian menggunakan

CFG adalah sebagai berikut:

• Algoritma Early;

menggunakan pencarian secara top-down, melakukan penelusuran dari

kanan ke kiri untuk menentukan pohon parsial,

• Algoritma Cocke-Younger-Kasami (CYK);

algoritma CYK merupakan algoritma parsing yang masuk pada jenis

parsing bottom-up, algoritma CYK mengisi array probabilitas dengan

proses induksi,

• Algortima Graham-Harrizon-Ruzzo (GHR);

menggunakan struktur data yang mirip dengan algoritma CYK, tapi

dengan komputasi mirip dengan algoritma Early

Salah satu penelitian mengenai pengurai dilakukan oleh Eugene Charniak.

Pengurai (parser) yang dibangun oleh Charniak (1997) [7] adalah pengurai

(parser) untuk bahasa Inggris dan menggunakan treebank (kumpulan pohon pola

tata bahasa) untuk membangun sistem pengurai (parser). Penelitian Charniak ini

sering disebut dengan parser (pengurai) menggunakan PCFG yang bersifat

leksikal (dari kamus). Algoritma yang digunakan digolongkan dengan algoritma

chart parser (pengurai) dimana setiap elemen kalimat dipilih berdasarkan chart

untuk menjadi simpul pohon. Parser (pengurai) pada penelitian ini termasuk pada

II-8

parser (pengurai) bottom-up. Setiap kata pada kalimat akan dianggap sebagai

daun pohon, dari setiap daun pohon itu akan disimpulkan apa jenis simpul orang

tuanya, demikian terus keatas sampai ditemukan kepala kalimat. Perhitungan

probabilitas setiap kata berdasarkan distribusi kata itu jika digunakan bersama

kata lain setelahnya di dalam kalimat. Dari segi performansi, parser (pengurai)

dalam penelitian ini lumayan baik.

Berikutnya Charniak melakukan penelitian mengenai parser (pengurai) dengan

Menggunakan Entropi Maksimum (2000) [8]. Ide yang digunakan pada penelitian

ini mirip dengan penggunaan algoritma pohon pengambilan keputusan (decision

tree). Algoritma parser (pengurai) yang digunakan adalah jenis top-down dimana

pada setiap simpul yang dibangkitkan dari atas ke bawah dihitung entropi

kemungkinan setiap jabatan kata dalam kalimat untuk dipilih menjadi simpul

pohon. Dari hasil kesimpulan keakurasian penelitian ini masih sekitar delapan

puluhan persen sehingga masih dibutuhkan perbaikan lebih lanjut.

Penelitian mengenai parser juga dilakukan oleh Michael Collins (1996) [11].

Penelitian ini mengenai parser (pengurai) berbasis statistik pada ketergantungan

bigram leksikal. Penelitian ini mendeskripsikan sebuah parser (pengurai) berbasis

statistik. Perhitungan probabilitas pada bigram merupakan probabilitas dari dua

buah kata yang memiliki ketergantungan dari dua buah kata. Perhitungan bigram

pada penelitian ini dihitung berdasarkan tag (jenis kata) antara dua buah kata yang

saling memiliki ketergantungan (berdekatan). Hasil perhitungan bigram akan

digunakan untuk menghitung probabilitas pohon yang dibangkitkan. Dari segi

performansi penelitian ini dianggap cukup baik karena dari eksperimen

pemrosesan 40.000 kalimat hanya memakan waktu lima belas menit. Akurasi

hasil yang dihasilkan berkisar antara delapan puluh hingga sembilan puluh persen.

Berikutnya Collins juga melakukan penelitian mengenai penguraian (parsing)

bahasa alami dengan model statistik berbasis head-driven (1999) [12]. Collins

membangun sistem penguraian (parsing) dengan membangkitkan simpul setiap

pohon menggunakan probabilitas grammar. Setiap membangkitkan simpul yang

II-9

baru maka metode head-finder akan dijalankan untuk menentukan simpul yang

baru. Metode yang digunakan adalah melakukan penelusuran untuk setiap simpul

yang akan dibangkitkan. Algoritma penguraian (parsing) yang digunakan adalah

algoritma chart. Hasil dari tesis ini dievaluasi per bagian kerja sistem, beberapa

bagian memiliki akurasi sekitar sembilan puluhan persen, tapi di lain bagian ada

yang memiliki akurasi sekitar tujuh puluhan persen. Tesis ini nantinya akan

mengambil modul-modul pada pengurai Collins dengan beberapa perubahan agar

dapat digunakan untuk bahasa Indonesia. Pengurai Collins merupakan pengurai

dengan metode statistik yang memiliki kecepatan pemrosesan yang baik dan

memiliki akurasi yang lebih baik dibandingkan pengurai dengan metode statistik

yang lainnya.

Penelitian mengenai model penguraian (parsing) menggunakan metode statistik

dengan menggunakan ruang parameter dari leksikal generatif dilakukan oleh

Daniel M. Bikel (2004) [4]. Pada penelitian ini, probabilitas yang dihitung dari

setiap kata berupa bigram, tapi menggunakan parameter-parameter tertentu yang

merupakan ekstraksi makna dan jenis kata dalam kamus dari setiap kata.

Penelitian ini merupakan pengurai (parser) untuk bahasa Inggris dan Cina. Untuk

bahasa Inggris, penelitian ini menggunakan Penn treebank untuk membangkitkan

aturan sedangkan untuk bahasa Cina menggunakan aturan-aturan yang telah

didefinisikan pada penelitian Bikel sebelumnya dengan Chiang pada tahun 2000.

Penelitian ini lebih mengarah pada pembuatan sebuah kerangka kerja (framework)

untuk mesin pengurai (parser). Hasil sistem dari penelitian ini dianggap cukup

kompleks. Beberapa parameter yang diujicobakan memberikan akurasi yang baik,

tapi beberapa parameter juga memberikan akurasi yang rendah, dari sini dapat

diambil parameter mana yang berperan baik dalam sebuah pengurai (parser).

Collins parser juga pernah digunakan untuk bahasa czech dalam penelitian yang

dilakukan oleh Michael Collins, Jan Hajic, Lance Ramshaw dan Christoph

Tillmann dengan melakukan adaptasi dengan bahasa czech dari bahasa inggris

[13]. Penelitian tersebut menggunakan Prague treebank yang merupakan treebank

berbahasa Czech. Penelitian tersebut menggunakan pengurai Collins hanya

II-10

sebatas pada model 1. Penelitian tersebut sebenarnya bertujuan sama dengan

penelitian pada tesis ini, hanya saja pada tesis ini untuk bahasa Indonesia. Oleh

karena itu perlu dilakukan adaptasi dengan bahasa Indonesia dari bahasa Inggris.

Permasalahan yang paling sering adalah bagaimana menghitung probabilitas

aturan produksi agar menghasilkan nilai akurasi yang tinggi. Secara sederhana,

probabilitas dari sebuah aturan produksi α → β dapat didefinisikan sebagai

berikut:

P( β| α) = )(

)(α

βαjumlah

jumlah → (II-7)

dimana jumlah aturan dihitung dari model tata bahasa yang dibangkitkan dari

treebank. Sebuah PCFG dapat diberi sifat leksikal dengan mengasosiasikan kata

(w) dengan sebuah part-of-speech (POS) tag t dengan setiap simbol non terminal

α di sebuah pohon. Pada Collins parser sebuah simpul pohon ditulis dengan pola

X(x) dimana x = (w, t). Misal untuk kalimat “Last week IBM bought Lotus” maka

pohonnya dapat dilihat pada Gambar II-1.

Gambar II-1 Contoh Pohon pada Collins parser

TOP

S (bought, VBD)

NP (week, NN) NP (IBM, NNP) VP (bought, VBD)

JJ (Last, JJ) NN (week, NN) NNP (IBM, NNP)

IBM Last week

VBD(bought, VBD)

bought

NP (Lotus, NNP)

NNP (Lotus, NNP)

Lotus

II-11

Maka secara sederhana perhitungan probabilitas untuk S(bought, VBD) →

NP(week, NN) NP(IBM, NNP) VP(bought, VBD) adalah

P(NP(week, NN) NP(IBM, NNP) VP(bought, VBD) | S(bought, VBD)) =

jumlah S(bought, VBD) → NP(week, NN) NP(IBM, NNP) VP(bought, VBD) jumlah S(bought, VBD) (II-8)

Namun hasil perhitungan probabilitas di atas akan menyebabkan statistik bersifat

jarang; karena yang menjadi pembilang dapat bernilai sangat kecil atau bahkan

nol dan penyebutnya bisa jadi bernilai rendah. Oleh karena itu Collins

memaparkan tiga buah model perhitungan probabilitas aturan produksi yang telah

diperkenalkan sebelumnya oleh beberapa peneliti dan melakukan beberapa

perbaikan terhadap model yang ada [12]. Pengurai Collin mengakomodasi semua

model pada aplikasi yang dibuatnya sebagai perbandingan antar model dengan

variasi kumpulan dokumen (corpus) yang digunakan.

II.2.1 Perhitungan Probabilitas Aturan Produksi

Pada disertasi Michael Collins (1999) [12] membahas tiga buah model

probabilistik untuk penguraian (parsing) yang telah diperkenalkan sebelum

Collins melakukan disertasi. Pada disertasinya, Collins melakukan beberapa

perbaikan pada ketiga model yang sudah ada itu. Collins mengimplementasikan

semua model sebagai perbandingan. Dari hasil penelitian yang dilakukan Collins,

model 2 dan model 3 masih menghasilkan beberapa kalimat yang gagal diuraikan.

Hal tersebut kemungkinan karena kurangnya kalimat pada treebank yang

menggunakan tag khusus untuk model 2 dan 3. Dalam tesis ini hanya

mengimplementasikan model 1 dari pengurai Collins karena keterbatasan

treebank.

II-12

II.2.1.1 Model 1

Model 1 membagi pembuatan aturan produksi sisi kanan menjadi urutan langkah

yang sederhana. Pada PCFG yang memiliki pola standar maka aturan produksinya

memiliki pola sebagai berikut:

P(h) → Ln(ln)...L1(l1)H(h)R1(r1)...Rm(rm) (II-9)

H adalah kepala (head-child) dari anak aturan P (aturan produksi sisi kanan).

Ln(ln)...L1(l1) dan R1(r1)...Rm(rm) adalah sisi kiri dan kanan dari H. Simbol n dan m

dapat bernilai nol, dan n = m = 0 untuk aturan yang bersifat tunggal (hanya

memiliki kepala H). Pada model ini ditambahkan simbol terminasi yaitu STOP

dimana Ln+1 = Rm+1 = STOP. Sebagai contoh adalah aturan S(bought, VBD) ->

NP(week, NN) NP(IBM, NNP) VP(bought, VBD) maka:

n = 2 m = 0 P = S

H = VP L1 = NP L2 = NP

L3 = STOP R1 = STOP h = (bought, VBD)

l1 = (IBM, NNP) l2 = (week, NN)

Simbol STOP ini hanya akan masuk pada file events sebagai penanda bahwa

sebuah kalimat atau bagian kalimat telah diuraikan dengan benar, tapi tidak

dimasukkan sebagai model pola tata bahasa (grammar).

Pembangkitan aturan sisi kanan (child) dari aturan sisi kiri (parent) yang

diberikan dibagi menjadi tiga langkah berikut:

1. Membuat pilihan label kepala frase dengan probabilitas

Ph(H|P, h), (II-10)

2. Membuat sisi kiri kepala dengan probabilitas

∏+= 1...1 ni

Pl(Li(li)| P, h, H) (II-11)

II-13

dimana Ln+1(ln+1) = STOP, model akan berhenti membangkitkan sisi kiri

ketika simbol STOP dibangkitkan,

3. Membuat sisi kanan kepala dengan probabilitas

∏+= 1...1 ni

Pr(Ri(ri)| P, h, H) (II-12)

dimana Rm+1(rm+1) = STOP.

Sebagai contoh untuk aturan S(bought, VBD) → NP(week, NN) NP(IBM, NNP)

VP(bought, VBD) maka probabilitasnya adalah:

Ph(VP | S, bought) × Pl(NP(IBM) | S, VP, bought) × Pl(NP(week) | S, VP, bought)

× Pl(STOP | S, VP, bought) × Pr(STOP | S, V, bought) (II-13)

Collins memberikan tambahan parameter jarak pada model 1 yang secara opsional

dapat digunakan atau tidak. Jarak ditambahkan agar tidak terjadi dominasi oleh

bagian aturan (kepala, bagian kiri, atau bagian kanan). Jarak digunakan untuk

memperhatikan tata letak simbol terminal atau non-terminal pada aturan sisi

kanan. Jarak dapat dilihat pada Gambar II-2.

Gambar II-2 Parameter Jarak

P(h)

H(h) R1(r1) R2(r2) R3(r3)

h jarak

II-14

Parameter jarak dapat dimasukkan pada model dengan memodifikasi asumsi

saling lepas sehingga setiap sisi memiliki keterkaitan yang terbatas. Maka

persamaannya akan menjadi sebagai berikut:

Pl(Li(li) | H, P, h, Li(li)...Li-1(li-1)) = Pl(Li(li) | H, P, h, distancel(i-1)) (II-14)

dan

Pr(Ri(ri) | H, P, h, Ri(ri)...Ri-1(ri-1)) = Pr(Ri(ri) | H, P, h, distancer(i-1)) (II-15)

Perkiraan jarak adalah sebuah vektor yang memiliki dua elemen yaitu:

1. Banyaknya string yang digunakan (posisi string),

2. Ada atau tidaknya kata kerja yang digunakan untuk pembelajaran memilih

kata kerja yang paling banyak digunakan [12].

II.2.1.2 Model 2

Adanya pembedaan pelengkap/keterangan dan pengkategorian sub kalimat yang

menjadi pelengkap/keterangan sangat diperlukan. Namun pembedaan ini tidak

ditampilkan secara eksplisit pada pohon, hanya digunakan pada mesin pengurai

(parsing). Model ini mengakomodasi aturan-aturan pembedaan

pelengkap/keterangan pada kaidah tata bahasa yang digunakan. Untuk bahasa

Indonesia pelengkap dan keterangan bisa menjadi sebuah sub kalimat. Untuk

membedakan sub kalimat pelengkap/keterangan maka perlu adanya pembedaan

simbol non terminal untuk merepresentasikan sub kalimat dan komponen-

komponen di dalamnya. Pada pengurai Collins sebuah sub kalimat disimbolkan

dengan SBAR dan komponen-komponen di dalamnya diberi tambahan –C pada

simbol non terminalnya (hanya untuk keperluan history/events dan pemrosesan),

misalnya NP maka akan menjadi NP-C. Penambahan penanda ini dimaksudkan

agar sebuah simbol non terminal yang sudah ada di sisi kiri aturan tidak boleh

muncul lagi di sisi kanan aturan, misal S → S CC S maka kedua S tidak dapat

II-15

dianggap sebagai pelengkap/keterangan/sub kalimat dan dapat menyebabkan

perulangan tanpa henti.

Probabilitas dari model 1 dapat diubah sebagai berikut pada model 2:

1. Pilih kepala H dengan probabilitas Ph(H | P, h),

2. Pilih lingkup kategori kiri (LC) dan lingkup kategori kanan (RC) dengan

probabilitas Plc(LC | P, H, h) dan Prc(RC | P, H, h). Setiap sub kategori

adalah kumpulan aturan yang mungkin memiliki simbol non terminal yang

sama dan mespesifikasikan pelengkap.

3. Buat sisi kiri dan kanan dengan probabilitas Pi(Li(li) | H, P, h, jarak(i-1),

LC) dan Pi(Ri(ri) | H, P, h, jarak(i-1), RC).

Aturan yang ada di dalam kumpulan aturan pada langkah 2 akan dihapus begitu

diidentifikasi dan dijadikan aturan kategori pelengkap. Sebagai contoh

probabilitas dari aturan S(bought, VBD) → NP(week, NN) NP(IBM, NNP)

VP(bought, VBD) akan menjadi:

Ph(VP | S, bought) × Plc(NP-C(IBM) | S, VP, bought) × Prc({}|S, VP, bought) ×

Pl(NP-C(IBM) | S, VP, bought, {NP-C}) × Pl(NP(week) | S, VP, bought, {}) ×

Pl(STOP | S, VP, bought, {}) × Pr(STOP | S, V, bought, {}) (II-16)

Kepala akan diputuskan dari NP-C (subyek) tunggal pada bagian kiri dan tidak

ada pelengkap/keterangan pada bagian kanan. NP-C(IBM) dibangkitkan sebagai

subyek dan NP-C dihapus dari LC, kemudian NP(week) dibangkitkan.

II.2.1.3 Model 3

Model ini menghitung probabilitas dengan mempertimbangkan adanya lebih dari

satu sub kalimat dalam sebuah kalimat. Dalam bahasa Indonesia, pengkategorian

sub kalimat juga perlu dilakukan pada kalimat majemuk yang dipisahkan oleh

kata penghubung atau tanda koma. Permasalahan yang timbul adalah tidak semua

tanda koma memisahkan sub kalimat dan tidak semua kata hubung memisahkan

II-16

dua buah kalimat. Oleh karena itu, jika yang dipisahkan oleh koma atau kata

hubung hanya terdiri dari satu kata maka tidak dianggap sebagai sebuah sub

kalimat pada bagian yang memiliki satu kata.

Kalimat yang di dalamnya terdapat sekurang-kurangnya dua kalimat dasar dan

masing-masing dapat berdiri sebagai kalimat tunggal disebut kalimat majemuk

setara (koordinatif). Kalimat yang terdiri atas dua kalimat dasar dimana jika

kalimat dasar pertama ditiadakan, maka kalimat yang kedua masih bisa berdiri

sendiri sebagai kalimat mandiri. Demikian pula sebaliknya. Keduanya mempunyai

kedudukan yang sama. Itulah sebabnya kalimat itu disebut kalimat majemuk

setara [24]. Kalimat yang mengandung satu kalimat dasar yang merupakan inti

(utama) dan satu atau beberapa kalimat dasar yang berfungsi sebagai pengisi salah

satu unsur kalimat inti itu misalnya keterangan, subyek, atau obyek dapat disebut

sebagai kalimat majemuk bertingkat jika diantara kedua unsur itu digunakan

konjungtor. Konjungtor inilah yang membedakan kalimat majemuk bertingkat

dari kalimat majemuk setara. Kalimat majemuk bertingkat juga dapat berupa

kalimat tunggal yang mengalami perluasan sekurang-kurangnya pada salah satu

unsurnya misalnya pada unsur keterangan, subyek atau obyek. Elemen yang

berperan memperluas salah satu unsur kalimat ini merupakan anak kalimat dan

diawali oleh konjungtor yang atau kata penunjuk itu [24].

Model ini juga dapat digunakan untuk penanganan wh-movement dimana sebuah

kalimat dipisahkan oleh kata tanya, misal dalam bahasa Inggris sebagai berikut:

They didn't know which model that we had discussed

atau misal dalam bahasa Indonesia sebagai berikut:

Mereka tidak tahu model mana yang sedang kita diskusikan.

Model ini juga digunakan untuk menangani kalimat tanya sebagai salah satu

bagian dari wh-movement misal,

What does she believe?

maka kalimat di atas memiliki inti she believe dengan penambahan kata tanya

what.

II-17

Pengurai Collins menambahkan sebuah simbol TRACE yang merupakan tanda

berhenti melakukan pembagian sub pohon. Sebuah SBAR akan diberi penanda

+gap untuk menandakan orang tua dari TRACE (hanya akan disimpan sebagai

history agar kalimat diuraikan dengan benar). Misal untuk contoh kalimat “The

Store that IBM bought last week” maka pohon pola tata bahasanya akan mejadi

seperti pada Gambar II-3.

Gambar II-3 Pohon Model 3

Probabilitas untuk aturan VP(bought)(+gap) → VB(bought) TRACE NP(week)

adalah:

Ph(VB | VP, bought) × Pg(Right | VP, bought, VB) × Plc({}|VP, bought, VB) ×

Prc({NP-C}|VP, bought, VB) × Pr(TRACE | VP, bought, VB, {NP-C, +gap}) ×

Pr(NP(week) | VP, bought, VB, {}) × Pl(STOP | VP, bought, VB, {}) × Pr(STOP |

VP, bought, VB, {}) (II-17)

NP(Store)

NP(Store) SBAR(that)(+gap)

The store WHNP(that) S(bought)(+gap)

NP-C(IBM) VP(bought)(+gap)

TRACEVBD NP(week)

WDT

that

IBM

bought last week

II-18

II.2.2 Perhitungan Probabilitas Setiap Pohon

Sebuah kalimat sangat dimungkinkan memiliki model pola tata bahasa lebih dari

satu dan hal ini menyebabkan terjadinya ambigu. Oleh karena itu setiap model

pohon pola tata bahasa harus dihitung probabilitasnya untuk memilih pohon mana

yang terbaik. Sama dengan hasil penelitian yang dilakukan Daniel Jurafsky dan

James H. Martin, pada pengurai Collins pohon yang terbaik diambil dari

perhitungan berikut:

T (S) = argmax )(ST π∈ P(T) (II-18)

dimana

P(T) = P(T)P(S|T) = P(T, S) (II-19)

dan

P(T, S) = ∏∈Tn

p(r(n)) (II-20)

p(r(n)) adalah nilai probabilitas yang didapatkan dari model probabilitas pengurai

Collins [12].

II.3 Penelitian Mengenai Pembangkitan Pola Tata Bahasa dengan

Pendekatan Probabilistik (Probabilistic Parsing)

Penelitian mengenai teknik pembangkitan pola tata bahasa untuk ekstraksi relasi

pada bahasa Malaysia dilakukan oleh Mohd Juzaiddin Ab Aziz dkk (2006) [3].

Penelitian ini membahas mengenai pembangkitan pola tata bahasa melayu

Malaysia dari kalimat masukan berbahasa melayu Malaysia. Pada awalnya pola

tata bahasa didefinisikan dengan menggunakan aturan produksi CFG (Context-

Free Grammar). Pohon pola tata bahasa dibangkitkan dari kalimat masukan

berdasarkan aturan produksi CFG yang telah didefinisikan sebelumnya.

II-19

Permasalahan yang timbul adalah ambiguitas pohon yang dibangkitkan karena

pada penelitian ini tidak melibatkan komponen probabilitas. Keakurasian dalam

penelitian ini mencapai sekitar delapan puluhan persen. Jabatan kata bahasa

melayu Malaysia memiliki perbedaan dengan bahasa Indonesia. Beberapa arti

kata dalam bahasa melayu Malaysia juga berbeda dengan bahasa Indonesia

sehingga jabatan kata dalam kalimat pun menjadi berbeda. Oleh karena itu bahasa

melayu Malaysia tidak sama dengan bahasa Indonesia walaupun dikatakan

sebagai bahasa yang serumpun.

Penguraian (parsing) probabilistik adalah penguraian elemen pada pemrosesan

bahasa alami dengan menggunakan pendekatan probabilistik. Penelitian mengenai

penguraian (parsing) probabilistik dilakukan oleh Daniel Jurafsky dan James H.

Martin (2000) [17]. Penelitian ini juga menggunakan PCFG. Aturan produksi

PCFG didefinisikan terlebih dahulu. Setiap kalimat yang masuk ke sistem akan

dihitung probabilitas katanya berdasarkan distribusi kata. Nilai probabilitas ini

nanti digunakan untuk menghitung probabilitas pohon yang dibangkitkan

sehingga dapat dipilih pohon yang terbaik. Penelitian ini menggunakan algoritma

CYK (Cocke, Younger, Kasami). Algoritma CYK merupakan algoitma yang

efisien ketika digunakan untuk memproses struktur leksikal bahasa. Algoritma

CYK merupakan algoritma parsing yang masuk pada jenis parsing bottom-up.

Hasil penelitian ini cukup baik dan masih memerlukan perbaikan di masa

mendatang untuk mengurangi kesalahan yang ditimbulkan misal jika pemilihan

pohon dengan probabilitas menghasilkan nilai probabilitas yang sama untuk dua

atau lebih pohon, harus didefinisikan justifikasi lebih lanjut.

Penelitian yang dilakukan Ramon Lefuel dan Brian J. Ross (2004)

menggabungkan penguraian (parsing) probabilistik dengan algoritma genetik

[18]. Algoritma genetik digunakan untuk membangkitkan pohon pola tata bahasa

dari kalimat masukan. Model yang digunakan pada penelitian ini adalah PCFG.

Kromoson dalam penelitian ini merepresentasikan parse-tree. Fungsi fitness yang

digunakan adalah perhitungan probabilitas setiap parse-tree. Penelitian ini

membuktikan bahwa algoritma genetik juga dapat digunakan untuk melakukan

II-20

penguraian (parsing) probabilistik pada kalimat walaupun dari segi performansi

dianggap masih kurang efisien.

Penelitian yang sama dengan tesis ini juga pernah dilakukan oleh Ria Hari

Gusmita dan Ruli Manurung (2008) [14]. Penelitian tersebut menggunakan

perangkat PC-PATR. Penelitian tersebut juga melakukan adaptasi terhadap file

masukan perangkat PC-PATR agar dapat digunakan untuk bahasa Indonesia. PC-

PATR adalah perangkat membangkitkan pohon pola tata bahasa berdasarkan

aturan-aturan yang didefinisikan (rule based). PC-PATR dibuat untuk bahasa

Inggris. Kalimat berbahasa Indonesia yang berhasil diuraikan dari penelitian ini

adalah sekitar 58%.

II.4 Rangkuman Tinjauan Pustaka

Berbagai penelitian mengenai pemodelan pohon pola tata bahasa, parser

(pengurai), dan parsing probabilistik telah banyak dilakukan. Dalam bab ini

penulis hanya membahas penelitian-penelitian yang sekiranya dapat menjadi

acuan dalam tesis ini. Penelitian yang dibahas mengenai model pola tata bahasa

diawali dengan penelitian dari Yves Schabes dan Richard C. Waters (1993) [23].

Penelitian tersebut membahas Stochastic Lexicalized Contex-Free Grammar

(SLCFG) yang juga dikenal dengan Probabilistic Lexicalized Context-Free

Grammar (PLCFG). PLCFG merupakan model turunan PCFG. Glen Carrol

(1995) [10] melakukan penelitian mengenai pembelajaran tata bahasa

probabilistik untuk pemodelan bahasa dimana digunakan treebank untuk

membangkitkan aturan dan akan ditambah dengan aturan-aturan baru hasil dari

pembelajaran yang dilakukannya. Mark Johnson (1998) [16] mencoba membuat

model pola tata bahasa dengan menggunakan PCFG dan melakukan evaluasi

dengan model-model pohon pola tata bahasa yang telah ada saat itu.

Penelitian mengenai pengurai (parser) yang dibahas pada tesis ini dimulai dengan

penelitian yang dilakukan Eugene Charniak (1997) [7] yang membangkitkan pola

tata bahasa dengan model PCFG dan kamus leksikal. Charniak juga melakukan

penelitian mengenai sistem pengurai (parser) yang menggunakan perhitungan

II-21

entropi (2000) [8]. Penelitian selanjutnya yang dibahas adalah penelitian dari

Michael Collins (1996) [11] yang membuat sistem pengurai (parser) berbasis

statistik dengan menghitung ketergantungan kata menggunakan metode bigram.

Collins (1999) [12] juga melakukan penelitian membuat sebuah pengurai (parser)

berbasis head-driven. Daniel M. Bikel (2004) [4] melakukan penelitian mengenai

sebuah kerangka kerja pengurai (parser framework) yang menggunakan

parameter-parameter leksikal. Michael Collins juga melakukan penelitian

menggunakan pengurai hasil disertasinya [12] untuk bahasa Czech [13]. Tesis ini

juga melakukan adaptasi bahasa Indonesia untuk pengurai Collins seperti halnya

pengurai Collins untuk bahasa Czech.

Penelitian mengenai pembangkitan pola tata bahasa yang dibahas pada tesis ini

dimulai dengan penelitian mengenai pembangkitan pola tata bahasa yang

dilakukan oleh Ab Aziz dan kawan-kawan (2006) [3] untuk bahasa Malaysia.

Penelitian mengenai pembangkitan pola tata bahasa dengan pendekatan

probabilistik dilakukan oleh Daniel Jurafsky dan James H. Martin (2000) [17]

dimana penguraian (parsing) probabilistik digunakan untuk menangani

ambiguitas pohon-pohon yang dibangkitkan. Penelitian tersebut menggunakan

tata bahasa Inggris. Penelitian mengenai parsing probabilistik juga dilakukan oleh

Ramon Lefuel dan Brian J. Ross (2004) [18]. Penelitian tersebut menggunakan

algoritma genetik untuk penguraian (parsing) probabilistik pada kalimat.

Penelitian mengenai pengurai menggunakan metode statistik juga pernah

dilakukan oleh Ria Hari Gusmita dan Ruli Manurung (2008) [14]. Penelitian ini

menggunakan perangkat PC-PATR dengan mengadaptasi kumpulan file

masukannya. Kalimat berbahasa Indonesia yang berhasil diuraikan dari penelitian

ini adalah sekitar 58%.

III-1

BAB III PENYESUAIAN PENGURAI COLLINS UNTUK BAHASA

INDONESIA

Pada Bab III ini akan dijelaskan mengenai proses-proses yang diperlukan dalam

proses awal (preprocessing) membentuk file masukan untuk pengurai Collins.

Adaptasi ini dilakukan agar pengurai Collins dapat digunakan untuk bahasa

Indonesia. Adaptasi yang dilakukan antara lain penyesuaian terhadap kelima file

(file events, file grammar, file leksikon, file korpus, file simbol non-terminal)

masukan pengurai Collins.

III.1 Analisis Proses

Tesis ini mengacu pada penelitian Collins yang menggunakan pengurai hasil

disertasi Collins [12] untuk bahasa Czech. Tesis ini akan menggunakan pengurai

Collins untuk bahasa Indonesia. Tesis ini menggunakan pengurai Collins karena

disertasi beserta modul-modul programnya dapat diunduh (download) di website

Michael Collins (lisensi GNU (open source)). Hasil penelitian Collins juga telah

digunakan untuk bahasa lain selain bahasa Inggris (bahasa Czech) sehingga dapat

diasumsikan dapat digunakan untuk bahasa Indonesia. Kelebihan dari pengurai

Collins adalah metode head-finder yang digunakan. Metode tersebut memberikan

penanda kepala kata pada setiap level pohon sehingga dapat digunakan untuk

menandai inti frase. Selain itu pengurai Collins dianggap sebagai pengurai

berbasis statistik dengan kecepatan yang cukup baik dalam menguraikan kalimat.

Model pengurai Collins yang diimplementasikan pada tesis ini hanya model 1 dari

pengurai Collins. Modul-modul pada pengurai Collins meliputi modul-modul

untuk proses pembelajaran dan penguraian kalimat masukan dimana file events

sebagai data pembelajaran diambil dari Penn WSJ (Wall Street Journal) treebank.

Modul-modul yang digunakan juga akan menggunakan modul-modul pada

pengurai Collins, tapi dimodifikasi dan dibuat tambahan pemrosesan awal agar

dapat digunakan untuk bahasa Indonesia. Tesis ini akan membuat sebuah

III-2

pemrosesan awal untuk mempersiapkan kumpulan file masukan berbahasa

Indonesia untuk pengurai Collins.

Kalimat dalam bahasa Indonesia memiliki beberapa kesamaan dengan kalimat

dalam bahasa Inggris antara lain:

• Kalimat dapat memiliki sub kalimat berupa frase subyek, frase predikat,

frase obyek, frase keterangan, dan pelengkap,

• Memiliki pola tata bahasa inti yang sama yaitu S-P-O (subyek-predikat-

obyek).

Namun kedua bahasa ini juga memiliki beberapa perbedaan antara lain:

Tabel III-1 Perbedaan Bahasa Indonesia dan Bahasa Inggris

Bahasa Indonesia Bahasa Inggris

penggunaan kata tidak dipengaruhi

waktu kejadian

penggunaan kata dipengaruhi waktu

kejadian sehingga ada kata kerja bentuk

pertama, kedua, dan ketiga

tata bahasa tidak dipengaruhi waktu

kejadian

tata bahasa dipengaruhi waktu kejadian

pola frase adalah diterangkan

menerangkan (DM)

pola frase adalah menerangkan

diterangkan (MD)

tidak mengenal perubahan kata benda

dalam bentuk jamak dan tidak jamak

mengenal kata benda dalam bentuk

jamak dan tidak jamak

Proses yang dilakukan dalam tesis ini meliputi proses awal (preprocessing)

menyesuaikan kumpulan file masukan pada pengurai Collins dan proses pengujian

dengan mencoba menguraikan kalimat baru sebagai masukan. Input dari sistem

untuk proses pembelajaran adalah file treebank berbahasa Indonesia sedangkan

untuk pengujian, masukannya adalah file teks yang berisi kumpulan kalimat

(corpus) berbahasa Indonesia. Hasil keluaran pemrosesan awal pada tesis ini

kumpulan file yang akan menjadi masukan pengurai Collins.

III-3

Modul-modul pada Collins parser merupakan modul-modul untuk proses

pembelajaran dan pengujian. Kumpulan file masukan pengurai Collins adalah

sebagai berikut:

1. File events yang menyimpan hasil generasi events (kemungkinan

kebergantungan antar elemen dalam kalimat yang dibangkitkan secara

heuristic) dari Penn WSJ (Wall Street Journal) Treebank, file events ini

menggunakan format Collins, file ini digunakan untuk menghitung

probabilitas kemunculan kebergantungan antar simbol non-terminal

sebagai data pembelajaran, file events sebenarnya adalah treebank yang

dikemas menggunakan format events pengurai Collins,

2. File korpus yang berisi beberapa kalimat yang sudah memiliki tag,

kalimat-kalimat dalam file korpus inilah yang nantinya akan diuraikan

untuk proses pengujian,

3. File yang berisi pola tata bahasa dengan format Collins (grammar) sebagai

acuan aturan penguraian,

4. File yang berisi simbol-simbol non terminal yang digunakan,

5. File kamus (leksikon) untuk menentukan jenis kata (tag) (berisi kata, jenis

kata, dan bernilai 0 jika kata termasuk jarang digunakan, bernilai 1 jika

kata termasuk sering digunakan).

Pemrosesan awal (preprocessing) yang dilakukan pada tesis ini adalah melakukan

penyesuaian kelima file masukan pengurai Collins menggunakan bahasa

Indonesia.

Algoritma penguraian (parsing) yang digunakan pengurai Collins adalah bottom-

up chart parsing [12] untuk membentuk pohon pola tata bahasa. Algoritma

bottom up chart parsing yang digunakan diawali dengan memasukkan semua kata

dalam chart (tabel) untuk dihitung kemungkinan pembentukan pola tata

bahasanya antara kata yang satu dengan lainnya (menggunakan probabilitas). Dari

tabel kata tersebut maka dilakukan pemeriksaan probabilitas kemunculan aturan

grammar pada file grammar disesuaikan dengan tag kata (penjelasan algoritma

chart yang digunakan dapat dilihat pada Lampiran 16). File yang digunakan untuk

III-4

menghitung probabilitas aturan grammar adalah file events. Gambar keterkaitan

antar file masukan pada pengurai Collins dapat dilihat pada Gambar III-1.

Gambar III-1 Keterkaitan Antar File Masukan pada Pengurai Collins

Pemrosesan awal (preprocessing) yang dilakukan pada tesis ini meliputi dua buah

proses berikut:

1. Proses membuat file events dan membangkitkan aturan grammar dari file

yang berisi pohon kalimat berbahasa Indonesia, selain itu, kata yang tidak

ada di dalam leksikon (pada treebank) juga akan ditambahkan pada file

leksikon,

pengenalan dan pendeskripsian token dengan memeriksa tag kata apakah ada di daftar simbol non terminal

analisis leksikal

analisis sintaks

memeriksa kebenaran token dengan memeriksa apakah tag kata sudah benar dilihat dari leksikon

memeriksa setiap aturan grammar yang sesuai dengan korpus dan akan dihitung probabilitasnya dengan membaca file events untuk membentuk pohon pola tata bahasa

pohon pola tata bahasa

pengurai Collins

file korpus

file simbol non terminal

file leksikon

file grammar

file events

III-5

2. Proses membuat file korpus (jumlah kata dalam kalimat, kata dalam

kalimat beserta tagnya) dari file teks yang berisi kumpulan kalimat

berbahasa Indonesia.

Proses-proses pemrosesan awal (preprocessing) yang akan dilakukan dalam tesis

ini dapat dilihat pada Gambar III-2 dan III-3.

Gambar III-2 Arsitektur Global Proses Awal Pengurai Collins untuk Membuat file Events,

file Grammar, file Leksikon format Collins (Menu 1)

Gambar III-3 Arsitektur Global Proses Awal Pengurai Collins untuk Membuat file korpus

dengan Format Pengurai Collins (Menu 2)

masukan berupa dokumen treebank

diuraikan menjadi struktur pohon dalam struktur program per kalimat

file leksikon

file grammar

menggenerasi file events dan menambah isi file grammar dan leksikon dari pohon

kalimat

file events

masukan berupa dokumen yang berisi kumpulan kalimat

POS tagging (penentuan jenis kata) file

leksikon

file korpus format pengurai Collins

III-6

Hasil keluaran dari pemrosesan awal (preprocessing) dari tesis ini akan menjadi

masukan dari pengurai Collins.

III.1.1 Penyesuaian Kumpulan File Masukan Pengurai Collins untuk Bahasa

Indonesia

Bahasa Indonesia memiliki perbedaan dengan bahasa Inggris. Oleh karena itu

perlu dilakukan beberapa adaptasi dari pengurai Collins agar dapat digunakan

untuk bahasa Indonesia. Adaptasi yang harus dilakukan antara lain:

1. Perlu adanya sebuah treebank dalam bahasa Indonesia yang digunakan

untuk membangkitkan file events sebagai masukan pengurai Collins,

2. File korpus masukan dibuat menggunakan bahasa Indonesia beserta tag

katanya,

3. File grammar juga harus disesuaikan dengan pola tata bahasa Indonesia,

4. File yang berisi simbol-simbol non-terminal juga harus disesuaikan

dengan yang digunakan pada tesis ini,

5. File leksikon juga harus berisi kata dan tag untuk bahasa Indonesia.

III.1.1.1 Penyesuaian File Treebank untuk Membuat File Events

Collins menggenerasi file events dari sebuah section di Penn WSJ treebank. Pohon

kalimat yang digunakan pengurai Collins sekitar 100.000 pohon kalimat.

Permasalahan yang paling utama adalah di Indonesia belum ada treebank

berbahasa Indonesia yang dapat digunakan pada pengurai Collins. Oleh karena itu

treebank akan dibuat dalam tesis ini secara manual. Treebank yang dibuat

menggunakan beberapa kalimat berbahasa Indonesia sebagai uji coba proses

pembelajaran pada aplikasi pemrosesan awal (preprocessing) pada tesis ini.

Contoh isi treebank untuk sebuah kalimat dalam bahasa Indonesia dapat dilihat

pada Tabel III-2.

III-7

Tabel III-2 Contoh Isi Treebank

(S(NP(PR Kamu))(ADVP(JJ tentu)(RB sering))(PU ,)(ADVP(RB

bahkan)(JJ mungkin)(AR setiap)(NN hari))(PU ,)(>VB mendengarkan)

(NN berita)(ADVP(IN di)(NN televisi)(>CC atau)(IN di)(NN

radio))(PU .))

Treebank yang dibuat disamakan dengan format treebank yang dipakai pengurai

Collins ditambahkan tanda ‘>’ sebagai penanda kata kepala level pada setiap level

penguraian (inti makna). Contoh isi file event untuk sebuah kalimat dalam bahasa

Indonesia dapat dilihat pada Tabel III-3.

Tabel III-3 Contoh Isi File Events untuk Sebuah Kalimat

6 17 Kamu PR tentu JJ sering RB , PU bahkan RB mungkin JJ setiap AR hari NN , PU mendengarkan VB berita NN di IN televisi NN atau CC di IN radio NN . PU 3 mendengarkan VB S VB 00000 00000 2 , PU mendengarkan VB PU S VB 000000 110 0 0 2 bahkan RB mendengarkan VB ADVP S VB 000000 100 0 0 2 , PU mendengarkan VB PU S VB 000000 100 0 0 2 tentu JJ mendengarkan VB ADVP S VB 000000 100 0 0 2 Kamu PR mendengarkan VB NP S VB 000000 100 0 0 2 #STOP# #STOP# mendengarkan VB #STOP# S VB 000000 100 0 0 2 berita NN mendengarkan VB NN S VB 000000 010 0 0 2 atau CC mendengarkan VB ADVP S VB 000000 000 0 0 2 . PU mendengarkan VB PU S VB 000000 000 0 0 2 #STOP# #STOP# mendengarkan VB #STOP# S VB 000000 000 0 0 3 Kamu PR NP PR 00000 00000 2 #STOP# #STOP# Kamu PR #STOP# NP PR 000000 110 0 0 2 #STOP# #STOP# Kamu PR #STOP# NP PR 000000 010 0 0 3 tentu JJ ADVP JJ 00000 00000 2 #STOP# #STOP# tentu JJ #STOP# ADVP JJ 000000 110 0 0 2 sering RB tentu JJ RB ADVP JJ 000000 010 0 0 2 #STOP# #STOP# tentu JJ #STOP# ADVP JJ 000000 000 0 0 3 bahkan RB ADVP RB 00000 00000 2 #STOP# #STOP# bahkan RB #STOP# ADVP RB 000000 110 0 0 2 mungkin JJ bahkan RB JJ ADVP RB 000000 010 0 0 2 setiap AR bahkan RB AR ADVP RB 000000 000 0 0 2 hari NN bahkan RB NN ADVP RB 000000 000 0 0 2 #STOP# #STOP# bahkan RB #STOP# ADVP RB 000000 000 0 0 3 atau CC ADVP CC 00000 00000 2 televisi NN atau CC NN ADVP CC 000000 110 0 0 2 di IN atau CC IN ADVP CC 000000 100 0 0 2 #STOP# #STOP# atau CC #STOP# ADVP CC 000000 100 0 0 2 di IN atau CC IN ADVP CC 000000 010 0 0 2 radio NN atau CC NN ADVP CC 000000 000 0 0 2 #STOP# #STOP# atau CC #STOP# ADVP CC 000000 000 0 0

III-8

Kode angka 6 pada events menandakan pembacaan kalimat yang dibuat pohon

kalimatnya. Kode angka 3 merupakan kode event unary dimana jika setiap simpul

pohon hanya memiliki satu anak atau hubungan antara simpul dengan kepala

anaknya. Kode angka 2 merupakan kode event dependency dimana merupakan

aturan triple tiga buah simbol non terminal (grammar). Penjelasan lebih lanjut

dapat dilihat pada Lampiran 15.

File events ini sebenarnya adalah representasi pohon kalimat menggunakan format

Collins untuk pengurai Collins. File events ini digunakan untuk menghitung

probabilitas aturan grammar yang ada di file grammar. Pengurai Collins

menggunakan probabilitas kemunculan grammar untuk menghitung probabilitas

pohon kalimat yang dihasilkan. Karena keterbatasan treebank maka pada tesis ini

treebank yang dibuat hanya sesuai untuk model 1 pada pengurai Collins. Pada

pengurai Collins, proses penguraian dianggap memakai model 1, model 2, atau

model 3 (dijelaskan pada subbab lain di bab ini) didasarkan pada data yang ada

pada file events (dengan adanya beberapa tag khusus untuk model 2 dan 3).

Penjelasan struktur file events dapat dilihat pada Lampiran 15. File treebank yang

digunakan pada tesis ini dapat dilihat pada Lampiran 10 sedangkan file events

yang digunakan pada tesis ini dapat dilihat pada Lampiran 9. Struktur data pohon

yang digunakan untuk menyimpan dan memproses pohon kalimat menjadi events

beserta penjelasannya dapat dilihat pada Lampiran 15. Struktur data pohon ini

diambil dari modul adaptasi pengurai Collins untuk bahasa Czech.

III.1.1.2 Penyesuaian File Korpus

Beberapa pemrosesan awal (preprocessing) harus dilakukan jika menggunakan

pengurai Collins untuk bahasa Indonesia. Diantaranya adalah perlu adanya proses

pemberian jenis kata pada setiap kata masukan (POS tagging). POS tagging perlu

dilakukan untuk membuat sebuah file korpus masukan pengurai Collins yang telah

diberi tag. Proses POS tagging untuk bahasa Indonesia akan dibahas pada bab

selanjutnya. Format file korpus masukan dari pengurai Collins adalah sebagai

berikut:

III-9

[jumlah_kata_dalam_kalimat] [kata1] [tag1] [kata2] [tag2] ........

Contoh file korpus dalam bahasa Indonesia dapat dilihat pada Tabel III-4.

Tabel III-4 Contoh File Korpus untuk Satu Kalimat

18 Tema NN cerita NN Malin NN Kundang NN dari IN Sumatra NN Barat

NN ini PR ternyata VB juga JJ bisa AUX ditemui VB di IN daerah NN

lain JJ di IN Indonesia NN . PU

Contoh file korpus yang digunakan pada tesis ini dapat dilihat pada Lampiran 8.

File korpus yang digunakan pada tesis ini adalah hasil pemrosesan awal

(preprocessing) yang dibuat pada tesis ini.

III.1.1.3 Penyesuaian File Grammar

File grammar yang digunakan pengurai Collins merupakan hasil pembangkitan

dari treebank ditambah dengan aturan grammar pada pengurai Collins untuk

bahasa Inggris yang masih relevan dengan bahasa Indonesia dan simbol non-

terminal yang digunakan (diperiksa mungkin tidaknya untuk bahasa Indonesia).

Isi file grammar ini akan terus bertambah seiring banyaknya pohon kalimat pada

treebank yang digunakan untuk pembelajaran.

Gambar III-4 Contoh Pohon Kalimat dalam Bahasa Indonesia

S

NP VB NN

mencangkul tanah NN NN

Pak tani

III-10

Format file grammar merupakan tigaan (triple) dari simbol-simbol non-terminal

yang mungkin. Misalkan ada pohon kalimat seperti pada Gambar III-4, maka akan

menghasilkan grammar

S → NP VB

S → VB NN

NP → NN NN

Hasil grammar pada contoh di atas akan ditulis dengan format seperti pada Tabel

III-5.

Tabel III-5 Contoh Penulisan Grammar

L S NP VB

L NP NN NN

R S VB NN

L berarti grammar sisi kiri dari kepala grammar dan R berarti grammar sisi kanan

dari kepala grammar. Format file grammar Collins juga mengenal aturan grammar

unary (U) yaitu aturan grammar yang memetakan satu simbol terminal ke satu

simbol terminal yang lain. Ada juga aturan grammar sub-kategori sisi kiri (X) dan

aturan grammar sub-kategori sisi kanan dimana sama dengan aturan grammar

unary hanya saja ditambahkan kode 00000 sebagai penanda pembeda dengan

aturan grammar unary. Penjelasan mengenai struktur data grammar yang

digunakan pada tesis ini dapat dilihat pada Lampiran 13.

III.1.1.4 Penyesuaian File Simbol Non-terminal

Simbol-simbol non-terminal yang digunakan untuk melakukan penyesuaian file

simbol non-terminal diadaptasi dari simbol-simbol yang digunakan pengurai

Collins dengan beberapa penyesuaian dengan bahasa Indonesia. Penyesuaian

tersebut meliputi tidak dipakainya simbol-simbol yang dalam bahasa Indonesia

tidak diperlukan misal NNP, NNPS, dan NNS untuk merepresentasikan kata

benda jamak dan tidak jamak. Semua kata benda dilabeli dengan NN. Dalam

bahasa Indonesia juga tidak ada determiner (DT) dan keragaman bentuk kata kerja

berdasarkan waktu kalimat (VBD, VBG, VBN, VBP, VBZ). Semua kata kerja

III-11

dalam bahasa Indonesia dilabeli dengan VB. Simbol-simbol non-terminal yang

digunakan dalam tesis ini akan dibahas pada bab selanjutnya. File simbol non-

terminal yang digunakan pada tesis ini dapat dilihat pada Lampiran 12.

III.1.1.5 Penyesuaian File Leksikon

File leksikon merupakan file yang berfungsi sebagai kamus dalam pengurai

Collins. File kamus ini akan digunakan untuk menentukan jenis kata pada proses

POS tagging yang akan dijelaskan lebih lanjut pada bab selanjutnya. Sebelum

dilakukan penyesuaian, file leksikon digunakan pengurai Collins untuk memeriksa

tag dari file korpus masukan, tapi dalam tesis ini pemeriksaan itu tidak dilakukan

karena proses POS tagging dilakukan pada pemrosesan awal. Isi file leksikon juga

akan terus bertambah seiring munculnya kata baru pada treebank yang digunakan

untuk pembelajaran. Proses yang dilakukan pada pemrosesan awal

(preprocessing) pada tesis ini terkait dengan file leksikon adalah sebagai berikut:

1. Kata pada treebank yang ada di dalam kamus tapi tag yang diberikan pada

treebank tidak sama dengan tag di dalam kamus, maka tag (pada struktur

data pohon) akan diubah sama dengan yang ada di kamus,

2. Kata pada treebank yang tidak ada di dalam kamus akan diperiksa tag-nya

apakah termasuk pada simbol non-terminal yang digunakan, jika termasuk

maka kata akan ditambahkan ke dalam file leksikon.

Contoh file leksikon yang digunakan pada tesis ini dapat dilihat pada Lampiran

11.

III.1.2 Penentuan Jenis Kata (Part of Speech Tagging)

Pengurai Collins memerlukan masukan berupa file korpus yang berisi kalimat

beserta jenis katanya (tag) untuk kemudian diuraikan oleh pengurai Collins.

Berdasarkan penelitian yang dilakukan Fadillah Z. Tala (2003) [26] menghasilkan

kesimpulan bahwa pemrosesan temu balik informasi khususnya untuk POS

tangging dan stemming untuk bahasa Indonesia lebih baik berbasis kamus

sehingga menghasilkan lebih sedikit kesalahan dibanding berbasis aturan. Secara

III-12

garis besar proses penentuan jenis kata yang akan dilakukan pada tesis ini adalah

sebagai berikut:

• Jenis kata setiap kata akan dicari di dalam kamus terlebih dahulu, jika ada

maka jenis kata dapat disimpulkan,

• Jika kata tidak ditemukan di dalam kamus maka penentuan jenis kata akan

menggunakan aturan morfologi pada tata bahasa Indonesia,

• Jika masih juga belum dapat ditentukan jenis katanya maka jenis kata akan

diprediksi dengan metode yang akan dijelaskan kemudian (Bab

selanjutnya),

• Jika belum dapat diprediksi jenis katanya maka kata akan diberi label X

(unknown).

IV-1

BAB IV PENENTUAN JENIS KATA (PART OF SPEECH TAGGING)

UNTUK BAHASA INDONESIA

Pada Bab IV ini akan dijelaskan mengenai proses-proses yang diperlukan dalam

proses penentuan jenis kata (part of speech tagging) yang diambil dari kamus

maupun yang tidak ada dalam kamus. Gambaran proses penentuan jenis kata

dapat dilihat pada Gambar IV-1.

Gambar IV-1 Proses Penentuan Jenis Kata

jika tidak dapat diprediksi

jika tidak ditemukan

jika dapat diprediksi

jika ditemukan

mengambil data

kata selanjutnya

melihat jenis kata di dalam kamus

memprediksi jenis kata dengan aturan morfologi

memprediksi jenis kata dengan metode bigram

kalimat yang mengandung kata yang akan ditentukan jenis katanya

diambil per kata untuk ditentukan jenis katanya

semua kata dalam kalimat masukan telah ditentukan jenis katanya

memberikan tag jenis kata pada kata

leksikon

POS tagging

grammar

IV-2

Proses penentuan jenis kata akan dilakukan dalam tiga tingkat, tapi jika penentuan

jenis kata pada setiap tingkat telah berhasil maka tingkat selanjutnya tidak perlu

dialui. Tingkat yang pertama adalah melihat pada kamus yang telah disiapkan,

jika kata ada dalam kamus maka tag akan langsung diberikan pada kata, jika tidak

maka akan dilanjutkan ke proses tingkat berikutnya. Tingkat berikutnya adalah

memeriksa morfologi kata dan mencoba menentukan jenis kata menggunakan

aturan morfologi pada bahasa Indonesia. Jika kata dapat diprediksi maka hasil dari

tingkatan proses tersebut juga dapat digunakan untuk memperkaya kamus. Jika

kata masih belum bisa ditentukan jenis katanya maka pada tingkatan ketiga akan

digunakan metode bigram untuk memprediksi jenis kata. Jika kata dapat

diprediksi maka hasil dari bigram juga akan digunakan untuk memperkaya kamus.

Jika kata belum dapat diprediksi jenis katanya maka kata akan diberi label X

(unknown).

IV.1 Leksikon/Kamus

Proses POS tagging tidak akan berjalan tanpa adanya leksikon/kamus. Dipilih

berbasis kamus karena menurut penelitian yang dilakukan Fadillah Z. Tala (2003)

bahwa pemrosesan temu balik informasi POS tagging dan stemming untuk bahasa

Indonesia lebih baik berbasis kamus yang menghasilkan lebih sedikit kesalahan

dibanding berbasis aturan [26]. Kamus kata yang digunakan adalah kamus KEBI

(Kamus Elektronik Bahasa Indonesia) yang didapat dari ITB. KEBI merupakan

Kamus Bahasa Indonesia - Bahasa Inggris yang dikembangkan oleh Badan

Pengkajian dan Penerapan Teknologi (BPPT) yang boleh digunakan untuk

keperluan riset. Kamus ini mengandung 29.396 kata berbahasa Indonesia. Jenis

kata dalam kamus dikelompokkan menjadi lima belas jenis kata antara lain kata

sifat (adjektiva), kata keterangan (adverbia), kata sandang (dibedakan menjadi

determiner dan article), kata bantu (auxiliary), kata hubung (konjungsi), kata seru

(interjeksi), kata benda (nomina), kata bilangan (dibedakan menjadi numeral dan

ordinal), kata tugas partikel, kata fatis (kata yang menekankan seperti

assalamualaikum, bismillah), kata depan (preposisi), kata ganti (pronomina), dan

kata kerja (verba). Namun kamus KEBI tidak dapat langsung digunakan karena

IV-3

harus diubah menjadi format leksikon pada pengurai Collins. Proses yang harus

dilakukan untuk mempersiapkan kamus antara lain:

• Menghapus frase pada kamus (kamus KEBI juga memuat frase)

• Mengurutkan kata pada kamus KEBI

• Diubah formatnya menjadi [kata] [jenis_kata] [klasifikasi]

misal menjadi cangkul NN 0

dimana klasifikasi diisi dengan 0 jika kata termasuk jarang muncul

(dihitung probabilitasnya pada file treebank) dan diisi dengan 1 jika kata

tergolong sering muncul. Pengklasifikasian jarang atau sering muncul

dihitung secara probabilistik kemunculan kata saat proses pembelajaran

menggunakan treebank dengan nilai threshold yang ditentukan oleh

penulis yaitu 0.3.

Kamus ini akan menjadi kamus awal yang disiapkan dan akan terus diperkaya

seiring dengan banyaknya pohon kalimat pada treebank yang digunakan untuk

pembelajaran. Pada saat sistem melakukan pembelajaran maka akan digunakan

metode bootstrapping untuk memperkaya kamus seperti pada Gambar IV-2.

Bootstrapping dalam konteks tesis ini merupakan proses memperkaya leksikon

kamus dengan menggunakan treebank untuk menambah leksikon beserta jenis

katanya.

IV-4

Gambar IV-2 Proses Memperkaya Kamus

IV.2 Morfologi Tata Bahasa Indonesia

Morfologi (ilmu tata kata) adalah cabang ilmu bahasa yang mengidentifikasi

satuan-satuan dasar bahasa sebagai satuan makna yang dapat berubah-ubah

bergantung pada urutan kata, intonasi, bentuk, serta kata tugas penentu kalimat

(gramatikal). Morfologi dapat digunakan untuk mengidentifikasi jenis sebuah kata

bentukan dari kata dasar yang berimbuhan. Oleh karena itu morfologi juga

diperlukan untuk memprediksi jenis kata yang tidak ada di dalam kamus.

IV.2.1 Jenis Kata

Kata adalah satuan sintaksis (makna) dalam tutur atau kalimat. Penamaan jenis

kata mengacu pada Penn treebank yang juga digunakan oleh pengurai Collins

dengan penambahan jenis kata jika tidak ada pada Penn treebank [20] (misal

untuk jenis tanda baca, pada tesis ini menggunakan PU sedangkan pada pengurai

treebank

Pembelajaran

diuraikan menjadi struktur pohon dalam struktur program per kalimat

pembangkitan events

bootstrapping leksikon

file events

IV-5

Collins diberi tag yang sama dengan tanda baca itu). Daftar penamaan jenis kata

(tag) yang digunakan dalam tesis ini dapat dilihat pada Tabel IV-1.

Tabel IV-1 Penamaan Jenis Kata yang Digunakan

Simbol Jenis Kata Keterangan Contoh JJ Adjektiva Kata sifat; kata yang memberi penjelasan

tentang suatu benda cantik, baik, buruk

RB Adverbia Kata keterangan nanti, sekarang

AR Artikula Kata sandang si, sang

CC Konjungtor Koordinatif

Kata hubung yang menghubungkan klausa pada kalimat majemuk setara.

dan, lalu

CS Konjungtor Subordinatif

Kata hubung pada kalimat majemuk bertingkat

ketika, walaupun

MD Modal Kata Keterangan Modalitas boleh

PR Pronomina Kata ganti; kata yang dipakai untuk menggantikan kata atau yang dibendakan

saya, itu

WH Kata Tanya Kata yang digunakan untuk menanyakan sesuatu

siapakah, bagaimanakah

NN Nomina Kata benda; kata yang menyebut benda atau yang dibendakan

buku, meja, orang

CD Numeralia Kata bilangan; kata yang menyatakan jumlah benda atau jumlah kumpulan atau jurusan dari nama-nama benda

seribu

IN Preposisi Kata depan; kata yang merangkaikan kata-kata atau bagian-bagian kalimat

di, ke, dari

UH Interjeksi Kata seru ai, ah, ceile

RP Partikel Kata tugas partikel pun, per

VB Verba Kata kerja; kata yang bermakna melakukan aktivitas atau kegiatan, atau lebih jelas kalau dikatakan melakukan pekerjaan

mencoba, lempar, menari

AUX Kata bantu Kata bantu akan, dapat

FW Kata asing Kata asing download, notebook

PU Tanda baca Tanda baca ., , , :, (, ), “, ‘, ”, ’

SYM Simbol matematika

Simbol matematika +, #, $

X unknown Kata yang tidak dapat diprediksi jenis katanya

IV-6

Jenis kata akan menjadi simbol terminal pada tesis ini. Penjelasan selengkapnya

mengenai jenis-jenis kata dapat dilihat di Lampiran 1. Simbol-simbol non

terminal yang digunakan pada tesis juga meliputi simbol yang menyatakan sub

kalimat atau frase (satuan makna yang terdiri lebih dari satu kata yang memiliki

jabatan tertentu pada kalimat). Simbol-simbol non-terminal untuk sub-

kalimat/frase yang digunakan dalam tesis ini dapat dilihat pada Tabel IV-2.

Tabel IV-2 Simbol Non Terminal

Simbol Keterangan

S Kalimat ADJP frase yang menyatakan sifat (frase

adjektiva)

ADVP frase yang menyatakan keterangan (frase adverbia)

NP frase yang menyatakan benda (frase nomina)

SBAR sub kalimat majemuk

SBARQ sub kalimat setelah kata tanya

VP frase yang menyatakan kerja (frase verba)

IV.2.2 Imbuhan

Imbuhan dalam bahasa Indonesia adalah tambahan yang melekat pada kata untuk

membentuk sebuah makna baru [21]. Imbuhan dapat digunakan untuk

memprediksi kata-kata yang tidak ada di dalam kamus. Imbuhan pada bahasa

Indonesia antara lain prefiks atau awalan, sufiks atau akhiran, infiks atau sisipan,

dan konfiks (imbuhan di depan dan di belakang kata dasar). Prefiks disebut juga

awalan. Prefiks adalah afiks (imbuhan) yang ditempatkan di bagian muka suatu

kata dasar. Kumpulan awalan yang ada dalam bahasa Indonesia dapat dilihat pada

Lampiran 2 berikut jenis kata yang dapat dibentuk dari awalan. Sufiks atau

akhiran adalah afiks (imbuhan) yang digunakan di bagian belakang kata.

Kumpulan akhiran yang ada dalam bahasa Indonesia dapat dilihat pada Lampiran

3 berikut jenis kata yang dapat dibentuk dari akhiran. Infiks atau sisipan adalah

IV-7

afiks (imbuhan) yang diselipkan di tengah kata dasar. Infiks tidak digunakan pada

tesis ini karena sangat sulit mendeteksinya. Infiks yang ada pada bahasa Indonesia

misalnya –in-, -em-, -el-, dan –er-. Konfiks adalah afiks (imbuhan) yang ada di

depan dan di belakang kata dasar secara bersamaan. Kumpulan konfiks yang ada

dalam bahasa Indonesia dapat dilihat pada Lampiran 4 berikut jenis kata yang

dapat dibentuk dari konfiks. Kaidah bahasa Indonesia memiliki aturan imbuhan

yang akan membentuk suatu jenis kata. Aturan-aturan imbuhan yang ada dalam

bahasa Indonesia dapat dilihat pada Tabel IV-3.

Tabel IV-3 Aturan Imbuhan [21]

Pola Imbuhan Contoh Jenis Kata

meN + kata dasar (jenis kata bebas) + kan

mengantuk, mengkritik kata kerja (verba)

peN-ber + kata dasar (jenis kata bebas) + an

pelukis, pemburu kata benda (nomina)

ke-ber- + kata dasar (jenis kata bebas) + an

kebersamaan, keberterimaan

kata benda (nomina)

kata dasar (jenis kata kerja, kata benda, kata sifat) + i

terangi, sinari kata kerja (verba)

beR- + kata dasar becermin, beserta, berternak, bekerja

kata kerja (verba)

teR- + kata dasar terbawa, tertidur kata kerja (verba)

Penjelasan selengkapnya mengenai aturan imbuhan dan variasinya dapat dilihat

pada Lampiran 5.

IV.2.3 Pengulangan Kata

Pengulangan kata dalam bahasa indonesia dipisahkan dengan menggunakan tanda

hubung (-). Pengulangan juga dapat membentuk sebuah arti gramatikal (makna

yang berubah sesuai dengan kalimat) dari bentuk kata dasarnya. Pengulangan kata

dasar akan membentuk jenis kata sesuai dengan jenis kata jika tidak diulang misal

“cepat-cepat” memiliki kata dasar “cepat” yang berjenis kata keterangan maka

kata “cepat-cepat” akan berjenis kata keterangan. Contoh lain misalnya buku-

buku yang berarti kumpulan buku merupakan pengulangan dari kata dasar buku

yang merupakan kata benda maka buku-buku juga merupakan kata benda. Adapun

kata pengulangan yang merupakan satu kesatuan kata benda misal kupu-kupu,

IV-8

laba-laba. Pengulangan juga dapat disertai imbuhan sehingga membentuk makna

gramatikal yang bisa berbeda dengan kata dasarnya. Aturan pengulangan

berimbuhan dalam bahasa Indonesia dapat dilihat pada Tabel IV-4.

Tabel IV-4 Aturan Pengulangan Kata Berimbuhan

Pola Contoh Jenis Kata

ke + kata dasar (jenis kata bebas)

yang diulang + an

kebarat-baratan kata benda (nomina)

ber + kata dasar yang diulang

(jenis kata kerja)

berlari-lari kata kerja (verba)

ber + kata dasar yang diulang

(jenis kata benda)

berlama-lama, berjam-

jam

kata keterangan

(adverbia)

kata dasar (jenis kata kerja) +

meN + kata dasar (jenis kata

kerja)

tanam-menanam kata kerja (verba)

se- + kata dasar + -nya secepat-cepatnya,

sepandai-pandainya,

sebaik-baiknya

kata sifat atau edjektiva

Pengulangan juga ada yang merupakan pengulangan berubah bunyi seperti bolak-

balik, sayur-mayur, gerak-gerik. Pengulangan ini akan dicari di kamus kedua

katanya, jika ada salah satu maka dapat simpulkan jenis katanya karena jenis

pengulangan ini akan membentuk kata sesuai kata asal yang diulang, tapi berubah

bunyi.

IV.2.4 Proses Pemeriksaan Imbuhan

Mengacu pada penelitian yang dilakukan oleh Femphy Piceldo dkk (2008) [22]

mengenai penganalisis morfologi pada bahasa Indonesia bahwa pemeriksaan

imbuhan pada sebuah kata memiliki urutan proses tertentu agar tidak terjadi

kesalahan pengenalan kata dilihat dari segi morfologi pada bahasa Indonesia. Pada

penelitian Femphy Piceldo [22], proses dimulai dengan memeriksa awalan kata.

Hasil kata dasar dari pemisahan awalan akan diperiksa di dalam kamus apakah

IV-9

ada kata dasarnya, jika ada maka kata sudah dapat diprediksi jenis katanya dengan

hanya menggunakan awalan. Jika kata belum dapat diprediksi maka akan

diperiksa akhiran kata, dicari kata dasarnya beserta gabungan hasil proses

sebelumnya (apakah ada pengulangan atau awalan), jika ada di kamus maka kata

sudah dapat diprediksi jenis katanya. Jika kata tidak mengandung awalan maka

akan diperiksa apakah kata merupakan pengulangan kata dasar, jika benar maka

kata dasarnya diperiksa di kamus, jika ada maka kata dapat diprediksi jenis

katanya. Jika kata masih belum dapat diprediksi maka dilakukan pemeriksaan

apakah kata merupakan kata pengulangan berimbuhan dan dicoba mencari kata

dasarnya di kamus, jika ada maka kata dapat diprediksi jenis katanya. Untuk

semua tahapan pemeriksaan kata. jika hanya dengan menggunakan pola imbuhan

kata sudah dapat diprediksi maka tidak perlu mencari kata dasar di dalam kamus,

misal bila ada pola imbuhan tertentu yang digabungkan dengan kata dasar jenis

apapun akan membentuk suatu jenis kata tertentu.

Pada tesis ini akan ditambahkan beberapa proses pemeriksaan untuk menentukan

jenis kata, misalnya seperti pemeriksaan apakah kata termasuk kata singkatan

yang ditandai dengan huruf besar semua, kata singkatan akan diberi label NN

yang berarti kata benda, atau apakah kata termasuk kata bilangan jika ada karakter

berupa angka pada kata, atau apakah kata termasuk kata nama yang ditandai

dengan penulisan huruf besar di awal kata, kata nama diberi label NN yang berarti

kata benda. Urutan proses yang harus dilakukan untuk menganalisis morfologi

pembentukan kata pada bahasa Indonesia dapat dilihat pada Gambar IV-3.

Penjelasan mengenai struktur data dan format penulisan file untuk keperluan POS

tagging menggunakan aturan morfologi yang digunakan pada tesis ini dapat

dilihat pada Lampiran 14.

IV-10

Gambar IV-3. Urutan Proses Prediksi Jenis Kata dengan Morfologi

IV.3 Prediksi Jenis Kata dengan Metode Bigram

Model N-gram adalah sebuah tipe model probabilistik untuk memperkirakan

elemen selanjutntya pada sebuah urutan. N-gram digunakan untuk berbagai area

statistik dari pemrosesan bahasa alami dan analisis urutan genetik. Sebuah n-gram

adalah sebuah sub-urutan dari sejumlah n elemen dari urutan yang diberikan.

Elemen dapat berupa fonem, huruf, kata tergantung dari kebutuhan aplikasi [27].

jika belum dapat diprediksi jenis katanya





jika sudah dapat diprediksi




jika sudah dapat diprediksi jenis katanya

kata

Pemeriksaan awalan saja untuk mendapatkan kata dasarnya

Pemeriksaan akhiran

Pemeriksaan pengulangan

Penyimpulan tag (jenis kata)

tag (jenis kata) memprediksi jenis kata dengan metode bigram

Pemeriksaan kata bilangan

Pemeriksaan kata singkatan

Pemeriksaan awalan dan akhiran

Pemeriksaan kata nama

IV-11

Model bigram adalah model n-gram yang hanya melibatkan dua buah elemen.

Model bigram menggunakan teorema bayes dalam perhitungannya yaitu:

P(Wn|Wn-1) = )(

),(

1

1

−

−

n

nn

WPWWP

(IV-1)

dimana P adalah probabilitas kata yang diberikan oleh kata sebelumnya. Sebuah

kalimat akan memiliki probabilitas sebagai berikut:

)|()( 1

11 −

=∏≈ k

n

k

kn wwPwP (IV-2)

sehingga jika probabilitas bigram diterapkan pada sebuah kalimat “I want to eat

Chinese food” maka probabiltasnya adalah sebagai berikut:

P(I want to eat Chinese food) = P(I | <start>) *

P(want | I) *

P(to | want) *

P(eat | to) *

P(Chinese | eat) *

P(food | Chinese) (IV-3)

Metode bigram yang digunakan pada tesis ini menggunakan dua buah jenis aturan

grammar untuk mencari jenis kata. Aturan grammar yang pertama adalah aturan

grammar yang memiliki simbol jenis kata sama dengan kata di depan kata yang

dicari jenis katanya, sedangkan jenis aturan grammar kedua adalah aturan

grammar yang memiliki simbol jenis kata sama dengan kata di belakang kata

yang dicari jenis katanya. Misalnya kata yang akan dicari jenis katanya adalah

“guru” dalam kalimat “Bapak guru menulis di papan tulis” maka aturan grammar

yang akan dihitung probabilitasnya adalah aturan grammar yang memenuhi hal-

hal berikut:

IV-12

• Aturan grammar memiliki simbol awal yang sama dengan tag kata

sebelum kata yang dicari, misal

NP → NN NN

NN yang pertama sama dengan tag kata “Bapak” maka aturan grammar ini

masuk dalam kumpulan grammar yang akan dihitung probabilitasnya,

• Aturan grammar memiliki simbol akhir yang sama dengan tag kata setelah

kata yang dicari, misal

VP → JJ VB

VB sama dengan tag kata “menulis” maka aturan grammar ini masuk

dalam kumpulan grammar yang akan dihitung probabilitasnya

• Misalkan ada aturan grammar

NP → NN NN

VP → NN VB

maka aturan VP → NN VB tidak akan dimasukkan pada kumpulan aturan

grammar yang akan dihitung probabilitasnya karena memiliki kesimpulan

tag yang sama untuk kata yang dicari tag-nya (NN), tapi kemunculan

aturan grammar kedua akan dimasukkan dalam jumlah kemunculan aturan

grammar pertama.

Aturan grammar pada pengurai Collins ditulis dengan aturan triple. Aturan

penulisan aturan grammar pada pengurai Collins dapat dilihat pada Lampiran.7

dan Lampiran 13.

Perhitungan akan dilakukan dengan menggunakan probabilitas. Pada kumpulan

aturan grammar yang terpilih akan dipilih probabilitas yang paling besar.

Perhitungan probabilitas aturan grammar dihitung dengan menggunakan rumus

berikut:

P(untuk tag kata yang dicari) =

)()(

bahasatatapolajumlahdicariyangkatauntukNNbagianmemilikiyangbahasatatapolajumlah

(IV-4)

IV-13

Pola yang memiliki probabilitas terbesar akan digunakan untuk pelabelan pada

kata yang dicari jenis katanya. Secara garis besar proses perhitungan probabilistik

bigram pada tesis ini seperti pada Gambar IV-4.

Gambar IV-4 Urutan Proses Prediksi Jenis Kata dengan Metode Bigram

kalimat yang mengandung kata yang tidak bisa diprediksi kelas katanya

periksa kata di depan dan di belakang kata yang tidak dapat diprediksi kelas katanya

cari pola tata bahasa/aturan grammar yang mengandung simbol jenis kata di depan kata yang akan diprediksi jenis katanya

cari pola tata bahasa/aturan grammar yang mengandung simbol jenis kata di belakang kata yang akan diprediksi jenis katanya

memberikan tag pada kata yang tidak diketahui jenis katanya berdasarkan aturan grammar yang memiliki probabilitas terbesar

kelas kata/tag

V-1

BAB V PENGUJIAN

V.1 Tujuan Pengujian

Pengujian dilakukan untuk menguji hasil kumpulan file masukan hasil

pemrosesan awal (preprocessing) dari tesis ini. Pengujian juga dilakukan untuk

mengetahui kinerja pengurai Collins jika digunakan untuk bahasa Indonesia

menggunakan kumpulan file masukan hasil pemrosesan awal (preprocessing).

Hasil pengujian juga dapat digunakan untuk menganalisa bagian-bagian yang

masih perlu diperbaiki di masa mendatang.

V.2 Perancangan Pengujian

Pengujian yang akan dilakukan dalam tesis ini adalah sebagai berikut:

1. Membagi pengujian menjadi dua buah kelompok dan dilakukan pengujian

yang sama terhadap kedua kelompok itu, kelompok pertama adalah

kelompok yang memiliki spesifikasi sebagai berikut:

a. File treebank berisi 42 pohon kalimat yang memiliki struktur

sederhana (berjenis kalimat berita),

b. File kalimat berisi 7 buah kalimat sederhana (berjenis kalimat

berita) yang setipe yang memiliki grammar mirip dengan pohon

kalimat di file treebank;

kelompok kedua adalah kelompok yang memiliki spesifikasi berikut:

a. File treebank berisi 190 pohon kalimat (berjenis kalimat berita,

opini, pertanyaan, perintah) termasuk pohon kalimat yang ada di

kelompok pertama,

b. File kalimat berisi 15 kalimat (berjenis kalimat berita) yang lebih

kompleks dari kelompok pertama,

2. Pada kedua kelompok dilakukan hal-hal berikut:

a. Memasukkan file treebank yang berisi pohon kalimat untuk

menguji proses generasi file events, penambahan grammar, dan

V-2

leksikon, file treebank yang digunakan dapat dilihat pada Lampiran

10, file leksikon yang digunakan dapat dilihat pada Lampiran 11,

b. Memasukkan file kalimat berbahasa Indonesia untuk

mempersiapkan file korpus, file korpus yang digunakan dapat

dilihat pada Lampiran 8,

c. Menguji pengurai Collins dengan file masukan dari pemrosesan

awal (preprocessing) tesis ini untuk kelompok pertama dan kedua.

Topik pemilihan kalimat untuk kalimat treebank dan korpus diambil dari sebuah

topik ditambah dengan beberapa kalimat sederhana (memiliki pohon kalimat yang

sederhana). Topik tersebut diambil dari buku “Bahasa Indonesia: Bahasa

Kebanggaanku” karangan Sarwiji Suwandi Sutarmo untuk tingkat SMP dan MTs

kelas VII [25] dan beberapa kalimat dari contoh Penn treebank yang

diterjemahkan ke bahasa Indonesia. Dengan menggunakan sebuah topik dan

beberapa kalimat sederhana diharapkan hasil penguraian akan lebih bervariasi

(tidak hanya menghasilkan probabilitas 0).

Penyesuaian yang dilakukan terhadap kode program pengurai Collins adalah

memperkecil nilai threshold dari hasil penguraian per aturan grammar kalimat

yang dianggap valid. Penyesuaian threshold dilakukan karena terlalu kecilnya

jumlah kalimat pada treebank berbahasa Indonesia dibanding dengan treebank

yang digunakan pengurai Collins. Threshold pada pengurai Collins awalnya

bernilai -5000000 diganti oleh penulis menjadi -999999999.999999999 (nilai

terkecil untuk tipe data double pada bahasa pemrograman C). Dari 190 pohon

kalimat dalam treebank yang diujicobakan menghasilkan 319 aturan grammar sisi

kiri (L = Left), 103 aturan grammar sisi kanan (R = Right), 21 aturan grammar

unary (U), 21 aturan grammar sub-kategori sisi kiri (X), dan 21 aturan grammar

sub-kategori sisi kanan (Y). Aturan grammar murni hasil generasi pemrosesan

awal (preprocessing) pada tesis ini dapat dilihat pada Lampiran 7 sedangkan hasil

generasi file events dapat dilihat pada Lampiran 9.

V-3

V.2.1 Hasil dan Analisis Pengujian

Hasil pengujian kelompok pertama, dari 7 kalimat berhasil diuraikan dengan

benar 6 kalimat, sedangkan 1 kalimat ada bagian yang masih kurang tepat

diuraikan. Hal ini dikarenakan bagian kalimat yang kurang tepat diuraikan tidak

memiliki events di file events (aturan grammar yang tepat tidak memiliki event di

file events untuk menghitung probabilitas grammar). Hasil pengujian kelompok

pertama dapat dilihat pada Lampiran 6.

Hasil pengujian kelompok kedua, dari 15 kalimat yang diujikan, yang berhasil

diuraikan adalah 8 kalimat. Kalimat yang tidak dapat diuraikan hasil probabilitas

kalimatnya adalah 0. Justifikasi nilai 0 diambil oleh Collins dalam pengurainya

karena kalimat tidak berhasil diuraikan keseluruhan (terputus di tengah), karena

ada bagian pohon yang tidak cocok dengan satupun grammar di file grammar.

Oleh karena itu probabilitas pohon yang tidak dapat diuraikan juga bernilai 0.

Dapat diambil contoh dari contoh kalimat pada korpus yang digunakan pada tesis

ini, yaitu kalimat ke-4 yang tidak berhasil diuraikan oleh pengurai Collins seperti

pada Tabel V-1.

Tabel V-1 Kalimat ke-4 Kelompok ke-2 yang Tidak Berhasil Diuraikan

9 Kalau CS ada VB , PU tulislah VB dengan IN singkat JJ cerita NN itu PR ! PU

Sebagian proses penguraian pada kalimat ke-4 dapat dilihat pada Tabel V-2. Oleh

karena itu diperlukan adanya tambahan data treebank yang lebih banyak agar hasil

penguraian lebih konsisten. Dilihat dari segi jumlah, 190 kalimat pada treebank

berbahasa Indonesia yang dibuat manual belum bisa merepresentasikan sebuah

bagian (section) Penn treebank yang digunakan pengurai Collins untuk bahasa

Inggris. Pengurai Collins menggunakan sekitar 100.000 kalimat dari Penn

treebank. Hasil pengujian penguraian kalimat berbahasa Indonesia yang diuraikan

dengan pengurai Collins dapat dilihat pada lampiran 6.

V-4

Tabel V-2 Proses Penguraian Kalimat ke-4 Kelompok ke-2

{hasil penguraian awal kalimat} EDGE 0 0 0 1 0 18 L 110 0 HV0 R 10 0 CS 0 Kalau EDGE 1 0 0 1 0 31 L 110 0 HV0 R 10 0 VB 0 ada EDGE 2 -43.9314 -50.7629 0 1 12 L 110 0 HV0 R 10 0 ADJP -43.9314 VB 0 ada EDGE 3 -0.290122 -4.05236 0 1 13 L 110 0 HV0 R 10 0 ADVP -0.290122 VB 0 ada EDGE 4 -1.66501 -6.83979 0 1 32 L 110 0 HV0 R 10 0 VP -1.66501 VB 0 ada EDGE 5 -4.64459 -8.40684 1 1 13 L 110 0 HV0 R 10 0 ADVP -4.64459 VB 0 ada EDGE 6 -3.82346 -8.99824 1 1 32 L 110 0 HV0 R 10 0 VP -3.82346 VB 0 ada EDGE 7 0 0 1 0 34 L 110 0 HV0 R 10 0 PU 0 , .................................. {hasil penguraian akhir kalimat, tidak ada konektivitas dengan awal kalimat/terputus} EDGE 98 -21.1985 -26.3733 1 3 32 L 110 0 HV0 R 0 0 VP -21.1985 VB 0 tulislah ADVP -14.1724 IN 0 dengan JJ 0 singkat NP -9.59634 NN 0 cerita PR 0 itu PU 0 !

Dari 8 kalimat yang berhasil diuraikan tidak ada yang benar hasil penguraiannya

secara kesatuan kalimat. Namun beberapa hasil penguraian bagian kalimat ada

yang benar, tapi juga ada yang kurang tepat (kurang sesuai dengan kaidah bahasa

Indonesia) (dapat dilihat pada Lampiran 6). Hal ini karena aturan grammar yang

memiliki bobot besar (dihitung dari events) merupakan grammar yang kurang

tepat diaplikasikan pada kalimat yang diuraikan. Oleh karena itu perlu lebih

banyak treebank yang dijadikan events sebagai data pembelajaran agar hasilnya

lebih konsisten. Misal proses pada bagian proses penguraian kalimat ke-2 dari

yang ujikan dapat dilihat pada Tabel V-3.

V-5

Tabel V-3 Proses Penguraian Kalimat ke-2 Kelompok ke-2

...................................... EDGE 319 -66.8343 -72.4793 0 3 13 L 110 0 HV0 R 0 0 ADVP -66.8343 NN 0 Malin SBAR -21.1653 NP -10.2499 NN 0 Kundang ADVP -5.67955 IN 0 dari NP -4.31217 NN 0 Sumatra NN 0 Barat PR 0 ini VP -2.57047 VB 0 ternyata EDGE 320 -18.024 -20.6916 0 3 24 L 110 0 HV0 R 0 0 NP -18.024 NN 0 Malin NN 0 Kundang ADVP -2.97829 IN 0 dari NP -1.61092 NN 0 Sumatra NN 0 Barat ADVP -5.14351 NP -0.0849127 PR 0 ini VB 0 ternyata ....................................

pada proses di Tabel V-3, maka yang terpilih adalah ADVP dibanding VP karena

memiliki bobot lebih besar.

Dari 8 kalimat yang berhasil diuraikan bobot kalimat terbesar didapat dari hasil

penguraian kalimat ke 15 dengan bobot 173.707. Bobot kalimat terkecil dari

kalimat yang berhasil diuraikan didapat dari kalimat ke 13 dengan bobot 21.83.

Semakin besar bobot pohon yang dihasilkan tidak mencerminkan semakin benar

penguraian kalimat secara kesatuan kalimat (hasil lengkapnya dapat dilihat pada

Lampiran 6).

VI-1

BAB VI PENUTUP

VI.1 Kesimpulan

Kesimpulan dari tesis ini adalah sebagai berikut:

1. Pengurai Collins dapat digunakan untuk bahasa Indonesia dengan

melakukan adaptasi kumpulan file masukan pengurai Collins.

2. Kinerja pengurai Collins untuk bahasa Indonesia dengan terbatasnya

treebank (sangat kecil jika dibandingkan dengan jumlah kalimat pada

treebank yang digunakan pengurai Collins) sudah dapat melakukan

penguraian seluruh kalimat pada kelompok pengujian pertama dan 8

kalimat dari 15 kalimat dapat diuraikan dari kelompok pengujian kedua.

Hasil penguraian juga telah mampu merepresentasikan pohon kalimat

berbahasa Indonesia walau tidak semua bagian kalimat benar diuraikan.

Cara menggunakan aplikasi hasil tesis ini dapat dilihat pada Lampiran 16.

VI.2 Saran

Untuk pengembangan lebih lanjut, saran-saran yang dapat saya berikan pada tesis

ini adalah:

1. Permasalahan paling mendasar dari tesis ini adalah keterbatasan treebank

berbahasa Indonesia. Oleh karena itu sangat diperlukan dukungan dari

semua pihak untuk membuat sebuat treebank dalam bahasa Indonesia.

Solusi yang mungkin dalam membuat sebuah treebank berbahasa Indonesia

dapat ditempuh sebagai berikut:

• Dibuat sebuah perkumpulan atau consortium untuk bersama-sama

berkontribusi membuat treebank berbahasa Indonesia dimana seluruh

masyarakat dapat merasa memiliki dan terpanggil untuk ikut

berkontribusi, misal dengan membuat sebuah website online yang

berguna untuk membuat treebank,

VI-2

• Melakukan translasi Penn WSJ Treebank menjadi bahasa Indonesia,

tapi tetap perlu ada pembenahan pola tata bahasa karena beberapa

aturan dalam bahasa Inggris tidak berlaku pada bahasa Indonesia (misal

untuk kata yang jenis katanya tidak ada dalam bahasa Indonesia diganti

dengan blank),

• Membuat sebuah permainan untuk membuat treebank berbahasa

Indonesia, misalnya permainan “Are you really Indonesian citizen?

Prove it!” dimana di dalamnya diberikan kalimat-kalimat yang harus

dibuat pohon kalimatnya, setiap menyelesaikan pembuatan pohon

kalimat diberikan batasan waktu untuk diberikan skornya, setiap naik

level maka kalimatnya akan semakin kompleks.

2. Perlu dibuat kamus/leksikon yang valid dan sesuai dengan kaidah bahasa

Indonesia yang baku karena kamus yang digunakan dalam tesis ini jenis

katanya masih banyak yang tidak valid sehingga tag yang dihasilkan dari

POS tagging menjadi valid,

3. Kelemahan kamus/leksikon yang digunakan adalah tidak menuliskan kata

yang sama namun dengan jenis kata berbeda, misal kata “bisa” dapat

termasuk dalam AUX/kata bantu jika dalam frase “bisa menari”, tapi juga

dapat termasuk NN/kata benda jika dalam frase “bisa ular”, maka perlu

dipikirkan bagaimana membuat format yang tepat untuk kamus/leksikon,

4. Pembuatan file treebank dalam tesis ini masih berdasarkan pengetahuan

penulis dalam berbahasa Indonesia, untuk kedepannya perlu adanya

bimbingan dari ahli bahasa untuk membuat treebank sehingga grammar

yang dihasilkan konsisten,

5. Pemilihan kalimat yang digunakan untuk pengujian dan membuat treebank

masih dipilih secara acak (random) oleh penulis, untuk kedepannya perlu

dipilih kalimat masukan yang sesuai dengan grammar yang ada sehingga

hasil yang didapatkan dapat lebih valid,

6. Tesis ini tidak melakukan pengujian mengenai penanganan ambiguitas

pohon pola tata bahasa untuk setiap kalimat, di masa mendatang perlu

dilakukan pengujian ambiguitas pohon pola tata bahasa dengan pengurai

Collins.

VI-3

7. Model 2 dan Model 3 perlu dibuat treebank-nya agar dapat diujicobakan

untuk bahasa Indonesia.

xv

DAFTAR PUSTAKA [1] Adriani, Mirna dkk. (2007) : Stemming Indonesian: A Confix-Stripping

Approach, ACM Transaction on Asian Language Information Processing, 6, 13:1 – 13:33.

[2] Asian, Jelita (2007) : Effective Techniques for Indonesian Text Retrieval,

Tesis Program Master of Science, School of Computer Science and Information Technology, 9-204.

[3] Aziz, Mohd Juzaiddin Ab dkk. (2006) : Pola Grammar Technique for

Grammatical Relation Extraction Malay Language, Malaysian Journal of Computer Science, 19, 59-72.

[4] Bikel, Daniel M. (2004) : On The Parameter Space of Generative

Lexicalized Statistical Parsing Models, Disertasi program Doctor of Philosophy, University of Pennsylvania, [halaman].

[5] Blum, Avrim dan Tom Mitchell (1998) : Combining Labeled and

Unlabeled Data With Co-training, Proceedings of the 11th Annual Conference on Computational Learning Theory, 92-100.

[6] Charniak, Eugene. (1993) : Statistical Language Learning, Massachusetts

Institute of Technology. [7] Charniak, Eugene. (1997) : Statistical Parsing with a Context-free

Grammar and Word Statistics, American Association for Artificial Intelligence: AAAI Press.

[8] Charniak, Eugene. (2000) : A Maximum-Entropy-Inspired Parser,

Proceedings of NAACL-2000. [9] Clark, Stephen (2003) : Bootstrapping POS Taggers Using Unlabelled

Data, Proceedings of the Seventh CoNNL Conference. [10] Carroll, Glen. (1995) : Learning Probabilistic Grammars for Language

Modeling, Tesis program Master of Science, Brown University. [11] Collins, Michael. (1996) : A New Statistical Parser Based on Bigram

Lexical Dependencies, In Proceedings of the 34th Annual Meeting of ACL, 184-191.

[12] Collins, Michael. (1999) : Head-Driven Statistical Models for Natural

Language Parsing, Disertasi program Doctor of Philosophy, University of Pennsylvania.

xvi

[13] Collins, Michael, Jan Hajic, Lance Ramshaw, Cristoph Tillmann (1999) : A Statistical Parser for Czech, Proceedings of the 37th Annual Meeting of the ACL.

[14] Gusmita, Ria Hari & Ruli Manurung (2008) Some initial experiments with

Indonesian probabilistic parsing. Second MALINDO Workshop. 1-5. [15] Iskak Hendrawan, (1999) : Pengurai Sintaks Kalimat untuk Bahasa

Indonesia dengan Metode Linguistic String Analysis; Fakultas Ilmu Komputer Universitas Indonesia, Depok 1999

[16] Johnson, Mark (1998) : PCFG Models of Linguistic Tree Representations,

Association for Computational Linguistics, 24, 613-632. [17] Jurafsky, Daniel dan Martin, James H. (2000) : Speech and Language

Processing: An Introduction to Natural Language Processing, Computational Lainguistics, and Speech Recognition. Prentice Hall, New Jersey, 443-471.

[18] Lefuel, Ramon dan Brian J. Ross (2004) : Parsing Probabilistic Context

Free Languages with Multiple-Objective Genetic Algorithms. Technical Report. Brock University.

[19] Linz, Peter. (2001) : An Introduction to Formal Languages and Automata,

Jones and Bartlett Publisher, Inc, Massachusetts, 126-148. [20] Marcus, Mitchell P. dkk (1992) : Building a Large Annotated Corpus of

English: The Penn Treebank. Departmet of Computer and Information Science University of Pennsylvania.

[21] Mulyono, Anton M. (1991) : Tata Bahasa Baku Bahasa Indonesia, Balai

Pustaka, Jakarta [22] Pisceldo, Femphy dkk. (2008) : A Two-Level Morphological Analyser for

Indonesian Language, Australian Language Technology Association (ALTA) Workshop.

[23] Schabes, Yves dan Waters, Richard C. (1993) : Stochastic Lexicalized

Context-Free Grammar, International Workshop on Parsing Technology. [24] Shavitri, Shelly. (1999) : Analisa Struktur Kalimat Bahasa Indonesia

dengan Menggunakan Pengurai Kalimat Berbasis Linguistic String Analysis. Tugas Akhir untuk Sarjana Ilmu Komputer, Universitas Indonesia.

[25] Sutarmo, Sarwiji Suwandi (2008) : Bahasa Indonesia: Bahasa

Kebanggaanku : untuk SMP dan MTs kelas VII. Pusat Perbukuan Departemen Pendidikan Nasional.

xvii

[26] Tala, Fadillah Z. (2003) : A Study of Stemming Effects on Information

Retrieval in Bahasa Indonesia, Tesis program Master of Logic, Institute for Logic, Language, and Computation Netherland.

[27] _________, 2008, Wikipedia, The Free Encyclopedia : N-gram, [html],

(http://en.wikipedia.org/wiki/N-gram, diakses tanggal 6 November 2008)

L-1.1

Lampiran 1 Jenis Kata Dalam Bahasa Indonesia [21]

Jenis kata yang ada dalam bahasa Indonesia adalah sebagai berikut:

Jenis Kata Keterangan Contoh kata benda (noun) atau nomina

kata yang menyebut benda atau yang dibendakan

botol, perjalanan, kertas

kata kerja (verb) atau verba kata yang bermakna melakukan aktivitas atau kegiatan, atau lebih jelas kalau dikatakan melakukan pekerjaan

lempar, menari, menerkam, ditangkap

kata sifat (adjectiv) atau adjektiva

kata yang memberi penjelasan tentang suatu benda

kental, jelek, buruk, bagus, baik

kata singkatan (abbreviation)

kata yang menyatakan singkatan ITB, BRI, BNI

kata keterangan waktu; menyatakan kapan sebuah peristiwa berlangsung

sekarang, nanti, kemarin, tadi, lusa, ketika, itu

kata keterangan mutu; menyatakan situasi dari suatu peristiwa

cepat-cepat, nyenyak

kata keterangan tempat; menyatakan tempat sebuah peristiwa

di dapur, ke jakarta, dari jakarta (bisa diawali kata depan seperti di, ke, dari dan diikuti dengan nama tempat)

kata keterangan jumlah; menyatakan jumlah tindakan suatu peristiwa

sedikit, banyak

kata keterangan modalitas; keterangan yang menyatakan tanggapan subyektif pembicara terhadap berlangsungnya peristiwa

memang, pasti, rupanya, semoga, mana mungkin

kata keterangan alat; menyatakan dengan alat apakah sebuah peristiwa berlangsung

dengan tongkat, dengan pisau

kata keterangan aspek; keterangan yang menjelaskan berlangsungnya peristiwa secara obyektif

akan, sedang, mulai, telah, sering

kata keterangan syarat; keterangan yang menyatakan syarat yang harus dipenuhi dalam suatu proses

jikalau, kalau

kata keterangan perlawanan, keterangan yang menyangkal suatu peristiwa

meskipun, biarpun

kata keterangan/kata tambahan (adverb) atau adverbia; kata yang menyatakan keterangan

kata keterangan sebab; keterangan yang menyatakan

karena

L-1.2

Jenis Kata Keterangan Contoh sebab peristiwa berlangsung kata keterangan akibat; keterangan yang menyatakan akibat yang terjadi karena suatu perbuatan atau peristiwa

hingga, akhirnya

kata keterangan tujuan; keterangan yang menyatakan tujuan dari suatu perbuatan atau peristiwa

agar, supaya

kata keterangan perbandingan; keterangan yang menyatakan perbandingan dua hal

bagaikan

kata keterangan perwatasan; keterangan yang menyatakan bagian tertentu yang tidak termasuk

kecuali, hanya

kata bilangan atau numeralia

kata yang menyatakan jumlah benda atau jumlah kumpulan atau jurusan dari nama-nama benda

satu, dua, ketiga, seribu

Orang I Tunggal: aku/saya Orang I Jamak: kami, kita Orang II Tunggal: engkau Orang II Jamak: kamu Orang III Tunggal: dia

kata ganti orang

Orang III Jamak: mereka

kata ganti empunya (milik) –ku, -mu, -nya kata ganti penunjuk di sini, di sana, ke

sini kata ganti penghubung yang kata ganti penanya adalah kata ganti yang menanyakan tentang benda, dapat berupa sesuatu keadaan ataupun orang

apa, siapa, bagaimana

kata ganti atau pronomina; kata yang dipakai untuk menggantikan kata atau yang dibendakan

kata ganti tak tentu adalah kata yang berfungsi sebagai pengganti benda yang tidak tentu nama yang sebenarnya

masing-masing, barang siapa, seseorang

kata depan (preposisi); kata yang merangkaikan kata-kata atau bagian-bagian kalimat

di, ke, dari, pada

kata sandang (artikula) si, sang

Kata tugas

kata hubung (conjunction) atau konjungtor; kata yang berfungsi sebagai

dan, atau, walaupun

L-1.3

Jenis Kata Keterangan Contoh perangkai kata, bagian kalimat, atau menghubungkan kalimat-kalimat kata seru (interjection) atau interjeksi

ah, ai, ceile

kata partikel; dapat berdiri menjadi kata atau imbuhan

kah, pun, lah, per

L-2.1

Lampiran 2 Awalan dalam Bahasa Indonesia [21]

Awalan yang diserap dari bahasa asing pada Bahasa Indonesia adalah sebagai

berikut:

No. Awalan Arti Jenis Kata yang

Dibentuk

Contoh

1. a- ‘tidak’ atau ‘tidak ber’

Kata sifat amoral, asosial, anonym, asimetris

2. adi- “maha” Kata sifat adidaya, adibusana 3. aero- “udara” Kata benda aeromodeling,

aeromekanika 4. anti- ‘melawan’ atau

‘bertentangan dengan’

Kata sifat antikomunis, antipemerintah, antiklimaks, antimagnet, antikarat

5. bi- ‘dua’ Kata sifat bilateral, biseksual, bilingual, bikonveks

6. de- ‘meniadakan’ atau ‘menghilangkan’

Kata benda dehidrasi, devaluasi, dehumanisasi, deregulasi

7. eks- ‘bekas’ yang sekarang dinyatakan dengan kata ‘mantan’

Kata benda eks-prajurit, eks-presiden, eks-karyawan, eks-partai terlarang

8. ekstra- ‘tambah’, ‘diluar’, atau ‘sangat’

Kata sifat ekstra-universiter, ekstra-terestrial, ekstra linguistic, ekstra-ketat, ekstra-hati-hati

9. hiper- ‘lebih’ atau ‘sangat’ Kata benda hipertensi, hiperseksual, hipersensitif

10. in- ‘tidak’ Kata sifat inkonvensional, inaktif, intransitive

11. infra- ‘di tengah’ Kata benda infrastruktur, inframerah, infrasonic

12. intra- ‘di dalam’ Kata benda intrauniversiter, intramolekuler

13. inter- antar- Kata benda interdental, internasional, interisuler

14. ko- ‘bersama-sama’ atau ‘beserta’

Kata benda kokulikuler, koinsidental, kopilot, kopromotor

15. kontra- ‘berlawanan’ atau ‘menentang’

Kata sifat kontrarevolusi, kontradiksi, kontrasepsi

L-2.2

No. Awalan Arti Jenis Kata yang

Dibentuk

Contoh

16. maha- “besar” Kata benda mahasiswa 17. makro- ‘besar’ atau ‘dalam

arti luas’ Kata benda makrokosmos,

makroekonomi, makrolinguistik

18. mikro- ‘kecil’ atau ‘renik’ Kata benda mikroorganisme, mikrokosmos, microfilm

19. multi- ‘banyak’ Kata sifat multipartai, multijutawan, multikompleks, multilateral, multilingual

20. neo- “baru” Kata benda Neokolonialisme, neofeodalisme, neoralisme

21. non- “bukan” atau “tidak ber-”

Kata sifat nongelar, nominyak, nonmigas, nonberas

22. pra- “sebelum” Kata keterangan

prasejarah, prajabatan, prasekolah

23. pasca- “sudah” Kata keterangan

pascasarjana, pascapanen

24. sub- “bawah” Kata keterangan

subbab, subagian

25. swa- “sendiri” Kata keterangan

swakarya, swasembada, swadaya

26. tuna- “tidak memiliki” Kata benda tunasusila, tunawisma, tunakarya

Awalan dari Bahasa Indonesia adalah sebagai berikut:

No. Awalan Arti Jenis Kata yang Dibentuk

Contoh

1. ber- “memiliki” atau “memakai”

Kata kerja berarti, bersepeda

2. di- Kata kerja disiram, dipakai 3. meN- Kata kerja menyiram, memakai 4. memper- Kata kerja memperalat 5. peN- Kata benda pelukis, pemakai 6. se- “sama” Kata

keterangan sepandai, secepat

7. ter- “paling”, “tidak sengaja”

Kata kerja terpandai, tercepat, terjatuh, terbawa

L-3.1

Lampiran 3 Akhiran dalam Bahasa Indonesia [21]

Akhiran yang diserap dari bahasa asing pada Bahasa Indonesia adalah sebagai

berikut:

No. Akhiran Arti Jenis Kata yang Dibentuk

Contoh

1. -al Kata sifat emosional, intelektual, struktural, aktual

2. -asi/-isasi “proses menjadikan” atau “penambahan”

Kata benda afiksasi, konfirmasi, nasionalisasi, kaderisasi, komputerisasi

3. -asme Kata benda sarkasme, antusiasme

4. -er Kata sifat elementer 5. -et “kecil” Kata Benda mayoret (mayor

kecil), operet (opera kecil)

6. -gram “satuan” atau “alat ukur”

Kata benda audiogram, kilogram

7. -i/-wi/-iah Kata sifat alamiah, duniawi, maknawi, insani

8. -if Kata sifat obyektif, subyektif, naratif

9. -is Kata Benda legendaris, novelis 10. -log “pelaku” Kata benda arkeolog, psikolog 11. -logi “ilmu” Kata benda sosiologi 12. -meter “satuan” atau “alat

ukur” Kata benda argometer,

spedometer, termometer

13. -metri Kata benda audiometri 14. -om “pelaku” Kata benda ekonom, astronom 15. -or “orang yang

memiliki kepandaian”

Kata benda editor, promotor

16. -ur “pelaku” Kata benda donatur, redaktur, debitur

17. -itas Kata benda aktualitas, obyektivitas, produktivitas

18. -man “pelaku laki-laki” Kata benda seniman 19. -wan “pelaku laki-laki” Kata benda wartawan,

sastrawan 20. -wati “pelaku

perempuan” Kata benda seniwati,

wartawati

L-3.2

Akhiran dari Bahasa Indonesia adalah sebagai berikut:

No. Akhiran Jenis Kata yang Dibentuk

Contoh

1. -an Kata benda tarian, tulisan 2. -kan Kata kerja tuliskan, tarikan,

nyanyikan 3. -i Kata kerja terangi, sinari 4. -pun partikel berapapun, sekalipun,

biarpun 5. -lah partikel biarlah, jadilah 6. -kah partikel adakah, siapakah 7. -nya Kata ganti, Kata benda miliknya, putusnya 8. -ku Kata ganti bukuku, tasku 9. -mu Kata ganti bukumu, tasmu

L-4.1

Lampiran 4 Konfiks dalam Bahasa Indonesia [21]

Imbuhan konfiks yang ada dalam bahasa Indonesia adalah sebagai berikut:

No. Konfiks Jenis Kata yang Dibentuk

Contoh

1. ke-an Kata benda kekakuan, keabadian, kepastian

2. ber-an Kata kerja berjatuhan, bertaburan 3. ber-annya Kata kerja berjatuhannya 4. ber-kan Kata kerja bertahtakan 5. di-kan Kata kerja diterbangkan, dituliskan 6. di-i Kata kerja disinari, dijatuhi 7. diper-kan diperlakukan, diperkerjakan 8. meN-kan Kata kerja melakukan, menaburkan,

menerjemahkan 9. meN-i Kata kerja menyinari, menerangi 10. memper-kan Kata kerja memperlakukan,

mempekerjakan 11. peN-an Kata benda pembangkitan 12. per-an Kata benda perlakuan 13. per-kan Kata kerja perlakukan 14. se-nya Kata keterangan seandainya 15. ter-kan Kata kerja terabaikan 16. ter-i Kata kerja terwakili 17. ter-lah Kata kerja terjadilah

L-5.1

Lampiran 5 Aturan Imbuhan dalam Bahasa Indonesia [21]

Aturan imbuhan dalam membentuk jenis kata tanpa pengulangan dalam bahasa

Indonesia adalah sebagai berikut:

Pola Imbuhan Keterangan Contoh kata dasar berawalan huruf “k” dan huruf keduanya merupakan huruf vokal yang mendapat imbuhan meN- dan peN- maka “k” akan melebur menjadi ng, jika huruf keduanya merupakan konsonan maka imbuhan meN- akan menjadi meng-

mengantuk, mengkritik

kata dasar berawalan huruf “s” dan huruf keduanya merupakan huruf vokal yang mendapat imbuhan meN- dan peN- maka “s” akan melebur menjadi ny

menyebar

kata dasar berawalan huruf “p” dan huruf keduanya merupakan huruf vokal yang mendapat imbuhan meN- dan peN- maka “p” akan melebur menjadi m, jika huruf keduanya merupakan konsonan maka imbuhan meN- akan menjadi mem-

memakai, memprediksi

kata dasar berawalan huruf “t” dan huruf keduanya merupakan huruf vokal yang mendapat imbuhan meN- dan peN- maka “t” akan melebur menjadi n-

misalnya menata

huruf “N” pada imbuhan meN- akan dihapus jika kata dasar yang mendapat imbuhan meN- memiliki huruf awal “l”, “m”, “n”, “r”, “y”, “w”, “t”, “s”, “p”, “k” dan huruf keduanya adalah huruf vokal

melukis

huruf “N” pada imbuhan meN- akan menjadi “m” jika kata dasar yang mendapat imbuhan meN- memiliki huruf awal “b”, “f” dan huruf keduanya adalah huruf vokal

memburu

huruf “N” pada imbuhan meN- akan menjadi “nge” jika kata dasar yang mendapat imbuhan meN- memiliki satu suku kata

mengebom

meN + kata dasar (jenis kata bebas) + kan maka akan menghasilkan sebuah kata kerja (verba)

peluluhan huruf tidak berlaku pada beberapa kata seperti kilat, punya, pesona, pengaruh, percaya

mengkilat, mempunyai, mempersona

peN + kata dasar (jenis kata bebas) + an akan

huruf “N” pada imbuhan peN- akan dihapus jika kata dasar yang mendapat

pelukis

L-5.2

Pola Imbuhan Keterangan Contoh imbuhan peN- memiliki huruf awal “l”, “m”, “n”, “r”, “d”, “w”, “t”, “s”, “p”, “k” dan huruf keduanya adalah huruf vokal huruf “N” pada imbuhan peN- akan menjadi “m” jika kata dasar yang mendapat imbuhan peN- memiliki huruf awal “b”, “f” dan huruf keduanya adalah huruf vokal

pemburu

huruf “N” pada imbuhan peN- akan menjadi “nge” jika kata dasar yang mendapat imbuhan peN- memiliki satu suku kata

pengebom

menghasilkan kata benda (nomina)

huruf “N” pada imbuhan peN- akan menjadi “l” jika kata dasar yang mendapat imbuhan peN- adalah “ajar”

pelajar

ke- + kata dasar (jenis kata bebas) + an

akan menghasilkan kata benda (nomina)

kebersamaan

kata dasar (jenis kata kerja, kata benda, kata sifat) + i

akan menghasilkan kata kerja (verba) terangi

beR- + kata dasar akan menghasilkan kata kerja

huruf “R” akan dihilangkan jika bertemu dengan kata yang mengandung “er” setelah huruf pertama kata yang berupa huruf konsonan

becermin, beserta, berternak, bekerja

teR- + kata dasar akan menghasilkan kata kerja

huruf “R” akan dihilangkan jika bertemu dengan kata yang mengandung “er” setelah huruf pertama kata yang berupa huruf konsonan

teperdaya

L-6.1

Lampiran 6 Hasil Pengujian

Berikut adalah hasil pengujian 7 kalimat berbahasa Indonesia dengan pengurai

Collins (kelompok pertama):

Keenam kalimat berikut memiliki pohon kalimat yang sama dan sudah benar.

1. Kalimat:

Kamu makan nasi.

Hasil Penguraian: PROB 35 -134.488 0 TOP NP -134.488 PR 0 Kamu VB 0 makan NN 0 nasi PU 0 . (TOP~(NP~nasi~4~3 Kamu/PR makan/VB nasi/NN ./PU ) ) TIME 0

2. Kalimat:

Adik naik sepeda.

Hasil Penguraian: PROB 34 -134.275 0 TOP NP -134.275 NN 0 Adik VB 0 naik NN 0 sepeda PU 0 . (TOP~(NP~sepeda~4~3 Adik/NN naik/VB sepeda/NN ./PU ) ) TIME 0

TOP/S

.

NP VB NN

NN/PR

PU

.…………

……

L-6.2

3. Kalimat:

Kakak bermain gasing.

Hasil Penguraian: PROB 34 -134.275 0 TOP NP -134.275 NN 0 Kakak VB 0 bermain NN 0 gasing PU 0 . (TOP~(NP~gasing~4~3 Kakak/NN bermain/VB gasing/NN ./PU ) ) TIME 0

4. Kalimat:

Ibu menyiram bunga.

Hasil Penguraian: PROB 34 -134.275 0 TOP NP -134.275 NN 0 Ibu VB 0 menyiram NN 0 bunga PU 0 . (TOP~(NP~bunga~4~3 Ibu/NN menyiram/VB bunga/NN ./PU ) ) TIME 0

5. Kalimat:

Sapi makan rumput.

Hasil Penguraian: PROB 34 -134.275 0 TOP NP -134.275 NN 0 Sapi VB 0 makan NN 0 rumput PU 0 . (TOP~(NP~rumput~4~3 Sapi/NN makan/VB rumput/NN ./PU ) ) TIME 0

L-6.3

6. Kalimat:

Adik tidur kasur.

Hasil Penguraian: PROB 34 -134.275 0 TOP NP -134.275 NN 0 Adik VB 0 tidur NN 0 kasur PU 0 . (TOP~(NP~kasur~4~3 Adik/NN tidur/VB kasur/NN ./PU ) ) TIME 0

7. Kalimat:

Kamu mandi air hangat.

Hasil Penguraian: PROB 52 -179.642 0 TOP NP -179.642 NN 0 Nenek VB 0 mandi NN 0 air JJ 0 hangat PU 0 . (TOP~(NP~air~5~3 Nenek/NN mandi/VB air/NN hangat/JJ ./PU ) ) TIME 0

Analisis:

Hasilnya belum terlalu benar, seharusnya:

TOP/S

.

NP VB NN

NN

PU

. air.mandi

Nenek

JJ

hangat

L-6.4

Berikut adalah hasil pengujian 15 kalimat berbahasa Indonesia dengan pengurai

Collins (kelompok kedua):

1. Kalimat:

Benar, Malin Kundang berisi cerita tentang anak yang durhaka kepada ibunya

sehingga ia dikutuk oleh Tuhan dan menjadi batu.

Hasil Penguraian: PROB 0 0 0 (TOP Benar/JJ ,/PU Malin/NN Kundang/NN berisi/VB cerita/NN tentang/CC anak/NN yang/AR durhaka/JJ kepada/IN ibunya/NN sehingga/CS ia/PR dikutuk/VB oleh/IN Tuhan/NN dan/CC menjadi/VB batu/NN ./PU ) TIME 0

Kesimpulan: tidak berhasil diuraikan

2. Kalimat:

Tema cerita Malin Kundang dari Sumatra Barat ini ternyata juga bisa ditemui di

daerah lain di Indonesia.

TOP/S

.

NP VB NP

NN

PU

.

air.

mandi

Nenek

NN

hangat

JJ

L-6.5

Hasil Penguraian: PROB 1940 -141.056 0 TOP ADVP -141.056 NP -24.829 NN 0 Tema NN 0 cerita NN 0 Malin NN 0 Kundang ADVP -14.2142 IN 0 dari NP -12.8468 NN 0 Sumatra NN 0 Barat ADVP -7.08349 NP -0.0849127 PR 0 ini VB 0 ternyata JJ 0 juga VP -1.83674 AUX 0 bisa ADVP -22.1767 VB 0 ditemui ADVP -16.4728 IN 0 di NP -14.0432 NN 0 daerah JJ 0 lain ADVP -1.48604 IN 0 di NN 0 Indonesia PU 0 . (TOP~(ADVP~bisa~3~2 (NP~Tema~5~1 Tema/NN cerita/NN Malin/NN Kundang/NN (ADVP~dari~2~1 dari/IN (NP~Sumatra~3~1 Sumatra/NN Barat/NN (ADVP~ternyata~3~2 (NP~ini~1~1 ini/PR ) ternyata/VB juga/JJ ) ) ) ) (VP~bisa~1~1 bisa/AUX ) (ADVP~ditemui~2~1 ditemui/VB (ADVP~di~2~1 di/IN (NP~daerah~4~1 daerah/NN lain/JJ (ADVP~di~2~1 di/IN Indonesia/NN ) ./PU ) ) ) ) ) TIME 0

.

Sumatra Barat

TOP/S

ADVP

NP

NN NN NN NN ADVP

Tema cerita

Malin Kundang IN NP

NN NN ADVP

PR VB JJ

dari

ini ternyata juga

VP

AUX

bisa

ADVP

VB ADVP

IN NP

NN JJ ADVP

IN NN

ditemui

di

daerah

lain

di

PU

Indonesia

L-6.6

Analisis:

Hasilnya belum terlalu benar, seharusnya:

3. Kalimat:

Apakah daerahmu juga ada cerita semacam ini?

Hasil Penguraian: PROB 243 -73.5044 0 TOP SBAR -73.5044 WH 0 Apakah NP -28.0113 NN 0 daerahmu JJ 0 juga ADVP -12.5391 VB 0 ada NP -7.54928 NN 0 cerita ADVP -4.5644 VB 0 semacam PR 0 ini PU 0 ? (TOP~(SBAR~Apakah~2~1 Apakah/WH (NP~daerahmu~5~1 daerahmu/NN juga/JJ (ADVP~ada~2~1 ada/VB (NP~cerita~2~1 cerita/NN (ADVP~semacam~1~1 semacam/VB ) ) ) ini/PR ?/PU ) ) ) TIME 0

dari

Sumatra

Barat

TOP/S

NP

NN

NN

NN NN ADVP

Tema

cerita Kundang

IN NP

NN NN

ADVP

PR VB JJ

ini

ternyata

juga

Malin

VP

AUX

bisa

VB

ditemui

ADVP

IN

di

NN

daerah

JJ

lain

ADVP

IN

di

NN

Indonesia

PU

.

L-6.7

Analisis:

Hasilnya belum terlalu benar, seharusnya

daerahmu

TOP/S

SBAR

.

WH

NN

JJ VB

NN ADVP

VB PR

PU

Apakah

juga ada semacam

ini

?

VP

cerita

cerita

TOP/S

SBAR

.WH NP

NN JJ ADVP

VB NP

NN ADVP

VB

PR PU Apakah

daerahmu

juga

ada

semacam

ini ?

L-6.8

4. Kalimat:

Kalau ada, tulislah dengan singkat cerita itu!

Hasil Penguraian: PROB 0 0 0 (TOP Kalau/CS ada/VB ,/PU tulislah/VB dengan/IN singkat/JJ cerita/NN itu/PR !/PU ) TIME 0


5. Kalimat:

Setelah kamu dengarkan dongeng tadi, buatlah pertanyaan-pertanyaan tentang

isi dongeng.

Hasil Penguraian: PROB 331 -38.3071 0 TOP ADVP -38.3071 RB 0 Setelah NP -0.0122658 PR 0 kamu VB 0 dengarkan NP -8.83124 NN 0 dongeng RB 0 tadi PU 0 , VB 0 buatlah NP -18.5667 NN 0 pertanyaan-pertanyaan ADVP -4.0535 CC 0 tentang NN 0 isi NN 0 dongeng PU 0 . (TOP~(ADVP~Setelah~6~1 Setelah/RB (NP~kamu~1~1 kamu/PR ) dengarkan/VB (NP~dongeng~3~1 dongeng/NN tadi/RB ,/PU ) buatlah/VB (NP~pertanyaan-pertanyaan~4~1 pertanyaan-pertanyaan/NN (ADVP~tentang~2~1 tentang/CC isi/NN ) dongeng/NN ./PU ) ) ) TIME 0

L-6.9

Analisis:


6. Kalimat

Pertanyaan yang kamu buat dapat dimulai dengan kata-kata seperti di bawah ini,

atau kamu kembangkan pertanyaan sendiri.

TOP/S

.

ADVP

RB

Setelah

NP

PR

kamu

VB NP

dengarkan NN

dongeng

RB

tadi

PU

,

VB

buatlah

NP

NN

pertanyaan-pertanyaan

ADVP

CC

tentang NN

isi

NN

PU

dongeng

.

NP

TOP/S

.

ADVP

RB

Setelah

NP

PR

kamu

VB NP

dengarkan NN

dongeng

RB

tadi

PU

,

VB

buatlah

NP

NN

pertanyaan-pertanyaan

ADVP

CC

tentang

NN

isi

NN PU

dongeng .

L-6.10

Hasil Penguraian: PROB 0 0 0 (TOP Pertanyaan/NN yang/AR kamu/PR buat/IN dapat/AUX dimulai/VB dengan/IN kata-kata/NN seperti/IN di/IN bawah/NN ini/PR ,/PU atau/CC kamu/PR kembangkan/VB pertanyaan/NN sendiri/RB ./PU ) TIME 0


7. Kalimat:

Sekarang, bentuklah kelompok diskusi yang masing-masing anggotanya terdiri

atas empat atau lima orang.

Hasil Penguraian: PROB 0 0 0 (TOP Sekarang/RB ,/PU bentuklah/VB kelompok/NN diskusi/NN yang/AR masing-masing/RB anggotanya/JJ terdiri/VB atas/NN empat/CD atau/CC lima/CD orang/NN ./PU ) TIME 0


8. Kalimat:

Diskusikan jawaban pertanyaan-pertanyaan yang telah kalian buat.

Hasil Penguraian: PROB 0 0 0 (TOP Diskusikan/VB jawaban/NN pertanyaan-pertanyaan/NN yang/AR telah/RB kalian/NN buat/IN ./PU ) TIME 0


9. Kalimat:

Ketika kita mendengarkan dongeng, kita dapat mengemukakan hal-hal menarik

yang ada di dalam dongeng itu.

L-6.11

Hasil Penguraian: PROB 0 0 0 (TOP Ketika/CS kita/PR mendengarkan/VB dongeng/NN ,/PU kita/PR dapat/AUX mengemukakan/VB hal-hal/JJ menarik/VB yang/AR ada/VB di/IN dalam/JJ dongeng/NN itu/PR ./PU ) TIME 0


10. Kalimat:

Dari pelatihan di atas, kalian makin paham tentang dongeng Asal Mula Pulau Si

Kantan.

Hasil Penguraian: PROB 699 -55.0438 0 TOP ADVP -55.0438 IN 0 Dari NP -9.66809 NN 0 pelatihan ADVP -1.48604 IN 0 di NN 0 atas PU 0 , NP -16.8687 NN 0 kalian RB 0 makin NN 0 paham ADVP -4.0535 CC 0 tentang NN 0 dongeng NP -3.77636 NN 0 Asal NN 0 Mula NN 0 Pulau NP -13.0951 AR 0 Si NN 0 Kantan PU 0 . (TOP~(ADVP~Dari~5~1 Dari/IN (NP~pelatihan~3~1 pelatihan/NN (ADVP~di~2~1 di/IN atas/NN ) ,/PU ) (NP~kalian~4~1 kalian/NN makin/RB paham/NN (ADVP~tentang~2~1 tentang/CC dongeng/NN ) ) (NP~Asal~3~1 Asal/NN Mula/NN Pulau/NN ) (NP~Kantan~3~2 Si/AR Kantan/NN ./PU ) ) ) TIME 0

L-6.12

Analisis:


11. Kalimat:

Sekarang, diskusikan dengan teman-temanmu tentang hal-hal menarik dalam

dongeng tersebut!

NN

Dari

,

NN ADVP

PU NN

RB

TOP/S

ADVP

IN NP

IN NN

pelatihan

di

atas

Si

NN

kalian

makin

paham

ADVP

CC

tentang

dongeng

NP

NN NN NN

Asal

Mula

Pulau

NP

AR

Kantan

NN

PU

.

VP

NN ADVP PU NN RB

TOP/S

ADVP

IN

Dari

NP

IN NN

pelatihan

di

atas

,

NP

Si

NN

kalian

makin

paham

ADVP

CC

tentang

NN

dongeng

NP

NN NN NN

Asal

Mula

Pulau

NP

AR

Kantan

NN PU

.

L-6.13

Hasil Penguraian: PROB 0 0 0 (TOP Sekarang/RB ,/PU diskusikan/VB dengan/IN teman-temanmu/NN tentang/CC hal-hal/JJ menarik/VB dalam/JJ dongeng/NN tersebut/PR !/PU ) TIME 0


12. Kalimat:

Berikan alasanmu mengapa hal itu menarik!

Hasil Penguraian: PROB 142 -68.0479 0 TOP ADVP -68.0479 VB 0 Berikan JJ 0 alasanmu PR 0 mengapa NP -14.2859 NN 0 hal ADVP -4.64666 NP -0.0705103 PR 0 itu VB 0 menarik PU 0 ! (TOP~(ADVP~Berikan~4~1 Berikan/VB alasanmu/JJ mengapa/PR (NP~hal~3~1 hal/NN (ADVP~menarik~2~2 (NP~itu~1~1 itu/PR ) menarik/VB ) !/PU ) ) ) TIME 0

mengapa

ADVP

.

VB

Berikan

JJ

alasanmu

PR NP

NN ADVP

NP

PR

VB

PU

hal

itu

menarik

!

TOP/S

L-6.14

Analisis:


13. Kalimat:

Hasilnya tempelkan di papan tulis.

Hasil Penguraian: PROB 89 -21.83 0 TOP NP -21.83 NN 0 Hasilnya NN 0 tempelkan ADVP -16.0802 IN 0 di NP -13.6505 NN 0 papan ADVP -4.89085 VB 0 tulis PU 0 . (TOP~(NP~Hasilnya~3~1 Hasilnya/NN tempelkan/NN (ADVP~di~2~1 di/IN (NP~papan~3~1 papan/NN (ADVP~tulis~1~1 tulis/VB ) ./PU ) ) ) ) TIME 0

mengapa .

VB

Berikan

JJ

alasanmu

PR SBAR

NP

PR

VB

PU

hal itu

menarik

!

NN

TOP/S

L-6.15

Analisis:


14. Kalimat:

Pengalaman menarik itu sulit untuk dilupakan.

TOP/S

.

NP NN ADVP

NN IN NP

NN VB PUHasilnya

tempelkan

di

papan tulis

.

TOP/S

.

NP NN ADVP

NN IN NP

NN ADVP

VB

PUHasilnya

tempelkan

di

papan

tulis

.

L-6.16

Hasil Penguraian: PROB 122 -34.0868 0 TOP NP -34.0868 NN 0 Pengalaman ADVP -25.5112 VB 0 menarik PR 0 itu ADJP -5.53983 JJ 0 sulit IN 0 untuk ADVP -3.57408 VB 0 dilupakan PU 0 . (TOP~(NP~Pengalaman~3~1 Pengalaman/NN (ADVP~menarik~4~1 menarik/VB itu/PR (ADJP~sulit~2~1 sulit/JJ untuk/IN ) (ADVP~dilupakan~1~1 dilupakan/VB ) ) ./PU ) ) TIME 0

Analisis:


TOP/S

.

NP

NN

Pengalaman

VP

VB

menarik

PR

itu

ADJP

JJ

sulit

IN

untuk

VB

dilupakan

PU

.

TOP/S

.

NP

NN

Pengalaman

ADVP

VB

menarik

PR

itu

ADJP

JJ

sulit

IN

untuk

ADVP

VB

dilupakan

PU

.

L-6.17

15. Kalimat:

Pengalaman berkesan tidak harus pengalaman yang kamu alami sendiri.

Hasil Penguraian: PROB 195 -173.707 0 TOP NP -173.707 NN 0 Pengalaman ADVP -61.349 VP -53.0975 VB 0 berkesan RB 0 tidak VP -2.86092 AUX 0 harus NN 0 pengalaman ADVP -95.8387 AR 0 yang NP -0.0122658 PR 0 kamu JJ 0 alami RB 0 sendiri PU 0 . (TOP~(NP~Pengalaman~5~1 Pengalaman/NN (ADVP~berkesan~1~1 (VP~berkesan~3~1 berkesan/VB tidak/RB (VP~harus~1~1 harus/AUX ) ) ) pengalaman/NN (ADVP~alami~4~3 yang/AR (NP~kamu~1~1 kamu/PR ) alami/JJ sendiri/RB ) ./PU ) ) TIME 0

TOP/S

.

NP

NN

ADVP

Pengalaman

VP

VB

berkesan

RB

tidak

VP

AUX

harus

NN

pengalaman

ADVP

AR

yang

NP

PR

kamu

JJ

alami

RB

sendiri

PU

.

L-6.18

Analisis:


TOP/S

.

NP

NN

VP

Pengalaman

VB

berkesan

RB

tidak

VP

AUX

harus

NN

pengalaman

ADVP

AR

yang

NP

PR

kamu

JJ

alami

RB

sendiri

PU

.

NP

L-7.1

Lampiran 7 Aturan Grammar Hasil Pembangkitan Pemrosesan Awal (preprocessing) dan Aturan Grammar yang Digunakan

Berikut adalah hasil pembangkitan aturan grammar dari treebank: L ADJP ADJP CC L ADJP RB PR L ADJP RB AUX L ADJP AUX JJ L ADJP AR AUX L ADJP CC JJ L ADJP VB CC L ADJP JJ JJ L ADJP RB RB L ADJP JJ ADVP L ADJP VB NN L ADJP NP VB L ADJP RB NP L ADJP AR RB L ADJP JJ NN L ADJP AR JJ L ADJP AUX VB L ADJP IN CD L ADJP JJ VP L ADJP VB JJ L ADJP IN JJ L ADJP RB IN L ADJP IN NN L ADJP IN PR L ADJP JJ IN L ADJP JJ CC L ADJP RB VB L ADJP RB JJ L ADVP ADJP NP L ADVP SBAR SBAR L ADVP CC VB L ADVP NN NP L ADVP RB NN L ADVP NN PR L ADVP VP ADVP L ADVP IN ADVP L ADVP NP IN L ADVP VB PR L ADVP IN SBAR L ADVP SBAR CC L ADVP RB SBAR L ADVP PU ADJP L ADVP VP IN L ADVP CD PU L ADVP SYM CD L ADVP CD SYM L ADVP PU CD L ADVP CC ADVP L ADVP NP ADVP L ADVP NN RB L ADVP JJ CD

L ADVP CD IN L ADVP VB CD L ADVP ADVP NP L ADVP CS NN L ADVP AR SBARQ L ADVP IN ADJP L ADVP RB RB L ADVP CD NN L ADVP CC CD L ADVP CD CC L ADVP NN CD L ADVP VB NN L ADVP RB ADVP L ADVP IN RB L ADVP CS IN L ADVP JJ PU L ADVP PU JJ L ADVP ADJP PU L ADVP CC JJ L ADVP JJ CC L ADVP NP JJ L ADVP ADVP NN L ADVP NN ADVP L ADVP NN NN L ADVP AR ADJP L ADVP AR VP L ADVP NP ADJP L ADVP NN ADJP L ADVP PU NN L ADVP NN PU L ADVP VB CC L ADVP VP NP L ADVP IN VP L ADVP AR ADVP L ADVP CC NP L ADVP PU CC L ADVP NP PU L ADVP JJ NP L ADVP NN JJ L ADVP JJ VB L ADVP PR VB L ADVP CS SBAR L ADVP NP VP L ADVP CS VB L ADVP PU NP L ADVP CD NP L ADVP IN CD L ADVP NP CC L ADVP RB NP L ADVP AR RB L ADVP VB NP L ADVP NN CC

L ADVP JJ AR L ADVP JJ RB L ADVP IN NP L ADVP JJ JJ L ADVP CD JJ L ADVP NN VB L ADVP CC NN L ADVP AR AUX L ADVP AR PR L ADVP RB VB L ADVP NP VB L ADVP AUX NP L ADVP AR JJ L ADVP JJ ADVP L ADVP JJ NN L ADVP CC SBAR L ADVP NN VP L ADVP AR NN L ADVP IN JJ L ADVP AUX JJ L ADVP RB JJ L ADVP AUX VB L ADVP PR ADVP L ADVP CC PR L ADVP VB ADJP L ADVP IN VB L ADVP AUX IN L ADVP VB ADVP L ADVP IN NN L ADVP AR VB L ADVP AR NP L NP ADJP VB L NP CC PR L NP PU IN L NP PR PU L NP PU PR L NP WH PU L NP NN WH L NP AUX VB L NP ADVP NN L NP PR ADJP L NP CC CC L NP RP NN L NP NN RP L NP JJ CD L NP VB VB L NP CC NN L NP CC JJ L NP JJ PU L NP PU JJ L NP VB ADJP L NP CC VB

L NP NN CD L NP VB JJ L NP JJ NP L NP VB AR L NP CC ADVP L NP JJ ADVP L NP CC NP L NP PU CC L NP PU NN L NP NN PU L NP VB ADVP L NP NP CC L NP NP VP L NP PU NP L NP ADVP PU L NP AR NN L NP NP NN L NP JJ VB L NP AR VB L NP NN NP L NP PR ADVP L NP RB NN L NP NN RB L NP NN ADJP L NP CD NN L NP JJ PR L NP IN PR L NP NN IN L NP JJ NN L NP NN CC L NP VB NP L NP NN ADVP L NP NN AR L NP NN PR L NP NN NN L NP NN JJ L NP NN VB L S ADJP ADVP L S ADVP CC L S WH NP L S VB WH L S CC PU L S PR SBAR L S SBAR PR L S CC NP L S VB CC L S CC SBAR L S ADVP SBAR L S CS ADVP L S ADVP JJ L S JJ NP L S PR NN

L-7.2

L S VB PR L S IN NP L S NP IN L S PU SBAR L S CS SBAR L S ADVP ADJP L S ADVP NP L S NP NP L S VB NP L S SBAR CS L S VB NN L S JJ PU L S VP JJ L S PU NN L S VP NP L S PU NP L S ADJP PU L S VP PU L S PU PR L S ADVP NN L S NP PU L S VB ADVP L S PU CC L S PU VP L S NN PU L S VP NN L S PU VB L S PU ADVP L S PR SBARQ L S NP ADVP L S SBARQ PU L S WH SBARQ L S VB PU L S SBAR PU L S SBAR SBAR L S ADJP VP L S WH ADVP L S SBAR WH L S SBAR CC L S NN ADVP L S ADJP NN L S ADVP ADVP L S ADVP VB L S ADJP VB L S NN ADJP L S ADVP PU L S NP ADJP L S NP VP L S NP AUX L S CC NN L S AR VB L S VP ADVP L S NN VP L S NN VB L S WH AR L S NP VB L SBAR ADJP NP L SBAR ADVP NP L SBAR RB NP

L SBAR VB RB L SBAR ADVP VB L SBAR VP NP L SBAR CS ADJP L SBAR CS NN L SBAR NP JJ L SBAR ADJP VP L SBAR NN ADJP L SBAR PR VB L SBAR NN NP L SBAR NP ADJP L SBAR IN WH L SBAR VP ADJP L SBAR VB ADVP L SBAR VP ADVP L SBAR NP VP L SBAR WH SBARQ L SBAR NN VB L SBAR NP ADVP L SBAR VB ADJP L SBAR VB NP L SBAR VB NN L SBAR PR ADVP L SBAR NN VP L SBAR NP VB L SBARQ ADVP NN L SBARQ NN VB L SBARQ AR NP L SBARQ CC NN L SBARQ VB CC L SBARQ NP VB L VP AUX JJ L VP CC VB L VP JJ CC L VP RB NP L VP VB RB L VP RB AUX L VP JJ VB L VP VB VB L VP JJ AUX L VP CD VB L VP VB CC L VP RB JJ L VP VB NN L VP RB FW L VP JJ PU L VP RB VB L VP AUX NN L VP NN JJ L VP NN ADVP L VP AUX VB L VP VB ADJP L VP VB JJ R ADJP CC ADJP R ADJP CC VB R ADVP ADJP ADVP R ADVP PR ADVP R ADVP VB PR

R ADVP ADJP NP R ADVP IN NP R ADVP VP IN R ADVP ADJP NN R ADVP NN VB R ADVP NP ADVP R ADVP JJ ADVP R ADVP JJ NP R ADVP VP NP R ADVP CC VP R ADVP CC IN R ADVP CC NN R ADVP PR NN R ADVP VB ADJP R ADVP VB ADVP R ADVP VP ADVP R ADVP NN JJ R ADVP NP JJ R ADVP NN PR R ADVP RB ADVP R ADVP CC RB R ADVP NN ADJP R ADVP VB IN R ADVP IN NN R ADVP NN ADVP R ADVP VB JJ R ADVP VP NN R ADVP VB NP R ADVP VB NN R NP ADVP ADVP R NP NP ADVP R NP RB NP R NP VB RB R NP VB NP R NP CD NN R NP NN CD R NP VP ADVP R NP CC NP R NP CC ADVP R NP NN NN R NP CC NN R NP NN ADVP R NP JJ ADVP R NP NN JJ R NP NN PR R NP NN PU R NP VB NN R S ADJP ADVP R S NP VB R S CC NN R S NN CC R S CS SBAR R S NP ADVP R S ADJP PU R S NP ADJP R S PR VB R S PU ADVP R S VP NP R S NP PU

R S VB NP R S PR PU R S VB PR R S VP VB R S VB JJ R S RB PU R S NN RB R S WH ADVP R S VP NN R S SBAR PU R S CC SBAR R S VB VB R S ADVP ADVP R S JJ PU R S VP JJ R S VP PU R S NN ADVP R S ADVP PU R S NN ADJP R S AUX NN R S VP ADVP R S NN VB R S NN PU R S VB NN R S VB ADVP R S VB PU R SBAR NN ADJP R SBAR RB NP R SBAR VB RB R SBAR VB ADVP R SBAR VP NP R SBAR NP ADVP R SBAR VB NN R SBAR VB NP R SBARQ NN ADVP R SBARQ VB NP R SBARQ VB ADVP R SBARQ VB NN R VP CC VB R VP VB ADVP U ADJP CC U ADJP VB U ADVP ADJP U ADVP AUX U ADVP VP U ADVP NP U ADVP JJ U ADVP RB U ADVP VB U NP PR U NP RB U NP RP U S NP U SBAR NP U SBAR VP U SBARQ NP U VP ADJP U VP ADVP U VP AUX

L-7.3

U VP JJ U VP VB X ADJP CC 00000 X ADJP VB 00000 X ADVP ADJP 00000 X ADVP AUX 00000 X ADVP VP 00000 X ADVP NP 00000 X ADVP JJ 00000 X ADVP RB 00000 X ADVP VB 00000 X NP PR 00000 X NP RB 00000 X NP RP 00000 X S NP 00000 X SBAR NP 00000 X SBAR VP 00000 X SBARQ NP 00000 X VP ADJP 00000 X VP ADVP 00000 X VP AUX 00000 X VP JJ 00000 X VP VB 00000 Y ADJP CC 00000 Y ADJP VB 00000 Y ADVP ADJP 00000 Y ADVP AUX 00000 Y ADVP VP 00000 Y ADVP NP 00000 Y ADVP JJ 00000 Y ADVP RB 00000 Y ADVP VB 00000 Y NP PR 00000 Y NP RB 00000 Y NP RP 00000 Y S NP 00000 Y SBAR NP 00000 Y SBAR VP 00000 Y SBARQ NP 00000 Y VP ADJP 00000 Y VP ADVP 00000 Y VP AUX 00000 Y VP JJ 00000 Y VP VB 00000

L-7.4

Keseluruhan aturan grammar (1124 aturan grammar) yang digunakan pada tesis

ini adalah sebagai berikut:

L ADJP ADJP CC L ADJP ADJP JJ L ADJP ADJP NP L ADJP ADJP RB L ADJP ADVP ADJP L ADJP ADVP CC L ADJP ADVP IN L ADJP ADVP JJ L ADJP ADVP RB L ADJP ADVP VB L ADJP FW RB L ADJP JJ ADJP L ADJP JJ CC L ADJP JJ CD L ADJP JJ IN L ADJP JJ JJ L ADJP JJ NN L ADJP JJ NP L ADJP JJ PR L ADJP JJ RB L ADJP JJ WH L ADJP NN ADVP L ADJP NN CD L ADJP NN IN L ADJP NN JJ L ADJP NN NN L ADJP NN NP L ADJP NN RB L ADJP NN VB L ADJP NP LRB L ADJP NP IN L ADJP NP RB L ADJP RB IN L ADJP RB RB L ADJP SBAR RB L ADJP VB JJ L ADJP VB RB L ADJP VB IN L ADJP VB NP L ADJP RB JJ L ADJP RB VB L ADJP IN JJ L ADJP IN PR L ADJP IN NN L ADJP IN CD L ADJP JJ VP L ADJP AUX VB L ADJP AR JJ L ADJP AR RB L ADJP RB NP L ADJP NP VB L ADJP VB NN L ADJP JJ ADVP

L ADJP VB CC L ADJP CC JJ L ADJP AR AUX L ADJP AUX JJ L ADJP RB AUX L ADJP RB PR L ADVP ADJP NP L ADVP ADVP ADJP L ADVP ADVP ADVP L ADVP ADVP IN L ADVP ADVP NP L ADVP ADVP RP L ADVP FW FW L ADVP FW NP L ADVP IN NN L ADVP IN NP L ADVP JJ IN L ADVP JJ NN L ADVP JJ NP L ADVP JJ VB L ADVP JJ JJ L ADVP NN NN L ADVP NP NP L ADVP NP RP L ADVP RB ADVP L ADVP RB CC L ADVP RB IN L ADVP RB JJ L ADVP RB NN L ADVP RB NP L ADVP RB PR L ADVP RB RB L ADVP RB RP L ADVP RB VB L ADVP AR NN L ADVP AR NP L ADVP AR VB L ADVP VB ADVP L ADVP AUX IN L ADVP IN VB L ADVP VB ADJP L ADVP CC PR L ADVP PR ADVP L ADVP AUX VB L ADVP VB NN L ADVP AUX JJ L ADVP IN JJ L ADVP AR JJ L ADVP NN VP L ADVP CC SBAR L ADVP JJ ADVP L ADVP AR ADVP

L ADVP AUX NP L ADVP NP VB L ADVP AR PR L ADVP AR AUX L ADVP CC NN L ADVP NN VB L ADVP CD JJ L ADVP JJ RB L ADVP JJ AR L ADVP NN CC L ADVP VB NP L ADVP AR RB L ADVP NP CC L ADVP IN CD L ADVP CD NP L ADVP PU NP L ADVP CS VB L ADVP NP VP L ADVP CS SBAR L ADVP PR VB L ADVP NN JJ L ADVP NP PU L ADVP PU CC L ADVP CC NP L ADVP AR ADJP L ADVP IN VP L ADVP VP NP L ADVP VB CC L ADVP NN PU L ADVP PU NN L ADVP NN ADJP L ADVP NP ADJP L ADVP AR VP L ADVP ADVP NN L ADVP NN ADVP L ADVP ADJP RP L ADVP NP JJ L ADVP JJ CC L ADVP CC JJ L ADVP ADJP PU L ADVP PU JJ L ADVP JJ PU L ADVP CS IN L ADVP IN RB L ADVP NN CD L ADVP CD CC L ADVP CC CD L ADVP CD NN L ADVP IN ADJP L ADVP AR SBARQ L ADVP CS NN L ADVP VB CD L ADVP CD IN L ADVP JJ CD

L ADVP NN RB L ADVP NP ADVP L ADVP CC ADVP L ADVP PU CD L ADVP CD SYM L ADVP SYM CD L ADVP CD PU L ADVP VP IN L ADVP PU ADJP L ADVP RB SBAR L ADVP SBAR CC L ADVP IN SBAR L ADVP VB PR L ADVP NP IN L ADVP IN ADVP L ADVP VP ADVP L ADVP NN PR L ADVP NN NP L ADVP CC VB L ADVP SBAR SBAR L NP ADJP VB L NP NN ADJP L NP NN CC L NP NN JJ L NP NN NN L NP NN NP L NP NN PR L NP NN RB L NP NN VB L NP NP LRB L NP NP ADJP L NP NP ADVP L NP NP CC L NP NP CD L NP NP IN L NP NP PR L NP NP RB L NP NP S L NP NP SBAR L NP NN ADVP L NP NN AR L NP JJ NP L NP VB NP L NP JJ NN L NP NN IN L NP IN PR L NP JJ PR L NP CD NN L NP RB NN L NP PR ADVP L NP AR VB L NP JJ VB L NP NP NN

L-7.5

L NP AR NN L NP ADVP PU L NP PU NP L NP NP VP L NP VB ADVP L NP NN PU L NP PU NN L NP PU CC L NP CC NP L NP JJ ADVP L NP CC ADVP L NP VB AR L NP VB JJ L NP NN CD L NP CC VB L NP VB ADJP L NP PU JJ L NP JJ PU L NP CC JJ L NP CC NN L NP VB VB L NP JJ CD L NP NN RP L NP RP NN L NP CC CC L NP PR ADJP L NP ADVP NN L NP AUX VB L NP NN WH L NP WH PU L NP PU PR L NP PR PU L NP PU IN L NP CC PR L S ADJP ADVP L S ADJP NP L S ADJP RB L S ADJP VB L S IN CC L S IN PR L S IN S L S IN SBAR L S NP LRB L S NP ADVP L S SBAR ADJP L S SBAR NP L S VP LRB L S VP RRB L S VP ADJP L S VP ADVP L S VP CC L S VP MD L S VP NP L S VP PR L S VP RB L S VP SBAR L S VP SBARQ L S VP VB L S VP WH

L S VP X L S NN VB L S NP VB L S WH AR L S AR VB L S NN VP L S ADVP PU L S CC NN L S NP AUX L S NP VP L S NP ADJP L S NN ADJP L S ADVP VB L S ADVP ADVP L S ADJP NN L S NN ADVP L S SBAR CC L S SBAR WH L S WH ADVP L S ADJP VP L S SBAR SBAR L S SBAR PU L S VB PU L S WH SBARQ L S SBARQ PU L S PR SBARQ L S PU ADVP L S PU VB L S VP NN L S NN PU L S PU VP L S PU CC L S VB ADVP L S NP PU L S ADVP NN L S PU PR L S VP PU L S ADJP PU L S PU NP L S PU NN L S VP JJ L S JJ PU L S VB NN L S SBAR CS L S VB NP L S NP NP L S ADVP NP L S ADVP ADJP L S CS SBAR L S PU SBAR L S NP IN L S IN NP L S VB PR L S PR NN L S JJ NP L S ADVP JJ L S CS ADVP L S ADVP SBAR L S CC SBAR

L S VB CC L S CC NP L S SBAR PR L S PR SBAR L S CC PU L S VB WH L S WH NP L S ADVP CC L SBAR ADJP NP L SBAR IN LRB L SBAR IN ADVP L SBAR IN CC L SBAR IN NP L SBAR IN RB L SBAR SBAR ADVP L SBAR SBAR RB L SBAR WH ADVP L SBAR WH CC L SBAR WH IN L SBAR WH RB L SBAR WH LRB L SBAR NP VB L SBAR NN VP L SBAR NN VB L SBAR PR ADVP L SBAR VB NN L SBAR VB NP L SBAR VB ADJP L SBAR NP ADVP L SBAR IN WH L SBAR WH SBARQ L SBAR NP VP L SBAR VP ADVP L SBAR VB ADVP L SBAR VP ADJP L SBAR IN ADJP L SBAR NP ADJP L SBAR NN NP L SBAR PR VB L SBAR NN ADJP L SBAR ADJP VP L SBAR NP JJ L SBAR CS NN L SBAR CS ADJP L SBAR VP NP L SBAR ADVP VB L SBAR VB RB L SBAR RB NP L SBAR ADVP NP L SBARQ ADVP NN L SBARQ NP VB L SBARQ VB CC L SBARQ CC NN L SBARQ AR NP L SBARQ NN VB L VP ADJP ADVP L VP ADJP NN L VP ADJP NP

L VP ADJP RB L VP MD LRB L VP MD ADVP L VP MD PR L VP NN ADVP L VP NP ADVP L VP NP CC L VP NP IN L VP NP JJ L VP NP NN L VP NP PR L VP NP RB L VP NP SYM L VP VB LRB L VP VB ADVP L VP VB CC L VP VB NN L VP VB PR L VP VB RB L VP VB VB L VP VP ADVP L VP VP CC L VP VP NN L VP VP NP L VP VP RB L VP VP SBAR L VP VP X L VP VB JJ L VP AUX JJ L VP VB ADJP L VP AUX VB L VP NN JJ L VP AUX NN L VP RB VB L VP JJ PU L VP RB FW L VP RB JJ L VP CD VB L VP JJ AUX L VP JJ VB L VP RB AUX L VP RB NP L VP JJ CC L VP CC VB L WH CC JJ L WH CC RB R ADJP ADJP ADJP R ADJP ADJP RRB R ADJP ADJP LRB R ADJP ADJP ADVP R ADJP ADJP IN R ADJP ADJP JJ R ADJP ADJP NP R ADJP ADJP PR R ADJP ADJP RB R ADJP ADJP SBAR

L-7.6

R ADJP ADVP LRB R ADJP ADVP ADJP R ADJP ADVP ADVP R ADJP ADVP IN R ADJP ADVP JJ R ADJP ADVP NP R ADJP ADVP PR R ADJP ADVP RB R ADJP ADVP SBAR R ADJP ADVP VB R ADJP CD CD R ADJP CD JJ R ADJP FW FW R ADJP IN NN R ADJP JJ ADVP R ADJP JJ CD R ADJP JJ IN R ADJP JJ JJ R ADJP JJ NN R ADJP JJ NP R ADJP JJ PR R ADJP JJ RB R ADJP JJ SBAR R ADJP JJ VB R ADJP NN CD R ADJP NN FW R ADJP NN JJ R ADJP NN NN R ADJP NN NP R ADJP NN PR R ADJP NN RB R ADJP NN SBAR R ADJP NN VB R ADJP NP RRB R ADJP NP ADJP R ADJP NP NP R ADJP NP RB R ADJP NP SBAR R ADJP RB IN R ADJP RB RB R ADJP RB VB R ADJP VB CD R ADJP VB VB R ADJP VB IN R ADJP VB JJ R ADJP VB RB R ADJP VB PR R ADJP VB RP R ADJP VB SBAR R ADJP CC ADJP R ADJP CC VB R ADVP ADJP ADVP R ADVP ADVP IN R ADVP ADVP JJ R ADVP ADVP NP

R ADVP ADVP PR R ADVP ADVP RB R ADVP ADVP SBAR R ADVP CC CC R ADVP CD CD R ADVP CD JJ R ADVP CD NN R ADVP FW NP R ADVP IN ADJP R ADVP IN IN R ADVP IN JJ R ADVP IN NN R ADVP IN NP R ADVP JJ IN R ADVP JJ JJ R ADVP JJ NN R ADVP JJ NP R ADVP JJ RB R ADVP JJ RP R ADVP NN NN R ADVP NN SBAR R ADVP NN VB R ADVP NP ADVP R ADVP NP RP R ADVP RB LRB R ADVP RB RRB R ADVP RB ADJP R ADVP RB ADVP R ADVP RB IN R ADVP RB JJ R ADVP RB NN R ADVP RB NP R ADVP RB PR R ADVP RB RB R ADVP RB RP R ADVP RB SBAR R ADVP RB VB R ADVP RB VP R ADVP RP RP R ADVP VB NN R ADVP VB JJ R ADVP VB NP R ADVP VP NN R ADVP NN ADVP R ADVP CC IN R ADVP VB IN R ADVP NN ADJP R ADVP CC RB R ADVP NN PR R ADVP NP JJ R ADVP NN JJ R ADVP VP ADVP R ADVP VB ADVP R ADVP VB ADJP R ADVP PR NN R ADVP CC NN R ADVP ADVP ADVP

R ADVP CC VP R ADVP VP NP R ADVP JJ ADVP R ADVP ADJP NN R ADVP VP IN R ADVP ADJP NP R ADVP VB PR R ADVP PR ADVP R NP ADVP ADVP R NP NN PR R NP NN RB R NP NN SBAR R NP NN NP R NP NN RRB R NP NN LRB R NP NP LRB R NP NP RRB R NP NP ADJP R NP NP ADVP R NP NP CC R NP NP FW R NP NP IN R NP NP JJ R NP NP NP R NP NP PR R NP NP RB R NP NP SBAR R NP NP SBARQ R NP NP VP R NP NP X R NP SBAR NP R NP VB NN R NP NN PU R NP NN ADVP R NP NN JJ R NP JJ ADVP R NP CC NN R NP NN NN R NP CC ADVP R NP CC NP R NP VP ADVP R NP NN CD R NP CD NN R NP VB NP R NP VB RB R NP RB NP R S ADJP ADVP R S ADJP NP R S IN ADVP R S IN NP R S IN PR R S IN SBAR R S IN VP R S NP RRB R S NP ADVP R S NP NP R S NP PR R S NP X R S VP RRB

R S VP ADVP R S VP NP R S VP PR R S VP RB R S VP SBAR R S VP SBARQ R S VP VP R S VP X R S VB PU R S VB ADVP R S ADVP PU R S VB NN R S NN PU R S NN VB R S AUX NN R S NN ADJP R S NN ADVP R S VP PU R S VP NN R S VP JJ R S JJ PU R S ADVP ADVP R S VB VB R S CC SBAR R S SBAR PU R S WH ADVP R S NN RB R S RB PU R S VB JJ R S VP VB R S VB PR R S PR PU R S VB NP R S NP PU R S PU ADVP R S PR VB R S NP ADJP R S ADJP PU R S CS SBAR R S NN CC R S CC NN R S NP VB R SBAR IN ADJP R SBAR IN RRB R SBAR IN IN R SBAR IN NN R SBAR IN NP R SBAR IN PR R SBAR IN RB R SBAR IN SBAR R SBAR IN X R SBAR SBAR ADVP R SBAR SBAR PR R SBAR SBAR RB R SBAR SBAR SBAR R SBAR WH PR R SBAR WH RRB

L-7.7

R SBAR WH ADVP R SBAR WH IN R SBAR WH NP R SBAR WH VP R SBAR VB NP R SBAR NP ADVP R SBAR VB NN R SBAR NN ADJP R SBAR VP NP R SBAR VB ADVP R SBAR VB RB R SBAR RB NP R SBARQ NN ADVP R SBARQ SBARQ VP R SBARQ WH ADVP R SBARQ VB ADVP R SBARQ VB NN R SBARQ SBARQ SBARQ R SBARQ VB NP R VP ADJP SBAR R VP ADVP ADVP R VP ADVP JJ R VP ADVP PR R VP ADVP RB R VP ADVP SBAR R VP JJ ADVP R VP JJ PR R VP JJ SBAR R VP JJ VB R VP MD RRB R VP MD ADVP R VP MD MD R VP MD NP R VP MD PR R VP MD RB R VP MD SBAR R VP MD VP R VP MD X R VP NN ADVP R VP NN NN R VP NN NP R VP NN PR R VP NN SBAR R VP NP ADVP R VP NP NP R VP NP PR R VP NP SBAR R VP RB ADVP R VP RB SBAR R VP VB LRB R VP VB RRB R VP VB ADJP R VP VB ADVP R VP VB IN R VP VB NN R VP VB NP R VP VB PR

R VP VB RB R VP VB SBAR R VP VB SBARQ R VP VB VB R VP VB VP R VP VB X R VP VP LRB R VP VP RRB R VP VP ADJP R VP VP ADVP R VP VP IN R VP VP NP R VP VP PR R VP VP RB R VP VP SBAR R VP VP VP R VP CC VB R WH ADJP NN R WH CC RB R WH CC JJ R WH NN NN R WH NP NP R WH NP PR R WH RB JJ R WH RB RB R WH WH JJ R WH WH NN R WH WH ADJP R WH WH ADVP R WH WH NP R WH WH PR R WH WH VP R WH IN NP R WH IN SBAR R WH IN WH R X ADVP NP R X ADVP SBAR R X ADVP X R X CC NP R X CC S R X CC SBAR R X CC VP R X FW FW R X FW NN R X FW NP R X IN NP R X JJ IN R X JJ JJ R X JJ NN R X NP NP R X NP SBAR R X NP VP R X S NP R X SBAR NP R X SBAR X R X X ADJP R X X NP R X X VP R X X X

U ADJP ADJP U ADJP ADVP U ADJP CD U ADJP FW U ADJP IN U ADJP JJ U ADJP NN U ADJP NP U ADJP PR U ADJP RB U ADJP RP U ADJP SBAR U ADJP VB U ADJP CC U ADVP ADJP U ADVP ADVP U ADVP CC U ADVP CD U ADVP FW U ADVP IN U ADVP JJ U ADVP NN U ADVP NP U ADVP PR U ADVP RB U ADVP RP U ADVP UH U ADVP VB U ADVP AUX U ADVP VP U NP JJ U NP NN U NP NP U NP SBAR U NP PR U NP RP U NP RB U PR ADJP U PR LRB U PR ADVP U PR CC U PR IN U PR NN U PR NP U PR PR U PR RB U PR SBAR U PR VP U S ADJP U S ADVP U S IN U S NP U S PR U S SBAR U S VP U SBAR IN U SBAR RB U SBAR SBAR U SBAR SBARQ

U SBAR WH U SBAR NP U SBAR VP U SBARQ NP U SBARQ WH U SBARQ SBARQ U VP ADJP U VP ADVP U VP IN U VP JJ U VP MD U VP NN U VP NP U VP PR U VP RB U VP SBAR U VP VB U VP VP U VP AUX U WH ADJP U WH JJ U WH RB U WH IN U WH NN U WH CC U WH CD U X ADVP U X CC U X FW U X IN U X JJ U X MD U X NN U X NP U X RB U X SBAR U X SBARQ U X SYM U X VB U X VP U X X X ADJP ADJP 00000 X ADJP ADVP 00000 X ADJP CD 00000 X ADJP FW 00000 X ADJP IN 00000 X ADJP JJ 00000 X ADJP NN 00000 X ADJP NP 00000 X ADJP PR 00000 X ADJP RB 00000 X ADJP RP 00000 X ADJP SBAR 00000 X ADJP VB 00000 X ADJP CC 00000 X ADVP ADJP

L-7.8

00000 X ADVP ADVP 00000 X ADVP CC 00000 X ADVP CD 00000 X ADVP FW 00000 X ADVP IN 00000 X ADVP JJ 00000 X ADVP NN 00000 X ADVP NP 00000 X ADVP PR 00000 X ADVP RB 00000 X ADVP RP 00000 X ADVP UH 00000 X ADVP VB 00000 X ADVP AUX 00000 X ADVP VP 00000 X NP ADJP 00000 X NP NN 00000 X NP NP 00000 X NP SBAR 00000 X NP RRB 00000 X NP JJ 00000 X NP ADVP 00000 X NP CC 00000 X NP CD 00000 X NP FW 00000 X NP IN 00000 X NP MD 00000 X NP PR 00000 X NP RB 00000 X NP SYM 00000 X NP UH 00000 X NP VB 00000 X NP WH 00000 X NP X 00000 X NP RP 00000 X PR ADJP 00000 X PR LRB 00000 X PR ADVP 00000 X PR CC 00000 X PR IN 00000 X PR NN 00000 X PR NP 00000 X PR PR 00000 X PR SBAR 00000 X PR VP 00000 X PR JJ 00000 X PR RB 00000 X PR RP 00000 X PR VB 00000 X S ADJP 00000 X S ADVP 00000 X S IN 00000 X S NP 00000 X S PR 00000 X S SBAR 00000 X S VP 00000

X SBAR IN 00000 X SBAR RB 00000 X SBAR SBAR 00000 X SBAR SBARQ 00000 X SBAR WH 00000 X SBAR NP 00000 X SBAR VP 00000 X SBARQ NP 00000 X SBARQ SBARQ 00000 X VP ADJP 00000 X VP ADVP 00000 X VP IN 00000 X VP JJ 00000 X VP MD 00000 X VP NN 00000 X VP NP 00000 X VP PR 00000 X VP RB 00000 X VP SBAR 00000 X VP VB 00000 X VP VP 00000 X VP AUX 00000 X WH ADJP 00000 X WH JJ 00000 X WH RB 00000 X WH IN 00000 X WH NN 00000 X WH CC 00000 X WH CD 00000 X WH NP 00000 X WH VB 00000 X WH WH 00000 X X ADVP 00000 X X CC 00000 X X FW 00000 X X IN 00000 X X JJ 00000 X X MD 00000 X X NN 00000 X X NP 00000 X X RB 00000 X X SBAR 00000 X X SBARQ 00000 X X SYM 00000 X X VB 00000 X X VP 00000 X X X 00000 Y ADJP ADJP 00000 Y ADJP ADVP 00000 Y ADJP CD 00000 Y ADJP FW 00000 Y ADJP IN 00000 Y ADJP JJ 00000

Y ADJP NN 00000 Y ADJP NP 00000 Y ADJP PR 00000 Y ADJP RB 00000 Y ADJP RP 00000 Y ADJP SBAR 00000 Y ADJP VB 00000 Y ADJP CC 00000 Y ADVP ADJP 00000 Y ADVP ADVP 00000 Y ADVP CC 00000 Y ADVP CD 00000 Y ADVP FW 00000 Y ADVP IN 00000 Y ADVP JJ 00000 Y ADVP NN 00000 Y ADVP NP 00000 Y ADVP PR 00000 Y ADVP RB 00000 Y ADVP RP 00000 Y ADVP UH 00000 Y ADVP VB 00000 Y ADVP AUX 00000 Y ADVP VP 00000 Y NP ADJP 00000 Y NP NN 00000 Y NP NP 00000 Y NP SBAR 00000 Y NP RRB 00000 Y NP JJ 00000 Y NP ADVP 00000 Y NP CC 00000 Y NP CD 00000 Y NP FW 00000 Y NP IN 00000 Y NP MD 00000 Y NP PR 00000 Y NP RB 00000 Y NP RP 00000 Y NP SYM 00000 Y NP UH 00000 Y NP VB 00000 Y NP WH 00000 Y NP X 00000 Y PR ADJP 00000 Y PR LRB 00000 Y PR ADVP 00000 Y PR CC 00000 Y PR IN 00000 Y PR NN 00000 Y PR NP 00000 Y PR PR 00000 Y PR RB 00000 Y PR SBAR 00000 Y PR VP 00000

Y PR JJ 00000 Y PR RP 00000 Y PR VB 00000 Y S ADJP 00000 Y S ADVP 00000 Y S IN 00000 Y S NP 00000 Y S PR 00000 Y S SBAR 00000 Y S VP 00000 Y SBAR IN 00000 Y SBAR RB 00000 Y SBAR SBAR 00000 Y SBAR SBARQ 00000 Y SBAR WH 00000 Y SBAR NP 00000 Y SBAR VP 00000 Y SBARQ NP 00000 Y SBARQ WH 00000 Y SBARQ SBARQ 00000 Y VP ADJP 00000 Y VP ADVP 00000 Y VP IN 00000 Y VP JJ 00000 Y VP MD 00000 Y VP NN 00000 Y VP NP 00000 Y VP PR 00000 Y VP RB 00000 Y VP SBAR 00000 Y VP VB 00000 Y VP VP 00000 Y VP AUX 00000 Y WH ADJP 00000 Y WH JJ 00000 Y WH RB 00000 Y WH IN 00000 Y WH NN 00000 Y WH CC 00000 Y WH CD 00000 Y WH VB 00000 Y WH WH 00000 Y X ADVP 00000 Y X CC 00000 Y X FW 00000 Y X IN 00000 Y X JJ 00000 Y X MD 00000 Y X NN 00000 Y X NP 00000 Y X RB 00000 Y X SBAR 00000 Y X SBARQ 00000 Y X SYM 00000

L-7.9

Y X VB 00000 Y X VP 00000 Y X X 00000

L-8.1

Lampiran 8 Kalimat dalam File Korpus

Berikut adalah kalimat-kalimat yang ada pada file korpus untuk kelompok pengujian pertama: 4 Kamu PR makan VB nasi NN . PU 4 Adik NN naik VB sepeda NN . PU 4 Kakak NN bermain VB gasing NN . PU 4 Ibu NN menyiram VB bunga NN . PU 4 Sapi NN makan VB rumput NN . PU 5 Aku NN mandi VB air NN hangat JJ . PU 4 Adik NN tidur VB kasur NN . PU Berikut adalah kalimat-kalimat yang ada pada file korpus untuk kelompok pengujian kedua: 21 Benar JJ , PU Malin NN Kundang NN berisi VB cerita NN tentang CC anak NN yang AR durhaka JJ kepada IN ibunya NN sehingga CS ia PR dikutuk VB oleh IN Tuhan NN dan CC menjadi VB batu NN . PU 18 Tema NN cerita NN Malin NN Kundang NN dari IN Sumatra NN Barat NN ini PR ternyata VB juga JJ bisa AUX ditemui VB di IN daerah NN lain JJ di IN Indonesia NN . PU 8 Apakah WH daerahmu NN juga JJ ada VB cerita NN semacam VB ini PR ? PU 9 Kalau CS ada VB , PU tulislah VB dengan IN singkat JJ cerita NN itu PR ! PU 12 Setelah RB kamu PR dengarkan VB dongeng NN tadi RB , PU buatlah VB pertanyaan-pertanyaan NN tentang CC isi NN dongeng NN . PU 19 Pertanyaan NN yang AR kamu PR buat IN dapat AUX dimulai VB dengan IN kata-kata NN seperti IN di IN bawah NN ini PR , PU atau CC kamu PR kembangkan VB pertanyaan NN sendiri RB . PU 15 Sekarang RB , PU bentuklah VB kelompok NN diskusi NN yang AR masing-masing RB anggotanya JJ terdiri VB atas NN empat CD atau CC lima CD orang NN . PU 8 Diskusikan VB jawaban NN pertanyaan-pertanyaan NN yang AR telah RB kalian NN buat IN . PU 17 Ketika CS kita PR mendengarkan VB dongeng NN , PU kita PR dapat AUX mengemukakan VB hal-hal JJ menarik VB yang AR ada VB di IN dalam JJ dongeng NN itu PR . PU 16 Dari IN pelatihan NN di IN atas NN , PU kalian NN makin RB paham NN tentang CC dongeng NN Asal NN Mula NN Pulau NN Si AR Kantan NN . PU 12 Sekarang RB , PU diskusikan VB dengan IN teman-temanmu NN tentang CC hal-hal JJ menarik VB dalam JJ dongeng NN tersebut PR ! PU 7 Berikan VB alasanmu JJ mengapa PR hal NN itu PR menarik VB ! PU 6 Hasilnya NN tempelkan NN di IN papan NN tulis VB . PU 7 Pengalaman NN menarik VB itu PR sulit JJ untuk IN dilupakan VB . PU 10 Pengalaman NN berkesan VB tidak RB harus AUX pengalaman NN yang AR kamu PR alami JJ sendiri RB . PU

L-9.1

Lampiran 9 Hasil Generasi Events

Berikut adalah sebagian hasil file events yang dibangkitkan dari pemrosesan awal

(preprocessing) dari tesis ini: ................................. 6 7 Kenapa WH kamu PR berpikir VB John NN akan IN pergi VB . PU 3 Kenapa WH S PR 00000 00000 2 #STOP# #STOP# Kenapa WH #STOP# S PR 000000 110 0 0 2 berpikir VB Kenapa WH SBARQ S PR 000000 010 0 0 2 . PU Kenapa WH PU S PR 000000 000 0 0 2 #STOP# #STOP# Kenapa WH #STOP# S PR 000000 000 0 0 3 berpikir VB SBARQ VB 00000 00000 2 kamu PR berpikir VB NP SBARQ VB 000000 110 0 0 2 #STOP# #STOP# berpikir VB #STOP# SBARQ VB 000000 100 0 0 2 John NN berpikir VB NN SBARQ VB 000000 010 0 0 2 pergi VB berpikir VB ADVP SBARQ VB 000000 000 0 0 2 #STOP# #STOP# berpikir VB #STOP# SBARQ VB 000000 000 0 0 3 kamu PR NP PR 00000 00000 2 #STOP# #STOP# kamu PR #STOP# NP PR 000000 110 0 0 2 #STOP# #STOP# kamu PR #STOP# NP PR 000000 010 0 0 3 pergi VB ADVP VB 00000 00000 2 akan IN pergi VB AUX ADVP VB 000000 110 0 0 2 #STOP# #STOP# pergi VB #STOP# ADVP VB 000000 100 0 0 2 #STOP# #STOP# pergi VB #STOP# ADVP VB 000000 010 0 0 6 17 Kamu PR tentu JJ sering RB , PU bahkan RB mungkin JJ setiap AR hari NN , PU mendengarkan VB berita NN di IN televisi NN atau CC di IN radio NN . PU 3 mendengarkan VB S VB 00000 00000 2 , PU mendengarkan VB PU S VB 000000 110 0 0 2 bahkan RB mendengarkan VB ADVP S VB 000000 100 0 0 2 , PU mendengarkan VB PU S VB 000000 100 0 0 2 tentu JJ mendengarkan VB ADVP S VB 000000 100 0 0 2 Kamu PR mendengarkan VB NP S VB 000000 100 0 0 2 #STOP# #STOP# mendengarkan VB #STOP# S VB 000000 100 0 0 2 berita NN mendengarkan VB NN S VB 000000 010 0 0 2 atau CC mendengarkan VB ADVP S VB 000000 000 0 0 2 . PU mendengarkan VB PU S VB 000000 000 0 0 2 #STOP# #STOP# mendengarkan VB #STOP# S VB 000000 000 0 0 3 Kamu PR NP PR 00000 00000 2 #STOP# #STOP# Kamu PR #STOP# NP PR 000000 110 0 0 2 #STOP# #STOP# Kamu PR #STOP# NP PR 000000 010 0 0 3 tentu JJ ADVP JJ 00000 00000 2 #STOP# #STOP# tentu JJ #STOP# ADVP JJ 000000 110 0 0 2 sering RB tentu JJ RB ADVP JJ 000000 010 0 0 2 #STOP# #STOP# tentu JJ #STOP# ADVP JJ 000000 000 0 0 3 bahkan RB ADVP RB 00000 00000 2 #STOP# #STOP# bahkan RB #STOP# ADVP RB 000000 110 0 0 2 mungkin JJ bahkan RB JJ ADVP RB 000000 010 0 0 2 setiap AR bahkan RB AR ADVP RB 000000 000 0 0 2 hari NN bahkan RB NN ADVP RB 000000 000 0 0 2 #STOP# #STOP# bahkan RB #STOP# ADVP RB 000000 000 0 0 .................................

L-10.1

Lampiran 10 Contoh File Treebank Berbahasa Indonesia

Berikut adalah file treebank berbahasa Indonesia yang dibuat secara manual dan

digunakan pada tesis ini untuk pengujian kelompok pertama: (S(NN Yohanes)(>VB tidur)(PU .)) (S(NN Tina)(>VB tidur)(PU .)) (S(NN Nana)(>VB tidur)(PU .)) (S(NN Adik)(>VB tidur)(PU .)) (S(NN Kakak)(>VB tidur)(PU .)) (S(NN Ayah)(>VB tidur)(PU .)) (S(NN Tante)(>VB tidur)(PU .)) (S(NN Paman)(>VB tidur)(PU .)) (S(NN Ayah)(>VB tidur)(PU .)) (S(NN Yohanes)(>VB memukul)(NN Bill)(PU .)) (S(NN Yohanes)(>VB memukul)(PU .)) (S(NN Maria)(>VB menyukai)(ADVP(AR setiap)(NN orang))(PU .)) (S(NP(PR Seseorang))(>VB menyukai)(ADVP(AR setiap)(NN orang))(PU .)) (S(WH Siapakah)(AR yang)(>VB disukai)(NN Mary)(PU ?)) (S(WH Siapakah)(AR yang)(>VB diketahui)(NN John)(VB disukainya)(PU ?)) (S(NP(PR Saya))(>VP(>VB percaya)(ADJP(RB secara)(JJ tulus)))(PU .)) (S(NP(PR saya))(ADJP(RB secara)(>JJ tulus))(>VB mempercayai)(NN John)(PU .)) (S(NP(PR saya))(>VB ingin)(NN hujan)(PU .)) (S(NP(PR saya))(>VP(VB ingin)(>VB menjadi))(JJ pandai)(PU .)) (S(NN John)(>VB berusaha)(JJ menang)(NN balapan)(PU .)) (S(NN John)(>VB ditangkap)(PU .)) (S(NP(PR mereka))(>VB ditangkap)(PU .)) (S(NP(PR mereka))(>VB menangkap)(NN John)(PU .)) (S(NN John)(>VB ditahan)(NN polisi)(PU .)) (S(NP(PR itu))(>VP(RB adalah))(NN hujan)(PU .)) (S(ADJP(JJ sepertinya))(>VP(IN akan)(NN hujan))(PU .)) (S(NN John)(>VB menyukainya)(PU .)) (S(NN John)(>VB menyukai)(NN dirinya)(RB sendiri)(PU .)) (S(NP(NN Foto)(NN John))(>VB terlihat)(JJ manis)(PU .)) (S(NP(NN Ibunya)(NN John))(>VB menyukainya)(PU .)) (S(NN John)(>VB menyukai)(NN fotonya)(PU .)) (S(NN John)(>VB melihat-lihat)(NN fotonya)(PU .)) (S(NP(PR mereka))(>VB membaca)(NN bukunya)(PU .)) (S(NP(PR Dia))(>VB menyukainya)(PU .)) (S(>VB makan)(PU !)) (S(NP(PR Saya))(>VP(RB ingin))(JJ menang)(PU .)) (S(>VB Pergi)(PU .)) (S(WH Siapakah)(ADVP(AR yang)(>VB ditahan))(PU .)) (S(NN John)(>VP(JJ kelihatan)(JJ gila)(PU .)) (S(NP(NN Guru)(PR itu))(>VP(>VB mengundurkan)(RB diri))(PU .)) (S(NN John)(>VB disewa)(PU .)) (S(NP(NN Orang)(PR itu))(>VB terbunuh)(PU .))

L-10.2

Berikut adalah file treebank berbahasa Indonesia yang dibuat secara manual dan

digunakan pada tesis ini untuk pengujian kelompok kedua: (S(NN Yohanes)(>VB tidur)(PU .)) (S(NN Yohanes)(>VB memukul)(NN Bill)(PU .)) (S(NN Yohanes)(>VB memukul)(PU .)) (S(NN Maria)(>VB menyukai)(ADVP(AR setiap)(NN orang))(PU .)) (S(NP(PR Seseorang))(>VB menyukai)(ADVP(AR setiap)(NN orang))(PU .)) (S(WH Siapakah)(AR yang)(>VB disukai)(NN Mary)(PU ?)) (S(WH Siapakah)(AR yang)(>VB diketahui)(NN John)(VB disukainya)(PU ?)) (S(NP(PR Ia))(>VB menyukai)(ADVP(AR setiap)(NP(NN orang)(ADVP(AR yang)(>VB disukai)(NN John))))(PU .)) (S(NN Yohanes)(VP(JJ suka)(>VB berada))(ADVP(IN di)(RB sini))(PU .)) (S(AR sepertinya)(NN John)(>VP(JJ suka)(>VB berada))(ADVP(IN di)(RB sini))(PU .)) (S(NP(PR saya))(>VB ingin)(NN John)(ADJP(JJ ada))(ADVP(IN di)(RB sini))(PU .)) (S(NP(PR Saya))(>VB ingin)(NN John)(ADVP(JJ ada)(ADVP(IN di)(RB sini)))(PU .)) (S(NP(PR saya))(>VP(VB ingin)(>VB berada))(ADVP(IN di)(RB sini))(PU .)) (S(NP(PR saya))(>VB percaya)(NN John)(ADVP(IN akan)(IN ke)(RB sini))(PU .)) (S(NP(PR Saya))(>VP(>VB percaya)(ADJP(RB secara)(JJ tulus)))(PU .)) (S(NP(PR saya))(ADJP(RB secara)(>JJ tulus))(>VB mempercayai)(NN John)(PU .)) (S(NP(PR saya))(>VB ingin)(NN John)(ADVP(>VB pergi))(PU .)) (S(NP(PR saya))(>VB membujuk)(NN John)(ADVP(IN untuk)(>VB pergi))(PU .)) (S(NP(PR saya))(>VB ingin)(NN hujan)(PU .)) (S(NP(PR saya))(>VB ingin)(NN busnya)(ADVP(VB datang)(ADJP(JJ tepat)(NN waktu)))(PU .)) (S(NP(PR saya))(>VB membujuk)(NN John)(ADVP(IN bahwa)(NN dia)(ADVP(JJ harus)(>VB pergi)))(PU .)) (S(NP(PR saya))(>VB mencoba)(ADVP(IN untuk)(>VB pergi))(PU .)) (S(NP(PR saya))(>VP(VB ingin)(>VB menjadi))(JJ pandai)(PU .)) (S(NP(PR saya))(>VP(JJ percaya))(ADVP(IN akan)(>VB menjadi)(JJ pandai))(PU .)) (S(NN John)(>VB dipaksa)(ADVP(IN untuk)(>VB pergi))(PU .)) (S(NN Yohanes)(>VB dipercaya)(ADVP(IN untuk)(>VB menjadi)(JJ pandai))(PU .)) (S(NN John)(>VB diinginkan)(ADVP(IN untuk)(>VB pergi))(PU .)) (S(NN John)(ADJP(JJ lebih)(JJ suka))(>VB parkir)(ADVP(IN di)(RB sini))(PU .)) (S(NN John)(>VB parkir)(ADVP(IN di)(RB sini))(ADVP(RB secara)(JJ ilegal))(PU .)) (S(ADJP(RB sangat)(JJ baik))(ADVP(IN untuk)(NN John))(>VB parkir)(ADVP(IN di)(RB sini))(PU .)) (S(ADVP(RB tidak)(JJ sah))(ADVP(RB bagi)(NN John))(>VB parkir)(ADVP(IN di)(RB sini))(PU .)) (S(NN John)(>VB dipercaya)(ADVP(IN akan)(>VB berada))(ADVP(IN di)(RB sini))(PU .)) (S(NP(PR saya))(>VB ingin)(NN John)(ADVP(>VB berada))(ADVP(IN di)(RB sini))(PU .))

L-10.3

(S(NN John)(>VB diinginkan)(ADVP(IN untuk)(>VB berada))(ADVP(IN di)(RB sini))(PU .)) (S(NN John)(>VB berusaha)(JJ menang)(NN balapan)(PU .)) (S(ADJP(JJ sepertinya))(NN John)(>VP(ADVP(IN akan)(JJ menang)))(PU .)) (S(NN John)(ADVP(AR telah))(>VB beristirahat)(PU .)) (S(NN John)(>VB ditangkap)(PU .)) (S(NP(PR mereka))(>VB ditangkap)(PU .)) (S(NP(PR mereka))(>VB menangkap)(NN John)(PU .)) (S(NN John)(>VB ditahan)(NN polisi)(PU .)) (S(SBAR(NP(PR Saya))(>VB percaya))(>CC bahwa)(SBAR(NN John)(>VP(NN orang)(ADVP(AR yang)(JJ cerdas))))(PU .)) (S(NP(PR Saya))(>VB percaya)(NN John)(ADVP(IN akan)(>VB menjadi)(NP(>NN orang)(JJ cerdas)))(PU .)) (S(NN John)(>VB percaya)(NN dirinya)(ADVP(IN akan)(>VB menjadi)(NP(NN orang)(ADVP(AR yang)(JJ cerdas))))(PU .)) (S(ADVP(NN orang-orang)(>VP(JJ percaya))(NN John)(ADVP(IN akan)(>VB menjadi)(NP(NN orang)(ADVP(AR yang)(JJ cerdas)))))(PU .)) (S(ADVP(IN bahwa)(SBAR(NN John)(>VP(NN orang)(JJ pandai))))(>VB dipercayai)(ADVP(IN oleh)(RB banyak)(NN orang))(PU .)) (S(NP(PR Saya))(>VP(JJ bangga))(ADVP(IN terhadap)(NN John))(PU .)) (S(NP(PR Saya))(>VP(JJ senang))(NN John)(ADVP(>VB berada)(ADVP(IN di)(RB sini)))(PU .)) (S(SBAR(NP(PR Saya))(>VB bertanya-tanya))(>WH siapakah)(ADVP(AR yang)(ADVP(IN akan)(NP(PR kau))(>VB temui)))(PU .)) (S(SBAR(NN Bill)(>VB bertanya-tanya))(WH siapakah)(ADVP(AR yang)(>VB melihat)(NN Mary))(PU .)) (S(WH Siapakah)(ADVP(AR yang)(NP(PR kau))(>VB lihat))(ADVP(AR yang)(>VB dipercaya)(NN Bill))(ADVP(RB telah)(>VB melihat)(NN Mary))(PU .)) (S(NN Masalah)(ADVP(AR yang)(RB mana))(ADVP(AR yang)(AR akan))(>VB diselesaikan)(NN Bill)(PU .)) (S(NP(PR itu))(>VP(RB adalah))(NN hujan)(PU .)) (S(ADJP(JJ sepertinya))(>VP(IN akan)(NN hujan))(PU .)) (S(NN John)(>VB menyukainya)(PU .)) (S(NN John)(>VB menyukai)(NN dirinya)(RB sendiri)(PU .)) (S(NN John)(>VP(JJ percaya))(ADVP(AR bahwa)(NN Mary)(>VB menyukainya))(PU .)) (S(NP(NN Foto)(NN John))(>VB terlihat)(JJ manis)(PU .)) (S(NP(NN Ibunya)(NN John))(>VB menyukainya)(PU .)) (S(NP(PR mereka))(>VP(RB saling)(>VB menyukai))(ADVP(CD satu)(JJ sama)(RB lain))(PU .)) (S(NN John)(>VB menyukai)(NN fotonya)(PU .)) (S(NN John)(>VB melihat-lihat)(NN fotonya)(PU .)) (S(NP(PR mereka))(>VB membaca)(NN bukunya)(PU .)) (S(SBAR(RB Siapa)(ADVP(AR yang)(>VB menyangka)))(SBAR(NN Mary)(>VB menyukainya))(PU .)) (S(NP(PR Dia))(>VB menyukainya)(PU .)) (S(NN John)(>VB berkata)(ADVP(IN kepada)(NN Bill))(ADVP(IN untuk)(>VB meninggalkan)(NN rumah))(PU .)) (S(NP(PR Saya))(>VP(RB ingin)(>VB berkunjung))(ADVP(IN ke)(NN rumahmu))(PU .)) (S(NP(PR Saya))(>VB berusaha)(ADVP(IN untuk)(>VB memahami)(NN permasalahannya))(PU .)) (S(ADJP(RB sangat)(JJ penting))(ADVP(IN untuk)(>VB mengetahui)(NN permasalahannya))(PU .)) (S(>VB makan)(PU !)) (S(ADJP(RB sangat)(JJ penting))(ADVP(IN untuk)(NP(PR kita))(>VB

L-10.4

makan))(PU .)) (S(NP(PR Saya))(>VP(RB ingin))(JJ menang)(PU .)) (S(>VB Pergi)(PU .)) (S(WH Siapakah)(ADVP(AR yang)(>VB ditahan))(PU .)) (S(NN John)(>VP(JJ kelihatan)(JJ gila)(PU .)) (S(NN John)(>VB ditahan)(ADVP(RB setelah)(>VB memimpin)(NN demonstrasi))(PU .)) (S(NN John)(>VP(JJ terlalu)(FW nervous))(ADVP(IN untuk)(>VB berkata))(PU .)) (S(WH Apa)(SBARQ(AR yang)(NP(PR dia))(>VB lakukan)(ADVP(IN untuk)(JJ menang)))(PU .)) (S(NP(NN Guru)(PR itu))(>VB dipecat)(ADVP(RB tanpa)(NN penjelasan))(PU .)) (S(NP(NN Guru)(PR itu))(>VP(>VB mengundurkan)(RB diri))(PU .)) (S(NN John)(>VB disewa)(PU .)) (S(NP(NN Orang)(PR itu))(>VB terbunuh)(PU .)) (S(ADJP(AR sangat)(>JJ penting))(ADVP(AR bagi)(NN John))(>VB melihat)(PR ini)(PU .)) (S(NP(PR Anda))(ADVP(AR akan))(>VB membacanya)(PU .)) (S(WH Kenapa)(SBARQ(NP(PR kamu))(>VB berpikir)(NN John)(ADVP(IN akan)(>VB pergi)))(PU .)) (S(NP(PR Kamu))(ADVP(JJ tentu)(RB sering))(PU ,)(ADVP(RB bahkan)(JJ mungkin)(AR setiap)(NN hari))(PU ,)(>VB mendengarkan) (NN berita)(ADVP(IN di)(NN televisi)(>CC atau)(IN di)(NN radio))(PU .)) (S(NP(>NN Berita-berita)(AR yang)(VB disiarkan)(NP(NN radio)(>CC atau)(NN televisi)(PR itu)))(>VB mengandung)(NP(JJ banyak)(>NN informasi)(JJ penting)(ADVP(AR yang)(AUX perlu)(NP(PR kamu))(>VB ketahui)))(PU .)) (S(NP(>NN Berita-berita)(IN seperti)(PR itu))(VP(RB sangat)(>VB berguna))(NN bagimu)(PU .)) (S(ADVP(IN Dengan)(>VB mendengarkan)(NP(JJ banyak)(>NN berita)))(PU ,)(>VP(RB makin)(JJ luas))(NP(NN wawasan)(>CC dan)(NN pengetahuanmu))(PU .)) (S(SBAR(>VB Tutuplah)(NN bukumu))(PU ,)(>CC kemudian)(SBAR(>VB dengarkan)(NP(>NN berita)(ADVP(AR yang)(AUX akan)(>VB dibacakan)(IN oleh)(NN gurumu))))(PU .)) (S(SBAR(>VB Simaklah)(ADJP(IN dengan)(JJ cermat)))(>CC dan)(SBAR(>VB tulislah)(NP(NN pokok-pokok)(>NN berita)(ADVP(IN dengan)(>VB menggunakan)(NP(>NN kolom)(JJ berikut)(PR ini)))))(PU !)) (S(ADVP(>VB Berdasarkan)(NP(NN pokok-pokok)(>NN berita)(ADVP(AR yang)(RB telah)(NP(PR kamu))(>VB temukan))))(PU ,)(>VB tuliskan)(NP(>NN simpulan)(NN isi)(NN berita)(ADVP(JJ dalam)(AR beberapa)(NN kalimat)))(PU !)) (S(NP(>NN Kata-kata)(ADVP(AR yang)(>VB memiliki)(NN makna)(ADJP(JJ sama)(IN seperti)(PR itu))))(>VB disebut)(NN sinonim)(PU .)) (S(>NN Sinonim)(VB adalah)(ADVP(NP(CD dua)(>NN kata))(>CC atau)(RB lebih)(ADVP(AR yang)(>VB memiliki)(NP(NN makna)(ADJP(JJ sama)(>CC atau)(ADJP(RB hampir)(JJ sama))))))(PU .)) (S(NP(>NN Sinonim)(CD sebuah)(NN kata))(VP(AUX dapat)(>VB ditentukan))(ADVP(IN dari)(>NP(NN konteks)(NN kalimatnya)))(PU .)) (S(NP(>NN Kata)(NN kepala)(ADVP(JJ dalam)(>NN contoh-contoh)(PR tersebut)))(>VB memiliki)(NP(NN hubungan)(>NN makna))(PU .)) (S(NP(>NN Makna)(NN dasar)(ADVP(IN dari)(CD ketiga)(>NP(>NN kata)(PR itu))(JJ sama)))(PU ,)(>VB yaitu)(NP(>PR sesuatu)(ADVP(AR yang)(>NN kedudukannya)(ADJP(>JJ berada)(IN di)(NN atas))))(PU .)) (S(NP(>NN Kata-kata)(ADJP(IN seperti)(PR itu)))(>VB disebut)(NN polisemi)(PU .))

L-10.5

(S(ADVP(IN Dengan)(>NN kata)(JJ lain))(>NN Polisemi)(VB adalah)(NP(NN bentuk)(>NN bahasa)(ADVP(PU LRB)(NP(NN kata)(>CC atau)(NN frase)(PU RRB)))(ADVP(AR yang)(>VB memiliki)(NN makna)(ADJP(>RB lebih)(IN dari)(CD satu))))(PU .)) (S(NN Polisemi)(>VB terjadi)(NP(NN akibat)(NN pergeseran)(>NN makna))(PU ,)(ADVP(CS sehingga)(>VB mempunyai)(NP(>NN hubungan)(NN antara)(NP(AR semua)(>NN makna)(NN kata)(PR itu))))(PU .)) (S(NP(NN Keterampilan)(>CC atau)(NN kepiawaian)(ADVP(NP(JJ dalam)(>VB bercerita))(>VP(AUX dapat)(>VB digunakan))(ADVP(IN sebagai)(>NN bekal)(ADVP(IN untuk)(>VB menjadi)(NP(NN seorang)(>NN presenter))))))(PU .)) (S(ADVP(CS Kalau)(SBAR(NP(PR kamu))(>VB amati)(NP(AR para)(>NN presenter))(ADVP(IN di)(>NP(NN televisi)(>CC atau)(ADVP(AR yang)(PR kita)(>VB dengarkan)(ADVP(IN di)(NN radio)))))))(PU ,)(>PR mereka)(VB adalah)(NP(>NN orang-orang)(ADVP(AR yang)(JJ terampil)(>VB bercerita)))(PU .)) (S(NP(>NN Keterampilan)(VB bercerita))(VP(AUX dapat)(>VB ditingkatkan)(ADVP(IN dengan)(>VB berlatih)(ADJP(RB sesering)(JJ mungkin))))(PU .)) (S(NP(NP(NN Penguasaan)(>CC dan)(NN penghayatan))(>NN cerita)(PR ini))(>VB mencakup)(ADVP(NN antara)(JJ lain)(NP(NN jalan)(>NN cerita))(PU ,)(NP(NN sifat-sifat)(>NN tokoh))(PU ,)(NP(NN pokok)(>NN persoalan))(PU ,)(CC dan)(NP(>NN pesan)(ADVP(AR yang)(ADJP((JJ ada)(JJ dalam)))(>NN cerita))))(PU .)) (S(NP(NN Tempat)(>CC dan)(NP(NN posisi)(ADVP(AR yang)(JJ enak))))(>VP(AUX dapat)(>VB membuat))(NP(PR kamu))(ADJP(>JJ leluasa)(VP(VB bergerak)(>CC dan)(VB berekspresi)))(PU .)) (S(ADVP(IN Dengan)(NP(NN vokal)(>CC atau)(NN suara)(ADVP(AR yang)(>VB bervariasi))))(PU ,)(ADVP(NP(>NN intonasinya)(ADVP(AR yang)(ADJP(RB tidak)(>JJ monoton)))(PU ,)(NP(NN pendengar)(>CC atau)(NN penonton))(>VP(ADJP(AUX bisa)(VB terbantu)))(ADVP(IN untuk)(VP(VB menggambarkan)(>CC dan)(VB mengimajinasikan))(NP(NP(NN karakter)(>NN tokoh)(ADVP(AR yang)(>VB mendukung)(NP(>NN cerita)(PR itu))))(>CC dan)(NP(>NN peristiwa)(ADVP(AR yang)(>VB terjadi)(ADVP(JJ dalam)(>NN cerita)(PR itu)(NN dibenaknya))))))))(PU .)) (S(ADJP(IN Selain)(PR itu))(PU ,)(NP(>NN ekspresi)(NN karakter)(NN tokoh)(ADVP(AR yang)(>VB diwujudkan)(ADVP(JJ dalam)(NN suara)(>CC dan)(NN gerak)(ADJP(RB secara)(JJ baik))(ADVP(AUX akan)(>VB membuat)(NN cerita)(ADVP(AR yang)(NP(PR kamu))(>VB bawakan)(ADJP(RB sangat)(>VB menarik)))))))(PU .)) (S(NP(>VB Bercerita)(ADVP(IN dengan)(VB hafal)(>CC atau)(VP(CD setengah)(>VB hafal))(NP(>NN cerita)(ADVP(AR yang)(NP(PR kamu))(VB bawakan)))))(VP(JJ juga)(AUX dapat)(>VB membantu))(NP(NN kelancaranmu)(>CC dan)(NN penghayatanmu))(ADJP(RB tidak)(>VB terganggu))(PU .)) (S(ADVP(IN Dengan)(JJ demikian))(PU ,)(NN penampilanmu)(VP(AUX bisa))(JJ maksimal)(PU .)) (S(ADVP(RB Setelah)(NP(PR kamu))(>VB memahami)(NP(NP(NN jalan)(>NN cerita))(>CC dan)(NP(NN karakter)(>NN tokoh)(NN dongeng)(ADVP(IN di)(NN atas)))))(PU ,)(>VP(>VB berlatihlah)(VB bercerita))(ADVP(IN dengan)(NN penghayatan)(PU ,)(NN vokal)(PU ,)(CC dan)(NN ekspresi)(ADJP(AR yang)(>JJ baik)))(PU !)) (S(ADVP(>VP(JJ Dalam)(>VB berlatih)))(PU ,)(NP(PR kamu))(>VP(AUX bisa)(>VB menggunakan))(NP(>NN alat)(NN peraga))(ADVP(IN agar)(NP(NN penampilan)(>CC dan)(NN ekspresimu))(ADJP(ADJP(RB lebih)(>JJ baik))(>CC dan)(VB menarik)))(PU !)) (S(>VB Bentuklah)(NN kelompok)(ADVP(IN dengan)(NP(NN jumlah)(>NN anggota)(CD enam)(NN orang)))(PU .))

L-10.6

(S(SBAR(>VB Tunjuklah)(NP(CD satu)(NN orang)(ADVP(IN sebagai)(>NP(>NN narator)(ADVP(AR yang)(>VP(VB bertugas)(>VB membacakan))(NP(NN narasi)(ADJP(JJ dalam)(NN cerita))))))))(PU ,)(NP(CD lima)(NN orang)(NN anggota))(>VP(VB berperan)(VB menjadi))(NP(NN tokoh)(PU /)(NN pelaku)(ADVP(ADVP(JJ dalam)(NN cerita))(NN Serigala)(>VB Berbulu)(NN Domba)))(PU .)) (S(SBAR(>VB Bawakan)(NP(NN cerita)(PR tersebut))(ADVP(IN dengan)(>VB diikuti)(NN dramatisasi)(ADVP(IN di)(NN depan)(NN kelas)(ADVP(IN dengan)(JJ penuh)(NN penghayatan)(PU ,)(NP(>NN vokal)(ADJP(AR yang)(>JJ baik)))(PU ,)(CC dan)(NP(>NN ekspresi)(ADJP(AR yang)(JJ tepat)))))))(>CS sehingga)(SBAR(NP(NN dramatisasi)(NN cerita)(ADVP(AR yang)(NN kalian)(VB bawakan)(ADJP(VB menarik)))))(PU !)) (S(>VB Mintalah)(NP(NN komentar)(VB mengenai)(NP(NN penghayatan)(PU ,)(NN vokal)(PU ,)(CC dan)(NP(NN ekspresimu)(ADVP(IN pada)(NN kelompok)(JJ lain)))))(PU !)) (S(>VB Berikan)(NP(NN penilaian)(ADVP(IN terhadap)(NP(NN penampilan)(NN kelompok)(JJ lain)(ADVP(IN dengan)(>VB menggunakan)(NP(NN pedoman)(NN penilaian)(JJ berikut)(PR ini))))))(PU !)) (S(SBAR(IN Ke)(WH manakah)(SBARQ(NP(NN tempat)(PR kita))(>VB bertanya)(ADVP(CC tentang)(NP(NN makna)(NN kata-kata)(JJ sulit)))))(PU ,)(NP(NN kata-kata)(JJ asing)(ADVP(ADJP(AR yang)(RB belum))(NP(PR kita))(JJ kenal)))(PU ,)(NP(NN kata-kata)(ADVP(ADJP(AR yang)(RB belum)(NP(PR kita))(JJ ketahui)(NN maknanya))))(PU ?)) (S(NP(RP Kamuslah))(>NP(NN tempat)(ADJP(AR yang)(RB paling)(JJ tepat)))(PU .)) (S(ADVP(JJ Dalam)(NN pembelajaran)(JJ berikut))(NP(PR kamu))(>(VP(VB diajak)(>VB menemukan))(NP(NN makna)(NN kata-kata)(JJ sulit))(ADVP(IN dengan)(>VB menggunakan)(NN kamus)(ADVP(RB secara)(JJ efektif)(CC dan)(JJ efisien))))(PU .)) (S(>VB Menemukan)(NP(NN makna)(NN kata))(ADVP(ADJP(RB secara)(JJ cepat))(PU ,)(JJ efektif)(PU ,)(CC dan)(JJ efisien))(ADJP(RB sangat)(JJ penting))(ADVP(IN untuk)(>VB dikuasai))(PU ,)(ADVP(CS sebab)(IN dengan)(RB begitu)(ADVP(NP(NN waktu)(ADVP(AR yang)(NP(PR kita))(>VB gunakan)(ADVP(IN untuk)(>VB menemukan)(NP(NN makna)(AR suatu)(NN kata)(ADVP(JJ dalam)(NN kamus)(>VB menjadi)(ADJP(RB lebih)(JJ singkat)))))))))(PU .)) (S(NP(>NN Kata-kata)(JJ tertentu))(NP(JJ ada)(>AR yang)(>VB memiliki)(NP(>NN arti)(ADJP(RB lebih)(IN dari)(CD satu))))(PU .)) (S(CS Apabila)(SBAR(NP(AR suatu)(NN kata))(>VB mempunyai)(NN arti)(ADJP(RB lebih)(IN dari)(CD satu)))(PU ,)(SBAR(NP(NN arti)(NN kata)(ADVP(AR yang)(>VB terdapat)(JJ dalam)(NP(NN kamus)(PR itu))))(>VP(AUX harus)(>VB disesuaikan)(ADVP(IN dengan)(NP(NN konteks)(NN kalimatnya)))))(PU .)) (S(>VB Siapkan)(NP(>NN Kamus)(JJ Besar)(NP(>NN Bahasa)(NN Indonesia)))(ADVP(PU LRB)(NN KBBI)(PU RRB))(PU .)) (S(>VB Bentuklah)(NP(>NN kelompok)(ADVP(AR yang)(VB terdiri)(NN atas)(CD empat)(CC atau)(CD lima)(NN orang)))(PU .)) (S(NP(AR Setiap)(NN kelompok))(ADVP(RB paling)(RB tidak))(>VB memiliki)(NP(CD satu)(NN kamus))(PU .)) (S(>VB Carilah)(NP(NN makna)(NN kata)(VB bercetak)(JJ tebal)(ADVP(JJ dalam)(NP(>NN kalimat-kalimat)(JJ berikut)(PR ini)(ADVP(IN dengan)(JJ tepat)))))(PU !)) (S(>VB Lakukan)(NP(>NN kegiatan)(PR ini))(VB melalui)(NP(NN diskusi)(NN kelompok))(PU !)) (S(ADVP(IN Agar)(ADJP(RB lebih)(VB menarik)))(PU ,)(>VB lakukan)(NP(NN kegiatan)(PR ini)(ADVP(IN dengan)(NN cara)(>VB

L-10.7

beradu)(JJ cepat)(ADVP(IN dengan)(NN kelompok)(JJ lain))))(PU .)) (S(>VB Lakukan)(NN pembahasan)(ADVP(JJ dalam)(NP(>NN diskusi)(NN kelas)(ADVP(CC tentang)(NP(NN makna)(NN kata)(ADVP(AR yang)(VP(RB telah)(VB ditemukan)))))))(PU .)) (S(>VB Berikan)(NP(NN tanda)(NN bintang)(CD lima))(ADVP(IN bagi)(NP(NP(NN kelompok)(JJ tercepat))(CC dan)(VB menjawab)(ADJP(RB paling)(JJ banyak)(ADVP(AR yang)(JJ benar)))))(PU .)) (S(ADVP(RB Setelah)(NP(PR kamu))(>VP(>VB berhasil)(VB menemukan))(NP(NN makna)(NN kata))(ADVP(IN dengan)(VB menggunakan)(NN kamus)(ADVP(IN dengan)(JJ cepat)(CC dan)(JJ tepat))))(PU ,)(VB jelaskan)(WH bagaimana)(NN langkah-langkah)(VB menemukan)(NP(NN kata)(PR tersebut))(ADVP(IN dengan)(NN cara)(VP(VB membaca)(VB memindai)))(PU !)) (S(ADVP(RB Setelah)(NP(PR kamu))(VB temukan)(NP(NN makna)(NN kata)(PR tersebut)))(PU ,)(>VB susunlah)(NP(CD lima)(NN buah)(NN paragraf)(ADVP(AR yang)(NP(RB masing-masing))(>VB menggunakan)(NP(NN kata)(NN sarana)(PU ,)(JJ formal)(PU ,)(NN perkemahan)(PU ,)(NN jambore)(PU ,)(CC dan)(JJ disiplin)(ADVP(IN dengan)(JJ tepat)))))(PU !)) (S(WH Apakah)(ADVP(AR yang)(SBARQ(NP(PR kamu))(PR ketahui)(CC tentang)(NN pantun)))(PU ?)) (S(WH Pernahkah)(SBARQ(NP(PR kamu))(>VB menulis)(NN pantun))(PU ?)) (S(JJ Tentu)(NP(PR kamu))(>VP(RB pernah)(>VB membuat))(NN pantun)(PU .)) (S(WH Dapatkah)(SBARQ(NP(PR kamu))(>VB jelaskan)(NP(NN syarat-syarat)(RB sebuah)(NN pantun)))(PU ?)) (S(ADVP(IN Untuk)(>VB menjawab)(NP(NN pertanyaan)(PR tersebut)))(JJ ikuti)(NP(NN kegiatan)(JJ berikut))(PU !)) (S(NP(NN Fungsi)(NN sampiran)(RB terutama))(>VB menyiapkan)(NN rima)(CC dan)(NN irama)(ADVP(IN untuk)(>VB mempermudah)(NN pendengar)(VB memahami)(NP(NN isi)(NN pantun)))(PU .)) (S(NP(PR Ini))(VP(AUX dapat)(>VB dipahami))(ADVP(CS karena)(NN pantun)(VB merupakan)(NP(NN sastra)(JJ lisan)))(PU .)) (S(CS Meskipun)(ADVP(IN pada)(RB umumnya))(SBAR(NN sampiran)(VP(RB tak)(VB berhubungan))(ADVP(IN dengan)(NN isi)))(PU ,)(ADVP(ADVP(VB terkadang))(NP(NN bentuk)(NN sampiran))(VB membayangkan)(NN isi))(PU .)) (S(ADVP(VB Berdasarkan)(NP(NN contoh)(NN pantun)(PR tersebut)))(>VB tuliskan)(NP(NN ciri-ciri)(CC atau)(NP(NN syarat-syarat)(NN pantun)))(ADVP(IN dengan)(VB mengisi)(NP(NN kolom)(JJ berikut)(PR ini)))(PU !)) (S(ADVP(NN Dengarkan)(NN berita)(ADVP(AR yang)(VB disiarkan)(ADVP(IN pada)(VB pukul)(CD 19.00)(IN oleh)(NP(NN RRI)(JJ Pusat)(NN Jakarta))(CC atau)(NP(NN radio)(ADVP(AR yang)(JJ ada)(ADVP(IN di)(NN daerahmu)))))))(PU !)) (S(>VB Tulislah)(NP(NN kesimpulan)(NN isi)(NN berita)(PR tersebut))(ADJP(RB paling)(JJ sedikit))(ADVP(JJ dalam)(CD lima)(NN kalimat))(PU !)) (S(ADVP(IN Pada)(NN pembelajaran)(RB terdahulu))(PU ,)(SBAR(NP(PR kamu))(>VP(RB telah)(AUX dapat)(>VB menyimpulkan))(NP(NN isi)(NN berita)(ADVP(AR yang)(>VB dibacakan)(NN gurumu))))(PU .)) (S(ADVP(IN Untuk)(>VB mengetahui)(ADJP(RB seberapa)(JJ jauh))(NN pemahamanmu)(ADVP(IN terhadap)(NP(NN isi)(RB sebuah)(NN berita))))(PU ,)(SBAR(>VB dengarkan)(NP(NN berita)(ADVP(AR yang)(>VP(AUX akan)(VB dibacakan))(NP(NN temanmu)(CC atau)(NN gurumu)))))(CC kemudian)(SBAR(>VB tuliskan)(NP(NN isi)(NN berita)(PR tersebut))(ADVP(JJ dalam)(NP(AR beberapa)(NN

L-10.8

kalimat))(ADVP(IN dengan)(>VB mengikuti)(NP(NN langkah-langkah)(JJ berikut)(PR ini)))))(PU !)) (S(VB Amati)(CC dan)(SBAR(VB cermatilah)(NP(NN berita-berita)(ADVP(AR yang)(VB disiarkan)(ADVP(IN di)(NN televisi)(PU ,)(NN radio)(PU ,)(CC atau)(ADVP(AR yang)(VB ditulis)(ADVP(IN di)(NP(NN surat)(NN kabar))))))))(PU .)) (S(NP(NN Siaran)(CC atau)(NN tulisan)(NN isi)(NN berita)(PR itu))(ADVP(IN pada)(NN garis)(JJ besarnya))(>VB merupakan)(NN jawaban)(ADVP(NN atas)(NN pertanyaan)(PU LRB)(CD 5W)(SYM +)(CD 1H)(PU RRB))( PU .)) (S(SBAR(>VB Tutuplah)(NN bukumu))(PU ,)(CC kemudian)(SBAR(>VB simaklah)(ADVP(IN dengan)(JJ saksama)(NP(>NN berita)(ADVP(AR yang)(>VP(AUX akan)(VB dibacakan))(IN oleh)(NP(NN temanmu)(CC atau)(NP(NN gurumu)(JJ berikut)(PR ini)))))))(PU .)) (S(ADVP(RB Setelah)(NP(RB seluruh)(NN informasi))(>VB dibacakan))(PU ,)(CC selanjutnya)(SBAR(NN gurumu)(VP(AUX akan)(>VB membacakan))(ADJP(RB sekali)(RB lagi))(NP(RB seluruh)(NN informasi)(PR tersebut)))(PU .)) (S(ADVP(CS Ketika)(SBAR(NP(NN kegiatan)(PR ini))(>VB berlangsung)))(PU ,)(SBAR(VB pahamilah)(NP(RB seluruh)(NN informasi))(ADJP(RB lebih)(>JJ teliti)))(PU ,)(CC kemudian)(SBAR(VB tulislah)(NP(NN isi)(NN berita))(VB berpedoman)(ADVP(IN pada)(NP(NN kata)(NN bantu)(VB tanya))(ADVP(PU LRB)(CD 5W)(SYM +)(CD 1H)(PU RRB))))( PU .)) (S(VB Tulislah)(NP(NN isi)(NN berita)(PR tersebut))(ADVP(JJ dalam)(AR beberapa)(NN kalimat))(PU !)) (S(VB Tukarkan)(NP(NN hasil)(NN kerjamu)(ADVP(IN dengan)(NP(NN hasil)(NN kerja)(NN teman)(NN sebangkumu))))(PU !)) (S(VB Cocokkanlah)(NP(NN hasil)(NN kerja)(NN temanmu)(ADVP(IN dengan)(NN informasi)(ADVP(AR yang)(VP(AUX akan)(VB diperdengarkan)(RB kembali))(IN oleh)(NN gurumu))))(PU !)) (S(>VB Fokuskan)(NN perhatianmu)(ADVP(IN pada)(NN aspek)(NN penggunaan)(NN bahasa))(PU ,)(SBAR(NN khususnya)(NP(NN aspek)(NN kebakuan)(NN penggunaan)(NN bahasa))(ADVP(PU LRB)(JJ baku)(PU /)(ADJP(RB tidak)(JJ baku))(PU RRB)))(CC dan)(NP(NN ragam)(NN bahasa)(ADVP(AR yang)(VB digunakan)(ADVP(PU LRB)(NN percakapan)(PU ,)(JJ formal)(PU ,)(JJ puitis)(PU RRB))))(PU !)) (S(CS Ketika)(SBAR(PR ia)(>VB menceritakan)(ADVP(IN sekitar)(NP(NN peristiwa)(NN tsunami))))(PU ,)(SBAR(WH apa)(SBARQ((ADVP(AR yang)(AUX dapat))(NN kalian)(VB cermati))))(PU ?)) (S(SBAR(NN Kalian)(ADJP(JJ tentu)(JJ juga))(VP(AUX dapat)(VB menyaksikan)))(WH bagaimana)(SBAR(NP(AR seorang)(NN dalang))(>VB memainkan)(NN wayang))(PU .)) (S(ADVP(IN Pada)(NN dasarnya))(NN dalang)(VB adalah)(NP(NP(NN tukang)(NN cerita))(CC atau)(NP(NN pencerita)(ADVP(AR yang)(NP(AR setiap)(NN penampilannya))(>VP(RB selalu)(>VB menggunakan))(NP(NN alat)(NN peraga)(ADVP(VB berupa)(NN wayang))))))(PU .)) (S(VB Pilihlah)(NP(JJ salah)(CD satu)(NN peristiwa)(ADVP(AR yang)(RB pernah)(SBAR(NP(PR kamu))(JJ alami))(CC atau)(SBAR(NP(PR kamu))(>VB saksikan)(NP(PR tersebut)))))(ADVP(IN untuk)(SBAR(NP(PR kamu))(>VB ceritakan)(ADVP(IN kepada)(NN teman-temanmu)(ADVP(IN di)(NP(NN depan)(NN kelas))))))(PU .)) (S(ADVP(IN Agar)(NP(NN cerita)(ADVP(AR yang)(NP(PR kamu))(>VB sampaikan)(ADJP(JJ urut)(CC dan)(JJ sistematis)))))(PU ,)(SBAR(>VB buatlah)(ADJP(RB terlebih)(RB dahulu))(NP(NN kerangka)(NN cerita)))(PU .)) (S(CC Kemudian)(PU ,)(VB kembangkan)(NP(NN kerangka)(NN tersebut))(VB menjadi)(NP(NN cerita)(ADVP(AR yang)(JJ utuh)))(PU .))

L-10.9

(S(VB Siapkan)(NP(NN alat)(NN peraga)(ADVP(AR yang)(VP(AUX dapat)(VB mendukung))(NP(NN cerita)(ADVP(ADJP(AR yang)(AUX akan))(NP(PR kamu))(VB sampaikan)(PR itu)))))(PU .)) (S(VB Berdasarkan)(NP(NN karangan)(ADVP(ADJP(AR yang)(RB telah))(NP(PR kamu))(VB siapkan)(CC serta)(NP(NN alat)(NN peraga)(ADVP(ADJP(AR yang)(RB sudah))(NP(PR kamu))(VB buat)(ADVP(VP(VB mulailah)(VB bercerita))(ADVP(RB secara)(VB bergiliran)))))))(PU .)) (S(SBAR(CS Ketika)(NN temanmu)(VB bercerita))(PU ,)(SBAR(VB berikan)(NP(NN penilaian)(NN penampilan)(NN temanmu)(PR itu))(ADVP(IN dengan)(NP(NN pedoman)(NN penilaian)(JJ berikut)(PR ini))))(PU !)) (S(VB Bacalah)(NP(NN teks)(JJ berikut)(PR ini))(ADVP(IN dengan)(NP(NN kecepatan)(CD 200)(NN kata)(RP per)(NN menit)))(PU .)) (S(VB Hitunglah)(WH berapa)(NP(NN kecepatan)(NN membacamu))(PU !)) (S(SBAR(CS Jika)(ADJP(AUX masih)(JJ rendah)))(PU ,)(SBAR(VP(VB tingkatkan)(RB terus)(NP(NN kecepatan)(VB membacamu))))(PU !)) (S(ADVP(RB Setelah)(VB membaca)(ADVP(IN dengan)(JJ cepat))(NP(NN bacaan)(ADVP(IN di)(NN atas))))(>VB kerjakan)(NP(NN soal)(ADVP(IN di)(NN bawah)(PR ini)))(PU !)) (S(ADVP(CS Ketika)(VB menjawab)(NN pertanyaan))(PU ,)(NN kalian)(ADJP(RB tidak)(AUX boleh))(VP(VB membaca)(RB lagi))(NP(NN bacaan)(PR itu))(PU .)) (S(>VB Lakukan)(NP(NN kegiatan)(PR ini))(ADVP(IN dengan)(JJ jujur))(ADVP(IN untuk)(>VB mengetahui)(ADJP(RB sejauh)(PR mana))(NP(NN pemahaman)(NN kalian))(ADVP(IN terhadap)(NP(NN isi)(NN bacaan))))(PU .)) (S(ADVP(RB Setelah)(NN kalian)(>VB mengetahui)(NP(CC waktu)(CC tempuh))(>VB membaca))(CC dan)(SBAR(NN kalian)(VP(RB telah)(>VB mengetahui))(NP(NN jumlah)(NN kata))(ADVP(JJ dalam)(NP(NN bacaan)(PR tersebut))))(PU ,)(SBAR(VB hitunglah)(NP(NN kecepatan)(>VB membaca)(NN kalian))(ADVP(IN dengan)(>VB menggunakan)(NP(NN rumus)(ADVP(IN di)(NN atas)))))(PU .)) (S(ADVP(RB Setelah)(VB membaca)(NP(NN teks)(NN wacana)(ADVP(IN di)(NN atas))))(PU ,)(>VB simpulkan)(NN isinya)(ADVP(IN dengan)(JJ tepat))(ADVP(JJ dalam)(AR beberapa)(NN kalimat))(PU !)) (S(>VB Lakukan)(NP(NN kegiatan)(PR ini))(PU ,)(ADVP(IN dengan)(>VB berdiskusi)(ADVP(JJ dalam)(NP(NN kelompok)(NN belajarmu))))(PU .)) (S(>VB Tuliskan)(NN hasilnya)(ADVP(JJ dalam)(NP(NN buku)(NN tugasmu)))(PU !)) (S(NP(JJ Banyak)(NN dongeng)(ADVP(AR yang)(VB berkembang)(ADVP(IN di)(NP(NN masyarakat)(ADVP(AR yang)(VP(RB tidak)(VB tertulis)))))))(PU ,)(ADVP(IN di)(NN samping)(NP(NN dongeng)(ADVP(AR yang)(RB sudah)(VB ditulis)(CC atau)(VB dibukukan))))(PU .)) (S(NP(NN Dongeng)(ADVP(AR yang)(>VB berkembang)(ADVP(IN di)(NN masyarakat))))(VP(RB biasanya)(>VB bercerita))(ADVP(CC tentang)(NP(NN legenda)(CC atau)(NP(NN asal-usul)(ADVP(AR suatu)(NN tempat))))(PU ,)(NP(NN dongeng)(>VB mengenai)(NN binatang)(ADVP(PU LRB)(NN fabel)(PU RRB)))(CC atau)(NP(NN dongeng)(VB mengenai)(NP(NN roh)(NN nenek)(NN moyang))))(PU .)) (S(>VB Bacalah)(NP(NN dongeng)(JJ berikut)(PR ini))(ADVP(IN dengan)(JJ cermat))(PU !)) (S(SBAR(ADVP(RB Setelah)(RB selesai))(>VB membaca))(PU ,)(SBAR(VB tulislah)(RB kembali)(NP(NN isi)(NN dongeng))(ADVP(IN dengan)(>VB menggunakan)(NP(NN bahasamu)(RB sendiri))))(PU !)) (S(SBAR(>VB Carilah)(NP(NN dongeng)(ADVP(IN dari)(NP(NN majalah)(CC atau)(NP(NN surat)(NN kabar))))))(PU ,)(CC

L-10.10

kemudian)(SBAR(>VB bacalah)(NP(>NN dongeng)(PR tersebut)))(PU .)) (S(>VP(VB Hayati)(CC dan)(VB pahami))(NP(NN isi)(NN dongeng)(PR itu))(ADVP(IN dengan)(JJ baik))(PU .)) (S(SBAR(ADVP(RB Setelah)(NN dongeng)(RB selesai))(NP(PR kamu))(VB baca))(PU ,)(SBAR(>VB tulislah)(RB kembali)(NP(NN dongeng)(PR tersebut))(ADVP(IN dengan)(NP(NN bahasamu)(RB sendiri))))(PU .)) (S(>VB Ingat)(PU ,)(ADVP(CS ketika)(SBAR(NP(PR kamu))(>VB menulis)(RB kembali)(NP(NN isi)(NN dongeng)))(SBAR(NP(PR kamu)(ADJP(RB tidak)(AUX perlu))(>VB membaca)(RB kembali)(NP(NN isi)(NN dongeng))(ADVP(IN agar)(NP(NN dongeng)(ADVP(AR yang)(NP(PR kamu))(>VB tulis)(PR itu)(ADVP(RB benar-benar)(>VB menggunakan)(NP(NN kata-kata)(CC dan)(NP(NN bahasa)(RB sendiri))))))))))(PU !)) (S(ADVP(JJ Dalam)(>VB menulis)(NN dongeng))(PU ,)(NP(NN pengarang)(CC atau)(NN penulis))(VP(RB sering)(>VB menggunakan))(NP(NN kata-kata)(>VB bermakna)(NN konotasi))(ADVP(IN untuk)(NP(NN maksud-maksud)(JJ tertentu)))(PU .)) (S(NP(NN Kata)(>VB bermakna)(NN konotasi))(NP(AUX dapat)(>VB digunakan))(ADVP(IN untuk)(VB mewakili)(NP(NN perasaan)(PR seseorang)))(PU .)) (S(ADVP(IN Di)(JJ dalam)(>VB menulis)(NP(NN buku)(JJ harian)))(PU ,)(NP(PR kita))(>VP(AUX dapat)(>VB memilih))(NP(NN kata)(ADVP(AR yang)(>VB bermakna)(NN konotasi)))(ADVP(IN untuk)(>VB mengekspresikan)(NP(NN pikiran)(CC dan)(NN perasaan)(PR kita)))(PU .)) (S(>VB Perhatikan)(NP(NN contoh-contoh)(JJ berikut)(PR ini))(PU !)) (S(>VB Dengarkan)(NP(NN berita)(ADVP(AR yang)(>VP(AUX akan)(VB dibacakan))(ADVP(IN oleh)(NN Bapak)(PU /)(NP(NN Ibu)(NN guru)))))(PU !)) (S(NP(NN Teks)(NN berita))(VP(AUX dapat)(VB diambil))(ADVP(IN dari)(NP(NN lampiran)(NN buku)(PR ini)))(PU !)) (S(ADVP(RB Setelah)(NP(PR kamu))(VB dengarkan)(NP(NN berita)(ADVP(AR yang)(>VB dibacakan)(ADVP(IN oleh)(NN Bapak)(PU /)(NP(NN Ibu)(NN Guru))))))(PU ,)(>VP(>VB tulislah)(RB kembali))(NP(NN isi)(NN berita)(PR tersebut))(VB berpedoman)(ADVP(IN pada)(NP(NN jawaban)(NN atas)(NN pertanyaan)(WH apa)(PU ,)(WH kapan)(PU ,)(IN di)(PR mana)(PU ,)(PR siapa)(PU ,)(WH mengapa)(PU ,)(CC dan)(PR bagaimana)))(PU !)) (S(WH Pernahkah)(SBARQ(NP(PR kamu))(>VB mendengar)(NP(NN dongeng)(ADVP(CC tentang)(NN Malin)(NN Kundang))))(PU ?)) (S(WH Apakah)(SBARQ(NP(NN isi)(NN dongeng)(NN Malin)(NN Kundang)))(PU ?))

Tanda ‘>’ berarti kepala tag dari level pohon bagian kalimat.

L-11.1

Lampiran 11 Contoh File Leksikon

Berikut adalah sebagian file leksikon yang digunakan pada tesis ini: .................... , PU 1 . PU 1 : PU 0 ; PU 0 = SYM 0 ? PU 0 @ SYM 0 \ PU 0 aba-aba NN 0 abad NN 0 abadi JJ 0 abah NN 0 abah-abah NN 0 abakus NN 0 abang NN 0 abangan NN 0 abar NN 0 abatoar NN 0 abdas NN 0 abdi NN 0 abdikasi NN 0 abdomen NN 0 abdominal JJ 0 aberasi NN 0 abiogenesis NN 0 abjad NN 0 ablasi NN 0 ablaut NN 0 abnormal JJ 0 abnormalitas NN 0 abnus NN 0 abolisi NN 0 abon NN 0 abonemen NN 0 aborsi NN 0 abortus NN 0 abrak NN 0 abras NN 0 abrasi NN 0 abreviasi NN 0 ....................

L-12.1

Lampiran 12 Contoh File Simbol Non-terminal

Berikut adalah file simbol non-terminal yang digunakan pada tesis ini: $ : . @ % + = , # `` LRB RRB ADJP ADVP AR AUX CC CD CS FW IN JJ MD NN NP PR RB RP S SBAR SBARQ VB VP WH PU SYM TOP UH X SBAR-A S-A VP-A NP-A ADJP-A ADVP-A SBARQ-A X-A WH-A SBAR-g VP-g VP-A-g S-A-g SBAR-A-g

PR-g ADJP-g NP-A-g S-g

L-13.1

Lampiran 13 Penjelasan Teknis Struktur Data yang Digunakan pada Pemrosesan Awal (preprocessing): Struktur Grammar

Aturan grammar pada pengurai Collins merupakan kemungkinan triple dari

simbol non terminal yang digenerasi dari treebank. Berikut adalah sebuah contoh

pohon kalimat dalam bahasa Indonesia yang akan digenerasi grammar-nya dengan

menggunakan format pengurai Collins:

VB merupakan kepala pada level anak S. Maka grammar yang dihasilkan dari

pohon di atas adalah sebagai berikut:

L S NP VB

R S VB NN

R S NN PU

U NP PR

X NP PR 00000

Y NP PR 00000

L (left) berarti sisi kiri dari kepala level dan R (right) berarti sisi kanan dari kepala

dimana merupakan grammar triple dari

parent → anak1 anak2

S

NP VB NN

PR menanam bunga

Dia

PU

.

L-13.2

sehingga menjadi

S → NP VB

S → VB NN

S → NN PU

Grammar berjenis U (unary) adalah grammar yang dihasilkan ketika simpul orang

tua hanya memiliki sebuah simpul anak. Dilihat dari gambar pohon di atas maka

grammar unary yang dihasilkan adalah:

NP → PR

Grammar X dan Y adalah grammar sub-kategori yang diambil dari grammar U

diberi dengan kode tambahan 5 buah angka 0 (nol).

L-14.1

Lampiran 14 Penjelasan Teknis Struktur Data yang Digunakan pada Pemrosesan Awal (preprocessing): Struktur Morfologi

Struktur data yang digunakan pada pemrosesan aturan morfologi untuk proses

POS tagging adalah sebagai berikut:

struktur elemen kata yang dicari morfologinya (untuk menyimpan history pemrosesan POS

tagging kata dengan aturan morfologi) misal untuk kata “perkataan”

prefix

(awalan)

sufix

(akhiran)

half

(imbuhan di

tengah kata)

base

(kata dasar)

repeat

(1 jika kata

ulang)

tag

per an kata 0 NN

struktur elemen untuk menyimpan aturan morfologi yang diambil dari file aturan morfologi

(.pfx, .sfx, .cfx, .rpt, .rpth)

misal untuk kata “tanam-menanam”

prefix sufix half rule rulehalf basetag basetaghalf tag next

me t tanam VB

Format file aturan morfologi untuk prefix (.pfx), sufix (sfx), pengulangan di

tengah (.rpth) adalah sebagai berikut:

[imbuhan] [huruf_lebur_karena_imbuhan] [tag_kata_dasar] [tag_kata]

misal sebagai berikut untuk file aturan morfologi prefix (.pfx): be 0 X VB

di 0 X VB

menge 0 X VB

meng k X VB

meny s X VB

men t X VB

dimana:

• imbuhan adalah imbuhan yang dikenakan pada kata dasar

L-14.2

• huruf_lebur_karena_imbuhan adalah huruf depan kata dasar yang lebur

atau hilang karena mendapat imbuhan, misal untuk kata menyesal dari

kata sesal dimana huruf s awal kata sesal melebur karena mendapat awalan

meny-.

• tag_kata_dasar adalah tag kata dasar sebelum diberi imbuhan untuk

dicocokkan dengan kamus, ini berlaku jika imbuhan hanya diberikan pada

kata dasar dengan jenis tertentu, jika berlaku untuk semua kata dasar maka

akan diberi tanda X.

• tag_kata adalah tag setelah kata diberi imbuhan

Format file aturan morfologi untuk aturan pengulangan (.rpt) adalah sebagai

berikut: prefix sufix huruf_lebur_karena_imbuhan tag_kata_dasar tag_kata

misal sebagai berikut untuk file aturan morfologi konfiks (.cfx): dipe kan 0 X VB

menge kan 0 X VB

meng kan k X VB

meny kan s X VB

men kan t X VB

L-15.1

Lampiran 15 Penjelasan Teknis Struktur Data yang Digunakan pada Pemrosesan Awal (preprocessing): Struktur Pohon/Tree

Struktur simpul pohon yang digunakan adalah sebagai berikut:

prev label headword headtag type leftchid parent headchild next

NP Dia PR 1

Struktur data pohon untuk pohon kalimat pada lampiran 8 adalah sebagai berikut:


NULL S menanam VB 0 NULL NULL


NULL NP Dia PR 0


NULL PR Dia PR 1 NULL NULL


VB menanam VB 1 NULL NULL


NN bunga NN 1 NULL NULL


PU . PU 1 NULL NULL NULL

Setiap pohon kalimat pada file treebank akan disimpan pada struktur data tree ini

untuk diproses menjadi events dan grammar. Kode angka 6 pada events

menandakan pembacaan kalimat yang dibuat pohon kalimatnya. Kode angka 3

merupakan kode event unary dimana jika setiap simpul pohon hanya memiliki

satu anak atau hubungan antara simpul dengan kepala anaknya. Kode angka 2

L-15.2

merupakan kode event dependency dimana merupakan aturan triple tiga buah

simbol non terminal (grammar). Misal sebagai contoh kalimat pada Lampiran 8

yang memiliki pohon kalimat pada file treebank sebagai berikut: (S(NP(PR Dia))(>VB menanam)(NN bunga)(PU .))

maka akan menghasilkan event kalimat sebagai berikut: 6 4 Dia PR menanam VB bunga NN . PU

dan akan menghasilkan event unary dan dependency sebagai berikut: 3 menanam VB S VB 00000 00000

2 Dia PR menanam VB NP S VB 000000 110 0 0

2 #STOP# #STOP# menanam VB #STOP# S VB 000000 100 0 0

2 bunga NN menanam VB NN S VB 000000 010 0 0

2 . PU menanam VB PU S VB 000000 000 0 0

2 #STOP# #STOP# menanam VB #STOP# S VB 000000 000 0 0

3 Dia PR NP PR 00000 00000

2 #STOP# #STOP# Dia PR #STOP# NP PR 000000 110 0 0

2 #STOP# #STOP# Dia PR #STOP# NP PR 000000 010 0 0

Penjelasan event unary dan dependency di atas adalah sebagai berikut:

• 3 menanam VB S VB 00000 00000

merupakan hubungan antara simpul S dengan kepala kata simpul anaknya

yaitu simpul VB.

• 2 Dia PR menanam VB NP S VB 000000 110 0 0 merupakan event dependency yang merepresentasikan grammar

S → NP VB

• 2 #STOP# #STOP# menanam VB #STOP# S VB 000000 100 0 0

merupakan event dependency yang merepresentasikan grammar

S → STOP VB

• 2 bunga NN menanam VB NN S VB 000000 010 0 0


S → NN VB

• 2 . PU menanam VB PU S VB 000000 000 0 0


S → PU VB

L-15.3

• 2 #STOP# #STOP# menanam VB #STOP# S VB 000000 000 0 0


S → STOP VB

• 3 Dia PR NP PR 00000 00000

• 2 #STOP# #STOP# Dia PR #STOP# NP PR 000000 110 0 0 merupakan event dependency yang merepresentasikan grammar

NP → STOP PR

• 2 #STOP# #STOP# Dia PR #STOP# NP PR 000000 010 0 0 merupakan event dependency yang merepresentasikan grammar

NP → STOP PR

Jika dilihat dari struktur pohon yang digunakan di atas maka sebuah event unary

dari sebuah simpul didapat dari: 3 [headword] [headtag] [label] [headchild->label] 00000 00000

Oleh karena itu, simpul dapat menjadi event unary harus memiliki kepala kata

simpul anak (headchild).

Jika dilihat dari struktur pohon yang digunakan di atas maka sebuah event

dependency dari sebuah simpul didapat dari: 2 [kata_simpul_anak tag_simpul_anak] [headword] [headtag] [label_simpul_anak] [label] [headchild->label] 000000 [keterangan_arah_grammar] 0 0

dimana jika simpul anak kosong maka kata_simpul_anak, tag_simpul_anak,

dan label_simpul_anak diganti dengan #STOP#. Keterangan_arah_grammar

merupakan kode yang terdiri dari tiga buah dijit yang berarti:

arah grammar

dibangkitkan, 1 untuk arah

kiri, 0 untuk arah kanan

bernilai 1 jika simbol non-

terminal grammar saling

berdekatan dan bernilai 0

jika tidak saling berdekatan

bernilai 1 jika memiliki kata

kerja dan bernilai 0 jika

tidak memiliki kata kerja

L-15.4

misal keterangan_arah_grammar bernilai 100 maka berarti bahwa grammar

dibangkitkan dipandang dari sisi kiri, dengan posisi simbol non-terminal saling

berdekatan, dan tidak memiliki kata kerja (VB).

Keterangan lebih jelas dapat dibaca dari disertasi Michael Collins.

L-16.1

Lampiran 16 Cara Penggunaan Program

Program implementasi dibuat dengan menggunakan bahasa pemrograman C

menggunakan pustaka standar GCC dijalankan di sistem operasi windows

menggunakan cygwin. Dapat juga dijalankan di Linux dengan menggunakan

terminal (GCC merupakan pustaka standar bahasa C pada Linux).

Untuk membuat file events, menambah file grammar, dan leksikon maka program

dapat dieksekusi dengan perintah berikut:

preprocess/preprocess 1 nama_file_treebank nama_file_grammar

misal

preprocess/preprocess 1 examples/smptreebank models/model1/grammar

maka file events akan dibuat dengan path models/model1/grammar.events, file

grammar adalah models/model1/grammar.grm, file simbol non-terminal adalah

models/model1/grammar.nts, dan file leksikon adalah

models/model1/grammar.lexicon.

Untuk membuat file korpus maka program dapat dieksekusi dengan perintah

berikut:

preprocess/preprocess 2 nama_file_kalimat nama_file_grammar

nama_file_output

misal

preprocess/preprocess 2 examples/smp.cps models/model1/grammar

examples/smpjadi.cps

L-16.2

file kalimat berisi kalimat yang setiap kalimat dipisahkan menggunakan ‘\n’

(tombol enter) seperti berikut: Apakah daerahmu juga ada cerita semacam ini?

Kalau ada, tulislah dengan singkat cerita itu!

file grammar yang digunakan meliputi:

Nama File Keterangan models/model1/grammar.grm menyimpan aturan grammar models/model1/grammar.lexicon menyimpan leksikon models/model1/grammar.nts menyimpan simbol non terminal models/model1/grammar.pfx menyimpan aturan morfologi untuk

prefiks models/model1/grammar.sfx menyimpan aturan morfologi untuk

sufiks models/model1/grammar.cfx menyimpan aturan morfologi untuk

konfiks models/model1/grammar.rpt menyimpan aturan morfologi untuk

perulangan berimbuhan models/model1/grammar.rpth menyimpan aturan morfologi untuk

perulangan berimbuhan di tengah

Untuk menjalankan pengurai Collins dapat menggunakan perintah berikut: cat nama_file_events | code/parser nama_file_korpus

nama_file_grammar 10000 1 1 1 1

misal

cat models/model1/grammar.events | code/parser

examples/smpjadi.cps models/model1/grammar 10000 1 1 1 1

file grammar yang digunakan adalah models/model1/grammar.events sebagai

file events, models/model1/grammar.grm sebagai file aturan grammar,

L-16.3

models/model1/grammar.lexicon sebagai file leksikon, dan

models/model1/grammar.nts sebagai file simbol non terminal.

L-17.1

Lampiran 17 Algoritma Chart Pengurai Collins

Mekanisme algoritma chart yang digunakan pada pengurai Collins adalah sebagai

berikut:

1. memasukkan semua kata pada kalimat ke dalam tabel Dia menanam bunga

PR VB NN

2. mencari aturan grammar dari file grammar yang cocok untuk mencari

simpul pada level di atas langkah nomor 1, misal diambil aturan grammar

unary NP → PR maka akan dicari nilai probabilitasnya dengan mencari

probabilitas grammar NP → PR digunakan pada file events, jika merupakan

probabilitas terbesar dibandingkan aturan grammar lain maka akan

dijadikan edge (jalur penguraian pohon, tidak lengkap maupun lengkap).

Satu sel tabel melambangkan sebuah edge. Dia menanam bunga

PR VB NN

NP

dari tabel di atas maka edge yang dihasilkan adalah:

S → PR

S → VB

S → NN

S → NP

NP → PR

3. Langkah 2 terus diulang sampai semua kata dalam kalimat selesai diuraikan,

kalimat yang tidak berhasil diuraikan adalah kalimat yang edge-nya terputus

di tengah kalimat.

penguraian bahasa indonesia dengan menggunakan …rosa-as.id/download/tesis-rosa-23507024.pdf ·...

Documents