penguraian bahasa indonesia dengan menggunakan …rosa-as.id/download/tesis-rosa-23507024.pdf ·...
TRANSCRIPT
http://www.gangsir.com
PENGURAIAN BAHASA INDONESIA DENGAN
MENGGUNAKAN PENGURAI COLLINS
TESIS
Karya tulis sebagai salah satu syarat untuk memperoleh gelar Magister dari
Institut Teknologi Bandung
Oleh
ROSA ARIANI SUKAMTO
NIM : 23507024
(Program Magister Informatika)
INSTITUT TEKNOLOGI BANDUNG 2009
ii
PENGURAIAN BAHASA INDONESIA DENGAN
MENGGUNAKAN PENGURAI COLLINS
Oleh
Rosa Ariani Sukamto
NIM : 23507024 (Program Magister Informatika)
Institut Teknologi Bandung
Menyetujui
Pembimbing
Tanggal 24 Juni 2009
Ir. Dwi Hendratmo Widyantoro, M.Sc., Ph.D NIP. 132084094
iii
ABSTRAK
PENGURAIAN BAHASA INDONESIA DENGAN
MENGGUNAKAN PENGURAI COLLINS
Oleh
Rosa Ariani Sukamto
NIM : 23507024
(Program Magister Informatika)
Pemrosesan bahasa alami berawal dari keinginan manusia untuk
berkomunikasi dengan komputer menggunakan bahasa manusia. Pengurai (parser) akan membentuk pohon pola tata bahasa sehingga dapat disimpulkan dimana inti dari sebuah kalimat berbahasa manusia. Pengurai (parser) merupakan pengurai kalimat menjadi pohon pola tata bahasa yang digunakan dalam pemrosesan bahasa alami. Pengurai Collins merupakan pengurai yang dibuat untuk bahasa Inggris. Pengurai Collins termasuk pengurai yang memiliki kecepatan yang cukup baik dalam melakukan penguraian dengan metode statistik.
Tesis ini melakukan adaptasi yang perlu dilakukan pada pengurai Collins agar dapat digunakan untuk bahasa Indonesia. Adaptasi yang dilakukan adalah memproses kumpulan file yang digunakan pada pengurai Collins agar dapat digunakan pada bahasa Indonesia. Kumpulan file masukan pengurai Collins antara lain file leksikon, file grammar, file simbol non-terminal, file events, dan file korpus. Beberapa kendala yang muncul adalah tidak adanya treebank dalam bahasa Indonesia yang dapat digunakan sebagai data pembelajaran pengurai Collins. Treebank digunakan sebagai data awal untuk menggenerasi events dan grammar yang dijadikan data pembelajaran pada pengurai Collins.
Pengujian dilakukan dengan menggunakan dua buah kelompok kalimat. Kelompok kalimat pertama terdiri dari kalimat-kalimat sederhana dan kelompok kalimat kedua terdiri dari kalimat-kalimat kompleks. Pengurai Collins berhasil menguraikan semua kalimat pada kelompok pertama dan lebih dari separuh kalimat dari kelompok kedua. Hampir semua kalimat pada kelompok pertama diuraikan dengan benar. Tidak ada kalimat yang benar diuraikan secara kesatuan kalimat pada kelompok kedua. Dengan jumlah treebank yang sangat terbatas, pengurai Collins telah mampu menguraikan kalimat berbahasa Indonesia. Kata Kunci : pengurai, statistik, probabilistik, pola tata bahasa
iv
ABSTRACT
INDONESIAN PARSING USING COLLINS’S PARSER
Natural language processing appear caused of human desire to
communicated with computer using human language. Parser will generates parse trees so computer can make main conclusion from human language. Parser is a natural language processing component where parse sentences to be parse trees. Collins’s parser is english language parser. Collins’s parser is one of statistic parser that has good speed.
Adaptation processing is needed to adapt all input files, which were originally designed for English, so as to suit the parsing requirement for Indonesian language. These include lexicon file, grammar file, non terminal file, and event file, as well as corpus file. One of the main obstacles in this attempt is providing treebank needed to calculate probability values.
Two group where build to test Collins’s parser for Indonesian. First group consist of simple sentences and second group consist of complex sentences. Collins’s parser is able to parse all sentences in first group and more than a half from second group. Almost all sentences in first group are able to parse correctly. None of sentences in second group that being parsed perfect correctly. Collins’s parser could parse Indonesian sentences thought using limited treebank. Key Words : parser, statistic, probabilistic, grammar
v
PEDOMAN PENGGUNAAN TESIS
Tesis S2 yang tidak dipublikasikan terdaftar dan tersedia di Perpustakaan Institut
Teknologi Bandung, dan terbuka untuk umum dengan ketentuan bahwa hak cipta
ada pada pengarang dengan mengikuti aturan HaKI yang berlaku di Institut
Teknologi Bandung. Referensi kepustakaan diperkenankan dicatat, tetapi
pengutipan atau peringkasan hanya dapat dilakukan seizin pengarang dan harus
disertai dengan kebiasaan ilmiah untuk menyebutkan sumbernya.
Memperbanyak atau menerbitkan sebagian atau seluruh tesis haruslah seizin
Direktur Program Pascasarjana, Institut Teknologi Bandung.
vi
Dipersembahkan kepada Gadiza dan Udin
vii
KATA PENGANTAR
Segala puji syukur bagi Allah SWT karena atas rahmat yang dilimpahkan-Nya
penulis dapat menyelesaikan pembuatan laporan tesis yang berjudul “Penguraian
Bahasa Indonesia dengan Menggunakan Pengurai Collins”. Laporan ini dibuat
untuk memenuhi syarat kelulusan tahap magister, namun kelulusan bukanlah
segalanya, yang terpenting adalah ilmu pengetahuan, kebijaksanaan, pengalaman,
serta kemampuan menerima keterbatasan yang terkadang tidak sesuai dengan
keinginan.
Penulis mengucapkan terima kasih yang sebesar-besarnya kepada nama-nama
yang tercantum di bawah ini atas bantuan yang telah diberikan selama penulis
menyelesaikan tesis.
1. Bapak Dwi Hendratmo Widyantoro selaku dosen pembimbing, terima
kasih atas bimbingan dan pengalaman yang diberikan.
2. Ibu Masayu Leylia Khodra dan Bu Ayu Purwarianti selaku penguji,
terima kasih atas bantuan, saran, dan kritiknya.
3. Pak Santika atas segala bantuan serta saran mengenai permasalahan yang
dihadapi penulis, dan kesediaan menjadi penguji pada sidang tesis
penulis.
4. Suamiku M. Shalahuddin dan anakku Gadiza Mutia Shalahuddin terima
kasih atas dukungan moral, bantuan, kerja sama, kasih sayang dan
semuanya yang sudah diberikan pada penulis.
5. Keluargaku terutama ibuku tercinta yang sangat kusayangi, terima kasih
atas pengorbanan, perjuangan, doa, dan dukunganmu, dan mendiang
ayahku tercinta yang banyak memberi inspirasi tentang hidup.
6. Petugas tata usaha (Mbak Nur dan Pak Ade), administrasi laboratorium
(Pak Maman dan Pak Wawan), dapur lantai dua, dan perpustakaan (Bu
Tita dan Pak Kandayat) departemen Teknik Informatika yang bersedia
membantu.
7. Teman-teman seperjuangan angkatan 2007 yang tidak bisa disebutkan
satu persatu serta berbagai pihak yang telah membantu tesis ini.
viii
Penulis menyadari bahwa hasil tesis ini masih jauh dari sempurna. Oleh karena
itu, penulis mengharapkan saran dan masukan dari semua pihak untuk
penyempurnaan tesis ini. Akhir kata, penulis berharap semoga Laporan Tesis ini
dapat bermanfaat bagi penulis, pembaca, dan semua pihak yang terkait.
Bandung, 20 Juni 2009
Penulis
ix
DAFTAR ISI
BAB I PENDAHULUAN...............................................................................I-1
I.1 Latar Belakang ..........................................................................I-1
I.2 Rumusan Masalah .....................................................................I-3
I.3 Tujuan .......................................................................................I-3
I.4 Ruang Lingkup..........................................................................I-3
I.5 Batasan Masalah .......................................................................I-4
I.6 Metode Penelitian .....................................................................I-4
I.7 Sistematika Pembahasan ...........................................................I-5
BAB II TINJAUAN PUSTAKA.................................................................... II-1
II.1 Model-model Pola Tata Bahasa .............................................. II-1
II.2 Penelitian mengenai Pengurai (parser)................................... II-5
II.2.1 Perhitungan Probabilitas Aturan Produksi ......................... II-11
II.2.1.1 Model 1............................................................................ II-12
II.2.1.2 Model 2............................................................................ II-14
II.2.1.3 Model 3............................................................................ II-15
II.2.2 Perhitungan Probabilitas Setiap Pohon .............................. II-18
II.3 Penelitian Mengenai Pembangkitan Pola Tata Bahasa
dengan Pendekatan Probabilistik (Probabilistic Parsing) ..... II-18
II.4 Rangkuman Tinjauan Pustaka............................................... II-20
BAB III PENYESUAIAN PENGURAI COLLINS UNTUK BAHASA
INDONESIA...................................................................................................... III-1
III.1 Analisis Proses ...................................................................... III-1
III.1.1 Penyesuaian Kumpulan File Masukan Pengurai Collins
untuk Bahasa Indonesia...................................................... III-6
III.1.1.1 Penyesuaian File Treebank untuk Membuat
File Events....................................................................... III-6
III.1.1.2 Penyesuaian File Korpus................................................. III-8
III.1.1.3 Penyesuaian File Grammar ............................................. III-9
III.1.1.4 Penyesuaian File Simbol Non-terminal ........................ III-10
III.1.1.5 Penyesuaian File Leksikon ........................................... III-11
x
III.1.2 Penentuan Jenis Kata (Part of Speech Tagging) .............. III-11
BAB IV PENENTUAN JENIS KATA (PART OF SPEECH TAGGING)
UNTUK BAHASA INDONESIA ..................................................................... IV-1
IV.1 Leksikon/Kamus ................................................................... IV-2
IV.2 Morfologi Tata Bahasa Indonesia ......................................... IV-4
IV.2.1 Jenis Kata ........................................................................... IV-4
IV.2.2 Imbuhan ............................................................................. IV-6
IV.2.3 Pengulangan Kata .............................................................. IV-7
IV.2.4 Proses Pemeriksaan Imbuhan ............................................ IV-8
IV.3 Prediksi Jenis Kata dengan Metode Bigram ....................... IV-10
BAB V PENGUJIAN..................................................................................... V-1
V.1 Tujuan Pengujian .................................................................... V-1
V.2 Perancangan Pengujian ........................................................... V-1
V.2.1 Hasil dan Analisis Pengujian................................................ V-3
BAB VI PENUTUP........................................................................................VI-1
VI.1 Kesimpulan ...........................................................................VI-1
VI.2 Saran .....................................................................................VI-1
xi
DAFTAR GAMBAR Gambar II-1 Contoh Pohon pada Collins parser .............................................. II-10
Gambar II-2 Parameter Jarak ............................................................................ II-13
Gambar II-3 Pohon Model 3 ............................................................................. II-17
Gambar III-1 Keterkaitan Antar File Masukan pada Pengurai Collins ............. III-4
Gambar III-2 Arsitektur Global Proses Awal Pengurai Collins
untuk Membuat file Events, file Grammar, file Leksikon
format Collins (Menu 1) ............................................................ III-5
Gambar III-3 Arsitektur Global Proses Awal Pengurai Collins
untuk Membuat file korpus dengan Format Pengurai Collins
(Menu 2)..................................................................................... III-5
Gambar III-4 Contoh Pohon Kalimat dalam Bahasa Indonesia......................... III-9
Gambar IV-1 Proses Penentuan Jenis Kata........................................................ IV-1
Gambar IV-2 Proses Memperkaya Kamus ........................................................ IV-4
Gambar IV-3. Urutan Proses Prediksi Jenis Kata dengan Morfologi .............. IV-10
Gambar IV-4 Urutan Proses Prediksi Jenis Kata dengan Metode Bigram ...... IV-13
xii
DAFTAR TABEL Tabel III-1 Perbedaan Bahasa Indonesia dan Bahasa Inggris ............................ III-2
Tabel III-2 Contoh Isi Treebank ........................................................................ III-7
Tabel III-3 Contoh Isi File Events untuk Sebuah Kalimat................................. III-7
Tabel III-4 Contoh File Korpus untuk Satu Kalimat ......................................... III-9
Tabel III-5 Contoh Penulisan Grammar........................................................... III-10
Tabel IV-1 Penamaan Jenis Kata yang Digunakan............................................ IV-5
Tabel IV-2 Simbol Non Terminal ...................................................................... IV-6
Tabel IV-3 Aturan Imbuhan [21] ....................................................................... IV-7
Tabel IV-4 Aturan Pengulangan Kata Berimbuhan ........................................... IV-8
Tabel V-1 Kalimat ke-4 Kelompok ke-2 yang Tidak Berhasil Diuraikan .......... V-3
Tabel V-2 Proses Penguraian Kalimat ke-4 Kelompok ke-2 .............................. V-4
Tabel V-3 Proses Penguraian Kalimat ke-2 Kelompok ke-2 .............................. V-5
xiii
DAFTAR LAMPIRAN
Lampiran 1 Jenis Kata Dalam Bahasa Indonesia [21] .....................................L-1.1
Lampiran 2 Awalan dalam Bahasa Indonesia [21] ..........................................L-2.1
Lampiran 3 Akhiran dalam Bahasa Indonesia [21]..........................................L-3.1
Lampiran 4 Konfiks dalam Bahasa Indonesia [21]..........................................L-4.1
Lampiran 5 Aturan Imbuhan dalam Bahasa Indonesia [21] ............................L-5.1
Lampiran 6 Hasil Pengujian..............................................................................L-6.1
Lampiran 7 Aturan Grammar Hasil Pembangkitan Pemrosesan Awal
(preprocessing) dan Aturan Grammar yang Digunakan .............L-7.1
Lampiran 8 Kalimat dalam File Korpus ...........................................................L-8.1
Lampiran 9 Hasil Generasi Events....................................................................L-9.1
Lampiran 10 Contoh File Treebank Berbahasa Indonesia..............................L-10.1
Lampiran 11 Contoh File Leksikon ................................................................L-11.1
Lampiran 12 Contoh File Simbol Non-terminal.............................................L-12.1
Lampiran 13 Penjelasan Teknis Struktur Data yang Digunakan pada
Pemrosesan Awal (preprocessing): Struktur Grammar .............L-13.1
Lampiran 14 Penjelasan Teknis Struktur Data yang Digunakan pada
Pemrosesan Awal (preprocessing): Struktur Morfologi ............L-14.1
Lampiran 15 Penjelasan Teknis Struktur Data yang Digunakan pada
Pemrosesan Awal (preprocessing): Struktur Pohon/Tree ..........L-15.1
Lampiran 16 Cara Penggunaan Program ........................................................L-16.1
Lampiran 17 Algoritma Chart Pengurai Collins .............................................L-17.1
.
.
xiv
DAFTAR ISTILAH
Istilah Pengertian/Keterangan corpus kumpulan dokumen yang berisi kalimat beserta
jenis katanya, misal Ayah NN mencangkul VB tanah NN . PU
model pola tata bahasa kumpulan pola tata bahasa pengurai Collins (Collins parser)
pengurai hasil dari penelitian Michael Collins; hasil disertasi Michael Collins
pohon pola tata bahasa satu atau lebih pola tata bahasa yang membentuk suatu pohon
pola tata bahasa aturan bahasa (aturan poduksi) seperti S → NN VB NN
tata bahasa grammar; representasi bahasa treebank dokumen atau file yang berisi pohon kalimat
I-1
BAB I PENDAHULUAN
I.1 Latar Belakang
Pola tata bahasa memiliki manfaat dalam pemrosesan bahasa alami. Pemrosesan
bahasa alami berawal dari keinginan manusia untuk berkomunikasi dengan
komputer menggunakan bahasa manusia. Untuk memahami makna bahasa
manusia dengan benar maka komputer perlu mengetahui tata bahasa manusia.
Perangkat untuk memahami pola tata bahasa alami inilah yang disebut pengurai
(parser). Pengurai akan membentuk pohon pola tata bahasa sehingga dapat
disimpulkan dimana inti dari sebuah kalimat berbahasa manusia.
Selama ini penelitian yang banyak dilakukan menggunakan bahasa Inggris. Oleh
karena itu di dalam tesis ini akan dibuat sebuah sistem yang melakukan proses
penguraian kalimat untuk bahasa Indonesia dengan pendekatan probabilistik
(probabilistic parsing). Pemrosesan yang dilakukan pada tesis ini secara garis
besar adalah melakukan pemrosesan awal (preprocessing) untuk menyesuaikan
masukan dari sebuah pengurai (parser) hasil disertasi milik Michael Collins [12].
Pengurai Collins merupakan pengurai yang memiliki lisensi GNU (open source).
Pengurai Collins dianggap sebagai pengurai berbasis statistik yang cukup cepat
pemrosesannya dan pada setiap level pohon memiliki kepala kata. Pengurai
Collins dibuat untuk bahasa Inggris. Oleh karena itu diperlukan adanya
pemrosesan awal untuk menghasilkan beberapa file masukan dengan format file
masukan pengurai Collins dengan bahasa Indonesia. Selain itu pekerjaan
menyesuaikan beberapa bagian pada pengurai Collins juga perlu dilakukan pada
tesis ini agar benar-benar dapat digunakan untuk bahasa Indonesia.
I-2
Sebelumnya telah dilakukan beberapa penelitian mengenai topik tesis ini untuk
bahasa Czech yang dibuat oleh Michael Collins, Jan Hajic dan beberapa rekannya
[13]. Pembentukan pola tata bahasa untuk bahasa Inggris menggunakan metode
probabilistik telah dibahas pada buku karangan Daniel Jurafsky dan James H.
Martin terbitan tahun 2000 [17]. Pada buku tersebut penguraian dengan metode
probabilistik (probabilistic parsing) digunakan untuk memilih pohon-pohon pola
tata bahasa terbaik yang dibangkitkan dari teks masukan berisi kumpulan kalimat
dalam bahasa Inggris. Pembangkitan pohon pola tata bahasa juga digunakan untuk
membangkitkan pola tata bahasa Melayu Malaysia sebagai jenis bahasa yang
serumpun dengan bahasa Indonesia [3]. Pada Penelitian tersebut pola tata bahasa
telah didefinisikan dan pendefinisian fungsi nilai digunakan untuk memilih pohon
yang terbaik dari pohon-pohon pola tata bahasa yang mungkin. Sebelumnya telah
ada penelitian mengenai pengurai dengan metode probabilistik yang dilakukan
oleh Ria Hari Gusmita dan Ruli Manurung [14]. Dalam penelitian tersebut
digunakan sebuah perangkat PC-PATR. Sampai saat ini belum ada paper atau
penelitian yang dipublikasikan secara resmi (telah mengikuti seminar paper)
mengenai pengurai dengan metode statistik untuk bahasa Indonesia menggunakan
pengurai Collins. Penelitian-penelitian yang mendukung pemrosesan dalam tesis
ini juga telah dilakukan oleh Jelita Asian dengan tesisnya mengenai pemrosesan
temu balik informasi bahasa Indonesia [2]. Representasi pohon pola tata bahasa
dengan menggunakan probabilistic context-free grammar (PCFG) juga telah
dibahas pada paper Mark Johnson [16].
Dari tesis ini, nantinya di masa depan dapat menjadi bagian dari sebuah sistem
pemrosesan bahasa alami untuk bahasa Indonesia. Pekerjaan yang harus dilakukan
selanjutnya setelah tesis ini adalah membuat komponen fungsi-fungsi lain yang
belum diimplementasikan dan mendukung sebuah sistem pemrosesan bahasa
alami untuk bahasa Indonesia. Sehingga bangsa ini nantinya akan memiliki
sebuah mesin pemrosesan bahasa alami untuk bahasa Indonesia.
I-3
I.2 Rumusan Masalah
Rumusan masalah dalam tesis ini adalah sebagai berikut:
1. Bagaimana melakukan penyesuaian kumpulan file masukan dari pengurai
Collins dengan bahasa Indonesia,
2. Bagaimana melakukan penentuan jenis kata (POS tagging) untuk bahasa
Indonesia guna mendukung pemrosesan awal.
3. Bagaimana kinerja pengurai Collins setelah menerima masukan kumpulan
file hasil pemrosesan awal (apakah sudah cukup mampu
merepresentasikan pola tata bahasa Indonesia).
I.3 Tujuan
Tujuan dari tesis ini adalah sebagai berikut:
1. Mengimplementasikan pemrosesan awal kumpulan file masukan dari
pengurai Collins menggunakan contoh-contoh teks yang berisi kumpulan
kalimat berbahasa Indonesia; modul pemrosesan awal pengurai Collins
akan diimplementasikan dalam sebuah program,
2. Mengimplementasikan POS tagging untuk bahasa Indonesia guna
mendukung pemrosesan awal.
3. Melakukan evaluasi kinerja model pola tata bahasa yang dihasilkan;
hasil model pola tata bahasa akan dievalusi kinerjanya, apakah sudah
sesuai dengan pola tata bahasa Indonesia baku.
I.4 Ruang Lingkup
Pekerjaan yang dilakukan dalam tesis ini yang akan dilaksanakan oleh penulis
adalah:
1. Mengimplementasikan pemrosesan awal (preprocessing) dan penentuang
jenis kata (POS tagging) untuk mempersiapkan kumpulan file masukan
dari pengurai Collins dari file teks yang berisi kumpulan kalimat berbahasa
Indonesia,
2. Melakukan pengujian terhadap pengurai Collins guna mengetahui kinerja
pengurai Collins untuk bahasa Indonesia.
I-4
I.5 Batasan Masalah
Batasan-batasan pada tesis ini adalah:
1. Proses-proses yang dilakukan untuk pemrosesan awal (preprocessing) dan
penentuan jenis kata (POS tagging) menggunakan jenis kalimat berbahasa
Indonesia tanpa melibatkan ahli bahasa,
2. Tidak semua aturan grammar (tata bahasa) bahasa Indonesia dipakai
dalam tesis ini.
3. Permasalahan ambiguitas penguraian kalimat tidak diujikan pada tesis ini.
I.6 Metode Penelitian
Tesis yang dilakukan adalah berupa penelitian dan membuat pemrosesan awal
pengurai Collins untuk bahasa Indonesia. Metode yang dipergunakan dalam Tesis
ini adalah sebagai berikut:
1. Studi literatur yang berkaitan dengan:
a. Penguraian dengan metode probabilistik (probabilistic parsing),
digunakan untuk pembangkitan pohon-pohon pola tata bahasa,
kemudian memilih yang terbaik dari pohon-pohon yang
dibangkitkan untuk setiap kalimat. Setiap kalimat dapat
menghasilkan lebih dari satu pohon pola tata bahasa (struktur
kalimat) pada setiap proses pembangkitan,
b. Tata penulisan bahasa Indonesia yang terkait dengan penguraian
probabilistik untuk bahasa Indonesia,
seperti kaidah makna imbuhan dan kata dasar agar diketahui jenis
kata yang digunakan untuk membentuk model pola tata bahasa,
c. Penelitian-penelitian terkait pemrosesan temu balik informasi
bahasa Indonesia dan tesis ini,
misalnya mengenai pemrosesan awal bagaimana sebuah kalimat
dapat dibangkitkan pohon pola tata bahasanya dengan
menggunakan pengurai Collins (meliputi proses penguraian
kalimat sesuai kaidah bahasa Indonesia, proses penguraian kalimat
I-5
menjadi kumpulan kata, proses penentuan jenis kata, dan proses
pembentukan pohon atau model pola tata bahasa),
2. Analisis masalah,
menganalisa proses-proses apa saja beserta cara kerjanya yang dibutuhkan
untuk penguraian kalimat,
3. Implementasi metode dan algoritma untuk memodelkan pola tata bahasa
Indonesia dari contoh-contoh teks yang berisi kumpulan kalimat berbahasa
Indonesia,
4. Pengujian hasil implementasi metode dan algoritma untuk memodelkan
pola tata bahasa Indonesia dengan menggunakan beberapa contoh teks
yang terdiri dari kumpulan kalimat berbahasa Indonesia,
5. Evaluasi dan penarikan kesimpulan,
evaluasi kinerja pengurai Collins untuk bahasa Indonesia dan penarikan
kesimpulan sebagai hasil dari penelitian yang dilakukan dalam tesis ini.
I.7 Sistematika Pembahasan
Laporan tesis ini berisi beberapa bab yang terdiri dari Pendahuluan, Tinjauan
Pustaka, Penyesuaian Pengurai Collins untuk Bahasa Indonesia, Penentuan Jenis
Kata (Part of Speech Tagging) untuk Bahasa Indonesia, Pengujian, dan Penutup.
Penjelasan untuk tiap bab tersebut adalah sebagai berikut:
1. Bab Pendahuluan berisi penjelasan mengenai latar belakang ide judul,
rumusan masalah, tujuan, ruang lingkup, batasan masalah, metodologi, dan
sistematika pembahasan. Bab ini bertujuan untuk memudahkan pemanfaatan
laporan tesis ini.
2. Bab Tinjauan Pustaka berisi bahasan penelitian-penelitian yang pernah
dilakukan oleh orang lain sebelumnya dan berkaitan dengan topik tesis ini.
3. Bab Penyesuaian Pengurai Collins untuk Bahasa Indonesia berisi analisis
sistem pemrosesan awal (preprocessing) untuk menyesuaikan kumpulan file
masukan pada pengurai Collins. Bab ini bertujuan untuk mempermudah
memahami proses apa saja yang akan diimplementasikan.
4. Bab Penentuan Jenis Kata (Part of Speech Tagging) untuk Bahasa Indonesia
berisi analisis proses penentuan jenis kata (part of speech tagging) pada
I-6
bahasa Indonesia yang mendukung sistem pemrosesan awal (preprocessing)
pada tesis ini.
5. Bab Pengujian berisi implementasi pengujian beserta hasil dan analisis hasil
pengujian perangkat lunak.
6. Bab Penutup berisi kesimpulan hasil tesis ini dan saran untuk kedepannya
yang terkait tesis ini.
II-1
BAB II TINJAUAN PUSTAKA
Bab ini membahas hal-hal apa saja yang pernah dilakukan sebelumnya mengenai
model-model pola tata bahasa, pengurai (parser) untuk bahasa lain, dan
pembangkitan pola tata bahasa khususnya yang menggunakan pendekatan
probabilistik untuk bahasa lain. Penelitian mengenai pengurai dengan metode
probabilistik untuk bahasa Indonesia belum ditemukan oleh penulis. Penelitian-
penelitian yang dibahas pada bab ini dibagi menjadi tiga kelompok besar yaitu
penelitian mengenai model-model pola tata bahasa, pengurai (parser), dan
pembangkitan pola tata bahasa dengan pendekatan probabilistik. Penelitian
mengenai model-model pola tata bahasa perlu dibahas agar diketahui model pola
tata bahasa apa saja yang telah dibuat oleh orang lain. Penelitian mengenai
pengurai (parser) perlu dibahas agar diketahui model-model pengurai (parser)
yang telah dikembangkan beserta keuntungan dan kelemahannya. Penelitian
mengenai pembangkitan pola tata bahasa dengan pendekatan probabilistik disini
agar diketahui metode-metode yang digunakan.
II.1 Model-model Pola Tata Bahasa
Grammar (tata bahasa) sering dianggap sebagai sebuah jalan alternatif untuk
menspesifikasikan bahasa. Grammar secara teknis merupakan sebuah alat untuk
merepresentasikan sebuah bahasa. Grammar untuk bahasa reguler atau ekspresi
reguler disebut dengan regular grammar [19]. Sebuah regular grammar terdiri
dari empat parameter (4-tuple) yaitu kumpulan simbol non-terminal, kumpulan
simbol terminal, kumpulan aturan produksi, dan kumpulan simbol awal [19].
Grammar memiliki beberapa jenis. Grammar yang berbasis struktur frase (phrase
structure) antara lain seperti context-free grammar (CFG) beserta turunannya dan
tree-grammar, sedangkan grammar berbasis struktur kebergantungan adalah
dependency grammar. Pola tata bahasa dapat dimodelkan dengan CFG. CFG juga
terdiri dari empat parameter (4-tuple) yaitu kumpulan simbol non-terminal,
kumpulan simbol terminal, kumpulan aturan produksi, dan kumpulan simbol
II-2
awal. Perbedaan antara regular grammar dan context-free grammar terletak pada
aturan yang diterapkan pada aturan produksinya [19].
Dalam perkembangannya, CFG dikembangkan menjadi lexicalized context-free
grammar (LCFG) untuk keperluan representasi pohon pola tata bahasa. Hal ini
karena CFG tidak dapat mengakomodasi perlunya fungsi leksikal (aturan seperti
kata benda, kata kerja, kata sifat, dan lain-lain (jenis kata)) dalam membentuk
pohon pola tata bahasa. LCFG memiliki lima parameter (5-tuple) dimana tiga
parameter sama dengan CFG yaitu kumpulan simbol non-terminal, kumpulan
simbol terminal, dan kumpulan simbol awal ditambah dengan dua buah parameter
untuk merepresentasikan aturan produksi yang merepresentasikan pohon [19].
LCFG dikembangkan menjadi Stochastic Lexicalized Context-Free Grammar
(SLCFG) oleh Yves Schabes dan Richard C. Waters (1993) [23]. SLCFG
merupakan LCFG yang menambahkan komponen probabilitas untuk mengontrol
kombinasi pohon hasil dari proses penambahan simpul atau pergantian simpul.
SLCFG memilik sebelas parameter (11-tuple). Enam parameter tambahan SLCFG
merupakan probabilitas kemungkinan pertambahan dan perubahan yang dapat
terjadi pada pohon pada aturan produksi [21]. Kesimpulan dari penelitian ini
adalah bahwa SLCFG sangat bermanfaat sebagai alat pemrosesan bahasa alami
dimana perkiraan statistik atau prediksi dibutuhkan.
Pada perkembangannya, dibuat sebuah model CFG yang menambahkan
probabilitas pada aturan produksinya yang dikenal dengan Probabilistic Context-
Free Grammar (PCFG) atau dikenal juga dengan Stochastic Context-Free
Grammar (SCFG). Model PCFG memiliki lima buah parameter (5-tuple) yaitu
kumpulan simbol non-terminal, kumpulan simbol terminal, kumpulan aturan
produksi, kumpulan simbol awal, dan kumpulan probabilistik untuk aturan
produksinya. Perbedaan PCFG dengan CFG terletak pada penambahan
probabilitas pada setiap aturan produksi pada PCFG [17]. Perhitungan probabilitas
dapat menggunakan berbagai metode misalnya dengan menggunakan bigram
(keterkaitan dua buah elemen), atau trigram (keterkaitan tiga buah elemen). PCFG
(Probabilistic Context-Free Grammar)
II-3
PCFG (Probabilistic Context-Free Grammar) pada tesis ini digunakan untuk
representasi pohon. Aturan produksi pada PCFG digunakan sebagai sub pohon
(bagian-bagian yang membangun pohon). PCFG merupakan pengembangan dari
Context-Free Grammar (CFG). Sebuah CFG didefinisikan dengan empat buah
parameter (N, Σ, P, S) dimana:
N : kumpulan simbol non-terminal
Σ : kumpulan simbol terminal
P : kumpulan produksi, setiap bentuk α →β, dimana α adalah sebuah simbol
terminal dan β adalah string dari kumpulan string tak terbatas (Σ U N)*.
S : Simbol awal
Probabilistic context-free grammar menambah setiap aturan di dalam P dengan
sebuah kondisi probabilitas:
α → β [p] (II-1)
dimana [p] adalah probabilitas dari aturan produksi α → β.
Sebuah PCFG terdiri dari lima buah tuple yaitu G = (N, Σ, P, S, D), dimana D
adalah fungsi probabilitas yang dikenakan pada setiap aturan di P. Fungsi ini
merepresentasikan probabilitas p yang diberikan non-terminal α diekpansi ke β;
hal ini biasanya ditulis sebagai:
P(α→ β) atau P(α→β|α) (II-2)
Secara formal kondisi ini merupakan kondisi probabilitas yang dihasilkan dari
ekspansi di sisi kiri dari simbol non-terminal α.
Sebuah PCFG dapat digunakan untuk memperkirakan sebuah nilai probabiltas
yang berguna terkait dengan sebuah kalimat dan pohon hasil penguraian (parse-
tree). Probabilitas dari pohon hasil penguraian (parse-tree) T didefinisikan
sebagai produk probabilitas dari semua aturan r yang digunakan untuk
pembangkitan setiap simpul n dalam pohon hasil penguraian (parse-tree), S
II-4
adalah kalimat (sentence) sehingga hubungan antara pohon dan kalimat adalah
sebagai berikut:
P(T, S) = ∏∈Tn
p(r(n)) (II-3)
atau
P(T,S) = ∏=
n
i 1
P(RHSi|LHSi) (II-4)
dimana n adalah jumlah aturan produksi, i adalah aturan produksi ke-i dan 1 ≤ i ≤
n, aturan produksinya adalah LHSi → RHSi [12]. Hasil dari probabilitas P(T, S)
adalah gabungan probabilitas dari hasil penguraian (parse) dan kalimat dan juga
probabilitas dari pohon P(T). Pada mulanya
P(T, S) = P(T)P(S|T) = P(T) (II-5)
karena P(S|T) bernilai 1. Setiap kalimat yang dibangkitkan pohon pola tata
bahasanya dapat diambil probabilitas pohon yang terbaik, sehingga pohon terbaik
dapat dilihat sebagai berikut:
T (S) = argmax )(ST π∈ P(T) (II-6)
Kegunaan dari PCFG untuk pemodelan bahasa adalah dapat memberikan
probabilitas pada bagian kalimat [16]. Pada tesis ini PCFG digunakan sebagai
model representasi pohon pola tata bahasa menggunakan aturan produksinya.
Glen Carroll (1995) melakukan sebuah penelitian mengenai pembelajaran tata
bahasa probabilistik untuk pemodelan bahasa [10]. Penelitian ini fokus pada
bahasa Inggris. Model yang digunakan dalam penelitian ini adalah PCFG
(probabilistic context-free grammar). Dalam penelitian ini PCFG didefinisikan
sebagai context-free grammar biasa dengan kumpulan distribusi probabilitas
II-5
aturan-aturan. Penelitian ini menggunakan trigram untuk menghitung probabilistik
setiap kata. Sistem yang dibangun pada penelitian ini diberi nama SINGER
(Single Reader) yang merefleksikan bahwa kalimat dibaca berdasarkan aturan.
Secara umum cara kerja sistem ini adalah sebagai berikut:
• Didefinisikan aturan-aturan yang diterima. PCFG yang digunakan untuk
membangun aturan-aturan,
• Melakukan perhitungan probabilitas per aturan PCFG dengan melihat
probabilitas simpul orang tua di atasnya.
Penelitian ini menghasilkan model grammar tambahan yang cukup besar. Perlu
adanya perbaikan lebih lanjut pada model grammar pada penelitian ini sehingga
performansi dan hasil dapat terus ditingkatkan kualitasnya.
Mark Johnson (1998) melakukan penelitian mengenai model PCFG (Probabilistic
Context-Free Grammar) untuk representasi pohon pola tata bahasa [16].
Penelitian ini mencoba menggunakan PCFG sebagai model pola tata bahasa
Inggris. Masukan dari sistem yang diimplementasikan adalah teks yang berisi
kumpulan kalimat. PCFG digunakan untuk membangkitkan pohon pola tata
bahasa per kalimat. Dalam penelitian ini model dengan PCFG dibandingkan
dengan beberapa model pola tata bahasa lainnya. Penulis penelitian ini
menyimpulkan bahwa perbedaan representasi pohon pola tata bahasa dengan
menggunakan PCFG dapat menimbulkan perbedaan performansi. PCFG cukup
baik digunakan sebagai representasi pohon pola tata bahasa untuk berbagai kasus
secara umum.
II.2 Penelitian mengenai Pengurai (parser)
Pengurai (parser) dalam tesis ini merupakan pengurai kalimat yang digunakan
dalam pemrosesan bahasa alami. Fungsi pengurai (parser) pada tesis ini adalah
sebagai pengurai kalimat untuk membuat pohon pola tata bahasanya dari teks
masukan yang berisi kumpulan kalimat (corpus) berbahasa Indonesia. Pengurai
(parser) pada tesis ini menggunakan aturan grammar untuk membangkitkan
pohon pola tata bahasa dari setiap kalimat, sedangkan proses penguraian (parsing)
II-6
merupakan proses yang mengubah kalimat menjadi model pola tata bahasa.
Pengurai (parser) yang baik harus memenuhi hal-hal berikut:
• Dapat menangani ambiguitas dari parse-tree,
• Dapat menangani kalimat yang keluar dari domain,
• Menggunakan sumber daya (resources) seperti grammar, atau treebank,
• Efisien, terutama pada kecepatan performansi,
• Dapat ditelusuri hasilnya.
Pengurai (parser) memiliki beberapa jenis. Pengurai (parser) berdasarkan jenis
hasil parser-tree adalah phrase structure parser dan depedency structure parser.
Jenis pengurai (parser) jika dilihat dari penggunaan statistik atau tidak maka ada
statistical parser dan ruled-based parser.
Parse-tree merupakan struktur pohon yang dihasilkan oleh pengurai (parser).
Parser-tree dibagi menjadi dua buah jenis yaitu stuktur frase (phrase structure)
dan struktur kebergantungan (dependency structure). Parse-tree berbasis struktur
frase merupakan parse-tree yang dibangun dengan mempertimbangkan
keterkaitan kata satu dengan lainnya yang berdekatan (frase) sedangkan parse-tree
berbasis struktur kebergantungan merupakan parse-tree yang dibangun tanpa
mempertimbangakan posisi yang berdekatan dari tiap kata, tapi berdasarkan
kombinasi dua buah kata yang ada dalam kalimat.
Algoritma yang digunakan untuk proses penguraian (parsing algorithm) banyak
digunakan adalah sebagai berikut:
• Algoritma top-down;
proses penguraian diawali dari akar pohon lalu diteruskan sampai ke daun,
kelemahan dari algoritma ini adalah kurang efisien untuk pembangkitan
pohon kalimat yang tidak sesuai dengan kalimat masukan (salah
membangkitkan ketika sampai pada level tertentu),
• Algoritm bottom-up
proses penguraian diawali dari daun yaitu kata-kata dari kalimat kemudian
diproses sampai ke akar daun.
II-7
• Algoritma kombinasi top-down dengan bottom-up;
karena masalah yang dihadapi adalah pembangkitan pohon yang kurang
efisien maka muncul algoritma kombinasi top-down dan bottom-up
dimana pohon dibangkitkan dari akar pohon, tapi dengan melihat kata-kata
(simpul daun) dari kalimat masukan (untuk filter).
Dari ketiga jenis algoritma di atas, masih ditemukan masalah yang timbul yaitu
adanya aturan produksi yang bersifat rekursif, ambiguitas, pengulangan proses
penguraian untuk sub pohon. Untuk mengatasi permasalahan yang timbul
digunakan dynamic programming. Dynamic programming membagi-bagi masalah
menjadi permasalahan yang lebih kecil untuk diselesaikan. Algoritma yang
menggunakan dynamic programming untuk proses penguraian menggunakan
CFG adalah sebagai berikut:
• Algoritma Early;
menggunakan pencarian secara top-down, melakukan penelusuran dari
kanan ke kiri untuk menentukan pohon parsial,
• Algoritma Cocke-Younger-Kasami (CYK);
algoritma CYK merupakan algoritma parsing yang masuk pada jenis
parsing bottom-up, algoritma CYK mengisi array probabilitas dengan
proses induksi,
• Algortima Graham-Harrizon-Ruzzo (GHR);
menggunakan struktur data yang mirip dengan algoritma CYK, tapi
dengan komputasi mirip dengan algoritma Early
Salah satu penelitian mengenai pengurai dilakukan oleh Eugene Charniak.
Pengurai (parser) yang dibangun oleh Charniak (1997) [7] adalah pengurai
(parser) untuk bahasa Inggris dan menggunakan treebank (kumpulan pohon pola
tata bahasa) untuk membangun sistem pengurai (parser). Penelitian Charniak ini
sering disebut dengan parser (pengurai) menggunakan PCFG yang bersifat
leksikal (dari kamus). Algoritma yang digunakan digolongkan dengan algoritma
chart parser (pengurai) dimana setiap elemen kalimat dipilih berdasarkan chart
untuk menjadi simpul pohon. Parser (pengurai) pada penelitian ini termasuk pada
II-8
parser (pengurai) bottom-up. Setiap kata pada kalimat akan dianggap sebagai
daun pohon, dari setiap daun pohon itu akan disimpulkan apa jenis simpul orang
tuanya, demikian terus keatas sampai ditemukan kepala kalimat. Perhitungan
probabilitas setiap kata berdasarkan distribusi kata itu jika digunakan bersama
kata lain setelahnya di dalam kalimat. Dari segi performansi, parser (pengurai)
dalam penelitian ini lumayan baik.
Berikutnya Charniak melakukan penelitian mengenai parser (pengurai) dengan
Menggunakan Entropi Maksimum (2000) [8]. Ide yang digunakan pada penelitian
ini mirip dengan penggunaan algoritma pohon pengambilan keputusan (decision
tree). Algoritma parser (pengurai) yang digunakan adalah jenis top-down dimana
pada setiap simpul yang dibangkitkan dari atas ke bawah dihitung entropi
kemungkinan setiap jabatan kata dalam kalimat untuk dipilih menjadi simpul
pohon. Dari hasil kesimpulan keakurasian penelitian ini masih sekitar delapan
puluhan persen sehingga masih dibutuhkan perbaikan lebih lanjut.
Penelitian mengenai parser juga dilakukan oleh Michael Collins (1996) [11].
Penelitian ini mengenai parser (pengurai) berbasis statistik pada ketergantungan
bigram leksikal. Penelitian ini mendeskripsikan sebuah parser (pengurai) berbasis
statistik. Perhitungan probabilitas pada bigram merupakan probabilitas dari dua
buah kata yang memiliki ketergantungan dari dua buah kata. Perhitungan bigram
pada penelitian ini dihitung berdasarkan tag (jenis kata) antara dua buah kata yang
saling memiliki ketergantungan (berdekatan). Hasil perhitungan bigram akan
digunakan untuk menghitung probabilitas pohon yang dibangkitkan. Dari segi
performansi penelitian ini dianggap cukup baik karena dari eksperimen
pemrosesan 40.000 kalimat hanya memakan waktu lima belas menit. Akurasi
hasil yang dihasilkan berkisar antara delapan puluh hingga sembilan puluh persen.
Berikutnya Collins juga melakukan penelitian mengenai penguraian (parsing)
bahasa alami dengan model statistik berbasis head-driven (1999) [12]. Collins
membangun sistem penguraian (parsing) dengan membangkitkan simpul setiap
pohon menggunakan probabilitas grammar. Setiap membangkitkan simpul yang
II-9
baru maka metode head-finder akan dijalankan untuk menentukan simpul yang
baru. Metode yang digunakan adalah melakukan penelusuran untuk setiap simpul
yang akan dibangkitkan. Algoritma penguraian (parsing) yang digunakan adalah
algoritma chart. Hasil dari tesis ini dievaluasi per bagian kerja sistem, beberapa
bagian memiliki akurasi sekitar sembilan puluhan persen, tapi di lain bagian ada
yang memiliki akurasi sekitar tujuh puluhan persen. Tesis ini nantinya akan
mengambil modul-modul pada pengurai Collins dengan beberapa perubahan agar
dapat digunakan untuk bahasa Indonesia. Pengurai Collins merupakan pengurai
dengan metode statistik yang memiliki kecepatan pemrosesan yang baik dan
memiliki akurasi yang lebih baik dibandingkan pengurai dengan metode statistik
yang lainnya.
Penelitian mengenai model penguraian (parsing) menggunakan metode statistik
dengan menggunakan ruang parameter dari leksikal generatif dilakukan oleh
Daniel M. Bikel (2004) [4]. Pada penelitian ini, probabilitas yang dihitung dari
setiap kata berupa bigram, tapi menggunakan parameter-parameter tertentu yang
merupakan ekstraksi makna dan jenis kata dalam kamus dari setiap kata.
Penelitian ini merupakan pengurai (parser) untuk bahasa Inggris dan Cina. Untuk
bahasa Inggris, penelitian ini menggunakan Penn treebank untuk membangkitkan
aturan sedangkan untuk bahasa Cina menggunakan aturan-aturan yang telah
didefinisikan pada penelitian Bikel sebelumnya dengan Chiang pada tahun 2000.
Penelitian ini lebih mengarah pada pembuatan sebuah kerangka kerja (framework)
untuk mesin pengurai (parser). Hasil sistem dari penelitian ini dianggap cukup
kompleks. Beberapa parameter yang diujicobakan memberikan akurasi yang baik,
tapi beberapa parameter juga memberikan akurasi yang rendah, dari sini dapat
diambil parameter mana yang berperan baik dalam sebuah pengurai (parser).
Collins parser juga pernah digunakan untuk bahasa czech dalam penelitian yang
dilakukan oleh Michael Collins, Jan Hajic, Lance Ramshaw dan Christoph
Tillmann dengan melakukan adaptasi dengan bahasa czech dari bahasa inggris
[13]. Penelitian tersebut menggunakan Prague treebank yang merupakan treebank
berbahasa Czech. Penelitian tersebut menggunakan pengurai Collins hanya
II-10
sebatas pada model 1. Penelitian tersebut sebenarnya bertujuan sama dengan
penelitian pada tesis ini, hanya saja pada tesis ini untuk bahasa Indonesia. Oleh
karena itu perlu dilakukan adaptasi dengan bahasa Indonesia dari bahasa Inggris.
Permasalahan yang paling sering adalah bagaimana menghitung probabilitas
aturan produksi agar menghasilkan nilai akurasi yang tinggi. Secara sederhana,
probabilitas dari sebuah aturan produksi α → β dapat didefinisikan sebagai
berikut:
P( β| α) = )(
)(α
βαjumlah
jumlah → (II-7)
dimana jumlah aturan dihitung dari model tata bahasa yang dibangkitkan dari
treebank. Sebuah PCFG dapat diberi sifat leksikal dengan mengasosiasikan kata
(w) dengan sebuah part-of-speech (POS) tag t dengan setiap simbol non terminal
α di sebuah pohon. Pada Collins parser sebuah simpul pohon ditulis dengan pola
X(x) dimana x = (w, t). Misal untuk kalimat “Last week IBM bought Lotus” maka
pohonnya dapat dilihat pada Gambar II-1.
Gambar II-1 Contoh Pohon pada Collins parser
TOP
S (bought, VBD)
NP (week, NN) NP (IBM, NNP) VP (bought, VBD)
JJ (Last, JJ) NN (week, NN) NNP (IBM, NNP)
IBM Last week
VBD(bought, VBD)
bought
NP (Lotus, NNP)
NNP (Lotus, NNP)
Lotus
II-11
Maka secara sederhana perhitungan probabilitas untuk S(bought, VBD) →
NP(week, NN) NP(IBM, NNP) VP(bought, VBD) adalah
P(NP(week, NN) NP(IBM, NNP) VP(bought, VBD) | S(bought, VBD)) =
jumlah S(bought, VBD) → NP(week, NN) NP(IBM, NNP) VP(bought, VBD) jumlah S(bought, VBD) (II-8)
Namun hasil perhitungan probabilitas di atas akan menyebabkan statistik bersifat
jarang; karena yang menjadi pembilang dapat bernilai sangat kecil atau bahkan
nol dan penyebutnya bisa jadi bernilai rendah. Oleh karena itu Collins
memaparkan tiga buah model perhitungan probabilitas aturan produksi yang telah
diperkenalkan sebelumnya oleh beberapa peneliti dan melakukan beberapa
perbaikan terhadap model yang ada [12]. Pengurai Collin mengakomodasi semua
model pada aplikasi yang dibuatnya sebagai perbandingan antar model dengan
variasi kumpulan dokumen (corpus) yang digunakan.
II.2.1 Perhitungan Probabilitas Aturan Produksi
Pada disertasi Michael Collins (1999) [12] membahas tiga buah model
probabilistik untuk penguraian (parsing) yang telah diperkenalkan sebelum
Collins melakukan disertasi. Pada disertasinya, Collins melakukan beberapa
perbaikan pada ketiga model yang sudah ada itu. Collins mengimplementasikan
semua model sebagai perbandingan. Dari hasil penelitian yang dilakukan Collins,
model 2 dan model 3 masih menghasilkan beberapa kalimat yang gagal diuraikan.
Hal tersebut kemungkinan karena kurangnya kalimat pada treebank yang
menggunakan tag khusus untuk model 2 dan 3. Dalam tesis ini hanya
mengimplementasikan model 1 dari pengurai Collins karena keterbatasan
treebank.
II-12
II.2.1.1 Model 1
Model 1 membagi pembuatan aturan produksi sisi kanan menjadi urutan langkah
yang sederhana. Pada PCFG yang memiliki pola standar maka aturan produksinya
memiliki pola sebagai berikut:
P(h) → Ln(ln)...L1(l1)H(h)R1(r1)...Rm(rm) (II-9)
H adalah kepala (head-child) dari anak aturan P (aturan produksi sisi kanan).
Ln(ln)...L1(l1) dan R1(r1)...Rm(rm) adalah sisi kiri dan kanan dari H. Simbol n dan m
dapat bernilai nol, dan n = m = 0 untuk aturan yang bersifat tunggal (hanya
memiliki kepala H). Pada model ini ditambahkan simbol terminasi yaitu STOP
dimana Ln+1 = Rm+1 = STOP. Sebagai contoh adalah aturan S(bought, VBD) ->
NP(week, NN) NP(IBM, NNP) VP(bought, VBD) maka:
n = 2 m = 0 P = S
H = VP L1 = NP L2 = NP
L3 = STOP R1 = STOP h = (bought, VBD)
l1 = (IBM, NNP) l2 = (week, NN)
Simbol STOP ini hanya akan masuk pada file events sebagai penanda bahwa
sebuah kalimat atau bagian kalimat telah diuraikan dengan benar, tapi tidak
dimasukkan sebagai model pola tata bahasa (grammar).
Pembangkitan aturan sisi kanan (child) dari aturan sisi kiri (parent) yang
diberikan dibagi menjadi tiga langkah berikut:
1. Membuat pilihan label kepala frase dengan probabilitas
Ph(H|P, h), (II-10)
2. Membuat sisi kiri kepala dengan probabilitas
∏+= 1...1 ni
Pl(Li(li)| P, h, H) (II-11)
II-13
dimana Ln+1(ln+1) = STOP, model akan berhenti membangkitkan sisi kiri
ketika simbol STOP dibangkitkan,
3. Membuat sisi kanan kepala dengan probabilitas
∏+= 1...1 ni
Pr(Ri(ri)| P, h, H) (II-12)
dimana Rm+1(rm+1) = STOP.
Sebagai contoh untuk aturan S(bought, VBD) → NP(week, NN) NP(IBM, NNP)
VP(bought, VBD) maka probabilitasnya adalah:
Ph(VP | S, bought) × Pl(NP(IBM) | S, VP, bought) × Pl(NP(week) | S, VP, bought)
× Pl(STOP | S, VP, bought) × Pr(STOP | S, V, bought) (II-13)
Collins memberikan tambahan parameter jarak pada model 1 yang secara opsional
dapat digunakan atau tidak. Jarak ditambahkan agar tidak terjadi dominasi oleh
bagian aturan (kepala, bagian kiri, atau bagian kanan). Jarak digunakan untuk
memperhatikan tata letak simbol terminal atau non-terminal pada aturan sisi
kanan. Jarak dapat dilihat pada Gambar II-2.
Gambar II-2 Parameter Jarak
P(h)
H(h) R1(r1) R2(r2) R3(r3)
h jarak
II-14
Parameter jarak dapat dimasukkan pada model dengan memodifikasi asumsi
saling lepas sehingga setiap sisi memiliki keterkaitan yang terbatas. Maka
persamaannya akan menjadi sebagai berikut:
Pl(Li(li) | H, P, h, Li(li)...Li-1(li-1)) = Pl(Li(li) | H, P, h, distancel(i-1)) (II-14)
dan
Pr(Ri(ri) | H, P, h, Ri(ri)...Ri-1(ri-1)) = Pr(Ri(ri) | H, P, h, distancer(i-1)) (II-15)
Perkiraan jarak adalah sebuah vektor yang memiliki dua elemen yaitu:
1. Banyaknya string yang digunakan (posisi string),
2. Ada atau tidaknya kata kerja yang digunakan untuk pembelajaran memilih
kata kerja yang paling banyak digunakan [12].
II.2.1.2 Model 2
Adanya pembedaan pelengkap/keterangan dan pengkategorian sub kalimat yang
menjadi pelengkap/keterangan sangat diperlukan. Namun pembedaan ini tidak
ditampilkan secara eksplisit pada pohon, hanya digunakan pada mesin pengurai
(parsing). Model ini mengakomodasi aturan-aturan pembedaan
pelengkap/keterangan pada kaidah tata bahasa yang digunakan. Untuk bahasa
Indonesia pelengkap dan keterangan bisa menjadi sebuah sub kalimat. Untuk
membedakan sub kalimat pelengkap/keterangan maka perlu adanya pembedaan
simbol non terminal untuk merepresentasikan sub kalimat dan komponen-
komponen di dalamnya. Pada pengurai Collins sebuah sub kalimat disimbolkan
dengan SBAR dan komponen-komponen di dalamnya diberi tambahan –C pada
simbol non terminalnya (hanya untuk keperluan history/events dan pemrosesan),
misalnya NP maka akan menjadi NP-C. Penambahan penanda ini dimaksudkan
agar sebuah simbol non terminal yang sudah ada di sisi kiri aturan tidak boleh
muncul lagi di sisi kanan aturan, misal S → S CC S maka kedua S tidak dapat
II-15
dianggap sebagai pelengkap/keterangan/sub kalimat dan dapat menyebabkan
perulangan tanpa henti.
Probabilitas dari model 1 dapat diubah sebagai berikut pada model 2:
1. Pilih kepala H dengan probabilitas Ph(H | P, h),
2. Pilih lingkup kategori kiri (LC) dan lingkup kategori kanan (RC) dengan
probabilitas Plc(LC | P, H, h) dan Prc(RC | P, H, h). Setiap sub kategori
adalah kumpulan aturan yang mungkin memiliki simbol non terminal yang
sama dan mespesifikasikan pelengkap.
3. Buat sisi kiri dan kanan dengan probabilitas Pi(Li(li) | H, P, h, jarak(i-1),
LC) dan Pi(Ri(ri) | H, P, h, jarak(i-1), RC).
Aturan yang ada di dalam kumpulan aturan pada langkah 2 akan dihapus begitu
diidentifikasi dan dijadikan aturan kategori pelengkap. Sebagai contoh
probabilitas dari aturan S(bought, VBD) → NP(week, NN) NP(IBM, NNP)
VP(bought, VBD) akan menjadi:
Ph(VP | S, bought) × Plc(NP-C(IBM) | S, VP, bought) × Prc({}|S, VP, bought) ×
Pl(NP-C(IBM) | S, VP, bought, {NP-C}) × Pl(NP(week) | S, VP, bought, {}) ×
Pl(STOP | S, VP, bought, {}) × Pr(STOP | S, V, bought, {}) (II-16)
Kepala akan diputuskan dari NP-C (subyek) tunggal pada bagian kiri dan tidak
ada pelengkap/keterangan pada bagian kanan. NP-C(IBM) dibangkitkan sebagai
subyek dan NP-C dihapus dari LC, kemudian NP(week) dibangkitkan.
II.2.1.3 Model 3
Model ini menghitung probabilitas dengan mempertimbangkan adanya lebih dari
satu sub kalimat dalam sebuah kalimat. Dalam bahasa Indonesia, pengkategorian
sub kalimat juga perlu dilakukan pada kalimat majemuk yang dipisahkan oleh
kata penghubung atau tanda koma. Permasalahan yang timbul adalah tidak semua
tanda koma memisahkan sub kalimat dan tidak semua kata hubung memisahkan
II-16
dua buah kalimat. Oleh karena itu, jika yang dipisahkan oleh koma atau kata
hubung hanya terdiri dari satu kata maka tidak dianggap sebagai sebuah sub
kalimat pada bagian yang memiliki satu kata.
Kalimat yang di dalamnya terdapat sekurang-kurangnya dua kalimat dasar dan
masing-masing dapat berdiri sebagai kalimat tunggal disebut kalimat majemuk
setara (koordinatif). Kalimat yang terdiri atas dua kalimat dasar dimana jika
kalimat dasar pertama ditiadakan, maka kalimat yang kedua masih bisa berdiri
sendiri sebagai kalimat mandiri. Demikian pula sebaliknya. Keduanya mempunyai
kedudukan yang sama. Itulah sebabnya kalimat itu disebut kalimat majemuk
setara [24]. Kalimat yang mengandung satu kalimat dasar yang merupakan inti
(utama) dan satu atau beberapa kalimat dasar yang berfungsi sebagai pengisi salah
satu unsur kalimat inti itu misalnya keterangan, subyek, atau obyek dapat disebut
sebagai kalimat majemuk bertingkat jika diantara kedua unsur itu digunakan
konjungtor. Konjungtor inilah yang membedakan kalimat majemuk bertingkat
dari kalimat majemuk setara. Kalimat majemuk bertingkat juga dapat berupa
kalimat tunggal yang mengalami perluasan sekurang-kurangnya pada salah satu
unsurnya misalnya pada unsur keterangan, subyek atau obyek. Elemen yang
berperan memperluas salah satu unsur kalimat ini merupakan anak kalimat dan
diawali oleh konjungtor yang atau kata penunjuk itu [24].
Model ini juga dapat digunakan untuk penanganan wh-movement dimana sebuah
kalimat dipisahkan oleh kata tanya, misal dalam bahasa Inggris sebagai berikut:
They didn't know which model that we had discussed
atau misal dalam bahasa Indonesia sebagai berikut:
Mereka tidak tahu model mana yang sedang kita diskusikan.
Model ini juga digunakan untuk menangani kalimat tanya sebagai salah satu
bagian dari wh-movement misal,
What does she believe?
maka kalimat di atas memiliki inti she believe dengan penambahan kata tanya
what.
II-17
Pengurai Collins menambahkan sebuah simbol TRACE yang merupakan tanda
berhenti melakukan pembagian sub pohon. Sebuah SBAR akan diberi penanda
+gap untuk menandakan orang tua dari TRACE (hanya akan disimpan sebagai
history agar kalimat diuraikan dengan benar). Misal untuk contoh kalimat “The
Store that IBM bought last week” maka pohon pola tata bahasanya akan mejadi
seperti pada Gambar II-3.
Gambar II-3 Pohon Model 3
Probabilitas untuk aturan VP(bought)(+gap) → VB(bought) TRACE NP(week)
adalah:
Ph(VB | VP, bought) × Pg(Right | VP, bought, VB) × Plc({}|VP, bought, VB) ×
Prc({NP-C}|VP, bought, VB) × Pr(TRACE | VP, bought, VB, {NP-C, +gap}) ×
Pr(NP(week) | VP, bought, VB, {}) × Pl(STOP | VP, bought, VB, {}) × Pr(STOP |
VP, bought, VB, {}) (II-17)
NP(Store)
NP(Store) SBAR(that)(+gap)
The store WHNP(that) S(bought)(+gap)
NP-C(IBM) VP(bought)(+gap)
TRACEVBD NP(week)
WDT
that
IBM
bought last week
II-18
II.2.2 Perhitungan Probabilitas Setiap Pohon
Sebuah kalimat sangat dimungkinkan memiliki model pola tata bahasa lebih dari
satu dan hal ini menyebabkan terjadinya ambigu. Oleh karena itu setiap model
pohon pola tata bahasa harus dihitung probabilitasnya untuk memilih pohon mana
yang terbaik. Sama dengan hasil penelitian yang dilakukan Daniel Jurafsky dan
James H. Martin, pada pengurai Collins pohon yang terbaik diambil dari
perhitungan berikut:
T (S) = argmax )(ST π∈ P(T) (II-18)
dimana
P(T) = P(T)P(S|T) = P(T, S) (II-19)
dan
P(T, S) = ∏∈Tn
p(r(n)) (II-20)
p(r(n)) adalah nilai probabilitas yang didapatkan dari model probabilitas pengurai
Collins [12].
II.3 Penelitian Mengenai Pembangkitan Pola Tata Bahasa dengan
Pendekatan Probabilistik (Probabilistic Parsing)
Penelitian mengenai teknik pembangkitan pola tata bahasa untuk ekstraksi relasi
pada bahasa Malaysia dilakukan oleh Mohd Juzaiddin Ab Aziz dkk (2006) [3].
Penelitian ini membahas mengenai pembangkitan pola tata bahasa melayu
Malaysia dari kalimat masukan berbahasa melayu Malaysia. Pada awalnya pola
tata bahasa didefinisikan dengan menggunakan aturan produksi CFG (Context-
Free Grammar). Pohon pola tata bahasa dibangkitkan dari kalimat masukan
berdasarkan aturan produksi CFG yang telah didefinisikan sebelumnya.
II-19
Permasalahan yang timbul adalah ambiguitas pohon yang dibangkitkan karena
pada penelitian ini tidak melibatkan komponen probabilitas. Keakurasian dalam
penelitian ini mencapai sekitar delapan puluhan persen. Jabatan kata bahasa
melayu Malaysia memiliki perbedaan dengan bahasa Indonesia. Beberapa arti
kata dalam bahasa melayu Malaysia juga berbeda dengan bahasa Indonesia
sehingga jabatan kata dalam kalimat pun menjadi berbeda. Oleh karena itu bahasa
melayu Malaysia tidak sama dengan bahasa Indonesia walaupun dikatakan
sebagai bahasa yang serumpun.
Penguraian (parsing) probabilistik adalah penguraian elemen pada pemrosesan
bahasa alami dengan menggunakan pendekatan probabilistik. Penelitian mengenai
penguraian (parsing) probabilistik dilakukan oleh Daniel Jurafsky dan James H.
Martin (2000) [17]. Penelitian ini juga menggunakan PCFG. Aturan produksi
PCFG didefinisikan terlebih dahulu. Setiap kalimat yang masuk ke sistem akan
dihitung probabilitas katanya berdasarkan distribusi kata. Nilai probabilitas ini
nanti digunakan untuk menghitung probabilitas pohon yang dibangkitkan
sehingga dapat dipilih pohon yang terbaik. Penelitian ini menggunakan algoritma
CYK (Cocke, Younger, Kasami). Algoritma CYK merupakan algoitma yang
efisien ketika digunakan untuk memproses struktur leksikal bahasa. Algoritma
CYK merupakan algoritma parsing yang masuk pada jenis parsing bottom-up.
Hasil penelitian ini cukup baik dan masih memerlukan perbaikan di masa
mendatang untuk mengurangi kesalahan yang ditimbulkan misal jika pemilihan
pohon dengan probabilitas menghasilkan nilai probabilitas yang sama untuk dua
atau lebih pohon, harus didefinisikan justifikasi lebih lanjut.
Penelitian yang dilakukan Ramon Lefuel dan Brian J. Ross (2004)
menggabungkan penguraian (parsing) probabilistik dengan algoritma genetik
[18]. Algoritma genetik digunakan untuk membangkitkan pohon pola tata bahasa
dari kalimat masukan. Model yang digunakan pada penelitian ini adalah PCFG.
Kromoson dalam penelitian ini merepresentasikan parse-tree. Fungsi fitness yang
digunakan adalah perhitungan probabilitas setiap parse-tree. Penelitian ini
membuktikan bahwa algoritma genetik juga dapat digunakan untuk melakukan
II-20
penguraian (parsing) probabilistik pada kalimat walaupun dari segi performansi
dianggap masih kurang efisien.
Penelitian yang sama dengan tesis ini juga pernah dilakukan oleh Ria Hari
Gusmita dan Ruli Manurung (2008) [14]. Penelitian tersebut menggunakan
perangkat PC-PATR. Penelitian tersebut juga melakukan adaptasi terhadap file
masukan perangkat PC-PATR agar dapat digunakan untuk bahasa Indonesia. PC-
PATR adalah perangkat membangkitkan pohon pola tata bahasa berdasarkan
aturan-aturan yang didefinisikan (rule based). PC-PATR dibuat untuk bahasa
Inggris. Kalimat berbahasa Indonesia yang berhasil diuraikan dari penelitian ini
adalah sekitar 58%.
II.4 Rangkuman Tinjauan Pustaka
Berbagai penelitian mengenai pemodelan pohon pola tata bahasa, parser
(pengurai), dan parsing probabilistik telah banyak dilakukan. Dalam bab ini
penulis hanya membahas penelitian-penelitian yang sekiranya dapat menjadi
acuan dalam tesis ini. Penelitian yang dibahas mengenai model pola tata bahasa
diawali dengan penelitian dari Yves Schabes dan Richard C. Waters (1993) [23].
Penelitian tersebut membahas Stochastic Lexicalized Contex-Free Grammar
(SLCFG) yang juga dikenal dengan Probabilistic Lexicalized Context-Free
Grammar (PLCFG). PLCFG merupakan model turunan PCFG. Glen Carrol
(1995) [10] melakukan penelitian mengenai pembelajaran tata bahasa
probabilistik untuk pemodelan bahasa dimana digunakan treebank untuk
membangkitkan aturan dan akan ditambah dengan aturan-aturan baru hasil dari
pembelajaran yang dilakukannya. Mark Johnson (1998) [16] mencoba membuat
model pola tata bahasa dengan menggunakan PCFG dan melakukan evaluasi
dengan model-model pohon pola tata bahasa yang telah ada saat itu.
Penelitian mengenai pengurai (parser) yang dibahas pada tesis ini dimulai dengan
penelitian yang dilakukan Eugene Charniak (1997) [7] yang membangkitkan pola
tata bahasa dengan model PCFG dan kamus leksikal. Charniak juga melakukan
penelitian mengenai sistem pengurai (parser) yang menggunakan perhitungan
II-21
entropi (2000) [8]. Penelitian selanjutnya yang dibahas adalah penelitian dari
Michael Collins (1996) [11] yang membuat sistem pengurai (parser) berbasis
statistik dengan menghitung ketergantungan kata menggunakan metode bigram.
Collins (1999) [12] juga melakukan penelitian membuat sebuah pengurai (parser)
berbasis head-driven. Daniel M. Bikel (2004) [4] melakukan penelitian mengenai
sebuah kerangka kerja pengurai (parser framework) yang menggunakan
parameter-parameter leksikal. Michael Collins juga melakukan penelitian
menggunakan pengurai hasil disertasinya [12] untuk bahasa Czech [13]. Tesis ini
juga melakukan adaptasi bahasa Indonesia untuk pengurai Collins seperti halnya
pengurai Collins untuk bahasa Czech.
Penelitian mengenai pembangkitan pola tata bahasa yang dibahas pada tesis ini
dimulai dengan penelitian mengenai pembangkitan pola tata bahasa yang
dilakukan oleh Ab Aziz dan kawan-kawan (2006) [3] untuk bahasa Malaysia.
Penelitian mengenai pembangkitan pola tata bahasa dengan pendekatan
probabilistik dilakukan oleh Daniel Jurafsky dan James H. Martin (2000) [17]
dimana penguraian (parsing) probabilistik digunakan untuk menangani
ambiguitas pohon-pohon yang dibangkitkan. Penelitian tersebut menggunakan
tata bahasa Inggris. Penelitian mengenai parsing probabilistik juga dilakukan oleh
Ramon Lefuel dan Brian J. Ross (2004) [18]. Penelitian tersebut menggunakan
algoritma genetik untuk penguraian (parsing) probabilistik pada kalimat.
Penelitian mengenai pengurai menggunakan metode statistik juga pernah
dilakukan oleh Ria Hari Gusmita dan Ruli Manurung (2008) [14]. Penelitian ini
menggunakan perangkat PC-PATR dengan mengadaptasi kumpulan file
masukannya. Kalimat berbahasa Indonesia yang berhasil diuraikan dari penelitian
ini adalah sekitar 58%.
III-1
BAB III PENYESUAIAN PENGURAI COLLINS UNTUK BAHASA
INDONESIA
Pada Bab III ini akan dijelaskan mengenai proses-proses yang diperlukan dalam
proses awal (preprocessing) membentuk file masukan untuk pengurai Collins.
Adaptasi ini dilakukan agar pengurai Collins dapat digunakan untuk bahasa
Indonesia. Adaptasi yang dilakukan antara lain penyesuaian terhadap kelima file
(file events, file grammar, file leksikon, file korpus, file simbol non-terminal)
masukan pengurai Collins.
III.1 Analisis Proses
Tesis ini mengacu pada penelitian Collins yang menggunakan pengurai hasil
disertasi Collins [12] untuk bahasa Czech. Tesis ini akan menggunakan pengurai
Collins untuk bahasa Indonesia. Tesis ini menggunakan pengurai Collins karena
disertasi beserta modul-modul programnya dapat diunduh (download) di website
Michael Collins (lisensi GNU (open source)). Hasil penelitian Collins juga telah
digunakan untuk bahasa lain selain bahasa Inggris (bahasa Czech) sehingga dapat
diasumsikan dapat digunakan untuk bahasa Indonesia. Kelebihan dari pengurai
Collins adalah metode head-finder yang digunakan. Metode tersebut memberikan
penanda kepala kata pada setiap level pohon sehingga dapat digunakan untuk
menandai inti frase. Selain itu pengurai Collins dianggap sebagai pengurai
berbasis statistik dengan kecepatan yang cukup baik dalam menguraikan kalimat.
Model pengurai Collins yang diimplementasikan pada tesis ini hanya model 1 dari
pengurai Collins. Modul-modul pada pengurai Collins meliputi modul-modul
untuk proses pembelajaran dan penguraian kalimat masukan dimana file events
sebagai data pembelajaran diambil dari Penn WSJ (Wall Street Journal) treebank.
Modul-modul yang digunakan juga akan menggunakan modul-modul pada
pengurai Collins, tapi dimodifikasi dan dibuat tambahan pemrosesan awal agar
dapat digunakan untuk bahasa Indonesia. Tesis ini akan membuat sebuah
III-2
pemrosesan awal untuk mempersiapkan kumpulan file masukan berbahasa
Indonesia untuk pengurai Collins.
Kalimat dalam bahasa Indonesia memiliki beberapa kesamaan dengan kalimat
dalam bahasa Inggris antara lain:
• Kalimat dapat memiliki sub kalimat berupa frase subyek, frase predikat,
frase obyek, frase keterangan, dan pelengkap,
• Memiliki pola tata bahasa inti yang sama yaitu S-P-O (subyek-predikat-
obyek).
Namun kedua bahasa ini juga memiliki beberapa perbedaan antara lain:
Tabel III-1 Perbedaan Bahasa Indonesia dan Bahasa Inggris
Bahasa Indonesia Bahasa Inggris
penggunaan kata tidak dipengaruhi
waktu kejadian
penggunaan kata dipengaruhi waktu
kejadian sehingga ada kata kerja bentuk
pertama, kedua, dan ketiga
tata bahasa tidak dipengaruhi waktu
kejadian
tata bahasa dipengaruhi waktu kejadian
pola frase adalah diterangkan
menerangkan (DM)
pola frase adalah menerangkan
diterangkan (MD)
tidak mengenal perubahan kata benda
dalam bentuk jamak dan tidak jamak
mengenal kata benda dalam bentuk
jamak dan tidak jamak
Proses yang dilakukan dalam tesis ini meliputi proses awal (preprocessing)
menyesuaikan kumpulan file masukan pada pengurai Collins dan proses pengujian
dengan mencoba menguraikan kalimat baru sebagai masukan. Input dari sistem
untuk proses pembelajaran adalah file treebank berbahasa Indonesia sedangkan
untuk pengujian, masukannya adalah file teks yang berisi kumpulan kalimat
(corpus) berbahasa Indonesia. Hasil keluaran pemrosesan awal pada tesis ini
kumpulan file yang akan menjadi masukan pengurai Collins.
III-3
Modul-modul pada Collins parser merupakan modul-modul untuk proses
pembelajaran dan pengujian. Kumpulan file masukan pengurai Collins adalah
sebagai berikut:
1. File events yang menyimpan hasil generasi events (kemungkinan
kebergantungan antar elemen dalam kalimat yang dibangkitkan secara
heuristic) dari Penn WSJ (Wall Street Journal) Treebank, file events ini
menggunakan format Collins, file ini digunakan untuk menghitung
probabilitas kemunculan kebergantungan antar simbol non-terminal
sebagai data pembelajaran, file events sebenarnya adalah treebank yang
dikemas menggunakan format events pengurai Collins,
2. File korpus yang berisi beberapa kalimat yang sudah memiliki tag,
kalimat-kalimat dalam file korpus inilah yang nantinya akan diuraikan
untuk proses pengujian,
3. File yang berisi pola tata bahasa dengan format Collins (grammar) sebagai
acuan aturan penguraian,
4. File yang berisi simbol-simbol non terminal yang digunakan,
5. File kamus (leksikon) untuk menentukan jenis kata (tag) (berisi kata, jenis
kata, dan bernilai 0 jika kata termasuk jarang digunakan, bernilai 1 jika
kata termasuk sering digunakan).
Pemrosesan awal (preprocessing) yang dilakukan pada tesis ini adalah melakukan
penyesuaian kelima file masukan pengurai Collins menggunakan bahasa
Indonesia.
Algoritma penguraian (parsing) yang digunakan pengurai Collins adalah bottom-
up chart parsing [12] untuk membentuk pohon pola tata bahasa. Algoritma
bottom up chart parsing yang digunakan diawali dengan memasukkan semua kata
dalam chart (tabel) untuk dihitung kemungkinan pembentukan pola tata
bahasanya antara kata yang satu dengan lainnya (menggunakan probabilitas). Dari
tabel kata tersebut maka dilakukan pemeriksaan probabilitas kemunculan aturan
grammar pada file grammar disesuaikan dengan tag kata (penjelasan algoritma
chart yang digunakan dapat dilihat pada Lampiran 16). File yang digunakan untuk
III-4
menghitung probabilitas aturan grammar adalah file events. Gambar keterkaitan
antar file masukan pada pengurai Collins dapat dilihat pada Gambar III-1.
Gambar III-1 Keterkaitan Antar File Masukan pada Pengurai Collins
Pemrosesan awal (preprocessing) yang dilakukan pada tesis ini meliputi dua buah
proses berikut:
1. Proses membuat file events dan membangkitkan aturan grammar dari file
yang berisi pohon kalimat berbahasa Indonesia, selain itu, kata yang tidak
ada di dalam leksikon (pada treebank) juga akan ditambahkan pada file
leksikon,
pengenalan dan pendeskripsian token dengan memeriksa tag kata apakah ada di daftar simbol non terminal
analisis leksikal
analisis sintaks
memeriksa kebenaran token dengan memeriksa apakah tag kata sudah benar dilihat dari leksikon
memeriksa setiap aturan grammar yang sesuai dengan korpus dan akan dihitung probabilitasnya dengan membaca file events untuk membentuk pohon pola tata bahasa
pohon pola tata bahasa
pengurai Collins
file korpus
file simbol non terminal
file leksikon
file grammar
file events
III-5
2. Proses membuat file korpus (jumlah kata dalam kalimat, kata dalam
kalimat beserta tagnya) dari file teks yang berisi kumpulan kalimat
berbahasa Indonesia.
Proses-proses pemrosesan awal (preprocessing) yang akan dilakukan dalam tesis
ini dapat dilihat pada Gambar III-2 dan III-3.
Gambar III-2 Arsitektur Global Proses Awal Pengurai Collins untuk Membuat file Events,
file Grammar, file Leksikon format Collins (Menu 1)
Gambar III-3 Arsitektur Global Proses Awal Pengurai Collins untuk Membuat file korpus
dengan Format Pengurai Collins (Menu 2)
masukan berupa dokumen treebank
diuraikan menjadi struktur pohon dalam struktur program per kalimat
file leksikon
file grammar
menggenerasi file events dan menambah isi file grammar dan leksikon dari pohon
kalimat
file events
masukan berupa dokumen yang berisi kumpulan kalimat
POS tagging (penentuan jenis kata) file
leksikon
file korpus format pengurai Collins
III-6
Hasil keluaran dari pemrosesan awal (preprocessing) dari tesis ini akan menjadi
masukan dari pengurai Collins.
III.1.1 Penyesuaian Kumpulan File Masukan Pengurai Collins untuk Bahasa
Indonesia
Bahasa Indonesia memiliki perbedaan dengan bahasa Inggris. Oleh karena itu
perlu dilakukan beberapa adaptasi dari pengurai Collins agar dapat digunakan
untuk bahasa Indonesia. Adaptasi yang harus dilakukan antara lain:
1. Perlu adanya sebuah treebank dalam bahasa Indonesia yang digunakan
untuk membangkitkan file events sebagai masukan pengurai Collins,
2. File korpus masukan dibuat menggunakan bahasa Indonesia beserta tag
katanya,
3. File grammar juga harus disesuaikan dengan pola tata bahasa Indonesia,
4. File yang berisi simbol-simbol non-terminal juga harus disesuaikan
dengan yang digunakan pada tesis ini,
5. File leksikon juga harus berisi kata dan tag untuk bahasa Indonesia.
III.1.1.1 Penyesuaian File Treebank untuk Membuat File Events
Collins menggenerasi file events dari sebuah section di Penn WSJ treebank. Pohon
kalimat yang digunakan pengurai Collins sekitar 100.000 pohon kalimat.
Permasalahan yang paling utama adalah di Indonesia belum ada treebank
berbahasa Indonesia yang dapat digunakan pada pengurai Collins. Oleh karena itu
treebank akan dibuat dalam tesis ini secara manual. Treebank yang dibuat
menggunakan beberapa kalimat berbahasa Indonesia sebagai uji coba proses
pembelajaran pada aplikasi pemrosesan awal (preprocessing) pada tesis ini.
Contoh isi treebank untuk sebuah kalimat dalam bahasa Indonesia dapat dilihat
pada Tabel III-2.
III-7
Tabel III-2 Contoh Isi Treebank
(S(NP(PR Kamu))(ADVP(JJ tentu)(RB sering))(PU ,)(ADVP(RB
bahkan)(JJ mungkin)(AR setiap)(NN hari))(PU ,)(>VB mendengarkan)
(NN berita)(ADVP(IN di)(NN televisi)(>CC atau)(IN di)(NN
radio))(PU .))
Treebank yang dibuat disamakan dengan format treebank yang dipakai pengurai
Collins ditambahkan tanda ‘>’ sebagai penanda kata kepala level pada setiap level
penguraian (inti makna). Contoh isi file event untuk sebuah kalimat dalam bahasa
Indonesia dapat dilihat pada Tabel III-3.
Tabel III-3 Contoh Isi File Events untuk Sebuah Kalimat
6 17 Kamu PR tentu JJ sering RB , PU bahkan RB mungkin JJ setiap AR hari NN , PU mendengarkan VB berita NN di IN televisi NN atau CC di IN radio NN . PU 3 mendengarkan VB S VB 00000 00000 2 , PU mendengarkan VB PU S VB 000000 110 0 0 2 bahkan RB mendengarkan VB ADVP S VB 000000 100 0 0 2 , PU mendengarkan VB PU S VB 000000 100 0 0 2 tentu JJ mendengarkan VB ADVP S VB 000000 100 0 0 2 Kamu PR mendengarkan VB NP S VB 000000 100 0 0 2 #STOP# #STOP# mendengarkan VB #STOP# S VB 000000 100 0 0 2 berita NN mendengarkan VB NN S VB 000000 010 0 0 2 atau CC mendengarkan VB ADVP S VB 000000 000 0 0 2 . PU mendengarkan VB PU S VB 000000 000 0 0 2 #STOP# #STOP# mendengarkan VB #STOP# S VB 000000 000 0 0 3 Kamu PR NP PR 00000 00000 2 #STOP# #STOP# Kamu PR #STOP# NP PR 000000 110 0 0 2 #STOP# #STOP# Kamu PR #STOP# NP PR 000000 010 0 0 3 tentu JJ ADVP JJ 00000 00000 2 #STOP# #STOP# tentu JJ #STOP# ADVP JJ 000000 110 0 0 2 sering RB tentu JJ RB ADVP JJ 000000 010 0 0 2 #STOP# #STOP# tentu JJ #STOP# ADVP JJ 000000 000 0 0 3 bahkan RB ADVP RB 00000 00000 2 #STOP# #STOP# bahkan RB #STOP# ADVP RB 000000 110 0 0 2 mungkin JJ bahkan RB JJ ADVP RB 000000 010 0 0 2 setiap AR bahkan RB AR ADVP RB 000000 000 0 0 2 hari NN bahkan RB NN ADVP RB 000000 000 0 0 2 #STOP# #STOP# bahkan RB #STOP# ADVP RB 000000 000 0 0 3 atau CC ADVP CC 00000 00000 2 televisi NN atau CC NN ADVP CC 000000 110 0 0 2 di IN atau CC IN ADVP CC 000000 100 0 0 2 #STOP# #STOP# atau CC #STOP# ADVP CC 000000 100 0 0 2 di IN atau CC IN ADVP CC 000000 010 0 0 2 radio NN atau CC NN ADVP CC 000000 000 0 0 2 #STOP# #STOP# atau CC #STOP# ADVP CC 000000 000 0 0
III-8
Kode angka 6 pada events menandakan pembacaan kalimat yang dibuat pohon
kalimatnya. Kode angka 3 merupakan kode event unary dimana jika setiap simpul
pohon hanya memiliki satu anak atau hubungan antara simpul dengan kepala
anaknya. Kode angka 2 merupakan kode event dependency dimana merupakan
aturan triple tiga buah simbol non terminal (grammar). Penjelasan lebih lanjut
dapat dilihat pada Lampiran 15.
File events ini sebenarnya adalah representasi pohon kalimat menggunakan format
Collins untuk pengurai Collins. File events ini digunakan untuk menghitung
probabilitas aturan grammar yang ada di file grammar. Pengurai Collins
menggunakan probabilitas kemunculan grammar untuk menghitung probabilitas
pohon kalimat yang dihasilkan. Karena keterbatasan treebank maka pada tesis ini
treebank yang dibuat hanya sesuai untuk model 1 pada pengurai Collins. Pada
pengurai Collins, proses penguraian dianggap memakai model 1, model 2, atau
model 3 (dijelaskan pada subbab lain di bab ini) didasarkan pada data yang ada
pada file events (dengan adanya beberapa tag khusus untuk model 2 dan 3).
Penjelasan struktur file events dapat dilihat pada Lampiran 15. File treebank yang
digunakan pada tesis ini dapat dilihat pada Lampiran 10 sedangkan file events
yang digunakan pada tesis ini dapat dilihat pada Lampiran 9. Struktur data pohon
yang digunakan untuk menyimpan dan memproses pohon kalimat menjadi events
beserta penjelasannya dapat dilihat pada Lampiran 15. Struktur data pohon ini
diambil dari modul adaptasi pengurai Collins untuk bahasa Czech.
III.1.1.2 Penyesuaian File Korpus
Beberapa pemrosesan awal (preprocessing) harus dilakukan jika menggunakan
pengurai Collins untuk bahasa Indonesia. Diantaranya adalah perlu adanya proses
pemberian jenis kata pada setiap kata masukan (POS tagging). POS tagging perlu
dilakukan untuk membuat sebuah file korpus masukan pengurai Collins yang telah
diberi tag. Proses POS tagging untuk bahasa Indonesia akan dibahas pada bab
selanjutnya. Format file korpus masukan dari pengurai Collins adalah sebagai
berikut:
III-9
[jumlah_kata_dalam_kalimat] [kata1] [tag1] [kata2] [tag2] ........
Contoh file korpus dalam bahasa Indonesia dapat dilihat pada Tabel III-4.
Tabel III-4 Contoh File Korpus untuk Satu Kalimat
18 Tema NN cerita NN Malin NN Kundang NN dari IN Sumatra NN Barat
NN ini PR ternyata VB juga JJ bisa AUX ditemui VB di IN daerah NN
lain JJ di IN Indonesia NN . PU
Contoh file korpus yang digunakan pada tesis ini dapat dilihat pada Lampiran 8.
File korpus yang digunakan pada tesis ini adalah hasil pemrosesan awal
(preprocessing) yang dibuat pada tesis ini.
III.1.1.3 Penyesuaian File Grammar
File grammar yang digunakan pengurai Collins merupakan hasil pembangkitan
dari treebank ditambah dengan aturan grammar pada pengurai Collins untuk
bahasa Inggris yang masih relevan dengan bahasa Indonesia dan simbol non-
terminal yang digunakan (diperiksa mungkin tidaknya untuk bahasa Indonesia).
Isi file grammar ini akan terus bertambah seiring banyaknya pohon kalimat pada
treebank yang digunakan untuk pembelajaran.
Gambar III-4 Contoh Pohon Kalimat dalam Bahasa Indonesia
S
NP VB NN
mencangkul tanah NN NN
Pak tani
III-10
Format file grammar merupakan tigaan (triple) dari simbol-simbol non-terminal
yang mungkin. Misalkan ada pohon kalimat seperti pada Gambar III-4, maka akan
menghasilkan grammar
S → NP VB
S → VB NN
NP → NN NN
Hasil grammar pada contoh di atas akan ditulis dengan format seperti pada Tabel
III-5.
Tabel III-5 Contoh Penulisan Grammar
L S NP VB
L NP NN NN
R S VB NN
L berarti grammar sisi kiri dari kepala grammar dan R berarti grammar sisi kanan
dari kepala grammar. Format file grammar Collins juga mengenal aturan grammar
unary (U) yaitu aturan grammar yang memetakan satu simbol terminal ke satu
simbol terminal yang lain. Ada juga aturan grammar sub-kategori sisi kiri (X) dan
aturan grammar sub-kategori sisi kanan dimana sama dengan aturan grammar
unary hanya saja ditambahkan kode 00000 sebagai penanda pembeda dengan
aturan grammar unary. Penjelasan mengenai struktur data grammar yang
digunakan pada tesis ini dapat dilihat pada Lampiran 13.
III.1.1.4 Penyesuaian File Simbol Non-terminal
Simbol-simbol non-terminal yang digunakan untuk melakukan penyesuaian file
simbol non-terminal diadaptasi dari simbol-simbol yang digunakan pengurai
Collins dengan beberapa penyesuaian dengan bahasa Indonesia. Penyesuaian
tersebut meliputi tidak dipakainya simbol-simbol yang dalam bahasa Indonesia
tidak diperlukan misal NNP, NNPS, dan NNS untuk merepresentasikan kata
benda jamak dan tidak jamak. Semua kata benda dilabeli dengan NN. Dalam
bahasa Indonesia juga tidak ada determiner (DT) dan keragaman bentuk kata kerja
berdasarkan waktu kalimat (VBD, VBG, VBN, VBP, VBZ). Semua kata kerja
III-11
dalam bahasa Indonesia dilabeli dengan VB. Simbol-simbol non-terminal yang
digunakan dalam tesis ini akan dibahas pada bab selanjutnya. File simbol non-
terminal yang digunakan pada tesis ini dapat dilihat pada Lampiran 12.
III.1.1.5 Penyesuaian File Leksikon
File leksikon merupakan file yang berfungsi sebagai kamus dalam pengurai
Collins. File kamus ini akan digunakan untuk menentukan jenis kata pada proses
POS tagging yang akan dijelaskan lebih lanjut pada bab selanjutnya. Sebelum
dilakukan penyesuaian, file leksikon digunakan pengurai Collins untuk memeriksa
tag dari file korpus masukan, tapi dalam tesis ini pemeriksaan itu tidak dilakukan
karena proses POS tagging dilakukan pada pemrosesan awal. Isi file leksikon juga
akan terus bertambah seiring munculnya kata baru pada treebank yang digunakan
untuk pembelajaran. Proses yang dilakukan pada pemrosesan awal
(preprocessing) pada tesis ini terkait dengan file leksikon adalah sebagai berikut:
1. Kata pada treebank yang ada di dalam kamus tapi tag yang diberikan pada
treebank tidak sama dengan tag di dalam kamus, maka tag (pada struktur
data pohon) akan diubah sama dengan yang ada di kamus,
2. Kata pada treebank yang tidak ada di dalam kamus akan diperiksa tag-nya
apakah termasuk pada simbol non-terminal yang digunakan, jika termasuk
maka kata akan ditambahkan ke dalam file leksikon.
Contoh file leksikon yang digunakan pada tesis ini dapat dilihat pada Lampiran
11.
III.1.2 Penentuan Jenis Kata (Part of Speech Tagging)
Pengurai Collins memerlukan masukan berupa file korpus yang berisi kalimat
beserta jenis katanya (tag) untuk kemudian diuraikan oleh pengurai Collins.
Berdasarkan penelitian yang dilakukan Fadillah Z. Tala (2003) [26] menghasilkan
kesimpulan bahwa pemrosesan temu balik informasi khususnya untuk POS
tangging dan stemming untuk bahasa Indonesia lebih baik berbasis kamus
sehingga menghasilkan lebih sedikit kesalahan dibanding berbasis aturan. Secara
III-12
garis besar proses penentuan jenis kata yang akan dilakukan pada tesis ini adalah
sebagai berikut:
• Jenis kata setiap kata akan dicari di dalam kamus terlebih dahulu, jika ada
maka jenis kata dapat disimpulkan,
• Jika kata tidak ditemukan di dalam kamus maka penentuan jenis kata akan
menggunakan aturan morfologi pada tata bahasa Indonesia,
• Jika masih juga belum dapat ditentukan jenis katanya maka jenis kata akan
diprediksi dengan metode yang akan dijelaskan kemudian (Bab
selanjutnya),
• Jika belum dapat diprediksi jenis katanya maka kata akan diberi label X
(unknown).
IV-1
BAB IV PENENTUAN JENIS KATA (PART OF SPEECH TAGGING)
UNTUK BAHASA INDONESIA
Pada Bab IV ini akan dijelaskan mengenai proses-proses yang diperlukan dalam
proses penentuan jenis kata (part of speech tagging) yang diambil dari kamus
maupun yang tidak ada dalam kamus. Gambaran proses penentuan jenis kata
dapat dilihat pada Gambar IV-1.
Gambar IV-1 Proses Penentuan Jenis Kata
jika tidak dapat diprediksi
jika tidak ditemukan
jika dapat diprediksi
jika ditemukan
mengambil data
kata selanjutnya
melihat jenis kata di dalam kamus
memprediksi jenis kata dengan aturan morfologi
memprediksi jenis kata dengan metode bigram
kalimat yang mengandung kata yang akan ditentukan jenis katanya
diambil per kata untuk ditentukan jenis katanya
semua kata dalam kalimat masukan telah ditentukan jenis katanya
memberikan tag jenis kata pada kata
leksikon
POS tagging
grammar
IV-2
Proses penentuan jenis kata akan dilakukan dalam tiga tingkat, tapi jika penentuan
jenis kata pada setiap tingkat telah berhasil maka tingkat selanjutnya tidak perlu
dialui. Tingkat yang pertama adalah melihat pada kamus yang telah disiapkan,
jika kata ada dalam kamus maka tag akan langsung diberikan pada kata, jika tidak
maka akan dilanjutkan ke proses tingkat berikutnya. Tingkat berikutnya adalah
memeriksa morfologi kata dan mencoba menentukan jenis kata menggunakan
aturan morfologi pada bahasa Indonesia. Jika kata dapat diprediksi maka hasil dari
tingkatan proses tersebut juga dapat digunakan untuk memperkaya kamus. Jika
kata masih belum bisa ditentukan jenis katanya maka pada tingkatan ketiga akan
digunakan metode bigram untuk memprediksi jenis kata. Jika kata dapat
diprediksi maka hasil dari bigram juga akan digunakan untuk memperkaya kamus.
Jika kata belum dapat diprediksi jenis katanya maka kata akan diberi label X
(unknown).
IV.1 Leksikon/Kamus
Proses POS tagging tidak akan berjalan tanpa adanya leksikon/kamus. Dipilih
berbasis kamus karena menurut penelitian yang dilakukan Fadillah Z. Tala (2003)
bahwa pemrosesan temu balik informasi POS tagging dan stemming untuk bahasa
Indonesia lebih baik berbasis kamus yang menghasilkan lebih sedikit kesalahan
dibanding berbasis aturan [26]. Kamus kata yang digunakan adalah kamus KEBI
(Kamus Elektronik Bahasa Indonesia) yang didapat dari ITB. KEBI merupakan
Kamus Bahasa Indonesia - Bahasa Inggris yang dikembangkan oleh Badan
Pengkajian dan Penerapan Teknologi (BPPT) yang boleh digunakan untuk
keperluan riset. Kamus ini mengandung 29.396 kata berbahasa Indonesia. Jenis
kata dalam kamus dikelompokkan menjadi lima belas jenis kata antara lain kata
sifat (adjektiva), kata keterangan (adverbia), kata sandang (dibedakan menjadi
determiner dan article), kata bantu (auxiliary), kata hubung (konjungsi), kata seru
(interjeksi), kata benda (nomina), kata bilangan (dibedakan menjadi numeral dan
ordinal), kata tugas partikel, kata fatis (kata yang menekankan seperti
assalamualaikum, bismillah), kata depan (preposisi), kata ganti (pronomina), dan
kata kerja (verba). Namun kamus KEBI tidak dapat langsung digunakan karena
IV-3
harus diubah menjadi format leksikon pada pengurai Collins. Proses yang harus
dilakukan untuk mempersiapkan kamus antara lain:
• Menghapus frase pada kamus (kamus KEBI juga memuat frase)
• Mengurutkan kata pada kamus KEBI
• Diubah formatnya menjadi [kata] [jenis_kata] [klasifikasi]
misal menjadi cangkul NN 0
dimana klasifikasi diisi dengan 0 jika kata termasuk jarang muncul
(dihitung probabilitasnya pada file treebank) dan diisi dengan 1 jika kata
tergolong sering muncul. Pengklasifikasian jarang atau sering muncul
dihitung secara probabilistik kemunculan kata saat proses pembelajaran
menggunakan treebank dengan nilai threshold yang ditentukan oleh
penulis yaitu 0.3.
Kamus ini akan menjadi kamus awal yang disiapkan dan akan terus diperkaya
seiring dengan banyaknya pohon kalimat pada treebank yang digunakan untuk
pembelajaran. Pada saat sistem melakukan pembelajaran maka akan digunakan
metode bootstrapping untuk memperkaya kamus seperti pada Gambar IV-2.
Bootstrapping dalam konteks tesis ini merupakan proses memperkaya leksikon
kamus dengan menggunakan treebank untuk menambah leksikon beserta jenis
katanya.
IV-4
Gambar IV-2 Proses Memperkaya Kamus
IV.2 Morfologi Tata Bahasa Indonesia
Morfologi (ilmu tata kata) adalah cabang ilmu bahasa yang mengidentifikasi
satuan-satuan dasar bahasa sebagai satuan makna yang dapat berubah-ubah
bergantung pada urutan kata, intonasi, bentuk, serta kata tugas penentu kalimat
(gramatikal). Morfologi dapat digunakan untuk mengidentifikasi jenis sebuah kata
bentukan dari kata dasar yang berimbuhan. Oleh karena itu morfologi juga
diperlukan untuk memprediksi jenis kata yang tidak ada di dalam kamus.
IV.2.1 Jenis Kata
Kata adalah satuan sintaksis (makna) dalam tutur atau kalimat. Penamaan jenis
kata mengacu pada Penn treebank yang juga digunakan oleh pengurai Collins
dengan penambahan jenis kata jika tidak ada pada Penn treebank [20] (misal
untuk jenis tanda baca, pada tesis ini menggunakan PU sedangkan pada pengurai
treebank
Pembelajaran
diuraikan menjadi struktur pohon dalam struktur program per kalimat
pembangkitan events
bootstrapping leksikon
file events
IV-5
Collins diberi tag yang sama dengan tanda baca itu). Daftar penamaan jenis kata
(tag) yang digunakan dalam tesis ini dapat dilihat pada Tabel IV-1.
Tabel IV-1 Penamaan Jenis Kata yang Digunakan
Simbol Jenis Kata Keterangan Contoh JJ Adjektiva Kata sifat; kata yang memberi penjelasan
tentang suatu benda cantik, baik, buruk
RB Adverbia Kata keterangan nanti, sekarang
AR Artikula Kata sandang si, sang
CC Konjungtor Koordinatif
Kata hubung yang menghubungkan klausa pada kalimat majemuk setara.
dan, lalu
CS Konjungtor Subordinatif
Kata hubung pada kalimat majemuk bertingkat
ketika, walaupun
MD Modal Kata Keterangan Modalitas boleh
PR Pronomina Kata ganti; kata yang dipakai untuk menggantikan kata atau yang dibendakan
saya, itu
WH Kata Tanya Kata yang digunakan untuk menanyakan sesuatu
siapakah, bagaimanakah
NN Nomina Kata benda; kata yang menyebut benda atau yang dibendakan
buku, meja, orang
CD Numeralia Kata bilangan; kata yang menyatakan jumlah benda atau jumlah kumpulan atau jurusan dari nama-nama benda
seribu
IN Preposisi Kata depan; kata yang merangkaikan kata-kata atau bagian-bagian kalimat
di, ke, dari
UH Interjeksi Kata seru ai, ah, ceile
RP Partikel Kata tugas partikel pun, per
VB Verba Kata kerja; kata yang bermakna melakukan aktivitas atau kegiatan, atau lebih jelas kalau dikatakan melakukan pekerjaan
mencoba, lempar, menari
AUX Kata bantu Kata bantu akan, dapat
FW Kata asing Kata asing download, notebook
PU Tanda baca Tanda baca ., , , :, (, ), “, ‘, ”, ’
SYM Simbol matematika
Simbol matematika +, #, $
X unknown Kata yang tidak dapat diprediksi jenis katanya
IV-6
Jenis kata akan menjadi simbol terminal pada tesis ini. Penjelasan selengkapnya
mengenai jenis-jenis kata dapat dilihat di Lampiran 1. Simbol-simbol non
terminal yang digunakan pada tesis juga meliputi simbol yang menyatakan sub
kalimat atau frase (satuan makna yang terdiri lebih dari satu kata yang memiliki
jabatan tertentu pada kalimat). Simbol-simbol non-terminal untuk sub-
kalimat/frase yang digunakan dalam tesis ini dapat dilihat pada Tabel IV-2.
Tabel IV-2 Simbol Non Terminal
Simbol Keterangan
S Kalimat ADJP frase yang menyatakan sifat (frase
adjektiva)
ADVP frase yang menyatakan keterangan (frase adverbia)
NP frase yang menyatakan benda (frase nomina)
SBAR sub kalimat majemuk
SBARQ sub kalimat setelah kata tanya
VP frase yang menyatakan kerja (frase verba)
IV.2.2 Imbuhan
Imbuhan dalam bahasa Indonesia adalah tambahan yang melekat pada kata untuk
membentuk sebuah makna baru [21]. Imbuhan dapat digunakan untuk
memprediksi kata-kata yang tidak ada di dalam kamus. Imbuhan pada bahasa
Indonesia antara lain prefiks atau awalan, sufiks atau akhiran, infiks atau sisipan,
dan konfiks (imbuhan di depan dan di belakang kata dasar). Prefiks disebut juga
awalan. Prefiks adalah afiks (imbuhan) yang ditempatkan di bagian muka suatu
kata dasar. Kumpulan awalan yang ada dalam bahasa Indonesia dapat dilihat pada
Lampiran 2 berikut jenis kata yang dapat dibentuk dari awalan. Sufiks atau
akhiran adalah afiks (imbuhan) yang digunakan di bagian belakang kata.
Kumpulan akhiran yang ada dalam bahasa Indonesia dapat dilihat pada Lampiran
3 berikut jenis kata yang dapat dibentuk dari akhiran. Infiks atau sisipan adalah
IV-7
afiks (imbuhan) yang diselipkan di tengah kata dasar. Infiks tidak digunakan pada
tesis ini karena sangat sulit mendeteksinya. Infiks yang ada pada bahasa Indonesia
misalnya –in-, -em-, -el-, dan –er-. Konfiks adalah afiks (imbuhan) yang ada di
depan dan di belakang kata dasar secara bersamaan. Kumpulan konfiks yang ada
dalam bahasa Indonesia dapat dilihat pada Lampiran 4 berikut jenis kata yang
dapat dibentuk dari konfiks. Kaidah bahasa Indonesia memiliki aturan imbuhan
yang akan membentuk suatu jenis kata. Aturan-aturan imbuhan yang ada dalam
bahasa Indonesia dapat dilihat pada Tabel IV-3.
Tabel IV-3 Aturan Imbuhan [21]
Pola Imbuhan Contoh Jenis Kata
meN + kata dasar (jenis kata bebas) + kan
mengantuk, mengkritik kata kerja (verba)
peN-ber + kata dasar (jenis kata bebas) + an
pelukis, pemburu kata benda (nomina)
ke-ber- + kata dasar (jenis kata bebas) + an
kebersamaan, keberterimaan
kata benda (nomina)
kata dasar (jenis kata kerja, kata benda, kata sifat) + i
terangi, sinari kata kerja (verba)
beR- + kata dasar becermin, beserta, berternak, bekerja
kata kerja (verba)
teR- + kata dasar terbawa, tertidur kata kerja (verba)
Penjelasan selengkapnya mengenai aturan imbuhan dan variasinya dapat dilihat
pada Lampiran 5.
IV.2.3 Pengulangan Kata
Pengulangan kata dalam bahasa indonesia dipisahkan dengan menggunakan tanda
hubung (-). Pengulangan juga dapat membentuk sebuah arti gramatikal (makna
yang berubah sesuai dengan kalimat) dari bentuk kata dasarnya. Pengulangan kata
dasar akan membentuk jenis kata sesuai dengan jenis kata jika tidak diulang misal
“cepat-cepat” memiliki kata dasar “cepat” yang berjenis kata keterangan maka
kata “cepat-cepat” akan berjenis kata keterangan. Contoh lain misalnya buku-
buku yang berarti kumpulan buku merupakan pengulangan dari kata dasar buku
yang merupakan kata benda maka buku-buku juga merupakan kata benda. Adapun
kata pengulangan yang merupakan satu kesatuan kata benda misal kupu-kupu,
IV-8
laba-laba. Pengulangan juga dapat disertai imbuhan sehingga membentuk makna
gramatikal yang bisa berbeda dengan kata dasarnya. Aturan pengulangan
berimbuhan dalam bahasa Indonesia dapat dilihat pada Tabel IV-4.
Tabel IV-4 Aturan Pengulangan Kata Berimbuhan
Pola Contoh Jenis Kata
ke + kata dasar (jenis kata bebas)
yang diulang + an
kebarat-baratan kata benda (nomina)
ber + kata dasar yang diulang
(jenis kata kerja)
berlari-lari kata kerja (verba)
ber + kata dasar yang diulang
(jenis kata benda)
berlama-lama, berjam-
jam
kata keterangan
(adverbia)
kata dasar (jenis kata kerja) +
meN + kata dasar (jenis kata
kerja)
tanam-menanam kata kerja (verba)
se- + kata dasar + -nya secepat-cepatnya,
sepandai-pandainya,
sebaik-baiknya
kata sifat atau edjektiva
Pengulangan juga ada yang merupakan pengulangan berubah bunyi seperti bolak-
balik, sayur-mayur, gerak-gerik. Pengulangan ini akan dicari di kamus kedua
katanya, jika ada salah satu maka dapat simpulkan jenis katanya karena jenis
pengulangan ini akan membentuk kata sesuai kata asal yang diulang, tapi berubah
bunyi.
IV.2.4 Proses Pemeriksaan Imbuhan
Mengacu pada penelitian yang dilakukan oleh Femphy Piceldo dkk (2008) [22]
mengenai penganalisis morfologi pada bahasa Indonesia bahwa pemeriksaan
imbuhan pada sebuah kata memiliki urutan proses tertentu agar tidak terjadi
kesalahan pengenalan kata dilihat dari segi morfologi pada bahasa Indonesia. Pada
penelitian Femphy Piceldo [22], proses dimulai dengan memeriksa awalan kata.
Hasil kata dasar dari pemisahan awalan akan diperiksa di dalam kamus apakah
IV-9
ada kata dasarnya, jika ada maka kata sudah dapat diprediksi jenis katanya dengan
hanya menggunakan awalan. Jika kata belum dapat diprediksi maka akan
diperiksa akhiran kata, dicari kata dasarnya beserta gabungan hasil proses
sebelumnya (apakah ada pengulangan atau awalan), jika ada di kamus maka kata
sudah dapat diprediksi jenis katanya. Jika kata tidak mengandung awalan maka
akan diperiksa apakah kata merupakan pengulangan kata dasar, jika benar maka
kata dasarnya diperiksa di kamus, jika ada maka kata dapat diprediksi jenis
katanya. Jika kata masih belum dapat diprediksi maka dilakukan pemeriksaan
apakah kata merupakan kata pengulangan berimbuhan dan dicoba mencari kata
dasarnya di kamus, jika ada maka kata dapat diprediksi jenis katanya. Untuk
semua tahapan pemeriksaan kata. jika hanya dengan menggunakan pola imbuhan
kata sudah dapat diprediksi maka tidak perlu mencari kata dasar di dalam kamus,
misal bila ada pola imbuhan tertentu yang digabungkan dengan kata dasar jenis
apapun akan membentuk suatu jenis kata tertentu.
Pada tesis ini akan ditambahkan beberapa proses pemeriksaan untuk menentukan
jenis kata, misalnya seperti pemeriksaan apakah kata termasuk kata singkatan
yang ditandai dengan huruf besar semua, kata singkatan akan diberi label NN
yang berarti kata benda, atau apakah kata termasuk kata bilangan jika ada karakter
berupa angka pada kata, atau apakah kata termasuk kata nama yang ditandai
dengan penulisan huruf besar di awal kata, kata nama diberi label NN yang berarti
kata benda. Urutan proses yang harus dilakukan untuk menganalisis morfologi
pembentukan kata pada bahasa Indonesia dapat dilihat pada Gambar IV-3.
Penjelasan mengenai struktur data dan format penulisan file untuk keperluan POS
tagging menggunakan aturan morfologi yang digunakan pada tesis ini dapat
dilihat pada Lampiran 14.
IV-10
Gambar IV-3. Urutan Proses Prediksi Jenis Kata dengan Morfologi
IV.3 Prediksi Jenis Kata dengan Metode Bigram
Model N-gram adalah sebuah tipe model probabilistik untuk memperkirakan
elemen selanjutntya pada sebuah urutan. N-gram digunakan untuk berbagai area
statistik dari pemrosesan bahasa alami dan analisis urutan genetik. Sebuah n-gram
adalah sebuah sub-urutan dari sejumlah n elemen dari urutan yang diberikan.
Elemen dapat berupa fonem, huruf, kata tergantung dari kebutuhan aplikasi [27].
jika belum dapat diprediksi jenis katanya
jika belum dapat diprediksi jenis katanya
jika belum dapat diprediksi jenis katanya
jika belum dapat diprediksi jenis katanya
jika belum dapat diprediksi jenis katanya
jika sudah dapat diprediksi
jika belum dapat diprediksi jenis katanya
jika belum dapat diprediksi jenis katanya
jika belum dapat diprediksi jenis katanya
jika sudah dapat diprediksi jenis katanya
kata
Pemeriksaan awalan saja untuk mendapatkan kata dasarnya
Pemeriksaan akhiran
Pemeriksaan pengulangan
Penyimpulan tag (jenis kata)
tag (jenis kata) memprediksi jenis kata dengan metode bigram
Pemeriksaan kata bilangan
Pemeriksaan kata singkatan
Pemeriksaan awalan dan akhiran
Pemeriksaan kata nama
IV-11
Model bigram adalah model n-gram yang hanya melibatkan dua buah elemen.
Model bigram menggunakan teorema bayes dalam perhitungannya yaitu:
P(Wn|Wn-1) = )(
),(
1
1
−
−
n
nn
WPWWP
(IV-1)
dimana P adalah probabilitas kata yang diberikan oleh kata sebelumnya. Sebuah
kalimat akan memiliki probabilitas sebagai berikut:
)|()( 1
11 −
=∏≈ k
n
k
kn wwPwP (IV-2)
sehingga jika probabilitas bigram diterapkan pada sebuah kalimat “I want to eat
Chinese food” maka probabiltasnya adalah sebagai berikut:
P(I want to eat Chinese food) = P(I | <start>) *
P(want | I) *
P(to | want) *
P(eat | to) *
P(Chinese | eat) *
P(food | Chinese) (IV-3)
Metode bigram yang digunakan pada tesis ini menggunakan dua buah jenis aturan
grammar untuk mencari jenis kata. Aturan grammar yang pertama adalah aturan
grammar yang memiliki simbol jenis kata sama dengan kata di depan kata yang
dicari jenis katanya, sedangkan jenis aturan grammar kedua adalah aturan
grammar yang memiliki simbol jenis kata sama dengan kata di belakang kata
yang dicari jenis katanya. Misalnya kata yang akan dicari jenis katanya adalah
“guru” dalam kalimat “Bapak guru menulis di papan tulis” maka aturan grammar
yang akan dihitung probabilitasnya adalah aturan grammar yang memenuhi hal-
hal berikut:
IV-12
• Aturan grammar memiliki simbol awal yang sama dengan tag kata
sebelum kata yang dicari, misal
NP → NN NN
NN yang pertama sama dengan tag kata “Bapak” maka aturan grammar ini
masuk dalam kumpulan grammar yang akan dihitung probabilitasnya,
• Aturan grammar memiliki simbol akhir yang sama dengan tag kata setelah
kata yang dicari, misal
VP → JJ VB
VB sama dengan tag kata “menulis” maka aturan grammar ini masuk
dalam kumpulan grammar yang akan dihitung probabilitasnya
• Misalkan ada aturan grammar
NP → NN NN
VP → NN VB
maka aturan VP → NN VB tidak akan dimasukkan pada kumpulan aturan
grammar yang akan dihitung probabilitasnya karena memiliki kesimpulan
tag yang sama untuk kata yang dicari tag-nya (NN), tapi kemunculan
aturan grammar kedua akan dimasukkan dalam jumlah kemunculan aturan
grammar pertama.
Aturan grammar pada pengurai Collins ditulis dengan aturan triple. Aturan
penulisan aturan grammar pada pengurai Collins dapat dilihat pada Lampiran.7
dan Lampiran 13.
Perhitungan akan dilakukan dengan menggunakan probabilitas. Pada kumpulan
aturan grammar yang terpilih akan dipilih probabilitas yang paling besar.
Perhitungan probabilitas aturan grammar dihitung dengan menggunakan rumus
berikut:
P(untuk tag kata yang dicari) =
)()(
bahasatatapolajumlahdicariyangkatauntukNNbagianmemilikiyangbahasatatapolajumlah
(IV-4)
IV-13
Pola yang memiliki probabilitas terbesar akan digunakan untuk pelabelan pada
kata yang dicari jenis katanya. Secara garis besar proses perhitungan probabilistik
bigram pada tesis ini seperti pada Gambar IV-4.
Gambar IV-4 Urutan Proses Prediksi Jenis Kata dengan Metode Bigram
kalimat yang mengandung kata yang tidak bisa diprediksi kelas katanya
periksa kata di depan dan di belakang kata yang tidak dapat diprediksi kelas katanya
cari pola tata bahasa/aturan grammar yang mengandung simbol jenis kata di depan kata yang akan diprediksi jenis katanya
cari pola tata bahasa/aturan grammar yang mengandung simbol jenis kata di belakang kata yang akan diprediksi jenis katanya
memberikan tag pada kata yang tidak diketahui jenis katanya berdasarkan aturan grammar yang memiliki probabilitas terbesar
kelas kata/tag
V-1
BAB V PENGUJIAN
V.1 Tujuan Pengujian
Pengujian dilakukan untuk menguji hasil kumpulan file masukan hasil
pemrosesan awal (preprocessing) dari tesis ini. Pengujian juga dilakukan untuk
mengetahui kinerja pengurai Collins jika digunakan untuk bahasa Indonesia
menggunakan kumpulan file masukan hasil pemrosesan awal (preprocessing).
Hasil pengujian juga dapat digunakan untuk menganalisa bagian-bagian yang
masih perlu diperbaiki di masa mendatang.
V.2 Perancangan Pengujian
Pengujian yang akan dilakukan dalam tesis ini adalah sebagai berikut:
1. Membagi pengujian menjadi dua buah kelompok dan dilakukan pengujian
yang sama terhadap kedua kelompok itu, kelompok pertama adalah
kelompok yang memiliki spesifikasi sebagai berikut:
a. File treebank berisi 42 pohon kalimat yang memiliki struktur
sederhana (berjenis kalimat berita),
b. File kalimat berisi 7 buah kalimat sederhana (berjenis kalimat
berita) yang setipe yang memiliki grammar mirip dengan pohon
kalimat di file treebank;
kelompok kedua adalah kelompok yang memiliki spesifikasi berikut:
a. File treebank berisi 190 pohon kalimat (berjenis kalimat berita,
opini, pertanyaan, perintah) termasuk pohon kalimat yang ada di
kelompok pertama,
b. File kalimat berisi 15 kalimat (berjenis kalimat berita) yang lebih
kompleks dari kelompok pertama,
2. Pada kedua kelompok dilakukan hal-hal berikut:
a. Memasukkan file treebank yang berisi pohon kalimat untuk
menguji proses generasi file events, penambahan grammar, dan
V-2
leksikon, file treebank yang digunakan dapat dilihat pada Lampiran
10, file leksikon yang digunakan dapat dilihat pada Lampiran 11,
b. Memasukkan file kalimat berbahasa Indonesia untuk
mempersiapkan file korpus, file korpus yang digunakan dapat
dilihat pada Lampiran 8,
c. Menguji pengurai Collins dengan file masukan dari pemrosesan
awal (preprocessing) tesis ini untuk kelompok pertama dan kedua.
Topik pemilihan kalimat untuk kalimat treebank dan korpus diambil dari sebuah
topik ditambah dengan beberapa kalimat sederhana (memiliki pohon kalimat yang
sederhana). Topik tersebut diambil dari buku “Bahasa Indonesia: Bahasa
Kebanggaanku” karangan Sarwiji Suwandi Sutarmo untuk tingkat SMP dan MTs
kelas VII [25] dan beberapa kalimat dari contoh Penn treebank yang
diterjemahkan ke bahasa Indonesia. Dengan menggunakan sebuah topik dan
beberapa kalimat sederhana diharapkan hasil penguraian akan lebih bervariasi
(tidak hanya menghasilkan probabilitas 0).
Penyesuaian yang dilakukan terhadap kode program pengurai Collins adalah
memperkecil nilai threshold dari hasil penguraian per aturan grammar kalimat
yang dianggap valid. Penyesuaian threshold dilakukan karena terlalu kecilnya
jumlah kalimat pada treebank berbahasa Indonesia dibanding dengan treebank
yang digunakan pengurai Collins. Threshold pada pengurai Collins awalnya
bernilai -5000000 diganti oleh penulis menjadi -999999999.999999999 (nilai
terkecil untuk tipe data double pada bahasa pemrograman C). Dari 190 pohon
kalimat dalam treebank yang diujicobakan menghasilkan 319 aturan grammar sisi
kiri (L = Left), 103 aturan grammar sisi kanan (R = Right), 21 aturan grammar
unary (U), 21 aturan grammar sub-kategori sisi kiri (X), dan 21 aturan grammar
sub-kategori sisi kanan (Y). Aturan grammar murni hasil generasi pemrosesan
awal (preprocessing) pada tesis ini dapat dilihat pada Lampiran 7 sedangkan hasil
generasi file events dapat dilihat pada Lampiran 9.
V-3
V.2.1 Hasil dan Analisis Pengujian
Hasil pengujian kelompok pertama, dari 7 kalimat berhasil diuraikan dengan
benar 6 kalimat, sedangkan 1 kalimat ada bagian yang masih kurang tepat
diuraikan. Hal ini dikarenakan bagian kalimat yang kurang tepat diuraikan tidak
memiliki events di file events (aturan grammar yang tepat tidak memiliki event di
file events untuk menghitung probabilitas grammar). Hasil pengujian kelompok
pertama dapat dilihat pada Lampiran 6.
Hasil pengujian kelompok kedua, dari 15 kalimat yang diujikan, yang berhasil
diuraikan adalah 8 kalimat. Kalimat yang tidak dapat diuraikan hasil probabilitas
kalimatnya adalah 0. Justifikasi nilai 0 diambil oleh Collins dalam pengurainya
karena kalimat tidak berhasil diuraikan keseluruhan (terputus di tengah), karena
ada bagian pohon yang tidak cocok dengan satupun grammar di file grammar.
Oleh karena itu probabilitas pohon yang tidak dapat diuraikan juga bernilai 0.
Dapat diambil contoh dari contoh kalimat pada korpus yang digunakan pada tesis
ini, yaitu kalimat ke-4 yang tidak berhasil diuraikan oleh pengurai Collins seperti
pada Tabel V-1.
Tabel V-1 Kalimat ke-4 Kelompok ke-2 yang Tidak Berhasil Diuraikan
9 Kalau CS ada VB , PU tulislah VB dengan IN singkat JJ cerita NN itu PR ! PU
Sebagian proses penguraian pada kalimat ke-4 dapat dilihat pada Tabel V-2. Oleh
karena itu diperlukan adanya tambahan data treebank yang lebih banyak agar hasil
penguraian lebih konsisten. Dilihat dari segi jumlah, 190 kalimat pada treebank
berbahasa Indonesia yang dibuat manual belum bisa merepresentasikan sebuah
bagian (section) Penn treebank yang digunakan pengurai Collins untuk bahasa
Inggris. Pengurai Collins menggunakan sekitar 100.000 kalimat dari Penn
treebank. Hasil pengujian penguraian kalimat berbahasa Indonesia yang diuraikan
dengan pengurai Collins dapat dilihat pada lampiran 6.
V-4
Tabel V-2 Proses Penguraian Kalimat ke-4 Kelompok ke-2
{hasil penguraian awal kalimat} EDGE 0 0 0 1 0 18 L 110 0 HV0 R 10 0 CS 0 Kalau EDGE 1 0 0 1 0 31 L 110 0 HV0 R 10 0 VB 0 ada EDGE 2 -43.9314 -50.7629 0 1 12 L 110 0 HV0 R 10 0 ADJP -43.9314 VB 0 ada EDGE 3 -0.290122 -4.05236 0 1 13 L 110 0 HV0 R 10 0 ADVP -0.290122 VB 0 ada EDGE 4 -1.66501 -6.83979 0 1 32 L 110 0 HV0 R 10 0 VP -1.66501 VB 0 ada EDGE 5 -4.64459 -8.40684 1 1 13 L 110 0 HV0 R 10 0 ADVP -4.64459 VB 0 ada EDGE 6 -3.82346 -8.99824 1 1 32 L 110 0 HV0 R 10 0 VP -3.82346 VB 0 ada EDGE 7 0 0 1 0 34 L 110 0 HV0 R 10 0 PU 0 , .................................. {hasil penguraian akhir kalimat, tidak ada konektivitas dengan awal kalimat/terputus} EDGE 98 -21.1985 -26.3733 1 3 32 L 110 0 HV0 R 0 0 VP -21.1985 VB 0 tulislah ADVP -14.1724 IN 0 dengan JJ 0 singkat NP -9.59634 NN 0 cerita PR 0 itu PU 0 !
Dari 8 kalimat yang berhasil diuraikan tidak ada yang benar hasil penguraiannya
secara kesatuan kalimat. Namun beberapa hasil penguraian bagian kalimat ada
yang benar, tapi juga ada yang kurang tepat (kurang sesuai dengan kaidah bahasa
Indonesia) (dapat dilihat pada Lampiran 6). Hal ini karena aturan grammar yang
memiliki bobot besar (dihitung dari events) merupakan grammar yang kurang
tepat diaplikasikan pada kalimat yang diuraikan. Oleh karena itu perlu lebih
banyak treebank yang dijadikan events sebagai data pembelajaran agar hasilnya
lebih konsisten. Misal proses pada bagian proses penguraian kalimat ke-2 dari
yang ujikan dapat dilihat pada Tabel V-3.
V-5
Tabel V-3 Proses Penguraian Kalimat ke-2 Kelompok ke-2
...................................... EDGE 319 -66.8343 -72.4793 0 3 13 L 110 0 HV0 R 0 0 ADVP -66.8343 NN 0 Malin SBAR -21.1653 NP -10.2499 NN 0 Kundang ADVP -5.67955 IN 0 dari NP -4.31217 NN 0 Sumatra NN 0 Barat PR 0 ini VP -2.57047 VB 0 ternyata EDGE 320 -18.024 -20.6916 0 3 24 L 110 0 HV0 R 0 0 NP -18.024 NN 0 Malin NN 0 Kundang ADVP -2.97829 IN 0 dari NP -1.61092 NN 0 Sumatra NN 0 Barat ADVP -5.14351 NP -0.0849127 PR 0 ini VB 0 ternyata ....................................
pada proses di Tabel V-3, maka yang terpilih adalah ADVP dibanding VP karena
memiliki bobot lebih besar.
Dari 8 kalimat yang berhasil diuraikan bobot kalimat terbesar didapat dari hasil
penguraian kalimat ke 15 dengan bobot 173.707. Bobot kalimat terkecil dari
kalimat yang berhasil diuraikan didapat dari kalimat ke 13 dengan bobot 21.83.
Semakin besar bobot pohon yang dihasilkan tidak mencerminkan semakin benar
penguraian kalimat secara kesatuan kalimat (hasil lengkapnya dapat dilihat pada
Lampiran 6).
VI-1
BAB VI PENUTUP
VI.1 Kesimpulan
Kesimpulan dari tesis ini adalah sebagai berikut:
1. Pengurai Collins dapat digunakan untuk bahasa Indonesia dengan
melakukan adaptasi kumpulan file masukan pengurai Collins.
2. Kinerja pengurai Collins untuk bahasa Indonesia dengan terbatasnya
treebank (sangat kecil jika dibandingkan dengan jumlah kalimat pada
treebank yang digunakan pengurai Collins) sudah dapat melakukan
penguraian seluruh kalimat pada kelompok pengujian pertama dan 8
kalimat dari 15 kalimat dapat diuraikan dari kelompok pengujian kedua.
Hasil penguraian juga telah mampu merepresentasikan pohon kalimat
berbahasa Indonesia walau tidak semua bagian kalimat benar diuraikan.
Cara menggunakan aplikasi hasil tesis ini dapat dilihat pada Lampiran 16.
VI.2 Saran
Untuk pengembangan lebih lanjut, saran-saran yang dapat saya berikan pada tesis
ini adalah:
1. Permasalahan paling mendasar dari tesis ini adalah keterbatasan treebank
berbahasa Indonesia. Oleh karena itu sangat diperlukan dukungan dari
semua pihak untuk membuat sebuat treebank dalam bahasa Indonesia.
Solusi yang mungkin dalam membuat sebuah treebank berbahasa Indonesia
dapat ditempuh sebagai berikut:
• Dibuat sebuah perkumpulan atau consortium untuk bersama-sama
berkontribusi membuat treebank berbahasa Indonesia dimana seluruh
masyarakat dapat merasa memiliki dan terpanggil untuk ikut
berkontribusi, misal dengan membuat sebuah website online yang
berguna untuk membuat treebank,
VI-2
• Melakukan translasi Penn WSJ Treebank menjadi bahasa Indonesia,
tapi tetap perlu ada pembenahan pola tata bahasa karena beberapa
aturan dalam bahasa Inggris tidak berlaku pada bahasa Indonesia (misal
untuk kata yang jenis katanya tidak ada dalam bahasa Indonesia diganti
dengan blank),
• Membuat sebuah permainan untuk membuat treebank berbahasa
Indonesia, misalnya permainan “Are you really Indonesian citizen?
Prove it!” dimana di dalamnya diberikan kalimat-kalimat yang harus
dibuat pohon kalimatnya, setiap menyelesaikan pembuatan pohon
kalimat diberikan batasan waktu untuk diberikan skornya, setiap naik
level maka kalimatnya akan semakin kompleks.
2. Perlu dibuat kamus/leksikon yang valid dan sesuai dengan kaidah bahasa
Indonesia yang baku karena kamus yang digunakan dalam tesis ini jenis
katanya masih banyak yang tidak valid sehingga tag yang dihasilkan dari
POS tagging menjadi valid,
3. Kelemahan kamus/leksikon yang digunakan adalah tidak menuliskan kata
yang sama namun dengan jenis kata berbeda, misal kata “bisa” dapat
termasuk dalam AUX/kata bantu jika dalam frase “bisa menari”, tapi juga
dapat termasuk NN/kata benda jika dalam frase “bisa ular”, maka perlu
dipikirkan bagaimana membuat format yang tepat untuk kamus/leksikon,
4. Pembuatan file treebank dalam tesis ini masih berdasarkan pengetahuan
penulis dalam berbahasa Indonesia, untuk kedepannya perlu adanya
bimbingan dari ahli bahasa untuk membuat treebank sehingga grammar
yang dihasilkan konsisten,
5. Pemilihan kalimat yang digunakan untuk pengujian dan membuat treebank
masih dipilih secara acak (random) oleh penulis, untuk kedepannya perlu
dipilih kalimat masukan yang sesuai dengan grammar yang ada sehingga
hasil yang didapatkan dapat lebih valid,
6. Tesis ini tidak melakukan pengujian mengenai penanganan ambiguitas
pohon pola tata bahasa untuk setiap kalimat, di masa mendatang perlu
dilakukan pengujian ambiguitas pohon pola tata bahasa dengan pengurai
Collins.
VI-3
7. Model 2 dan Model 3 perlu dibuat treebank-nya agar dapat diujicobakan
untuk bahasa Indonesia.
xv
DAFTAR PUSTAKA [1] Adriani, Mirna dkk. (2007) : Stemming Indonesian: A Confix-Stripping
Approach, ACM Transaction on Asian Language Information Processing, 6, 13:1 – 13:33.
[2] Asian, Jelita (2007) : Effective Techniques for Indonesian Text Retrieval,
Tesis Program Master of Science, School of Computer Science and Information Technology, 9-204.
[3] Aziz, Mohd Juzaiddin Ab dkk. (2006) : Pola Grammar Technique for
Grammatical Relation Extraction Malay Language, Malaysian Journal of Computer Science, 19, 59-72.
[4] Bikel, Daniel M. (2004) : On The Parameter Space of Generative
Lexicalized Statistical Parsing Models, Disertasi program Doctor of Philosophy, University of Pennsylvania, [halaman].
[5] Blum, Avrim dan Tom Mitchell (1998) : Combining Labeled and
Unlabeled Data With Co-training, Proceedings of the 11th Annual Conference on Computational Learning Theory, 92-100.
[6] Charniak, Eugene. (1993) : Statistical Language Learning, Massachusetts
Institute of Technology. [7] Charniak, Eugene. (1997) : Statistical Parsing with a Context-free
Grammar and Word Statistics, American Association for Artificial Intelligence: AAAI Press.
[8] Charniak, Eugene. (2000) : A Maximum-Entropy-Inspired Parser,
Proceedings of NAACL-2000. [9] Clark, Stephen (2003) : Bootstrapping POS Taggers Using Unlabelled
Data, Proceedings of the Seventh CoNNL Conference. [10] Carroll, Glen. (1995) : Learning Probabilistic Grammars for Language
Modeling, Tesis program Master of Science, Brown University. [11] Collins, Michael. (1996) : A New Statistical Parser Based on Bigram
Lexical Dependencies, In Proceedings of the 34th Annual Meeting of ACL, 184-191.
[12] Collins, Michael. (1999) : Head-Driven Statistical Models for Natural
Language Parsing, Disertasi program Doctor of Philosophy, University of Pennsylvania.
xvi
[13] Collins, Michael, Jan Hajic, Lance Ramshaw, Cristoph Tillmann (1999) : A Statistical Parser for Czech, Proceedings of the 37th Annual Meeting of the ACL.
[14] Gusmita, Ria Hari & Ruli Manurung (2008) Some initial experiments with
Indonesian probabilistic parsing. Second MALINDO Workshop. 1-5. [15] Iskak Hendrawan, (1999) : Pengurai Sintaks Kalimat untuk Bahasa
Indonesia dengan Metode Linguistic String Analysis; Fakultas Ilmu Komputer Universitas Indonesia, Depok 1999
[16] Johnson, Mark (1998) : PCFG Models of Linguistic Tree Representations,
Association for Computational Linguistics, 24, 613-632. [17] Jurafsky, Daniel dan Martin, James H. (2000) : Speech and Language
Processing: An Introduction to Natural Language Processing, Computational Lainguistics, and Speech Recognition. Prentice Hall, New Jersey, 443-471.
[18] Lefuel, Ramon dan Brian J. Ross (2004) : Parsing Probabilistic Context
Free Languages with Multiple-Objective Genetic Algorithms. Technical Report. Brock University.
[19] Linz, Peter. (2001) : An Introduction to Formal Languages and Automata,
Jones and Bartlett Publisher, Inc, Massachusetts, 126-148. [20] Marcus, Mitchell P. dkk (1992) : Building a Large Annotated Corpus of
English: The Penn Treebank. Departmet of Computer and Information Science University of Pennsylvania.
[21] Mulyono, Anton M. (1991) : Tata Bahasa Baku Bahasa Indonesia, Balai
Pustaka, Jakarta [22] Pisceldo, Femphy dkk. (2008) : A Two-Level Morphological Analyser for
Indonesian Language, Australian Language Technology Association (ALTA) Workshop.
[23] Schabes, Yves dan Waters, Richard C. (1993) : Stochastic Lexicalized
Context-Free Grammar, International Workshop on Parsing Technology. [24] Shavitri, Shelly. (1999) : Analisa Struktur Kalimat Bahasa Indonesia
dengan Menggunakan Pengurai Kalimat Berbasis Linguistic String Analysis. Tugas Akhir untuk Sarjana Ilmu Komputer, Universitas Indonesia.
[25] Sutarmo, Sarwiji Suwandi (2008) : Bahasa Indonesia: Bahasa
Kebanggaanku : untuk SMP dan MTs kelas VII. Pusat Perbukuan Departemen Pendidikan Nasional.
xvii
[26] Tala, Fadillah Z. (2003) : A Study of Stemming Effects on Information
Retrieval in Bahasa Indonesia, Tesis program Master of Logic, Institute for Logic, Language, and Computation Netherland.
[27] _________, 2008, Wikipedia, The Free Encyclopedia : N-gram, [html],
(http://en.wikipedia.org/wiki/N-gram, diakses tanggal 6 November 2008)
L-1.1
Lampiran 1 Jenis Kata Dalam Bahasa Indonesia [21]
Jenis kata yang ada dalam bahasa Indonesia adalah sebagai berikut:
Jenis Kata Keterangan Contoh kata benda (noun) atau nomina
kata yang menyebut benda atau yang dibendakan
botol, perjalanan, kertas
kata kerja (verb) atau verba kata yang bermakna melakukan aktivitas atau kegiatan, atau lebih jelas kalau dikatakan melakukan pekerjaan
lempar, menari, menerkam, ditangkap
kata sifat (adjectiv) atau adjektiva
kata yang memberi penjelasan tentang suatu benda
kental, jelek, buruk, bagus, baik
kata singkatan (abbreviation)
kata yang menyatakan singkatan ITB, BRI, BNI
kata keterangan waktu; menyatakan kapan sebuah peristiwa berlangsung
sekarang, nanti, kemarin, tadi, lusa, ketika, itu
kata keterangan mutu; menyatakan situasi dari suatu peristiwa
cepat-cepat, nyenyak
kata keterangan tempat; menyatakan tempat sebuah peristiwa
di dapur, ke jakarta, dari jakarta (bisa diawali kata depan seperti di, ke, dari dan diikuti dengan nama tempat)
kata keterangan jumlah; menyatakan jumlah tindakan suatu peristiwa
sedikit, banyak
kata keterangan modalitas; keterangan yang menyatakan tanggapan subyektif pembicara terhadap berlangsungnya peristiwa
memang, pasti, rupanya, semoga, mana mungkin
kata keterangan alat; menyatakan dengan alat apakah sebuah peristiwa berlangsung
dengan tongkat, dengan pisau
kata keterangan aspek; keterangan yang menjelaskan berlangsungnya peristiwa secara obyektif
akan, sedang, mulai, telah, sering
kata keterangan syarat; keterangan yang menyatakan syarat yang harus dipenuhi dalam suatu proses
jikalau, kalau
kata keterangan perlawanan, keterangan yang menyangkal suatu peristiwa
meskipun, biarpun
kata keterangan/kata tambahan (adverb) atau adverbia; kata yang menyatakan keterangan
kata keterangan sebab; keterangan yang menyatakan
karena
L-1.2
Jenis Kata Keterangan Contoh sebab peristiwa berlangsung kata keterangan akibat; keterangan yang menyatakan akibat yang terjadi karena suatu perbuatan atau peristiwa
hingga, akhirnya
kata keterangan tujuan; keterangan yang menyatakan tujuan dari suatu perbuatan atau peristiwa
agar, supaya
kata keterangan perbandingan; keterangan yang menyatakan perbandingan dua hal
bagaikan
kata keterangan perwatasan; keterangan yang menyatakan bagian tertentu yang tidak termasuk
kecuali, hanya
kata bilangan atau numeralia
kata yang menyatakan jumlah benda atau jumlah kumpulan atau jurusan dari nama-nama benda
satu, dua, ketiga, seribu
Orang I Tunggal: aku/saya Orang I Jamak: kami, kita Orang II Tunggal: engkau Orang II Jamak: kamu Orang III Tunggal: dia
kata ganti orang
Orang III Jamak: mereka
kata ganti empunya (milik) –ku, -mu, -nya kata ganti penunjuk di sini, di sana, ke
sini kata ganti penghubung yang kata ganti penanya adalah kata ganti yang menanyakan tentang benda, dapat berupa sesuatu keadaan ataupun orang
apa, siapa, bagaimana
kata ganti atau pronomina; kata yang dipakai untuk menggantikan kata atau yang dibendakan
kata ganti tak tentu adalah kata yang berfungsi sebagai pengganti benda yang tidak tentu nama yang sebenarnya
masing-masing, barang siapa, seseorang
kata depan (preposisi); kata yang merangkaikan kata-kata atau bagian-bagian kalimat
di, ke, dari, pada
kata sandang (artikula) si, sang
Kata tugas
kata hubung (conjunction) atau konjungtor; kata yang berfungsi sebagai
dan, atau, walaupun
L-1.3
Jenis Kata Keterangan Contoh perangkai kata, bagian kalimat, atau menghubungkan kalimat-kalimat kata seru (interjection) atau interjeksi
ah, ai, ceile
kata partikel; dapat berdiri menjadi kata atau imbuhan
kah, pun, lah, per
L-2.1
Lampiran 2 Awalan dalam Bahasa Indonesia [21]
Awalan yang diserap dari bahasa asing pada Bahasa Indonesia adalah sebagai
berikut:
No. Awalan Arti Jenis Kata yang
Dibentuk
Contoh
1. a- ‘tidak’ atau ‘tidak ber’
Kata sifat amoral, asosial, anonym, asimetris
2. adi- “maha” Kata sifat adidaya, adibusana 3. aero- “udara” Kata benda aeromodeling,
aeromekanika 4. anti- ‘melawan’ atau
‘bertentangan dengan’
Kata sifat antikomunis, antipemerintah, antiklimaks, antimagnet, antikarat
5. bi- ‘dua’ Kata sifat bilateral, biseksual, bilingual, bikonveks
6. de- ‘meniadakan’ atau ‘menghilangkan’
Kata benda dehidrasi, devaluasi, dehumanisasi, deregulasi
7. eks- ‘bekas’ yang sekarang dinyatakan dengan kata ‘mantan’
Kata benda eks-prajurit, eks-presiden, eks-karyawan, eks-partai terlarang
8. ekstra- ‘tambah’, ‘diluar’, atau ‘sangat’
Kata sifat ekstra-universiter, ekstra-terestrial, ekstra linguistic, ekstra-ketat, ekstra-hati-hati
9. hiper- ‘lebih’ atau ‘sangat’ Kata benda hipertensi, hiperseksual, hipersensitif
10. in- ‘tidak’ Kata sifat inkonvensional, inaktif, intransitive
11. infra- ‘di tengah’ Kata benda infrastruktur, inframerah, infrasonic
12. intra- ‘di dalam’ Kata benda intrauniversiter, intramolekuler
13. inter- antar- Kata benda interdental, internasional, interisuler
14. ko- ‘bersama-sama’ atau ‘beserta’
Kata benda kokulikuler, koinsidental, kopilot, kopromotor
15. kontra- ‘berlawanan’ atau ‘menentang’
Kata sifat kontrarevolusi, kontradiksi, kontrasepsi
L-2.2
No. Awalan Arti Jenis Kata yang
Dibentuk
Contoh
16. maha- “besar” Kata benda mahasiswa 17. makro- ‘besar’ atau ‘dalam
arti luas’ Kata benda makrokosmos,
makroekonomi, makrolinguistik
18. mikro- ‘kecil’ atau ‘renik’ Kata benda mikroorganisme, mikrokosmos, microfilm
19. multi- ‘banyak’ Kata sifat multipartai, multijutawan, multikompleks, multilateral, multilingual
20. neo- “baru” Kata benda Neokolonialisme, neofeodalisme, neoralisme
21. non- “bukan” atau “tidak ber-”
Kata sifat nongelar, nominyak, nonmigas, nonberas
22. pra- “sebelum” Kata keterangan
prasejarah, prajabatan, prasekolah
23. pasca- “sudah” Kata keterangan
pascasarjana, pascapanen
24. sub- “bawah” Kata keterangan
subbab, subagian
25. swa- “sendiri” Kata keterangan
swakarya, swasembada, swadaya
26. tuna- “tidak memiliki” Kata benda tunasusila, tunawisma, tunakarya
Awalan dari Bahasa Indonesia adalah sebagai berikut:
No. Awalan Arti Jenis Kata yang Dibentuk
Contoh
1. ber- “memiliki” atau “memakai”
Kata kerja berarti, bersepeda
2. di- Kata kerja disiram, dipakai 3. meN- Kata kerja menyiram, memakai 4. memper- Kata kerja memperalat 5. peN- Kata benda pelukis, pemakai 6. se- “sama” Kata
keterangan sepandai, secepat
7. ter- “paling”, “tidak sengaja”
Kata kerja terpandai, tercepat, terjatuh, terbawa
L-3.1
Lampiran 3 Akhiran dalam Bahasa Indonesia [21]
Akhiran yang diserap dari bahasa asing pada Bahasa Indonesia adalah sebagai
berikut:
No. Akhiran Arti Jenis Kata yang Dibentuk
Contoh
1. -al Kata sifat emosional, intelektual, struktural, aktual
2. -asi/-isasi “proses menjadikan” atau “penambahan”
Kata benda afiksasi, konfirmasi, nasionalisasi, kaderisasi, komputerisasi
3. -asme Kata benda sarkasme, antusiasme
4. -er Kata sifat elementer 5. -et “kecil” Kata Benda mayoret (mayor
kecil), operet (opera kecil)
6. -gram “satuan” atau “alat ukur”
Kata benda audiogram, kilogram
7. -i/-wi/-iah Kata sifat alamiah, duniawi, maknawi, insani
8. -if Kata sifat obyektif, subyektif, naratif
9. -is Kata Benda legendaris, novelis 10. -log “pelaku” Kata benda arkeolog, psikolog 11. -logi “ilmu” Kata benda sosiologi 12. -meter “satuan” atau “alat
ukur” Kata benda argometer,
spedometer, termometer
13. -metri Kata benda audiometri 14. -om “pelaku” Kata benda ekonom, astronom 15. -or “orang yang
memiliki kepandaian”
Kata benda editor, promotor
16. -ur “pelaku” Kata benda donatur, redaktur, debitur
17. -itas Kata benda aktualitas, obyektivitas, produktivitas
18. -man “pelaku laki-laki” Kata benda seniman 19. -wan “pelaku laki-laki” Kata benda wartawan,
sastrawan 20. -wati “pelaku
perempuan” Kata benda seniwati,
wartawati
L-3.2
Akhiran dari Bahasa Indonesia adalah sebagai berikut:
No. Akhiran Jenis Kata yang Dibentuk
Contoh
1. -an Kata benda tarian, tulisan 2. -kan Kata kerja tuliskan, tarikan,
nyanyikan 3. -i Kata kerja terangi, sinari 4. -pun partikel berapapun, sekalipun,
biarpun 5. -lah partikel biarlah, jadilah 6. -kah partikel adakah, siapakah 7. -nya Kata ganti, Kata benda miliknya, putusnya 8. -ku Kata ganti bukuku, tasku 9. -mu Kata ganti bukumu, tasmu
L-4.1
Lampiran 4 Konfiks dalam Bahasa Indonesia [21]
Imbuhan konfiks yang ada dalam bahasa Indonesia adalah sebagai berikut:
No. Konfiks Jenis Kata yang Dibentuk
Contoh
1. ke-an Kata benda kekakuan, keabadian, kepastian
2. ber-an Kata kerja berjatuhan, bertaburan 3. ber-annya Kata kerja berjatuhannya 4. ber-kan Kata kerja bertahtakan 5. di-kan Kata kerja diterbangkan, dituliskan 6. di-i Kata kerja disinari, dijatuhi 7. diper-kan diperlakukan, diperkerjakan 8. meN-kan Kata kerja melakukan, menaburkan,
menerjemahkan 9. meN-i Kata kerja menyinari, menerangi 10. memper-kan Kata kerja memperlakukan,
mempekerjakan 11. peN-an Kata benda pembangkitan 12. per-an Kata benda perlakuan 13. per-kan Kata kerja perlakukan 14. se-nya Kata keterangan seandainya 15. ter-kan Kata kerja terabaikan 16. ter-i Kata kerja terwakili 17. ter-lah Kata kerja terjadilah
L-5.1
Lampiran 5 Aturan Imbuhan dalam Bahasa Indonesia [21]
Aturan imbuhan dalam membentuk jenis kata tanpa pengulangan dalam bahasa
Indonesia adalah sebagai berikut:
Pola Imbuhan Keterangan Contoh kata dasar berawalan huruf “k” dan huruf keduanya merupakan huruf vokal yang mendapat imbuhan meN- dan peN- maka “k” akan melebur menjadi ng, jika huruf keduanya merupakan konsonan maka imbuhan meN- akan menjadi meng-
mengantuk, mengkritik
kata dasar berawalan huruf “s” dan huruf keduanya merupakan huruf vokal yang mendapat imbuhan meN- dan peN- maka “s” akan melebur menjadi ny
menyebar
kata dasar berawalan huruf “p” dan huruf keduanya merupakan huruf vokal yang mendapat imbuhan meN- dan peN- maka “p” akan melebur menjadi m, jika huruf keduanya merupakan konsonan maka imbuhan meN- akan menjadi mem-
memakai, memprediksi
kata dasar berawalan huruf “t” dan huruf keduanya merupakan huruf vokal yang mendapat imbuhan meN- dan peN- maka “t” akan melebur menjadi n-
misalnya menata
huruf “N” pada imbuhan meN- akan dihapus jika kata dasar yang mendapat imbuhan meN- memiliki huruf awal “l”, “m”, “n”, “r”, “y”, “w”, “t”, “s”, “p”, “k” dan huruf keduanya adalah huruf vokal
melukis
huruf “N” pada imbuhan meN- akan menjadi “m” jika kata dasar yang mendapat imbuhan meN- memiliki huruf awal “b”, “f” dan huruf keduanya adalah huruf vokal
memburu
huruf “N” pada imbuhan meN- akan menjadi “nge” jika kata dasar yang mendapat imbuhan meN- memiliki satu suku kata
mengebom
meN + kata dasar (jenis kata bebas) + kan maka akan menghasilkan sebuah kata kerja (verba)
peluluhan huruf tidak berlaku pada beberapa kata seperti kilat, punya, pesona, pengaruh, percaya
mengkilat, mempunyai, mempersona
peN + kata dasar (jenis kata bebas) + an akan
huruf “N” pada imbuhan peN- akan dihapus jika kata dasar yang mendapat
pelukis
L-5.2
Pola Imbuhan Keterangan Contoh imbuhan peN- memiliki huruf awal “l”, “m”, “n”, “r”, “d”, “w”, “t”, “s”, “p”, “k” dan huruf keduanya adalah huruf vokal huruf “N” pada imbuhan peN- akan menjadi “m” jika kata dasar yang mendapat imbuhan peN- memiliki huruf awal “b”, “f” dan huruf keduanya adalah huruf vokal
pemburu
huruf “N” pada imbuhan peN- akan menjadi “nge” jika kata dasar yang mendapat imbuhan peN- memiliki satu suku kata
pengebom
menghasilkan kata benda (nomina)
huruf “N” pada imbuhan peN- akan menjadi “l” jika kata dasar yang mendapat imbuhan peN- adalah “ajar”
pelajar
ke- + kata dasar (jenis kata bebas) + an
akan menghasilkan kata benda (nomina)
kebersamaan
kata dasar (jenis kata kerja, kata benda, kata sifat) + i
akan menghasilkan kata kerja (verba) terangi
beR- + kata dasar akan menghasilkan kata kerja
huruf “R” akan dihilangkan jika bertemu dengan kata yang mengandung “er” setelah huruf pertama kata yang berupa huruf konsonan
becermin, beserta, berternak, bekerja
teR- + kata dasar akan menghasilkan kata kerja
huruf “R” akan dihilangkan jika bertemu dengan kata yang mengandung “er” setelah huruf pertama kata yang berupa huruf konsonan
teperdaya
L-6.1
Lampiran 6 Hasil Pengujian
Berikut adalah hasil pengujian 7 kalimat berbahasa Indonesia dengan pengurai
Collins (kelompok pertama):
Keenam kalimat berikut memiliki pohon kalimat yang sama dan sudah benar.
1. Kalimat:
Kamu makan nasi.
Hasil Penguraian: PROB 35 -134.488 0 TOP NP -134.488 PR 0 Kamu VB 0 makan NN 0 nasi PU 0 . (TOP~(NP~nasi~4~3 Kamu/PR makan/VB nasi/NN ./PU ) ) TIME 0
2. Kalimat:
Adik naik sepeda.
Hasil Penguraian: PROB 34 -134.275 0 TOP NP -134.275 NN 0 Adik VB 0 naik NN 0 sepeda PU 0 . (TOP~(NP~sepeda~4~3 Adik/NN naik/VB sepeda/NN ./PU ) ) TIME 0
TOP/S
.
NP VB NN
NN/PR
PU
.…………
……
L-6.2
3. Kalimat:
Kakak bermain gasing.
Hasil Penguraian: PROB 34 -134.275 0 TOP NP -134.275 NN 0 Kakak VB 0 bermain NN 0 gasing PU 0 . (TOP~(NP~gasing~4~3 Kakak/NN bermain/VB gasing/NN ./PU ) ) TIME 0
4. Kalimat:
Ibu menyiram bunga.
Hasil Penguraian: PROB 34 -134.275 0 TOP NP -134.275 NN 0 Ibu VB 0 menyiram NN 0 bunga PU 0 . (TOP~(NP~bunga~4~3 Ibu/NN menyiram/VB bunga/NN ./PU ) ) TIME 0
5. Kalimat:
Sapi makan rumput.
Hasil Penguraian: PROB 34 -134.275 0 TOP NP -134.275 NN 0 Sapi VB 0 makan NN 0 rumput PU 0 . (TOP~(NP~rumput~4~3 Sapi/NN makan/VB rumput/NN ./PU ) ) TIME 0
L-6.3
6. Kalimat:
Adik tidur kasur.
Hasil Penguraian: PROB 34 -134.275 0 TOP NP -134.275 NN 0 Adik VB 0 tidur NN 0 kasur PU 0 . (TOP~(NP~kasur~4~3 Adik/NN tidur/VB kasur/NN ./PU ) ) TIME 0
7. Kalimat:
Kamu mandi air hangat.
Hasil Penguraian: PROB 52 -179.642 0 TOP NP -179.642 NN 0 Nenek VB 0 mandi NN 0 air JJ 0 hangat PU 0 . (TOP~(NP~air~5~3 Nenek/NN mandi/VB air/NN hangat/JJ ./PU ) ) TIME 0
Analisis:
Hasilnya belum terlalu benar, seharusnya:
TOP/S
.
NP VB NN
NN
PU
. air.mandi
Nenek
JJ
hangat
L-6.4
Berikut adalah hasil pengujian 15 kalimat berbahasa Indonesia dengan pengurai
Collins (kelompok kedua):
1. Kalimat:
Benar, Malin Kundang berisi cerita tentang anak yang durhaka kepada ibunya
sehingga ia dikutuk oleh Tuhan dan menjadi batu.
Hasil Penguraian: PROB 0 0 0 (TOP Benar/JJ ,/PU Malin/NN Kundang/NN berisi/VB cerita/NN tentang/CC anak/NN yang/AR durhaka/JJ kepada/IN ibunya/NN sehingga/CS ia/PR dikutuk/VB oleh/IN Tuhan/NN dan/CC menjadi/VB batu/NN ./PU ) TIME 0
Kesimpulan: tidak berhasil diuraikan
2. Kalimat:
Tema cerita Malin Kundang dari Sumatra Barat ini ternyata juga bisa ditemui di
daerah lain di Indonesia.
TOP/S
.
NP VB NP
NN
PU
.
air.
mandi
Nenek
NN
hangat
JJ
L-6.5
Hasil Penguraian: PROB 1940 -141.056 0 TOP ADVP -141.056 NP -24.829 NN 0 Tema NN 0 cerita NN 0 Malin NN 0 Kundang ADVP -14.2142 IN 0 dari NP -12.8468 NN 0 Sumatra NN 0 Barat ADVP -7.08349 NP -0.0849127 PR 0 ini VB 0 ternyata JJ 0 juga VP -1.83674 AUX 0 bisa ADVP -22.1767 VB 0 ditemui ADVP -16.4728 IN 0 di NP -14.0432 NN 0 daerah JJ 0 lain ADVP -1.48604 IN 0 di NN 0 Indonesia PU 0 . (TOP~(ADVP~bisa~3~2 (NP~Tema~5~1 Tema/NN cerita/NN Malin/NN Kundang/NN (ADVP~dari~2~1 dari/IN (NP~Sumatra~3~1 Sumatra/NN Barat/NN (ADVP~ternyata~3~2 (NP~ini~1~1 ini/PR ) ternyata/VB juga/JJ ) ) ) ) (VP~bisa~1~1 bisa/AUX ) (ADVP~ditemui~2~1 ditemui/VB (ADVP~di~2~1 di/IN (NP~daerah~4~1 daerah/NN lain/JJ (ADVP~di~2~1 di/IN Indonesia/NN ) ./PU ) ) ) ) ) TIME 0
.
Sumatra Barat
TOP/S
ADVP
NP
NN NN NN NN ADVP
Tema cerita
Malin Kundang IN NP
NN NN ADVP
PR VB JJ
dari
ini ternyata juga
VP
AUX
bisa
ADVP
VB ADVP
IN NP
NN JJ ADVP
IN NN
ditemui
di
daerah
lain
di
PU
Indonesia
L-6.6
Analisis:
Hasilnya belum terlalu benar, seharusnya:
3. Kalimat:
Apakah daerahmu juga ada cerita semacam ini?
Hasil Penguraian: PROB 243 -73.5044 0 TOP SBAR -73.5044 WH 0 Apakah NP -28.0113 NN 0 daerahmu JJ 0 juga ADVP -12.5391 VB 0 ada NP -7.54928 NN 0 cerita ADVP -4.5644 VB 0 semacam PR 0 ini PU 0 ? (TOP~(SBAR~Apakah~2~1 Apakah/WH (NP~daerahmu~5~1 daerahmu/NN juga/JJ (ADVP~ada~2~1 ada/VB (NP~cerita~2~1 cerita/NN (ADVP~semacam~1~1 semacam/VB ) ) ) ini/PR ?/PU ) ) ) TIME 0
dari
Sumatra
Barat
TOP/S
NP
NN
NN
NN NN ADVP
Tema
cerita Kundang
IN NP
NN NN
ADVP
PR VB JJ
ini
ternyata
juga
Malin
VP
AUX
bisa
VB
ditemui
ADVP
IN
di
NN
daerah
JJ
lain
ADVP
IN
di
NN
Indonesia
PU
.
L-6.7
Analisis:
Hasilnya belum terlalu benar, seharusnya
daerahmu
TOP/S
SBAR
.
WH
NN
JJ VB
NN ADVP
VB PR
PU
Apakah
juga ada semacam
ini
?
VP
cerita
cerita
TOP/S
SBAR
.WH NP
NN JJ ADVP
VB NP
NN ADVP
VB
PR PU Apakah
daerahmu
juga
ada
semacam
ini ?
L-6.8
4. Kalimat:
Kalau ada, tulislah dengan singkat cerita itu!
Hasil Penguraian: PROB 0 0 0 (TOP Kalau/CS ada/VB ,/PU tulislah/VB dengan/IN singkat/JJ cerita/NN itu/PR !/PU ) TIME 0
Kesimpulan: tidak berhasil diuraikan
5. Kalimat:
Setelah kamu dengarkan dongeng tadi, buatlah pertanyaan-pertanyaan tentang
isi dongeng.
Hasil Penguraian: PROB 331 -38.3071 0 TOP ADVP -38.3071 RB 0 Setelah NP -0.0122658 PR 0 kamu VB 0 dengarkan NP -8.83124 NN 0 dongeng RB 0 tadi PU 0 , VB 0 buatlah NP -18.5667 NN 0 pertanyaan-pertanyaan ADVP -4.0535 CC 0 tentang NN 0 isi NN 0 dongeng PU 0 . (TOP~(ADVP~Setelah~6~1 Setelah/RB (NP~kamu~1~1 kamu/PR ) dengarkan/VB (NP~dongeng~3~1 dongeng/NN tadi/RB ,/PU ) buatlah/VB (NP~pertanyaan-pertanyaan~4~1 pertanyaan-pertanyaan/NN (ADVP~tentang~2~1 tentang/CC isi/NN ) dongeng/NN ./PU ) ) ) TIME 0
L-6.9
Analisis:
Hasilnya belum terlalu benar, seharusnya
6. Kalimat
Pertanyaan yang kamu buat dapat dimulai dengan kata-kata seperti di bawah ini,
atau kamu kembangkan pertanyaan sendiri.
TOP/S
.
ADVP
RB
Setelah
NP
PR
kamu
VB NP
dengarkan NN
dongeng
RB
tadi
PU
,
VB
buatlah
NP
NN
pertanyaan-pertanyaan
ADVP
CC
tentang NN
isi
NN
PU
dongeng
.
NP
TOP/S
.
ADVP
RB
Setelah
NP
PR
kamu
VB NP
dengarkan NN
dongeng
RB
tadi
PU
,
VB
buatlah
NP
NN
pertanyaan-pertanyaan
ADVP
CC
tentang
NN
isi
NN PU
dongeng .
L-6.10
Hasil Penguraian: PROB 0 0 0 (TOP Pertanyaan/NN yang/AR kamu/PR buat/IN dapat/AUX dimulai/VB dengan/IN kata-kata/NN seperti/IN di/IN bawah/NN ini/PR ,/PU atau/CC kamu/PR kembangkan/VB pertanyaan/NN sendiri/RB ./PU ) TIME 0
Kesimpulan: tidak berhasil diuraikan
7. Kalimat:
Sekarang, bentuklah kelompok diskusi yang masing-masing anggotanya terdiri
atas empat atau lima orang.
Hasil Penguraian: PROB 0 0 0 (TOP Sekarang/RB ,/PU bentuklah/VB kelompok/NN diskusi/NN yang/AR masing-masing/RB anggotanya/JJ terdiri/VB atas/NN empat/CD atau/CC lima/CD orang/NN ./PU ) TIME 0
Kesimpulan: tidak berhasil diuraikan
8. Kalimat:
Diskusikan jawaban pertanyaan-pertanyaan yang telah kalian buat.
Hasil Penguraian: PROB 0 0 0 (TOP Diskusikan/VB jawaban/NN pertanyaan-pertanyaan/NN yang/AR telah/RB kalian/NN buat/IN ./PU ) TIME 0
Kesimpulan: tidak berhasil diuraikan
9. Kalimat:
Ketika kita mendengarkan dongeng, kita dapat mengemukakan hal-hal menarik
yang ada di dalam dongeng itu.
L-6.11
Hasil Penguraian: PROB 0 0 0 (TOP Ketika/CS kita/PR mendengarkan/VB dongeng/NN ,/PU kita/PR dapat/AUX mengemukakan/VB hal-hal/JJ menarik/VB yang/AR ada/VB di/IN dalam/JJ dongeng/NN itu/PR ./PU ) TIME 0
Kesimpulan: tidak berhasil diuraikan
10. Kalimat:
Dari pelatihan di atas, kalian makin paham tentang dongeng Asal Mula Pulau Si
Kantan.
Hasil Penguraian: PROB 699 -55.0438 0 TOP ADVP -55.0438 IN 0 Dari NP -9.66809 NN 0 pelatihan ADVP -1.48604 IN 0 di NN 0 atas PU 0 , NP -16.8687 NN 0 kalian RB 0 makin NN 0 paham ADVP -4.0535 CC 0 tentang NN 0 dongeng NP -3.77636 NN 0 Asal NN 0 Mula NN 0 Pulau NP -13.0951 AR 0 Si NN 0 Kantan PU 0 . (TOP~(ADVP~Dari~5~1 Dari/IN (NP~pelatihan~3~1 pelatihan/NN (ADVP~di~2~1 di/IN atas/NN ) ,/PU ) (NP~kalian~4~1 kalian/NN makin/RB paham/NN (ADVP~tentang~2~1 tentang/CC dongeng/NN ) ) (NP~Asal~3~1 Asal/NN Mula/NN Pulau/NN ) (NP~Kantan~3~2 Si/AR Kantan/NN ./PU ) ) ) TIME 0
L-6.12
Analisis:
Hasilnya belum terlalu benar, seharusnya
11. Kalimat:
Sekarang, diskusikan dengan teman-temanmu tentang hal-hal menarik dalam
dongeng tersebut!
NN
Dari
,
NN ADVP
PU NN
RB
TOP/S
ADVP
IN NP
IN NN
pelatihan
di
atas
Si
NN
kalian
makin
paham
ADVP
CC
tentang
dongeng
NP
NN NN NN
Asal
Mula
Pulau
NP
AR
Kantan
NN
PU
.
VP
NN ADVP PU NN RB
TOP/S
ADVP
IN
Dari
NP
IN NN
pelatihan
di
atas
,
NP
Si
NN
kalian
makin
paham
ADVP
CC
tentang
NN
dongeng
NP
NN NN NN
Asal
Mula
Pulau
NP
AR
Kantan
NN PU
.
L-6.13
Hasil Penguraian: PROB 0 0 0 (TOP Sekarang/RB ,/PU diskusikan/VB dengan/IN teman-temanmu/NN tentang/CC hal-hal/JJ menarik/VB dalam/JJ dongeng/NN tersebut/PR !/PU ) TIME 0
Kesimpulan: tidak berhasil diuraikan
12. Kalimat:
Berikan alasanmu mengapa hal itu menarik!
Hasil Penguraian: PROB 142 -68.0479 0 TOP ADVP -68.0479 VB 0 Berikan JJ 0 alasanmu PR 0 mengapa NP -14.2859 NN 0 hal ADVP -4.64666 NP -0.0705103 PR 0 itu VB 0 menarik PU 0 ! (TOP~(ADVP~Berikan~4~1 Berikan/VB alasanmu/JJ mengapa/PR (NP~hal~3~1 hal/NN (ADVP~menarik~2~2 (NP~itu~1~1 itu/PR ) menarik/VB ) !/PU ) ) ) TIME 0
mengapa
ADVP
.
VB
Berikan
JJ
alasanmu
PR NP
NN ADVP
NP
PR
VB
PU
hal
itu
menarik
!
TOP/S
L-6.14
Analisis:
Hasilnya belum terlalu benar, seharusnya
13. Kalimat:
Hasilnya tempelkan di papan tulis.
Hasil Penguraian: PROB 89 -21.83 0 TOP NP -21.83 NN 0 Hasilnya NN 0 tempelkan ADVP -16.0802 IN 0 di NP -13.6505 NN 0 papan ADVP -4.89085 VB 0 tulis PU 0 . (TOP~(NP~Hasilnya~3~1 Hasilnya/NN tempelkan/NN (ADVP~di~2~1 di/IN (NP~papan~3~1 papan/NN (ADVP~tulis~1~1 tulis/VB ) ./PU ) ) ) ) TIME 0
mengapa .
VB
Berikan
JJ
alasanmu
PR SBAR
NP
PR
VB
PU
hal itu
menarik
!
NN
TOP/S
L-6.15
Analisis:
Hasilnya belum terlalu benar, seharusnya
14. Kalimat:
Pengalaman menarik itu sulit untuk dilupakan.
TOP/S
.
NP NN ADVP
NN IN NP
NN VB PUHasilnya
tempelkan
di
papan tulis
.
TOP/S
.
NP NN ADVP
NN IN NP
NN ADVP
VB
PUHasilnya
tempelkan
di
papan
tulis
.
L-6.16
Hasil Penguraian: PROB 122 -34.0868 0 TOP NP -34.0868 NN 0 Pengalaman ADVP -25.5112 VB 0 menarik PR 0 itu ADJP -5.53983 JJ 0 sulit IN 0 untuk ADVP -3.57408 VB 0 dilupakan PU 0 . (TOP~(NP~Pengalaman~3~1 Pengalaman/NN (ADVP~menarik~4~1 menarik/VB itu/PR (ADJP~sulit~2~1 sulit/JJ untuk/IN ) (ADVP~dilupakan~1~1 dilupakan/VB ) ) ./PU ) ) TIME 0
Analisis:
Hasilnya belum terlalu benar, seharusnya
TOP/S
.
NP
NN
Pengalaman
VP
VB
menarik
PR
itu
ADJP
JJ
sulit
IN
untuk
VB
dilupakan
PU
.
TOP/S
.
NP
NN
Pengalaman
ADVP
VB
menarik
PR
itu
ADJP
JJ
sulit
IN
untuk
ADVP
VB
dilupakan
PU
.
L-6.17
15. Kalimat:
Pengalaman berkesan tidak harus pengalaman yang kamu alami sendiri.
Hasil Penguraian: PROB 195 -173.707 0 TOP NP -173.707 NN 0 Pengalaman ADVP -61.349 VP -53.0975 VB 0 berkesan RB 0 tidak VP -2.86092 AUX 0 harus NN 0 pengalaman ADVP -95.8387 AR 0 yang NP -0.0122658 PR 0 kamu JJ 0 alami RB 0 sendiri PU 0 . (TOP~(NP~Pengalaman~5~1 Pengalaman/NN (ADVP~berkesan~1~1 (VP~berkesan~3~1 berkesan/VB tidak/RB (VP~harus~1~1 harus/AUX ) ) ) pengalaman/NN (ADVP~alami~4~3 yang/AR (NP~kamu~1~1 kamu/PR ) alami/JJ sendiri/RB ) ./PU ) ) TIME 0
TOP/S
.
NP
NN
ADVP
Pengalaman
VP
VB
berkesan
RB
tidak
VP
AUX
harus
NN
pengalaman
ADVP
AR
yang
NP
PR
kamu
JJ
alami
RB
sendiri
PU
.
L-6.18
Analisis:
Hasilnya belum terlalu benar, seharusnya
TOP/S
.
NP
NN
VP
Pengalaman
VB
berkesan
RB
tidak
VP
AUX
harus
NN
pengalaman
ADVP
AR
yang
NP
PR
kamu
JJ
alami
RB
sendiri
PU
.
NP
L-7.1
Lampiran 7 Aturan Grammar Hasil Pembangkitan Pemrosesan Awal (preprocessing) dan Aturan Grammar yang Digunakan
Berikut adalah hasil pembangkitan aturan grammar dari treebank: L ADJP ADJP CC L ADJP RB PR L ADJP RB AUX L ADJP AUX JJ L ADJP AR AUX L ADJP CC JJ L ADJP VB CC L ADJP JJ JJ L ADJP RB RB L ADJP JJ ADVP L ADJP VB NN L ADJP NP VB L ADJP RB NP L ADJP AR RB L ADJP JJ NN L ADJP AR JJ L ADJP AUX VB L ADJP IN CD L ADJP JJ VP L ADJP VB JJ L ADJP IN JJ L ADJP RB IN L ADJP IN NN L ADJP IN PR L ADJP JJ IN L ADJP JJ CC L ADJP RB VB L ADJP RB JJ L ADVP ADJP NP L ADVP SBAR SBAR L ADVP CC VB L ADVP NN NP L ADVP RB NN L ADVP NN PR L ADVP VP ADVP L ADVP IN ADVP L ADVP NP IN L ADVP VB PR L ADVP IN SBAR L ADVP SBAR CC L ADVP RB SBAR L ADVP PU ADJP L ADVP VP IN L ADVP CD PU L ADVP SYM CD L ADVP CD SYM L ADVP PU CD L ADVP CC ADVP L ADVP NP ADVP L ADVP NN RB L ADVP JJ CD
L ADVP CD IN L ADVP VB CD L ADVP ADVP NP L ADVP CS NN L ADVP AR SBARQ L ADVP IN ADJP L ADVP RB RB L ADVP CD NN L ADVP CC CD L ADVP CD CC L ADVP NN CD L ADVP VB NN L ADVP RB ADVP L ADVP IN RB L ADVP CS IN L ADVP JJ PU L ADVP PU JJ L ADVP ADJP PU L ADVP CC JJ L ADVP JJ CC L ADVP NP JJ L ADVP ADVP NN L ADVP NN ADVP L ADVP NN NN L ADVP AR ADJP L ADVP AR VP L ADVP NP ADJP L ADVP NN ADJP L ADVP PU NN L ADVP NN PU L ADVP VB CC L ADVP VP NP L ADVP IN VP L ADVP AR ADVP L ADVP CC NP L ADVP PU CC L ADVP NP PU L ADVP JJ NP L ADVP NN JJ L ADVP JJ VB L ADVP PR VB L ADVP CS SBAR L ADVP NP VP L ADVP CS VB L ADVP PU NP L ADVP CD NP L ADVP IN CD L ADVP NP CC L ADVP RB NP L ADVP AR RB L ADVP VB NP L ADVP NN CC
L ADVP JJ AR L ADVP JJ RB L ADVP IN NP L ADVP JJ JJ L ADVP CD JJ L ADVP NN VB L ADVP CC NN L ADVP AR AUX L ADVP AR PR L ADVP RB VB L ADVP NP VB L ADVP AUX NP L ADVP AR JJ L ADVP JJ ADVP L ADVP JJ NN L ADVP CC SBAR L ADVP NN VP L ADVP AR NN L ADVP IN JJ L ADVP AUX JJ L ADVP RB JJ L ADVP AUX VB L ADVP PR ADVP L ADVP CC PR L ADVP VB ADJP L ADVP IN VB L ADVP AUX IN L ADVP VB ADVP L ADVP IN NN L ADVP AR VB L ADVP AR NP L NP ADJP VB L NP CC PR L NP PU IN L NP PR PU L NP PU PR L NP WH PU L NP NN WH L NP AUX VB L NP ADVP NN L NP PR ADJP L NP CC CC L NP RP NN L NP NN RP L NP JJ CD L NP VB VB L NP CC NN L NP CC JJ L NP JJ PU L NP PU JJ L NP VB ADJP L NP CC VB
L NP NN CD L NP VB JJ L NP JJ NP L NP VB AR L NP CC ADVP L NP JJ ADVP L NP CC NP L NP PU CC L NP PU NN L NP NN PU L NP VB ADVP L NP NP CC L NP NP VP L NP PU NP L NP ADVP PU L NP AR NN L NP NP NN L NP JJ VB L NP AR VB L NP NN NP L NP PR ADVP L NP RB NN L NP NN RB L NP NN ADJP L NP CD NN L NP JJ PR L NP IN PR L NP NN IN L NP JJ NN L NP NN CC L NP VB NP L NP NN ADVP L NP NN AR L NP NN PR L NP NN NN L NP NN JJ L NP NN VB L S ADJP ADVP L S ADVP CC L S WH NP L S VB WH L S CC PU L S PR SBAR L S SBAR PR L S CC NP L S VB CC L S CC SBAR L S ADVP SBAR L S CS ADVP L S ADVP JJ L S JJ NP L S PR NN
L-7.2
L S VB PR L S IN NP L S NP IN L S PU SBAR L S CS SBAR L S ADVP ADJP L S ADVP NP L S NP NP L S VB NP L S SBAR CS L S VB NN L S JJ PU L S VP JJ L S PU NN L S VP NP L S PU NP L S ADJP PU L S VP PU L S PU PR L S ADVP NN L S NP PU L S VB ADVP L S PU CC L S PU VP L S NN PU L S VP NN L S PU VB L S PU ADVP L S PR SBARQ L S NP ADVP L S SBARQ PU L S WH SBARQ L S VB PU L S SBAR PU L S SBAR SBAR L S ADJP VP L S WH ADVP L S SBAR WH L S SBAR CC L S NN ADVP L S ADJP NN L S ADVP ADVP L S ADVP VB L S ADJP VB L S NN ADJP L S ADVP PU L S NP ADJP L S NP VP L S NP AUX L S CC NN L S AR VB L S VP ADVP L S NN VP L S NN VB L S WH AR L S NP VB L SBAR ADJP NP L SBAR ADVP NP L SBAR RB NP
L SBAR VB RB L SBAR ADVP VB L SBAR VP NP L SBAR CS ADJP L SBAR CS NN L SBAR NP JJ L SBAR ADJP VP L SBAR NN ADJP L SBAR PR VB L SBAR NN NP L SBAR NP ADJP L SBAR IN WH L SBAR VP ADJP L SBAR VB ADVP L SBAR VP ADVP L SBAR NP VP L SBAR WH SBARQ L SBAR NN VB L SBAR NP ADVP L SBAR VB ADJP L SBAR VB NP L SBAR VB NN L SBAR PR ADVP L SBAR NN VP L SBAR NP VB L SBARQ ADVP NN L SBARQ NN VB L SBARQ AR NP L SBARQ CC NN L SBARQ VB CC L SBARQ NP VB L VP AUX JJ L VP CC VB L VP JJ CC L VP RB NP L VP VB RB L VP RB AUX L VP JJ VB L VP VB VB L VP JJ AUX L VP CD VB L VP VB CC L VP RB JJ L VP VB NN L VP RB FW L VP JJ PU L VP RB VB L VP AUX NN L VP NN JJ L VP NN ADVP L VP AUX VB L VP VB ADJP L VP VB JJ R ADJP CC ADJP R ADJP CC VB R ADVP ADJP ADVP R ADVP PR ADVP R ADVP VB PR
R ADVP ADJP NP R ADVP IN NP R ADVP VP IN R ADVP ADJP NN R ADVP NN VB R ADVP NP ADVP R ADVP JJ ADVP R ADVP JJ NP R ADVP VP NP R ADVP CC VP R ADVP CC IN R ADVP CC NN R ADVP PR NN R ADVP VB ADJP R ADVP VB ADVP R ADVP VP ADVP R ADVP NN JJ R ADVP NP JJ R ADVP NN PR R ADVP RB ADVP R ADVP CC RB R ADVP NN ADJP R ADVP VB IN R ADVP IN NN R ADVP NN ADVP R ADVP VB JJ R ADVP VP NN R ADVP VB NP R ADVP VB NN R NP ADVP ADVP R NP NP ADVP R NP RB NP R NP VB RB R NP VB NP R NP CD NN R NP NN CD R NP VP ADVP R NP CC NP R NP CC ADVP R NP NN NN R NP CC NN R NP NN ADVP R NP JJ ADVP R NP NN JJ R NP NN PR R NP NN PU R NP VB NN R S ADJP ADVP R S NP VB R S CC NN R S NN CC R S CS SBAR R S NP ADVP R S ADJP PU R S NP ADJP R S PR VB R S PU ADVP R S VP NP R S NP PU
R S VB NP R S PR PU R S VB PR R S VP VB R S VB JJ R S RB PU R S NN RB R S WH ADVP R S VP NN R S SBAR PU R S CC SBAR R S VB VB R S ADVP ADVP R S JJ PU R S VP JJ R S VP PU R S NN ADVP R S ADVP PU R S NN ADJP R S AUX NN R S VP ADVP R S NN VB R S NN PU R S VB NN R S VB ADVP R S VB PU R SBAR NN ADJP R SBAR RB NP R SBAR VB RB R SBAR VB ADVP R SBAR VP NP R SBAR NP ADVP R SBAR VB NN R SBAR VB NP R SBARQ NN ADVP R SBARQ VB NP R SBARQ VB ADVP R SBARQ VB NN R VP CC VB R VP VB ADVP U ADJP CC U ADJP VB U ADVP ADJP U ADVP AUX U ADVP VP U ADVP NP U ADVP JJ U ADVP RB U ADVP VB U NP PR U NP RB U NP RP U S NP U SBAR NP U SBAR VP U SBARQ NP U VP ADJP U VP ADVP U VP AUX
L-7.3
U VP JJ U VP VB X ADJP CC 00000 X ADJP VB 00000 X ADVP ADJP 00000 X ADVP AUX 00000 X ADVP VP 00000 X ADVP NP 00000 X ADVP JJ 00000 X ADVP RB 00000 X ADVP VB 00000 X NP PR 00000 X NP RB 00000 X NP RP 00000 X S NP 00000 X SBAR NP 00000 X SBAR VP 00000 X SBARQ NP 00000 X VP ADJP 00000 X VP ADVP 00000 X VP AUX 00000 X VP JJ 00000 X VP VB 00000 Y ADJP CC 00000 Y ADJP VB 00000 Y ADVP ADJP 00000 Y ADVP AUX 00000 Y ADVP VP 00000 Y ADVP NP 00000 Y ADVP JJ 00000 Y ADVP RB 00000 Y ADVP VB 00000 Y NP PR 00000 Y NP RB 00000 Y NP RP 00000 Y S NP 00000 Y SBAR NP 00000 Y SBAR VP 00000 Y SBARQ NP 00000 Y VP ADJP 00000 Y VP ADVP 00000 Y VP AUX 00000 Y VP JJ 00000 Y VP VB 00000
L-7.4
Keseluruhan aturan grammar (1124 aturan grammar) yang digunakan pada tesis
ini adalah sebagai berikut:
L ADJP ADJP CC L ADJP ADJP JJ L ADJP ADJP NP L ADJP ADJP RB L ADJP ADVP ADJP L ADJP ADVP CC L ADJP ADVP IN L ADJP ADVP JJ L ADJP ADVP RB L ADJP ADVP VB L ADJP FW RB L ADJP JJ ADJP L ADJP JJ CC L ADJP JJ CD L ADJP JJ IN L ADJP JJ JJ L ADJP JJ NN L ADJP JJ NP L ADJP JJ PR L ADJP JJ RB L ADJP JJ WH L ADJP NN ADVP L ADJP NN CD L ADJP NN IN L ADJP NN JJ L ADJP NN NN L ADJP NN NP L ADJP NN RB L ADJP NN VB L ADJP NP LRB L ADJP NP IN L ADJP NP RB L ADJP RB IN L ADJP RB RB L ADJP SBAR RB L ADJP VB JJ L ADJP VB RB L ADJP VB IN L ADJP VB NP L ADJP RB JJ L ADJP RB VB L ADJP IN JJ L ADJP IN PR L ADJP IN NN L ADJP IN CD L ADJP JJ VP L ADJP AUX VB L ADJP AR JJ L ADJP AR RB L ADJP RB NP L ADJP NP VB L ADJP VB NN L ADJP JJ ADVP
L ADJP VB CC L ADJP CC JJ L ADJP AR AUX L ADJP AUX JJ L ADJP RB AUX L ADJP RB PR L ADVP ADJP NP L ADVP ADVP ADJP L ADVP ADVP ADVP L ADVP ADVP IN L ADVP ADVP NP L ADVP ADVP RP L ADVP FW FW L ADVP FW NP L ADVP IN NN L ADVP IN NP L ADVP JJ IN L ADVP JJ NN L ADVP JJ NP L ADVP JJ VB L ADVP JJ JJ L ADVP NN NN L ADVP NP NP L ADVP NP RP L ADVP RB ADVP L ADVP RB CC L ADVP RB IN L ADVP RB JJ L ADVP RB NN L ADVP RB NP L ADVP RB PR L ADVP RB RB L ADVP RB RP L ADVP RB VB L ADVP AR NN L ADVP AR NP L ADVP AR VB L ADVP VB ADVP L ADVP AUX IN L ADVP IN VB L ADVP VB ADJP L ADVP CC PR L ADVP PR ADVP L ADVP AUX VB L ADVP VB NN L ADVP AUX JJ L ADVP IN JJ L ADVP AR JJ L ADVP NN VP L ADVP CC SBAR L ADVP JJ ADVP L ADVP AR ADVP
L ADVP AUX NP L ADVP NP VB L ADVP AR PR L ADVP AR AUX L ADVP CC NN L ADVP NN VB L ADVP CD JJ L ADVP JJ RB L ADVP JJ AR L ADVP NN CC L ADVP VB NP L ADVP AR RB L ADVP NP CC L ADVP IN CD L ADVP CD NP L ADVP PU NP L ADVP CS VB L ADVP NP VP L ADVP CS SBAR L ADVP PR VB L ADVP NN JJ L ADVP NP PU L ADVP PU CC L ADVP CC NP L ADVP AR ADJP L ADVP IN VP L ADVP VP NP L ADVP VB CC L ADVP NN PU L ADVP PU NN L ADVP NN ADJP L ADVP NP ADJP L ADVP AR VP L ADVP ADVP NN L ADVP NN ADVP L ADVP ADJP RP L ADVP NP JJ L ADVP JJ CC L ADVP CC JJ L ADVP ADJP PU L ADVP PU JJ L ADVP JJ PU L ADVP CS IN L ADVP IN RB L ADVP NN CD L ADVP CD CC L ADVP CC CD L ADVP CD NN L ADVP IN ADJP L ADVP AR SBARQ L ADVP CS NN L ADVP VB CD L ADVP CD IN L ADVP JJ CD
L ADVP NN RB L ADVP NP ADVP L ADVP CC ADVP L ADVP PU CD L ADVP CD SYM L ADVP SYM CD L ADVP CD PU L ADVP VP IN L ADVP PU ADJP L ADVP RB SBAR L ADVP SBAR CC L ADVP IN SBAR L ADVP VB PR L ADVP NP IN L ADVP IN ADVP L ADVP VP ADVP L ADVP NN PR L ADVP NN NP L ADVP CC VB L ADVP SBAR SBAR L NP ADJP VB L NP NN ADJP L NP NN CC L NP NN JJ L NP NN NN L NP NN NP L NP NN PR L NP NN RB L NP NN VB L NP NP LRB L NP NP ADJP L NP NP ADVP L NP NP CC L NP NP CD L NP NP IN L NP NP PR L NP NP RB L NP NP S L NP NP SBAR L NP NN ADVP L NP NN AR L NP JJ NP L NP VB NP L NP JJ NN L NP NN IN L NP IN PR L NP JJ PR L NP CD NN L NP RB NN L NP PR ADVP L NP AR VB L NP JJ VB L NP NP NN
L-7.5
L NP AR NN L NP ADVP PU L NP PU NP L NP NP VP L NP VB ADVP L NP NN PU L NP PU NN L NP PU CC L NP CC NP L NP JJ ADVP L NP CC ADVP L NP VB AR L NP VB JJ L NP NN CD L NP CC VB L NP VB ADJP L NP PU JJ L NP JJ PU L NP CC JJ L NP CC NN L NP VB VB L NP JJ CD L NP NN RP L NP RP NN L NP CC CC L NP PR ADJP L NP ADVP NN L NP AUX VB L NP NN WH L NP WH PU L NP PU PR L NP PR PU L NP PU IN L NP CC PR L S ADJP ADVP L S ADJP NP L S ADJP RB L S ADJP VB L S IN CC L S IN PR L S IN S L S IN SBAR L S NP LRB L S NP ADVP L S SBAR ADJP L S SBAR NP L S VP LRB L S VP RRB L S VP ADJP L S VP ADVP L S VP CC L S VP MD L S VP NP L S VP PR L S VP RB L S VP SBAR L S VP SBARQ L S VP VB L S VP WH
L S VP X L S NN VB L S NP VB L S WH AR L S AR VB L S NN VP L S ADVP PU L S CC NN L S NP AUX L S NP VP L S NP ADJP L S NN ADJP L S ADVP VB L S ADVP ADVP L S ADJP NN L S NN ADVP L S SBAR CC L S SBAR WH L S WH ADVP L S ADJP VP L S SBAR SBAR L S SBAR PU L S VB PU L S WH SBARQ L S SBARQ PU L S PR SBARQ L S PU ADVP L S PU VB L S VP NN L S NN PU L S PU VP L S PU CC L S VB ADVP L S NP PU L S ADVP NN L S PU PR L S VP PU L S ADJP PU L S PU NP L S PU NN L S VP JJ L S JJ PU L S VB NN L S SBAR CS L S VB NP L S NP NP L S ADVP NP L S ADVP ADJP L S CS SBAR L S PU SBAR L S NP IN L S IN NP L S VB PR L S PR NN L S JJ NP L S ADVP JJ L S CS ADVP L S ADVP SBAR L S CC SBAR
L S VB CC L S CC NP L S SBAR PR L S PR SBAR L S CC PU L S VB WH L S WH NP L S ADVP CC L SBAR ADJP NP L SBAR IN LRB L SBAR IN ADVP L SBAR IN CC L SBAR IN NP L SBAR IN RB L SBAR SBAR ADVP L SBAR SBAR RB L SBAR WH ADVP L SBAR WH CC L SBAR WH IN L SBAR WH RB L SBAR WH LRB L SBAR NP VB L SBAR NN VP L SBAR NN VB L SBAR PR ADVP L SBAR VB NN L SBAR VB NP L SBAR VB ADJP L SBAR NP ADVP L SBAR IN WH L SBAR WH SBARQ L SBAR NP VP L SBAR VP ADVP L SBAR VB ADVP L SBAR VP ADJP L SBAR IN ADJP L SBAR NP ADJP L SBAR NN NP L SBAR PR VB L SBAR NN ADJP L SBAR ADJP VP L SBAR NP JJ L SBAR CS NN L SBAR CS ADJP L SBAR VP NP L SBAR ADVP VB L SBAR VB RB L SBAR RB NP L SBAR ADVP NP L SBARQ ADVP NN L SBARQ NP VB L SBARQ VB CC L SBARQ CC NN L SBARQ AR NP L SBARQ NN VB L VP ADJP ADVP L VP ADJP NN L VP ADJP NP
L VP ADJP RB L VP MD LRB L VP MD ADVP L VP MD PR L VP NN ADVP L VP NP ADVP L VP NP CC L VP NP IN L VP NP JJ L VP NP NN L VP NP PR L VP NP RB L VP NP SYM L VP VB LRB L VP VB ADVP L VP VB CC L VP VB NN L VP VB PR L VP VB RB L VP VB VB L VP VP ADVP L VP VP CC L VP VP NN L VP VP NP L VP VP RB L VP VP SBAR L VP VP X L VP VB JJ L VP AUX JJ L VP VB ADJP L VP AUX VB L VP NN JJ L VP AUX NN L VP RB VB L VP JJ PU L VP RB FW L VP RB JJ L VP CD VB L VP JJ AUX L VP JJ VB L VP RB AUX L VP RB NP L VP JJ CC L VP CC VB L WH CC JJ L WH CC RB R ADJP ADJP ADJP R ADJP ADJP RRB R ADJP ADJP LRB R ADJP ADJP ADVP R ADJP ADJP IN R ADJP ADJP JJ R ADJP ADJP NP R ADJP ADJP PR R ADJP ADJP RB R ADJP ADJP SBAR
L-7.6
R ADJP ADVP LRB R ADJP ADVP ADJP R ADJP ADVP ADVP R ADJP ADVP IN R ADJP ADVP JJ R ADJP ADVP NP R ADJP ADVP PR R ADJP ADVP RB R ADJP ADVP SBAR R ADJP ADVP VB R ADJP CD CD R ADJP CD JJ R ADJP FW FW R ADJP IN NN R ADJP JJ ADVP R ADJP JJ CD R ADJP JJ IN R ADJP JJ JJ R ADJP JJ NN R ADJP JJ NP R ADJP JJ PR R ADJP JJ RB R ADJP JJ SBAR R ADJP JJ VB R ADJP NN CD R ADJP NN FW R ADJP NN JJ R ADJP NN NN R ADJP NN NP R ADJP NN PR R ADJP NN RB R ADJP NN SBAR R ADJP NN VB R ADJP NP RRB R ADJP NP ADJP R ADJP NP NP R ADJP NP RB R ADJP NP SBAR R ADJP RB IN R ADJP RB RB R ADJP RB VB R ADJP VB CD R ADJP VB VB R ADJP VB IN R ADJP VB JJ R ADJP VB RB R ADJP VB PR R ADJP VB RP R ADJP VB SBAR R ADJP CC ADJP R ADJP CC VB R ADVP ADJP ADVP R ADVP ADVP IN R ADVP ADVP JJ R ADVP ADVP NP
R ADVP ADVP PR R ADVP ADVP RB R ADVP ADVP SBAR R ADVP CC CC R ADVP CD CD R ADVP CD JJ R ADVP CD NN R ADVP FW NP R ADVP IN ADJP R ADVP IN IN R ADVP IN JJ R ADVP IN NN R ADVP IN NP R ADVP JJ IN R ADVP JJ JJ R ADVP JJ NN R ADVP JJ NP R ADVP JJ RB R ADVP JJ RP R ADVP NN NN R ADVP NN SBAR R ADVP NN VB R ADVP NP ADVP R ADVP NP RP R ADVP RB LRB R ADVP RB RRB R ADVP RB ADJP R ADVP RB ADVP R ADVP RB IN R ADVP RB JJ R ADVP RB NN R ADVP RB NP R ADVP RB PR R ADVP RB RB R ADVP RB RP R ADVP RB SBAR R ADVP RB VB R ADVP RB VP R ADVP RP RP R ADVP VB NN R ADVP VB JJ R ADVP VB NP R ADVP VP NN R ADVP NN ADVP R ADVP CC IN R ADVP VB IN R ADVP NN ADJP R ADVP CC RB R ADVP NN PR R ADVP NP JJ R ADVP NN JJ R ADVP VP ADVP R ADVP VB ADVP R ADVP VB ADJP R ADVP PR NN R ADVP CC NN R ADVP ADVP ADVP
R ADVP CC VP R ADVP VP NP R ADVP JJ ADVP R ADVP ADJP NN R ADVP VP IN R ADVP ADJP NP R ADVP VB PR R ADVP PR ADVP R NP ADVP ADVP R NP NN PR R NP NN RB R NP NN SBAR R NP NN NP R NP NN RRB R NP NN LRB R NP NP LRB R NP NP RRB R NP NP ADJP R NP NP ADVP R NP NP CC R NP NP FW R NP NP IN R NP NP JJ R NP NP NP R NP NP PR R NP NP RB R NP NP SBAR R NP NP SBARQ R NP NP VP R NP NP X R NP SBAR NP R NP VB NN R NP NN PU R NP NN ADVP R NP NN JJ R NP JJ ADVP R NP CC NN R NP NN NN R NP CC ADVP R NP CC NP R NP VP ADVP R NP NN CD R NP CD NN R NP VB NP R NP VB RB R NP RB NP R S ADJP ADVP R S ADJP NP R S IN ADVP R S IN NP R S IN PR R S IN SBAR R S IN VP R S NP RRB R S NP ADVP R S NP NP R S NP PR R S NP X R S VP RRB
R S VP ADVP R S VP NP R S VP PR R S VP RB R S VP SBAR R S VP SBARQ R S VP VP R S VP X R S VB PU R S VB ADVP R S ADVP PU R S VB NN R S NN PU R S NN VB R S AUX NN R S NN ADJP R S NN ADVP R S VP PU R S VP NN R S VP JJ R S JJ PU R S ADVP ADVP R S VB VB R S CC SBAR R S SBAR PU R S WH ADVP R S NN RB R S RB PU R S VB JJ R S VP VB R S VB PR R S PR PU R S VB NP R S NP PU R S PU ADVP R S PR VB R S NP ADJP R S ADJP PU R S CS SBAR R S NN CC R S CC NN R S NP VB R SBAR IN ADJP R SBAR IN RRB R SBAR IN IN R SBAR IN NN R SBAR IN NP R SBAR IN PR R SBAR IN RB R SBAR IN SBAR R SBAR IN X R SBAR SBAR ADVP R SBAR SBAR PR R SBAR SBAR RB R SBAR SBAR SBAR R SBAR WH PR R SBAR WH RRB
L-7.7
R SBAR WH ADVP R SBAR WH IN R SBAR WH NP R SBAR WH VP R SBAR VB NP R SBAR NP ADVP R SBAR VB NN R SBAR NN ADJP R SBAR VP NP R SBAR VB ADVP R SBAR VB RB R SBAR RB NP R SBARQ NN ADVP R SBARQ SBARQ VP R SBARQ WH ADVP R SBARQ VB ADVP R SBARQ VB NN R SBARQ SBARQ SBARQ R SBARQ VB NP R VP ADJP SBAR R VP ADVP ADVP R VP ADVP JJ R VP ADVP PR R VP ADVP RB R VP ADVP SBAR R VP JJ ADVP R VP JJ PR R VP JJ SBAR R VP JJ VB R VP MD RRB R VP MD ADVP R VP MD MD R VP MD NP R VP MD PR R VP MD RB R VP MD SBAR R VP MD VP R VP MD X R VP NN ADVP R VP NN NN R VP NN NP R VP NN PR R VP NN SBAR R VP NP ADVP R VP NP NP R VP NP PR R VP NP SBAR R VP RB ADVP R VP RB SBAR R VP VB LRB R VP VB RRB R VP VB ADJP R VP VB ADVP R VP VB IN R VP VB NN R VP VB NP R VP VB PR
R VP VB RB R VP VB SBAR R VP VB SBARQ R VP VB VB R VP VB VP R VP VB X R VP VP LRB R VP VP RRB R VP VP ADJP R VP VP ADVP R VP VP IN R VP VP NP R VP VP PR R VP VP RB R VP VP SBAR R VP VP VP R VP CC VB R WH ADJP NN R WH CC RB R WH CC JJ R WH NN NN R WH NP NP R WH NP PR R WH RB JJ R WH RB RB R WH WH JJ R WH WH NN R WH WH ADJP R WH WH ADVP R WH WH NP R WH WH PR R WH WH VP R WH IN NP R WH IN SBAR R WH IN WH R X ADVP NP R X ADVP SBAR R X ADVP X R X CC NP R X CC S R X CC SBAR R X CC VP R X FW FW R X FW NN R X FW NP R X IN NP R X JJ IN R X JJ JJ R X JJ NN R X NP NP R X NP SBAR R X NP VP R X S NP R X SBAR NP R X SBAR X R X X ADJP R X X NP R X X VP R X X X
U ADJP ADJP U ADJP ADVP U ADJP CD U ADJP FW U ADJP IN U ADJP JJ U ADJP NN U ADJP NP U ADJP PR U ADJP RB U ADJP RP U ADJP SBAR U ADJP VB U ADJP CC U ADVP ADJP U ADVP ADVP U ADVP CC U ADVP CD U ADVP FW U ADVP IN U ADVP JJ U ADVP NN U ADVP NP U ADVP PR U ADVP RB U ADVP RP U ADVP UH U ADVP VB U ADVP AUX U ADVP VP U NP JJ U NP NN U NP NP U NP SBAR U NP PR U NP RP U NP RB U PR ADJP U PR LRB U PR ADVP U PR CC U PR IN U PR NN U PR NP U PR PR U PR RB U PR SBAR U PR VP U S ADJP U S ADVP U S IN U S NP U S PR U S SBAR U S VP U SBAR IN U SBAR RB U SBAR SBAR U SBAR SBARQ
U SBAR WH U SBAR NP U SBAR VP U SBARQ NP U SBARQ WH U SBARQ SBARQ U VP ADJP U VP ADVP U VP IN U VP JJ U VP MD U VP NN U VP NP U VP PR U VP RB U VP SBAR U VP VB U VP VP U VP AUX U WH ADJP U WH JJ U WH RB U WH IN U WH NN U WH CC U WH CD U X ADVP U X CC U X FW U X IN U X JJ U X MD U X NN U X NP U X RB U X SBAR U X SBARQ U X SYM U X VB U X VP U X X X ADJP ADJP 00000 X ADJP ADVP 00000 X ADJP CD 00000 X ADJP FW 00000 X ADJP IN 00000 X ADJP JJ 00000 X ADJP NN 00000 X ADJP NP 00000 X ADJP PR 00000 X ADJP RB 00000 X ADJP RP 00000 X ADJP SBAR 00000 X ADJP VB 00000 X ADJP CC 00000 X ADVP ADJP
L-7.8
00000 X ADVP ADVP 00000 X ADVP CC 00000 X ADVP CD 00000 X ADVP FW 00000 X ADVP IN 00000 X ADVP JJ 00000 X ADVP NN 00000 X ADVP NP 00000 X ADVP PR 00000 X ADVP RB 00000 X ADVP RP 00000 X ADVP UH 00000 X ADVP VB 00000 X ADVP AUX 00000 X ADVP VP 00000 X NP ADJP 00000 X NP NN 00000 X NP NP 00000 X NP SBAR 00000 X NP RRB 00000 X NP JJ 00000 X NP ADVP 00000 X NP CC 00000 X NP CD 00000 X NP FW 00000 X NP IN 00000 X NP MD 00000 X NP PR 00000 X NP RB 00000 X NP SYM 00000 X NP UH 00000 X NP VB 00000 X NP WH 00000 X NP X 00000 X NP RP 00000 X PR ADJP 00000 X PR LRB 00000 X PR ADVP 00000 X PR CC 00000 X PR IN 00000 X PR NN 00000 X PR NP 00000 X PR PR 00000 X PR SBAR 00000 X PR VP 00000 X PR JJ 00000 X PR RB 00000 X PR RP 00000 X PR VB 00000 X S ADJP 00000 X S ADVP 00000 X S IN 00000 X S NP 00000 X S PR 00000 X S SBAR 00000 X S VP 00000
X SBAR IN 00000 X SBAR RB 00000 X SBAR SBAR 00000 X SBAR SBARQ 00000 X SBAR WH 00000 X SBAR NP 00000 X SBAR VP 00000 X SBARQ NP 00000 X SBARQ SBARQ 00000 X VP ADJP 00000 X VP ADVP 00000 X VP IN 00000 X VP JJ 00000 X VP MD 00000 X VP NN 00000 X VP NP 00000 X VP PR 00000 X VP RB 00000 X VP SBAR 00000 X VP VB 00000 X VP VP 00000 X VP AUX 00000 X WH ADJP 00000 X WH JJ 00000 X WH RB 00000 X WH IN 00000 X WH NN 00000 X WH CC 00000 X WH CD 00000 X WH NP 00000 X WH VB 00000 X WH WH 00000 X X ADVP 00000 X X CC 00000 X X FW 00000 X X IN 00000 X X JJ 00000 X X MD 00000 X X NN 00000 X X NP 00000 X X RB 00000 X X SBAR 00000 X X SBARQ 00000 X X SYM 00000 X X VB 00000 X X VP 00000 X X X 00000 Y ADJP ADJP 00000 Y ADJP ADVP 00000 Y ADJP CD 00000 Y ADJP FW 00000 Y ADJP IN 00000 Y ADJP JJ 00000
Y ADJP NN 00000 Y ADJP NP 00000 Y ADJP PR 00000 Y ADJP RB 00000 Y ADJP RP 00000 Y ADJP SBAR 00000 Y ADJP VB 00000 Y ADJP CC 00000 Y ADVP ADJP 00000 Y ADVP ADVP 00000 Y ADVP CC 00000 Y ADVP CD 00000 Y ADVP FW 00000 Y ADVP IN 00000 Y ADVP JJ 00000 Y ADVP NN 00000 Y ADVP NP 00000 Y ADVP PR 00000 Y ADVP RB 00000 Y ADVP RP 00000 Y ADVP UH 00000 Y ADVP VB 00000 Y ADVP AUX 00000 Y ADVP VP 00000 Y NP ADJP 00000 Y NP NN 00000 Y NP NP 00000 Y NP SBAR 00000 Y NP RRB 00000 Y NP JJ 00000 Y NP ADVP 00000 Y NP CC 00000 Y NP CD 00000 Y NP FW 00000 Y NP IN 00000 Y NP MD 00000 Y NP PR 00000 Y NP RB 00000 Y NP RP 00000 Y NP SYM 00000 Y NP UH 00000 Y NP VB 00000 Y NP WH 00000 Y NP X 00000 Y PR ADJP 00000 Y PR LRB 00000 Y PR ADVP 00000 Y PR CC 00000 Y PR IN 00000 Y PR NN 00000 Y PR NP 00000 Y PR PR 00000 Y PR RB 00000 Y PR SBAR 00000 Y PR VP 00000
Y PR JJ 00000 Y PR RP 00000 Y PR VB 00000 Y S ADJP 00000 Y S ADVP 00000 Y S IN 00000 Y S NP 00000 Y S PR 00000 Y S SBAR 00000 Y S VP 00000 Y SBAR IN 00000 Y SBAR RB 00000 Y SBAR SBAR 00000 Y SBAR SBARQ 00000 Y SBAR WH 00000 Y SBAR NP 00000 Y SBAR VP 00000 Y SBARQ NP 00000 Y SBARQ WH 00000 Y SBARQ SBARQ 00000 Y VP ADJP 00000 Y VP ADVP 00000 Y VP IN 00000 Y VP JJ 00000 Y VP MD 00000 Y VP NN 00000 Y VP NP 00000 Y VP PR 00000 Y VP RB 00000 Y VP SBAR 00000 Y VP VB 00000 Y VP VP 00000 Y VP AUX 00000 Y WH ADJP 00000 Y WH JJ 00000 Y WH RB 00000 Y WH IN 00000 Y WH NN 00000 Y WH CC 00000 Y WH CD 00000 Y WH VB 00000 Y WH WH 00000 Y X ADVP 00000 Y X CC 00000 Y X FW 00000 Y X IN 00000 Y X JJ 00000 Y X MD 00000 Y X NN 00000 Y X NP 00000 Y X RB 00000 Y X SBAR 00000 Y X SBARQ 00000 Y X SYM 00000
L-7.9
Y X VB 00000 Y X VP 00000 Y X X 00000
L-8.1
Lampiran 8 Kalimat dalam File Korpus
Berikut adalah kalimat-kalimat yang ada pada file korpus untuk kelompok pengujian pertama: 4 Kamu PR makan VB nasi NN . PU 4 Adik NN naik VB sepeda NN . PU 4 Kakak NN bermain VB gasing NN . PU 4 Ibu NN menyiram VB bunga NN . PU 4 Sapi NN makan VB rumput NN . PU 5 Aku NN mandi VB air NN hangat JJ . PU 4 Adik NN tidur VB kasur NN . PU Berikut adalah kalimat-kalimat yang ada pada file korpus untuk kelompok pengujian kedua: 21 Benar JJ , PU Malin NN Kundang NN berisi VB cerita NN tentang CC anak NN yang AR durhaka JJ kepada IN ibunya NN sehingga CS ia PR dikutuk VB oleh IN Tuhan NN dan CC menjadi VB batu NN . PU 18 Tema NN cerita NN Malin NN Kundang NN dari IN Sumatra NN Barat NN ini PR ternyata VB juga JJ bisa AUX ditemui VB di IN daerah NN lain JJ di IN Indonesia NN . PU 8 Apakah WH daerahmu NN juga JJ ada VB cerita NN semacam VB ini PR ? PU 9 Kalau CS ada VB , PU tulislah VB dengan IN singkat JJ cerita NN itu PR ! PU 12 Setelah RB kamu PR dengarkan VB dongeng NN tadi RB , PU buatlah VB pertanyaan-pertanyaan NN tentang CC isi NN dongeng NN . PU 19 Pertanyaan NN yang AR kamu PR buat IN dapat AUX dimulai VB dengan IN kata-kata NN seperti IN di IN bawah NN ini PR , PU atau CC kamu PR kembangkan VB pertanyaan NN sendiri RB . PU 15 Sekarang RB , PU bentuklah VB kelompok NN diskusi NN yang AR masing-masing RB anggotanya JJ terdiri VB atas NN empat CD atau CC lima CD orang NN . PU 8 Diskusikan VB jawaban NN pertanyaan-pertanyaan NN yang AR telah RB kalian NN buat IN . PU 17 Ketika CS kita PR mendengarkan VB dongeng NN , PU kita PR dapat AUX mengemukakan VB hal-hal JJ menarik VB yang AR ada VB di IN dalam JJ dongeng NN itu PR . PU 16 Dari IN pelatihan NN di IN atas NN , PU kalian NN makin RB paham NN tentang CC dongeng NN Asal NN Mula NN Pulau NN Si AR Kantan NN . PU 12 Sekarang RB , PU diskusikan VB dengan IN teman-temanmu NN tentang CC hal-hal JJ menarik VB dalam JJ dongeng NN tersebut PR ! PU 7 Berikan VB alasanmu JJ mengapa PR hal NN itu PR menarik VB ! PU 6 Hasilnya NN tempelkan NN di IN papan NN tulis VB . PU 7 Pengalaman NN menarik VB itu PR sulit JJ untuk IN dilupakan VB . PU 10 Pengalaman NN berkesan VB tidak RB harus AUX pengalaman NN yang AR kamu PR alami JJ sendiri RB . PU
L-9.1
Lampiran 9 Hasil Generasi Events
Berikut adalah sebagian hasil file events yang dibangkitkan dari pemrosesan awal
(preprocessing) dari tesis ini: ................................. 6 7 Kenapa WH kamu PR berpikir VB John NN akan IN pergi VB . PU 3 Kenapa WH S PR 00000 00000 2 #STOP# #STOP# Kenapa WH #STOP# S PR 000000 110 0 0 2 berpikir VB Kenapa WH SBARQ S PR 000000 010 0 0 2 . PU Kenapa WH PU S PR 000000 000 0 0 2 #STOP# #STOP# Kenapa WH #STOP# S PR 000000 000 0 0 3 berpikir VB SBARQ VB 00000 00000 2 kamu PR berpikir VB NP SBARQ VB 000000 110 0 0 2 #STOP# #STOP# berpikir VB #STOP# SBARQ VB 000000 100 0 0 2 John NN berpikir VB NN SBARQ VB 000000 010 0 0 2 pergi VB berpikir VB ADVP SBARQ VB 000000 000 0 0 2 #STOP# #STOP# berpikir VB #STOP# SBARQ VB 000000 000 0 0 3 kamu PR NP PR 00000 00000 2 #STOP# #STOP# kamu PR #STOP# NP PR 000000 110 0 0 2 #STOP# #STOP# kamu PR #STOP# NP PR 000000 010 0 0 3 pergi VB ADVP VB 00000 00000 2 akan IN pergi VB AUX ADVP VB 000000 110 0 0 2 #STOP# #STOP# pergi VB #STOP# ADVP VB 000000 100 0 0 2 #STOP# #STOP# pergi VB #STOP# ADVP VB 000000 010 0 0 6 17 Kamu PR tentu JJ sering RB , PU bahkan RB mungkin JJ setiap AR hari NN , PU mendengarkan VB berita NN di IN televisi NN atau CC di IN radio NN . PU 3 mendengarkan VB S VB 00000 00000 2 , PU mendengarkan VB PU S VB 000000 110 0 0 2 bahkan RB mendengarkan VB ADVP S VB 000000 100 0 0 2 , PU mendengarkan VB PU S VB 000000 100 0 0 2 tentu JJ mendengarkan VB ADVP S VB 000000 100 0 0 2 Kamu PR mendengarkan VB NP S VB 000000 100 0 0 2 #STOP# #STOP# mendengarkan VB #STOP# S VB 000000 100 0 0 2 berita NN mendengarkan VB NN S VB 000000 010 0 0 2 atau CC mendengarkan VB ADVP S VB 000000 000 0 0 2 . PU mendengarkan VB PU S VB 000000 000 0 0 2 #STOP# #STOP# mendengarkan VB #STOP# S VB 000000 000 0 0 3 Kamu PR NP PR 00000 00000 2 #STOP# #STOP# Kamu PR #STOP# NP PR 000000 110 0 0 2 #STOP# #STOP# Kamu PR #STOP# NP PR 000000 010 0 0 3 tentu JJ ADVP JJ 00000 00000 2 #STOP# #STOP# tentu JJ #STOP# ADVP JJ 000000 110 0 0 2 sering RB tentu JJ RB ADVP JJ 000000 010 0 0 2 #STOP# #STOP# tentu JJ #STOP# ADVP JJ 000000 000 0 0 3 bahkan RB ADVP RB 00000 00000 2 #STOP# #STOP# bahkan RB #STOP# ADVP RB 000000 110 0 0 2 mungkin JJ bahkan RB JJ ADVP RB 000000 010 0 0 2 setiap AR bahkan RB AR ADVP RB 000000 000 0 0 2 hari NN bahkan RB NN ADVP RB 000000 000 0 0 2 #STOP# #STOP# bahkan RB #STOP# ADVP RB 000000 000 0 0 .................................
L-10.1
Lampiran 10 Contoh File Treebank Berbahasa Indonesia
Berikut adalah file treebank berbahasa Indonesia yang dibuat secara manual dan
digunakan pada tesis ini untuk pengujian kelompok pertama: (S(NN Yohanes)(>VB tidur)(PU .)) (S(NN Tina)(>VB tidur)(PU .)) (S(NN Nana)(>VB tidur)(PU .)) (S(NN Adik)(>VB tidur)(PU .)) (S(NN Kakak)(>VB tidur)(PU .)) (S(NN Ayah)(>VB tidur)(PU .)) (S(NN Tante)(>VB tidur)(PU .)) (S(NN Paman)(>VB tidur)(PU .)) (S(NN Ayah)(>VB tidur)(PU .)) (S(NN Yohanes)(>VB memukul)(NN Bill)(PU .)) (S(NN Yohanes)(>VB memukul)(PU .)) (S(NN Maria)(>VB menyukai)(ADVP(AR setiap)(NN orang))(PU .)) (S(NP(PR Seseorang))(>VB menyukai)(ADVP(AR setiap)(NN orang))(PU .)) (S(WH Siapakah)(AR yang)(>VB disukai)(NN Mary)(PU ?)) (S(WH Siapakah)(AR yang)(>VB diketahui)(NN John)(VB disukainya)(PU ?)) (S(NP(PR Saya))(>VP(>VB percaya)(ADJP(RB secara)(JJ tulus)))(PU .)) (S(NP(PR saya))(ADJP(RB secara)(>JJ tulus))(>VB mempercayai)(NN John)(PU .)) (S(NP(PR saya))(>VB ingin)(NN hujan)(PU .)) (S(NP(PR saya))(>VP(VB ingin)(>VB menjadi))(JJ pandai)(PU .)) (S(NN John)(>VB berusaha)(JJ menang)(NN balapan)(PU .)) (S(NN John)(>VB ditangkap)(PU .)) (S(NP(PR mereka))(>VB ditangkap)(PU .)) (S(NP(PR mereka))(>VB menangkap)(NN John)(PU .)) (S(NN John)(>VB ditahan)(NN polisi)(PU .)) (S(NP(PR itu))(>VP(RB adalah))(NN hujan)(PU .)) (S(ADJP(JJ sepertinya))(>VP(IN akan)(NN hujan))(PU .)) (S(NN John)(>VB menyukainya)(PU .)) (S(NN John)(>VB menyukai)(NN dirinya)(RB sendiri)(PU .)) (S(NP(NN Foto)(NN John))(>VB terlihat)(JJ manis)(PU .)) (S(NP(NN Ibunya)(NN John))(>VB menyukainya)(PU .)) (S(NN John)(>VB menyukai)(NN fotonya)(PU .)) (S(NN John)(>VB melihat-lihat)(NN fotonya)(PU .)) (S(NP(PR mereka))(>VB membaca)(NN bukunya)(PU .)) (S(NP(PR Dia))(>VB menyukainya)(PU .)) (S(>VB makan)(PU !)) (S(NP(PR Saya))(>VP(RB ingin))(JJ menang)(PU .)) (S(>VB Pergi)(PU .)) (S(WH Siapakah)(ADVP(AR yang)(>VB ditahan))(PU .)) (S(NN John)(>VP(JJ kelihatan)(JJ gila)(PU .)) (S(NP(NN Guru)(PR itu))(>VP(>VB mengundurkan)(RB diri))(PU .)) (S(NN John)(>VB disewa)(PU .)) (S(NP(NN Orang)(PR itu))(>VB terbunuh)(PU .))
L-10.2
Berikut adalah file treebank berbahasa Indonesia yang dibuat secara manual dan
digunakan pada tesis ini untuk pengujian kelompok kedua: (S(NN Yohanes)(>VB tidur)(PU .)) (S(NN Yohanes)(>VB memukul)(NN Bill)(PU .)) (S(NN Yohanes)(>VB memukul)(PU .)) (S(NN Maria)(>VB menyukai)(ADVP(AR setiap)(NN orang))(PU .)) (S(NP(PR Seseorang))(>VB menyukai)(ADVP(AR setiap)(NN orang))(PU .)) (S(WH Siapakah)(AR yang)(>VB disukai)(NN Mary)(PU ?)) (S(WH Siapakah)(AR yang)(>VB diketahui)(NN John)(VB disukainya)(PU ?)) (S(NP(PR Ia))(>VB menyukai)(ADVP(AR setiap)(NP(NN orang)(ADVP(AR yang)(>VB disukai)(NN John))))(PU .)) (S(NN Yohanes)(VP(JJ suka)(>VB berada))(ADVP(IN di)(RB sini))(PU .)) (S(AR sepertinya)(NN John)(>VP(JJ suka)(>VB berada))(ADVP(IN di)(RB sini))(PU .)) (S(NP(PR saya))(>VB ingin)(NN John)(ADJP(JJ ada))(ADVP(IN di)(RB sini))(PU .)) (S(NP(PR Saya))(>VB ingin)(NN John)(ADVP(JJ ada)(ADVP(IN di)(RB sini)))(PU .)) (S(NP(PR saya))(>VP(VB ingin)(>VB berada))(ADVP(IN di)(RB sini))(PU .)) (S(NP(PR saya))(>VB percaya)(NN John)(ADVP(IN akan)(IN ke)(RB sini))(PU .)) (S(NP(PR Saya))(>VP(>VB percaya)(ADJP(RB secara)(JJ tulus)))(PU .)) (S(NP(PR saya))(ADJP(RB secara)(>JJ tulus))(>VB mempercayai)(NN John)(PU .)) (S(NP(PR saya))(>VB ingin)(NN John)(ADVP(>VB pergi))(PU .)) (S(NP(PR saya))(>VB membujuk)(NN John)(ADVP(IN untuk)(>VB pergi))(PU .)) (S(NP(PR saya))(>VB ingin)(NN hujan)(PU .)) (S(NP(PR saya))(>VB ingin)(NN busnya)(ADVP(VB datang)(ADJP(JJ tepat)(NN waktu)))(PU .)) (S(NP(PR saya))(>VB membujuk)(NN John)(ADVP(IN bahwa)(NN dia)(ADVP(JJ harus)(>VB pergi)))(PU .)) (S(NP(PR saya))(>VB mencoba)(ADVP(IN untuk)(>VB pergi))(PU .)) (S(NP(PR saya))(>VP(VB ingin)(>VB menjadi))(JJ pandai)(PU .)) (S(NP(PR saya))(>VP(JJ percaya))(ADVP(IN akan)(>VB menjadi)(JJ pandai))(PU .)) (S(NN John)(>VB dipaksa)(ADVP(IN untuk)(>VB pergi))(PU .)) (S(NN Yohanes)(>VB dipercaya)(ADVP(IN untuk)(>VB menjadi)(JJ pandai))(PU .)) (S(NN John)(>VB diinginkan)(ADVP(IN untuk)(>VB pergi))(PU .)) (S(NN John)(ADJP(JJ lebih)(JJ suka))(>VB parkir)(ADVP(IN di)(RB sini))(PU .)) (S(NN John)(>VB parkir)(ADVP(IN di)(RB sini))(ADVP(RB secara)(JJ ilegal))(PU .)) (S(ADJP(RB sangat)(JJ baik))(ADVP(IN untuk)(NN John))(>VB parkir)(ADVP(IN di)(RB sini))(PU .)) (S(ADVP(RB tidak)(JJ sah))(ADVP(RB bagi)(NN John))(>VB parkir)(ADVP(IN di)(RB sini))(PU .)) (S(NN John)(>VB dipercaya)(ADVP(IN akan)(>VB berada))(ADVP(IN di)(RB sini))(PU .)) (S(NP(PR saya))(>VB ingin)(NN John)(ADVP(>VB berada))(ADVP(IN di)(RB sini))(PU .))
L-10.3
(S(NN John)(>VB diinginkan)(ADVP(IN untuk)(>VB berada))(ADVP(IN di)(RB sini))(PU .)) (S(NN John)(>VB berusaha)(JJ menang)(NN balapan)(PU .)) (S(ADJP(JJ sepertinya))(NN John)(>VP(ADVP(IN akan)(JJ menang)))(PU .)) (S(NN John)(ADVP(AR telah))(>VB beristirahat)(PU .)) (S(NN John)(>VB ditangkap)(PU .)) (S(NP(PR mereka))(>VB ditangkap)(PU .)) (S(NP(PR mereka))(>VB menangkap)(NN John)(PU .)) (S(NN John)(>VB ditahan)(NN polisi)(PU .)) (S(SBAR(NP(PR Saya))(>VB percaya))(>CC bahwa)(SBAR(NN John)(>VP(NN orang)(ADVP(AR yang)(JJ cerdas))))(PU .)) (S(NP(PR Saya))(>VB percaya)(NN John)(ADVP(IN akan)(>VB menjadi)(NP(>NN orang)(JJ cerdas)))(PU .)) (S(NN John)(>VB percaya)(NN dirinya)(ADVP(IN akan)(>VB menjadi)(NP(NN orang)(ADVP(AR yang)(JJ cerdas))))(PU .)) (S(ADVP(NN orang-orang)(>VP(JJ percaya))(NN John)(ADVP(IN akan)(>VB menjadi)(NP(NN orang)(ADVP(AR yang)(JJ cerdas)))))(PU .)) (S(ADVP(IN bahwa)(SBAR(NN John)(>VP(NN orang)(JJ pandai))))(>VB dipercayai)(ADVP(IN oleh)(RB banyak)(NN orang))(PU .)) (S(NP(PR Saya))(>VP(JJ bangga))(ADVP(IN terhadap)(NN John))(PU .)) (S(NP(PR Saya))(>VP(JJ senang))(NN John)(ADVP(>VB berada)(ADVP(IN di)(RB sini)))(PU .)) (S(SBAR(NP(PR Saya))(>VB bertanya-tanya))(>WH siapakah)(ADVP(AR yang)(ADVP(IN akan)(NP(PR kau))(>VB temui)))(PU .)) (S(SBAR(NN Bill)(>VB bertanya-tanya))(WH siapakah)(ADVP(AR yang)(>VB melihat)(NN Mary))(PU .)) (S(WH Siapakah)(ADVP(AR yang)(NP(PR kau))(>VB lihat))(ADVP(AR yang)(>VB dipercaya)(NN Bill))(ADVP(RB telah)(>VB melihat)(NN Mary))(PU .)) (S(NN Masalah)(ADVP(AR yang)(RB mana))(ADVP(AR yang)(AR akan))(>VB diselesaikan)(NN Bill)(PU .)) (S(NP(PR itu))(>VP(RB adalah))(NN hujan)(PU .)) (S(ADJP(JJ sepertinya))(>VP(IN akan)(NN hujan))(PU .)) (S(NN John)(>VB menyukainya)(PU .)) (S(NN John)(>VB menyukai)(NN dirinya)(RB sendiri)(PU .)) (S(NN John)(>VP(JJ percaya))(ADVP(AR bahwa)(NN Mary)(>VB menyukainya))(PU .)) (S(NP(NN Foto)(NN John))(>VB terlihat)(JJ manis)(PU .)) (S(NP(NN Ibunya)(NN John))(>VB menyukainya)(PU .)) (S(NP(PR mereka))(>VP(RB saling)(>VB menyukai))(ADVP(CD satu)(JJ sama)(RB lain))(PU .)) (S(NN John)(>VB menyukai)(NN fotonya)(PU .)) (S(NN John)(>VB melihat-lihat)(NN fotonya)(PU .)) (S(NP(PR mereka))(>VB membaca)(NN bukunya)(PU .)) (S(SBAR(RB Siapa)(ADVP(AR yang)(>VB menyangka)))(SBAR(NN Mary)(>VB menyukainya))(PU .)) (S(NP(PR Dia))(>VB menyukainya)(PU .)) (S(NN John)(>VB berkata)(ADVP(IN kepada)(NN Bill))(ADVP(IN untuk)(>VB meninggalkan)(NN rumah))(PU .)) (S(NP(PR Saya))(>VP(RB ingin)(>VB berkunjung))(ADVP(IN ke)(NN rumahmu))(PU .)) (S(NP(PR Saya))(>VB berusaha)(ADVP(IN untuk)(>VB memahami)(NN permasalahannya))(PU .)) (S(ADJP(RB sangat)(JJ penting))(ADVP(IN untuk)(>VB mengetahui)(NN permasalahannya))(PU .)) (S(>VB makan)(PU !)) (S(ADJP(RB sangat)(JJ penting))(ADVP(IN untuk)(NP(PR kita))(>VB
L-10.4
makan))(PU .)) (S(NP(PR Saya))(>VP(RB ingin))(JJ menang)(PU .)) (S(>VB Pergi)(PU .)) (S(WH Siapakah)(ADVP(AR yang)(>VB ditahan))(PU .)) (S(NN John)(>VP(JJ kelihatan)(JJ gila)(PU .)) (S(NN John)(>VB ditahan)(ADVP(RB setelah)(>VB memimpin)(NN demonstrasi))(PU .)) (S(NN John)(>VP(JJ terlalu)(FW nervous))(ADVP(IN untuk)(>VB berkata))(PU .)) (S(WH Apa)(SBARQ(AR yang)(NP(PR dia))(>VB lakukan)(ADVP(IN untuk)(JJ menang)))(PU .)) (S(NP(NN Guru)(PR itu))(>VB dipecat)(ADVP(RB tanpa)(NN penjelasan))(PU .)) (S(NP(NN Guru)(PR itu))(>VP(>VB mengundurkan)(RB diri))(PU .)) (S(NN John)(>VB disewa)(PU .)) (S(NP(NN Orang)(PR itu))(>VB terbunuh)(PU .)) (S(ADJP(AR sangat)(>JJ penting))(ADVP(AR bagi)(NN John))(>VB melihat)(PR ini)(PU .)) (S(NP(PR Anda))(ADVP(AR akan))(>VB membacanya)(PU .)) (S(WH Kenapa)(SBARQ(NP(PR kamu))(>VB berpikir)(NN John)(ADVP(IN akan)(>VB pergi)))(PU .)) (S(NP(PR Kamu))(ADVP(JJ tentu)(RB sering))(PU ,)(ADVP(RB bahkan)(JJ mungkin)(AR setiap)(NN hari))(PU ,)(>VB mendengarkan) (NN berita)(ADVP(IN di)(NN televisi)(>CC atau)(IN di)(NN radio))(PU .)) (S(NP(>NN Berita-berita)(AR yang)(VB disiarkan)(NP(NN radio)(>CC atau)(NN televisi)(PR itu)))(>VB mengandung)(NP(JJ banyak)(>NN informasi)(JJ penting)(ADVP(AR yang)(AUX perlu)(NP(PR kamu))(>VB ketahui)))(PU .)) (S(NP(>NN Berita-berita)(IN seperti)(PR itu))(VP(RB sangat)(>VB berguna))(NN bagimu)(PU .)) (S(ADVP(IN Dengan)(>VB mendengarkan)(NP(JJ banyak)(>NN berita)))(PU ,)(>VP(RB makin)(JJ luas))(NP(NN wawasan)(>CC dan)(NN pengetahuanmu))(PU .)) (S(SBAR(>VB Tutuplah)(NN bukumu))(PU ,)(>CC kemudian)(SBAR(>VB dengarkan)(NP(>NN berita)(ADVP(AR yang)(AUX akan)(>VB dibacakan)(IN oleh)(NN gurumu))))(PU .)) (S(SBAR(>VB Simaklah)(ADJP(IN dengan)(JJ cermat)))(>CC dan)(SBAR(>VB tulislah)(NP(NN pokok-pokok)(>NN berita)(ADVP(IN dengan)(>VB menggunakan)(NP(>NN kolom)(JJ berikut)(PR ini)))))(PU !)) (S(ADVP(>VB Berdasarkan)(NP(NN pokok-pokok)(>NN berita)(ADVP(AR yang)(RB telah)(NP(PR kamu))(>VB temukan))))(PU ,)(>VB tuliskan)(NP(>NN simpulan)(NN isi)(NN berita)(ADVP(JJ dalam)(AR beberapa)(NN kalimat)))(PU !)) (S(NP(>NN Kata-kata)(ADVP(AR yang)(>VB memiliki)(NN makna)(ADJP(JJ sama)(IN seperti)(PR itu))))(>VB disebut)(NN sinonim)(PU .)) (S(>NN Sinonim)(VB adalah)(ADVP(NP(CD dua)(>NN kata))(>CC atau)(RB lebih)(ADVP(AR yang)(>VB memiliki)(NP(NN makna)(ADJP(JJ sama)(>CC atau)(ADJP(RB hampir)(JJ sama))))))(PU .)) (S(NP(>NN Sinonim)(CD sebuah)(NN kata))(VP(AUX dapat)(>VB ditentukan))(ADVP(IN dari)(>NP(NN konteks)(NN kalimatnya)))(PU .)) (S(NP(>NN Kata)(NN kepala)(ADVP(JJ dalam)(>NN contoh-contoh)(PR tersebut)))(>VB memiliki)(NP(NN hubungan)(>NN makna))(PU .)) (S(NP(>NN Makna)(NN dasar)(ADVP(IN dari)(CD ketiga)(>NP(>NN kata)(PR itu))(JJ sama)))(PU ,)(>VB yaitu)(NP(>PR sesuatu)(ADVP(AR yang)(>NN kedudukannya)(ADJP(>JJ berada)(IN di)(NN atas))))(PU .)) (S(NP(>NN Kata-kata)(ADJP(IN seperti)(PR itu)))(>VB disebut)(NN polisemi)(PU .))
L-10.5
(S(ADVP(IN Dengan)(>NN kata)(JJ lain))(>NN Polisemi)(VB adalah)(NP(NN bentuk)(>NN bahasa)(ADVP(PU LRB)(NP(NN kata)(>CC atau)(NN frase)(PU RRB)))(ADVP(AR yang)(>VB memiliki)(NN makna)(ADJP(>RB lebih)(IN dari)(CD satu))))(PU .)) (S(NN Polisemi)(>VB terjadi)(NP(NN akibat)(NN pergeseran)(>NN makna))(PU ,)(ADVP(CS sehingga)(>VB mempunyai)(NP(>NN hubungan)(NN antara)(NP(AR semua)(>NN makna)(NN kata)(PR itu))))(PU .)) (S(NP(NN Keterampilan)(>CC atau)(NN kepiawaian)(ADVP(NP(JJ dalam)(>VB bercerita))(>VP(AUX dapat)(>VB digunakan))(ADVP(IN sebagai)(>NN bekal)(ADVP(IN untuk)(>VB menjadi)(NP(NN seorang)(>NN presenter))))))(PU .)) (S(ADVP(CS Kalau)(SBAR(NP(PR kamu))(>VB amati)(NP(AR para)(>NN presenter))(ADVP(IN di)(>NP(NN televisi)(>CC atau)(ADVP(AR yang)(PR kita)(>VB dengarkan)(ADVP(IN di)(NN radio)))))))(PU ,)(>PR mereka)(VB adalah)(NP(>NN orang-orang)(ADVP(AR yang)(JJ terampil)(>VB bercerita)))(PU .)) (S(NP(>NN Keterampilan)(VB bercerita))(VP(AUX dapat)(>VB ditingkatkan)(ADVP(IN dengan)(>VB berlatih)(ADJP(RB sesering)(JJ mungkin))))(PU .)) (S(NP(NP(NN Penguasaan)(>CC dan)(NN penghayatan))(>NN cerita)(PR ini))(>VB mencakup)(ADVP(NN antara)(JJ lain)(NP(NN jalan)(>NN cerita))(PU ,)(NP(NN sifat-sifat)(>NN tokoh))(PU ,)(NP(NN pokok)(>NN persoalan))(PU ,)(CC dan)(NP(>NN pesan)(ADVP(AR yang)(ADJP((JJ ada)(JJ dalam)))(>NN cerita))))(PU .)) (S(NP(NN Tempat)(>CC dan)(NP(NN posisi)(ADVP(AR yang)(JJ enak))))(>VP(AUX dapat)(>VB membuat))(NP(PR kamu))(ADJP(>JJ leluasa)(VP(VB bergerak)(>CC dan)(VB berekspresi)))(PU .)) (S(ADVP(IN Dengan)(NP(NN vokal)(>CC atau)(NN suara)(ADVP(AR yang)(>VB bervariasi))))(PU ,)(ADVP(NP(>NN intonasinya)(ADVP(AR yang)(ADJP(RB tidak)(>JJ monoton)))(PU ,)(NP(NN pendengar)(>CC atau)(NN penonton))(>VP(ADJP(AUX bisa)(VB terbantu)))(ADVP(IN untuk)(VP(VB menggambarkan)(>CC dan)(VB mengimajinasikan))(NP(NP(NN karakter)(>NN tokoh)(ADVP(AR yang)(>VB mendukung)(NP(>NN cerita)(PR itu))))(>CC dan)(NP(>NN peristiwa)(ADVP(AR yang)(>VB terjadi)(ADVP(JJ dalam)(>NN cerita)(PR itu)(NN dibenaknya))))))))(PU .)) (S(ADJP(IN Selain)(PR itu))(PU ,)(NP(>NN ekspresi)(NN karakter)(NN tokoh)(ADVP(AR yang)(>VB diwujudkan)(ADVP(JJ dalam)(NN suara)(>CC dan)(NN gerak)(ADJP(RB secara)(JJ baik))(ADVP(AUX akan)(>VB membuat)(NN cerita)(ADVP(AR yang)(NP(PR kamu))(>VB bawakan)(ADJP(RB sangat)(>VB menarik)))))))(PU .)) (S(NP(>VB Bercerita)(ADVP(IN dengan)(VB hafal)(>CC atau)(VP(CD setengah)(>VB hafal))(NP(>NN cerita)(ADVP(AR yang)(NP(PR kamu))(VB bawakan)))))(VP(JJ juga)(AUX dapat)(>VB membantu))(NP(NN kelancaranmu)(>CC dan)(NN penghayatanmu))(ADJP(RB tidak)(>VB terganggu))(PU .)) (S(ADVP(IN Dengan)(JJ demikian))(PU ,)(NN penampilanmu)(VP(AUX bisa))(JJ maksimal)(PU .)) (S(ADVP(RB Setelah)(NP(PR kamu))(>VB memahami)(NP(NP(NN jalan)(>NN cerita))(>CC dan)(NP(NN karakter)(>NN tokoh)(NN dongeng)(ADVP(IN di)(NN atas)))))(PU ,)(>VP(>VB berlatihlah)(VB bercerita))(ADVP(IN dengan)(NN penghayatan)(PU ,)(NN vokal)(PU ,)(CC dan)(NN ekspresi)(ADJP(AR yang)(>JJ baik)))(PU !)) (S(ADVP(>VP(JJ Dalam)(>VB berlatih)))(PU ,)(NP(PR kamu))(>VP(AUX bisa)(>VB menggunakan))(NP(>NN alat)(NN peraga))(ADVP(IN agar)(NP(NN penampilan)(>CC dan)(NN ekspresimu))(ADJP(ADJP(RB lebih)(>JJ baik))(>CC dan)(VB menarik)))(PU !)) (S(>VB Bentuklah)(NN kelompok)(ADVP(IN dengan)(NP(NN jumlah)(>NN anggota)(CD enam)(NN orang)))(PU .))
L-10.6
(S(SBAR(>VB Tunjuklah)(NP(CD satu)(NN orang)(ADVP(IN sebagai)(>NP(>NN narator)(ADVP(AR yang)(>VP(VB bertugas)(>VB membacakan))(NP(NN narasi)(ADJP(JJ dalam)(NN cerita))))))))(PU ,)(NP(CD lima)(NN orang)(NN anggota))(>VP(VB berperan)(VB menjadi))(NP(NN tokoh)(PU /)(NN pelaku)(ADVP(ADVP(JJ dalam)(NN cerita))(NN Serigala)(>VB Berbulu)(NN Domba)))(PU .)) (S(SBAR(>VB Bawakan)(NP(NN cerita)(PR tersebut))(ADVP(IN dengan)(>VB diikuti)(NN dramatisasi)(ADVP(IN di)(NN depan)(NN kelas)(ADVP(IN dengan)(JJ penuh)(NN penghayatan)(PU ,)(NP(>NN vokal)(ADJP(AR yang)(>JJ baik)))(PU ,)(CC dan)(NP(>NN ekspresi)(ADJP(AR yang)(JJ tepat)))))))(>CS sehingga)(SBAR(NP(NN dramatisasi)(NN cerita)(ADVP(AR yang)(NN kalian)(VB bawakan)(ADJP(VB menarik)))))(PU !)) (S(>VB Mintalah)(NP(NN komentar)(VB mengenai)(NP(NN penghayatan)(PU ,)(NN vokal)(PU ,)(CC dan)(NP(NN ekspresimu)(ADVP(IN pada)(NN kelompok)(JJ lain)))))(PU !)) (S(>VB Berikan)(NP(NN penilaian)(ADVP(IN terhadap)(NP(NN penampilan)(NN kelompok)(JJ lain)(ADVP(IN dengan)(>VB menggunakan)(NP(NN pedoman)(NN penilaian)(JJ berikut)(PR ini))))))(PU !)) (S(SBAR(IN Ke)(WH manakah)(SBARQ(NP(NN tempat)(PR kita))(>VB bertanya)(ADVP(CC tentang)(NP(NN makna)(NN kata-kata)(JJ sulit)))))(PU ,)(NP(NN kata-kata)(JJ asing)(ADVP(ADJP(AR yang)(RB belum))(NP(PR kita))(JJ kenal)))(PU ,)(NP(NN kata-kata)(ADVP(ADJP(AR yang)(RB belum)(NP(PR kita))(JJ ketahui)(NN maknanya))))(PU ?)) (S(NP(RP Kamuslah))(>NP(NN tempat)(ADJP(AR yang)(RB paling)(JJ tepat)))(PU .)) (S(ADVP(JJ Dalam)(NN pembelajaran)(JJ berikut))(NP(PR kamu))(>(VP(VB diajak)(>VB menemukan))(NP(NN makna)(NN kata-kata)(JJ sulit))(ADVP(IN dengan)(>VB menggunakan)(NN kamus)(ADVP(RB secara)(JJ efektif)(CC dan)(JJ efisien))))(PU .)) (S(>VB Menemukan)(NP(NN makna)(NN kata))(ADVP(ADJP(RB secara)(JJ cepat))(PU ,)(JJ efektif)(PU ,)(CC dan)(JJ efisien))(ADJP(RB sangat)(JJ penting))(ADVP(IN untuk)(>VB dikuasai))(PU ,)(ADVP(CS sebab)(IN dengan)(RB begitu)(ADVP(NP(NN waktu)(ADVP(AR yang)(NP(PR kita))(>VB gunakan)(ADVP(IN untuk)(>VB menemukan)(NP(NN makna)(AR suatu)(NN kata)(ADVP(JJ dalam)(NN kamus)(>VB menjadi)(ADJP(RB lebih)(JJ singkat)))))))))(PU .)) (S(NP(>NN Kata-kata)(JJ tertentu))(NP(JJ ada)(>AR yang)(>VB memiliki)(NP(>NN arti)(ADJP(RB lebih)(IN dari)(CD satu))))(PU .)) (S(CS Apabila)(SBAR(NP(AR suatu)(NN kata))(>VB mempunyai)(NN arti)(ADJP(RB lebih)(IN dari)(CD satu)))(PU ,)(SBAR(NP(NN arti)(NN kata)(ADVP(AR yang)(>VB terdapat)(JJ dalam)(NP(NN kamus)(PR itu))))(>VP(AUX harus)(>VB disesuaikan)(ADVP(IN dengan)(NP(NN konteks)(NN kalimatnya)))))(PU .)) (S(>VB Siapkan)(NP(>NN Kamus)(JJ Besar)(NP(>NN Bahasa)(NN Indonesia)))(ADVP(PU LRB)(NN KBBI)(PU RRB))(PU .)) (S(>VB Bentuklah)(NP(>NN kelompok)(ADVP(AR yang)(VB terdiri)(NN atas)(CD empat)(CC atau)(CD lima)(NN orang)))(PU .)) (S(NP(AR Setiap)(NN kelompok))(ADVP(RB paling)(RB tidak))(>VB memiliki)(NP(CD satu)(NN kamus))(PU .)) (S(>VB Carilah)(NP(NN makna)(NN kata)(VB bercetak)(JJ tebal)(ADVP(JJ dalam)(NP(>NN kalimat-kalimat)(JJ berikut)(PR ini)(ADVP(IN dengan)(JJ tepat)))))(PU !)) (S(>VB Lakukan)(NP(>NN kegiatan)(PR ini))(VB melalui)(NP(NN diskusi)(NN kelompok))(PU !)) (S(ADVP(IN Agar)(ADJP(RB lebih)(VB menarik)))(PU ,)(>VB lakukan)(NP(NN kegiatan)(PR ini)(ADVP(IN dengan)(NN cara)(>VB
L-10.7
beradu)(JJ cepat)(ADVP(IN dengan)(NN kelompok)(JJ lain))))(PU .)) (S(>VB Lakukan)(NN pembahasan)(ADVP(JJ dalam)(NP(>NN diskusi)(NN kelas)(ADVP(CC tentang)(NP(NN makna)(NN kata)(ADVP(AR yang)(VP(RB telah)(VB ditemukan)))))))(PU .)) (S(>VB Berikan)(NP(NN tanda)(NN bintang)(CD lima))(ADVP(IN bagi)(NP(NP(NN kelompok)(JJ tercepat))(CC dan)(VB menjawab)(ADJP(RB paling)(JJ banyak)(ADVP(AR yang)(JJ benar)))))(PU .)) (S(ADVP(RB Setelah)(NP(PR kamu))(>VP(>VB berhasil)(VB menemukan))(NP(NN makna)(NN kata))(ADVP(IN dengan)(VB menggunakan)(NN kamus)(ADVP(IN dengan)(JJ cepat)(CC dan)(JJ tepat))))(PU ,)(VB jelaskan)(WH bagaimana)(NN langkah-langkah)(VB menemukan)(NP(NN kata)(PR tersebut))(ADVP(IN dengan)(NN cara)(VP(VB membaca)(VB memindai)))(PU !)) (S(ADVP(RB Setelah)(NP(PR kamu))(VB temukan)(NP(NN makna)(NN kata)(PR tersebut)))(PU ,)(>VB susunlah)(NP(CD lima)(NN buah)(NN paragraf)(ADVP(AR yang)(NP(RB masing-masing))(>VB menggunakan)(NP(NN kata)(NN sarana)(PU ,)(JJ formal)(PU ,)(NN perkemahan)(PU ,)(NN jambore)(PU ,)(CC dan)(JJ disiplin)(ADVP(IN dengan)(JJ tepat)))))(PU !)) (S(WH Apakah)(ADVP(AR yang)(SBARQ(NP(PR kamu))(PR ketahui)(CC tentang)(NN pantun)))(PU ?)) (S(WH Pernahkah)(SBARQ(NP(PR kamu))(>VB menulis)(NN pantun))(PU ?)) (S(JJ Tentu)(NP(PR kamu))(>VP(RB pernah)(>VB membuat))(NN pantun)(PU .)) (S(WH Dapatkah)(SBARQ(NP(PR kamu))(>VB jelaskan)(NP(NN syarat-syarat)(RB sebuah)(NN pantun)))(PU ?)) (S(ADVP(IN Untuk)(>VB menjawab)(NP(NN pertanyaan)(PR tersebut)))(JJ ikuti)(NP(NN kegiatan)(JJ berikut))(PU !)) (S(NP(NN Fungsi)(NN sampiran)(RB terutama))(>VB menyiapkan)(NN rima)(CC dan)(NN irama)(ADVP(IN untuk)(>VB mempermudah)(NN pendengar)(VB memahami)(NP(NN isi)(NN pantun)))(PU .)) (S(NP(PR Ini))(VP(AUX dapat)(>VB dipahami))(ADVP(CS karena)(NN pantun)(VB merupakan)(NP(NN sastra)(JJ lisan)))(PU .)) (S(CS Meskipun)(ADVP(IN pada)(RB umumnya))(SBAR(NN sampiran)(VP(RB tak)(VB berhubungan))(ADVP(IN dengan)(NN isi)))(PU ,)(ADVP(ADVP(VB terkadang))(NP(NN bentuk)(NN sampiran))(VB membayangkan)(NN isi))(PU .)) (S(ADVP(VB Berdasarkan)(NP(NN contoh)(NN pantun)(PR tersebut)))(>VB tuliskan)(NP(NN ciri-ciri)(CC atau)(NP(NN syarat-syarat)(NN pantun)))(ADVP(IN dengan)(VB mengisi)(NP(NN kolom)(JJ berikut)(PR ini)))(PU !)) (S(ADVP(NN Dengarkan)(NN berita)(ADVP(AR yang)(VB disiarkan)(ADVP(IN pada)(VB pukul)(CD 19.00)(IN oleh)(NP(NN RRI)(JJ Pusat)(NN Jakarta))(CC atau)(NP(NN radio)(ADVP(AR yang)(JJ ada)(ADVP(IN di)(NN daerahmu)))))))(PU !)) (S(>VB Tulislah)(NP(NN kesimpulan)(NN isi)(NN berita)(PR tersebut))(ADJP(RB paling)(JJ sedikit))(ADVP(JJ dalam)(CD lima)(NN kalimat))(PU !)) (S(ADVP(IN Pada)(NN pembelajaran)(RB terdahulu))(PU ,)(SBAR(NP(PR kamu))(>VP(RB telah)(AUX dapat)(>VB menyimpulkan))(NP(NN isi)(NN berita)(ADVP(AR yang)(>VB dibacakan)(NN gurumu))))(PU .)) (S(ADVP(IN Untuk)(>VB mengetahui)(ADJP(RB seberapa)(JJ jauh))(NN pemahamanmu)(ADVP(IN terhadap)(NP(NN isi)(RB sebuah)(NN berita))))(PU ,)(SBAR(>VB dengarkan)(NP(NN berita)(ADVP(AR yang)(>VP(AUX akan)(VB dibacakan))(NP(NN temanmu)(CC atau)(NN gurumu)))))(CC kemudian)(SBAR(>VB tuliskan)(NP(NN isi)(NN berita)(PR tersebut))(ADVP(JJ dalam)(NP(AR beberapa)(NN
L-10.8
kalimat))(ADVP(IN dengan)(>VB mengikuti)(NP(NN langkah-langkah)(JJ berikut)(PR ini)))))(PU !)) (S(VB Amati)(CC dan)(SBAR(VB cermatilah)(NP(NN berita-berita)(ADVP(AR yang)(VB disiarkan)(ADVP(IN di)(NN televisi)(PU ,)(NN radio)(PU ,)(CC atau)(ADVP(AR yang)(VB ditulis)(ADVP(IN di)(NP(NN surat)(NN kabar))))))))(PU .)) (S(NP(NN Siaran)(CC atau)(NN tulisan)(NN isi)(NN berita)(PR itu))(ADVP(IN pada)(NN garis)(JJ besarnya))(>VB merupakan)(NN jawaban)(ADVP(NN atas)(NN pertanyaan)(PU LRB)(CD 5W)(SYM +)(CD 1H)(PU RRB))( PU .)) (S(SBAR(>VB Tutuplah)(NN bukumu))(PU ,)(CC kemudian)(SBAR(>VB simaklah)(ADVP(IN dengan)(JJ saksama)(NP(>NN berita)(ADVP(AR yang)(>VP(AUX akan)(VB dibacakan))(IN oleh)(NP(NN temanmu)(CC atau)(NP(NN gurumu)(JJ berikut)(PR ini)))))))(PU .)) (S(ADVP(RB Setelah)(NP(RB seluruh)(NN informasi))(>VB dibacakan))(PU ,)(CC selanjutnya)(SBAR(NN gurumu)(VP(AUX akan)(>VB membacakan))(ADJP(RB sekali)(RB lagi))(NP(RB seluruh)(NN informasi)(PR tersebut)))(PU .)) (S(ADVP(CS Ketika)(SBAR(NP(NN kegiatan)(PR ini))(>VB berlangsung)))(PU ,)(SBAR(VB pahamilah)(NP(RB seluruh)(NN informasi))(ADJP(RB lebih)(>JJ teliti)))(PU ,)(CC kemudian)(SBAR(VB tulislah)(NP(NN isi)(NN berita))(VB berpedoman)(ADVP(IN pada)(NP(NN kata)(NN bantu)(VB tanya))(ADVP(PU LRB)(CD 5W)(SYM +)(CD 1H)(PU RRB))))( PU .)) (S(VB Tulislah)(NP(NN isi)(NN berita)(PR tersebut))(ADVP(JJ dalam)(AR beberapa)(NN kalimat))(PU !)) (S(VB Tukarkan)(NP(NN hasil)(NN kerjamu)(ADVP(IN dengan)(NP(NN hasil)(NN kerja)(NN teman)(NN sebangkumu))))(PU !)) (S(VB Cocokkanlah)(NP(NN hasil)(NN kerja)(NN temanmu)(ADVP(IN dengan)(NN informasi)(ADVP(AR yang)(VP(AUX akan)(VB diperdengarkan)(RB kembali))(IN oleh)(NN gurumu))))(PU !)) (S(>VB Fokuskan)(NN perhatianmu)(ADVP(IN pada)(NN aspek)(NN penggunaan)(NN bahasa))(PU ,)(SBAR(NN khususnya)(NP(NN aspek)(NN kebakuan)(NN penggunaan)(NN bahasa))(ADVP(PU LRB)(JJ baku)(PU /)(ADJP(RB tidak)(JJ baku))(PU RRB)))(CC dan)(NP(NN ragam)(NN bahasa)(ADVP(AR yang)(VB digunakan)(ADVP(PU LRB)(NN percakapan)(PU ,)(JJ formal)(PU ,)(JJ puitis)(PU RRB))))(PU !)) (S(CS Ketika)(SBAR(PR ia)(>VB menceritakan)(ADVP(IN sekitar)(NP(NN peristiwa)(NN tsunami))))(PU ,)(SBAR(WH apa)(SBARQ((ADVP(AR yang)(AUX dapat))(NN kalian)(VB cermati))))(PU ?)) (S(SBAR(NN Kalian)(ADJP(JJ tentu)(JJ juga))(VP(AUX dapat)(VB menyaksikan)))(WH bagaimana)(SBAR(NP(AR seorang)(NN dalang))(>VB memainkan)(NN wayang))(PU .)) (S(ADVP(IN Pada)(NN dasarnya))(NN dalang)(VB adalah)(NP(NP(NN tukang)(NN cerita))(CC atau)(NP(NN pencerita)(ADVP(AR yang)(NP(AR setiap)(NN penampilannya))(>VP(RB selalu)(>VB menggunakan))(NP(NN alat)(NN peraga)(ADVP(VB berupa)(NN wayang))))))(PU .)) (S(VB Pilihlah)(NP(JJ salah)(CD satu)(NN peristiwa)(ADVP(AR yang)(RB pernah)(SBAR(NP(PR kamu))(JJ alami))(CC atau)(SBAR(NP(PR kamu))(>VB saksikan)(NP(PR tersebut)))))(ADVP(IN untuk)(SBAR(NP(PR kamu))(>VB ceritakan)(ADVP(IN kepada)(NN teman-temanmu)(ADVP(IN di)(NP(NN depan)(NN kelas))))))(PU .)) (S(ADVP(IN Agar)(NP(NN cerita)(ADVP(AR yang)(NP(PR kamu))(>VB sampaikan)(ADJP(JJ urut)(CC dan)(JJ sistematis)))))(PU ,)(SBAR(>VB buatlah)(ADJP(RB terlebih)(RB dahulu))(NP(NN kerangka)(NN cerita)))(PU .)) (S(CC Kemudian)(PU ,)(VB kembangkan)(NP(NN kerangka)(NN tersebut))(VB menjadi)(NP(NN cerita)(ADVP(AR yang)(JJ utuh)))(PU .))
L-10.9
(S(VB Siapkan)(NP(NN alat)(NN peraga)(ADVP(AR yang)(VP(AUX dapat)(VB mendukung))(NP(NN cerita)(ADVP(ADJP(AR yang)(AUX akan))(NP(PR kamu))(VB sampaikan)(PR itu)))))(PU .)) (S(VB Berdasarkan)(NP(NN karangan)(ADVP(ADJP(AR yang)(RB telah))(NP(PR kamu))(VB siapkan)(CC serta)(NP(NN alat)(NN peraga)(ADVP(ADJP(AR yang)(RB sudah))(NP(PR kamu))(VB buat)(ADVP(VP(VB mulailah)(VB bercerita))(ADVP(RB secara)(VB bergiliran)))))))(PU .)) (S(SBAR(CS Ketika)(NN temanmu)(VB bercerita))(PU ,)(SBAR(VB berikan)(NP(NN penilaian)(NN penampilan)(NN temanmu)(PR itu))(ADVP(IN dengan)(NP(NN pedoman)(NN penilaian)(JJ berikut)(PR ini))))(PU !)) (S(VB Bacalah)(NP(NN teks)(JJ berikut)(PR ini))(ADVP(IN dengan)(NP(NN kecepatan)(CD 200)(NN kata)(RP per)(NN menit)))(PU .)) (S(VB Hitunglah)(WH berapa)(NP(NN kecepatan)(NN membacamu))(PU !)) (S(SBAR(CS Jika)(ADJP(AUX masih)(JJ rendah)))(PU ,)(SBAR(VP(VB tingkatkan)(RB terus)(NP(NN kecepatan)(VB membacamu))))(PU !)) (S(ADVP(RB Setelah)(VB membaca)(ADVP(IN dengan)(JJ cepat))(NP(NN bacaan)(ADVP(IN di)(NN atas))))(>VB kerjakan)(NP(NN soal)(ADVP(IN di)(NN bawah)(PR ini)))(PU !)) (S(ADVP(CS Ketika)(VB menjawab)(NN pertanyaan))(PU ,)(NN kalian)(ADJP(RB tidak)(AUX boleh))(VP(VB membaca)(RB lagi))(NP(NN bacaan)(PR itu))(PU .)) (S(>VB Lakukan)(NP(NN kegiatan)(PR ini))(ADVP(IN dengan)(JJ jujur))(ADVP(IN untuk)(>VB mengetahui)(ADJP(RB sejauh)(PR mana))(NP(NN pemahaman)(NN kalian))(ADVP(IN terhadap)(NP(NN isi)(NN bacaan))))(PU .)) (S(ADVP(RB Setelah)(NN kalian)(>VB mengetahui)(NP(CC waktu)(CC tempuh))(>VB membaca))(CC dan)(SBAR(NN kalian)(VP(RB telah)(>VB mengetahui))(NP(NN jumlah)(NN kata))(ADVP(JJ dalam)(NP(NN bacaan)(PR tersebut))))(PU ,)(SBAR(VB hitunglah)(NP(NN kecepatan)(>VB membaca)(NN kalian))(ADVP(IN dengan)(>VB menggunakan)(NP(NN rumus)(ADVP(IN di)(NN atas)))))(PU .)) (S(ADVP(RB Setelah)(VB membaca)(NP(NN teks)(NN wacana)(ADVP(IN di)(NN atas))))(PU ,)(>VB simpulkan)(NN isinya)(ADVP(IN dengan)(JJ tepat))(ADVP(JJ dalam)(AR beberapa)(NN kalimat))(PU !)) (S(>VB Lakukan)(NP(NN kegiatan)(PR ini))(PU ,)(ADVP(IN dengan)(>VB berdiskusi)(ADVP(JJ dalam)(NP(NN kelompok)(NN belajarmu))))(PU .)) (S(>VB Tuliskan)(NN hasilnya)(ADVP(JJ dalam)(NP(NN buku)(NN tugasmu)))(PU !)) (S(NP(JJ Banyak)(NN dongeng)(ADVP(AR yang)(VB berkembang)(ADVP(IN di)(NP(NN masyarakat)(ADVP(AR yang)(VP(RB tidak)(VB tertulis)))))))(PU ,)(ADVP(IN di)(NN samping)(NP(NN dongeng)(ADVP(AR yang)(RB sudah)(VB ditulis)(CC atau)(VB dibukukan))))(PU .)) (S(NP(NN Dongeng)(ADVP(AR yang)(>VB berkembang)(ADVP(IN di)(NN masyarakat))))(VP(RB biasanya)(>VB bercerita))(ADVP(CC tentang)(NP(NN legenda)(CC atau)(NP(NN asal-usul)(ADVP(AR suatu)(NN tempat))))(PU ,)(NP(NN dongeng)(>VB mengenai)(NN binatang)(ADVP(PU LRB)(NN fabel)(PU RRB)))(CC atau)(NP(NN dongeng)(VB mengenai)(NP(NN roh)(NN nenek)(NN moyang))))(PU .)) (S(>VB Bacalah)(NP(NN dongeng)(JJ berikut)(PR ini))(ADVP(IN dengan)(JJ cermat))(PU !)) (S(SBAR(ADVP(RB Setelah)(RB selesai))(>VB membaca))(PU ,)(SBAR(VB tulislah)(RB kembali)(NP(NN isi)(NN dongeng))(ADVP(IN dengan)(>VB menggunakan)(NP(NN bahasamu)(RB sendiri))))(PU !)) (S(SBAR(>VB Carilah)(NP(NN dongeng)(ADVP(IN dari)(NP(NN majalah)(CC atau)(NP(NN surat)(NN kabar))))))(PU ,)(CC
L-10.10
kemudian)(SBAR(>VB bacalah)(NP(>NN dongeng)(PR tersebut)))(PU .)) (S(>VP(VB Hayati)(CC dan)(VB pahami))(NP(NN isi)(NN dongeng)(PR itu))(ADVP(IN dengan)(JJ baik))(PU .)) (S(SBAR(ADVP(RB Setelah)(NN dongeng)(RB selesai))(NP(PR kamu))(VB baca))(PU ,)(SBAR(>VB tulislah)(RB kembali)(NP(NN dongeng)(PR tersebut))(ADVP(IN dengan)(NP(NN bahasamu)(RB sendiri))))(PU .)) (S(>VB Ingat)(PU ,)(ADVP(CS ketika)(SBAR(NP(PR kamu))(>VB menulis)(RB kembali)(NP(NN isi)(NN dongeng)))(SBAR(NP(PR kamu)(ADJP(RB tidak)(AUX perlu))(>VB membaca)(RB kembali)(NP(NN isi)(NN dongeng))(ADVP(IN agar)(NP(NN dongeng)(ADVP(AR yang)(NP(PR kamu))(>VB tulis)(PR itu)(ADVP(RB benar-benar)(>VB menggunakan)(NP(NN kata-kata)(CC dan)(NP(NN bahasa)(RB sendiri))))))))))(PU !)) (S(ADVP(JJ Dalam)(>VB menulis)(NN dongeng))(PU ,)(NP(NN pengarang)(CC atau)(NN penulis))(VP(RB sering)(>VB menggunakan))(NP(NN kata-kata)(>VB bermakna)(NN konotasi))(ADVP(IN untuk)(NP(NN maksud-maksud)(JJ tertentu)))(PU .)) (S(NP(NN Kata)(>VB bermakna)(NN konotasi))(NP(AUX dapat)(>VB digunakan))(ADVP(IN untuk)(VB mewakili)(NP(NN perasaan)(PR seseorang)))(PU .)) (S(ADVP(IN Di)(JJ dalam)(>VB menulis)(NP(NN buku)(JJ harian)))(PU ,)(NP(PR kita))(>VP(AUX dapat)(>VB memilih))(NP(NN kata)(ADVP(AR yang)(>VB bermakna)(NN konotasi)))(ADVP(IN untuk)(>VB mengekspresikan)(NP(NN pikiran)(CC dan)(NN perasaan)(PR kita)))(PU .)) (S(>VB Perhatikan)(NP(NN contoh-contoh)(JJ berikut)(PR ini))(PU !)) (S(>VB Dengarkan)(NP(NN berita)(ADVP(AR yang)(>VP(AUX akan)(VB dibacakan))(ADVP(IN oleh)(NN Bapak)(PU /)(NP(NN Ibu)(NN guru)))))(PU !)) (S(NP(NN Teks)(NN berita))(VP(AUX dapat)(VB diambil))(ADVP(IN dari)(NP(NN lampiran)(NN buku)(PR ini)))(PU !)) (S(ADVP(RB Setelah)(NP(PR kamu))(VB dengarkan)(NP(NN berita)(ADVP(AR yang)(>VB dibacakan)(ADVP(IN oleh)(NN Bapak)(PU /)(NP(NN Ibu)(NN Guru))))))(PU ,)(>VP(>VB tulislah)(RB kembali))(NP(NN isi)(NN berita)(PR tersebut))(VB berpedoman)(ADVP(IN pada)(NP(NN jawaban)(NN atas)(NN pertanyaan)(WH apa)(PU ,)(WH kapan)(PU ,)(IN di)(PR mana)(PU ,)(PR siapa)(PU ,)(WH mengapa)(PU ,)(CC dan)(PR bagaimana)))(PU !)) (S(WH Pernahkah)(SBARQ(NP(PR kamu))(>VB mendengar)(NP(NN dongeng)(ADVP(CC tentang)(NN Malin)(NN Kundang))))(PU ?)) (S(WH Apakah)(SBARQ(NP(NN isi)(NN dongeng)(NN Malin)(NN Kundang)))(PU ?))
Tanda ‘>’ berarti kepala tag dari level pohon bagian kalimat.
L-11.1
Lampiran 11 Contoh File Leksikon
Berikut adalah sebagian file leksikon yang digunakan pada tesis ini: .................... , PU 1 . PU 1 : PU 0 ; PU 0 = SYM 0 ? PU 0 @ SYM 0 \ PU 0 aba-aba NN 0 abad NN 0 abadi JJ 0 abah NN 0 abah-abah NN 0 abakus NN 0 abang NN 0 abangan NN 0 abar NN 0 abatoar NN 0 abdas NN 0 abdi NN 0 abdikasi NN 0 abdomen NN 0 abdominal JJ 0 aberasi NN 0 abiogenesis NN 0 abjad NN 0 ablasi NN 0 ablaut NN 0 abnormal JJ 0 abnormalitas NN 0 abnus NN 0 abolisi NN 0 abon NN 0 abonemen NN 0 aborsi NN 0 abortus NN 0 abrak NN 0 abras NN 0 abrasi NN 0 abreviasi NN 0 ....................
L-12.1
Lampiran 12 Contoh File Simbol Non-terminal
Berikut adalah file simbol non-terminal yang digunakan pada tesis ini: $ : . @ % + = , # `` LRB RRB ADJP ADVP AR AUX CC CD CS FW IN JJ MD NN NP PR RB RP S SBAR SBARQ VB VP WH PU SYM TOP UH X SBAR-A S-A VP-A NP-A ADJP-A ADVP-A SBARQ-A X-A WH-A SBAR-g VP-g VP-A-g S-A-g SBAR-A-g
PR-g ADJP-g NP-A-g S-g
L-13.1
Lampiran 13 Penjelasan Teknis Struktur Data yang Digunakan pada Pemrosesan Awal (preprocessing): Struktur Grammar
Aturan grammar pada pengurai Collins merupakan kemungkinan triple dari
simbol non terminal yang digenerasi dari treebank. Berikut adalah sebuah contoh
pohon kalimat dalam bahasa Indonesia yang akan digenerasi grammar-nya dengan
menggunakan format pengurai Collins:
VB merupakan kepala pada level anak S. Maka grammar yang dihasilkan dari
pohon di atas adalah sebagai berikut:
L S NP VB
R S VB NN
R S NN PU
U NP PR
X NP PR 00000
Y NP PR 00000
L (left) berarti sisi kiri dari kepala level dan R (right) berarti sisi kanan dari kepala
dimana merupakan grammar triple dari
parent → anak1 anak2
S
NP VB NN
PR menanam bunga
Dia
PU
.
L-13.2
sehingga menjadi
S → NP VB
S → VB NN
S → NN PU
Grammar berjenis U (unary) adalah grammar yang dihasilkan ketika simpul orang
tua hanya memiliki sebuah simpul anak. Dilihat dari gambar pohon di atas maka
grammar unary yang dihasilkan adalah:
NP → PR
Grammar X dan Y adalah grammar sub-kategori yang diambil dari grammar U
diberi dengan kode tambahan 5 buah angka 0 (nol).
L-14.1
Lampiran 14 Penjelasan Teknis Struktur Data yang Digunakan pada Pemrosesan Awal (preprocessing): Struktur Morfologi
Struktur data yang digunakan pada pemrosesan aturan morfologi untuk proses
POS tagging adalah sebagai berikut:
struktur elemen kata yang dicari morfologinya (untuk menyimpan history pemrosesan POS
tagging kata dengan aturan morfologi) misal untuk kata “perkataan”
prefix
(awalan)
sufix
(akhiran)
half
(imbuhan di
tengah kata)
base
(kata dasar)
repeat
(1 jika kata
ulang)
tag
per an kata 0 NN
struktur elemen untuk menyimpan aturan morfologi yang diambil dari file aturan morfologi
(.pfx, .sfx, .cfx, .rpt, .rpth)
misal untuk kata “tanam-menanam”
prefix sufix half rule rulehalf basetag basetaghalf tag next
me t tanam VB
Format file aturan morfologi untuk prefix (.pfx), sufix (sfx), pengulangan di
tengah (.rpth) adalah sebagai berikut:
[imbuhan] [huruf_lebur_karena_imbuhan] [tag_kata_dasar] [tag_kata]
misal sebagai berikut untuk file aturan morfologi prefix (.pfx): be 0 X VB
di 0 X VB
menge 0 X VB
meng k X VB
meny s X VB
men t X VB
dimana:
• imbuhan adalah imbuhan yang dikenakan pada kata dasar
L-14.2
• huruf_lebur_karena_imbuhan adalah huruf depan kata dasar yang lebur
atau hilang karena mendapat imbuhan, misal untuk kata menyesal dari
kata sesal dimana huruf s awal kata sesal melebur karena mendapat awalan
meny-.
• tag_kata_dasar adalah tag kata dasar sebelum diberi imbuhan untuk
dicocokkan dengan kamus, ini berlaku jika imbuhan hanya diberikan pada
kata dasar dengan jenis tertentu, jika berlaku untuk semua kata dasar maka
akan diberi tanda X.
• tag_kata adalah tag setelah kata diberi imbuhan
Format file aturan morfologi untuk aturan pengulangan (.rpt) adalah sebagai
berikut: prefix sufix huruf_lebur_karena_imbuhan tag_kata_dasar tag_kata
misal sebagai berikut untuk file aturan morfologi konfiks (.cfx): dipe kan 0 X VB
menge kan 0 X VB
meng kan k X VB
meny kan s X VB
men kan t X VB
L-15.1
Lampiran 15 Penjelasan Teknis Struktur Data yang Digunakan pada Pemrosesan Awal (preprocessing): Struktur Pohon/Tree
Struktur simpul pohon yang digunakan adalah sebagai berikut:
prev label headword headtag type leftchid parent headchild next
NP Dia PR 1
Struktur data pohon untuk pohon kalimat pada lampiran 8 adalah sebagai berikut:
prev label headword headtag type leftchid parent headchild next
NULL S menanam VB 0 NULL NULL
prev label headword headtag type leftchid parent headchild next
NULL NP Dia PR 0
prev label headword headtag type leftchid parent headchild next
NULL PR Dia PR 1 NULL NULL
prev label headword headtag type leftchid parent headchild next
VB menanam VB 1 NULL NULL
prev label headword headtag type leftchid parent headchild next
NN bunga NN 1 NULL NULL
prev label headword headtag type leftchid parent headchild next
PU . PU 1 NULL NULL NULL
Setiap pohon kalimat pada file treebank akan disimpan pada struktur data tree ini
untuk diproses menjadi events dan grammar. Kode angka 6 pada events
menandakan pembacaan kalimat yang dibuat pohon kalimatnya. Kode angka 3
merupakan kode event unary dimana jika setiap simpul pohon hanya memiliki
satu anak atau hubungan antara simpul dengan kepala anaknya. Kode angka 2
L-15.2
merupakan kode event dependency dimana merupakan aturan triple tiga buah
simbol non terminal (grammar). Misal sebagai contoh kalimat pada Lampiran 8
yang memiliki pohon kalimat pada file treebank sebagai berikut: (S(NP(PR Dia))(>VB menanam)(NN bunga)(PU .))
maka akan menghasilkan event kalimat sebagai berikut: 6 4 Dia PR menanam VB bunga NN . PU
dan akan menghasilkan event unary dan dependency sebagai berikut: 3 menanam VB S VB 00000 00000
2 Dia PR menanam VB NP S VB 000000 110 0 0
2 #STOP# #STOP# menanam VB #STOP# S VB 000000 100 0 0
2 bunga NN menanam VB NN S VB 000000 010 0 0
2 . PU menanam VB PU S VB 000000 000 0 0
2 #STOP# #STOP# menanam VB #STOP# S VB 000000 000 0 0
3 Dia PR NP PR 00000 00000
2 #STOP# #STOP# Dia PR #STOP# NP PR 000000 110 0 0
2 #STOP# #STOP# Dia PR #STOP# NP PR 000000 010 0 0
Penjelasan event unary dan dependency di atas adalah sebagai berikut:
• 3 menanam VB S VB 00000 00000
merupakan hubungan antara simpul S dengan kepala kata simpul anaknya
yaitu simpul VB.
• 2 Dia PR menanam VB NP S VB 000000 110 0 0 merupakan event dependency yang merepresentasikan grammar
S → NP VB
• 2 #STOP# #STOP# menanam VB #STOP# S VB 000000 100 0 0
merupakan event dependency yang merepresentasikan grammar
S → STOP VB
• 2 bunga NN menanam VB NN S VB 000000 010 0 0
merupakan event dependency yang merepresentasikan grammar
S → NN VB
• 2 . PU menanam VB PU S VB 000000 000 0 0
merupakan event dependency yang merepresentasikan grammar
S → PU VB
L-15.3
• 2 #STOP# #STOP# menanam VB #STOP# S VB 000000 000 0 0
merupakan event dependency yang merepresentasikan grammar
S → STOP VB
• 3 Dia PR NP PR 00000 00000
• 2 #STOP# #STOP# Dia PR #STOP# NP PR 000000 110 0 0 merupakan event dependency yang merepresentasikan grammar
NP → STOP PR
• 2 #STOP# #STOP# Dia PR #STOP# NP PR 000000 010 0 0 merupakan event dependency yang merepresentasikan grammar
NP → STOP PR
Jika dilihat dari struktur pohon yang digunakan di atas maka sebuah event unary
dari sebuah simpul didapat dari: 3 [headword] [headtag] [label] [headchild->label] 00000 00000
Oleh karena itu, simpul dapat menjadi event unary harus memiliki kepala kata
simpul anak (headchild).
Jika dilihat dari struktur pohon yang digunakan di atas maka sebuah event
dependency dari sebuah simpul didapat dari: 2 [kata_simpul_anak tag_simpul_anak] [headword] [headtag] [label_simpul_anak] [label] [headchild->label] 000000 [keterangan_arah_grammar] 0 0
dimana jika simpul anak kosong maka kata_simpul_anak, tag_simpul_anak,
dan label_simpul_anak diganti dengan #STOP#. Keterangan_arah_grammar
merupakan kode yang terdiri dari tiga buah dijit yang berarti:
arah grammar
dibangkitkan, 1 untuk arah
kiri, 0 untuk arah kanan
bernilai 1 jika simbol non-
terminal grammar saling
berdekatan dan bernilai 0
jika tidak saling berdekatan
bernilai 1 jika memiliki kata
kerja dan bernilai 0 jika
tidak memiliki kata kerja
L-15.4
misal keterangan_arah_grammar bernilai 100 maka berarti bahwa grammar
dibangkitkan dipandang dari sisi kiri, dengan posisi simbol non-terminal saling
berdekatan, dan tidak memiliki kata kerja (VB).
Keterangan lebih jelas dapat dibaca dari disertasi Michael Collins.
L-16.1
Lampiran 16 Cara Penggunaan Program
Program implementasi dibuat dengan menggunakan bahasa pemrograman C
menggunakan pustaka standar GCC dijalankan di sistem operasi windows
menggunakan cygwin. Dapat juga dijalankan di Linux dengan menggunakan
terminal (GCC merupakan pustaka standar bahasa C pada Linux).
Untuk membuat file events, menambah file grammar, dan leksikon maka program
dapat dieksekusi dengan perintah berikut:
preprocess/preprocess 1 nama_file_treebank nama_file_grammar
misal
preprocess/preprocess 1 examples/smptreebank models/model1/grammar
maka file events akan dibuat dengan path models/model1/grammar.events, file
grammar adalah models/model1/grammar.grm, file simbol non-terminal adalah
models/model1/grammar.nts, dan file leksikon adalah
models/model1/grammar.lexicon.
Untuk membuat file korpus maka program dapat dieksekusi dengan perintah
berikut:
preprocess/preprocess 2 nama_file_kalimat nama_file_grammar
nama_file_output
misal
preprocess/preprocess 2 examples/smp.cps models/model1/grammar
examples/smpjadi.cps
L-16.2
file kalimat berisi kalimat yang setiap kalimat dipisahkan menggunakan ‘\n’
(tombol enter) seperti berikut: Apakah daerahmu juga ada cerita semacam ini?
Kalau ada, tulislah dengan singkat cerita itu!
file grammar yang digunakan meliputi:
Nama File Keterangan models/model1/grammar.grm menyimpan aturan grammar models/model1/grammar.lexicon menyimpan leksikon models/model1/grammar.nts menyimpan simbol non terminal models/model1/grammar.pfx menyimpan aturan morfologi untuk
prefiks models/model1/grammar.sfx menyimpan aturan morfologi untuk
sufiks models/model1/grammar.cfx menyimpan aturan morfologi untuk
konfiks models/model1/grammar.rpt menyimpan aturan morfologi untuk
perulangan berimbuhan models/model1/grammar.rpth menyimpan aturan morfologi untuk
perulangan berimbuhan di tengah
Untuk menjalankan pengurai Collins dapat menggunakan perintah berikut: cat nama_file_events | code/parser nama_file_korpus
nama_file_grammar 10000 1 1 1 1
misal
cat models/model1/grammar.events | code/parser
examples/smpjadi.cps models/model1/grammar 10000 1 1 1 1
file grammar yang digunakan adalah models/model1/grammar.events sebagai
file events, models/model1/grammar.grm sebagai file aturan grammar,
L-16.3
models/model1/grammar.lexicon sebagai file leksikon, dan
models/model1/grammar.nts sebagai file simbol non terminal.
L-17.1
Lampiran 17 Algoritma Chart Pengurai Collins
Mekanisme algoritma chart yang digunakan pada pengurai Collins adalah sebagai
berikut:
1. memasukkan semua kata pada kalimat ke dalam tabel Dia menanam bunga
PR VB NN
2. mencari aturan grammar dari file grammar yang cocok untuk mencari
simpul pada level di atas langkah nomor 1, misal diambil aturan grammar
unary NP → PR maka akan dicari nilai probabilitasnya dengan mencari
probabilitas grammar NP → PR digunakan pada file events, jika merupakan
probabilitas terbesar dibandingkan aturan grammar lain maka akan
dijadikan edge (jalur penguraian pohon, tidak lengkap maupun lengkap).
Satu sel tabel melambangkan sebuah edge. Dia menanam bunga
PR VB NN
NP
dari tabel di atas maka edge yang dihasilkan adalah:
S → PR
S → VB
S → NN
S → NP
NP → PR
3. Langkah 2 terus diulang sampai semua kata dalam kalimat selesai diuraikan,
kalimat yang tidak berhasil diuraikan adalah kalimat yang edge-nya terputus
di tengah kalimat.