bahasa alami 1

15
Bahasa Alami 1 Isi Materi : Pengantar Peranan Pengetahuan dalam Bahasa Masalah Bahasa Alami Proses Sintaksis Grammar dan Parser Automated Transition Network Daftar Pustaka : Luger & Stubblefield : Bab-10 Rich & Knight : Bab-15 Pengantar Tujuan dalam bidang Natural language ini adalah melakukan proses pembuatan model komputasi dari bahasa, sehingga dapat terjadi suatu interaksi antara manusia dengan komputer dengan perantara bahasa alami (bahasa sehari-hari). Kecerdasan Buatan Hal : 1

Upload: maikelmikail

Post on 01-Jul-2015

226 views

Category:

Documents


9 download

TRANSCRIPT

Page 1: Bahasa Alami 1

Bahasa Alami 1

Isi Materi :

Pengantar

Peranan Pengetahuan dalam Bahasa

Masalah Bahasa Alami

Proses Sintaksis

Grammar dan Parser

Automated Transition Network

Daftar Pustaka :

Luger & Stubblefield : Bab-10

Rich & Knight : Bab-15

Pengantar Tujuan dalam bidang Natural language ini adalah melakukan

proses pembuatan model komputasi dari bahasa, sehingga dapat terjadi suatu interaksi antara manusia dengan komputer dengan perantara bahasa alami (bahasa sehari-hari).

Sebuah Natural Language System harus memperhatikan pengetahuan terhadap bahasa itu sendiri, baik dari segi kata yang digunakan, bagaimana kata-kata tersebut digabung untuk menghasilkan suatu kalimat, apa arti sebuah kata, apa fungsi sebuah kata dalam sebuah kalimat dan sebagainya. Kita juga harus mempertimbangkan kemampuan manusia untuk mengerti dan kemampuan untuk itu didapat dari pengetahuan yang didapat secara terus menerus sewaktu hidup

Kecerdasan Buatan Hal : 1

Page 2: Bahasa Alami 1

Peranan Pengetahuan dalam Bahasa• Komunikasi dengan bahasa alami (teks/ucapan) bergantung

pada pengetahuan dari domain pembicaraan Pemahaman bahasa tidak hanya ditransmisi dari kata-kata; tapi

membutuhkan inferensi tentang tujuan dan asumsi-asumsi dari pembicara dan tentang konteks interaksi

Implementasi dari program pemahaman bahasa alami membutuhkan representasi sejumlah besar pengetahuan dan alasan-alasan

Masalah Bahasa Alami Bahasa [1] merupakan fenomena yang kompleks, melibatkan

berbagai proses, mis: pengenalan suara atau huruf tercetak, parsing sintak, inferensi semantic tingkat tinggi & komunikasi dari isi emosional melalui ritme & inflection (perubahan nada suara)

Masalah pemrosesan bahasa ini secara garis besar di bagi dua: [2]1. Pemrosesan teks yang ditulis, menggunakan leksikal,

sintaksis, & pengetahuan semantic dari bahasa.2. Pemrosesan bahasa bicara, menggunakan semua informasi di

atas, ditambah informasi mengenai phonology.

Masalah Bahasa Alami (lanjutan) Untuk mengatasi kompleksitas dari bahasa ini didefinisikan

tingkat analisis bahasa alami : [1]1. Prosody, mengerjakan ritme & intonasi bahasa2. Phonology menguji suara yang dikombinasikan untuk

membentuk bahasa3. Morphology mengenai komponen-komponen (morfem-

morfem) yang membentuk kata-kata. Termasuk aturan-aturan pengembangan formasi kata-kata seperti efek dari prefix (un-, non-, anti-, dll), & sufiks (-ing, -ly, dll) yang memodifikasi arti dari akar kata.

Kecerdasan Buatan Hal : 2

Page 3: Bahasa Alami 1

4. Syntax, pemahaman tentang urutan kata dalam pembentukan kalimat dan hubungan antar kata tsb dalam proses perubahan bentuk dari kalimat menjadi bentuk yang sistematis. Meliputi proses pengaturan tata letak suatu kata dalam kalimat akan membentuk kalimat yang dapat dikenali. Selain itu dapat pula dikenali bagian-bagian kalimat dalam suatu kalimat yang lebih besar. Sebagai contoh kalimat S dibentuk dari noun phrase (NP) dan verb phrase (VP)Sintaksis: yaitu S NP, VP

Dan berikutnya:

NP DET, N

VP V, NP

NP N

5. Semantics, pemetaan bentuk struktur sintaksis dengan memanfaatkan tiap kata ke dalam bentuk yang lebih mendasar dan tidak tergantung struktur kalimat. Semantik mempelajari arti suatu kata dan bagaimana dari arti kata – arti kata tsb membentuk suatu arti dari kalimat yang utuh.

6. Pragmatics, merupakan studi pada cara dimana bahasa digunakan & efeknya pada si pendengar

7. World Knowledge: mencakup arti sebuah kata secara umum dan apakah ada arti khusus bagi suatu kata dalam suatu percakapan dengan konteks tertentu.

Selain yang sudah disebutkan di atas masih ada lagi satu masalah yang cukup menantang dalam Natural Language yaitu ambiguitas atau makna ganda dari suatu kata atau kalimat.

Pemrosesan Bahasa Alami Menurut Rich [2], pemrosesan bahasa alami dapat dibagi atas

beberapa proses:1. Morphological analysis, dimana kata secara individu

dianalisis ke dalam komponen-komponennya dan yang bukan kata (seperti tanda baca) dipisahkan dari kata

Kecerdasan Buatan Hal : 3

Page 4: Bahasa Alami 1

2. Syntactic analysis, urutan linier dari kata ditransformasikan ke dalam struktur yang menunjukkan bagaimana kata saling berhubungan. Urutan kata yang melanggar aturan bahasa dalam pengkombinasian kata, akan ditolak

3. Semantic analysis, dibuat mapping antara struktur sintaksis & objek dalam domain kerja. Struktur dimana tidak ada mapping yang memungkinkan, akan ditolak.

4. Discourse integration, dimana arti dari kalimat secara individu bergantung pada kalimat-kalimat yang mendahului & mungkin dapat mempengaruhi arti dari kalimat-kalimat yang mengikutinya

5. Pragmatic analysis, dimana struktur yang merepresentasikan apa yang diucapkan, diintepretasikan kembali untuk menentukan apa arti sebenarnya.

Proses Sintaksis Proses sintaksis [2] atau disebut juga parsing, merupakan

langkah dimana kalimat masukan secara flat diubah ke dalam struktur hirarkis yang berhubungan dengan unit-unit arti dalam kalimat

Proses sintaksis sangat berperan dalam pemahaman bahasa alami dikarenakan:- Proses semantic harus beroperasi pada pilihan-pilihan

kalimat. Jika tidak ada tahap parsing sintaksis maka sistem semantic harus memutuskan atas pilihannya sendiri. Jika parsing dilakukan, hal ini akan membatasi pilihan-pilihan dari semantic

- Tidak selalu dimungkinkan untuk mengekstrak arti kalimat tanpa menggunakan fakta gramatikal

• Semua sistem menggunakan dua komponen:1. Representasi deklaratif, disebut grammar, fakta sintaksis

tentang bahasa

Kecerdasan Buatan Hal : 4

Page 5: Bahasa Alami 1

2. Prosedur, disebut parser, dimana membandingkan grammar dengan kalimat-kalimat masukan untuk membentuk struktur yang dianalisis.

Grammar • Grammar direpresentasikan sebagai sekumpulan aturan-

aturan produksi, seperti pada gambar 1. Grammar merupakan suatu aturan yang menentukan apakah suatu kumpulan kata dapat diterima sebagai kalimat oleh bahasa tsb. Sebuah grammar G dapat dibentuk dari 4 tuple yaitu : symbol non terminal, symbol terminal, symbol awal dan aturan penulisan atau rules. Definisinya adalah: G = (vn, vt, s, p)

Sebagai contoh dapat kita lihat dari grammar G sederhana berikut ini:DictJenis = {Kata_Benda, Kata_Kerja, Frasa_Benda, Frasa_kerja, Keterangan}DictKata = {Orang, Makan, telur, Ayam, Terbang, Tinggi}

Dengan aturan :S Frasa_Benda Frasa_KerjaFrasa_Benda Kata_Benda Kata_BendaFrasa_Kerja Kata_Kerja KeteranganKata_benda {Orang, Telur, Ayam}Kata_Kerja {Makan, Terbang}Keterangan {Tinggi}

Dari grammar G dapat dibentuk kalimat :Orang Makan AyamAyam Terbang TinggiOrang Terbang TinggiAyam Makan Orang

Dari grammar kita dapat mempelajari bahasa dari segi struktur dan bukan dari segi makna bahasa itu sendiri.

• Aturan pertama, ‘Sebuah kalimat terdiri atas kata benda (NP) diikuti kata kerja (VP)’.

• I menyatakan “atau/or’,

• menyatakan string kosong

Kecerdasan Buatan Hal : 5

Page 6: Bahasa Alami 1

• Simbol-simbol yang diperluas oleh aturan-aturan disebut nonterminal symbols, sedangkan simbol-simbol yang berhubungan langsung dengan string yang ditemukan pada kalimat masukan disebut terminal symbols.

Gambar 1. Grammar Untuk Bahasa Inggris

Parsing• Suatu proses menganalisa suatu kumpulan kata dengan

memisahkan kata tsb dan menentukan struktur sintaksis dari tiap kata tsb. Gramatika yang dipakai juga sangat berkaitan dengan proses parsing apa yang digunakan.

• Bottom-Up Parsing gramatika yang dipakai akan lebih banyak bercabang ke arah simbol non-terminal. Hal lain yang juga berkaitan erat dengan proses parsing adalah kamus atau leksikon yang digunakan. Dalam leksikon disimpan daftar kata yang dapat dikenali sebagai symbol terminal dalam grammar dan informasi yang diperlukan untuk tiap kata tersebut untuk proses parsing yang bersangkutan.

• Pendekatan dalam mengenali struktur suatu kalimat, proses parsing dapat dibagi menjadi dua bagian besar yaitu Top Down parsing dan Bottom Up parsing. Top Down parser memulai pemeriksaan dari simbol awal s dan mencoba untuk mencari bentuk simbol terminal berikutnya yang sesuai dengan jenis kata dari kalimat masukan. Cara sebaliknya

Kecerdasan Buatan Hal : 6

Page 7: Bahasa Alami 1

diterapkan untuk Bottom Up parser yaitu mencari dari simbol-simbol terminal menuju ke arah pembentukan simbol awal s.

Gambar 2. Pohon Analisis Untuk Sebuah Kalimat

Automated Transition Networks (ATN)• Automated Transition Network (ATN) merupakan prosedur

top-down parsing dimana bermacam-macam pengetahuan digabungkan ke sistem analisis sehingga dapat beroperasi lebih efisien.

• ATN (seperti pada gambar 3) menyerupai finite-state machine dimana klas label digabungkan pada garis berarah yang mendefinisikan transisi antara suatu keadaan.

• Garis berarah ini dapat diberi label (dalam bahasa Inggris) dengan - Kata-kata spesifik, seperti ‘in’

- Kategori-kategori kata, seperti ‘noun’

- Didorong ke jaringan lain untuk mengenali komponen lain pada suatu kalimat, seperti jaringan untuk mengenali prepositional phrase (PP) maka pada garis berarah ditanyakan noun phrase (NP)

- Prosedur yang menjalankan tes pada input saat itu dan pada komponen kalimat yang telah diidentifikan

Kecerdasan Buatan Hal : 7

Page 8: Bahasa Alami 1

- Prosedur-prosedur yang membangun struktur yang akan membentuk bagian akhir dari analisis

Gambar 3. : Sebuah Jaringan ATN untuk Fragmen Bahasa Inggris

• Cara kerja ATN pada kalimat:

‘The long file has printed’

1. Mulai pada keadaan S2. Masuk ke NP3. Kerjakan tes kategori untuk melihat jika ‘the’ merupakan

determiner4. Tes sukses, maka register DETERMINER diset ke

DEFINITE lalu ke keadaan Q65. Kerjakan tes kategori untuk melihat jika ‘long’ merupakan

adjective6. Tes sukses, maka register ADJS ditambahkan ‘long’. Tetap

tinggal di Q67. Kerjakan tes kategori untuk melihat jika ‘file’ merupakan

adjective. Tes gagal

Kecerdasan Buatan Hal : 8

Page 9: Bahasa Alami 1

8. Kerjakan tes kategori untuk melihat jika ‘file’ merupakan noun. Tes sukses, register NOUN diset ke ‘file’ dan lalu ke keadaan Q7.

9. Masuk ke PP10. Kerjakan tes kategori untuk melihat ‘has’ merupakan

preposition. Tes gagal, sehingga keluar11. Tidak ada lagi yang dikerjakan di Q7, lalu keluar dan

kembali ke struktur (NP(FILE(LONG)DEFINITE)), sehingga kembali ke keadaan Q1, dengan register SUBJ diset ke struktur yang dikembalikan dan register TYPE diset ke DCL

12. Kerjakan tes kategori untuk melihat jika ‘has’ merupakan verb. Tes sukses, sehingga register AUX diset ke NIL dan register V diset ke ‘has’. Lanjut Q4

13. Masuk ke keadaan NP, dikarenakan kata ‘printed’ bukan determiner ataupun noun murni, maka NP dikeluarkan

14. Masih tersisa input, berarti analisis belum selesai. Lalu diperlukan backtracking.

15. Pilihan terakhir terdapat pada Q1, sehingga kembali ke Q1. Register AUX dan V tidak diset

16. Kerjakan tes kategori untuk melihat jika ‘has’ merupakan auxiliary. Tes sukses sehingga ‘has’ diset ke register AUX dan lalu ke Q3.

17. Kerjakan tes kategori untuk melihat jika ‘printed’ merupakan verb. Tes sukses, maka register V diset ke ‘printed’. Lanjut ke Q4.

18. Karena input telah habis, maka Q4 merupakan keadaan terakhir. Lalu keluar dan kembali ke struktur(S DCL (NP(FILE(LONG)DEFINITE)) HAS

(VP PRINTED))Struktur ini merupakan output dari analisis.

Cari dari blogKecerdasan Buatan Hal : 9

Page 10: Bahasa Alami 1

Natural Language Processing atau Pemrosesan Bahasa Alami merupakan salah satu tujuan jangka panjang dari Artficial Intelegence(kecerdasan buatan) yaitu pembuatan program yang memiliki kemampuan untuk memahami bahasa manusia.

Pada prinsipnya bahasa alami adalah suatu bentuk representasi dari suatu pesan yang ingin dikomunikasikan antar manusia. Bentuk utama representasinya adalah berupa suara/ucapan (spoken language), tetapi sering pula dinyatakan dalam bentuk tulisan.

Inti dari pemrosesan bahasa alami adalah penguraian kalimat atau sering disebut dengan parser. Parser berfungsi untuk membaca kalimat, kata demi kata dan menentukan jenis kata apa saja yang boleh mengikuti kata tersebut.

Dalam pemahaman suatu bahasa ada beberapa bidang yang harus disertakan yaitu morfologi, sintaksis, semantik, pragmatik, fonologi, dan pengetahuan tentang dunia sekitar.

Komponen Utama Bahasa Alami

Pengolahan bahasa alami terdiri dari dua bagian utama, yaitu : parser, sistem representasi pengetahuan dan pengolahan output.

a.ParserSuatu sistem yang mengambil kalimat input bahasa alami dan menguraikannya ke dalam beberapa bagian gramatikal (kata benda, kata kerja, kata sifat, dan lain-lain).b.Sistem Representasi PengetahuanSuatu sistem yang menganalisis output parser untuk menentukan maknanya.c.Output TranslatorSuatu terjemahan yang merepresentasikan sistem pengetahuan dan melakukan langkah- langkah yang bisa berupa jawaban atas bahasa alami atau output khusus yang sesuai dengan program komputer lainnya.

Kategori Aplikasi Pengolahan Bahasa Alami

Teknologi Natural Language Processing (NLP) atau Pemrosesan Bahasa Alami adalah teknologi yang memungkinkan untuk melakukan berbagai macam pemrosesan terhadap bahasa alami yang biasa digunakan oleh manusia. Sistem ini biasanya mempunyai masukan dan keluaram berupa bahasa tulisan (teks). NLP mempunyai aplikasi yang sangat luas. Beberapa diantara berbagai kategori aplikasi NLP adalah sebagai berikut:

1. Natural Language Translator, yaitu translator dari satu bahasa alami ke bahasa alami lainnya, misalnya translator bahasa Inggris ke bahasa Indonesia, Bahasa Indonesia ke Bahasa Jawa dan sebagainya. Translator bahasa alami bukan hanya kamus yang menerjemahkan kata per kata, tetapi harus juga mentranslasikan sintaks dari bahasa asal ke bahasa tujuannya.

2. Translator bahasa alami ke bahasa buatan, yaitu translator yang mengubah perintah-perintah dalam bahasa alami menjadi bahasa buatan yang dapat dieksekusi oleh mesin atau komputer. Sebagai contoh, translator yang memungkinkan kita memberikan perintah bahasa alami kepada komputer. Dengansistem seperti ini, pengguna sistem dapat memberikan perintah dengan bahasa sehari-hari, misalnya, untuk menghapus semua file, pengguna cukup memberikan perintah ”komputer, tolong hapus semua file !” Translator akan mentranslasikan perintah bahasa alami tersebut menjadi perintah bahasa formal yang dipahami oleh komputer, yaitu ”dir *.* ”.

3. Text Summarization, yaitu suatu sistem yang dapat ”membuat ringkasan” hal-hal yang penting dari suatu wacana yang diberikan.

Dalam dunia kecerdasan buatan pengolahan bahasa alami merupakan aplikasi terbesar setelah

Kecerdasan Buatan Hal : 10

Page 11: Bahasa Alami 1

sistem pakar. Banyak para ahli Artificial Intelligence berpendapat bahwa bidang yang penting yang dapat dipecahkan oleh Artificial Intelligence adalah Natural Language Processing (Pengolahan Bahasa Alami).

Kecerdasan Buatan Hal : 11