06 natural language processing - lms.student.pnm.ac.id

17
06 NATURAL LANGUAGE PROCESSING SISTEM CERDAS – PRODI TI PNM Ardian P. Atmaja, S.Kom, M.Cs

Upload: others

Post on 13-Apr-2022

15 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 06 Natural Language Processing - lms.student.pnm.ac.id

06NATURAL LANGUAGE PROCESSINGSISTEM CERDAS – PRODI TI PNM

Ardian P. Atmaja, S.Kom, M.Cs

Page 2: 06 Natural Language Processing - lms.student.pnm.ac.id

• Natural Language Processing (NLP) atau pemrosesan bahasa alami merupakan salah satu cabang ilmu AI yang berfokus pada pengolahan bahasa natural.

• Bahasa natural adalah bahasa yang secara umum digunakan oleh manusia dalam berkomunikasisatu sama lain.

• Bahasa yang diterima oleh komputer butuh untuk diproses dan dipahami terlebih dahulu supaya maksud dari pengguna bisa dipahami dengan baik oleh komputer.

• NLP didefinisikan sebagai sebuah bidang teoritis mengenai suatu teknik komputasional yang digunakan untuk menganalisa dan merepresentasikan teks yang yang ditulis secara natural (bahasa manusia) pada satu atau lebih level analisis linguistik dengan tujuan untuk memperoleh human-like language processing yang dapat diimplementasikan dalam berbagai bidang.

NATURAL LANGUAGE

PROCESSING(NLP)

Page 3: 06 Natural Language Processing - lms.student.pnm.ac.id

AREA UTAMA NLP

• Question Answering Systems (QAS)

Kemampuan komputer untuk menjawab

pertanyaan yang diberikan oleh user.

Daripada memasukkan keyword ke dalam

browser pencarian, dengan QAS, user bisa

langsung bertanya dalam bahasa natural

yang digunakannya, baik itu Inggris,

Mandarin, ataupun Indonesia.

• Summarization

Pembuatan ringkasan dari sekumpulan

konten dokumen atau email. Dengan

menggunakan aplikasi ini, user bisa

dibantu untuk mengkonversikan dokumen

teks yang besar ke dalam bentuk slide

presentasi.

• Machine Translation

Produk yang dihasilkan adalah aplikasi

yang dapat memahami bahasa manusia

dan menterjemahkannya ke dalam bahasa

lain. Termasuk di dalamnya adalah Google

Translate yang apabila dicermati semakin

membaik dalam penterjemahan bahasa.

Contoh lain lagi adalah BabelFish yang

menterjemahkan bahasa pada real time.

Page 4: 06 Natural Language Processing - lms.student.pnm.ac.id

AREA UTAMA NLP

• Speech Recognition

Field ini merupakan cabang ilmu NLP yang

cukup sulit. Proses pembangunan model

untuk digunakan telepon/komputer dalam

mengenali bahasa yang diucapkan sudah

banyak dikerjakan. Bahasa yang sering

digunakan adalah berupa pertanyaan dan

perintah.

• Document Classification

Sedangkan aplikasi ini adalah merupakan

area penelitian NLP Yang paling sukses.

Pekerjaan yang dilakukan aplikasi ini

adalah menentukan dimana tempat

terbaik dokumen yang baru diinputkan ke

dalam sistem. Hal ini sangat berguna

pada aplikasi spam filtering, news article

classification, dan movie review.

Page 5: 06 Natural Language Processing - lms.student.pnm.ac.id

ASPEK UTAMA NLP

• SyntaxMenjelaskan bentuk dari bahasa. Syntax biasa dispesifikasikan oleh sebuah grammar. Natural language jauh lebih luas daripada formal language yang digunakan untuk logika kecerdasan buatan dan program komputer.

• SemanticsMenjelaskan arti dari kalimat dalam satu bahasa. Meskipun teori semantics secara umum sudah ada, ketika membangun sistem natural language understanding untuk aplikasi tertentu akan digunakan representasi yang paling sederhana.

• Pragmatics

Menjelaskan bagaimana pernyataan

yang ada berhubungan dengan

dunia. Untuk memahami bahasa,

agen harus mempertimbangan lebih

dari hanya sekedar kalimat. Agen

harus melihat lebih ke dalam konteks

kalimat, keadaan dunia, tujuan dari

speaker dan listener, konvensi khusus,

dan sejenisnya.

Page 6: 06 Natural Language Processing - lms.student.pnm.ac.id

TINGKATAN NLP

1) Phonology, berkaitan dengan interpretasi bunyi pada speech dalam suatu kata.

2) Morphology, berkaitan dengan interpretasi makna dari suatu kata (berhubungan dengn prefiks dan suffiks).

3) Lexical, berkaitan dengan interpretasi makna dari masing-masing kata yang dianalisis secara individual.

4) Syntactic, berkaitan dengan analisis kata dalam sebuah kalimat dengan tujuan untuk menemukan struktur gramatikal.

5) Semantic, berkaitan dengan

interpretasi makna kata yang

terbentuk akibat interaksi makna

dalam kata pada suatu kalimat.

6) Discourse, berkaitan dengan analisis

makna sebuah teks yang terdiri dari

beberapa kalimat.

7) Pragmatic, berkaitan dengan analisis

pada pemilihan penggunaan kata

menggunakan konteks yang ada

dalam teks.

Page 7: 06 Natural Language Processing - lms.student.pnm.ac.id

LANGKAH-LANGKAH PEMROSESAN

1. Analisis Morpology

Pada tahap ini dilakukan analisa untuk setiap kata dan

komponen yang dimiliki tiap kata termasuk token non

kata seperti spasi, tanda baca, tanda pemisah.

2. Analisis Sintax

Pada tahap ini sederetan kata disusun kedalam struktur

yang memperlihatkan bagaimana hubungan satu kata

dengan kata lainnya. Deretan kata akan ditolak bila tidak

memenuhi aturan penyusunan kata yang ada.

Page 8: 06 Natural Language Processing - lms.student.pnm.ac.id

LANGKAH-LANGKAH PEMROSESAN

3. Analisis SemanticPada tahap ini struktur deretan kata yang sudah terbentuk akan diberi arti. Dengan kata lain pemetaan dibuat antara struktur sintax dengan object yang berhubungan.

4. Penyatuan Arah (Konteks)Pada tahap ini arti dari suatu kalimat disesuaikan dengan kalimat-kalimat lain, karena arti dari suatu kalimat biasanya berhubungan dengan kalimat sebelumnya dan kalimat sesudahnya.

5. Analisis PragmatisStruktur yang terbentuk menghasilkan interpretasi ulangdari apa yang sudah dikatakan atau ditulis sebelumnya dengan arti yang sebenarnya.

Page 9: 06 Natural Language Processing - lms.student.pnm.ac.id

SPEECH RECOGNITION

• Sistem Speech Recognition

atau Sistem Pengenalan

Ucapan adalah sistem

yang berfungsi untuk

mengubah bahasa lisan

menjadi bahasa tulisan.

• Masukan sistem adalah

ucapan manusia,

selanjutnya sistem akan

mengidentifikasi kata atau

kalimat yang diucapkan

dan menghasilkan teks

yang sesuai dengan apa

yang diucapkan.

• Pengenalan Ucapan: Sinyal ucapan (s(n)) pertama kali akan

dilewatkan pada bagian Penganalisis Ucapan untuk

mendapatlan besaran-besaran atau ciri-ciri yang mudah

diolah pada tahap berikutnya. Untuk setiap ucapan yang

berbeda akan dihasilkan pola ciri yang berbeda.

Page 10: 06 Natural Language Processing - lms.student.pnm.ac.id

SPEECH RECOGNITION

• Penganalisis sintaks biasanya melakukan transformasi sinyal ucapan dari domain waktu ke domain frekuensi. Pengucapan suatu unit bunyi ucapan (fonem) seringkali bervariasiantar orang yang berbeda, juga terpengaruh oleh fonem-fonem disekitarnya, kondisi emosi, noise, dan faktor-faktor lainnya.

• Sistem Speech Recognition yang dapat mengenali seluruh kata dalam suatu bahasa melakukan pengenalan untuk setiap unit bunyipembentuk ucapan (fonem), selanjutnya mencoba mencari kemungkinan kombinasihasil ucapan yang paling dapat diterima.

• Sistem yang lebih sederhana adalah sistem yang hanya dapat mengenal sejumlah kata yang jumlahnya terbatas. Sistem ini biasanya lebih akurat dan lebih mudah dilatih, tetapi tidak dapat mengenal kata yang berada diluar kosa kata yang pernah diajarkan.

• Pada prinsipnya, teknik-teknik atau algoritma yang digunakan pada sistem Speech Recognition tidak bersifat sensitif terhadap bahasa. Artinya, sistem yang sama dapat digunakan untuk bahasa apapun.

• Namun demikian, kemampuan sistem untuk mengenali ucapan pada bahasa tertentu sangat tergantung dari template atau referensi yang diperoleh melalui proses belajardi dalam sistemnya itu sendiri.

• Untuk melatih sistem Speech Recognition agar dapat digunakan untuk suatu bahasa yang baru, maka diperlukan korpus untuk melatih sistem tersebut. Korpus yang dimaksud adalah berupa rekaman ucapan yang heterogendalam volume yang sangat besar serta memenuhi kriteria teknis tertentu.

Page 11: 06 Natural Language Processing - lms.student.pnm.ac.id

TEXT TO SPEECH

• Secara fungsional, Text to Speech

atau TTS melakukan proses

sebaliknya dari sistem Speech

Recognition. Namun demikian

pendekatan implementasinya sama

sekali berbeda.

• Pada dasarnya TTS adalah suatu

sistem yang dapat mengubah text

menjadi ucapan. Suatu sistem

pensintesa ucapan atau Text to

Speech pada prinsipnya terdiri dari

dua sub sistem, yaitu :

• Bagian Konverter Teks ke Fonem (Text to Phoneme)

• Bagian Konverter Fonem ke Ucapan (Phoneme to Speech).

Page 12: 06 Natural Language Processing - lms.student.pnm.ac.id

TEXT TO SPEECH

• Bagian Konverter Teks ke Fonem berfungsi untuk

mengolah kalimat masukan dalam suatu bahasa

tertentu yang berbentuk teks menjadi urutan kode-

kode bunyi yang direpresentasikan dengan kode

fonem, durasi serta pitch-nya.

• Setiap bahasa memiliki aturan cara pembacaan dan

cara pengucapan teks yang sangat spesifik. Hal ini

menyebabkan implementasi unit konverter teks ke

fonem menjadi sangat spesifik terhadap suatu

bahasa (language dependent).

• Bagian Konverter Fonem ke Ucapan akan menerima

masukan kode-kode fonem serta pitch dan durasi

yang telah dihasilkan oleh bagian sebelumnya.

Berdasarkan kode-kode tersebut, bagian ini akan

menghasilkan bunyi atau sinyal ucapan yang sesuai

dengan kalimat yang ingin diucapkan.

Page 13: 06 Natural Language Processing - lms.student.pnm.ac.id

APLIKASI TEKNOLOGI NLP

Alat bantu membaca untuk tunanetra

• Alat bantu membaca bagi tunanetra mempunyai masukan berupa teks tercetak (misalnya buku) dan mempunyai keluaran berupa ucapan dari teks tercetak yang diberikan.

• Pada prinsipnya ada dua komponen utamanya, yaitu bagian “pengenal karakter” yang menggunakan teknologi OCR (Optical Character Recognition), serta bagian TTS.

• Dengan alat bantu ini, orang tunanetra dapat membaca suatu buku atau dokumen.

• Bahkan, jika teks yang ingin dibacakan sudah tersedia di dalam komputer, dengan teknologi TTS dapat langsung diucapkan.

Page 14: 06 Natural Language Processing - lms.student.pnm.ac.id

APLIKASI TEKNOLOGI NLP

Alat bantu membaca untuk tunawicara

• Alat bantu membaca bagi tunawicara mempunyai masukan posisi tangan yang dideteksi oleh suatu sensor dan unit identifikasi.

• Rangkaian huruf yang diidentifikasikan akan disusun membentuk suatu kata yang pada akhirnya akan diumpankan pada bagian TTS.

Page 15: 06 Natural Language Processing - lms.student.pnm.ac.id

APLIKASI TEKNOLOGI NLP

Online translator

• Online translator yang dimaksud disini adalah translator yang secara otomatis dapat menerjemahkan kalimat lisan dari suatu bahasa alami (misalnya Bahasa Inggris) menjadi ucapan hasil terjemahannya dalam bahasa alami lainnya (misalnya Bahasa Indonesia).

• Online translator terdiri dari 3 bagian:

• Speech recognition, berfungsi untuk mengenali rangkaian kata dari bahasa sumber menjadi teks dalam bahasa sumber.

• Translator teks ke teks. Hasil bagian kedua ini adalah kalimat bahasa tujuan yang masih berupa teks.

• Sistem TTS dalam bahasa tujuan. Aplikasi seperti ini mungkin untuk dikembangkan, karena teknologi speech recognition sudah banyak dikembangkan.

Page 16: 06 Natural Language Processing - lms.student.pnm.ac.id

APLIKASI TEKNOLOGI NLP

• Talking email atau aplikasi lainnya

TTS juga memungkinkan diintegrasikan dengan berbagai program

aplikasi, seperti email, web browser, aplikasi-aplikasi multimedia

atau aplikasi-aplikasi lainnya.

• Aplikasi Telephony

TTS dapat digunakan pada aplikasi telephony, seperti sistem

informasi billing atau sistem informasi lainnya yang diucapkan

secara lisan. TTS juga dapat digunakan untuk konversi dari SMS

(Short Message System) ke ucapan sehingga pesan SMS dapat

didengar. Dengan demikian memungkinkan untuk mendengar pesan

SMS sambil melakukan aktivitas yang menyulitkan untuk

membacanya, seperti sedang mengendarai mobil. Dengan TTS

tersebut, memungkinkan pula untuk meneruskan pesan SMS ke

sistem telepon biasa (PSTN). Speech Recognition memungkinkan

pencarian informasi secara lisan.

Page 17: 06 Natural Language Processing - lms.student.pnm.ac.id

TERIMA KASIH