speech recognition / pengenalan suara

12650026 | AS Wahid Faizin

Paper Tentang Speech Recognition

Abstract

Suara atau ucapan adalah cara berkomunikasi yang paling sering dilakukan oleh manusia.

Komunikasi yang dilakukan antara manusia dan komputer sering disebut sebagai Human

Computer Interface (HCI) atau Interaksi manusia dan komputer (IMK). Pengenalan suara atau

Speech Recognition menjadi salah satu hal potensial penting yang menjadi perhatian dalam

interaksi antara manusia dan komputer. Desain dari sistem Speech Recognition membutuhkan

perhatian dan penanganan yang khusus dan hati-hati, pada sistem itu terdapat beberapa kendala:

realisasi akustik fonem, keragaman akustik, keragaman pengucapan atau dialek bahasa, kondisi

emosional pembicara, kecepatan berbicara atau kualitas suara, lingkungan.

Keywords: Pengenalan suara, Pengolahan Suara, Interaksi Manusia dan Komputer, ASR.

Pendahuluan

Speech Recognition atau Automatic Speech Recognition (ASR) atau pengenalan suara

adalah sebuah proses konversi sinyal suara menjadi kata atau perintah. Dalam hal ini diperlukan

sebuah algoritma yang diinmplementasikan menjadi sebuah program komputer untuk menjalankan

perintah tersebut. Aplikasi pengenalan suara yang telah diimplementasikan hingga saat ini antara

lain untuk melakukan panggilan (Misalnya, "Panggil Ayah"), Melakukan input data sederhana

(Misalnya, memasukkan nomor kartu kredit), Pengolahan kata menjadi teks (Misal, windows

speech recognition), sistem pesawat (Misal, pengatur lalu-lintas udara atau yang dikenal

dengan Air Traffic Controllers ).

Pembahasan

Model dasar Speech Recognition

Penelitian di bidang pengolahan suara telah memotivasi banyak orang untuk menciptakan

model mekanik untuk meniru kemampuan komunikasi verbal manusia. Berbicara adalah bentuk

komunikasi manusia yang paling dasar, dan pengolahan suara telah menjadi salah satu hal yang

paling diperhatikan dalam bidang signal processing. Tujuan utama dari teknologi pengenalan

suara adalah menciptakan sebuah teknik dan sistem untuk memasukkan perintah suara ke dalam

mesin, agar mesin dapat mengerti apa yang manusia ucapkan dan mematuhi apa yang

diperintahkannya.

Sejarah Speech Recognition

Sejarah perkembangan dari speech recognition telah dimulai lebih dari 1 abad yang lalu,

dalam sejarah ada beberapa peristiwa penting yang tercatat, yaitu:

Tahun 1874 : Alexander Graham Bell berhasil membuktikkan bahwa frekuensi harmoni dari

sebuah sinyal elektrik dapat dibagi-bagi yang kemudian hari berlanjut pada digitalisasi ucapan.

Tahun 1952 : Bell Labs mengembangkan speech recognizer pertama dengan menggunakan

teknologi pemisah frekuensi yang serupa dengan teknologi yang dikembangkan oleh

Alexander Graham Bell.

1971-1976 : Defence Advance Research Project Agency dibentuk yang merupakan proyek

riset dengan dana dari pemerintah AS. Tujuan dari proyek ini adalah untuk melakukan

penelitian teknologi speech recognition. Penemuan terbesar yang dihasilkan proyek ini adalah


peningkatan dalam menekan permasalahan variabilitas suara. Pada rentang tahun yang sama

pula ditemukan :

Pemrograman dinamik oleh tiga peneliti asal Jepang, Itakura, Skoe, dan Chiba yang

dikemudian hari menjadi dasar bagi deret waktu non-linier.

Pemodelan Makov oleh Jim Baker dan Fred Jelinek dari IBM yang merupakan pemodelan

untuk menentukan letak informasi tetap dalam sebuah sinyal suara (speech signal).

Pertengahan tahun 1970-an : Itakura mengadakan sebuah riset untuk mengembangkan

sebuah produk yang berbasis pada asumsi bahwa noise itu walaupun terdengar sama namun

pada kenyataannya tidak demikian. Produk tersebut akurasinya mencapai 97,3% saat diuji

menggunakan 200 kosakata.

Bell Labs mengembangkan sistem yang mampu mengenali suara dari orang-orang yang

berbeda dengan akurasi hingga 97,1%.

Akhir tahun 1970-an : Produk speech recognition pertama mulai dipasarkan dengan harga

mulai $259 hingga $100.000.

Tahun 1980-an : Pasaran speech recognition mulai digolongkan menjadi dua, yaitu Call

Center Speech Recognition System dan Speech-to-Text Application.

Tahun 1990-an : Prosesor sebuah personal computer telah sanggup memenuhi level

minimal yang diperlukan agar sebuah software speech recognition dapat berjalan dengan

lancar serta efektif untuk penggunaan pribadi.

Tahun 1999 : Sebuah program speech recognition baru telah mampu memahami

pembicaraan manusia secara berkesinambungan dengan tingkat akurasi hingga 99% yang

membuatnya dapat dengan mudah digunakan oleh pengguna awam sekaligus.

Jenis-jenis Speech Recognition

Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan

kata, yaitu :

1. Kata-kata yang terisolasi

Proses pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika

kata tersebut memiliki jeda waktu pengucapan antar kata

2. Kata-kata yang berhubungan

Proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun

membutuhkan jeda waktu pengucapan antar kata yang lebih singkat

3. Kata-kata yang berkelanjutan

Proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenal kata-

kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat

sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena

membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa

jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural

4. Kata-kata spontan

Proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara

spontan tanpa jeda waktu antar kata

5. Verifikasi atau identifikasi suara

Proses pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga

mengidentifikasi siapa yang berbicara.


Proses produksi dan pengenalan suara pada manusia

Spektrum setiap suara manusia berbeda-beda. Hal ini didasarkan pada bentuk

tenggorokan, velum dan organ lain yang merupakan organ reproduksi suara pada manusia yang

berbeda-beda untuk setiap individu. Lekukan-lekukan pada organ inilah yang menentukan jenis

suara manusia. Sedangkan sumber suara dihasilkan oleh getaran pada pita suara. Proses

Produksi suara (Speech Generation) hingga Pengenalan suata (Speech Recognition) pada

komunikasi antara 2 buah subyek (Gambar A).

Gambar A. Diagram produksi dan pengenalan suara pada manusia

Proses produksi suara adalah suatu proses untuk menghasilkan sinyal suara manusia dimana

sinyal suara pada awalnya berasal dari otak yang memformulasikan pesan yang ingin disampaikan

melalui mulut. Pesan tersebut sebenarnya adalah seperti halnya teks/tulisan kemudian diolah

menjadi kode bahasa (languange code). Kode bahasa ini sebenarnya adalah

sebuah database (memori) dalam otak kita yang mencocokkan pesan dengan kode-kode tersebut.

Keluaran dari proses tersebut akan diteruskan oleh proses neuro-moscular actions dimana pa da

proses ini melakukan kontrol terhadap semua aspek gerak artikulasi seperti kontrol bibir, rahang

dan lidah. Proses produksi suara ini sering diistilahkan sebagai speech

synthesizing (pensintsesaan suara).

Beda halnya dengan pengenal suara yang merupakan kebalikan dari produksi suara yang

mana suara akan diolah akan masuk ke telinga (yang diimplementasikan oleh mikrofon) yang

kemudian dilakukan spectrum analysis dan feature extraction dan coding oleh neural transduction.

Selain itu pada bagian ini juga dilakukan pemilahan dari sinyal suara yang masuk dan menentuan

semantik (arti) dari sinyal diskrit tersebut dengan mencocokan dengan kode bahasa yang

merupakan kebalikan kode bahasa dari produksi suara. Untuk lebih jelasnya dapat dilihat diagram

blok speech generation dan speech recognition (Gambar B).


Gambar B. Diagram blok hubungan antara Speech Generation dan

Speech Recognition

Perbandingan antara Automatic Speech Recognition dan Human Speech Recognition

Sejauh ini perbandingan akurasi yang paling komprehensif antara ASR dan manusia

dilakukan oleh Lippmann pada tahun 1997. Lippmann menyusun hasil dari berbagai sumber

terpercaya dan menyajikannya dalam Word Error Rates (WER) atau perbandingan tingkat

kesalahan untuk berbagai tugas dan konsdisi.

Tabel 1 : Perbandingan akurasi antara ASR dan dan manusia

Dari tabel tersebut dapat dilihat bahwa kesalahan pengenalan kata pada ASR presentasinya

lebih tinggi dari pengenalan kata yang dilakukan oleh manusia.

Referensi

1. M.A.Anusuya and S.K.Katti. 2009. Speech Recognition by Machine: A Review. (Online),

(arxiv.org/pdf/1001.2267, diakses pada 3 September 2014).

2. Lippmann, R. 1997. Speech Recognition by Machines and Humans. (Online),

(http://www.ee.columbia.edu/~dpwe/classes/e6820-2006-01/papers/Lipp97-hummach.pdf,

diakses pada 3 September 2014).

3. http://id.wikipedia.org/wiki/Pengenalan_ucapan, diakses pada 3 September 2014.

4. http://yanti91.blogspot.com/2012/10/tugas-2-speech-recognition_12.html, diakses pada 3

September 2014.

speech recognition / pengenalan suara

Technology