tahapan speech recognition

5
 Jenis-jenis Speech Recognition Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 (lima) jenis pengenalan kata, yaitu: a. Ka ta-kat a yang teri sola si , yait u proses pengid en ti fi kasi an kata yan g ha nya da pat mengenal kata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata. b. Ka ta-kat a yang be rhub un gan, yait u pros es pen gi de nt if ikasia n kata yan g mi ri p de ng an kata- kata terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat. c. Ka ta-kat a yang ber kelanj ut an , yai tu pro ses pengi de nt if ikasian kat a yang sudah lebi h maj u karena dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa  jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural. d. Kata- kat a spontan , yai tu pr oses pengide nti fik asi an kat a yan g dapat mengena l kat a-k at a yan g diucapkan secara spontan tanpa jeda waktu antar kata. e. Veri fik asi a tau i denti fik asi suara, yai tu pr ose s pen gid ent ifi kasian kat a yan g tid ak ha nya mampu mengenal kata, namun juga mengidentifikasi siapa yang berbicara. Tahapan Proses Speech Recognition Sala h sat u apl ikasi spe ech reco gni tion ope n sou rce yang terkenal adalah Sph ink-4. Kon figu rasi apli kasi Sph inx-4 terli hat pad a gambar diat as. Dari konf igur asi terse but terli hat bahw a Sph inx mempunyai tiga komponen yaitu front end (berfungsi untuk antarmuka dari voice input ), decoder (komponen yan g berfu ngs i untuk memberikan score), dan linguist (yan g men ghas ilkan graf ik pen carian di database suar a). Kompon en-k omp onen ini pad a gilir ann ya aka n memban gun sub komponen mereka sendiri. Sebagai contoh, linguist akan membangun acoustic model , dictionary , dan languag e model . Linguist ini akan menggunakan pengetahuan dari tiga komponen untuk membangun sebuah grafik pencarian yang sesuai. Decoder akan membangun pengaturan pencarian, yang pada gilirannya membangun score, pruner , dan active list .

Upload: roesso9489

Post on 15-Jul-2015

211 views

Category:

Documents


0 download

TRANSCRIPT

5/12/2018 Tahapan Speech Recognition - slidepdf.com

http://slidepdf.com/reader/full/tahapan-speech-recognition 1/5

Jenis-jenis Speech Recognition

Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 (lima) jenis pengenalankata, yaitu:

a. Kata-kata yang terisolasi, yaitu proses pengidentifikasian kata yang hanya dapat mengenalkata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata.

b. Kata-kata yang berhubungan, yaitu proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat.

c. Kata-kata yang berkelanjutan, yaitu proses pengidentifikasian kata yang sudah lebih majukarena dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jedawaktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumitkarena membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa

 jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural.

d. Kata-kata spontan, yaitu proses pengidentifikasian kata yang dapat mengenal kata-kata yangdiucapkan secara spontan tanpa jeda waktu antar kata.

e. Verifikasi atau identifikasi suara, yaitu proses pengidentifikasian kata yang tidak hanya mampumengenal kata, namun juga mengidentifikasi siapa yang berbicara.

Tahapan Proses Speech Recognition

Salah satu aplikasi speech recognition open source yang terkenal adalah Sphink-4. Konfigurasiaplikasi Sphinx-4 terlihat pada gambar diatas. Dari konfigurasi tersebut terlihat bahwa Sphinxmempunyai tiga komponen yaitu front end  (berfungsi untuk antarmuka dari voice input ), decoder (komponen yang berfungsi untuk memberikan score), dan linguist  (yang menghasilkan grafikpencarian di database suara). Komponen-komponen ini pada gilirannya akan membangun subkomponen mereka sendiri. Sebagai contoh, linguist akan membangun acoustic model , dictionary , danlanguage model . Linguist  ini akan menggunakan pengetahuan dari tiga komponen untuk membangunsebuah grafik pencarian yang sesuai. Decoder akan membangun pengaturan pencarian, yang pada

gilirannya membangun score, pruner , dan active list .

5/12/2018 Tahapan Speech Recognition - slidepdf.com

http://slidepdf.com/reader/full/tahapan-speech-recognition 2/5

Gambar 1. Konfigurasi Aplikasi Sphinx-41

Ketika terdapat input suara melalui front end , decoder  akan memberikan score berdasarkankomponen linguist . Score tertinggi akan di tampilkan sebagi hasil dari speech recognition ke aplikasimelalui front end . Tahapan yang dibuat dalam speech recognition adalah sebagai berikut:a. Merekam sumber suara misal dari 200 orang (100 orang laki-laki, 100 orang perempuan). Hal

untuk mengumpulkan database suara. Dalam perekaman ini diperlukan suatu ruangan kedap

suara seperti terlihat pada gambar 13. Ruangan kedap suara ini harus mempunyaikarakteristik sebagai berikut:1) Sound insulation level : 30 dB2) Background noise level : 22 dB

3) Reverberation time : 0,15 detik.

1 Http://cmusphinx.sourceforge.net/sphinx4/javadoc/

5/12/2018 Tahapan Speech Recognition - slidepdf.com

http://slidepdf.com/reader/full/tahapan-speech-recognition 3/5

Gambar 2. Ruangan Kedap Suara

Dibawah ini merupakan contoh hasil perekaman:

Gambar 3. Contoh Sinyal Suara

b. Pembangunan lexicon

Proses ini berupa pengumpulan teks–teks yang nantinya akan dikenali oleh engine speechrecognition.

c.  Acoustic model  

Adalah suatu model yang merepresentasikan statistik dari suara setiap kata yang diucapkan.Dari hasil perekaman sumber suara tersebut akan diolah untuk menghasilkan acoustic modelling . Untuk membuat acoustic model  diperlukan file wav  (hasil rekaman) dan daftar alamat penempatan file wav itu di dalam suatu direktori.

d. Language model  

Adalah model yang akan digunakan untuk membuat representasi statistik suara yangmembentuk setiap kata.

Proses Pengenalan Suara secara Identifikasi dan Verifikasi

Proses pengenalan suara terbagi menjadi Verification dan Identification. Speech Identification adalahproses pelatihan seseorang atau huruf yang diucapkan ke pengenalan suara dengan caramendaftarkan pembicara dari ucapan yang diberikan. Speech Verification adalah proses penentuan

5/12/2018 Tahapan Speech Recognition - slidepdf.com

http://slidepdf.com/reader/full/tahapan-speech-recognition 4/5

identitas pembicara atau arti dari suara yang diucapkan oleh pembicara yang dibandingkan dengandata yang telah tersimpan pada sistem.

Proses Pengenalan Suara Offline dan Online

Sistem offline adalah suatu sistem yang menghasilkan output dengan bantuan proses secara manualoleh user. Sedangkan sistem online adalah sistem yang menghasilkan output tanpa bantuan prosessecara manual oleh user.Umumnya pengenalan suara memiliki tahap pelatihan/identifikasi dan verifikasi. Pada prosesidentifikasi memiliki tahap normalisasi, ekstraksi ciri, klasifikasi. Proses pengenalan suara offlinemaupun online terdapat proses identifikasi namun terdapat perbedaan pada proses verifikasi, padapengenalan suara secara offline verifikasi dilakukan dengan cara suara yang akan dikenali direkamterlebih dahulu sebelum memulai proses pengenalan suara sedangkan jika pada proses secara onlineverifikasi dilakukan dengan dinamis yaitu menggunakan pengucapan suara langsung tanpa melaluiproses perekaman terlebih dahulu.

Gambar 4. Perbedaan proses verifikasi suara pada proses Offline dan Online 

Parameter Pengenalan Suara

Aplikasi pengenalan suara dibatasi berdasarkan parameter pengenalan suara yang digunakan. Hal inidapat membedakan keberhasilan antara satu aplikasi dengan yang lain. Keberhasilan aplikasi dengan

parameter tertentu belum tentu dapat diaplikasikan dalam aplikasi lain dengan parameter berbeda.Beberapa parameter yang paling penting terdapat pada tabel 2 berikut:

Tabel 1. Tabel Parameter Pengenalan Suara

Parameter tersebut adalah:a. Speaking Mode, model pengucapan isolated word artinya pembicara memerlukan jeda untuk

pengucapan antara satu kata dengan kata yang lain, sedangkan continous speech tidak.b. Speaking Style, pembicara berbicara dengan cara spontan atau dengan persiapan, seperti

kasus pengucapan pidato atau orang yang berbicara secara langsung. Orang yang berbicara

P a r a m e t e r R a n g e

S p e a k i n g M o d e I s o l a t e d w o r d ss a m p a ic o n t i n u o u s s p e e c h

S p e a k i n g S t y l e R e a d s p e e c hs a m p a i s p o n t a n e o u s s p e e c h

 E n r o l l m e n t S p e a k e r  - d e p e n d e n t  s a m p a iS p e a k e r  - i n d e p e n d e n t  

V o c a b u l a r y S e d i k i t ( < 2 0 k a t a ) s a m p a i

 L a n g u a g e M o d e l   F i n i t e s t a t es a m p a ic o n t e x t  - s e n s i t i v e 

S N R T i n g g i ( > 3 0 d B ) s a m p a i R e n

T r a n s d u c e r   U c a p a n p a d a m i k r o p o n s a m

5/12/2018 Tahapan Speech Recognition - slidepdf.com

http://slidepdf.com/reader/full/tahapan-speech-recognition 5/5

secara langsung lebih sulit dikenali dari pada orang berpidato.

c. Enrollment, mendaftarkan sumber suara dari pembicara, speaker dependent  artinya sistemdigunakan hanya untuk mengenali satu orang pembicara sedangkan speaker independent artinya sistem dapat digunakan bebas untuk pembicara mana pun.

d. Vocabulary, maksudnya bahwa range suku kata yang diucapkan jika lebih kecil dari 20 katadisebut Small Vocabulary dan jika lebih dari 20.000 kata disebut Large Vocabulary.

e. Language Model  adalah proses pengenalan suara model bahasa yang digunakan seperti,gaya suara, mood  dan lain-lain. Hal ini terbagi dua, yaitu: finite state artinya model bahasaterbatas sedangkan context-sensitive dapat mengenali berbagai model bahasa.

f. Perplexity, maksudnya tingkat error pengenalan pengucapan pada kata yang berbunyi sama(sulit menentukan maksud huruf/kata yang diucapkan), hal ini berkaitan dengan tingkatVocabulary  yang digunakan misalnya penelitian 10 digit  suara “Zero”  sampai “Nine”  dapatdikenali dengan baik (Doddington 1989), tetapi jika ukuran vocabulary 200, 500, atau 10.000 memiliki rata-rata error 3%, 7% atau 45 % (Itakura 1975, Miyatake 1990, Kimura 1990).Namun hal ini dapat memiliki hasil berbeda jika memiliki kata yang berbunyi sama, sepertipada kasus pengenalan 26 huruf bahasa Inggris sulit membedakan kata yang berbunyi berset-E, seperti huruf B, C, D, E, G, P, T, V, Z dalam hal ini jika dihasilkan error 8 % sudah termasuk

bagus (Hild & Waibel 1993).g. SNR (Signal to Noise Ratio), adalah ratio perbandingan daya sinyal dengan daya background 

noise, disebut SNR tinggi di lingkungan jika di atas 30 dB dan disebut SNR rendah jika kurangdari 30dB. Tingkat SNR menunjukkan apakah noise berpengaruh pada kejelasan sinyalsehingga jika SNR yang tinggi maka dihasilkan informasi yang semakin banyak untukdiperoleh dan pengenalan semakin tinggi sedangkan jika pada SNR rendah maka prosespengenalan suara memiliki keberhasilan yang lebih sedikit.

h. Transducer, artinya proses perubahan besaran suara dari sinyal analog ke sinyal digital, hal inibiasanya penggunaan media dalam pengaturan frekuensi sampling, filter noise, dansebagainya. Hal ini berbeda sekali jika menggunakan mikropon yang suara disekat-sekatdengan menggunakan telepon yang memiliki karakteristik alat berbeda dimana mikropon

biasanya memiliki frekuensi sampling 16 KHz  dan telepon 8 KHz, begitu pula tingkat noiseyang perlu diredam.