implementasi speech recognition untuk komunikasi

Implementasi Speech Recognition untuk Komunikasi

BAB I

PENDAHULUAN

BAB II

ISI

Penggunaan Speech Recognition pada bidang komunikasi sangatlah banyak , namun dalam bahasan kali ini kami hanya akan membahas beberapa saja antara lain adalah :1. Speech Synthetizer (Text-to-speech)

Dari dulu sampai sekarang, para ahli berusaha mengimplamantasikan kecerdasan manusia pada komputer. Berbagai aplikasi artificial intelligence (AI) disematkan dalam komputer agar mesin ini mampu berkomunikasi dengan manusia atau paling tidak manusia. Salah satu AI yang terus dikembangkan sampai saat ini adalah speech synthesizer yang memungkinkan komputer berbicara dalam bahasa manusia.

Di televisi, Anda mungkin pernah menyaksikan Stephen Hawking berbicara di depan mahasiswanya. Fisikawan yang terkenal dengan teori black hole-nya ini sudah tidak mampu lagi mengeluarkan suara dari lisannya, namun berkat teknologi speech synthesizer, dia masih bisa bercakap-cakap. Mesin speech synthesizer Hawking memang cukup kompleks. Alat ini tidak hanya memproduksi suara, tetapi juga menangkap input dari gerakan mata sang doktor. Demikian pula, misalnya, dengan aplikasi voice command yang banyak tertanam di smartphone mutakhir yang memadukan speech recognizer dengan speech synthesizer.

Aplikasi speech synthesizer yang paling sederhana sebenarnya ada pada setiap PC ber-OS Windows. Bila anda menekan tuts Winkey + U di keyboard, Windows akan mengaktifkan Utility Manager, yang di dalamnya terdapat aplikasi Microsoft Narrator. Aplikasi ini akan membaca setiap jendela yang anda aktifkan, termasuk tombol-tombol di dalamnya. Atau, mungkin anda pernah menginstal aplikasi microsoft reader di PC. Aplikasi yang diperuntukkan bagi file >LTT ini pun dilengkapi dengan kemampuan menerjemahkan teks menjadi suara (text to speech) yang merupakan contoh teknologi speech sybthesizer.Teknologi synthesizer

Kualitas terpenting dari sebuah aplikasi speech synthesizer adalah seberapa alami dan inteligibel output yang dihasilkannya. Alami, artinya seberapa dekat suara yang dihasilkan aplikasi speech synthesizer dengan suara manusia. Sedangkan inteligibel adalah seberapa mudah output tersebut dipahami oleh manusia. Semua aplikasi speech synthesizer berusaha untuk menghasilkan output yang alami dan inteligibel sekaligus.

Sampai saat ini, ada banyak teknologi untuk meng-generate gelombang suara sintetis ini. Dua teknologi yang paling banyak digunakan adalah concatenative synthesis dan formant synthesis. Keduanya memiliki keunggulan dan kekurangan sendiri-sendiri.

Teknologi pertama, concatenative synthesis, berbasis pada rangkaian (atau merangkai bersama) segmen-segmen dari suara yang direkam. Umumnya, teknologi ini menghasilkan suara sintesis yang terdengar paling alami.Namun, perbedaan antara suara alami yang

direkam dengan segmentasi gelombang bunyi kadang menghasilkan suara yang menggangu. Mirip seperti suara pemberitahuan nomor antrean di bank atau suara call center operator ponsel yang menyebutkan sisa pulsa dan masa berlaku kartu ponsel anda.

Teknologi kedua, formant synthesis, tidak menggunakan sampel suara manusia melainkan membuat suara sintesi menggunakan model akustik. Parameter-parameter seperti frekuensi dasar, alunan suara, dan tingkat kebisingan bervariasi dari waktu ke waktu untuk menciptakan gelombang suara buatan.

Kebanyakan aplikasi berbasis teknologi ini menghasilkan suara buatan (tidak alami) seperti suara robot. Melihat keterbatasan kedua teknologi ini dalam menghasilkan suara buatan, seperti kita harus sabar menunggu pengembangannya lebih lanjut dalam beberapa tahun atau dekade ke depan.

Alur kerjaSeperti halnya speech recognition , desain aplikasi speech synthesizer tidak hanya

dikerjakan oleh ahli-ahl informatika, melainkan juga melibatkan ahli-ahli linguistik. Untuk memahami cara kerja speech synthesizer, kita mulai dari nama lainnya : text-to-speech, yang artinya mengubah teks menjadi suara. Sekarang kita sudah mendapatkan dua elemen dalam speech synthesizer, yakni teks sebagai elemen input, dan suara sebagai elemen output. Apa yang terjadi di antara input dan output inilah yang disebut proses atau manipulasi. Dalam speech synthesizer, proses dibagi menjadi dua bagian besar: front-end dan back-end.

Bagian front-end memiliki dua tugas utama. Pertama adalah mengkonversi teks mentah yang berisi simbol-simbol seperti angka dan singkatan ke dalam huruf-huruf yang terbaca. Sebagai contoh, tugas pertama bagian front-end mengkonversi teks 1 menjadi one, btw menjadi by the way, dan lain-lain. Proses ini sering disebut sebagai text normalization,pre-processing, atau tokenization. Bagian front-end ini kemudian memberikan transkipsi fonetis pada setiap kata, memisahkannya, dan menandai teks ke dalam unit-unit prosodik (irama, tekanan, dan intonasi), seperti frase (sekelompok kata yang berfungsi sebagai satu unit sintaksis), klausa (anak kalimat), dan kalimat. Proses penyemetan transkipsi fonetis pada kata-kata ini dikenal dengan istilah text-to-phone-me atau graphemeto-phoneme. Transkipsi fonetis dan informasi prosodi tersebut digabung dan membentuk representasi linguistik simbolis yang merupakan output dari front-end. Bagian backend, yang sering disebut sebagai synthesizer itu sendiri, kemudian mengonversi representasi linguistik simbolis ini menjadi suara. Demikianlah gambaran alur kerja sebuah aplikasi speech synthesizer atau text-to-speech.

2. Komando Suara

Pada sistem komando suara ,penggunaan teknologi speech recognition dapat digunakan untuk memberi perintah pada alat-alat elektronik tertentu untuk melakukan sebuah kerja sesuai yang disediakan. Contohnya adalah pada komputer(laptop) , kita dapat memerintah komputer untuk membuka sebuah aplikasi (misalnya kalkulator) hanya dengan mengucapkan “start calculator” dengan intonasi dan tata bahasa yang benar. Jika komando suara yang diberikan sesuai dengan daftar perintah yang tersedia, aplikasi akan memastikan komando suara dengan menampilkan tulisan “Apakah Anda meminta saya untuk ‘mulai kalkulator’?”. Untuk melakukan verifikasi, pengguna cukup mengatakan “Lakukan” dan komputer akan langsung beroperasi. Pada perangkat telepon genggam , ada juga yang menyediakan fitur untuk memulai telepon ke sebuah nomor hanya dengan menyebutkan nama yang sesuai dengan daftar kontak yang ada.

Alur Kerja

Cara kerja pada sistem komando suara ini , kurang lebih demikian :

Pertama-tama perangkat menangkap suara yang diberikan lalu data suara itu dibawa ke speech recognizer untuk diidentifikasi perintah apa yang sudah diberikan oleh user. Setelah suaranya dikenali , maka perintah yang tadi disebutkan akan di verifikasi dengan data yang ada apakah perintah tersebut valid atau tidak. Kalau perintah itu valid, maka tugas akan segera dilaksanaka , bila tidak maka komputer akan memberitahu kalau perintah yang dikatakan tidak benar dan meminta user untuk memberi perintah lainnya.

implementasi speech recognition untuk komunikasi

Documents