bab i
DESCRIPTION
okTRANSCRIPT
BAB IPENDAHULUAN
1.1 Latar Belakang
Suara merupakan salah satu media komunikasi yang paling sering dan
umum digunakan oleh manusia. Manusia dapat memproduksi suaranya dengan
mudah tanpa memerlukan energi yang besar. Suara merupakan salah satu cara
alami manusia untuk berkomunikasi. Dengan suara manusia dapat memberikan
informasi maupun perintah. Oleh karena itu dibutuhkan suatu teknologi yang
memungkinkan manusia dapat berkomunikasi melalui suara untuk berinteraksi
dengan komputer berupa pengenalan suara. (Speech Recognition, 2015)
Dalam Speech Recognition terdapat beberapa permasalahan yang sering
muncul dan berbeda untuk setiap permasalahannya misalnya kecepatan
pengenalannya, ketepatan pengenalannya, dan lain sebagainya. Pengenalan suara
dapat memberikan hasil frekuensi yang berbeda - beda terhadap satu makna suku
kata yang sama dikarenakan perbedaan pelafalan yang disebabkan logat daerah.
Untuk itu diperlukan suatu algoritma pembelajaran mesin yang dapat digunakan
untuk melakukan ekstraksi pola atau ciri suara dengan mempelajari ciri-ciri suara
sebelumnya yaitu suara Bahasa Indonesia asli dengan suara Bahasa Indonesia
menggunakan logat Lampung Dialek A.
Bahasa Lampung adalah bahasa yang dipakai oleh penduduk asli Lampung
untuk berkomunikasi antara sesamanya. Bahasa Lampung ini terbagi menjadi dua
dialek yaitu Dialek A dan Dialek O. Dialek ini dibedakan dengan penggunaan
huruf vokal A dan O pada percakapan sehari - harinya sedangkan intonasi
pengucapannya secara sepintas masih mirip. (Prof. Hilman Hadikusuma, 1983)
2
Dr Van Royen mengklasifikasikan bahasa lampung dalam dua sub dialek
yaitu dialek A (api) dan dialek O (nyow). Dialek A dipertuturkan oleh sebagian
besar etnis lampung yang masih memegang teguh garis adat dan aturan saibatin,
sedangkan dialek O, yang dipertuturkan oleh orang Abung dan Tulang
Bawang.Bagi masyarakat lampung, bahasa lampung berarti dialek [o] dan dialek
[a]. Perbedaannya tidak hanya dalam hal geografis namun juga terdapat beberapa
kata yang berbeda. Pengertian umum di masyarakat Lampung, bahasa Lampung
dengan dialek [o] adalah bahasa yang dipergunakan masyarakat Lampung di
wilayah nonpesisir.Adapun bahasa Lampung dialek [a] adalah bahasa yang
dipergunakan masyarakat pesisir (Sabaruddin SA, 2012).
Penelitian ini dibuat dengan menggunakan metode MFCC (Mel Frequency
Cepstrum Coefficients) feature extraction. MFCC feature extraction
mengkonversikan sinyal suara kedalam beberapa vektor data berguna bagi proses
pengenalan pembicara. (Daniel Jurafsky, 2007)
Algoritma Neural Network merupakan salah satu algoritma pembelajaran
mesin yang meniru proses yang terjadi pada kehidupan alami. Algoritma
Neural Network merupakan algoritma yang memungkinkan mesin untuk
belajar dari pengalaman. (Andrey Kiselev, 2011)
Awal dimulainya penelitian tentang Speech Recognition pada tahun 1874
saat Alexander Graham Bell berhasil membuktikan bahwa frekuensi harmoni dari
sebuah sinyal elektrik dapat dibagi-bagi yang kemudian kini sudah banyak
peneliti yang melakukan penelitian seperti : Improving The Robustness of Noisy
MFCC Feature using Minimal Recurrent Neural Network (I. Potamitis, 2000),
Investigation of Deep Neural Networks(DNN) For Large Vocabulary Continous
3
Speech Recognition : Why DNN Surpasses GMMS in Acoustic Modeling (Jia
Pan, 2012), Automatic Noise Recognition Based on Neural Network Using LPC
and MFCC Feature Parameters (Reza Haghmaram, 2012), Neural Network Based
Recognition of Speech Using MFCC Features (Pialy Barua, 2014), Speech
Recognition using Wavelet Packets, Neural Networks and Support Vector
Machines (Purva Kulkarni, 2014).
Berdasarkan Penelitian terdahulu, peneliti berhasil mengidentifikasi
beberapa metode yang biasa digunakan dalam ekstrasi ciri suara yaitu Mel
Frequency Cepstral Coeffecients (MFCC) dengan kelebihan waktu ekstrasi yang
cepat dan tingkat akurasi yang lebih tinggi dari LPC & PS-ZCPA namun
kekurangannya adalah membutuhkan tahapan ekstrasi yang lebih banyak
dibandingkan LPC & PS-ZCPA, Pitch-Synchronous Zero-crossing peak-
amplitude (PS-ZCPA) dengan kelebihan yaitu dapat membedakan ambang suara
dan ambang diam namun kekurangannya adalah waktu proses ekstrasi yang lama
dan tingkat akurasi yang kurang dari HMM & MFCC , Linear Predictive Coding
(LPC) dengan kelebihan yaitu tahapan ekstrasi yang lebih pendek daripada MFCC
& PS-ZCPA namun tingkat akurasi lebih rendah daripada MFCC, dan beberapa
algoritma yang biasa digunakan dalam pencocokan frekuensi suara yaitu Dynamic
Time Warping (DTW) dengan kelebihan yaitu dapat mendeteksi pola yang sangat
lambat maupun sangat cepat dikarenakan pembacaan panjang pendeknya
gelombang frekuensi namun kelemahannya adalah urutan pembacaannya sering
kali tidak sesuai yang di harapkan, Hidden Markov Model (HMM) dengan
kelebihan yaitu mudah menerapkan variabel urutan dan mudah digunakan, Neural
4
Network (NN) dengan kelebihan yaitu algoritma ini dapat belajar sendiri dengan
kasus yang ada.
Algoritma Neural Network cocok untuk diaplikasikan ke permasalahan
yang hanya diketahui masukan serta keluarannya, dan proses yang membutuhkan
target dengan bentuk yang kompleks. Dengan alasan tersebut maka dihasilkan
hipotesis bahwa ekstrasi suara dengan MFCC dan algoritma Neural Network
dapat dipergunakan untuk menyelesaikan permasalahan pengenalan suara pada
logat Dialek A.
Oleh karena itu penulis tertarik untuk memilih judul “implementasi MFCC
& Neural Network untuk pencocokkan frekuensi bahasa indonesia asli
dengan logat bahasa lampung dialek A”.
1.2 Rumusan Masalah
Berdasarkan latar belakang, maka dapat dirumuskan masalah yang akan
diteliti yaitu:
1. Bagaimana membuat sistem yang dapat menangkap sinyal ucapan kemudian
dirubah menjadi sinyal frekuensi menggunakan metode MFCC (Mel
Frequency Cepstrum Coefficient) ?
2. Bagaimana mengenali ucapan antara logat Indonesia dan logat Lampung
Dialek A dengan frekuensi yang berbeda dengan maksud yang sama
menggunakan Neural Network ?
5
1.3 Batasan Masalah
Penulis membatasi penelitian ini antara lain :
1. Metode ekstraksi sinyal yang digunakan yaitu MFCC (Mel Frequency
Cepstrum Coefficient).
2. Metode pembelajaran yang mencocokan sinyal adalah Neural Network..
3. Sinyal suara disimpan dalam file .wav
4. Kata yang di teliti adalah Proklamati, Proklamasi, Prokmamadi.
5. Logat yang diteliti adalah logat Lampung berdialek A.
1.4 Tujuan Penelitian
1. Menerapakan metode MFCC (Mel Frequency Cepstrum Coefficient) dan
Neural Network untuk pengenalan ucapan atau speech recognition.
2. Membuat sistem yang mampu menganalisis dan mengenali pola ucapan atau
suara masukan kata yang diucapkan menggunakan logat bahasa Lampung
dialek A yang menghasilkan keluaran yang sesuai dengan ucapan
menggunakan bahasa indonesia asli untuk proses pencocokan sinyal.
1.5 Manfaat/Kontribusi Penelitian
Manfaat dari penelitian ini adalah yaitu agar orang yang memiliki logat
bahasa lampung dialek A saat mengucapkan bahasa indonesia asli dapat juga
dimengerti oleh mesin sehingga menghasilkan keluaran yang semestinya dan
dapat menggunakan teknologi speech recognition.
6
1.6 Keaslian Penelitian
Kecerdasan Buatan Speech Recoqnition ini merupakan suatu karya ilmiah,
yang dibuat guna mengembangkan hasil belajar di lingkungan Perguruan Tinggi
Teknokrat serta memiliki perbedaan pengembangan dari penelitian yang sudah
pernah dilaksanakan oleh peneliti terdahulu di luar Perguruan Tinggi Teknokrat.
Adapun penelitian terdahulu yang serupa namun terdapat perbedaan pada
penelitiannya seperti:
1. Oleh Reza Haghmaram, Ali Aroudi, Mohammad Hossein Ghezel Aiagh,
Hadi Veisi (2012) dari Departemen Elektro & Departemen Komputer,
IHU & Sharif University of Technology dengan judul Automatic Noise
Recognition Based on Neural Network Using LPC and MFCC Feature
Parameters.
2. Oleh Jia Pan, Cong Liu, Zhiguo Wang, Yu Hu, Hui Jiang (2012) dari
Departemen Komputer Sains & Teknik, Universitas York dengan judul
Investigation of Deep Neural Networks (DNN) For Large Vocabulary
Continous Speech Recognition : Why DNN Surprasses GMMS in
Acoustic Modeling.
3. Oleh Pialy Barua, Kanji Ahmad, Ainul Anam Shahjamal Khan,
Muhammad Sanaullah (2014) dari Departemen Teknik Elektrik dan
Elektronika, Universitas Chittagong dengan judul Neural Network Based
Recognition of Speech Using MFCC Features.
4. Oleh Purva Kulkarni, Saili Kulkarni, Sucheta Mulange, Aneri Dand, Alice
N Cheeran (2014) dari Teknik Elektrik, Institut Teknologi Veermata
Jijabai.
7
5. Oleh O. Potamitis, N. Fakotakis, G. Kokkinakis (2000) dari Departemen
Teknik Elektro dan Komputer, Universitas Patras.
Perbedaan penelitian terdahulu dengan penelitian “Implementasi MFCC & Neural
Network Untuk Pencocokkan Frekuensi Bahasa Indonesia Asli Dengan Logat
Bahasa Lampung Dialek A” adalah:
1. Logat lampung menjadi objek penelitian.
2. Kecerdasan buatan ini dibangun dengan menggunakan dua metode yaitu
metode MFCC dan untuk pencocokan sinyal suara menggunakan metode
neural network.