bab i

BAB IPENDAHULUAN

1.1 Latar Belakang

Suara merupakan salah satu media komunikasi yang paling sering dan

umum digunakan oleh manusia. Manusia dapat memproduksi suaranya dengan

mudah tanpa memerlukan energi yang besar. Suara merupakan salah satu cara

alami manusia untuk berkomunikasi. Dengan suara manusia dapat memberikan

informasi maupun perintah. Oleh karena itu dibutuhkan suatu teknologi yang

memungkinkan manusia dapat berkomunikasi melalui suara untuk berinteraksi

dengan komputer berupa pengenalan suara. (Speech Recognition, 2015)

Dalam Speech Recognition terdapat beberapa permasalahan yang sering

muncul dan berbeda untuk setiap permasalahannya misalnya kecepatan

pengenalannya, ketepatan pengenalannya, dan lain sebagainya. Pengenalan suara

dapat memberikan hasil frekuensi yang berbeda - beda terhadap satu makna suku

kata yang sama dikarenakan perbedaan pelafalan yang disebabkan logat daerah.

Untuk itu diperlukan suatu algoritma pembelajaran mesin yang dapat digunakan

untuk melakukan ekstraksi pola atau ciri suara dengan mempelajari ciri-ciri suara

sebelumnya yaitu suara Bahasa Indonesia asli dengan suara Bahasa Indonesia

menggunakan logat Lampung Dialek A.

Bahasa Lampung adalah bahasa yang dipakai oleh penduduk asli Lampung

untuk berkomunikasi antara sesamanya. Bahasa Lampung ini terbagi menjadi dua

dialek yaitu Dialek A dan Dialek O. Dialek ini dibedakan dengan penggunaan

huruf vokal A dan O pada percakapan sehari - harinya sedangkan intonasi

pengucapannya secara sepintas masih mirip. (Prof. Hilman Hadikusuma, 1983)

2

Dr Van Royen mengklasifikasikan bahasa lampung dalam dua sub dialek

yaitu dialek A (api) dan dialek O (nyow). Dialek A dipertuturkan oleh sebagian

besar etnis lampung yang masih memegang teguh garis adat dan aturan saibatin,

sedangkan dialek O, yang dipertuturkan oleh orang Abung dan Tulang

Bawang.Bagi masyarakat lampung, bahasa lampung berarti dialek [o] dan dialek

[a]. Perbedaannya tidak hanya dalam hal geografis namun juga terdapat beberapa

kata yang berbeda. Pengertian umum di masyarakat Lampung, bahasa Lampung

dengan dialek [o] adalah bahasa yang dipergunakan masyarakat Lampung di

wilayah nonpesisir.Adapun bahasa Lampung dialek [a] adalah bahasa yang

dipergunakan masyarakat pesisir (Sabaruddin SA, 2012).

Penelitian ini dibuat dengan menggunakan metode MFCC (Mel Frequency

Cepstrum Coefficients) feature extraction. MFCC feature extraction

mengkonversikan sinyal suara kedalam beberapa vektor data berguna bagi proses

pengenalan pembicara. (Daniel Jurafsky, 2007)

Algoritma Neural Network merupakan salah satu algoritma pembelajaran

mesin yang meniru proses yang terjadi pada kehidupan alami. Algoritma

Neural Network merupakan algoritma yang memungkinkan mesin untuk

belajar dari pengalaman. (Andrey Kiselev, 2011)

Awal dimulainya penelitian tentang Speech Recognition pada tahun 1874

saat Alexander Graham Bell berhasil membuktikan bahwa frekuensi harmoni dari

sebuah sinyal elektrik dapat dibagi-bagi yang kemudian kini sudah banyak

peneliti yang melakukan penelitian seperti : Improving The Robustness of Noisy

MFCC Feature using Minimal Recurrent Neural Network (I. Potamitis, 2000),

Investigation of Deep Neural Networks(DNN) For Large Vocabulary Continous

3

Speech Recognition : Why DNN Surpasses GMMS in Acoustic Modeling (Jia

Pan, 2012), Automatic Noise Recognition Based on Neural Network Using LPC

and MFCC Feature Parameters (Reza Haghmaram, 2012), Neural Network Based

Recognition of Speech Using MFCC Features (Pialy Barua, 2014), Speech

Recognition using Wavelet Packets, Neural Networks and Support Vector

Machines (Purva Kulkarni, 2014).

Berdasarkan Penelitian terdahulu, peneliti berhasil mengidentifikasi

beberapa metode yang biasa digunakan dalam ekstrasi ciri suara yaitu Mel

Frequency Cepstral Coeffecients (MFCC) dengan kelebihan waktu ekstrasi yang

cepat dan tingkat akurasi yang lebih tinggi dari LPC & PS-ZCPA namun

kekurangannya adalah membutuhkan tahapan ekstrasi yang lebih banyak

dibandingkan LPC & PS-ZCPA, Pitch-Synchronous Zero-crossing peak-

amplitude (PS-ZCPA) dengan kelebihan yaitu dapat membedakan ambang suara

dan ambang diam namun kekurangannya adalah waktu proses ekstrasi yang lama

dan tingkat akurasi yang kurang dari HMM & MFCC , Linear Predictive Coding

(LPC) dengan kelebihan yaitu tahapan ekstrasi yang lebih pendek daripada MFCC

& PS-ZCPA namun tingkat akurasi lebih rendah daripada MFCC, dan beberapa

algoritma yang biasa digunakan dalam pencocokan frekuensi suara yaitu Dynamic

Time Warping (DTW) dengan kelebihan yaitu dapat mendeteksi pola yang sangat

lambat maupun sangat cepat dikarenakan pembacaan panjang pendeknya

gelombang frekuensi namun kelemahannya adalah urutan pembacaannya sering

kali tidak sesuai yang di harapkan, Hidden Markov Model (HMM) dengan

kelebihan yaitu mudah menerapkan variabel urutan dan mudah digunakan, Neural

4

Network (NN) dengan kelebihan yaitu algoritma ini dapat belajar sendiri dengan

kasus yang ada.

Algoritma Neural Network cocok untuk diaplikasikan ke permasalahan

yang hanya diketahui masukan serta keluarannya, dan proses yang membutuhkan

target dengan bentuk yang kompleks. Dengan alasan tersebut maka dihasilkan

hipotesis bahwa ekstrasi suara dengan MFCC dan algoritma Neural Network

dapat dipergunakan untuk menyelesaikan permasalahan pengenalan suara pada

logat Dialek A.

Oleh karena itu penulis tertarik untuk memilih judul “implementasi MFCC

& Neural Network untuk pencocokkan frekuensi bahasa indonesia asli

dengan logat bahasa lampung dialek A”.

1.2 Rumusan Masalah

Berdasarkan latar belakang, maka dapat dirumuskan masalah yang akan

diteliti yaitu:

1. Bagaimana membuat sistem yang dapat menangkap sinyal ucapan kemudian

dirubah menjadi sinyal frekuensi menggunakan metode MFCC (Mel

Frequency Cepstrum Coefficient) ?

2. Bagaimana mengenali ucapan antara logat Indonesia dan logat Lampung

Dialek A dengan frekuensi yang berbeda dengan maksud yang sama

menggunakan Neural Network ?

5

1.3 Batasan Masalah

Penulis membatasi penelitian ini antara lain :

1. Metode ekstraksi sinyal yang digunakan yaitu MFCC (Mel Frequency

Cepstrum Coefficient).

2. Metode pembelajaran yang mencocokan sinyal adalah Neural Network..

3. Sinyal suara disimpan dalam file .wav

4. Kata yang di teliti adalah Proklamati, Proklamasi, Prokmamadi.

5. Logat yang diteliti adalah logat Lampung berdialek A.

1.4 Tujuan Penelitian

1. Menerapakan metode MFCC (Mel Frequency Cepstrum Coefficient) dan

Neural Network untuk pengenalan ucapan atau speech recognition.

2. Membuat sistem yang mampu menganalisis dan mengenali pola ucapan atau

suara masukan kata yang diucapkan menggunakan logat bahasa Lampung

dialek A yang menghasilkan keluaran yang sesuai dengan ucapan

menggunakan bahasa indonesia asli untuk proses pencocokan sinyal.

1.5 Manfaat/Kontribusi Penelitian

Manfaat dari penelitian ini adalah yaitu agar orang yang memiliki logat

bahasa lampung dialek A saat mengucapkan bahasa indonesia asli dapat juga

dimengerti oleh mesin sehingga menghasilkan keluaran yang semestinya dan

dapat menggunakan teknologi speech recognition.

6

1.6 Keaslian Penelitian

Kecerdasan Buatan Speech Recoqnition ini merupakan suatu karya ilmiah,

yang dibuat guna mengembangkan hasil belajar di lingkungan Perguruan Tinggi

Teknokrat serta memiliki perbedaan pengembangan dari penelitian yang sudah

pernah dilaksanakan oleh peneliti terdahulu di luar Perguruan Tinggi Teknokrat.

Adapun penelitian terdahulu yang serupa namun terdapat perbedaan pada

penelitiannya seperti:

1. Oleh Reza Haghmaram, Ali Aroudi, Mohammad Hossein Ghezel Aiagh,

Hadi Veisi (2012) dari Departemen Elektro & Departemen Komputer,

IHU & Sharif University of Technology dengan judul Automatic Noise

Recognition Based on Neural Network Using LPC and MFCC Feature

Parameters.

2. Oleh Jia Pan, Cong Liu, Zhiguo Wang, Yu Hu, Hui Jiang (2012) dari

Departemen Komputer Sains & Teknik, Universitas York dengan judul

Investigation of Deep Neural Networks (DNN) For Large Vocabulary

Continous Speech Recognition : Why DNN Surprasses GMMS in

Acoustic Modeling.

3. Oleh Pialy Barua, Kanji Ahmad, Ainul Anam Shahjamal Khan,

Muhammad Sanaullah (2014) dari Departemen Teknik Elektrik dan

Elektronika, Universitas Chittagong dengan judul Neural Network Based

Recognition of Speech Using MFCC Features.

4. Oleh Purva Kulkarni, Saili Kulkarni, Sucheta Mulange, Aneri Dand, Alice

N Cheeran (2014) dari Teknik Elektrik, Institut Teknologi Veermata

Jijabai.

7

5. Oleh O. Potamitis, N. Fakotakis, G. Kokkinakis (2000) dari Departemen

Teknik Elektro dan Komputer, Universitas Patras.

Perbedaan penelitian terdahulu dengan penelitian “Implementasi MFCC & Neural

Network Untuk Pencocokkan Frekuensi Bahasa Indonesia Asli Dengan Logat

Bahasa Lampung Dialek A” adalah:

1. Logat lampung menjadi objek penelitian.

2. Kecerdasan buatan ini dibangun dengan menggunakan dua metode yaitu

metode MFCC dan untuk pencocokan sinyal suara menggunakan metode

neural network.

bab i

Documents