bab ii

64
BAB II LANDASAN TEORI 2.1 Tinjauan Pustaka Beberapa penelitian serupa adalah sebagai berikut : 1. Oleh Reza Haghmaram, Ali Aroudi, Mohammad Hossein Ghezel Aiagh, Hadi Veisi (2012) dari Departemen Elektro & Departemen Komputer, IHU & Sharif University of Technology dengan judul Automatic Noise Recognition Based on Neural Network Using LPC and MFCC Feature Parameters. Dimana dalam penelitian yang dilakukan oleh penulis mengangkat masalah bagaimana mempelajari masalah pengenalan suara otomatis berdasarkan RBF dan MLP jaringan saraf pengklasifikasi menggunakan linear prediksi dan Mel frekuensi koefisien cepstral (LPC dan MFCC). Penelitian ini meninjau secara singkat arsitektur jaringan masing-masing pengakuan kebisingan otomatis (ANR) pendekatan, kemudian, membandingkan satu sama lain dan menyelidiki faktor dan kriteria yang mempengaruhi kinerja pengakuan akhir. Jaringan yang diusulkan dievaluasi 15 jenis stasioner dan

Upload: pauljhon

Post on 09-Dec-2015

218 views

Category:

Documents


6 download

DESCRIPTION

okk

TRANSCRIPT

BAB IILANDASAN TEORI

2.1 Tinjauan Pustaka

Beberapa penelitian serupa adalah sebagai berikut :

1. Oleh Reza Haghmaram, Ali Aroudi, Mohammad Hossein Ghezel Aiagh, Hadi

Veisi (2012) dari Departemen Elektro & Departemen Komputer, IHU &

Sharif University of Technology dengan judul Automatic Noise Recognition

Based on Neural Network Using LPC and MFCC Feature Parameters.

Dimana dalam penelitian yang dilakukan oleh penulis mengangkat masalah

bagaimana mempelajari masalah pengenalan suara otomatis berdasarkan RBF

dan MLP jaringan saraf pengklasifikasi menggunakan linear prediksi dan Mel

frekuensi koefisien cepstral (LPC dan MFCC). Penelitian ini meninjau secara

singkat arsitektur jaringan masing-masing pengakuan kebisingan otomatis

(ANR) pendekatan, kemudian, membandingkan satu sama lain dan

menyelidiki faktor dan kriteria yang mempengaruhi kinerja pengakuan akhir.

Jaringan yang diusulkan dievaluasi 15 jenis stasioner dan nonstasioner dari

suara dengan panjang frame 20 ms dalam hal tingkat klasifikasi yang benar.

Hasil menunjukkan bahwa jaringan MLP menggunakan LPCs adalah PPA

tepat dengan tingkat akurasi 99,9%, sedangkan jaringan RBF dengan MFCCs

koefisien sesudahnya dengan tingkat akurasi 99,0%.

2. Oleh Jia Pan, Cong Liu, Zhiguo Wang, Yu Hu, Hui Jiang (2012) dari

Departemen Komputer Sains & Teknik, Universitas York dengan judul

Investigation of Deep Neural Networks (DNN) For Large Vocabulary

Continous Speech Recognition : Why DNN Surprasses GMMS in Acoustic

9

Modeling. Dimana dalam penelitian yang dilakukan oleh penulis mengangkat

masalah bagaimana menyelidiki DNN untuk beberapa tugas pengenalan suara

kosakata besar dikarenakan adanya pelaporan bahwa tergantung pada konteks

jaringan saraf dalam (DNN) telah mencapai beberapa keuntungan belum

pernah terjadi sebelumnya di banyak tugas ASR menantang, termasuk tugas

Switchboard Wellknown. Dalam penelitian ini menyelidiki DNN untuk

beberapa tugas pengenalan suara kosakata besar. Hasil penelitian ini telah

mengkonfirmasikan bahwa DNN konsisten dapat mencapai sekitar 25-30%

pengurangan kesalahan relatif lebih yang terbaik GMMs diskriminatif terlatih

bahkan dalam beberapa tugas ASR sampai dengan 700 jam data pelatihan.

Berikutnya, penelitian ini telah melakukan serangkaian percobaan untuk

mempelajari di mana keuntungan belum pernah terjadi sebelumnya berasal

dari DNN. Percobaan ini menunjukkan keuntungan dari DNN hampir

seluruhnya disebabkan vektor fitur DNN yang digabungkan dari beberapa

frame ucapan berturut-turut dalam jendela konteks yang relatif lama.

Akhirnya, penelitian ini telah mengusulkan beberapa ide untuk

mengkonfigurasi ulang DNN masukan fitur, seperti menggunakan fitur

spektrum logaritma atau VTLN fitur normalisasi di DNN. Hasil penelitian ini

menunjukkan bahwa masing-masing metode ini menghasilkan lebih dari 3%

pengurangan kesalahan relatif selama MFCC tradisional atau fitur PLP di

DNN.

3. Oleh Pialy Barua, Kanji Ahmad, Ainul Anam Shahjamal Khan, Muhammad

Sanaullah (2014) dari Departemen Teknik Elektrik dan Elektronika,

Universitas Chittagong dengan judul Neural Network Based Recognition of

10

Speech Using MFCC Features. Dalam penelitian ini menyelidiki analisis dan

deteksi suara manusia di tempat kerja seperti telekomunikasi, skenario

militer, skenario medis, dan penegakan hukum adalah penting dalam menilai

kemampuan pekerja dan menetapkan tugas. Penelitian ini merupakan hasil

dari studi pendahuluan untuk mengenali pidato dari suara manusia

menggunakan koefisien cepstrum mel-frequency (MFCC) fitur. Koefisien

cepstral 16 mel skala melengkung digunakan secara independen untuk

reorganisasi ucapan dari dua perintah Bangla dari bahasa ibu. Cepstral

koefisien untuk ucapan 'BATI JALAO' (yaitu, menyalakan lampu) dan 'Pakha

bondho KORO' (yaitu, MATIKAN KIPAS) dari speaker tertentu dalam

penyelidikan awal digunakan sebagai fitur dalam jaringan saraf. Jaringan

dilatih menggunakan fitur MFCC dari dua speaker sedemikian rupa sehingga

dapat mengenali hanya satu orang tertentu bersama dengan perintah-Nya dan

mengakhiri program lainnya. Hasil pencocokan fitur dalam jaringan saraf

menunjukkan bahwa fitur MFCC bekerja secara signifikan untuk mengenali

ucapan.

4. Oleh Purva Kulkarni, Saili Kulkarni, Sucheta Mulange, Aneri Dand, Alice N

Cheeran (2014) dari Teknik Elektrik, Institut Teknologi Veermata Jijabai.

Dalam penelitian ini menyajikan dua metode yang berbeda untuk

mengekstraksi fitur untuk pengenalan suara. Berdasarkan waktu-frekuensi,

properti multi-resolusi transformasi wavelet, sinyal pidato input

didekomposisi menjadi berbagai kanal frekuensi. Pada metode pertama,

energi dari tingkat yang berbeda diperoleh setelah menerapkan wavelet

packet dekomposisi bukan Discrete Fourier Transforms dalam klasik Mel-

11

Frequency cepstral Koefisien (MFCC) prosedur, membuat set fitur. Set fitur

ini dibandingkan dengan hasil dari MFCC. Dan dalam metode kedua, set fitur

diperoleh dengan menggabungkan berbagai tingkat, yang membawa

informasi yang signifikan, diperoleh setelah wavelet packet dekomposisi

sinyal. Ekstraksi fitur dari wavelet transform dari sinyal asli menambahkan

fitur speech lebih dari perkiraan dan detail komponen dari sinyal yang

membantu dalam mencapai tingkat identifikasi yang lebih tinggi. Untuk fitur

pencocokan Jaringan Syaraf Tiruan (JST) dan Support Vector Machines

(SVM) digunakan sebagai pengklasifikasi. Hasil penelitian menunjukkan

bahwa metode yang diusulkan meningkatkan tingkat pengenalan.

5. Oleh O. Potamitis, N. Fakotakis, G. Kokkinakis (2000) dari Departemen

Teknik Elektro dan Komputer, Universitas Patras. Dalam penelitian ini

menjelaskan teknik baru untuk meningkatkan kinerja pengenalan suara di

lingkungan nyata. Penelitian ini menyelidiki kasus khusus dari pengenalan

suara dalam lingkungan mobil untuk SNRs mulai dari -10 sampai 20 dB.

Pendekatan penelitian ini memanfaatkan seperangkat fitur yang terdiri dari

variabel tidak berkorelasi dalam rangka menciptakan sekelompok jaringan

saraf masing-masing didedikasikan untuk variabel tunggal vektor fitur. Hasil

teknik ini di jaringan saraf dari jumlah yang jauh lebih kecil dari beban dari

kasus yang dilaporkan dan akibatnya dalam pelatihan lebih cepat dan kinerja

eksekusi. Selanjutnya, informasi kontekstual mengenai sejarah fitur yang

dimasukkan ke jaringan dengan menggunakan jaringan saraf berulang. Kami

mengevaluasi kinerja dibandingkan dengan MLPs standar dan TDNNs untuk

12

membuktikan bahwa baik dibandingkan dengan mereka dalam hal

peningkatan pengakuan atas berbagai SNRs.

2.2 Landasan Teori

2.2.1 Konsep Dasar Pengenalan Suara

Diantara banyak komunikasi yang dilakukan oleh manusia, berbicara

(speech) memberikan paling banyak informasi penting dan paling efektif dalam

berkomunikasi. Informasi – informasi tersebut antara lain : gender, keadaan

kesehatan, emosi, serta identitas pembicara.

Pengenalan suara dapat dikategorikan menjadi 3 bagian, yaitu : speech

recognition, speaker recognition, dan language recognition. Dalam tugas akhir ini

hanya khusus membahas mengenai speech recognition.

Speech recognition adalah suatu proses untuk mengenali ucapan dengan

pola-pola tertentu.

Speaker recognition adalah suatu proses yang bertujuan mengenali siapa

yang sedang berbicara berdasarkan informasi yang terkandung dalam gelombang

suara yang di-input-kan. Speaker recognition dibagi menjadi 2 bagian, yaitu :

speaker verification dan speaker identification.

Speaker verification adalah proses verifikasi seorang pembicara, dimana

sebelumnya telah diketahui identitas pembicara tersebut berdasarkan data yang

telah diinputkan. Speaker verification melakukan perbandingan one to one (1:1).

dalam arti bahwa fitur-fitur suara dari seorang pembicara dibandingkan secara

langsung dengan firur-fitur seorang pembicara tertentu yang ada dalam sistem.

Bila hasil perbandingan (skor) tersebut lebih kecil atau sama dengan batasan

13

tertentu (treshold), maka pembicara tersebut diterima, bila tidak maka akan

ditolak (dengan asumsi semakin kecil skor berarti kedua sampel semakin mirip).

Gambar dibawah adalah blok diagram dari speaker verification.

Gambar 2.1 Blok Diagram Speaker Verification (Darma Putra, 2009)

Speaker identification adalah proses mendapatkan identitas dari seorang

pembicara dengan membandingkan fitur-fitur suara yang diinputkan dengan

semua fitur-fitur dari setiap pembicara yang ada dalam database. Berbeda dengan

pada speaker verification, proses ini melakukan perbandingan one to many (1:N).

2.2.2 Proses Produksi Suara

Suara adalah sebuah signal yang merambat melalui media perantara. Suara

dapat dihantarkan melalui media air, udara maupun benda padat. Dengan kata lain

suara adalah gelombang yang merambat dengan frekuensi dan amplitude tertentu.

Suara yang dapat didengar oleh manusia berkisar antara 20 Hz sampai dengan 20

KHz, dimana Hz adalah satuan dari frekuensi yang artinya banyaknya getaran per

detik (cps / cycle per second).

Perlengkapan produksi suara pada manusia secara garis besar terdiri dari

jalur suara (vocal track) dan jalur hidung (nasal track). Jalur suara dimulai dari

14

pita suara (vocal cords), celah suara (glottis) dan berakhir pada bibir. Jalur hidung

dimulai dari bagian belakan langit-langit (velum) dan berakhir pada cuping hidung

(nostrils).

Proses menghasilkan suara dimulai dari udara masuk ke paru-paru melalui

pernafasan, kemudian melalui trakea, udara masuk ke batang tenggorokan,

dimana pada batang tenggorokan ini terdapat pita suara. Pita suara ini kemudian

bergetar dengan frekuensi tertentu karena adanya aliran udara tersebut sehingga

dihasilkan suara. Suara yang dihasilkan ini berbeda-beda sesuai dengan posisi

lidah, bibir, mulut dan langit-langit pada saat itu (Manuggal, 2005).

Suara yang dihasilkan terdiri dari tiga bagian yaitu voiced sound, unvoiced

sound dan plosive sound. Voiced sound terjadi jika pita suara bergetar dengan

frekuensi antara 50 Hz sampai 250 Hz. Contoh voiced sound adalah bunyi pada

kata “ah”, “oh”. Unvoiced sound terjadi jika pita suara tidak bergetar sama sekali.

Contoh unvoiced sound adalah bunyi “shh”. Sedangkan plosive sound terjadi jika

pita suara tertutup sesaat kemudian tiba-tiba membuka. Contoh plosive sound

adalah bunyi “beh” pada kata benar, “pah” pada kata pasar (Manuggal, 2005).

15

2.2.3 MFCC (Mel Frequency Cepstrum Coefficients)

MFCC (Mel Frequency Cepstrum Coefficients) merupakan salah satu

medode yang banyak digunakan dalam bidang speech technology, baik speaker

recognition maupun speech recognition. Metode ini digunakan untuk melakukan

feature extraction, sebuah proses yang mengkonversikan signal suara menjadi

beberapa parameter. Beberapa keunggulan dari metode ini adalah (Manunggal,

2005) :

a. Mampu untuk menangkap karakteristik suara yang sangat penting bagi

pengenalan suara, atau dengan kata lain dapat menangkap informasi-informasi

penting yang terkandung dalam signal suara.

b. Menghasilkan data seminimal mungkin, tanpa menghilangkan informasi-

informasi penting yang dikandungnya.

c. Mereplikasi organ pendengaran manusia dalam melakukan persepsi terhadap

signal suara.s

Gambar 2.2 Contoh Sinyal suara kata PROKLAMASI pada rekaman pidato Bung Karno

(Sumber: Pengujian Rekaman suara Bung Karno menggunakan Mixtrack)

16

Contoh dari signal suara dapat dilihat pada Gambar diatas. Pengujian yang

dilakukan untuk periode waktu yang cukup pendek (sekitar 10 sampai 30

milidetik) akan menunjukkan karakteristis signal suara yang stationary. Tetapi

bila dilakukan dalam periode waktu yang lebih panjang karakteristik signal suara

akan terus berubah sesuai dengan kata yang diucapkan.

MFCC feature extraction sebenarnya merupakan adaptasi dari sistem

pendengaran manusia, dimana signal suara akan difilter secara linear untuk

frekuensi rendah (dibawah 1000 Hz) dan secara logaritmik untuk frekuensi tinggi

(diatas 1000 Hz). Gambar dibawah ini merupakan block diagram untuk MFCC.

Gambar 2.3 Blok Diagram Untuk MFCC(Sumber: Jurafsky “Speech and Language Processing” hal 327)

17

2.2.3.1 Konversi Analog menjadi Digital

Signal – signal yang natural pada umumnya seperti signal suara merupakan

signal continue dimana memiliki nilai yang tidak terbatas. Sedangkan pada

komputer, semua signal yang dapat diproses oleh komputer hanyalah signal

discrete atau sering dikenal sebagai istilah digital signal. Agar signal natural

dapat diproses oleh komputer, maka harus diubah terlebih dahulu dari data signal

continue menjadi discrete. Hal itu dapat dilakukan melalui 3 proses, diantaranya

adalah proses sampling data, proses kuantisasi, dan proses pengkodean.

Proses sampling adalah suatu proses untuk mengambil data signal continue

untuk setiap periode tertentu. Dalam melakukan proses sampling data, berlaku

aturan Nyquist, yaitu bahwa frekuensi sampling (sampling rate) minimal harus 2

kali lebih tinggi dari frekuensi maksimum yang akan di sampling. Jika signal

sampling kurang dari 2 kali frekuensi maksimum signal yang akan di sampling,

maka akan timbul efek aliasing. Aliasing adalah suatu efek dimana signal yang

dihasilkan memiliki frekuensi yang berbeda dengan signal aslinya.

Proses kuantisasi adalah proses untuk membulatkan nilai data ke dalam

bilangan-bilangan tertentu yang telah ditentukan terlebih dahulu. Semakin banyak

level yang dipakai maka semakin akurat pula data signal yang disimpan tetapi

akan menghasilkan ukuran data besar dan proses yang lama.

Proses pengkodean adalah proses pemberian kode untuk tiap-tiap data

signal yang telah terkuantisasi berdasarkan level yang ditempati.

18

Gambar 2.4 Sinyal Sinus waktu kontinyu

(Sumber: Politeknik Elektronik Negeri Surabaya, “Praktikum Sinyal dan Sistem” hal 16)

2.2.3.2 DC-Removal

Remove DC Components bertujuan untuk menghitung rata-rata dari data

sampel suara, dan mengurangkan nilai setiap sampel suara dengan nilai rata-rata

tersebut. Tujuannya adalah mendapat normalisasi dari data suara input.

y[n] = x[n] - x , 0 ≤ n ≤ N-1

Dimana y[n] = sampel signal hasil proses DC removal

x[n]= sampel signal asli

x = nilai rata-rata sampel signal asli.

N = panjang signal

2.2.3.3 Pre – emphasize Filtering

Pre – emphasize Filetering merupakan salah satu jenis filter yang sering

digunakan sebelum sebuah signal diproses lebih lanjut. Filter ini mempertahankan

frekuensi-frekuensi tinggi pada sebuah spektrum, yang umumnya tereliminasi

pada saat proses produksi suara.

............................................................................. (2.1)

19

Tujuan dari Pre – emphasize Filetering ini adalah (Manunggal, 2005) :

a. Mengurangi noise ratio pada signal, sehingga dapat meningkatkan kualitas

signal.

b. Menyeimbangkan spektrum dari voiced sound. Pada saat memproduksi voiced

sound, glottis manusia menghasilkan sekitar -12 dB octave slope. Namun

ketika energy akustik tersebut dikeluarkan melalui bibir, terjadi peningkatan

sebesar +6. Sehingga signal yang terekam oleh microphone adalah sekitar -6

dB octave slope. Dampak dari efek ini dapat dilihat pada gambar dibawah ini.

Gambar 2.5 Perbandingan Sinyal Tanpa dan Sinyal dengan Pre-emphasis(Sumber : Jurafsky “Speech and Language Processing” hal 328)

Pada gambar diatas terlihat bahwa distribusi energi pada setiap frekuensi

terlihat lebih seimbang setelah diimplementasikan pre-emphasize filter.

Bentuk yang paling umum digunakan dalam pre-emphasize filter adalah sebagai

berikut :

H(z) = 1 - αz -1 ............................................................................................(2.2)

Dimana 0.9 ≤ α ≤ 1.0, dan α € R. Formula diatas dapat dijadikan sebagain first

order differentiator, sebagai berikut:

20

y[n] = s[n] – α s[n - 1] ..................................................................................(2.3)

Dimana y[n] = signal hasil pre-emphasize filter

s[n] = signal sebelum pre-emphasize filter

Pada umumnya nilai α yang paling sering digunakan adalah antara 0.9 sampai 1.0.

Respon frequensi dari filter tersebut adalah:

H (e jw )=1−α e− jw

¿1−α(cos ω− j sin ω).......................................................................(2.4)

Sehingga, squared magnitude response dapat dihitung dengan persamaan berikut

ini:

H (e jw )¿2 = (1 – α cosω)2 + α 2sin2ω

= 1−2α cosω+α2 cos2ω+α2 sin2 ω

= 1−2α cosω+α2(cos 2 ω+sin 2ω¿)¿

= 1−2α cosω+α2 ...........................................................................(2.5)

Magnitude response (dB scale) untuk nilai α yang berbeda dapat dilihat pada

gambar dibawah:

Gambar 2.6 Magnitude Response dari pre-emphasis

(Sumber : Jurafsky “Speech and Language Processing” hal 329)

21

2.2.3.4 Frame Blocking

Karena signal suara terus mangalami perubahan akibat adanya pergeseran

artikulasi dari organ produksi vocal, signal harus diproses secara short segments

(short frame). Panjang frame yang biasanya digunakan untuk pemrosesan signal

adalah antara 10-30 milidetik. Panjang frame yang digunakan sangat

mempengaruhi keberhasilan dalam analisa spektral. Di satu sisi, ukuran dari frame

harus sepanjang mungkin untuk dapat menunjukkan resolusi frekuensi yang baik.

Tetapi di lain sisi, ukuran frame juga harus cukup pendek untuk dapat

menunjukkan resolusi waktu yang baik.

Gambar 2.7 Short Term Spectral Analysis (Manunggal, 2005)

Proses frame ini dilakukan terus sampai seluruh signal dapat diproses.

Selain itu, proses ini umumnya dilakukan secara overlapping untuk setiap frame-

nya. Panjang daerah overlap yang umum digunakan adalah kurang lebih 30%

22

sampai 50% dari panjang frame. Overlapping dilakukan untuk menghindari

hilangnya ciri atau karakteristik suara pada perbatasan perpotongan setiap frame.

2.2.3.5 Windowing

Proses framing dapat menyebabkan terjadinya kebocoran spektral (spectral

leakage) atau aliasing. Aliasing adalah signal baru dimana memiliki frekuensi

yang berbeda dengan signal aslinya. Efek ini dapat terjadi karena rendahnya

jumlah sampling rate, ataupun karena proses frame blocking dimana

menyebabkan signal menjadi discontinue. Untuk mengurangi kemungkinan

terjadinya kebocoran spektral, maka hasil dari proses framing harus melewati

proses window. Sebuah fungsi window yang baik harus menyempit pada bagian

main lobe dan melebar pada bagian side lobe-nya.

Berikut ini adalah representasi dari fungsi window terhadap signal suara yang

diinputkan.

x (n )=x i (n ) w(n) n= 0,1,…,N-1 ......................................................................(2.6)

x (n ) = nilai sampel signal hasil windowing

x i (n ) = nilai sampel dari frame signal ke i

w (n) = fungsi window

N = frame size, merupakan kelipatan 2

Ada banyak fungsi window, namun yang paling sering digunakan dalam

aplikasi speaker recognition adalah hamming window. Fungsi window ini

menghasilkan sidelobe level yang tidak terlalu tinggi (kurang lebih -43 dB), selain

itu noise yang dihasilkan pun tidak terlalu besar.

Fungsi Hamming window adalah sebagai berikut :

.................................................................................. (2.7)

23

0.54−0.46 cos2 πn

M−1

Dimana : n = 0,1,...,M-1

M = panjang frame

Window hamming :

Gambar 2.8 Windowing

(Sumber : Jurafsky “Speech and Language Processing” hal 330)

2.2.3.6 Analisis Fourier

Analisis fourier adalah sebuah metode yang memungkinkan untuk

melakukan analisa terhadap spectral properties dari signal yang diinputkan.

Representasi dari spectral properties sering disebut sebagai spectrogram.

24

Dalam spectrogram terdapat hubungan yang sangat erat antara waktu dan

frekuensi. Hubungan antara frekuensi dan waktu adalah hubungan berbanding

terbalik. Bila resolusi waktu yang digunakan tinggi, maka resolusi frekuensi yang

dihasilkan akan semakin rendah.

Gambar 2.9 Wideband Spectogram

(Sumber : Hawkins “Speech and Spectral Analysis” hal 8)

Gambar 2.10 Narrowband Spectogram

(Sumber : Hawkins “Speech and Spectral Analysis” hal 8)

2.2.3.7 Discrete Fourier Transform (DFT)

DFT merupakan perluasan dari transformasi fourier yang berlaku untuk

signal-signal diskrit dengan panjang yang terhingga. Semua signal periodik

25

terbentuk dari gabungan signal-signal sinusoidal yang menjadi satu yang dapat

dirumuskan sebagai berikut :

S [ k ]=∑n=0

N−1

s [ n ] e− j 2 πnk /N , 0 ≤ k ≤ N−1.................................................................(2.8)

N = jumlah sampel yang akan diproses (N N)

S(n) = nilai sampel signal

K = variable frekuensi discrete, dimana akan bernilai (k = )

Dengan rumus diatas, suatu signal suara dalam domain waktu dapat kita cari

frekuensi pembentuknya. Hal inilah tujuan penggunaan analisa fourier pada data

suara, yaitu untuk merubah data dari domain waktu menjadi data spektrum di

domain frekuensi. Untuk pemrosesan signal suara, hal ini sangatlah

menguntungkan karena data pada domain frekuensi dapat diproses dengan lebih

mudah dibandingkan data pada domain waktu, karena pada domain frekuensi,

keras lemahnya suara tidak seberapa berpengaruh.

Gambar 2.11 Domain Waktu menjadi Domain Frekuensi

Untuk mendapatkan spektrum dari sebuah signal dengan DFT diperlukan N

buah sampel data berurutan pada domain waktu, yaitu x[m] sampai x[m+N-1].

Data tersebut dimasukkan dalam fungsi DFT maka akan menghasilkan N buah

26

data. Namun karena hasil dari DFT adalah simetris, maka hanya N/2 data yang

diambil sebagai spektrum.

2.2.3.8 Fast Fourier Transform (FFT)

Perhitungan DFT secara langsung dalam komputerisasi dapat

menyebabkan proses perhitungan yang sangat lama. Hal itu disebabkan karena

dengan DFT, dibutuhkan perkalian bilangan kompleks. Karena itu dibutuhkan

cara lain untuk menghitung DFT dengan cepat. Hal itu dapat dilakukan dengan

menggunakan algoritma fast fourier transform (FFT) dimana FFT menghilangkan

proses perhitungan yang kembar dalam DFT.

Gambar 2.12 Pembagian Sinyal Suara Menjadi Dua Kelompok

(Sumber : Anna Dara “Ekstrasi MFCC” Jurnal Ilmiah)

2.2.3.9 Mel Frequency Wrapping

Mel Frequency Wrapping umumnya dilakukan dengan menggunakan

Filterbank. Filterbank adalah salah satu bentuk dari filter yang dilakukan dengan

tujuan untuk mengetahui ukuran energi dari frequency band tertentu dalam signal

suara. Filterbank dapat diterapkan baik pada domain waktu maupun pada domain

frekuensi, tetapi untuk keperluan MFCC, filterbank harus diterapkan dalam

domain frekuensi. Gambar 2.9 menunjukkan dua jenis fileterbank magnitude.

27

Dalam kedua kasus pada Gambar 2.9 filter yang dilakukan adalah secara linear

terhadap frekuensi 0-4 kHz.

Gambar 2.13 magnitude dari rectangular dan triangular filterbank

(Sumber : DSP “Window Filter Design” hal 12)

Filterbank menggunakan representasi konvolusi dalam melakukan filter terhadap

signal. Konvolusi dapat dilakukan dengan melakukan multiplikasi antara

spektrum signal dengan koefisien filterbank. Berikut ini adalah rumus yang

digunakan dalam perhitungan filterbanks.

N = jumlah magnitude spectrum (N N)

S[j] = magnitude spectrum pada frekuensi j

Hi[j] = koefisien filterbank pada frekuensi j (1 ≤ i ≤ M )

M = jumlah channel dalam filterbank

Persepsi manusia terhadap frekuensi dari signal suara tidak mengikuti linear

scale. Frekuensi yang sebenarnya (dalam Hz) dalam sebuah signal akan diukur

manusia secara subyektif dengan menggunakan mel scale. Mel frequency scale

………………………………………………………(2.9)

28

adalah linear frekuensi scale pada frekuensi dibawah 1000 Hz, dan merupakan

logarithmic scale pada frekuensi diatas 1000 Hz.

Gambar 2.14 Triangular Filterbank Dengan Mel Scale

(Sumber : DSP “Window Filter Design” hal 12)

2.2.3.10 Discrete Cosine Transform (DCT)

DCT merupakan langkah terakhir dari proses utama MFCC feature

extraction. Konsep dasar dari DCT adalah mendekorelasikan mel spectrum

sehingga menghasilkan representasi yang baik dari property spektral local. Pada

dasarnya konsep dari DCT sama dengan inverse fourier transform. Namun hasil

dari DCT mendekati PCA (principle component analysis). PCA adalah metode

static klasik yang digunakan secara luas dalam analisa data dan kompresi. Hal

inilah yang menyebabkan seringkali DCT menggantikan inverse fourier transform

dalam proses MFCC feature extraction.

Berikut adalah formula yang digunakan untuk menghitung DCT.

Sk = keluaran dari proses filterbank pada index k

K = jumlah koefisien yang diharapkan

………………..(2.10)

29

Koefisien ke nol dari DCT pada umumya akan dihilangkan, walaupun sebenarnya

mengindikasikan energi dari frame signal tersebut. Hal ini dilakukan karena,

berdasarkan penelitian-penelitian yang pernah dilakukan, koefisien ke nol ini

tidak reliable terhadap speaker recognition.

2.2.3.11 Cepstral Liftering

Hasil dari proses utama MFCC feature extraction memiliki beberapa

kelemahan. Low order dari cepstral coefficients sangat sensitif terhadap spectral

slope, sedangkan bagian high ordernya sangat sensitif terhadap noise. Oleh karena

itu, cepstral liftering menjadi salah satu standar teknik yang diterapkan untuk

meminimalisasi sensitifitas tersebut.

Cepstral liftering dapat dilakukan dengan mengimplementasikan fungsi window

terhadap cepstral features.

L = jumlah cepstral coefficients

N = index dari cepstral coefficients

Cepstral liftering menghaluskan spektrum hasil dari main processor sehingga

dapat digunakan lebih baik untuk pattern matching.

........………………………..(2.11)

30

2.2.4 NN ( Neural Network )

Jaringan saraf tiruan merupakan implementasi dari teknologi artificial

intelligence. Jaringan saraf tiruan adalah salah satu representasi buatan dari otak

manusia yang selalu mencoba untuk mensimulasikan proses pembelajaran pada

otak manusia tersebut. Istilah buatan digunakan karena jaringan saraf ini

diimplementasikan dengan menggunakan program komputer yang mampu

menyelesaikan sejumlah proses perhitungan selama proses pembelajaran. Jaringan

saraf tiruan merupakan sistem pemroses informasi yang memiliki karakteristik

mirip dengan jaringan saraf biologi. Menurut Subiyanto , jaringan saraf tiruan

adalah membuat model sistem komputasi yang dapat menirukan cara kerja

jaringan saraf biologi. Secara umum Haykin mendefinisikan sebuah jaringan

saraf tiruan adalah sebuah mesin yang dirancang untuk mempolakan cara

bagaimana otak mengerjakan sebuah fungsi tertentu. Jaringan biasanya

diimplementasikan dengan menggunakan komponen elektronika atau

disimulasikan dalam sebuah perangkat lunak pada komputer digital. Untuk

mencapai tampilan yang baik, jaringan saraf tiruan memakai interkoneksi yang

sangat besar antara sel-sel komputasi yang disebut “neuron” atau “unit pemroses”.

Sebagai mesin yang adaptif, sebuah jaringan saraf tiruan adalah sebuah prosessor

besar terdistribusi yang paralel yang tersusun dari unit pemroses sederhana yang

mempunyai kecenderungan untuk menyimpan pengalaman dan pengetahuan dan

membuatnya siap untuk digunakan.

31

Gambar 2.15 Sel Saraf Manusia

Hal itu menyerupai otak dalam dua aspek:

Pengetahuan dibutuhkan oleh jaringan dari lingkungannya melalui proses

pembelajaran.

Kekuatan koneksi interneuron, dikenal sebagai bobot sinapsis, digunakan

untuk menyimpan pengetahuan yang dibutuhkan.

Menurut Fausett sebuah jaringan saraf tiruan adalah sistem pemroses

informasi yang mempunyai karakter tampilan tersendiri yang hampir sama dengan

jaringan saraf pada biologi. Jaringan saraf tiruan telah dikembangkan sebagai

generalisasai model matematika dari jaringan saraf biologi, berdasarkan asumsi:

Pemrosesan informasi terjadi pada elemen sederhana yang disebut neuron.

Sinyal dilewatkan antarneuron melalui link penghubung.

Setiap link penghubung mempunyai sebuah bobot dimana pada jaringan

saraf tertentu bobot digandakan oleh sinyal yang dipancarkan.

32

Setiap neuron menggunakan fungsi aktivasi (biasanya nonlinear) pada

jaringan inputnya (penjumlahan bobot sinyal input) untuk menentukan

sinyal output.

2.2.4.1 Komponen Jaringan Syaraf

Ada beberapa tipe jaringan syaraf, namun demikian, hampir semuanya

memiliki komponen-komponen yang sama. Seperti halnya otak manusia, jaringan

syaraf juga terdiri-dari beberapa neuron, dan ada hubungan antara neuron-neuron

tersebut. Neuron-neuron tersebut akan mentransformasikan informasi yang

diterima melalui sambungan keluarnya menuju ke neuron-neuron yang lain. Pada

jaringan syaraf, hubungan ini dikenal dengan nama bobot. Informasi tersebut

disimpan pada suatu nilai tertentu pada bobot tersebut. Gambar menunjukkan

struktur neuron pada jaringan syaraf

Gambar 2.16 Komponen JST

2.2.4.2 Arsitektur Jaringan Syaraf Tiruan

Seperti telah dijelaskan sebelumnya bahwa neuron-neuron dikelompokkan

dalan lapisan-lapisan. Umumnya, neuron-neuron yang terletak pada lapisan yang

sama akan memiliki keadaan yang sama. Faktor terpenting dalam menentukan

kelakuan suatu neuron adalah fungsi aktivasi dan pola bobotnya. Pada setiap

lapisan yang sama, neuron-neuron akan memiliki fungsi aktivasi yang sama.

33

Apabila neuron-neuron dalam suatu lapisan (misalkan lapisan

tersembunyi) akan dihubungkan dengan neuron-neuron pada lapisan yang lain

(misalkan lapisan output), maka setiap neuron pada lapisan tersebut (misalkan

lapisan tersembunyi) juga harus dihubungkan dengan setiap lapisan pada lapisan

lainnya (misalkan lapisan output).

2.2.4.2.1 Jaringan dengan lapisan tunggal

Jaringan dengan lapisan tunggal hanya memiliki satu lapisan dengan

bobot-bobot terhubung. Jaringan ini hanya menerima input kemudian secara

langsung akan mengolahnya menjadi output tanpa harus melalui lapisan

tersembunyi (Gambar 8.4). Pada Gambar 8.4 tersebut, lapisan input memiliki 3

neuron, yaitu X1, X2 dan X3. Sedangkan pada lapisan output memiliki 2 neuron

yaitu Y1 dan Y2. Neuronneuron pada kedua lapisan saling berhubungan. Seberapa

besar hubungan antara 2 neuron ditentukan oleh bobot yang bersesuaian. Semua

unit input akan dihubungkan dengan setiap unit output.

Gambar 2.17 JST lapis tunggal

34

2.2.4.2.2 Jaringan dengan banyak lapisan

Jaringan dengan banyak lapisan memiliki 1 atau lebih lapisan yang terletak

diantara lapisan input dan lapisan output (memiliki 1 atau lebih lapisan

tersembunyi), seperti terlihat pada Gambar 8.5. Umumnya, ada lapisan

bobotbobot yang terletak antara 2 lapisan yang bersebelahan. Jaringan dengan

banyak lapisan ini dapat menyelesaikan permasalahan yang lebih sulit daripada

lapisan dengan lapisan tunggal, tentu saja dengan pembelajaran yang lebih rumit.

Namun demikian, pada banyak kasus, pembelajaran pada jaringan dengan banyak

lapisan ini lebih sukses dalam menyelesaikan masalah.

Gambar 2.18 JST Lapis Banyak

2.2.4.2.3 Jaringan dengan lapisan kompetitif

Umumnya, hubungan antar neuron pada lapisan kompetitif ini tidak

diperlihatkan pada diagram arsitektur. Gambar menunjukkan salah satu contoh

arsitektur jaringan dengan lapisan kompetitif yang memiliki bobot .

35

Gambar 2.19 JST lapisan kompetitif

2.2.4.3 Metode dalam Jaringan Syaraf Tiruan

2.2.4.3.1 Perceptron

Gambar 2.20 Perceptron

(Sumber : Neural Network “Perceptron”)

36

Biasanya digunakan untuk mengklasifikasikan suatu tipe pola tertentu yang

sering dikenal dengan pemisahan secara linear.Algoritma yang digunakan akan

mengatur parameter-parameter bebasnya melalui proses pembelajaran. Perceptron

juga termasuk salah satu bentuk jaringan syaraf yang sederhana. Perceptron

biasanya digunakan untuk mengklasifikasikan suatu tipe pola tertentu yang sering

dikenal dengan pemisahan secara linear. Pada dasarnya, perceptron pada jaringan

syaraf dengan satu lapisan memiliki bobot yang bisa diatur dan suatu nilai ambang

(threshold). Algoritma yang digunakan oleh aturan perceptron ini akan mengatur

parameter-parameter bebasnya melalui proses pembelajaran. Nilai threshold pada

fungsi aktivasi adalan non negatif. Fungsi aktivasi ini dibuat sedemikian rupa

sehingga terjadi pembatasan antara daerah positif dan daerah negatif .

2.2.4.3.2 Hebb Rule

Hebb Rule adalah metode pembelajaran yang paling sederhana. Pada

metode ini pembelajaran dilakukan dengan cara memperbaiki nilai bobot

sedemikian rupa sehingga jika ada 2 neuron yang terhubung, dan keduanya pada

kondisi hidup pada saat yang sama, maka bobot antara keduanya dinaikkan.

2.2.4.3.3 Delta Rule

Pada delta rule akan mengubah bobot yang menghubungkan antara jaringan

input ke unit output (y_in) dengan nilai target (t). Hal ini dilakukan untuk

meminimalkan error selama pelatihan pola.

2.2.4.3.4 Back Propagation

37

Backpropagation merupakan algoritma pembelajaran yang terawasi dan

biasanya digunakan oleh perceptron dengan banyak lapisan untuk mengubah

bobot-bobot yang terhubung dengan neuron-neuran yang ada pada lapisan

tersembunyinya. Algoritma backpropagation menggunakan error output untuk

mengubah nilai bobot-bobotnya dalam arah mundur (backward). Untuk

mendapatkan error ini, tahap perambatan maju (forward propagation) harus

dikerjakan terlebih dahulu.

2.2.4.3.5 Hetroassociative Memory

Jaringan syaraf associative memory adalah jaringan yang bobot-bobotnya

ditentukan sedemikian rupa sehingga jaringan tersebut dapat menyimpan

kumpulan pengelompokan pola. Masing-masing kelompok merupakan pasangan

vektor (s(p),t(p)) dengan p=1,2,...,P. Tiap-tiap vektor s(p) memiliki n komponen,

dan tiap-tiap t(p) memiliki m komponen. Bobot-bobot tersebut dapat ditentukan

dengan menggunakan Hebb rule atau delta rule. Jaringan ini nanti akhirnya akan

mendapatkan vektor output yang sesuai dengan vektor inputnya (x) yang

merupakan salah satu vektor s(p) atau merupakan vektor lain di luar s(p).

Algoritma pembelajaran yang biasa digunakan oleh jaringan ini adalah Hebb rule

dan delta rule.

2.2.4.3.6 Bidirectional Associative Memory

38

Bidirectional Associative Memory (BAM) adalah model jaringan syaraf

yang memiliki 2 lapisan dan terhubung penuh dari satu lapisan ke lapisan yang

lainnya. Pada jaringan ini dimungkinkan adanya hubungan timbal balik antara

lapisan input dan lapisan output. Namun demikian, bobot yang menghubungkan

antara antara satu neuron (A) di satu lapisan dengan neuron (B) di lapisan lainnya

akan sama dengan bobot yang menghubungkan neuron (B) ke neuron (A). Bisa

185 dikatakan bahwa, matriks bobot yang menghubungkan neuron-neuron pada

lapisan output ke lapisan input sama dengan transpose matriks bobot

neuronneuron yang menghubungkan lapisan input ke lapisan output.

2.2.4.3.7 Learning Vector Quantitation

Learning Vector Quantization (LVQ) adalah suatu metode untuk melakukan

pembelajaran pada lapisan kompetitif yang terawasi. Suatu lapisan kompetitif

akan secara otomatis belajar untuk mengklasifikasikan vektor-vektor input. Kelas-

kelas yang didapatkan sebagai hasil dari lapisan kompetitif ini hanya tergantung

pada jarak antara vektor-vektor input. Jika 2 vektor input mendekati sama, maka

lapisan kompetitif akan meletakkan kedua vektor input tersebut ke dalam kelas

yang sama.

39

2.2.4.4 Fungsi Aktivasi

Ada beberapa fungsi aktivasi yang sering digunakan dalam jaringan syaraf

tiruan, antara lain:

2.2.4.4.1 Fungsi Hard Limit (Undak Biner)

Jaringan dengan lapisan tunggal sering menggunakan fungsi undak (step

function) untuk mengkonversikan input dari suatu variabel yang bernilai kontinu

ke suatu output biner (0 atau 1) .Fungsi undak biner (hard limit) dirumuskan

sebagai:

Gambar 2.21 Fungsi Hard Limit (Undak Biner)

2.2.4.4.2 Fungsi Nilai Ambang (Threshold)

Fungsi undak biner dengan menggunakan nilai ambang sering juga disebut

dengan nama fungsi nilai ambang (threshold) atau fungsi Heaviside. Fungsi undak

biner (dengan nilai ambang ) dirumuskan sebagai:

40

Gambar 2.22 Fungsi Nilai Ambang

2.2.4.4.3 Fungsi Bipolar (Symetric Hard Limit)

Fungsi bipolar sebenarnya hampir sama dengan fungsi undak biner, hanya

saja output yang dihasilkan berupa 1, 0 atau –1 . Fungsi Symetric Hard Limit

dirumuskan sebagai:

Gambar 2.23 Fungsi Bipolar

41

2.2.4.4.4 Fungsi Bipolar (dengan treshold)

Fungsi bipolar sebenarnya hampir sama dengan fungsi undak biner dengan

threshold, hanya saja output yang dihasilkan berupa 1, 0 atau –1. Fungsi bipolar

(dengan nilai ambang) dirumuskan sebagai:

Gambar 2.24 Fungsi Bipolar (dengan treshold)

2.2.4.4.5 Fungsi Linear (identitas)

Fungsi linear memiliki nilai output yang sama dengan nilai inputnya. Fungsi

linear dirumuskan sebagai:

Gambar 2.25 Fungsi Linear (identitas)

42

2.2.4.4.6 Fungsi Saturating Linear

Fungsi ini akan bernilai 0 jika inputnya kurang dari –½, dan akan bernilai 1

jika inputnya lebih dari ½. Sedangkan jika nilai input terletak antara –½ dan ½,

maka outpunya akan bernilai sama dengan nilai input ditambah ½ (Gambar 8.12).

Fungsi saturating linear dirumuskan sebagai:

Gambar 2.26 Fungsi Saturating Linear

2.2.4.4.7 Fungsi Symetric Saturating Linear

Fungsi ini akan bernilai -1 jika inputnya kurang dari –1, dan akan bernilai 1

jika inputnya lebih dari 1. Sedangkan jika nilai input terletak antara –1 dan 1,

maka outpunya akan bernilai sama dengan nilai inputnya. Fungsi symetric

saturating linear dirumuskan sebagai:

43

Gambar 2.27 Fungsi Symetric Saturating Linear

2.2.4.4.8 Fungsi Sigmoid Biner

Fungsi ini digunakan untuk jaringan syaraf yang dilatih dengan

menggunakan metode backpropagation. Fungsi sigmoid biner memiliki nilai pada

range 0 sampai 1. Oleh karena itu, fungsi ini sering digunakan untuk jaringan

syaraf yang membutuhkan nilai output yang terletak pada interval 0 sampai 1.

Namun, fungsi ini bisa juga digunakan oleh jaringan syaraf yang nilai outputnya 0

atau 1. Fungsi sigmoid biner dirumuskan sebagai:

Gambar 2.28 Fungsi Sigmoid Biner

44

2.2.4.4.9 Fungsi Sigmoid Bipolar

Fungsi sigmoid bipolar hampir sama dengan fungsi sigmoid biner, hanya

saja output dari fungsi ini memiliki range antara 1 sampai –1. Fungsi sigmoid

bipolar dirumuskan sebagai:

2.2.4.4.10 Fungsi Hyperbolic Tangent

Fungsi hyperbolic tangent hampir sama dengan fungsi sigmoid bipolar,

hanya saja output dari fungsi ini memiliki range antara -1 sampai 1. Fungsi

hyperbolic tangent dirumuskan sebagai:

2.2.4.5 Proses Pembelajaran

45

Pada otak manusia, informasi yang dilewatkan dari satu neuron ke neuron

yang lainnya berbentuk rangsangan listrik melalui dendrit. Jika rangsangan

tersebut diterima oleh suatu neuron, maka neuron tersebut akan membangkitkan

output ke semua neuron yang berhubungan dengannya sampai informasi tersebut

sampai ke tujuannya yaitu terjadinya suatu reaksi. Jika rangsangan yang diterima

terlalu halus, maka output yang dibangkitkan oleh neuron tersebut tidak akan

direspon. Tentu saja sangatlah sulit untuk memahami bagaimana otak manusia

bisa belajar. Selama proses pembelajaran, terjadi perubahan yang cukup berarti

pada bobot-bobot yang menghubungkan antar neuron. Apabila ada rangsangan

yang sama dengan rangsangan yang telah diterima oleh neuron, maka neuron akan

memberikan reaksi dengan cepat. Namun apabila kelak ada rangsangan yang

berbeda dengan apa yang telah diterima oleh neuron, maka neuron akan segera

beradaptasi untuk memberikan reaksi yang sesuai. Jaringan syaraf akan mencoba

untuk mensimulasikan kemampuan otak manusia untuk belajar. Jaringan syaraf

tiruan juga tersusun atas neuron0neuron dan dendrit. Tidak seperti model biologis,

jaringan syaraf memiliki struktur yang tidak dapat diubah, dibangun oleh

sejumlah neuron, dan memiliki nilai tertentu yang menunjukkan seberapa besar

koneksi antara neuron (yang dikenal dengan nama bobot). Perubahan yang terjadi

selama proses pembelajaran adalah perubahan nilai bobot. Nilai bobot akan

bertambah, jika informasi yang diberikan oleh neuron yang bersangkutan

tersampaikan, sebaliknya jika informasi tidak disampaikan oleh suatu neuron ke

neuron yang lain, maka nilai bobot yang menghubungkan keduanya akan

dikurangi. Pada saat pembelajaran dilakukan pada input yang berbeda, maka nilai

bobot akan diubah secara dinamis hingga mencapai suatu nilai yang cukup

46

seimbang. Apabila nilai ini telah tercapai mengindikasikan bahwa tiap-tiap input

telah berhubungan dengan output yang diharapkan.

2.2.4.5.1 Pembelajaran Terawasi

Metode pembelajaran pada jaringan syaraf disebut terawasi jika output yang

diharapkan telah diketahui sebelumnya.

Pada proses pembelajaran, satu pola input akan diberikan ke satu neuron

pada lapisan input. Pola ini akan dirambatkan di sepanjang jaringan syaraf hingga

sampai ke neuron pada lapisan output. Lapisan output ini akan membangkitkan

pola output yang nantinya akan dicocokkan dengan pola output targetnya. Apabila

terjadi perbedaan antara pola output hasil pembelajaran dengan pola target, maka

disini akan muncul error. Apabila nilai error ini masih cukup besar,

mengindikasikan bahwa masih perlu dilakukan lebih banyak pembelajaran lagi.

2.2.4.5.2 Pembelajaran Tak Terawasi

Pada metode pembelajaran yang tak terawasi ini tidak memerlukan target

output. Pada metode ini, tidak dapat ditentukan hasil yang seperti apakah yang

diharapkan selama proses pembelajaran. Selama proses pembelajaran, nilai bobot

disusun dalam suatu range tertentu tergantung pada nilai input yang diberikan.

Tujuan pembelajaran ini adalah mengelompokkan unit-unit yang hampir sama

dalam suatu area tertentu. Pembelajaran ini biasanya sangat cocok untuk

pengelompokan (klasifikasi) pola.

47

Jaringan saraf tiruan dikarakteristikkan dengan pola koneksi antarneuron

yang disebut arsitektur, metode penentuan bobot pada setiap koneksinya (yang

disebut training atau learning, algoritma) dan fungsi aktivasinya. Jaringan saraf

terdiri dari elemen pemroses sederhana yang dinamakan neuron, unit, sel atau

node. Setiap neuron terkoneksi dengan neuron yang lain masing-masing dengan

bobot terhubung. Bobot merepresentasikan informasi yang digunakan oleh

jaringan untuk menyelesaikan masalah. Jaringan saraf dapat diaplikasikan untuk

masalah yang sangat luas, seperti penyimpanan dan pemanggilan kembali data

atau pola, mengklasifikasian pola, menampilkan pemetaan secara umum dari pola

input menjadi pola output, mengelompokkan pola yang sama, atau menemukan

solusi untuk mengoptimisasikan masalah. Setiap neuron mempunyai fungsi

aktivasi atau level aktivitas, yang merupakan fungsi dari input yang telah diterima.

Neuron mengirimkan aktivasinya sebagai sebuah sinyal ke beberapa neuron yang

lain. Sebuah neuron hanya dapat mengirimkan sebuah sinyal dalam satu waktu,

walaupun sinyalnya disebarkan pada beberapa neuron yang lain. Ciri utama yang

dimiliki oleh jaringan saraf tiruan adalah kemampuannya untuk belajar. Belajar

(learning) pada jaringan saraf tiruan dapat diartikan sebagai proses penyesuaian

parameter pembobot karena keluaran yang diinginkan tergantung pada harga

pembobot interkoneksi yang dimiliki oleh sel. Proses belajar akan dihentikan jika

nilai kesalahan atau error sudah dianggap cukup kecil untuk semua pasangan data

latihan. Jaringan yang sedang melakukan proses belajar disebut berada dalam

tahap latihan (training). Pada tahap awal pelatihan ini perlu dilakukan terlebih

dahulu sebelum melakukan pengujian suatu objek.

48

Berdasarkan tingkat kemampuannya, jaringan saraf tiruan dapat diterapkan

pada beberapa aplikasi yang cocok bila diterapkan pada klasifikasi pola, yakni

memilih suatu input data ke dalam suatu kategori tertentu yang diterapkan. Di

samping itu jaringan saraf tiruan dapat diterapkan pada prediksi dan self

organizing, yakni menggambarkan suatu obyek secara keseluruhan hanya dengan

mengetahui bagian dari obyek lain dan memiliki kemampuan untuk mengolah

data-data tanpa harus memiliki data sebagai target. Selanjutnya jaringan saraf

tiruan juga mampu diterapkan pada masalah optimasi, yakni mencari jawaban atau

solusi terbaik dari suatu masalah.

Prosedur yang digunakan untuk menampilkan proses pembelajaran disebut

algoritma pembelajaran yang fungsinya memodifikasi bobot sinapsis pada

jaringan dalam sebuah cara yang teratur untuk mencapai rancangan objek yang

diinginkan. Modifikasi bobot sinapsis menyediakan sebuah metode untuk

merancang jaringan saraf tiruan. Seperti sebuah pendekatan yang mendekati teori

linear adaptif, yang telah didirikan dan sukses diaplikasikan pada bermacam-

macam bidang. Bagaimanapun, sangat mungkin bagi jaringan saraf tiruan untuk

memodifikasi topologinya sendiri yang dimotivasi dengan fakta bahwa neuron

pada otak manusia dapat mati dan koneksi sinapsis baru dapat bertumbuh.

49

Kemampuan JST untuk belajar dan memperbaiki dirinya telah

menghasilkan banyak algoritma atau aturan belajar alternatif yang dapat

digunakan, dari sekian banyak aturan yang ada, yang paling sering digunakan

adalah aturan belajar backpropagation yang termasuk kategori supervised learning

yang dapat digunakan memperbaiki kinerja jaringan saraf tiruan.Namun Learning

vector quantization merupakan metode pembelajaran pada lapisan kompetitif yang

akan secara otomatis belajar untuk mengklasifikasikan vektor-vektor masukan

(Kusumadewi, 2004:295)