dasar teori pengenalan suara

29
BAB II KERANGKA TEORITIK A. Deskripsi Konsep Pada subbab deskripsi konsep ini akan dijelaskan seluruh teori yang berhubungan dengan pengenalan suara. Teori-teori yang akan dijelaskan antara lain mengenai sinyal percakapan, analisis sinyal dengan metode LPC, transformasi Fourier, jaringan saraf tiruan, dan tingkat pengenalan. A.1. Sinyal Percakapan Sinyal dapat didefinisikan sebagai kuantitas fisik yang bervariasi seiring waktu atau variabel bebas lainnya yang menyimpan suatu informasi. 12 Contoh sinyal adalah: suara manusia, kode morse, tegangan listrik di kabel telepon, variasi intensitas cahaya pada sebuah serat optik yang digunakan pada telepon atau jaringan komputer, dan lain-lainnya. 12 M. J. Roberts, Signals and Systems Analysis Using Transform Methods and Matlab , (New York: McGraw-Hill, 2004), h. 1. 12

Upload: mimitantono

Post on 06-Jun-2015

4.061 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Dasar Teori Pengenalan Suara

BAB II

KERANGKA TEORITIK

A. Deskripsi Konsep

Pada subbab deskripsi konsep ini akan dijelaskan

seluruh teori yang berhubungan dengan pengenalan suara.

Teori-teori yang akan dijelaskan antara lain mengenai

sinyal percakapan, analisis sinyal dengan metode LPC,

transformasi Fourier, jaringan saraf tiruan, dan

tingkat pengenalan.

A.1. Sinyal Percakapan

Sinyal dapat didefinisikan sebagai kuantitas fisik

yang bervariasi seiring waktu atau variabel bebas

lainnya yang menyimpan suatu informasi.12 Contoh sinyal

adalah: suara manusia, kode morse, tegangan listrik di

kabel telepon, variasi intensitas cahaya pada sebuah

serat optik yang digunakan pada telepon atau jaringan

komputer, dan lain-lainnya.

Sinyal dapat diklasifikasikan menjadi beberapa

jenis yaitu: sinyal waktu kontinyu, sinyal waktu

diskrit, sinyal nilai kontinyu, sinyal nilai diskrit,

12 M. J. Roberts, Signals and Systems Analysis Using Transform Methods and Matlab, (New York: McGraw-Hill, 2004), h. 1.

12

Page 2: Dasar Teori Pengenalan Suara

sinyal random, dan sinyal nonrandom.13 Sinyal waktu

kontinyu dengan nama lain sinyal analog adalah sinyal

yang belum melalui proses apapun. Sedangkan sinyal

nilai diskrit atau sinyal digital adalah sinyal analog

yang telah melalui proses sampling, quantization, dan

encoding.

Sampling adalah proses mengambil nilai-nilai

sinyal pada titik-titik diskrit sepanjang variabel

waktu dari sinyal waktu kontinyu, sehingga didapatkan

sinyal waktu diskrit. Jumlah titik-titik yang diambil

setiap detik dinamakan sebagai sampling rate. Dalam

melakukan sampling, perlu diperhatikan kriteria Nyquist

yang menyatakan bahwa sebuah sinyal harus memiliki

sampling rate yang lebih besar dari 2fm, dengan fm

adalah frekuensi paling tinggi yang muncul disebuah

sinyal.14

Quantization adalah proses memetakan nilai-nilai

dari sinyal nilai kontinyu menjadi nilai-nilai yang

diskrit, sehingga didapatkan sinyal nilai diskrit.

Encoding adalah proses mengubah nilai-nilai sinyal

ke menjadi bilangan biner. Pada gambar 2 dapat dilihat

perbedaan antara sinyal analog dengan sinyal digital.

13 Ibid., h. 2.14 Ibid., h. 503.

13

Page 3: Dasar Teori Pengenalan Suara

Gambar 2 Diagram Sinyal Analog dan Sinyal DigitalSumber: Lawrence B. Holder, Speech Recognition

(Briefly), http://www.cs.berkeley.edu/~russell/classes/ cs188/s05/slides/chapter15b.pdf, 16 Juni 2005.

Sinyal yang berbentuk digital dapat disimpan dalam

media penyimpanan di komputer. WAV file (berasal dari

kata wave) merupakan format umum yang paling sederhana

untuk menyimpan data sinyal audio. WAV file terdiri

dari 3 potongan informasi yaitu: RIFF chunk, FORMAT

chunk, dan DATA chunk.15 RIFF chunk berisi informasi

yang menandakan bahwa file berbentuk WAV. FORMAT chunk

berisi parameter-parameter seperti jumlah channel,

sample rate, resolusi. DATA chunk yang berisi data

aktual sinyal digital.

Sinyal yang dihasilkan dari suara manusia sewaktu

melakukan percakapan disebut sebagai sinyal percakapan.

Sinyal percakapan merupakan kombinasi kompleks dari

variasi tekanan udara yang melewati pita suara dan

vocal tract, yaitu mulut, lidah, gigi, bibir, dan

15 Mark Csele, WAV File Format Descriptions, http://rti7020.etf.bgac.yu/rti/ir1pp2/domaci/WavFileFormat.html, 25 Maret 2005.

14

Page 4: Dasar Teori Pengenalan Suara

langit-langit. Sistem produksi sinyal percakapan dapat

dilihat pada gambar 3.

Gambar 3 Diagram Model Sistem Produksi SuaraSumber: Don Johnson, The Speech Signal, http://cnx.

rice.edu/content/m0087/latest/, 25 Maret 2005.

Sinyal percakapan terdiri dari serangkaian suara

yang masing-masing menyimpan sepotong informasi.

Berdasarkan cara menghasilkannya, suara tersebut

terbagi menjadi voiced dan unvoiced. Suara voiced

dihasilkan dari getaran pita suara, sedangkan suara

unvoiced dihasilkan dari gesekan antara udara dengan

vocal tract.

Sinyal percakapan memiliki beberapa karakteristik,

misalnya: formant, pitch, dan intensitas. Formant

adalah variasi resonansi yang dihasilkan oleh vocal

tract. Pitch adalah frekuensi dari sinyal atau yang

sering disebut sebagai intonasi. Sedangkan intensitas

adalah kekuatan suara. Karakteristik-karakteristik

tersebut berguna dalam melakukan analisis sinyal.

15

Page 5: Dasar Teori Pengenalan Suara

A.2. Analisis Sinyal dengan Metode LPC

Analisis sinyal adalah kegiatan melakukan

ekstraksi terhadap informasi yang terdapat di suatu

sinyal. Linear Predictive Coding (LPC) merupakan salah

satu teknik analisis sinyal percakapan yang paling

powerful dan menyediakan ekstraksi fitur yang

berkualitas baik dan efisien untuk digunakan dalam

perhitungan. LPC pertama kali digunakan pada tahun 1978

untuk membuat alat sintesis sinyal percakapan.

LPC melakukan analisis dengan cara memperkirakan

formant, memisahkan formant dari sinyal, yang dinamakan

proses inverse filtering, lalu mengestimasi intensitas

dan frekuensi dari sinyal percakapan yang tersisa, yang

disebut residue.16 Karena sinyal percakapan bervariasi

seiring waktu, estimasi tersebut dilakukan untuk setiap

potongan kecil dari sinyal, yang dinamakan frame.

Adapun langkah-langkah analisis LPC untuk

pengenalan suara adalah sebagai berikut.17

1. Preemphasis terhadap cuplikan sinyal dengan

persamaan preemphasizer:

(1)

16 Wil Howitt, Op. Cit.17 Resmana dan Rudy Adipranata, “Pengenalan Suara Manusia Dengan

Metode Jaringan Saraf Tiruan Back Propagation Berbasis PC”, Dimensi Teknik Elektro, Vol 34, (Februari, 1999), h. 31.

16

Page 6: Dasar Teori Pengenalan Suara

dengan adalah sampel ke-n dan harga yang

paling sering digunakan ialah 0.95.

2. Membagi hasil preemphasis ke dalam frame-frame

yang masing-masing memuat buah sampel yang

dipisahkan sejauh buah sample. Semakin

semakin baik perkiraan spektral LPC dari frame ke

frame.

3. Melakukan windowing terhadap setiap frame yang

telah dibentuk untuk meminimalkan diskontinuitas

pada ujung awal dan ujung akhir setiap frame dengan

persamaan Hamming Window untuk sampel ke-n adalah:

, (2)

Hasil yang didapatkan lalu dikalikan dengan sampel.

4. Analisis autokorelasi terhadap setiap frame hasil

windowing dengan persamaan:

(3)

dengan dimulai dari 0 dan nilai tertinggi dari

adalah orde LPC yang biasa bernilai 8 - 16.

5. Mengubah buah hasil autokorelasi pada masing-

masing frame menjadi koefisien LPC untuk

dengan persamaan dibawah ini:

17

Page 7: Dasar Teori Pengenalan Suara

(4)

, (5)

(6)

, (7)

(8)

dengan adalah hasil autokorelasi, adalah

error, adalah koefisien pantulan, adalah

koefisien prediksi untuk .

6. Mengubah parameter LPC ke koefisien cepstral

untuk mendapatkan kinerja yang lebih baik dan tahan

terhadap noise, yaitu dengan persamaan:

, (9)

, (10)

A.3. Transformasi Fourier

Transformasi Fourier merupakan metode untuk

mentransformasikan sinyal domain waktu menjadi sinyal

domain frekuensi. Transformasi ini penting dalam

analisis sinyal karena karakteristik sinyal domain

18

Page 8: Dasar Teori Pengenalan Suara

frekuensi dapat diamati dengan lebih jelas dan

dimanipulasi dengan lebih mudah daripada sinyal domain

waktu. Di domain frekuensi, sinyal direpresentasikan

sebagai serangkaian nilai yang menunjukkan banyaknya

satuan sinyal yang berada di frekuensi tertentu.

Transformasi Fourier banyak digunakan untuk

aplikasi sains, misalnya: fisika, teori numerik,

pemrosesan sinyal, statistik, akustik, optik, geometri,

dan lain-lainnya.

A.3.a. DFT

Untuk melakukan transformasi Fourier terhadap

sinyal diskrit, digunakan Discrete Fourier Transform

(DFT) yang didefinisikan sebagai berikut.18

, (11)

DFT menghasilkan serangkaian buah nilai yang

berindeks di dalam domain frekuensi yang merupakan

transformasi dari sinyal domain waktu yang berindeks .

Dari hasil tersebut, dan merupakan

konjugasi kompleks.19 Karena magnitude dari konjugasi

kompleks adalah sama, maka didapatkan

18 Chris Rowden, Speech Processing, (Berkshire: McGraw-Hill, 1992), h. 48.

19 Ibid.

19

Page 9: Dasar Teori Pengenalan Suara

untuk bernilai 0 sampai . Dengan demikian, nilai

hasil transformasi dalam domain frekuensi yang

digunakan untuk analisis sinyal hanya nilai yang

berindeks 0 sampai saja.

Untuk mengembalikan sinyal domain frekuensi ke

domain waktu, digunakan persamaan transformasi inverse.

Persamaan DFT inverse didefinisikan sebagai berikut.20

, (12)

A.3.b. FFT

Fast Fourier Transform (FFT) dikembangkan oleh

Cooley dan Tukey pada tahun 1965. Algoritma FFT

merupakan penyederhanaan dari DFT yang memiliki

persyaratan jumlah data harus merupakan bilangan

untuk . Waktu komputasi DFT memiliki

kompleksitas sedangkan FFT memiliki kompleksitas

dengan , sehingga FFT lebih cepat daripada

DFT dengan rasio kecepatan FFT terhadap DFT adalah:21

(13)

seperti yang terhitung pada tabel 1.

20 Ibid., h. 49.21 M. J. Roberts, Op. Cit., h. 553.

20

Page 10: Dasar Teori Pengenalan Suara

Tabel 1 Rasio Kecepatan FFT Terhadap DFTSumber: M. J. Roberts, Signals and Systems Analysis Using Transform Methods and Matlab, (New York: McGraw-Hill, 2004), h.554.

p N Rasio kecepatan FFT/DFT2 4 1.003 8 5.334 16 8.005 32 12.806 64 21.337 128 36.578 25 64.009 512 113.7810 1,024 204.8011 2,048 372.3612 4,096 682.6713 8,192 1,260.3114 16,384 2,340.5715 32,768 4,369.0716 65,536 8,192.00

A.4. Jaringan Saraf Tiruan

Jaringan saraf tiruan (JST) adalah sebuah sistem

pemrosesan informasi yang memiliki karakteristik yang

hampir sama dengan jaringan saraf biologis.22 Jaringan

saraf tiruan telah banyak digunakan dalam berbagai

aplikasi, misalnya: pemrosesan sinyal, sistem kontrol,

pengenalan pola, pengobatan, pengenalan suara, produksi

suara, dan bisnis.

Sebuah JST terdiri dari sejumlah elemen pemroses

yang dinamakan neuron. Masing-masing neuron ini

dihubungkan ke neuron lainnya dengan suatu bilangan

22 Laurene Fausett, Op.Cit., h. 3.

21

Page 11: Dasar Teori Pengenalan Suara

yang dinamakan weight atau bobot keterhubungan, yang

berisi informasi yang digunakan jaringan untuk

menyelesaikan masalah.

Sebuah jaringan saraf tiruan pada umumnya memiliki

karakteristik: arsitektur, algoritma pembelajaran, dan

fungsi aktivasi.23 Arsitektur adalah pola koneksi antar

neuron. Algoritma pembelajaran adalah metode yang

digunakan untuk menentukan bobot keterhubungan. Fungsi

aktivasi adalah fungsi yang digunakan neuron untuk

memetakan sinyal masukan yang diterima menjadi sinyal

keluaran yang akan dikirimkan ke neuron lainnya.

Menurut arsitekturnya, jaringan saraf tiruan

seringkali diklasifikasikan sebagai jaringan lapis

tunggal dan jaringan lapis jamak.24 Jaringan lapis

tunggal terdiri dari satu lapis unit masukan dan satu

lapis unit keluaran. Arsitektur jaringan lapis tunggal

dapat dilihat pada gambar 4.

23 Ibid., h. 3.24 Ibid., h. 12.

22

Page 12: Dasar Teori Pengenalan Suara

Gambar 4 Arsitektur Jaringan Lapis TunggalSumber: Laurene Fausett, Fundamentals of Neural

Networks, (Englewood Cliffs: Prentice-Hall, 1994), h. 13.

Jaringan lapis jamak terdiri dari satu lapis unit

masukan, n lapis unit tersembunyi, dan satu lapis unit

keluaran. Arsitektur jaringan lapis jamak dengan satu

lapis unit tersembunyi dapat dilihat pada gambar 5.

Gambar 5 Arsitektur Jaringan Lapis Jamak dengan Satu Lapis Unit Tersembunyi

23

Page 13: Dasar Teori Pengenalan Suara

Sumber: Laurene Fausett, Fundamentals of Neural Networks, (Englewood Cliffs:Prentice-Hall, 1994),

h. 13.Fungsi aktivasi digunakan untuk menghasilkan

sinyal keluaran yang dibatasi pada rentang nilai

tertentu, misalnya: antara 0 dengan 1 disebut biner,

dan antara -1 dengan 1 disebut bipolar. Ada beberapa

jenis fungsi aktivasi yang sering digunakan yaitu:

linier, tangga, dan sigmoid.

Kehadiran unit-unit tersembunyi dan fungsi

aktivasi yang non linier pada jaringan, dapat

memberikan kemampuan kepada jaringan untuk

menyelesaikan lebih banyak masalah daripada jaringan

yang hanya memiliki unit-unit masukan dan unit-unit

keluaran.25

Cara pembelajaran jaringan saraf tiruan dapat

dibagi menjadi dua kategori yaitu supervised (terarah)

dan unsupervised (tidak terarah).26 Pembelajaran

supervised mengasosiasikan vektor-vektor masukan dengan

target keluaran, contohnya: Hebb, Perceptron, Adaline,

Learning Vector Quantization (LVQ), BackPropagation,

dan lain-lainnya. Sedangkan pembelajaran unsupervised

mengelompokkan vektor-vektor masukan yang memiliki

sifat mirip menjadi satu keluaran tanpa memperhatikan

25 Ibid., h. 4.26 Ibid., h. 15.

24

Page 14: Dasar Teori Pengenalan Suara

target keluaran, contohnya: Self Organizing Maps (SOM),

Adaptive Resonance Theory (ART) dan lain-lain.

Pada penelitian ini akan dibandingkan JST Momentum

Back Propagation Neural Networks (MBPNN) dengan JST

Self Organizing Maps (SOM) untuk melakukan pengenalan

suara. Pada subbab selanjutnya akan dijelaskan lebih

lanjut mengenai JST MBPNN dan JST SOM.

A.5. Tingkat Pengenalan

Tingkat pengenalan pada penelitian ini dinilai

berdasarkan jumlah keberhasilan pengenalan suara. Jika

suara berhasil dikenali sebagai kata yang benar maka

diberi nilai 1, sebaliknya jika suara salah dikenali

diberi nilai 0. Semakin tinggi jumlah keberhasilan yang

didapat maka semakin tinggi tingkat pengenalannya.

B. Kerangka Teori

B.1. MBPNN

Jaringan Back Propagation Neural Network (BPNN)

dikembangkan oleh Rumelhart, Hinton, dan Williams pada

tahun 1986. BPNN biasanya digunakan untuk melakukan

pengenalan pola, klasifikasi, pengolahan citra, dan

pengambilan keputusan. BPNN merupakan JST dengan

25

Page 15: Dasar Teori Pengenalan Suara

pembelajaran yang supervised, artinya data pembelajaran

terdiri dari vektor pasangan input dan target (output

yang diharapkan).

Momentum Back Propagation Neural Network (MBPNN)

merupakan modifikasi dari BPNN dalam hal penyesuaian

bobot dan bias, yaitu penyesuaian dilakukan dengan

memperhatikan kombinasi dari keadaan bobot sekarang

dengan keadaan bobot sebelumnya. Modifikasi ini dapat

memberikan waktu pembelajaran yang lebih cepat.27

B.1.a. Arsitektur MBPNN

Jaringan MBPNN memiliki arsitektur jaringan lapis

jamak. Arsitektur MBPNN dapat dilihat pada gambar 6.

Gambar 6 MBPNN dengan Satu Lapisan Tersembunyi

27 Ibid., h. 305.

26

Page 16: Dasar Teori Pengenalan Suara

Sumber: Laurene Fausett, Fundamentals of Neural Networks, (Englewood Cliffs: Prentice-Hall, 1994),

h. 291.B.1.b. Algoritma MBPNN

Algoritma pembelajaran MBPNN terdiri dari tiga

tahap, yaitu alur maju, alur mundur perhitungan

kesalahan dan penyesuaian bobot. Pada tahap alur maju,

setiap unit masukan menerima sinyal masukan dan

meneruskannya ke masing-masing unit tersembunyi yang

lalu menghitung nilai aktivasi dan mengirimnya ke

masing-masing unit keluaran. Pada tahap alur mundur,

masing-masing unit keluaran membandingkan nilai

aktivasi yang diterimanya dengan nilai target untuk

menentukan nilai kesalahan yang terjadi. Pada tahap

penyesuaian bobot, nilai bobot keterhubungan dari unit

masukan ke unit tersembunyi dan bobot keterhubungan

dari unit tersembunyi ke unit keluaran diperbaiki

berdasarkan nilai kesalahan yang didapat dari alur

mundur.

Berikut ini adalah algoritma pembelajaran MBPNN.28

1. Inisialisasi bobot keterhubungan dengan nilai acak

yang kecil.

2. Selama kondisi berhenti tidak dipenuhi kerjakan

langkah 3-10.

28 Ibid., h. 294.

27

Page 17: Dasar Teori Pengenalan Suara

3. Untuk setiap pasangan pelatihan kerjakan langkah

4-9.

(Tahap alur maju)

4. Setiap unit masukan menerima sinyal masukan dan

meneruskannya ke semua unit pada lapisan

tersembunyi.

5. Masing-masing unit tersembunyi menjumlahkan sinyal masukan dengan

bobot keterhubungannya,

(14)

memakai fungsi aktivasi untuk menghitung sinyal keluarannya,

(15)

dan mengirimnya ke semua unit di lapisan di atasnya

(unit keluaran).

6. Masing-masing unit keluaran menjumlahkan sinyal masukan dengan bobot

keterhubungannya,

(16)

memakai fungsi aktivasi untuk menghitung sinyal keluaran.

(17)

(Tahap alur mundur)

7. Masing-masing unit keluaran menghitung informasi

kesalahan antara sinyal yang dihasilkan dengan

target dari pola,

(18)

28

Page 18: Dasar Teori Pengenalan Suara

koreksi beban,

(19)

koreksi bias,

(20)

dan mengirim δk ke unit di lapisan di bawahnya.

8. Masing-masing unit tersembunyi menjumlahkan sinyal

yang masuk dari lapisan di atasnya,

(21)

menghitung informasi kesalahan,

(22)

koreksi beban,

(23)

dan koreksi bias.

(24)

(tahap penyesuaian bobot)

9. Masing-masing unit keluaran mengganti bobot dan bias,

(25)

Masing-masing unit tersembunyi mengganti bobot dan

bias29

(26)

29 Ibid., h. 305.

29

Page 19: Dasar Teori Pengenalan Suara

dengan μ adalah parameter momentum yang bernilai di

antara 0 dan 1.

10. Uji kondisi berhenti yaitu nilai kesalahan yang

dihasilkan lebih kecil dari nilai kesalahan

referensi.

Berikut ini adalah algoritma pengenalan MBPNN.30

1. Inisialisasi bobot keterhubungan dengan nilai yang

didapat dari hasil pembelajaran.

2. Untuk setiap vektor masukan kerjakan langkah 3-5.

3. Setiap unit masukan menerima sinyal masukan dan

meneruskannya ke semua unit di lapisan tersembunyi.

4. Masing-masing unit tersembunyi menjumlahkan sinyal masukan dengan

bobot keterhubungannya,

(27)

memakai fungsi aktivasi untuk menghitung sinyal keluarannya ,

(28)

dan mengirimnya ke semua unit di lapisan di atasnya

(unit keluaran).

5. Masing-masing unit keluaran menjumlahkan sinyal masukan dengan bobot

keterhubungannya,

(29)

menghitung sinyal keluaran dengan memakai fungsi aktivasi,

30 Ibid., h. 299.

30

Page 20: Dasar Teori Pengenalan Suara

(30)

B.1.c. Fungsi aktivasi MBPNN

Fungsi aktivasi yang digunakan MBPNN memiliki

karakteristik: kontinyu, dapat dideferensiasikan, dan

monoton naik.31 Salah satu fungsi aktivasi yang

memenuhi karakteristik tersebut adalah fungsi sigmoid

bipolar yang memiliki jangkauan nilai (-1,1) dan difenisikan sebagai

(31)

dengan

(32)

B.2. SOM

Jaringan Self Organizing Maps (SOM) dikembangkan

pada tahun 1982 oleh Teuvo Kohonen, seorang profesor

dari The Academy of Finland. SOM menggunakan metode

pembelajaran unsupervised, artinya di dalam melakukan

pembelajaran tidak menggunakan data output sebagai

target pembelajaran.

Sewaktu melakukan pembelajaran, unit kelompok yang

vektor bobotnya memiliki jarak yang paling dekat dengan

vektor masukan akan dipilih sebagai unit pemenang.

31 Ibid., h. 292.

31

Page 21: Dasar Teori Pengenalan Suara

Jarak tersebut biasanya ditentukan dengan menggunakan

Eucledian Distance. Unit pemenang dan unit tetangganya

lalu diperbaharui bobotnya. Unit tetangga ditentukan

berdasarkan topologi yang digunakan untuk unit

pengelompokan, misalnya: topologi linear, rectangular,

hexagonal, diamond, dan lain-lainnya.

B.2.a. Arsitektur SOM

Arsitektur SOM dapat dilihat pada gambar 7.

Gambar 7 Arsitektur SOM Sumber: Laurene Fausett, Fundamentals of Neural

Networks, (Englewood Cliffs: Prentice-Hall, 1994),h. 291.

B.2.b. Algoritma SOM

Berikut ini adalah algoritma pembelajaran SOM.32

1. Inisialisasi bobot keterhubungan.

- Set topologi parameter ketetanggaan.

- Set parameter laju pembelajaran.

32 Ibid., h. 170.

32

Page 22: Dasar Teori Pengenalan Suara

2. Selama kondisi berhenti tidak dipenuhi kerjakan

langkah 3-7.

3. Untuk setiap vektor input, kerjakan langkah 4-6.

4. Untuk setiap unit keluaran hitung

(33)

5. Tentukan J sehingga D(J) bernilai minimum.

6. Ganti nilai bobot dari semua unit masukan ke unit

keluaran yang merupakan neighborhood dari J

(34)

7. Ganti laju pembelajaran.

8. Kurangi radius topologi ketetanggaan pada waktu

yang telah ditentukan.

9. Uji kondisi berhenti.

Berikut ini adalah algoritma pengenalan SOM.33

1. Set nilai bobot uji dari bobot keterhubungan hasil

pembelajaran.

2. Untuk setiap unit keluaran hitung nilai

(35)

3. Cari unit pemenang yaitu unit yang memiliki nilai

minimum.

33 Sri Kusumadewi, Artificial Inteligence, (Yogyakarta: Graha Ilmu, 2003), h. 276.

33

Page 23: Dasar Teori Pengenalan Suara

4. Pola termasuk dalam kelompok yang menjadi unit

pemenang.

C. Kerangka Berpikir

Di dalam pengenalan pola dengan menggunakan JST,

dikenal istilah pembelajaran dan pengenalan. Di dalam

melakukan pembelajaran terdapat dua jenis pendekatan,

yaitu pembelajaran supervised (terarah) dan

pembelajaran unsupervised (tidak terarah). Pembelajaran

supervised dilakukan dengan memperhatikan hubungan

antara data input dengan data output untuk dimasukkan

ke dalam persamaan matematika yang akan digunakan dalam

pengenalan. Sedangkan pada pembelajaran unsupervised,

data pembelajaran dikelompokkan ke dalam kelas-kelas

dengan memperhatikan kedekatan jarak antar data input

untuk menghasilkan vektor bobot yang akan digunakan

dalam pengenalan.

Pada penelitian ini, JST MBPNN dipilih sebagai

wakil dari pembelajaran supervised, dan JST SOM dipilih

sebagai wakil dari pembelajaran unsupervised. Kedua JST

ini dipilih untuk dibandingkan agar dapat dilihat

sejauh mana perbedaan tingkat akurasi pengenalan jika

pembelajaran dilakukan secara supervised dan jika

pembelajaran dilakukan secara unsupervised.

34

Page 24: Dasar Teori Pengenalan Suara

MBPNN memiliki alur mundur yang menghitung nilai

kesalahan bobot yang dihasilkan dari alur maju untuk

mengoreksi bobot sampai nilai kesalahan yang minimum

dicapai. Dengan demikian, bobot akhir yang dihasilkan

diharapkan dapat menghasilkan pengenalan yang maksimum.

Sedangkan pada SOM, tidak terdapat alur mundur yang

menghitung nilai kesalahan. Karena itu bobot akhir pada

SOM belum tentu dapat menghasilkan pengenalan yang

maksimum.

Dari uraian di atas, maka bobot akhir yang

dihasilkan oleh MBPNN kemungkinan akan lebih dapat

memaksimalkan pengenalan daripada bobot akhir yang

dihasilkan oleh SOM. Maka pada penelitian ini

diharapkan bahwa pengenalan suara dengan menggunakan

JST MBPNN dapat menghasilkan tingkat akurasi pengenalan

yang lebih tinggi daripada JST SOM.

D. Rumusan Hipotesis

Jaringan saraf tiruan MBPNN memberikan tingkat

akurasi pengenalan yang lebih tinggi daripada jaringan

saraf tiruan SOM untuk pengenalan suara dengan

35

Page 25: Dasar Teori Pengenalan Suara

ekstraksi fitur menggunakan metode LPC dan transformasi

menggunakan metode FFT.

36