sistem identifikasi pembicaraberbasis … (sip) dengan ekstraksi ciri menggunakan , teknik mfcc yang...

6
Seminar Nasional Teknologi Informasi 2010 C5 SISTEM IDENTIFIKASI PEMBICARABERBASIS POWER SPEKTRUM :MENGGUNAKAN HIDDEN MARKOV MODEL Agus Buono!) Wisnu Jatmiko 2) Benyamin Kusumoputro" !) Departemen Ilmu Komputer FMIP A IPB Kampus IPB Darmaga-Bogor email: [email protected] 2) Fakultas Ilmu Komputer Universitas Indonesia Fakultas Ilmu Komputer Kampus UI Depok 3) Fakultas Teknik Universitas Indonesia Fakultas Teknik Kampus UI Depok email: [email protected] ARSTRACT Pada paper ini, disajikan suatu penerapan model HMM sebagai pengenal pola pada sistem identifikasi pembicara (SIP) dengan ekstraksi ciri menggunakan , teknik MFCC yang berbasis nilai power spektrum dari suara. SIP yang dikembangkan bersifat text dependent dan melibatkan 10 pembicara yang mengucapkan frase "pudesha" sebanyak 80 kali tanpa pengkondisian. Untuk melihat efektifitas sistem, dilakukan uji coba baik pada suara tanpa penambahan noise maupun dengan penambahan noise yang bersifat Gaussian pada level 20 hingga 0 dB. Hasil percobaan menunjukkan bahwa teknik HMM dengan jumlah data training yang mencukupi mampu melakukan pengenalan dengan baik (99%) untuk data tanpa penambahan noise. Namun demikian, untuk data dengan penambahan noise (meskipun hanya 20 dB), akurasi sistem drop hingga jauh di bawah 50%. Hasil percobaan menunjukkan bahwa kegaga/an ini lebih disebabkan oleh nilai power spektrum sebagai masukan MFCC yang bersifat sensitif terhadap noise, dan bukan pada HMM-nya . • Key words Sistem identifikasi pembicara, MFCC. HMM, Codebook, SOFM. " ~' 1. Pendahuluan : Sistem Pengenalan Pembicara, Automatic Speaker identification (AS!), ad;hh salah satu sistem pengenalan suara yang mengidentifikasi orang atau dari kelornpok apa orang tersebut berasal berdasar suara tanpa adanya klaim sebelumnya mengenai orang tersebut, [I]. Dalam perkembangannya, teknik pemodelan suara yang banyak dikaji adalah yang berbasis teori peluang. Satu teknik yang telah menunjukkan efektifitas yang baik dalam merepresentasikan suara adalah HMM (Hidden Markov Model), seperti disajikan pada [2]. Dari aspek ekstraksi ciri, Mel-Frequency Cepstrum Coefficients (MFCC) merupakan teknik yang telah luas dipakai pada pemrosesan sinyal suara, terutama pada pengenalan pembicara. Penggunaan teknik ini pada sistem pemrosesan sinyal memberikan pengenalan yang lebih baik dibandingkan dengan metode lainnya, Davis and Mermelstein (dalam [3 D. Paper ini disajikan dengan susunan sebagai berikut : Bagian 2 mengenai prinsip sistem identifikasi pembicara. Teknik MFCC untuk ekstraksi ciri pada bagian 3. Bagian 4 menyajikan data, rancangan dan hasil percobaan, dan sebagai penutup adalah kesimpulan dan saran untuk penelitian selanjutnya yang disajikan pada bagian 5. 2. Prinsip Sistem Identifikasi Pembicara Secara umum, sistem identifikasi pembicara terdiri dari dua subsistem, yaitu subsistem ekstraksi ciri dan subsistem pencocokan pola, seperti disajikan pada Gambar 1. Subsistem ekstraksi ciri melakukan proses transformasi sinyal input ke dalam satu set vektor ciri sebagai representasi dari sinyal suara suatu pembicara untuk proses selanjutnya. Subsistem pencocokan pola merupakan bagian untuk melakukan identifikasi suatu pembicara yang belum diketahui dengan cara membandingkan sinyal suaranya yang telah diekstrak ke dalam vektor. ciri dengan set vektor ciri dari pembicara yang telah diketahui dan tersimpan dalam sistem, [4]. .. .,; 23

Upload: hanhu

Post on 23-Mar-2019

228 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: SISTEM IDENTIFIKASI PEMBICARABERBASIS … (SIP) dengan ekstraksi ciri menggunakan , teknik MFCC yang berbasis nilai power spektrum dari suara. SIP yang dikembangkan bersifat text dependent

Seminar Nasional Teknologi Informasi 2010 C5

SISTEM IDENTIFIKASI PEMBICARABERBASIS POWERSPEKTRUM :MENGGUNAKAN HIDDEN MARKOV MODEL

Agus Buono!) Wisnu Jatmiko 2) Benyamin Kusumoputro"

!) Departemen Ilmu Komputer FMIP A IPBKampus IPB Darmaga-Bogoremail: [email protected]

2) Fakultas Ilmu Komputer Universitas IndonesiaFakultas Ilmu Komputer Kampus UI Depok

3) Fakultas Teknik Universitas IndonesiaFakultas Teknik Kampus UI Depok

email: [email protected]

ARSTRACTPada paper ini, disajikan suatu penerapan model

HMM sebagai pengenal pola pada sistem identifikasipembicara (SIP) dengan ekstraksi ciri menggunakan ,teknik MFCC yang berbasis nilai power spektrum darisuara. SIP yang dikembangkan bersifat text dependentdan melibatkan 10 pembicara yang mengucapkan frase"pudesha" sebanyak 80 kali tanpa pengkondisian. Untukmelihat efektifitas sistem, dilakukan uji coba baik padasuara tanpa penambahan noise maupun denganpenambahan noise yang bersifat Gaussian pada level 20hingga 0 dB. Hasil percobaan menunjukkan bahwateknik HMM dengan jumlah data training yang mencukupimampu melakukan pengenalan dengan baik (99%) untukdata tanpa penambahan noise. Namun demikian, untukdata dengan penambahan noise (meskipun hanya 20 dB),akurasi sistem drop hingga jauh di bawah 50%. Hasilpercobaan menunjukkan bahwa kegaga/an ini lebihdisebabkan oleh nilai power spektrum sebagai masukanMFCC yang bersifat sensitif terhadap noise, dan bukanpada HMM-nya .

• Key wordsSistem identifikasi pembicara, MFCC. HMM, Codebook,

SOFM.

"~' 1. Pendahuluan:

Sistem Pengenalan Pembicara, Automatic Speakeridentification (AS!), ad;hh salah satu sistempengenalan suara yang mengidentifikasi orang ataudari kelornpok apa orang tersebut berasal berdasarsuara tanpa adanya klaim sebelumnya mengenai orangtersebut, [I]. Dalam perkembangannya, teknik

pemodelan suara yang banyak dikaji adalah yangberbasis teori peluang. Satu teknik yang telahmenunjukkan efektifitas yang baik dalammerepresentasikan suara adalah HMM (HiddenMarkov Model), seperti disajikan pada [2].

Dari aspek ekstraksi ciri, Mel-Frequency CepstrumCoefficients (MFCC) merupakan teknik yang telahluas dipakai pada pemrosesan sinyal suara, terutamapada pengenalan pembicara. Penggunaan teknik inipada sistem pemrosesan sinyal memberikanpengenalan yang lebih baik dibandingkan denganmetode lainnya, Davis and Mermelstein (dalam [3D.

Paper ini disajikan dengan susunan sebagai berikut: Bagian 2 mengenai prinsip sistem identifikasipembicara. Teknik MFCC untuk ekstraksi ciri padabagian 3. Bagian 4 menyajikan data, rancangan danhasil percobaan, dan sebagai penutup adalahkesimpulan dan saran untuk penelitian selanjutnyayang disajikan pada bagian 5.

2. Prinsip Sistem Identifikasi Pembicara

Secara umum, sistem identifikasi pembicara terdiridari dua subsistem, yaitu subsistem ekstraksi ciri dansubsistem pencocokan pola, seperti disajikan padaGambar 1. Subsistem ekstraksi ciri melakukan prosestransformasi sinyal input ke dalam satu set vektor cirisebagai representasi dari sinyal suara suatu pembicarauntuk proses selanjutnya. Subsistem pencocokan polamerupakan bagian untuk melakukan identifikasi suatupembicara yang belum diketahui dengan caramembandingkan sinyal suaranya yang telah diekstrak kedalam vektor. ciri dengan set vektor ciri dari pembicarayang telah diketahui dan tersimpan dalam sistem, [4].

.. .,;

23

Page 2: SISTEM IDENTIFIKASI PEMBICARABERBASIS … (SIP) dengan ekstraksi ciri menggunakan , teknik MFCC yang berbasis nilai power spektrum dari suara. SIP yang dikembangkan bersifat text dependent

C5

Gambar 1. Blok diagram sistem identidikasi pembicara dengan HMMsebagai pengenal pola

Dati aspek pengembangan sistem, ada dua fase padasistem identifikasi pembicara. Fase pertama adalah tahappelatihan. Pada fase ini sistem melakukan pelatihan untukmenentukan parameter model untuk setiap pembicaraberdasar data suara pembicara tersebut. Pada penelitianuu suara setiap pembicara dimodelkan denganmenggunakan Hidden Markov Model (HMM) yang dilatihmenggunakan algoritma Baum Welch seperti yangdisajikan pada [2].

Fase kedua adalah tahapan pengujian, yaitu sinyalinput yang diberikan kepada sistem dicocokan dengandengan model setiap pembicara yang ada pada sistem.Keputusan untuk menentukan pembicara didasarkan padaskor tertinggi untuk setiap model, yang dihitung denganalgoritma Forward, [2].

3. Met-Frequency Cepstrum Coefficients

Sinyal suara adalah sinyal yang berubah terhadapwaktu secara perlahan (quasi-stationary). Untuk rentangwaktu yang pendek (antara 5 and 100 milliseconds),kateristik sinyal ini bisa dianggap stasioner. Namundemikian untuk untuk periode yang cukup panjang (115seconds atau lebih) karakteristik sinyal berubah yangmencerminkan perbedaan bunyi yang diucapkan. Olehkarena itu, short-time spectral analysis adalah yang biasadilakukan untuk mengkarakterisasi sinyal suara, [4].

MFCC adalah teknik ekstraksi ciri yang populer danpaling banyak digunakan. Block diagram teknik MFCCinidisajikan pada Gambar 2, [4]. Frame blocking: sinyalsuara dibaca per blok (frame) yang terdiri dari N sample.Antara dua frame yang bersisihan terdapat overlap N-Msample, dengan M adalah banyaknya pergeseran antarframe (M<N).

Seminar Nasional Teknologi Informasi 2010

.Sampling frame frame -

Sinya~ dan frame .•.. Windo- .•..kont~n blocking

.., wing ;' FFT

spectrum

~Transformasi Mel-frequency

./ Mel kosinus Mel wrappingeepstrum (cepstrum) ...••..,e~~.~u (filtering)

Gambar 2. Block diagram teknik MFFC

Windowing: proses windowing dilakukan pada setiapframe dengan tujuan untuk meminimumkan diskontinuitasantar sua frame, khususnya pada bagian awal dan akhir.FFT: Pada tahap ini setiap frame yang terdiri dari Nsamples dikonversi dari domain waktu ke domainfrekuensi. Output dari proses ini disebut dengan namaspektrum atau periodogram.Mel-Frequency wrapping: tahap ini merupakan prosespengfilteran dari spektrum setiap frame yang diperolehdari tahapan scbelumnya. Filter tersebut berupa M filtersegitiga sama tinggi dengan tinggi satu. Filter ini dibuatdengan mengikuti persepsi telinga manusia dalammenerima suara. Persepsi ini dinyatakan dalam skala'mel' (berasal dari Melody) yang mempunyai hubungantidak linear dengan frekuensi suara, [4]. Dalam hal iniskala mel-frequency adalah linear untuk frekuensi kurangdari 1000 Hz dan logaritmik untuk frekuensi di atas 1000Hz. Satu relasi antara frekuensi bunyi (dalam Hz) denganskala mel adalah, [4], [5] :

r 1= 2595*10g o(l+L) (1)J me I 700 .

Grafik relasi di atas disajikan pada Gambar 3.

2500 ._ -.__ -_._.__ _ _ _-_._-__.__ .

2000

1500a;:;;

1000

500

00 2000 4000 5000lOCO 3000

Frequency

Gambar 3. Hubungan antara frekuensi dengan skala me!

24

Page 3: SISTEM IDENTIFIKASI PEMBICARABERBASIS … (SIP) dengan ekstraksi ciri menggunakan , teknik MFCC yang berbasis nilai power spektrum dari suara. SIP yang dikembangkan bersifat text dependent

Seminar Nasional Teknologi Informasi 2010

Berdasar hubungan tersebut, maka algoritma untukmembuat M filter adalah seperti pada algoritma 1.Sedangkan Gambar 4 menyajikan contoh sebuah filtersegitiga ke i.Algoritma 1: Mengkonstruksi M filter

a. Pilih jumlah filter yang akan dibuat (M)b. Pilih frekuensi terbesar (fhigh). Dari~

nilai ini, maka nilai tertinggi dari J,me!adalah f.' hig" = 2595 * log (1+ I"ig" )

mel 10 700

c. Pusat filter ke i adalah fi :1000. 'c.l. F. = *1 untuk 1.=1, 2, 3, ...r M/2

Ji 0.5*M .',c.2. untuk i=M/2, M/2+1, ...r M, maka f ,

dihitung dengan prosedur berikut:1. skala mel disekat dengan 1ebar yang

sarna, yaitu sebesar ~, dengan:1."ig" -100011 = me!

O.5*MDengan persamaan (1), maka nilai~ dapat dirumsukan sebagai

5i90 {'700+ fhi.h)t.=---Io 'M 1700

2. nilai me1 untuk pusat filter ke iada1ah:a = 1000+(i-O.5* M}* ~

3. pusat dari filter ke i adalah:f = 700 * (lOa12595 -1)

Nilai koefisien spekrum mel (me! spectrum coefficients)adalahjumlah dari hasil pengfilteran sesuai rumus 2, [5]:

Xi = lo{~abS(X(j))* Hi (f)) (2)

frekuensi)

Gambar 4. Suatu filter segitiga ke i dengan tinggi 1

Dengan i=I,2,3, ... ,M; M adalah banyaknya filter; Nadalah banyaknya koefisien FFT; abs(X(j» adalahmagnitude koefisien ke j dari periodogram yangdihasilkan oleh transformasi FFT; dan Hi(£) adalah nilaifilter ke i pada titik frekuensi adalah f.Cepstrum: Pada tahap ini dilakukan konversi darikoefisien spektrum mel kembali ke domain waktumenggunakan transformasi kosinus sesuai rumus 3.

M ( • * (' 0 5) * )Cj=L:Xi*COS J 1-. 7r (3)i=1 20

C5

Dengan j=I,2,3, ... ,K; K adalah banyaknya koefisien; Madalah banyaknya filter segitiga; Xi adalah koefisienspektrum mel yang diperoleh dengan formula (2). Dalamhal ini C, disebut sebagai mel frequency cepstrumcoefficients (MFCC) koefisien ke j.

4. Data, Struktur HMM dan HasilPercobaan

4.1. Data Percobaan

Percobaan pada penelitian menggunakan data yangberasal dari 10 pembicara yang mengucapkan kata"PUDESHA" sebanyak 80 kali tanpa dikontrol carapengucapannya, Hal ini dengan maksud untukmenunjukkan bahwa model yang dihasilkan mampubekerja pada suara dengan berbagai cara pengucapan(keras-lemah, panjang-pendek, maupun tinggi-rendah).Karakteristik ke sepuluh pembicara tersebut adalah sepertidisajikan pada Tabell.

Tabell. Daftar 10 Pembicara yang Digunakan dalam Penelitian

Pembicara Jenis Umur Pekerjaan SukuKelamin (th)

I Pria 40 PNS Jawa2 Pria 32 Karyawan Sunda3 Pria 23 Mhsw Jawa4 Pria 37 PNS Batak5 Pria 37 PNS Jawa6 Pria 30 PNS Sunda7 Pria 23 MHSW Jawa8 Wanita 9 Pelajar Jawa-Minang9 Wanita 6 Pelaiar Jawa-MinanE\0 Pria 23 MHSW Jawa-Sunda

Setiap suara disampling dengan frekuensi 1.1 kHz dandurasi 1.28 detik (sehingga diperoleh sinyal dijital denganpanjang 14080) yang dilakukan dalam ruang kerja yangtertutup. Gambar 5 adalah contoh variasi carapengucapan dari seorang pembicara tertentu yangdigunakan dalam model.

Puuu-Deee-Shaa Pu-Dee-Shaaaa Puu-Deeee--shaa

Puuu-Deeee-Shaa Puu--Dee--Shaaa

~j"~Pu-De-Shaaaa

Gambar S. Beberapa Sinyal Sesuai Cara Pengucapan dari SeorangPembicara

25

Page 4: SISTEM IDENTIFIKASI PEMBICARABERBASIS … (SIP) dengan ekstraksi ciri menggunakan , teknik MFCC yang berbasis nilai power spektrum dari suara. SIP yang dikembangkan bersifat text dependent

C5

Pada Gambar 5 terlihat bahwa dari satu durasiperekaman, ada bagian atau segmen yang tidak ada suara(silence), yang umumnya terjadi dibagian depan danbelakang. Untuk meningkatkan akurasi sistem, makasebelum memasuki tahap ekstraksi, dilakukan prosespenghapusan bagian silence dengan menggunakan batassebesar rata-rata absolut bagian silence ditambah 1,96dikali standar deviasinya. Gambar 6 memberikan inputdan output proses penghapusan bagian silence.

Sebelum penghapusarsilencesilence

Setelah penghapusansilence

Cvmbar 6 Ilustrasi Penghapusan Bagian Silence

Setelah dilakukan penghapusan bagian silence,dilakukan standarisasi sinyal suara dengan membagi sinyal .dengan nilai mutlak simpangan maksimum, sehingga akandiperoleh sinyal dengan simpangan maksimum 1 atau -1.Selanjutnya dilakukan penambahan Gaussian noisedengan level 20hingga 0 dB. Dengan demikian, padaakhirnya diperoleh beberapa set sinyal yang terdiri 800data sinyal per set, masing-masing untuk sinyal asIi dansinyal asIi dengan penambahan noise.

4.2. Struktur HMM

Pada penelitian ini, identifikasi pembieara didasarkanpada ujaran yang bersifat tetap, yaitu frase "PUDESHA"dan vektor pengamatan pada setiap periode t, Or, adalahkontinyu yang didekati dengan distribusi Gaussian, makamodel left-right HMM dengan distribusi emitten bersifatGaussian akan lebih sesuai. Bentuk model ini disajikanpada Gambar 7.

Catolta.Jl::Itfj : pel-=-.nc. traxsisi dari state i ke state j~(O): cUstrtbusipeluUtg peubalt obsenrasi 0 jikas1atenya ••.4alak 1.

Gambar 7. Model Left-Right HMM dengan Tiga State yangDipergunakan pada Penelitian

Seminar Nasional Teknologi Informasi 2010

Oleh karenanya, HMM di atas dituliskan sebagai :

oSeperti telah disebutkan sebelumnya, data yang

digunakan berasal dari 10 pembicara masing-masing 80pengueapan. Dalam hal uu dieobakan tiga setperbandingan jumlah data pelatihan dengan jumlah datapengujian, yaitu 20:60, 40:40, dan 60:20. Ada tigatahapan dalam pereobaan ini, yaitu tahap ekstraksi eiri,tahap pelatihan model dan tahapan pengenalan. Padatahap ekstraksi eiri, semua ueapan dari setiap pembiearadihitung nilai eirinya yang dibaea frame demi framedengan panjang 256 dan overlap antar frame 156menggunakan teknik MFCC. Berikutnya data yang telahdihitung cirinya dikelompokkan menjadi dua, satu untukpelatihan dan sisanya untukpcngujian (pengenalan) sesuaiproporsi di atas. Selanjutnya adalah tahap pelatihan. Padatahap ini dilakukan pendugaan parameter HMM denganalgoritma Baum Welch [2] dari set data pelatihan. Setelahmodel diperoleh, dilanjutkan tahap pengenalan pembiearauntuk set data pengujian yang sudah ditentukan.

4.3. Hasil Percobaan

Hasil pengenalan pembieara dengan metodeMFCC+HMM untuk sinyal asIi disajikan pada Tabel 2.Dari tabel tersebut terlihat bahwa teknik yang dipakaiberhasil dengan baik mengenaIi pembieara, yaitu sekitar99% untuk data asli pada proporsi data training 75%.Sedangkan jika proporsi data training berkurang menjadi50% dan 25%, maka akurasi turun cukup berarti, yaitumenjadi 93.8% dan 85.5%.

Tabel2. Akurasi (%) Sistem dengan Teknik MFCC+HMM padaBerbagai Jenis Data. Uji

% data trainingJenis Data Uji 25% 50% 75%

Asli 85.5 93.8 99.0Asli+noise 20 dB 37.0 41.1 52.8Asli+noise 15 dB 18.0 24.3 32.0Asli+noise 10 dB 14.4 15.4 22.5Asli+noise 7 dB 13.9 14.9 19.5.Asli+noise 5 dB 12.7 13.8 17.3Asli+noise 2 dB 11.2 11.2 12.3Asli+noise 0 dB 10.4 10.0 11.3

Hal ini menunjukan bahwa untuk memberikan hasil yangoptimum, maka jumlah teknik HMM memerlukan jumlahdata pelatihan yang meneukupi. Dengan 60 data pelatihandengan setiap suara mempunyai panjang rata-rata sekitar50 frame, maka panjang total barisan yang dipergunakan

26

Page 5: SISTEM IDENTIFIKASI PEMBICARABERBASIS … (SIP) dengan ekstraksi ciri menggunakan , teknik MFCC yang berbasis nilai power spektrum dari suara. SIP yang dikembangkan bersifat text dependent

Seminar Nasional Teknologi Informasi 2010

untuk pelatihan adalah sekitar 3000 frame. Dari tabeltersebut juga terlihat bahwa dengan bertambahnya noise,akurasi turun seeara drastis, yaitu menjadi 52% untuknoise 20 dB, dan untuk noise yang lebih tinggi, akurasijauh di bawah 50%. Hal tersebut terlihat jelas seearavisual seperti yang ditunjukkan pada Gambar 8.

100.0

80.0

60.0

40.0

20.0

0.0asli +noise +noise +noise +noise +noise +noise +noise

20 dB 15 dB 10 dB 7 dB 5 dB 2 dB 0 dB

Gambar 8. Akurasi Sistem (%) Dengan Teknik MFCC+HMM untukBerbagai Data Uji pada Berbagai Noise

{;l\

==.; ~. . J. ,,-r :..11:1~_hlF-'::~ Hh}· +t+ -H-tl±lfEI±l:±ti:Ift±B:tH±±±±±

{h\ Pnwp.r

asi+noise 5 dB

:;111Gambar 9.. _.Perbandingan Pola Power Spektrum antara Sinyal Aslidengan Sinyal'Asli yang Ditambah Noise

Gagalnya sistem ini disebabkan oleh nilai powerspektrum yang sensitif terhadap gangguan noise, sepertiditunjukkan pada Gambar 9. Bagian kiri, (a),menunjukkan dengan jelas bahwa bentuk gelombang

C5

sinyal suara mengalami· perubahan dengan adanyatambahan noise mulai dari terkeeil 20 dB hingga terbesaro dB. Meskipun, seeara alamiah eiri sinyal asli dengansinyal asli yang sudah ditambah noise tidaklah berubah,namun pola power spektrnmnya telah mengalamiperubahan. Perubahan ini sudah mulai terlihat pada noise20 dB, dan secara nyata pada noise 10 dB

Fakta empiris yang ditunjukkan pada Gambar 9mengatakan bahwa power spektrnm sebagai penentu cirisinyal suara sangat sensitif terhadap gangguan noise.Dengan demikian, maka nilai feature yang diperoleh dariekstraksi eiri telah mengalami distorsi yang cukup besardari sinyal aslinya, yang pada akhirnya akan menurunkanakurasi sistem.Sedangkan kalau diperhatikan dari jumlah hidden state

dari model HMM, terlihat adanya perbedaan tingkatakurasi dari jumlah hidden state 3 hingga 7, dengan nilaitertinggi pada jumlah hidden state 6, yaitu mencapai 100%(untuk data asli), seperti ditunjukkan pada Gambar 10.Meskipun demikian, secara absolut, nilai akurasi darisetiap jumlah hidden state tersebut tidaklah terlalu berbedanyata (semuanya di atas 99%). Hal ini menunjukkanbahwa pemilihan jumlah hidden state pada HMM tidaklahmemberikan pengaruh yang nyata terhadap hasil akurasisistem.

99.3100908070~ 60~

.u; 50~::l 40-"« 30

20100

3

100 9999 99.5

4 6 75

Jumlah Hidden State

Gambar 10. Perbandingan Akurasi pada Berbagai Jurnlah Hidden State

Dari aspek pemilihan data training, ada hal yang cukupmenarik adalah adanya fakta bahwa pemilihan ucapansebagai data pelatihan secara acak akan memberikanakurasi sistem yang lebih baik, seperti disajikan padaGambar 11. Dari gambar tersebut terlihat bahwa sistemyang dikembangkan dengan data training yang dipilih darisuara yang secara relatif berada jauh dari pusatdistribusinya akan memberikan akurasi yang rendah, (B).Untuk data training berasal dari suara yang menyebar _disekitar pusat distribusi, (A), juga kurang memberikan hasilyang bagus. Kalau dipilih suara seeara sistematik dariyang dekat hingga yang terjauh dari pusat distribusi suara(C), maka akurasi lebih tinggi dibanding (A) dan (B).Hasil tertinggi adalah kalau data training dipilih secara

27

Page 6: SISTEM IDENTIFIKASI PEMBICARABERBASIS … (SIP) dengan ekstraksi ciri menggunakan , teknik MFCC yang berbasis nilai power spektrum dari suara. SIP yang dikembangkan bersifat text dependent

C5

acak, seperti yang ditunjukkan pada (D), yaitu hampirmencapai 100%. Meskipun demikian, dari nilai absolutakurasi tersebut masih cukup baik, yaitu untuk semuanyatidak kurang dari 99%.

99.3100.0

~ 80.0~u;E 60.0""'"<10 40.0"'"'"cj:: 20.0

0.0A

100.099.0 99.5

c DB

Jenis Data Training

Gambar II. Perbandingan Akurasi dati Empat Jenis Data Training

5. Kesimpulan dan Saran

Beberapa fakta yang diperoleh pada bagian ini adalah :

1. Teknik MFCC dan HMM dapat diterapkan untukpengenalan pola suara dengan baik (akurasi di atas99%) untuk data tanpa penambahan noise.

2. Secara empiris terlihat bahwa perbedaan jumlahhidden state pada HMM tidak memberikan pengaruhyang berarti bagi kinerja sistem. Jumlah hidden statesebanyak 3 telah mampu memberian akurasi di atas99%.

3. Akurasi sistem dipengaruhi olehjenis data suara yangdipakai sebagai data pelatihan. Pemilihan data untukpelatihan secara acak akan memberikan hasilpengenalan yang lebih baik dibanding kalau datapelatihan dipilih tidak acak. Namun demikian,perbedaan nilai akurasi yang diberikan secara absoluttidak berarti, semuanya di atas 99%.

4. Jurnlah data training memberikan perbedaan akurasiyang signifikan, yaitu 99%, 92% dan 89% untuksinyal tanpa penambahan noise, masing-masing untukjumlah data training 60 suara (75%), 40 suara (50%),dan 20 suara (25%).

5. Akurasi sistem turun menjadi sekitar 50% untuk datasuara bernoise 20 dB. Untuk noise yang lebih besar(10 dB hingga 0 dB), akurasi turun drastis di bawah '.50% hingga mencapai sekitar 10%.

G.. Kegagalan sistem MFCC+HMM untuk sinyak denganpenambahan noise lebih dikarenakan nilai powerspektrum sebagai penciri sinyal yang merupakan inputbagi ekstraksi ciri MFCC bersifat sangat sensitifterhadap noise.

Seminar Nasional Teknologi Informasi 2010

Dari hasil yang diperoleh di atas, maka untuk penelitianselanjutnya perlu dilakukan kajian yang lebih mendalamterkait dengan noise. Solusi terhadap permasalahan noisedapat dilakukan dari 3 pendekatan, yaitu pada bagianpraproses melalui denoizing, pada tahapan ekstraksidengan menggunakan parameter yang bersifat robustterhadap noise, dan pada bagian pengenalan denganmengembangkan model HMM atau model lainnya yangmengakomodasi masalah noise.

UCAPAN TERIMA KASIH

Penulis mengucapkan terima kasih yang setinggi-tingginya kepada Departemen Ilmu Komputer IPB atas ijinpenggunaan laboratorium komputer untuk melaksanakanpercobaan ini.

REFERENSI[I] 1. Campbell, "Speaker Recognition:A Tutorial", Proc. of the

IEEE,Vol 85,No. ~\ pp 1437-1462,1997.[2] L.R. Rabiner, "A Tutorial on Hidden Markov Models and

Selected Applications in Speech Recognition", ProceedingIEEE, Vol 77 No.2, pp 257-289, 1989.

[3] Todor D. Ganchev. Speaker Recognition. PhD Dissertation,Wire Communications Laboratory, Department ofComputer and Electrical Engineering, University of PatrasGreece. 2005

[4] Cornaz, C. dan U. Hunkeler. An Automatic SpeakerRecognition System. Mini-Project.http://www·ifp·uiuc.edu/-minhdo/teaching/speakerJecognition, access: August, 15,2005.

[5] M. Nilsson dan M. Ejnarsson. Speech Recognition usingHidden Markov Model: Performance Evaluation in NoisyEnvironment. Master Thesis, Departement ofTelecommunications and Signal Processing, BlekingeInstitute of Technology, Maret 2002.

Agus Buono, rnernperoleh gelar Sarjana dan Master bidang statistik diIPB pada tahun 1992 dan 1996. Gelar Master dan Doktor bidang lImuKomputer diperoleh dati Universitas Indonesia pada tahun 2000 dan2009. Saat ini sebagai StafPengajar Departemen IImu Komputer InstitutPertanian Bogor.

Benyamin Kusumoputro, memperoleh gelar Sarjana bidang fisika datiInstitut Teknologi bandung dan Doktor Optoelektronika dati TokyoInstitute of Technology-Jepang. Gelar Profesor diperoleh pada tahun2002 dati Universitas Indonesia. Saat ini sebagai Staf Pengajar FakultasTeknik Universitas Indonesia.

. Wisnu Jatmiko, memperoleh gelar Sarjana Elektro dan Magister llmuKomputer dari Universitas Indonesia. Ph.D bidang komputer diperolehdari Jepang pada tahun 2008. Saat ini sebagai Dosen Fakultas 11m••Komputer Universitas Indonesia.

28