perluasan metode mfcc ld ke 2d sebagai esktraksi ciri

7
MAKARA, SAINS, VOL. 13, NO. 1, APRIL 2009: 87-93 - PERLUASAN METODE MFCC lD KE 2D SEBAGAI ESKTRAKSI CIRI PADA SISTEM IDENTIFlKASI PEMBICARA MENGGUNAKAN HIDDEN MARKOV MODEL (HMM) ........--Agus Buono 1 *), Wisnu Jatmiko/, dan Benyamin Kusumoputro/ 1. Departemen Ilmu Komputer, FMIPA, IPB, Kampus IPB Darmaga, Bogor 16680, Indonesia 2. Laboratorium Kecerdasan Komputasional, Fakultas Ilmu Komputer, Universitas Indonesia, Depok 16424, Indonesia OJ E-mail: [email protected];[email protected] .J', _> Abstrak Pada paper ini, sebuah metode Mel-Frequency Cepstrum Coefficients (MFCC) sebagai pengekstraksi ciri telah dikembangkan sebagai perluasan dari MFCC pada ruang satu dimensi (ID-MFCC) ke ruang dua dimensi (2D-MFCC). Pada metode ID-MFCC, komponen masukan sistem adalah nilai spectrum sinyal yang diperoleh melalui transformasi Fourier, maka pada metode 2D-MFCC sebagai komponen masukan sistem adalah data bispectrum sinyal. Oleh karena itu, perubahan yang dilakukan adalah dimensi filter serta transformasi kosinus pada tahap akhir metode dari ruang satu dimensi menjadi ruang dua dimensi. Efektifitas metode 2D-MFCC yang diusulkan ini kemudian diuji pada sistem untuk identifikasi pembicara menggunakan HMM sebagai pengenal pola. Percobaan dilakukan pada sistem untuk mengenali 10 pembicara dengan data latih masing-masing pembicara sebanyak 20, 40 dan 60 data suara dari 80 suara yang tersedia untuk setiap pembicara. Hasil dengan data uji menunjukkan bahwa sistem memiliki akurasi yang tinggi, yaitu diatas 99%,92% dan 88% dengan masing-masing untuk model dengan data latih sebanyak 60, 40 dan 20. Abstract The Extention of MFCC Technique from ID to 2D as Feature Extractor for Speaker Identification System Using HMM. In this paper, we introduce an extension of Mel-Frequency Cepstrum Coefficients (ID-MFCC) methodology to bispectrum data, referred to as 2D-MFCC, for feature extraction. 2D-MFCC is based on 2D bispectrum data rather than ID spectrum vector yielded by Fourier transform, so the filter in ID-MFCC must be extend to 2D filter and using 2D cosine transform to get the mel-cepstrum coefficients from the filtered bispectrum values. Based on 2D-MFCC, we develop a speaker recognition system with Hidden Markov Model (HlYIM) as classifier. The experimental results show that the recognition rate is around 88%, 92% and 99% for 20,40 and 60 data training, respectively. Keywords: Mel-Frequency Cepstrum Coefficients (MFCC), Bispectrum, Hidden Markov Model (HMM) 1. Pendahuluan Mel-Frequency Cepstrum Coefficients (MFCC) merupakan teknik ekstraksi ciri yang telah luas dipakai pada pemrosesan sinyal suara, terutama pada pengenalan pembicara. Penggunaan teknik ini pada sistem pemrosesan sinyal memberikan pengenalan yang lebih baik dibandingkan dengan metode lain yang sudah ada [I]. Sejak diperkenalkan oleh Davis and Mermelstein pada tahun 1980 [1], maka teknik MFCC ini telah mengalami pengembangan dan variasi. Bagian utama yang mengalami modifikasi adalah pada pengembangan filter, seperti jumlah, bentuk, cara membuat sekatan, serta lebar filter yang dibuat. Sedangkan dari sisi masukan tetap sama, yaitu spektrumenergi dari input yang diperoleh meJ.~Luitransformasi Fourier. Dari studi yang sudah dilakukan [2], terlihat bahwa spektrum ini sensitif terhadap gangguan noise. Hal ini berakibat sistem yang dikembangkan akan mempunyai akurasi yang rendah untuk sinyal yang terkontaminasi oleh noise. Dengan noise 20 dB, akurasi sistem turun menjadi sekitar 40% dari semula 99% untuk data tanpa penambahan noise [2]. Oleh karena itu perlu dicari besaran lain yang akan menggantikan spektrum energi yang menjadi komponen masukan pada metode MFCC ini. 87

Upload: others

Post on 02-Nov-2021

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: PERLUASAN METODE MFCC lD KE 2D SEBAGAI ESKTRAKSI CIRI

MAKARA, SAINS, VOL. 13, NO. 1, APRIL 2009: 87-93

-PERLUASAN METODE MFCC lD KE 2D

SEBAGAI ESKTRAKSI CIRI PADA SISTEM IDENTIFlKASI PEMBICARAMENGGUNAKAN HIDDEN MARKOV MODEL (HMM)

........--AgusBuono1*), Wisnu Jatmiko/, dan Benyamin Kusumoputro/

1. Departemen Ilmu Komputer, FMIPA, IPB, Kampus IPB Darmaga, Bogor 16680, Indonesia2. Laboratorium Kecerdasan Komputasional, Fakultas Ilmu Komputer, Universitas Indonesia, Depok 16424, Indonesia

OJE-mail: [email protected];[email protected]', _>

Abstrak

Pada paper ini, sebuah metode Mel-Frequency Cepstrum Coefficients (MFCC) sebagai pengekstraksi ciri telahdikembangkan sebagai perluasan dari MFCC pada ruang satu dimensi (ID-MFCC) ke ruang dua dimensi (2D-MFCC).Pada metode ID-MFCC, komponen masukan sistem adalah nilai spectrum sinyal yang diperoleh melalui transformasiFourier, maka pada metode 2D-MFCC sebagai komponen masukan sistem adalah data bispectrum sinyal. Oleh karenaitu, perubahan yang dilakukan adalah dimensi filter serta transformasi kosinus pada tahap akhir metode dari ruang satudimensi menjadi ruang dua dimensi. Efektifitas metode 2D-MFCC yang diusulkan ini kemudian diuji pada sistem untukidentifikasi pembicara menggunakan HMM sebagai pengenal pola. Percobaan dilakukan pada sistem untuk mengenali10 pembicara dengan data latih masing-masing pembicara sebanyak 20, 40 dan 60 data suara dari 80 suara yang tersediauntuk setiap pembicara. Hasil dengan data uji menunjukkan bahwa sistem memiliki akurasi yang tinggi, yaitu diatas99%,92% dan 88% dengan masing-masing untuk model dengan data latih sebanyak 60, 40 dan 20.

Abstract

The Extention of MFCC Technique from ID to 2D as Feature Extractor for Speaker Identification System UsingHMM. In this paper, we introduce an extension of Mel-Frequency Cepstrum Coefficients (ID-MFCC) methodology tobispectrum data, referred to as 2D-MFCC, for feature extraction. 2D-MFCC is based on 2D bispectrum data rather thanID spectrum vector yielded by Fourier transform, so the filter in ID-MFCC must be extend to 2D filter and using 2Dcosine transform to get the mel-cepstrum coefficients from the filtered bispectrum values. Based on 2D-MFCC, wedevelop a speaker recognition system with Hidden Markov Model (HlYIM) as classifier. The experimental results showthat the recognition rate is around 88%, 92% and 99% for 20,40 and 60 data training, respectively.

Keywords: Mel-Frequency Cepstrum Coefficients (MFCC), Bispectrum, Hidden Markov Model (HMM)

1. Pendahuluan

Mel-Frequency Cepstrum Coefficients (MFCC)merupakan teknik ekstraksi ciri yang telah luas dipakaipada pemrosesan sinyal suara, terutama padapengenalan pembicara. Penggunaan teknik ini padasistem pemrosesan sinyal memberikan pengenalan yanglebih baik dibandingkan dengan metode lain yang sudahada [I].

Sejak diperkenalkan oleh Davis and Mermelstein padatahun 1980 [1], maka teknik MFCC ini telah mengalamipengembangan dan variasi. Bagian utama yangmengalami modifikasi adalah pada pengembangan

filter, seperti jumlah, bentuk, cara membuat sekatan,serta lebar filter yang dibuat. Sedangkan dari sisimasukan tetap sama, yaitu spektrumenergi dari inputyang diperoleh meJ.~Luitransformasi Fourier. Dari studiyang sudah dilakukan [2], terlihat bahwa spektrum inisensitif terhadap gangguan noise. Hal ini berakibatsistem yang dikembangkan akan mempunyai akurasiyang rendah untuk sinyal yang terkontaminasi olehnoise. Dengan noise 20 dB, akurasi sistem turunmenjadi sekitar 40% dari semula 99% untuk data tanpapenambahan noise [2]. Oleh karena itu perlu dicaribesaran lain yang akan menggantikan spektrum energiyang menjadi komponen masukan pada metode MFCCini.

87

Page 2: PERLUASAN METODE MFCC lD KE 2D SEBAGAI ESKTRAKSI CIRI

88 MAKARA, SAINS, VOL. 13, NO. i,APRIL 2009: 87-93

Pada [3] disebutkan bahwa nilai spektrum orde tinggiHigher Order Statistics (HOS) untuk orde 3(bispektrum) dari sinyal yang berdistribusi Gaussianadalah no!. Fakta ini diharapkan mampu menekanpengaruh Gaussian noise pada sinyal, yang padaakhirnya sistem yang dikembangkan akan bersifatrobust terhadap noise. Secara empiris, hal ini telahdibuktikan pada [4-6]. Oleh karena bispektrum adalahberdimensi dua, maka teknik MFCC konvensional perIudikembangkan sehingga dapat memproses untuk datadua dimensi. Bertolak dari hal tersebut, maka padapaper ini, disajikan suatu perIuasan metode MFCC darisatu dimensi (lD-MFCC) ke dua dimensi (2D-MFCC).

Selanjutnya, paper ini disajikan dengan susunan sebagaiberikut: Bagian 2 mengenai prinsip sistem identifikasipembicara. Metode MFCC untuk ekstraksi ciri padabagian 3. Sedangkan perIuasannya pada bagian 4.Bagian 5 menyajikan rancangan percobaan sertahasilnya. Sistem yang kembangkan untuk melihatefektifitas teknik yang diusulkan ini terdiri dari I r.pembicara. Akhirnya, kesimpulan serta saran untukpenelitian selanjutnya disajikan pada bagian 6.

2. Metode Penelitian

Prinsip Sistem Identifikasi Pembicara. Identifikasipembicara merupakan proses untuk menentukanpembicara berdasar input suara yang diberikan [7].Secara umum, sistem identifikasi pembicara terdiri daridua subsistem, yaitu subsistem ekstraksi ciri dansubsistem pencocokan pola, seprti disajikan padaGambar 1.

Subsistem ekstraksi ciri melakukan proses transformasisinyal input ke dalam satu set vektor ciri sebagairepresentasi dari sinyal suara suatu pembicara untukproses selanjutnya. Subsistem pencocokan polamerupakan bagian untuk melakukan identifikasi suatupembicara yang belum diketahui dengan caramembandingkan sinyal suaranya yang telah diekstrak ke

Database Mode1 HMM(pembicara 1, 2, 3, ...,

Gambar 1. Blok Diagram Sistem Identidikasi Pembicaradengan HMM Sebagai Pengklasifikasi

dalam vektor ciri dengan set vektor ciri dari pembicarayang telah diketahui dan tersimpan dalam sistem [7].

Dari aspek pengembangan sistem, ada dua fase padasistem identifikasi pembicara. Fase pertama adalahtahap pelatihan. Pada fase ini sistem melakukanpelatihan untuk menentukan parameter model untuksetiap pembicara berdasar data suara pembicaratersebut. Pada penelitian, frase yang digunakan adalah"pudesha". Pada penelitian ini setiap pembicaradimodelkan dengan menggunakan Hidden MarkovModel (HMM). Dari sampel data dengan frase"pudesha" ini, model setiap pembicara dilatih denganmenggunakan aigoritma Baum Welch seperti yangdisajikan pada [8].

Fase kedua adalah tahapan pengujian, yaitu sinyal inputyang diberikan kepada sistem dicocokan dengan denganmodel setiap pembicara yang ada pada sistem.Keputusan untuk menentukan pembicara didasarkan padaskor tertinggi untuk cetiap model. Untuk penghitunganskor ini digunakan algoritma Forward [8].

Met-Frequency Cepstrum Coefficients. Sinyal suaraadalah sinyal yang berubah terhadap waktu secaraperIahan (quasi-stationary). Untuk rentang waktu yangpendek (antara 5 and 100 milliseconds), kateristik sinyalini bisa dianggap stasioner. Namun demikian untukperiode yang cukup panjang (115 seconds atau lebih)karakteristik sinyal berubah yang mencerminkanperbedaan bunyi yang diucapkan. Oleh karena itu,short-time spectral analysis adalah yang biasa dilakukanuntuk mengkarakterisasi sinyal suara [9].

MFCC adalah teknik ekstraksi ciri yang populer danpaling banyak digunakan. Block diagram teknikMFCCini disajikan pada Gambar 2 [9].

Frame blocking: sinyal suara dibaca per blok (atauframe, terdiri S sample), yang digeser dari awal hinggaakhir. Antara dua frame yang adjacent terdapat overlapS-L sample (dengan kata lain L adalah lebar pergeseranframe, dengan L < S).

Windowing: proses windowing dilakukan pada setiapframe dengan tujuan untuk meminimumkandiskontinuitas antar dua frame yang adjacent,khususnya pada bagian awal dan akhir.

FFT: Pada tahap ini setiap frame yang terdiri dari Nsamples dikonversi dari domain waktu ke domainfrekuensi. Output dari proses ini disebut dengan namaspektrum atau periodogram.

Mel-Frequency wrapping: tahap ini merupakan prosespengfilteran dari spektrum setiap frame yang diperolehdari tahapan sebelumnya, menggunakan sejumlah Mfilter segitiga dengan tinggi satu. Filter ini dibuat

Page 3: PERLUASAN METODE MFCC lD KE 2D SEBAGAI ESKTRAKSI CIRI

MAKARA, SAINS, VOL. 13, NO. 1, APRIL 2009: 87-93

dengan mengikuti persepsi telinga manusia dalammenerima suara. Persepsi ini dinyatakan dalam skala'mel' (berasal dari Melody) yang mempunyai hubungantidak linear dengan frekuensi suara, [9]. Dalam hal iniskala mel-frequency adalah linear untuk frekuensikurang dari 1000 Hz dan logaritmik untuk frekuensi diatas 1000 Hz. Satu relasi antara frekuensi bunyi (dalamHz) dengan skala mel adalah, [7,9]:

l.:= 2595 * log., (1 +L) (l)700

Grafik relasi di atas disajikan pada Gambar 3.

Alur pembuatan M filter tersebut sesuai denganalgoritma 1. Sedangkan Gambar 4 menyajikan contohsebuah filter segitiga ke-i.

fram&

Samplingdan

Mel-frequencywrapping

(filtering)

Melspectrum

blockingframe

Cosine-Transform(cepstrum)

frameWindo-wing FFT

Gambar 2. Block Diagram Teknik MFFC

2500

2000

! 1500

~ 1000

500

1000 2000 3000 4000 5000Frequency

Gambar 3. Hubungan antara Frekuensi dengan Skala Mel

1

Gambar 4. Suatu Filter Segitiga ke i dengan Tinggi 1

89

Algoritma 1: Mengkonstruksi M filtera. . Pilih jurnlah filter yang akan dibuat (M)b. Pilih frekuensi terbesar (fhigh). Dari nilai

~J.: adalah

c.

ini, maka nilai tertinggi dari

f.~high= 2595 * log (1 + high)met 10 700

Pusat filter ke i adalah f i :

=: = 1000 * i untuk i=l, 2, 3, ... , Ml2I 0.5*M

c.2. untuk i=Ml2, Ml2+1, ... , M, maka fidihitung dengan prosedur berikut:1. skala melfdisekat dengan lebar yang

sarna, yaitu sebesar !!, dengan:f.~high -1000!!= ::..!!!!.me"-.I _

0.5*MDengan persamaan (1), maka nilai!!dapat dirurnsukan sebagai :

5190 (700+ fhigh]t;=M1og 1700

2. nilai mel untuk pusat filter ke i adalah:a = 1000+ (i -0.5 *M)*!!

3. pusat dari filter ke i adalah:J; = 700 * (lOa12595 -1)

Nilai koefisien spekrum mel (mel spectrum coefficients)adalahjurnlah dari hasil pengfilteran sesuai rumus 2, [7]:

Xi =lOg(~abS(X(j»*Hi(f)J (2)

Dengan i = 1,2,3, ... ,M; M adalah banyaknya filter; Nadalah banyaknya koefisien FFT; absfXfj) adalahmagnitude koefisien ke j dari periodogram yangdihasilkan oleh transformasi FFT; dan Hi(/) adalah nilaifilter ke i pada titik frekuensiJ

Cepstrum: Pada tahap ini dilakukan konversi darikoefisien spektrum mel kembali ke domain waktumenggunakan transformasi kosinus berikut :

C = tx. *cos(J*(i-0.5)*7r) (3)) i=1 I 20

dengan j = 1,2, 3, ... ,K; K adalah banyaknya koefisienMFCC yang diinginkan; M adalah banyaknya filtersegitiga; Xi adalah koefisien spektrum mel yangdiperoleh dengan Pers. (2). Dalam hal ini C, disebutsebagai koefisien ke j dari me! frequency cepstrumcoefficients. (MFCC).

Perluasan MFCC dimensi 1 ke 2. Pada banyakaplikasi pernrosesan sinyal, ekstraksi ciri dilakukanpada setiap frame. Untuk sistem dengan ID-MFCCsebagai pengekstraksi ciri, komponen yang diproses darisetiap frame adalah nilai spektrum atau periodogram.Periodogram ini diperoleh dari transformasi Fourier danberupa vektor berdimensi I dengan N elemen. Pada 2D-MFCC, periodogram tersebut digantikan oleh bispektrum.

Page 4: PERLUASAN METODE MFCC lD KE 2D SEBAGAI ESKTRAKSI CIRI

90 MAKARA, SAINS, VOL. 13, NO.1, APRIL 2009: 87-93

Bispektrum ini berupa array dimensi 2 dengan ukuranNxN, dan setiap unsumya dinotasikan dengan Blf] j2).Dalam hal ini B(fl,j2) adalah nilai bispektrum padafrekuensi lflf2) , denganfl danj2 adalah 1,2, 3, ... ,N.Pada bagian ini akan disajikan sekilas tentangbispektrum, dilanjutkan dengan mengformulasikanmetode yang diusulkan untuk memperiuas metode ID-MFCC ke 2D-MFCC.

Bispektrum. Jika {X(k)}, k = 0, ±I, ±2, ... , adalahproses stokastik yang bemilai real, maka cumulant order3 adalah c:(r l, r2), yang dirumuskan sebagai, [8]:

c;'(Tl,r2)= t,~(-J)'-I(P-I)!E(n,x'XEVj}(nXk) (4)

R adalah banyaknya cara menyekat set {X], Xk+thXk+t2}menjadi p sekatan, dengan p = 1, 2, 3. Sebagaiilustrasi, untuk p = 2, maka diperoleh 3 kemungkinansekatan (R = 3), yaitu: s, = {Xj, Xk+tl}, S2 = {Xk+.c2}; s.= {Xj}, S2 -:= {Xk+th Xk+t2}; dan s, = {Xk+tlJ, S2 = {Xj,Xk+t2}. Bispektrum, yang disebutjuga sebagai spektrumcumulant, adalah trans formas i Fourier dari barisancumulant tersebut, dan diformulasikan sebagai [8]:

Cj'(avv2) = f fc;(rp rJexp{-j(aVpQ)2r2)} (5)

Untuk proses stasioner, cumulant order 3 dapatdiformulasikan sebagai:

c;(rp r2) = E{x(t)x(t +rl)x(t + rJ} (6)

Paramater rl dan r2 pada Pers. (4-6) di atas adalah lagyang secara teoritis bemilai bilangan real. Pada prakteknya,nilai bispektrum ini diduga dari sejumlah samples data.Secara umum ada dua pendekatan daiam mendugabispektrum, yaitu pendekatan parametrik dan pendekatankonvensional. Pendekatan konvensional dikelompokkanmenjadi tiga, yaitu teknik tidak langsung (indirecttechnique), teknik langsung (direct technique), danmodulasi kompleks (complex demodulates). Padapenelitian ini digunakan metode konvensional denganteknik tidak langsung untuk menduga nilai bispektrum.Hal ini dikarenakan teknik ini lebih sederhanadibanding lainnya. Algoritma secara lengkap dapatdilihat pad a [8].

Formulasi Pcrluasan IDMFCC ke 2DMFCC. Pada2D-MFCC, komponen yang masuk ke proses filteringadalah nilai bispektrum. Oleh karena bispektrum iniberdimensi 2, maka filter pada lD-MFCCdikembangkan menjadi berdimensi 2. Berikut adalahalgoritma untuk membentuk filter dimensi dua:

Algoritma 2: Pembentukan filter dimensi duaa. Menggunakan algoritma 1, tentukan pusat filterke i untuk sumbu Fl (yaitu flil dan jugauntuk sumbu F2 (yaitu f 2 i 1 .

b. Filter dimensi dua berupa limas dengan tinggisatu dan proyeksi titik puncak ke bidang alaspada titik (flil f2j 1 . Sudut dari bidang alasnyaadalah pada titik (fl i-ll f2j_1 1 I (fli+11 f2j_d I (fli-11 f2j+d I dan (fli+ll f2j+l 1 •

Dengan filter dimensi dua ini, nilai koefisien mel-spektrum (mel-spectrum coefficients) pada Pers. (2)akan berubah menjadi:

[

128 128 ]X(i,j)=log L LB(fl .•,/2.,)* H'.j(fI",,/2")

fl=l/2-1

(7)

Nilai ini disebut sebagai.koefisien mel-bispectrum (mel-bispectrum coefficients): Pada Pers. (7) di atas, XCi, j)adalah nilai koefisien mel-bispectrum untuk filter Hij,

dengan i, j = 1, 2, 3, ... ,M, dan M adalah banyaknyasekatan untuk filter pada sumbu FI atau F2. B(fl m,f2,,)adalah nilai bispektrum pada titik tflm,fln). Sementaraitu Hi/fl m, fln) adalah tinggi filter Hi,j pada titik (fl m,fln), dan difomulasikan dengan Algoritm a 3.Sedangkan, Gambar 5 menyajikan ilustrasi aluralgoritma tersebut.

Algoritma 3: Penghitungan H;,j di titik (flm, f2n)a. Bidang alas filter Hi,j disekat menjadi empatyang merupakan proyeksi dari setiap sisi filterlimas ke bidang alas.

b. Tentukan batas-batas daerah pada tahap a.c. Tentukan pada daerah mana titik (flml f2nlberada dengan aturan berikut:

Jika:a. f2n> f2j-1, and

b. /2 «/2j-I-/2j)UI -/1)+/2" /Ii-J - /1; m , 1

c. /2 «/2j_I-/2J)([1 -/1.)+/2n /1'+1_ /1; '" , J

Maka (f1m,f2n)€AJika:

1. f2n<f2j+1, and

2. /2 >(/2j+,-/2J)([1 -/1)+/2.II /1;+1 _ il,. tn I )

3. /2 >(/2J+I-/2j)([1 -/1)+/2." /IH _/1, m , 1

Maka (flm,f2n)€B

Jika:1. flm>fli-1, and

2. /2 >(/21_1- /21)([1 -/1)+/2" /1;_1- /1, '" t r : . J

3. /2 «/21+1 - /2')([1 -/1)+/2n /1/-l - /1, m , 1

Maka (flm, f2") €C

Jika:1. flm<fli+l' and

2. /2 >(/21_1- /2')([1 -/1)+/2" /li+l-fl{ It, I )

3. /2 «/2j+,-/2')UI -/1 )+/2." /1;+1- f1; m , J

Maka (flm, f2") €D

Page 5: PERLUASAN METODE MFCC lD KE 2D SEBAGAI ESKTRAKSI CIRI

MAKARA, SAINS, VOL. 13, NO. 1, APRIL 2009: 87-93

Persamaan garis If II,III, and IV:

I. f2=(f2j-l - f2jJ(jl- f1,)11,_1- fl,

II f2 j f2 j-l = f2 j l(jl_ f1,)+l fli., fli J

III f2 = [f2 j+l- f2 J l(.rl- flJ.fl'+1 - fli

IV. f2 = f2 i+1- ~2i (fl- fl,)fl'_1 - j I, "

Gambar 5. Konstruksi Filter pada Ruaug Dimensi 2 Hij

dengan Pusat Titik (j1;,flj)

d. Hitung nilai Hi,j (flm, f2n) sesuai dengandaerahnya, dengan menggunakan aturan berikut:

Jika (flm, f2n) €A rnaka: H(fl f2) = f2. - f2i-lI,) m' • f2i - f2i_1

Jika (flm, f2n) €B rnaka: H (fl f2) _ f2 i+l- f2.i,i m' • - f2'.1 - f2,

Jika (flm, f2n) €C rnaka: H(fl f2) = flm - fli-!I,j III' n Ill' - /1;_1

Jika (flm, f2n) €D rnaka: H .(fl f2) = fl'+1 - flmI,) m' II /1

'+1_ fll .

Pada Gambar 5 terlihat bahwa bidang fllter terbagimenjadi 4 daerah, yang masing-masing sebagai proyeksisisi filter ke bidang alas, yang dipisahkan empat garis,yaitu garis I, II, III, dan IV.

Tahap akhir dari 2D-.MFCC ini adalah mengkonversikoefisien mel-bispectrum yang berdimensi M*M daridomain frekuensi menjadi dalam domain waktu. Kalaupada ID-MFCC, teknik yang digunakan adalahtransformasi kosinus orde satu, dengan Pers. (3), makapada 2D-MFCC menggunakan Pers. (8).

Y(k) = ~ -¥ X(i,})*co(k(i-O.S)Jr)*co{kU-O.5)Jr) (8)l=!}=! ,M M

Y(k) adalah koefisien ke k dari 2D-MFCC, dengan k =1,2,3, ... ,K; K adalah banyaknya koefisien, dan XCi,j)adalah koefisien mel-bispectrum dari Pers. (6).

3. Hasil dan Pembahasan

Metode yang diusulkan diterapkan pada sistemidentifikasi pembicara yang melibatkan 10 pembicara.

91

Setiap pembicara dirninta mengucapkan frase "pudesha"sebanyak 80 kali. Setiap sinyal suara yang dihasilkandisampling dengan durasi 1,28 detik pada sampling rateII kHz. Oleh karena itu, secara keseluruhan diperolehlOx 80 = 800 data suara dari 10 pembicara. Dari 80data untuk setiap pembicara dipisahkan menjadi 2 set,yaitu satu set sebagai data training dan sisanya sebagaidata uji. Dalam hal ini dilakukan 3 jenis pembagiandengan rasio data training:data uji sebagai 60:20, 40:40,dan 20:60.

Berikutnya data suara pada setiap set dibaca dari framedemi frame dengan lebar frame 512 sample dan overlapantar frame 256' sample. Setiap frame yang dihasilkandihitung nilai bispektrum untuk frekuensi 128 x 128.Dari sini dihitung nilai cirinya dengan menggunakan2D-MFCC untuk mendapatkan 13 koefisien MFCC daridata bispektrum setiap frame tersebut.

!Jntuk mengetahui seberapa besar komponen koefisienMFCC dalam menyumbang terhadap kinerja sistem,dilakukan tiga skenario penggunaan koefisien MFCC,yaitu skenario 1 (menggunakan semua koefisien),skenario 2 (menghapus koefisien ke 1), skenario 3(menghapus koefisien ke 1 dan ke 2). Setiap percobaandibuat model HMM sebagai pengenal pola denganjumlah hidden state mulai dari 3 sid 7. Oleh karena itu,secara keseluruhan jumlah percobaan yang dilakukanadalah sebanyak 3 x 3 x 5 = 45 (3 jenis rasio datatraining dengan data uji, 3 jenis skenario, dan 5 jenisjumlah hidden state). Untuk melihat perbandingandengan teknik sebelumnya, maka juga dilakukanpengenalan suara menggunakan ID-MFCC sebagaiekstraksi eiri.

Gambar 6 menyajikan perbandingan hasil pengenalanterhadap 10 pembicara antara dua metode, yaitu ID-MFCC dengan 2D-MFCC untuk data suara tanpapenambahan noise. Terlihat bahwa kedua metodememberikan akurasi yang tinggi (> 99%) untuk datasuara tanpa penambahan noise. Juga terlihat bahwaseeara relatif teknik yang diusulkan mampu mendeteksidengan akurasi lebih tinggi dibanding tekniksebelumnya, yaitu ID-MFCC untuk semua jumlahhidden state yang dipilih. Gambar tersebut jugamenunjukkan bahwa pemilihan jumlah hidden statetidak terlalu memberikan perbedaan berarti dalam haltingkat akurasi.

Hal yang menarik adalah bahwa metode yang diusulkanmampu memberikan hasil akurasi mencapai 100%untuk jumlah hidden state sebanyak 6, yang dieapaidengan proporsijurillah data training 75%.

Namun demikian, jika data suara diberi noise sebesar 20dB, temyata akurasi sistem turun sangat drastis menjadisekitar 40% untuk kedua metode, seperti ditunjukkanpada Gambar 7. Untuk memperbaiki akurasi, perhatikan

Page 6: PERLUASAN METODE MFCC lD KE 2D SEBAGAI ESKTRAKSI CIRI

92 MAKARA, SAINS, VOL. 13, NO.1, APRIL 2009: 87-93

Gambar 8 yang menyajikan sensitifitas komponenMFCC terhadap noise. Dari gambar tersebut terlihatbahwa Komponen koefisien dari vektor ciri yangsensitif terhadap penambahan noise ini adalah padabagian awal.

Oleh karena itu dilakukan percobaan kembali dengantidak memasukkan beberapa komponen ke 1, komponenke 1 dan ke ke 2, serta komponen ke 1,2, dan ke 3. Hasilpercobaan tersebut seperti diperlihatkan pada Gambar 9.

Terlihat bahwa dengan tidak menyertakan satu koefisienpertama, temyata teknik 2D-MFCC mampu menaikkanakurasi menjadi 74,8% (naik lebih dari 25%).

Sedangkan untuk lD-MFCC tetap masih sedikit di atas50%. Namun demikian, dengan makin meningkatnyalevel noise, temyata metode yang diusulkan masihbelum memberikan hasil yang memuaskan, sepcrtidiperlihatkan pada Gambar 10.

100

98Akurasi

96

94

92

903 4 5 6 7

Jumlah Hidden State

Gambar 6. Perbandingan Akurasi antara ID-MFCCdengan 2D-MFCC untuk Suara TanpaPenambahan Noise pada Berbagai JumlahHidden State

112D-MFCCI

100

80

~ 600

'jjje

40::I.10:<

20

03 4 5 6 7

Jumlah Hidden State

Gambar 7. Perbandingan Akurasi antara ID-MFCCdengan 2D-MFCC untuk Suara Bernoise Noise20 dB pada Berbagai Jumlah Hidden State

Dibandingkan dengan power spektrum, secara visual,nilai bispektrum sinyal asli dengan sinyal yang sudahditambah noise masih terlihat mirip, Gambar 11. Hal inimenunjukkan bahwa pemilihan filter yang tepatdiharapkan memberikan hasil yang lebih baik.

Gambar 8. Perbandingan Koefisien Vektor Ciri antaraSinyal AsIi dengan yang sudah DitambahNoise20 dB.ID-MFCC (a) and 2D-MFCC (b).

80.0

z 60.0'jjjE

40.0::I.10:<

20.0

100.0

0.0original +noise 20 dB

Gambar 9. Perbandingan Akurasi antara ID-MFCCdengan 2D-MFCC untuk Suara BernoiseNoise20 dB

100

80-~ 60~'iiiE

40:s~<

20

0asli +noise 20 +noise 10 +noise 5

dB dB dB

Gambar 10. Akurasi Sistem Berbasis 2D-MFCC padaBerbagai Noise

Page 7: PERLUASAN METODE MFCC lD KE 2D SEBAGAI ESKTRAKSI CIRI

MAKARA, SAINS, VOL. 13, NO. 1, APRIL 2009: 87-93

(a)

sinyal asli asli+noise 5 dBasli+noise 10 dB

(b)

Gambar 11. Perbandingan Bispektrum (a) dan PowerSpektrum (b) untuk Siayal Asli, Asli +Noise10 dB dan AsH+Noise :5dB

4. Kesimpulan

Dari percobaan yang sudah dilakukan terlihat bahwaperluasan MFCC dari dimensi 1 ke dimensi 2 dapatditerapkan pada sistem identifikasi pembicara. Sistemyang dibangun mampu menghasilkan tingkatpengenalan dengan akurasi sangat baik (> 99%, danhasil tertinggi mencapai 100%). Untuk data bernoise 20dB, sistem dengan teknik 2D-MFCC mampu mengenalipembicara dengan akurasi 75%. Sedangkan teknik lamahanya 56%.

Ucapa Terima Kasih

Penulis mengucapan terima kepada Departemen IlmuKomputer IPB atas ijin penggunaan laboratoriumkomputer untuk menjalankan percobaan.

93

Daftar Acuan

[1] T.D. Ganchev, Ph.D. Thesis. Wire CommunicationsLaboratory, Department of Computer and ElectricalEngineering, University ofPatras, Greece, 2005.

[2] A. Buono, Sistem Identifikasi Pembicara denganMFCC sebagai Pengekstraksi Ciri dengan HiddenMarkov Model sebagai Classifier, Laporan TeknisPenelitian, Lab. Kecerdasan Komputasional,Fakultas Ilmu Komputer Universitas Indonesia,2QP8, tidak dipublikasikan.

[3] Ct:. Nikeas, A.P. Petropulu, Higher Order SpectraAnalysis: A Nonlinear Signal ProcessingFramework, Prentice-Hall, Inc., New Jersey, 1993,p.14.

[4] M.L Fanany, B. Kusumoputro, Thesis Magister,Ilmu Komputer, Fasilkom Universitas Indonesia,Depok, 1998.

[5] N. Hidayat, B. Kusumoputro, Tesis Magister, IlmuKomputer, Fasilkom Universitas Indonesia, Depok,1999.

[6] A. Triyanto, B. Kusumoputro, Thesis Magister.Ilmu Komputer, Fasilkom Universitas Indonesia,Depok,2000.

[7] c. Cornaz, U. Hunkeler, An Automatic SpeakerRecognition System, Ecole Polytechnique, FederaleDe Lausanne, http./twww.ifp.uiuc.edu/r-minhdo/teaching/speaker Jecognition, 2005.

[8] L.R. Rabiner, A Tutorial on Hidden Markov Modeland Selected Applications in Speech Recognition,Proceeding IEEE 77/2 (1989) 257.

[9] M. Nilsson, M. Ejnarsson, Master Thesis,Departement of Telecommunications and SignalProcessing, Blekinge Institute of Technology,Ronneby, 2002.