pengembangan hidden markov model untuk fonem …

14
if:! , i:;,,'i, ~!'. - ·1~ff.I~' _-'7.J~li,L_ .:~.~·,~JYfi ~ "iI~li. . . .~" }ih,/ ~-i~r~L' ,,-, '1!~ric' j;'.:~:~ Konferensi Nasional Sistem Informasi 2011 PENGEMBANGAN HIDDEN MARKOV MODEL UNTUK FONEM BERBAHASA INDONESIA PAD A TRANSKRIPSI SINYAL SUARA Agus buono' dan Sri Danuarita' 1,2 Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor I pudesha@yahoo,co.id Abstrak Pada paper ini disajikan suatu percobaan ,untuk transkripsi sinyal suara ke barisan fonem, yang mana hal ini merupakan bagian awal dari sistem konversi suara ke teks. Pendekatan yang dilakukan adalah dengan memodelkan fonem dengan HMM dan untuk meningkatkan kualitas hasil transkripsi dilakukan postprocessing menggunakan length common sequence (LCS), pencocokan string atau gabungan keduanya. Dengan mengambil kasus pada 10 fonem yang diperoleh dari 5 kata dengan sample rnasing-masing sebanyak 50 pengucapan diperoleh akurasi tertinggi adalah 82%. Kelemahan dari sistem yang ada adalah belum dikembangkannnya HMM untuk fonem transisi dan belum mengakomodasi variasi durasi state. Oleh karena itu, ada harapan untuk meningkatkan akurasi sistem. Kata kunci : Mel-Frequency cepstrum coefficients (MFCC), Hidden Markov Model (HMM), speech to text transcription, phoneme, Baum Welch algorithm, Longest common sequence (LCS). 1. Pendahuluan Konversi suara ke teks merupakan proses melakukan tansformasi dari sinyal suara sebagai input ke bentuk teks dalam suatu bahasa tertentu. Proses ini mempunyai kegunaan yang amat luas, salah satunya adalah untuk mengembangkan cara baru berkomunikasi dengan komputer. Namun demikian, secara teknis masih banyak ditemui permasalahan, terutama karena sifat sinyal suara yang secara alami sangat bervariasi dengan kesehatan, waktu, emosi, dan alat transmisi, [I], disamping masalah lain terkait sifat ketatabahasaannya. Knowledge source lexicon' 't:JYrrlaX '~ema ~Othe. r , rtbcs Inform -21i2n. . I 1 I Bahasan dalam paper Invento ry of speech unit <; ,i I .Analyses- syntlctic, ~p.mrtntir: p.tr. Gelombang suara Recognized worn string Spectral Ie ature code bo ok s1rin 9 Iranscripfion in terms of spe ech units Word hypotheses vectors or Gambar I. Blok diagram konversi suara ke teks dan fokus bahasa dalam paper 477

Upload: others

Post on 04-Nov-2021

15 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: PENGEMBANGAN HIDDEN MARKOV MODEL UNTUK FONEM …

if:!, i:;,,'i,

~!'.

- ·1~ff.I~'

_-'7.J~li,L_.:~.~·,~JYfi~"iI~li.. . .~"

}ih,/~-i~r~L',,-,'1!~ric'j;'.:~:~

Konferensi Nasional Sistem Informasi 2011

PENGEMBANGAN HIDDEN MARKOV MODEL UNTUKFONEM BERBAHASA INDONESIA PADA TRANSKRIPSI

SINYAL SUARA

Agus buono' dan Sri Danuarita'

1,2 Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan AlamInstitut Pertanian BogorIpudesha@yahoo,co.id

Abstrak

Pada paper ini disajikan suatu percobaan ,untuk transkripsi sinyal suara ke barisan fonem, yangmana hal ini merupakan bagian awal dari sistem konversi suara ke teks. Pendekatan yangdilakukan adalah dengan memodelkan fonem dengan HMM dan untuk meningkatkan kualitas hasiltranskripsi dilakukan postprocessing menggunakan length common sequence (LCS), pencocokanstring atau gabungan keduanya. Dengan mengambil kasus pada 10 fonem yang diperoleh dari 5kata dengan sample rnasing-masing sebanyak 50 pengucapan diperoleh akurasi tertinggi adalah82%. Kelemahan dari sistem yang ada adalah belum dikembangkannnya HMM untuk fonemtransisi dan belum mengakomodasi variasi durasi state. Oleh karena itu, ada harapan untukmeningkatkan akurasi sistem.

Kata kunci : Mel-Frequency cepstrum coefficients (MFCC), Hidden Markov Model (HMM),speech to text transcription, phoneme, Baum Welch algorithm, Longest common sequence (LCS).

1. PendahuluanKonversi suara ke teks merupakan

proses melakukan tansformasi dari sinyalsuara sebagai input ke bentuk teks dalamsuatu bahasa tertentu. Proses ini mempunyaikegunaan yang amat luas, salah satunyaadalah untuk mengembangkan cara baruberkomunikasi dengan komputer.

Namun demikian, secara teknis masihbanyak ditemui permasalahan, terutamakarena sifat sinyal suara yang secara alamisangat bervariasi dengan kesehatan, waktu,emosi, dan alat transmisi, [I], disampingmasalah lain terkait sifat ketatabahasaannya.

Knowledge source

lexicon' 't:JYrrlaX '~ema ~Othe. r, rtbcs Inform

-21i2n. .

I 1 I

Bahasan dalampaper Invento ry of

speech unit<;

,iI

.Analyses-syntlctic,

~p.mrtntir: p.tr.

Gelombangsuara

Recognizedworn string

Spectral Ie ature

code bo ok s1rin9

Iranscripfion interms of spe ech

units

Wordhypothesesvectors or

Gambar I.Blok diagram konversi suara ke teks dan fokus bahasa dalampaper

477

Page 2: PENGEMBANGAN HIDDEN MARKOV MODEL UNTUK FONEM …

Paper ini menyajikan pemodelanHidden Markov Model (HMM) untukfonem, yang merupakan unit bunyi terkecildari sebuah bahasa, untuk transkirpsi suarake teks dengan ekstraksi ciri menggunakanteknik mel-frequency cepstrum coefficients(MFCC). Untuk menilai kesesuaian hasiltranskripsi sinyal suara yang diinputkandipergunakan teknik longest commonsequence (LCS). Proses ini merupakanbagian awal dari sebuah sistem konversisuara ke teks secara utuh. Pada sistem yanglengkap telah memasukkari sifatketatabahasaan dari domain bahasa yangdikaji, seperti diperlihatkan pada Gambar I,[2].

Paper ini disajikan dengan susunansebagai berikut : Bagian 2 mengenaiteknik MFCC dan HMM. Metodologidisajikan pada Bagian 3 yang meliputidata, tahapan percobaan. Hasilpembahasan disajikan pada Bagian 4.Sebagai penutup adalah kesimpulan dansaran untuk penelitian selanjutnya yangdisajikan pada bagian 5.

2. Teknik MFCC dan HMM

2.1 Teknik MFCCInput dari analisis fitur suara adalah

sinyal suara analog dan sebagai outputnyaadalah feature vector untuk setiap frame(time slice), [3]. Tahap pertama adalahmelakukan digitasi terhadap sinyal suaraanalog (disebut sebagai analog-to-digitalconversion). Proses ini terdiri dari samplingdan kuantisasi, [1].

Sampling artinya mengukur amplitudosinyal pada suatu indeks waktu tertentu.Dalam hal ini dikenal istilah sampling rate,yaitu banyaknya sampling yang dilakukansetiap detik. Sampling rate biasanyaberkisar 8000 hingga 20000 sample perdetik. Berikutnya adalah kuantisasi, yaitumenyimpan nilai amplitudo ke dalam nilaiinteger, yang dalam hal ini memakairepresentasi 8 bit atau 16bit.

Setelah sinyal didigitasi, berikutnyaadalah menyekatnya ke dalam frame danmenkonversikannya menjadi feature vectoryang selanjutnya menjadi masukan bagitahap berikutnya.

Fitur yang dipakai dalam penelitian iniadalah Mel Frequency Cepstral Coeeficients(MFCC). MFCC merupakan fitur yang

478

Konferensi Nasional Sistem Inforrnasi 2011

populer saat ini. MFCC didasarkan padavariasi dari frekuensi kritis telinga manusia.Filter diletakkan secara linear pada frekuensirendah dan logaritmik pada frekuensi tinggiuntuk mendapatkan karakteristik suara yangpenting. Diagram blok yangmerepresentasikan struktur MFCC dapatdilihat pada Gambar 2, [4].

Dari Gambar 2 terlihat empat tahapandalam ekstraksi ciri menggunakan MFCC,yaitu:Frame blocking: sinyal suara dibaca perblok (frame) yang terdiri dari N sample.Antara dua frame yang bersisihan terdapatoverlap N-M sample, dengan M adalahbanyaknya pergeseran antar frame (M<N).Windowing: proses windowing dilakukanpada setiap frame dengan tujuan untukmerninimurnkan diskontinuitas antar suaframe, khususnya pada bagian awal danakhir.FFT (Fast-Fourier Transform): Padatahap ini setiap frame yang terdiri dari Nsamples dikonversi dari domain waktu kedomain frekuensi. Output dari proses inidisebut dengan nama spektrum atauperiodogram.Mel-Frequency wrapping: tahap inirnerupakan proses pengfilteran darispektrurn setiap frame yang diperoieh daritahapan sebelurnnya. Fi Iter tersebut berupaM filter segitiga sama tinggi dengan tinggisatu. Filter ini dibuat dengan mengikutipersepsi telinga manusia dalam menerimasuara. Persepsi ini dinyatakan dalam skala'rnel' (berasal dari Melody) yangmempunyai hubungan tidak linear denganfrekuensi suara, [4]. Dalam hal ini skalamel-frequency adalah linear untuk frekuensikurang dari i 000 Hz dan logaritmik untukfrekuensi di atas i 000 Hz. Satu relasi antarafrekuensi bunyi (dalam Hz) dengan skalamel adalah, [4], [5] :

!,' = 2595 * log (I +L) (1)me! 10 700

Page 3: PENGEMBANGAN HIDDEN MARKOV MODEL UNTUK FONEM …

Penjelasan detail mengenai teknik MFCCdapat dijumpai pada [4] dan [5).

Gambar 2. Block Diagram Teknik MFFC

Cepstrum: Pad a tahap mi dilakukankonversi dari koefisien spektrum melkembali ke domain waktu menggunakantransformasi kosinus sesuai rumus 2.

M ( • * (' 0 5) * )Cj=2.:x;*cos J /-. 1f ....•.. (2)

;=1 20

Dengan j=1,2,3, ... ,K; K adalah banyaknyakoefisien; M adalah banyaknya filtersegitiga; Xi adalah koefisien spektrum melyang diperoleh dengan formula (1). Dalamhal ini C, disebut sebagai mel frequencycepstrum coefficients (MFCC) koefisien kej.2.2 Hidden Markov Model

Hidden Markov Model (HMM), ataumodel Markov tersembunyi, ialah suatumodel peluang temporal yangmenggambarkan keterkaitan antar peubahstate (state variable) dari waktu ke waktu,serta antara peubah state dengan peubahteramati (observable variable). Secaravisual, model mr dapat digambarkanmenggunakan suatu finite state automatadengan banyaknya state adalah sesuaidengan banyaknya kemungkinan kombinasinilai variabel dalam model. Dalam hal ini,setiap state merupakan suatu kombinasivariabel tesebut. Sebagai contoh, jikaterdapat suatu model temporal dengan tigavariabel biner maka banyaknya state adalah23 = 8 buah. Di dalam HMM, peubah stateadalah peubah yang tak teramati (hiddenvariable), dan peubah yang teramati(observable variable).

Berikut adalah notasi yang digunakandalam HMM, [6] :N : Banyaknya hidden state (state ke 1, 2,

3, ... , n). Sedangkan ql menotasikanstate ke-q pada indeks waktu t.

Konferensi Nasional Sistem Infonnasi 2011

M Banyaknya kemungkinan kemunculanpeubah teramati. Sedangkan Vk, untukk=l, 2, 3, ... , M, adalah nilai-nilaipeubah teramati.

Jl adalah {n;}, dengan JIi=P( q.=i), yaitupeluang pada tahap awal berada pada

N

state i. Dalam hal ini 2>i = 1i;)

A adalah {aiJ dengan aij=P(qt+l=jlqt=i),yaitu peluang berada di state j padawaktu t+1 jika pada waktu t berada distate i. Dalam hal ini diasumsikan aijbebas dari waktu.

B adalah {b/k)}, dengan b/k)=P(Vk padawaktu tlq(=j), yaitu peluang peubahteramati yang muncul adalah simbolVk·

Or adalah notasi untuk nilai teramati padawaktu t, sehingga barisan nilaiterarnati (observable symbol) adalah0= 0), O2, 03, •.. , OT. Dengan Tadalah panjang observasi yangdilakukan.

Dengan notasi-notasi seperti di atas,maka suatu HMM dilambangkan dengan :

A = (A,B, JI)Secara umum ada tiga masalah dasar yangterdapat dalam HMM, [6], yaitu : (1)Evaluasi untuk menduga peluang munculnyabarisan 0= 0), O2, 03, ... , OT dari sebuahHMM; (2) Decoding untuk memilih barisanstate Q = q., q2, ... , qT yang 'optimal', yaituyang paling besar kemungkinannyamenghasilkan 0 yang diketahui; dan (3)Pembelajaran parameter HMM, yaitumelakukan pendugaan terhadap parameter-parameter model HMM, A = (A,B,JI),sehingga peOlA) atau P(O,QI)") maksimum.Secara detail, ketiga algoritma terse but dapatdijumpai di [6] dan [7).

3. Metodologi

3.1 Data dan Praproses

Data yang dipergunakan berasal daripengucapan satu orang pembicara yangmengucapkan beberapa 5 kata (Tabel 1)sebanyak 50 kali, sehingga diperoleh 250data sinyal suara.

479

Page 4: PENGEMBANGAN HIDDEN MARKOV MODEL UNTUK FONEM …

Tabel Kata yang digunakan untukmembentuk model

FonemKata Fonem

Fonem transisiasliAlam laI,Ill,Iml lall,llal,lamlAman laI,ImI,InI laml,lmal,lanlMalam laI,IIJ,Iml Imal,laIJ,Ilal,lamlMana laI,ImI,Inl Imal,lanl,lnalNama laI,ImI,InI Inal,laml,lmal

, .Selanjutnya sinyal suara tersebut disamplingdengan smapling rate II kHz dengan durasiI detik. Dari 10 kata tersebut, diperoleh 10fonem seperti terlihat pada Tabel I.

Setelah menghapuskan bagianunvoice, selanjutnya melakukan prosesMFCC dengan lebar frame 30 ms danoverlap 50%. Dari sekuen vektor MFCCyang terdiri 13 koefisien ini, dilakukansegmentasi manual untuk mendapatkansekuen setiap fonem dari setiap sinyal dalamdata training (Gambar 3). Berdasar sekuensetiap fonem ini dikembangkan modelHMM ergodic dengan beberapa jumlahhidden state (yaitu 2, 3, 4, dan 5).

ALAMAMANMALAMMANANAMA

AIAJ ATJLIL2 Ln

Gambar 3 I1ustrasi sekuen fonem hasilsegmentasi

3.2 Tahapan PercobaanTahapan detail dari percobaan yang

dilakukan adalah seperti disajikan padaGambar4.

4. Hasil dan Pembahasan

Berdasar data pelatihan, dilakukanpendugaan parameter model HMM denganiterasi sebanyak 5,10, dan 15 denganjumlahhidden state 2, 3; dan 4, menggunakanalgoritme Baurn-Welch. Berdasar model inidilakukan transkripsi terhadap data uji, danselanjutnya dilakukan tahapanpostprocessing untuk mendapatkan labelkata.

Hasil postprocessing

Tiga proses postprocessing yangdipergunakan untuk menetapkan kata yang

480

Konferensi Nasional Sistem Informasi 2011

diinputkan adalah LCS, pencocokan string,dan kombinasi penggabungan pencocokanstring dan LCS. Hal ini dilakukan untukmeningkatkan akurasi sistem. Hasil prosespostprocessing merupakan barisan fonemyang belum sesuai dengan kala yangsebenarnya. Tabel 2 menunjukkan variasihasil postprocessing pad a masing-masingkata.

Tabel2 Hasil

Dari tabel tersebut terlihat bahwa hasilpostprocessing memperbaiki hasiltranskripsi, sehingga lebih mudah dikenalipada tahap selanjutnya yangmempertimbangkan aspek ketatabahasaan(tidak dibahas dalam paper ini).

TingkutAkurasi

rcobaanGambar 4. Iahapan proses pe

Page 5: PENGEMBANGAN HIDDEN MARKOV MODEL UNTUK FONEM …

Hasil Pengujian Model HMM

Rata-rata hasil akurasi dengan semuakombinasi jumlah iterasi pelatihan HMMdan jumlah hidden state, terlihat bahwapostprocessing dengan gabungan LCS danpencocokan string memberikan akurasitertinggi, yaitu 69% (Gambar 5).

100

50

oLCS Match Match+LCS

Gambar 5 Grafik akurasi LCS danpencocokan string.

Akurasi yang dihasilkan HMM untuksetiap state dapat dilihat pada Gambar 6.Akurasi yang dihasilkan oleh HMM 2 statedengan 5 epoh merupakan akurasi tertinggiyaitu sebesar 82%, sedangkan akurasiterendah yaitu 50% dihasilkan oleh HMM 5state dengan 10 epoh. Dari Gambar 6 dapatdiketahui bahwa HMM dengan jumlahhidden state 2 memberikan akurasi yangtinggi (82%).

•• 5 Epoh III 10 Epoh ~ 15 Epoh

100

50

o2 State 3 State 4 State 5 State

Gambar 6 Grafik akurasi HMM setiap state.

Hasil Pengujian Kata

Secara umum, kat a yang paling mudahdikenali adalah kat a MALAM denganakurasi rata-rata sebesar 87%, sedangkankata MANA memiliki akurasi rata-rataterendah yaitu 25%.

Konferensi Nasional Sistem Informasi 2011

II 2 Stale !fA3 State !¥l4 State !!liS State

10080604020

oAI AM AMAN MAl AM MANA NAMA

Gambar 7 Grafik akurasi setiap kata untuksetiap state.

Gambar 7 menunjukkan akurasi setiap katamelalui pengujian HMM setiap state,sedangkan Tabel 3 menunjukkan akurasiterendah dan tertinggi untuk masing-masingkata.

Tabel 3 Akurasi maximum dan minimumksetiap ata

Akurasi ModelHMMFonem Min&

Lfltate IEpohMax

ALAM40% 4 592% 2 5,10

AMAN 56% 4 1598% 4 5

MALAM 76% 4 5100% 3 15

MANA 6% 3 5,1062% 4 10

NAMA 54% 2 1090% 3 15

Penggunaan Kata Lain Pada LCS

Kata yang digunakan dalam LCS padapercobaan di atas adalah kata yang terdapatdalam kamus, yaitu ALAM, AMAN,MALAM, MANA, dan MALAM. Untukmengetahui kestabilan kinerja sistem,penerapan LCS tidak hanya menggunakankelima kat a terse but, tetapi juga melibatkankata lain namun mengandung fonem yangsarna yaitu AMAL, LAMA, dan MAMA.Gambar 8 menunjukkan perbandinganakurasi penerapan LCS menggunakan katalain dan tanpa kata lain pada HMM dengan5 epoh. Berdasarkan Gambar 8 dapatdiketahui bahwa penambahan kata lain padaLCS dapat menurunkan tingkat akurasisistem. Hal ini logis, dikarenakan ada

481

Page 6: PENGEMBANGAN HIDDEN MARKOV MODEL UNTUK FONEM …

pilihan yang lebih banyak dalam kamus-kata.

I 5 Kata I 8 Kata

10092

80 65

60

40 29

20 tJ0

ALAM AMAN MALAM MANA NAMA

Gambar 6 Grafik akurasi penerapan LCSdengan 5 kata dan 8 kata

Penurunan akurasi yang palingsignifikan terjadi pada kata MALAM. Halini dikarenakan hasil penerapan gabunganpencocokan string dan LCS untuk kataMALAM sebagian besar mengandungkarakter awal 'mama' misalnya, 'rnamalam',sehingga banyak yang diidentifikasi sebagaikata MAMA.

5. KesimpulanBerdasar percobaan yang telah

dilakukan, terlihat bahwa HMM dapatditerapkan untuk memodelkan fonem dandipergunakan dalam konversi sinyal suara keteks. Tahap postprocessing untukmemperbaiki hasil transkripsi adalahgabungan pencocokan string dan LCS.Akurasi tertinggi yang dihasilkan adalah82% dengan HMM 2 state dan 5 kalipelatihan. Sedangkan kata yang paling baikdikenali model adalah kata MALAM denganakurasi sebesar 87%. Model terbaik mampumengenali beberapa kata lain yangmengandung fonem yang sarna namunakurasi yang dihasilkan masih rendah.

Beberapa kelemahan yang adadiantaranya adalah minimnya jumlah data

482

KonferensiNasional Sistem Informasi 2011

pelatihan sehingga dirasa kurang mampumengakomodasi semua variasi yang ada darisebuah fonem. Juga perlu dikembangkanmodel tersendiri untuk fonem transisi. Dariaspek HMM sendiri, perlu diakomodasivariasi durasi dari setiap state.

Daftar Rujukan

[1] Jurafsky, D. dan J H. Martin. 2000. Speechand Language Processing: An introduction toNatural Language" Processing. ComputationalLinguistics, and Speech Recognition. PrenticeHall. New Jersey

[2] Pelton, G.E. 1993. Voice Processing.McGraw-Hill, International Edition,Singapore .

[3] Buono, A., Y. Mandrasari dan S.N. Neyman.2010. Pengembangan Model Markovtersembunyi untuk Pengenalan Kata BerbahasaIndonesia. Prosiding Pada Munas APTIKOM2010 "Competitive Advantage in ICr',November 2010, ISSN 2087-1562

[4] Cornaz, C. dan U. Hunkeler. An AutomaticSpeaker Recognition System. Mini-Project.http://wWw.ifp·uiuc.edu/-minhdo/teaching/speakerJecognition, access: August, 15,2005.

[5] Todor D. Ganchev. 2005. Speaker Recognition.PhD Dissertation, Wire CommunicationsLaboratory, Department of Computer andElectrical Engineering, University of PatrasGreece.

[6] Dugad R, Desai Us. 1996. A Tutorial onHidden Markov Models. Technical Report,Department of Electrical Engineering, IndianInstitute of Technology - Bombay, India

[7] L.R. Rabiner. 1989. A Tutorial on HiddenMarkov Models and Selected Applications inSpeech Recognition, Proceeding IEEE, Vol 77No.2, pp 257-289.

Page 7: PENGEMBANGAN HIDDEN MARKOV MODEL UNTUK FONEM …

Konferensi Nasional Sistem Informasi 20\\

PENGEMBANGAN MODEL DECISION NETWORK DANIMPLELEMNTASINYA PADA SISTEM KALENDER TANAM

PERTANIAN KABUPATEN PACITAN

Agus buono", Rizaldi Boer2, Suciantini'', dan Arief Ramadhan4

IDepartemen Ilmu Komputer, FMIPA - Institut Pertanian Bogor2,4 CCROMSEAP - Institut Pertanian Bogor

3 Balai Penelitian Klimatologi, Balitbang - DeptanIpudeshalal,yahoo.co.id, [email protected]

,i i i

Abstrak

Pada paper ini disajikan suatu pengembangan model decision network yang merupakanpengembangan dari bayesian network guna menentukan pilihan altematif pola tanam yangmeminimumkan risiko kekeringan pada pertanaman kedua. Empat peubah dalam bayesiannetwork adalah fase SOl, curah hilj,,,!. sisa dasarian musim hujan dan bencana kekeringan.Sedangkan alte~if keputusan yang bisa dipilih ada 4 yang semuanya adalah pola tanam padi-padi. Perbeda~IL.'1ya adalah pada awal penanaman pertama. Sesuai dengan kategori peubahdalam bayesian network, maka ada 42 parameter dalam model bayesian network yang didugadengan menggunakan teknik kemungkinan maksimum. Model yang dikembangkan telah berhasildiimplementasikan sebagai modul dari prototipe sistem kalender pertanian untuk KabupatenPacitan. Pada sistem yang dengan unit kecamatan ini, Pengguna secara dinamis dapat melakukanupdate data, struktur bayesian network dan fungsi risiko, serta melakukan prediksi harapankerugian untuk sembarang kemunculan kondisi iklim.

Kata kunci : Metode kemungkinan maksimum (maximum likelihood estimation, ML£), BayesianNetwork (BN), Decision Network (ON), dan kalender tanam pertanian (Cropping calendar).

1. PendahuluanKalender Tanaman merupakan

penjadwalan waktu tanam berbagai komoditipertanian yang disusun dalam satu polatanam di suatu daerah, [I]. Pola tanam yangtidak sesuai dengan prakiraan musim akanberisiko terkena bencana ik!im seperti banjirdan kekeringan. Pengalaman menunjukkanbahwa tingkat variasi iklim di Indonesiasangat tinggi dan hasil pertanian secaranyata sangat tergantung dari kondisi iklim.Pemahaman informasi iklim sangatbermanfaat dalam melakukan adaptasi gunamenghindari risiko yang lebih besar.

Paper ini menyajikan pemodelanDecision Network (DN) sebagai alat untukmemproses informasi iklim gunamemberikan altematif pola pertanaman padiyang meminimalisasi risiko akibat variasiiklim. Dengan teknik seperti ini, makainformasi pola tan am dapat dikembangkansecara dinamis mengikuti pola iklim yangada. Dengan demikian, informasi yang

diberikan akan lebih baik dibandingkandengan informasi pola tanam sebelumnyayang bersifat statis. Bencana iklim yangmenjadi bahasan pada paper ini difokuskanpada kekeringan yang terjadi padapertanaman kedua dari pola tanam padi-padi.

Paper ini disaj ikan dengan susunansebagai berikut : Bagian 2 mengenairumusan masalah kalender tan am denganmodel decision network. Teori ringkasmengenai Bayesian Network disajikanpada bagian 3. Bagian 4 menyajikanteori ringkas mengenai decision network.Hasil dan pernbahasan disajikan pad abagian 5. """Sebagai penutup adalahkesimpulan dan saran untuk penelitianselanjutnya yang disajikan pada bagian 6.

2. Perumusan MasalahBencana kekeringan seringkali terjadi

pada pertanaman kedua, yang disebabkanoleh munculnya kejadian EI-Nino yang

987

Page 8: PENGEMBANGAN HIDDEN MARKOV MODEL UNTUK FONEM …

ditengarai dengan anomali suhu muka laut dikawasan Pacific atau Indeks Osilasi Selatan(SOl). Indek Osilasi Selatan merupakanindek yang menggambarkan perbedaantekanan udara dekat permukaan laut dikawasan Tahiti (PTahiti) dan Darwin (PDarwin),yang dirumuskan sebagai :

SOl = (PTahiti - PDarwin) xlOStdev(PTahili - PDarwin)

(I)

Selanjutnya nilai SOl dikelompokkanmenjadi 5 fase yaitu (Stone et al., 1996,dalam [I]):

I. Fase I: konstan negatif2. Fase 2: konstan positive3. Fase 3: menurun cepat4. Fase 4: meningkat cepat5. Fase 5: mendekati nol

Fase I dan 3 dikenal dengan fenomena EI-Nino, 2 dan 4 La-Nina dan fase 5 dikenaldengan normal. Kejadian El-Nino akanmenyebabkan musim tanam mundur.Sementara itu pada kondisi La-Nina, musimtanam akan maju, seperti terlihat padaGambar I, [1].

450

400

350

" .XY x" .I • \, ",

" 'I~ 300 I \

~ 250 ;' \"\ ,t -.~~\"-'X ••

: 200 I \ lie I: "f- P \'.'. '.: 150 / Q. \ ", :.... \ .~

-' I \ ',I' \ "100 / \... ....'.... )1. \" •

50 d' ' ~x····x

-~-LaNna

9 10 11 12 1 2 3 4 5 6 7 8

Bulan

Gambar 1. Rata-rata luas tambah tanambulanan padi di Jawa Barat (197! -200 I)pada tahun normal, El-Nino dan La-Nina

Bencana kekeringan kemungkinan akanterjadi saat kondisi El-Nino, khususnya pad apertanaman kedua. Hal ini dikarenakanpada pertanaman kedua, musim hujan sudahberhenti. Namun demikian, jika curah hujanpad a tanam kedua masim tinggi (di atasnormal) dan musim hujan masihberlangsung maka bencana kekeringan (K)tidak terjadi. Kedua hal tersebut dinyatakansebagai sifat hujan, CH, (yaitu di bawahnormal, normal dan di atas normal) dan

988

Konferensi Nasiona! Sistem Inforrnasi 20 II

panjang musim hujan dinyatakan sebagaisisa dasarian musim hujan (SDMH), yangkeduanya sangat tergantung dari fase SOlatau fase ENSO.

Dari bahasan di atas, modelketerkaitan ke empat peubah dapatdigambarkan dalam bentuk directed acyclicgraph (DAG) seperti Gambar 2.

Gambar 2. Keterkaitan ENSO, CH, SDMH,danK

Dalam hal ini ENSO fase berpengaruhlangsung pada CH dan SDMH. SedangkanCH dan SDMH berpengaruh langsung padaK (Kekeringan). Pemilihan nilai-nilai untuk4 peubah tersebut adalah seperti disajikanpada Tabel I.

T b II N'! b h P k Ia e 1 at peu a eng e as anN Variab Nil Arti0 el aiI E-Phase I Near Zero (SOl 5)

2 ConsistentENSO Negative (SOl 113)Phase 3 Consistent PositiveBin (SOl 2/4)Agustus

2 CH: 1 CH«0.85 *RataanCurah tahunan)Hujan 2 (0.85 *Rataan

tahuan)<CH<I.15*Rataan Tahunan)

3 CH>(1.15*RataanTahunan)

J. SDMH: I Sisa MH <10Sisa dasarianDasaria 2 Sisa MH : 10, II,n 12, dan 13 dasarianMusim 3 Sisa MH > 13Hujan dasarian

4 K: I Tidak ada lahanKekerin kekeringan

Page 9: PENGEMBANGAN HIDDEN MARKOV MODEL UNTUK FONEM …

gan 2 Kekeringan ringan3 Kekeringan besar4 Kekeringan sangat

besar

Pemilihan nilai untuk fase SOl adalahmengikuti fenomena Normal, EI-Nino, danLa-Nina. Untuk curah hujan adalahmengikuti ketetapan dari BMKG. NilaiSDMH berdasar fakta bahwa masa tanampadi adalah sekitar 4 bulan (12 dasarian),maka jika kurang dari 10 dinilai sangatkurang, 10-13 cukup, dan untuk SDMH> I3maka berlebih. Sedangkan untuk tingkatkekeringan dikelompokkan menjadi 4, yangnilai batas-batasnya sangat tergantung dariwilayah kajian.

~;-l

1ENSO ~,(;\.Phase-7~~

D :Alternatif kebijakan

Gambar 3. Keterkaitan Peubah Iklim,Bencana, AltematifKebijakan dan Risiko

Selanjutnya, model keterkaitanpeubah tersebut digabungkan dengan sebuahnode yang mencerminkan altematifkebijakan. Setiap kemunculan kejadianpeubah dan kebijakan yang dipilih akanberimplikasi pada risiko tertentu. Dengandasar pemikiran tersebut, maka diagramGambar 2 dikembangkan menjadi diagramgambar 3. Nilai informasi peubah padaGambar 2 dikuantifikasi secara probabilistikyang nilainya diduga berdasar data. Dengan.m~nambahkan nilai peluang bersyarat(conditional probability) pada setiap peubahdalam Gambar 2, maka DAG tersebutdikenal dengan Bayesian Network (BN).Sedangkan diagram Gambar 3 dikenaidengan Decision Network (DN).

Pada paper ini, ada 4 kebijakan polatanam yang dilakukan (mengikuti kebiasaanpetani), yang semuanya adalah pertanamanpadi-padi. Perbedaannya adalah pada awalpenanaman.

Konferensi NasionaI Sistem Informasi 2011

D 1: penanaman pertama di awal musimhujan

D2: penanaman pertama mundur I bulanD3: penanaman pertama mundur 2 bulanD4: penanaman pertama mundur 3 bulanSedangkan node U adalah risiko yangnilainya sebagai fungsi dari kebijakan polatanam yang diambil dan kejadian iklimbencana yang muncul, yaitu :

U=f(D,K)Nilai risiko ini sangat tergantung dariwilayah kajian.

3. Bayesian NetworkBayesian Network (BN) merupakan

sebuah directed acyclic graph dengan setiapnode yang ada dilengkapi dengan distribusibersyarat, [2]. Dalam hal ini setiap nodemerepresentasikan sebuah variabel dan linkdar i node A ke node B (A sebagai parentdari B) menunjukan bahwa kemunculan nilaipeubah A akan berpengaruh langsung padakemunculan node B. Pada paper ini setiapnode merepresentasikan peubah diskret,sehingga distribusi peluang pada setiap nodedapat disajikan dalam bentuk tabel dandisebut sebagai tabel peJuang bersyarat(conditional probability table, CPT).

Secara umum, peubah-peubah (node-node) pada BN dikelompokkan menjadi 3jenis, yaitu peubah query (Q), peubahevidence (E) dan peubah hidden (Y), [3],sehingga berlaku :

X=QvEvY

X adalah himpunan semua peubah yang adadalam BN. Dalam hal ini peubah queryadalah peubah yang mgm dihitungdistribusinya kalau diketahui kemunculanbeberapa peubah lain yang disebut sebagaipeubah evidence. Selain peubah query danpeubah hidden, maka dikelompokkan dalampeubah hidden. Ada 3 permasalahan dalampemodelan BN, yaitu pembuatan struktur,inferensi, dan pendugaan parameter model.Dalam pembuatan struktur, peran pakar'bidang ilmu yang menjadi kajian lebihdominan. Seperti halnya pada paper ini,struktur Bn ditentukan berdasar analisisbidang kajian, yaitu permasaahan iklim.

989

Page 10: PENGEMBANGAN HIDDEN MARKOV MODEL UNTUK FONEM …

3.1 InferensiInferensi merupakan pendugaan

distribusi peubah query CQ) kalau diketahuiadanya beberapa eviden (E), yaitu P(QIE).Sesuai dengan kaidah bayes, maka P(QIE)dirumuskan dirumuskan sebagai :

P(Q I e) = P(Q,e) = aP(Q,e) (2)pee)

Dalam hal ini nilai a hanya merupakannormalisasi, mengingat total nilai peluangadalah 1. Nilai P(Q,e) dirumuskansebagai:

P(Q,e) = IP(Q,e,y) (3)V'YEY

Sesuai dengan prinsip dasar teori peluangdan keterkaitan antar peubah dalam BN,maka nilai P(Q,r,y) dirumuskan sebagaiberikut:

rP(Q,e,y)= ITp(Xi lXi's parent~]L V'X;EX

(4)Oleh karena itu, distribusi peubah queryyang ingin dihitung adalah dirumuskanmengikuti formula berikut :

P(Q I e) = aL IT P(X; I X;'s parents) (5)V'yeY'rIX,EX

E P(C=lIE) P(C=2IE)

882

E peE)

I 81

2 82

~ "

E P(S=lIE) P(S-2IE)

1 810 813

2 811 81<

~ " "

Konferensi Nasional Sistem Informasi 2011

3.2 Pendugaan Parameter BN denganMetode Kemungkinan MaksimumMetode kemungkinan maksimum

merupakan teknik pendugaan parameteryang memaksimumkan fungsi kemungkinan.Fungsi kemungkinan merupakan fungsi dariparameter kalau diketahui beberapa sample,[4]. Dari sebuah struktur BN denganparameter e dan data M sample, yaitu d., d2,

d), ... , dM, maka fungsi kemungkinan dari eadalah, [2] :

M

P(8Id)=P(dI8)= ITp(dj 18)j=!

(6)Oleh karena itu, tahapan teknis dari metodekemungkinan maksimum untuk mendugaparameter sebuah BN tertentu adalahsebagai berikut :

1. tuliskan formula fungsikemungkinan sesuai denganpersamaan di atas dan struktur BN

2. turunkan fungsi kemungkinantersebut terhadap setiap parameter

3. hitung nilai parameter sedemikiansehingga nilai turunannya nol

Misalkan struktur BN adalah seperti Gambar2, maka parameter dari model BN adalahseperti ditunjukan pada Gambar 4. Terlihatada 42 parameter dalam model tersebut.

c s P(K=IIC,S) P(K-2IC,S) P(K-3IC,S)

1 1 8'6 825 83•

1 ?- 817 826 8)5

1 3 818 827 836

2 1 819 828 831

"'~2 2 810 819 838

2 3 811 830 839

3 1 82l 831 840 ..Gambar 4. Model BN dengan 4 peubah dan mempunyai 42 parameter

990

Page 11: PENGEMBANGAN HIDDEN MARKOV MODEL UNTUK FONEM …

4. Decision NetworkDecision Network (DN) atau sering

disebut juga sebagai Influenced Networkmerupakan pengembangan dari BayesianNetwork (BN). Pada dasamya BNmerupakan model visual menggunakangraph dari distribusi bersama sejumlahpeubah. Oleh karena itu, pada BN bisamengetahui peluang dari suatu peubahtertentu (peubah query) kalau diketahui nilaipeubah lain (peubah evidence). Jadi outputdari BN adalah distribusi peubah query.Sedangkan pada DN, ingin mengetahuibagaimana kaitan dari tiga hal, yaitukeputusan yang diambil, resiko yang terjadi,serta ketakpastian dari peubah-peubah dalamBN. DN merupakan BN yang dikembangandengan dua hal, yaitu keputusan yang bisadiambil dan resiko yang mungkin terjadi,sehingga DN terdiri dari tiga jenis node,yaitu:

a. chance node node yangmerepresentasikan peubah-peubahdalam BN. Node ini dilambangkandengan simbol

Chance node: ob. Decision node node yang

merepresentasikan peubah keputusan,sehingga nilai dari node ini adalahsemua kemungkinan keputusan yangbisa diambil. Decision nodedilambangkan dengan

Decision node :1 r ---,c. Utility node node yangmerepresentasikan nilai resiko yangmungkin terjadi. Oleh karena itu, nilaidari node ini adalah semuakemungkinan resiko yang bisa terjadiakibat dari keputusan yang diambil danketakpastian yang ada pada BN. Utilitynode dilambangkan A:

Utility node: V"

Pilihan altematif kebijakandidasarkan pada pilihanmemaksimurnkan harapan utilitymeminimumkan risiko, tergantungfungsi U, yang dirumuskan sebagai :

EU(D IE) =L P(Gi I E)U(Gj> D)

yangatausifat

(7)'Ii

Konferensi Nasional Sistem Infonnasi 2011

Setelah semua altematif kebijakan, D,dihitung nilai harapan utilitynya, makapilihan didasarkan pada D yangmemaksimumkan utility ataumeminimumkan risikonya.

Fungsi utilitas pada paper ini adalahfungsi risiko, sehingga kriteria pemilihankebijakan adalah yang meminimumkanharapan risiko kekeringan. Oleh karenapeubah bencana (K) mempunyai 4kemungkinan nilai dan ada 4 altematif polatanam (D), maka ada 4x4=16 kemungkinannilai utilitas (U). Nilai f(D,K) adalah luaslahan (Ha) penanaman padi kedua yangterkena bencana kekeringan untuk setiappasangan (D,K), dan ditentukan dengantahapan sebagai berikut :Tahap 1 : pencarian tahun terjadinya

kekeringan penanaman padikedua. Untuk setiap tahun terjadikekeringan, lakukan tahap 2 dantahap 3.

Tahap 2: menghitung proporsi luas tambahtanam (LT) padi kedua untukpola Dl, D2, D3, dan D4.

Tahap 3 : menduga luas lahan padipenanaman kedua yang terkenabencana untuk setiap pola tanam(DI, D2, 03, dan D4). Jikalausetelah tahap 3 ini masih adakombinasi (D,K) yang belumbisa ditentukan dikarekanketerbatasn data, lakukan tahap4.

Tahap 4: menduga nilai luas lahanpenanaman padi kedua yangterkena bencana, dari hasil tahap3, dan selesai.

5. Hasil dan PembahasanModel komputasi yang telah

dideskripsikan di atas telah berhasildijadikan sebagai salah satu modul padaprototipe sistem kalender pertanian, yangdiberi nama SIPOT AN. Tampilan utamadari SIPOT AN adalah seperti pada Gambar5.

991

Page 12: PENGEMBANGAN HIDDEN MARKOV MODEL UNTUK FONEM …

Gambar 5. Tampilan prototipeSIPOTAN

Dengan rnemilih salah satu kecamatan,rnisalnya piJih kecamatan Donorejo, makaakan muncul tampilan menu SIPOT ANuntuk Kecanatan Donorejo, seprti terlihatpada Gambar 6.

Gambar 6. Tampilan menu SIPOT AN untukKecamatan Donorejo

Terlihat ada 5 fitur, salah satunya adalahfitur "Penentuan Pola Tanam dan LuasKekeringan". Jika fitur ini dipilih, makasistem menampilkan seperti terlihat padasebelah kanannya. Terlihat bahwaPengguna secara dinamis dapat melakukanpenghitungan harapan kerugian sesuaikondisi iklim yang ada dengan memilih isian"Informasi", "Data", "Struktur" dan "NilaiUtility". Semua pilihan tersebut bersifatoptional, yang artinya, jika Pengguna tidakmengisi, maka sistem akan dijalaokandengan menggunakan nilai default.

Pilihan "Informasi" dipergunakanuntuk mengisi nilai iklim yang real.

992

Konferensi Nasional Sistem Infonnasi 2011

Misalnya fase ENSO (Peubah 1) adalahsedang berlangsung EI-Nino (nilai 2), danCurah Hujan (peubah 2) adalah di atasnormal (nilai 3), maka format datanyaadalah 1,2;2,3.

Pilihan "Data" untuk menentukandata yang dipergunakan gun a mendugaparameter model bayesian network. Dalamhal ini Pengguna dapat memilih file databaru, membuat data baru ataupunmengupdate file default yang ada. Formatpenulisannya adalah untuk kolom 1, 2, 3,.dan 4 berturut-turut nilai peubah 1 (FaseENSO bulan Agustus tahun sebelumnya),peubah 2 (Curah hujan), peubah 3 (SisaDasarian Musim Hujan), dan peubah 4(Kekeringan). Sedangkan baris adalahrecord data.

Pilihan Struktur dipergunakan untukmenentukan struktur bayesian network.Dalam hal ini dinyatakan dalam bentukmatrik evidensi, yang berisi 1 (ada link) dano (tidak ada link), yang dibaca sebagai barisadalah parent dari kolom. Misalkan peubah1 sebagai parent dari peubah 2 dan 3, paubah2 dan peubah 3 sebagai parent dari peubah 4,maka matrik yang diinputkan adalah sebagaiberikut:

0;1;1;00;0;0;10;0;0;10;0;0;0

Ini berarti peubah 1 sebagai parent daripeubah 2 dan 3, paubah 2 dan peubah 3sebagai parent dari peubah. Strukturbayesian network yang sesuai untuk matriksdi atas adalah seperti gambar berikut :

~~&0Untuk memperbaiki fungsi utilitas,

Pengguna dapat memilih "Nilai Utility".Nilai utility uu ditentukan mengikutitahapan seperti dideskripsikan pada bagian4.

Berdasar data dari tahun 1989 hingga200 I untuk salah satu kecamatan, danmenggunakan metode kemungkinanmaksimum untuk menduga parameter

Page 13: PENGEMBANGAN HIDDEN MARKOV MODEL UNTUK FONEM …

'j

I 0.47222 O.lt6S7 0361112 0.49206 OD6.'N2 0.4444 CH SD A:KlCH,SDMH) n3 027660 025532 0.46:lJ9 MH I 2 3 4

I I 0.63)4 0.1957 OD6S2 O.lCB7 46I 2 I DCID ODCID ODCID ODOOO 7

CH I 3 0.87~ O.l~ ODCID 00000 82 I 0.8182 0.1818 ODCID 00000 112 2 I DCID 00000 OOCID ODOOO 5so A:SDMHISOI) 2 3 0.8333 O.lf.67 OOCID ODOOO 6I I 2 3

I 0.6t6S7 0.19444 O.l:€89 3 I 0.8462 0.1538 00000 00000 39...2 0.68254 OD9524 022222· 3 2 inon 00000 ODooo 00000 63 0.61702 0.10638 027660 3 3 10000 ODOOO 00000 00000 18

- D K U(D,IQ~1f)SDl'!IH

Dl 1 0- Dl 2 68.Z:&86Dl 3 610.7248

~ Dl 4 1386.633............~ D: l?ola Tanam , U D2 1 0

model, maka diperoleh bayesian networksecara lengkap seperti diperlihatkan pada

so A:CHISOI)I 2 3

Nilai A:SOI)1 0246582 0.431513 032192

~

.......I~~D: Penaruanan Ani.

Dl padi-padi pertan.aman dirnulai awal rmisim hujanD2 padi-padi pertan.aman dirnulai saru bulan sell!lah

mnsim hnjanD3 padi-padi pertan.aman dimulai dua bulan setelah

mnsim hujanD4 padi-padi penanarnan dirnulai tiga bulan ..t.l;,h

rnnsim lmjan

Konferensi Nasional Sistem Informasi 2011

Gambar 7.

D2 2 145.2002D2 3 1299.494D2 4 3ffi3.878D3 1 0D3 2 1013.578D3 3 93E.787D3 4 16))9.76D4 1 0D4 2 1885.485D4 3 WI30.&ID4 4 34165.37

Gambar 7. Model decision network untuk lndramayu berdasar data periode tahun 1989-2001

6. KesimpulanTelah berhasil dikembangkan model

decision network yang terdiri dari empatpeubah penyusun bayesian network (faseEnso, Curah Hujan, Sisa Dasarian MusimHujan, dan Kekeringan), dan empatalternatif kebijakan pola tanam padi-padi.Perbedaan antar pola tanam adalah awalpenanaman pertama, yaitu awal musimhujan, mundur I, 2, dan 3 bulan. Olehkarena nilai risiko akibat memilih satualternatif dikaitkan dengan kejadian iklimdipergunakan sebagai fungsi utilitas, makakriteria pemilihan pola tanam adalah yangmeminimumkan harapan fungsi utilitas.

Modul yang dikembangkan denganmetode kemungkinan maksimum untukmenduga parameter ini bersifat dinamis,sehingga Pengguna secara realtime dapatmemprediksi risiko kekeringan pertanamankedua satu tahun ke depan yang didasarkan

informasi fase SOl bulan Agustus padatahun ini.

Beberapa kelemahan yang adadiantaranya adalah minimnya jumlah datakekeringan dan data iklim lainnya yangtersedia untuk pelatihan sehingga dirasakurang mampu mengakomodasi semuavariasi yang ada. Dalam sistem belumdisertakan model penduga peubah terkaitcurah hujan. Untuk penelitian selanjutnyaakan integrasikan teknik downscaling untukmenduga sifat hujan, panjang musim danawal musim hujan, sehingga informasidalam menduga tingkat kekeringan lebihakurat.

993

Page 14: PENGEMBANGAN HIDDEN MARKOV MODEL UNTUK FONEM …

Daftar Rujukan

[1] Boer, R., et.all. 2008. PenyusunanKalender Tanaman. LaporanPenelitian, CCROMSEAP LPM IPBkerjasama dengan BMKG dan Deptan.Bogor.

[2] Neapolitan, R.E. 2004. LearningBayesian Networks. Prentice Hall,New Jersey

994

Konferensi Nasional Sistem Informasi 2011

[3] Russell, S. dan Peter N. 2003.Artificial Intelligence A ModemApproach, Second Edition. PrenticeHall Series, New Jersey.

[4] Buono, A. 2000. Sistem PendeteksianWajah 3D dalam Ruang Eigen denganMetode Kemungkinan MaksimumMenggunakan Algoritma EM. TesisProgram Master Ilmu Komputer,Fasilkom UI.