audio forensic
TRANSCRIPT
TUGAS TEORI INFORMASI & PENGKODEAN
“DIGITAL FORENSIC VOICE”
Proposal ini diajukan untuk memenuhi salah satu tugas mata kuliah
Teori Informasi & Pengkodean
Disusun Oleh:
Irma Amelia Dewi
NIM: 23211310
Program Magister Teknik Komputer
SEKOLAH TEKNIK ELEKTRO DAN INFORMATIKA
INSTITUT TEKNOLOGI BANDUNG
2012
Digital Forensic
Forensic adalah proses penggunaan pengetahuan ilmiah dan teknologi dalam
melakukan investigasi ,seperti mengumpulkan dan menganalisa sebuah objek dan
kemudian menghasilkan fakta-fakta atau bukti-bukti untuk digunakan sebagai
pemeliharaan, dokumentasi atau sebagai barang bukti ke pengadilan. Forensik erat
hubungannya dengan analisa barang bukti laten/tiak terlihat. Barang bukti laten
berbentuk dalam banyak format salah satunya seperti sidik jari, DNA dari noda darah
dan juga file-file yang tersedia dalam media digital komputer.
Digital Forensic proses forensic yang dilakukan pada media yang berbentuk
digital yang dapat diambil dari perangkat komputer, PDA ,handphone smartphone dan
jenis perangkat digital lainnya yang digunakan sebagai media penyimpanan (seperti
flash disk, hard disk, atau CD-ROM), sebuah dokumen elektronik (misalnya sebuah
pesan email atau gambar JPEG, rekaman suara, rekaman video), atau bahkan sederetan
paket yang berpindah dalam jaringan komputer. Forensic dapat dilakukan meskipun
data sengaja dihapus atau tidak sengaja dihapus.
Bagian spesifik dari digital forensic pada ruang lingkup perangkat seperti
komputer disebut dengan Computer Forensic. Bentuk data digital pada Computer
Forensic dapat berupa file-file wordprocessor, spreadsheet, sourcode software,
database, image, sound, email, bookmark, cookies, registry dan lainnya. Computer
Forensic adalah aktifitas yang berhubungan dengan pemeliharaan, identifikasi,
pengambilan.penyaringan dan dokumentasi bukti komputer dalam kejahatan komputer
(Cybercrime/Computercrime).
Audio forensik memiliki sejarah panjang dengan militer Amerika Serikat dan
pemerintah. Dalam Perang Dunia II, teknologi ini digunakan untuk mengidentifikasi
suara-suara musuh yang ditargetkan yang terdengar di atas radio dan telepon.
Penggunaan sp
ektrograf suara, yang diplot pola frekuensi suara dan amplitudo, membantu analisis
mengidentifikasi orang-orang yang menarik. Dalam beberapa tahun terakhir, forensik
audio digunakan untuk menganalisis pesan yang dibuat oleh teroris untuk membantu
menentukan lokasi mereka, waktu pembuatan audio dan faktor-faktor yang berasal
lainnya.
Beberapa hal yang umumnya dievaluasi dalam klip audio untuk menentukan
keasliannya adalah latar belakang suara, perubahan frekuensi suara, suara yang berasal
dari rekaman peralatan dan berhenti, mulai dan jeda. Setiap sinyal diskontinuitas di
daerah ini akan dianalisa untuk membuktikan bahwa rekaman tersebut tidak otentik
atau telah dikompromikan.
Salah satu teknik yang paling populer digunakan selama analisis adalah
membandingkan satu suara yang tidak diketahui dengan suara yang dikenal untuk
mengidentifikasi. Hal ini dapat dilakukan dalam kasus yang melibatkan suara, di mana
satu pembicara telah diidentifikasi, tetapi yang lain tidak.
1. Teori Dasar Analisa Suara
Teori dasar untuk identifikasi suara bersandar pada premis bahwa setiap suara
individual karakteristik cukup untuk membedakannya dari orang lain melalui analisis
voiceprint. Ada dua faktor umum yang terlibat dalam proses suara manusia. Faktor
pertama dalam menentukan keunikan suara terletak pada ukuran rongga vokal, seperti
rongga tenggorokan, hidung dan mulut, dan bentuk, panjang dan ketegangan pita suara
individu yang terletak di laring. Rongga vokal yang resonator, seperti pipa organ, yang
memperkuat beberapa nada yang dihasilkan oleh pita suara, yang menghasilkan format
atau batang voiceprint. Kemungkinan bahwa dua orang akan memiliki semua rongga
vokal mereka ukuran yang sama dan konfigurasi dan digabungkan identik muncul
sangat terpencil.
Faktor kedua dalam menentukan keunikan suara terletak pada cara yang
artikulator-artikulator atau otot pidato dimanipulasi selama berbicara. Artikulator-
artikulator termasuk bibir, gigi, lidah, langit-langit lunak dan otot-otot rahang yang
saling dikendalikan menghasilkan pidato dimengerti. pidato dimengerti dikembangkan
oleh proses pembelajaran acak meniru orang lain yang berkomunikasi.
Untuk memfasilitasi perbandingan visual dari suara, spektrograf bunyi
digunakan untuk menganalisis bentuk gelombang pidato kompleks menjadi tampilan
bergambar pada apa yang disebut sebagai sebuah spektrogram. spektrogram
menampilkan sinyal suara dengan waktu sepanjang sumbu horisontal, frekuensi pada
sumbu vertikal, dan amplitudo relatif yang ditunjukkan oleh tingkat naungan abu-abu
pada layar. Resonansi suara pembicara ditampilkan dalam bentuk tayangan sinyal
vertikal atau tanda untuk suara konsonan, dan bar horisontal atau forman untuk suara
vokal. Konfigurasi yang ditampilkan terlihat karakteristik dari artikulasi terlibat untuk
speaker menghasilkan kata dan frase. Spektrogram berfungsi sebagai catatan permanen
dari kata-kata lisan dan memfasilitasi perbandingan visual dari kata-kata serupa yang
diucapkan oleh orang yang dikenal dengan suara pembicara yang belum diketahui
identitasnya.
1.1 Teori Suara
Suara dihasilkan melalui proses Generation dan Filtering. Pada proses
Generation, suara pertama kali diproduksi melalui bergetarnya pita suara (vocal cord
atau vocal fold) yang berada di larynx untuk menghasilkan bunyi periodik. Bunyi
periodik yang bersifat konstan tersebut kemudian di-filterisasi melalui vocal tract (juga
disebut dengan istilah resonator suara atau articulator) yang terdiri dari lidah (tongue),
gigi (teeth), bibir (lips), langit-langit (palate) dan lain-lain sehingga bunyi tersebut dapat
menjadi bunyi keluaran (output) berupa bunyi vokal (vowel) dan atau bunyi konsonan
(consonant) yang membentuk kata-kata yang memiliki arti yang nantinya dapat
dianalisa untuk voice recognition.
Gambar 1 Human vocal tract.(sumber: http://www.dukemagazine.duke.edu/issues/050608/images/050608-lg-
figure1purves.jpg)
Gambar 2 Suara Keluaran (output) setelah melalui filterisasi vocal tract.
1.2 Komponen Suara
Suara terdiri dari beberapa komponen, yaitu pitch, formant dan spectrogram
yang dapat digunakan untuk mengidentifikasi karakteristik suara seseorang untuk
kepentingan voice recognition.
a. Pitch
Frekwensi getar dari pita suara yang juga disebut dengan istilah
frekwensi fundamental (dasar) dengan notasi F0. Masing-masing orang
memiliki pitch yang khas (habitual pitch) yang sangat dipengaruhi oleh aspek
fisiologis larynx manusia. Pada kondisi pembicaraan normal, level habitual
pitch berkisar pada 50 s/d 250 Hz untuk laki-laki dan 120 s/d 500 Hz untuk
perempuan. Frekwensi F0 ini berubah secara konstan dan memberikan
informasi linguistik seseorang seperti perbedaan intonasi dan emosi
Gambar 3 Diagram pitch terhadap waktu yang berubah secara konstan
Analisa pitch dapat digunakan untuk melakukan voice recognition terhadap
suara seseorang, yaitu melalui analisa statistik terhadap minimum pitch,
maximum pitch dan mean pitch
b. Formant
Formant adalah frekwensi-frekwensi resonansi dari filter, yaitu vocal
tract (articulator) yang meneruskan dan memfilter bunyi periodik dari
getarnya pita suara (vocal cord) menjadi bunyi keluaran (output) berupa
kata-kata yang memiliki makna. Secara umum, frekwensi-frekwensi formant
bersifat tidak terbatas, namun untuk identifikasi suara seseorang, paling tidak
ada 3 (tiga) formant yang dianalisa, yaitu Formant 1 (F1), Formant 2 (F2) dan
Formant 3 (F3).
Gambar 4 Diagram masing-masing Formant F1, F2, F3, F4 dan F5
c. Spectrogram
Spectrogram merupakan representasi spectral yang bervariasi
terhadap waktu yang menunjukkan tingkat density (intensitas energi)
spektral. Dengan kata lain spectrogram adalah bentuk visualisasi dari masing-
masing nilai formant yang dilengkapi dengan level energi yang bervariasi
terhadap waktu. Level energy ini dikenal dengan istilah formant bandwidth.
Nantinya pada kasus-kasus yang bersifat pemalsuan suara dengan teknik
pitch shift atau si subyek berusaha untuk menghilangkan karakter suara
aslinya, maka formant bandiwidth dapat digunakan untuk memetakan atau
mengidentifikasi suara aslinya. Dikarenakan spectrogram memuat hal-hal
yang bersifat detil, maka Spectrogram oleh beberapa ahli juga dikenal dengan
istilah sidik jari suara (voice fingerprint).
Spectrogram membentuk pola umum yang khas dalam pengucapan
kata dan pola khusus masing-masing formant dalam pengucapan suku kata,
sehingga spectrogram juga digunakan untuk melakukan analisa identifkasi
suara seseorang.
Jika durasi rekaman suara unknown lumayan panjang, maka analisa
spectrogram juga dapat digunakan untuk mempercepat pemilihan
pengucapan kata-kata yang akan dianalisa dalam rangka untuk mendapatkan
jumlah minimal 20 kata untuk dapat menunjukkan ke-identik-an suara
unknown dengan known (pembanding).
Gambar 5 Spectrogram representasi spektral dengan tingkatan energinya
D. source Filter Model
Terdapat dua sumber akustik dalam suatu ucapan yakni, suatu ucapan dengan
suara dan ucapan tanpa suara. Ucapan bersuara dihasilkan oleh modulasi aliran udara
dari paru-paru yang menyebabkan getaran pada vocal fold. Ucapan tanpa suara
sumber suaranya bukan getaran biasa melainkan getaran yang disebabkan oleh aliran
udara turbulen akibat penyempitan di saluran vokal.Ucapan tanpa suara ini disebut
juga suara desah atau noise. Source filter model disini digunakan untuk penyaring
frekuensi tertentu ataupun menguatkan serta melemahkan. Source filter model, terdiri
dari komponen sumber yang berasal dari pita suara yang kemudian menuju filter
sehingga menghasilkan output ucapan yang telah disaring.
Gambar 6 Source filter model
2. Proses Pengolahan Sinyal Digital
Dibutuhkan pengolahan sinyal suara sehingga diperoleh koefisien karakteristik
suara manusia untuk sistem ini yang terdiri dari Sampling, Frame Blocking, Windowing,
Discrette Fourier Transform (DFT), Filter Nonlinear Power Spectral Subtraction (SS), Mel
Filter Bank dan Discrette Cosine Transform (DCT). Berikut adalah teori dasar dari proses
tersebut.
Sampling
Sinyal suara merupakan sinyal yang tidak terbatas dalam domain waktu
(infinite time interval). Suara manusia akan menghasilkan sinyal analog
yang terus kontinyu. Untuk melakukan ekstraksi koefisien karakteristik
suara maka sinyal wicara harus dibentuk dalam potongan±potongan
waktu yang terbatas (finite time interval). Karena itu sinyal yang ada
dipotong±potong dalam slot interval waktu tertentu. Deret diskrit
sampel x[n] diperoleh dari sinyal kontinu x(t) dengan hubungan sebagai
berikut,
x[n]= x(nT )
Dimana T adalah periode sampling dan 1/T=Fs merupakan frekuensi
sampling dalam satuan sampel/detik. Nilai n merupakan jumlah sampel.
Berdasarkan pada teori sampling Nyquist, maka syarat dari frekuensi
sampling adalah minimal dua kali frekuensi maksimal sinyal asli.
Penentuan frekuensi sampling yang sesuai hukum Nyquist ini untuk
mencegah adanya perubahan bentuk asli sinyal atau aliasing.
Frekuensi Sampling ≥ 2x Frekuensi Sinyal
Berikut adalah contoh sinyal sebelum dan sesudah sampling.
Gambar 7 Sinyal sebelum sampling
Gambar 8 Sinyal setelah sampling
Frame BlockingFrame Blocking merupakan pembagian suara menjadi beberapa frame
dan satu frame terdiri dari beberapa sampel. Proses ini diperlukan
untuk membentuk sinyal suara yang non stasioner menjadi sinyal suara
yang quasi-stasioner sehingga dapat diubah dari domain waktu ke
dalam domain frekuensi dengan Transformasi Fourier. Hal ini karena
sinyal suara manusia menunjukkan karakteristik quasi-stasioner pada
saat pada rentang waktu 20-40 milidetik. Sehingga pada rentang
tersebut transformasi Fourier dapat dilakukan karena Transformasi
Fourier tidak dapat melakukan pemrosesan apabila sinyal suara
manusia berada dalam keadaan non stasioner. Pengambilan jumlah
sampel untuk tiap frame tergantung dari tiap berapa detik suara akan
disampel dan berapa besar frekuensi samplingnya. Untuk
mengakomodasi hilangnya data saat proses frame blocking digunakan
overlapping sinyal untuk tiap frame. Pada umumnya overlapping berada
pada rentang waktu 10-20 ms pada tiap frame.
Gambar 9 Proses frame blocking pada sinyal
Windowing
Sinyal suara yang dipotong-potong menjadi beberapa frame akan
menyebabkan efek diskotinuitas pada awal dan akhir sinyal. Hal ini
akan menyebabkan kesalahan data pada proses Transformasi Fourier.
Windowing diperlukan untuk mengurangi efek diskontinuitas dari
potongan ± potongan sinyal tersebut. Jika didefinisikan w(n) sebagai
window dimana 0 ≤ n ≤ N-1, N adalah jumlah sampel dalam tiap frame
maka hasil proses windowing seperti pada persamaan berikut:
w(n) x(n)W (n), 0≤ n≤ N1
Jenis windowing ada beberapa macam yaitu Hamming, Hanning, Bartlet,
Rectanguler dan Blackman. Persamaan windowing sebagai berikut :
o Window Hamming
o Window hanning
o Window Barlet
o Window Blackman
Discretee Fourier Transform (DFT)
Transformasi Fourier adalah suatu metode yang sangat efisien untuk
menyelesaikantransformasi fourier diskrit yang banyak dipakai untuk
keperluan analisa sinyal seperti pemfilteran, analisa korelasi, dan
analisa spektrum. Transformasi Fourier ini dilakukan untuk
mentransformasikan sinyal dari domain waktu ke domain frekuensi.
DFT adalah bentuk khusus dari persamaan integral fourier :
Dengan mengubah variable-variabel, waktu (t), frekuensi ( ) kedalam
bentuk diskrit diperoleh transformasi Fourier diskrit (DFT) yang
persamaannya adalah :
DFT dilakukan dengan membagi N buah titik pada transformasi fourier
diskrit menjadi 2, masing-masing (N/2) titik transformasi. Proses
memecah menjadi 2 bagian ini diteruskan dengan membagi (N/2) titik
menjadi (N/4) dan seterusnya hingga diperoleh titik minimum.
Pemakaian DFT ini karena untuk perhitungan komputasi yang lebih
cepat dan mampu mereduksi jumlah perkalian dari N 2 menjadi NlogN
iterasi.
Nonlinear Power Spectral Subtraction (SS)
Filter Nonlinear Power Spectral Subtraction (SS) merupakan proses
pemfilteran noise sinyal dalam domain frekuensi. Filter ini terdiri atas
dua tahap pemrosesan yaitu Voice Activity Detection (VAD) dan Spectral
Subtracting.
o Voice Activity Detection (VAD)Tujuan dari tahapan proses VAD ini adalah untuk menentukan
frame sinyal suara apakah berisi sinyal wicara (voiced), tidak ada
sinyal bicara (unvoiced) atau tanpa suara/keadaan diam (silent).
Frame voiced cenderung memiliki energi lebih besar dari pada
frame unvoiced terlebih frame silent. Frame silent pada umumnya
merupakan representasi dari noise latar belakang lingkungan
suara. Proses VAD ini merupakan pondasi dasar dari algoritma
Nonlinear Power Spectral Subtraction karena keakurasian VAD
menentukan waktu kapan update noise dan besarnya filtering
pada sinyal suara.
Estimasi noise pada filter ini menggunakan hasil pada VAD untuk
menentukan kapan untuk melakukan komputasi ulang nilai noise
yang dijadikan sebagai referensi filter.Inisialisasi noise referensi
diasumsikan diambil dari sinyal suara dalam frame pertama
yang hanya berisi noise. Nilai treshold dari VAD dihitung untuk
menentukan suatu frame merupakan sinyal suara manusia atau
noise. Faktor komputasi ulang ( update) yaitu α N dan β N dapat
diatur secara ³trial and error´. Namun berdasarkan penelitian
sebelumnya [11] nilai optimal kedua factor tersebut adalah 0.95.
Tahap pertama VAD adalah melakukan Transformasi Fourier
(DFT atau FFT) untuk mengubah sinyal dalam frame dari domain
waktu ke domain frekuensi.
Selanjutnya spektrum, mean dan standar deviasi dari noise pada
frame pertama k=1 diinisialisasi sebagai noise
Jika VAD=0 maka spektrum, mean dan standar deviasi untuk
semua frame noise diperbaharui.
Treshold selanjutnya diperbaharui jika frame tidak berisi sinyal
suara berdasarkan mean dan standar deviasi dari estimasi noise.
Pengaturan threshold dilakukan menggunakan perkalian gain α
S dan α N yang dapat diatur secara eksperimental karena hingga
saat ini tidak ada rumusan umum untuk menentukan kedua nilai
tersebut.
Keputusan VAD dapat menggunakan treshold wicara dimana jika
energy sinyal lebih dari dua kali standar deviasi di atas mean
noise maka frame dikenali sebagai frame wicara. Jika energi
sinyal kurang dari beberapa bagian dari standar deviasi maka
frame dikenali sebagai noise. Jika baik wicara maupun noise
tidak dikenali keduanya maka frame dianggap sama dengan
kondisi frame sebelumnya.
Spectral Subtracting
Ada beberapa metode/algoritma untuk melakukan filter Nonlinear
Power Spectral Subtraction ini. Namun pada penelitian ini
menggunakan algoritma berdasarkan faktor oversubtraction dan
spectral floor berdasarkan kalkulasi SNR posteriori. Persamaan umum
dari metode ini adalah sebagai berikut,
Dimana adalah faktor oversubtraction untuk melakukan overestimate
spektrum noise dan adalah faktor spectral floor. Nilai dari factor
merupakan fungsi dari estimasi posteriori signal-to-noise ratio (SNR)
dan dirumuskan sebagai berikut,
Dimana SNR posteriori diperoleh malalui hubungan berikut,
Dengan α 0 merupakan nilai yang diinginkan dari pada saat sinyal
dalam keadaan 0 dB SNR. Secara umum semakin besar nilai tereduksi
secara signifikan. Namun apabila nilai maka noise sinyal akan yang
terlalu besar akan merubah pola sinyal dengan nilai yang cukup besar.
Sehingga nilai harus ditentukan secara tepat agar dapat mengurangi
noise secara optimal namun tetap menjaga bentuk pola sinyal asli.
Untuk power subtraction, range optimal dari α 0 adalah antara 3 sampai
dengan 6. Sedangkan parameter spectral floor digunakan untuk
mencegah adanya eliminasi terhadap sinyal suara di bawah batas
terendah yaitu . Nilai parameter paling optimal berada range 0.1β
sampai dengan 0.001. Namun untuk level noise rendah dapat
menggunakan nilai yang lebih kecil dari pada 0.01.
Mel Frequency Cepstrum Coefficient (MFCC)Informasi penting pada sinyal suara manusia berada pada frekuensi
tinggi Informasi penting ini yang menentukan karakteristik suara
manusia dan Mel scale digunakan untuk mengakomodasi karakteristik
tersebut. Setiap nada suara manusia dengan frekuensi actual ω yang
diukur dalam Hz nilai subjektif pitch dapat diukur dalam Mel Scale
merupakan ukuran atau skala persepsi manusia dari frekuensi suatu
suara. Hubungan antara Mel Scale dengan frekuensi tidak linear
seluruhnya. Pada frekuensi dibawah 1 kHz hubungannya adalah linear
tetapi untuk frekuensi lebih tinggi dari 1kHz hubungannya bersifat
logaritmik. Hubungan ini berdasarkan berbagai penelitian tentang
persepsi penangkapan suara oleh telinga manusia
Hubungan di atas menunjukkan hubungan antara frekuensi aktual
dengan frekuensi pada Mel scale. Pada implementasinya skala ini
menggunakan Filter Bank dimana setiap nilai magnitude frekuensi
difilter oleh deret filter segitiga. Dengan nilai frekuensi tengah yaitu
frekuensi Mel filter segitiga ini yang merepresentasikan proses Mel
scaling pada sinyal
Gambar 10 Konstruksi filter bank
Hasil dari DFT pada proses pengolahan sebelumnya akan lebih
informatif jika ditunjukkan dalam tiap band. Berdasarkan penelitian
sebelumnya, pendengaran manusia tidak sensitif untuk semua frekuensi
band. Sensitifitas tersebut berkurang pada frekuensi rendah dan
meningkat pada frekuensi di atas 1000 Hz. MFCC menggunakan
landasan ini sebagai ekstraksi koefisien identitas suara. Koefisien ini
telah memberikan hasil paling baik hingga saat ini khususnya dalam
aplikasi speaker recognition maupun speech recognition.
Mel Frequency Cepstral Coefficient MFCC didefinisikan sebagai Descretee
Fourier Transform dari amplitude sinyal dalam mel frequency. Sehingga
untuk mendapatkan sinyal pada skala mel dilakukan filtering dengan
frekuensi puncak adalah frekuensi mel.
Secara umum algoritma untuk menghitung MFCC adalah sebagai
berikut,
1. Komputasi sinyal dalam domain frekuensi dengan DFT
2. Melewatkan magnitud dari spektrum sinyal X[k] melalui Mel Filter
Bank. Hasil dari filtering magnitude spektrum ini adalah kumpulan M
yang merupakan representasi dari energi tiap band dimana M
merupakan jumlah filter pada filterbank.
3. Komputasi harga logaritmik dari energi dari tiap band output dari
tiap filter. Proses logaritmik sinyal digunakan untuk
mengadaptasikan sistem seperti telinga manusia,karena sinyal suara
yang berada dibawah frekuensi 1 Khz (Low order) akan terdengar
linear namun lebih dari 1 Khz (High Order) grafiknya akan menjadi
logaritmis, untuk menyamakan persepsi itu maka digunakan proses
logaritmis pada sinyal agar sinyal dapat di proses.
4. Mengubah logaritma dari energi ke MFCC dengan Discrette Cosine
Transform (DCT).
Gaussian Mixture Model (GMM)Konsep dasar dari pemodelan dengan menggunakan Gaussian Mixture
Modeladalah Classifier, Klasifikasi Bayessian, Distribusi Gaussian
Multivariate dan algoritma Expectation-Maximation (EM). Berikut
adalah penjelasan dari ketiga konsep dasar tersebut.
o Classifier
Classifer adalah salah satu algoritma dengan menggunakan
feature atau cirri sebagai input dan menerjemahkannya dengan
berdasarkan informasi yang diberikan pada algoritma sebagai
parameternya. Keluaran dari algoritma ini biasanya berupa
label/kategori atau dapat juga suatu nilai numerik.
Kemampuan klasifikasi dalam classifier untuk tiap kasus dapat
dikembangkan dengan menggunakan jenis yang sesuai.
Kemampuan ini juga membutuhkan model atau struktur yang
tepat dalam sebuah classifier, misalnya pada jaringan syaraf
tiruan yaitu berupa jumlah neuron dan lapisan. Untuk classifier
Bayesian, model distribusi probabilitas harus disesuaikan
dengan kasus yang akan diklasifikasi. Sebuah classifier dapat
memiliki banyak parameter yang harus disesuaikan dengan nilai
yang diharapkan. Proses penyesuaian ini biasa disebut dengan
pembelajaran atau pelatihan. Kompleksitas dari sebuah classifier
sangat mempengaruhi kemampuan dan fleksibilitas suatu proses
identifikasi. Classifier yang sederhana memiliki nilai
komputasional yang cukup kecil namun kemampuannya untuk
mempelajari suatu data sangat rendah. Sedangkan classifier yang
sangat kompleks akan dapat mempelajari suatu kasus dengan
klasifikasi dengan akurasi yang tinggi bahkan sampai dengan
100%. Namun dengan akurasi yang sangat tinggi ini jika
diberikan dengan kasus yang berbeda maka akan menghasilkan
nilai dengan akurasi yang rendah. Karena itu data pengujian
pada umumnya dibagi menjadi dua set yaitu data training dan
data tes sehingga analisa performansi system akan lebih akurat.
(a) (b)
Gambar 11 Hasil classifier dengan kompleksitas yang tinggi solid line) dapat melakukan klasifikasi dengan sedikit error a), Namun saat diberi
kasus yang berbeda akan memberikan hasil yang sebaliknya. b)
Sebuah classifier dapat menggunakan banyak parameter untuk
penyesuaian system dengan tugas yang diberikan. Proses
penyesuaian ini biasa disebut dengan pembelajaran atau
pelatihan. Dalam pembelajaran terawasi, data untu pembelajaran
sebelumnya telah diset dan ditentukan hasilnya atau biasa
disebut dengan target pembelajaran. Sedangkan dalam
pembelajaran tak terawasi, data pembelajaran tidak ditentukan
targetnya tetapi pada waktu pelatihan ditujukan untuk mencari
dan membentuk klasifikasi secara independen.
Klasifikasi Bayesian
Classifier Bayesian dalam menentukan keputusannya berdasarkan teori
probabilitas dan prinsip pemilihan nilai optimal. Jika diasumsikan
sebuah klasifikasi membagi suatu vektor feature/ciri menjadi K kelas
yang berbeda. Vektor ciri didefinisikan sebagai x=[ x1, x2 .......xd ] T
dimana D adalah dimensi vektor. Probabilitas bahwa ciri x masuk pada
kelas k adalah P(ωk|k) dan pada umunya digunakan sebagai referensi
dari probabilitas posteriori. Probabilitas posteriori dapat dihitung
berdasarkan Hukum Bayes denganpersamaan sebagai berikut,
dimana p( x | k ) adalah fungsi densitas peluang (pdf) dari kelas k
dalam suatu ciri x dan P( k) adalah priori probability yaitu probabilitas
awal dari kelas sebelum melakukan pemrosesan terhadap ciri atau
biasa disebut probabilitas inisialisasi. Apabila priori probability ini
belum diketahui maka dapat diestimasi berdasarkan ukuran dari data
pembelajaran. Dengan persamaan sebagai berikut,
Nilai ini digunakan sebagai faktor skala untuk menjamin bahwa jumlah
dari probabilitas posteriori adalah sama dengan satu sesuai dengan
hukum probabilitas. Permasalahan dalam klasifikasi Bayesian adalah
fungsi densitas peluang(pdf) dari p(x| k). Fungsi ini yang menentukan
distribuasi ciri dalam suatu kelas atau dengan kata lain yang
menentukan model kelas. Dalam aplikasi, pada umumnya tidak
diketahui kecuali beberapa classifier tertentu.
Distribusi Normal MultivariateFungsi densitas peluang (pdf) Gaussian adalah fungsi satu dimensi
dengan bentuk menyerupai lonceng yang didefinisikan oleh dua
parameter yaitu meanµ and varian atau kovarian . Dalam dimensi D
dapat dirumuskan sebagai berikut
dimana µ adalah mean vektor dan adalah matriks kovarian. Pada
gambar di bawah adalah salah satu contoh fungsi densitas peluang
Gaussian dimensi 2.
Gambar 12 Contoh permukaan fungsi densitas peluang Gaussian d-2
Gaussian Mixture Model
Finite Mi ture Model dan metode estimasi parameternya dapat didekati
dengan menggunakan pdf apapun kecuali dengan menggunakan
distribusi normal tunggal. Namun untuk implementasinya harus
didefinisikan salah satu pdf yang paling sesuai untuk tiap kasus. Secara
umum distribusi yang digunakan dapat distribusi apa saja tetapi
distribusi normal multi ariate atau distribusi Gaussian merupakan salah
satu distribusi yang paling terkenal dan banyak dipakai untuk berbagai
aplikasi statistik. Misalnya untuk analisis multi ariate yang pada
umumnya menggunakan asumsi memiliki distribusi normal, atau dalam
model linear dari vektor error yang sering diasumsikan memiliki
distribusi normal. Selain itu distribusi normal dapat digunakan untuk
melakukan perbandingan kompleks yaitu dalam analisis variabel
random yang saling berkaitan. Sehingga jika suatu kasus tidak diketahui
jenis distribusinya maka model yang paling umum dan fleksibel yang
paling sesuai untuk digunakan dan distribusi Gaussian merupakan salah
satu dari distribusi tersebut dengan kehandalan yang sangat tinggi.
Gambar 13 Contoh permukaan Gaussian mixture PDF dimensi-2 dengan 3 komponen
Gaussian mi ture model (GMM) adalah sebuah campuran (mi ing) dari
beberapa distribusi Gaussian atau jika dalam klasifikasi merupakan
representasi dari adanya subkelas pada suatu kelas. Fungsi densitas
peluangnya didefinisikan sebagaijumlah dari perkalian bobot dengan
probabilitas gaussian.
Dimana αc merupakan bobot dari komponen campuran c dimana 0 < c <
1 untuk semua komponen dan angkan paramter distribusi,
merupakan definisi dari parameter Gaussian mixture probability
density function. Estimasi parameter Gaussian Mixture untuk satu kelas
dapat dicari melalui pembelajaran tak terawasi dimana data sampel
tanpa adanya target klasifikasi. Pada umunya algoritma clustering
digunakan untuk melakukan identifikasi komponen secara eksak
khusunya dalam melakukan inisialisasi model.
Maximation LikelihoodDiasumsikan suatu set sampel feature X = {x1, . . . , xN} yang diambil dari
distribusi tunggal yang didefinisikan oleh pdf p(x; ) dimana adalah
parameter pdf. Maka fungsi likelihood dapat didefinisikan sebagai,
Dimana menunujukkan bahwa lekelihood dari data sampel feature X
berdasarkan parameter distribusi . Untuk mendapatkan nilaiÖ yang
merupakan nilai maksimum likelihood
Pada umumnya nilai maksimum ini tidak digunakan secara langsung
namun dengan mengkalkulasi nilai logaritmik likelihood nya.
Persamaan di atas biasa disebut sebagai fungsi log-likelihood dimana
secara analisis lebih mudah dimengerti dari pada secara langsung
karena nilainya yang cukup kecil. Berdasarkan p(x; ) sangatθ
dimungkinkan menemukan nilai maksimum secara analitik dengan
mendefinisikan turunan fungsi log-likelihood sama dengan nol. Untuk
Gaussian solusi analitik dapat dicari berdasarkan parameter mean dan
varian. Dalam implementasinya, untuk mencari nilai maksimum
tersebut menggunakan metode iterative misalnya algoritma
Expectation-Maximation. Dalam proses maksimasi nilai loglikelihood
ini seringkali menghasilkan hasil yang singular dan ini merupakan salah
satu permasalahan dalam Gaussian Mixture Model.
Likehood Ratio
Metode estimasi likelihood ratio yang digunakan dalam Forensic
Speaker Identification adalah membandingkan perbedaan antara
sampel suara yang didapat dari hasil penyadapan telepon dengan hasil
rekaman yang didapatkan secara langsung / wawancara. Likelihood
ratio dinyatakan dalam persamaan :
Atau suatu probabilitas dimana Efsi adalah barang bukti berupa sampel,
Hss adalah hipotesa bahwa sampel dari sampel suara yang didapat dari
hasil penyadapan telepon dengan hasil rekaman yang didapatkan secara
langsung / wawancara bersumber dari orang yang sama, Hds
menyatakan hipotesa bahwa sampel dari sampel suara yang didapat
dari hasil penyadapan telepon dengan hasil rekaman yang didapatkan
secara langsung /wawancara bukan bersumber dari orang yang sama.
Pada saat melakukan perhitungan Likelihood ratio perlu juga diketahui
referensi,latar belakang disamping rekaman telepon dan rekaman pada
saat wawancara secara langsung. Ini dikarenakan Likelihood ratio
adalah ratio dari similarity sampai dengan typicality. Ini akan mengukur
seberapa besar persamaan antara kedua sampel, kemudian
mengevaluasi kesamaan sampai ciri khasnya. Seberapa kemungkinan
akan melakukan pengambilan sampel secara acak pada pembicara yang
berbeda dari suatu populasi yang tidak berkaitan Perlu juga
mengumpulkan kata-kata yang bisa dibandingkan dengan suara di
telepon yang akan diperiksa. Basis pembandingnya adalah kutipan kata
yang sama. Misalnya, kata Halo tidak akan masuk data penelitian jika
hanya terucap sekali. Namun, jika misalnya terucap 10 kali, kata itu
menjadi calon untuk pembanding
3. Prosedur Audio Forensic
Untuk melakukan analisa suara seseorang dalam rangka mengidentifikasi suara
yang berasal dari rekaman barang bukti dan memverifikasinya dengan suara
pembanding, berikut adalah tahapan-tahapan yang digunakan
a. Acquisition
1) Catat spesifikasi teknis audio recorder seperti merk, model, ukuran dan
serial number, dilanjutkan dengan foto bagian depan dan belakan recorder.
Untuk pemotretan barang bukti, harus dilengkapi dengan label ‘Puslabfor’
dan skala ukur.
2) Sebelum melakukan langkah-langkah audio forensik lebih lanjut, pemeriksa
harus terlebih dahulu mendapatkan fakta kasus yang berkaitan dengan
barang bukti rekaman suara dari penyidik dengan melakukan gelar perkara
terhadap kasus tersebut.
3) Selain fakta kasus, pemeriksa juga harus sudah mendapatkan suara
pembanding (control sample) terhadap suara yang ada di dalam audio
recorder yang akan dianalisa dan dilengkapi dengan administrasi penyidikan
yang lengkap. Pengambilan contoh suara pembanding ini dapat dilakukan
oleh penyidik atau pemeriksa di dalam lingkungan yang bebas dari suara
noise. Pengambilan contoh suara pembanding ini juga harus dilengkapi
dengan Berita Acara Pengambilan Contoh Suara Pembanding yang disetujui
dan ditandatangani oleh subyek yang contoh suaranya akan dianalisa.
4) Pengambilan contoh suara pembanding juga dapat dilakukan dari rekaman
video asli yang menunjukkan subyek dalam berbicara. Rekaman video ini
harus berasal dari sumber yang jelas dan resmi.
5) Untuk proses akuisisi audio recorder yang menghasilkan file dd image
mengikuti langkah-langkah seperti yang dijelaskan pada point 3 s/d 11 SOP
1 tentang Akuisisi Harddisk, Flashdisk dan Memory Card.
6) Setelah mendapatkan file dd image yang IDENTIK dengan isi dari audio
recorder, file dd image tersebut dilakukan proses logical mounting untuk
melihat isi dari audio recorder tersebut.
7) Proses mounting bisa dilakukan di komputer analisis baik yang berbasis Ms.
Windows maupun Linux Ubuntu. Sebelum proses mounting, harus
dipastikan bahwa file dd image telah di-set read-only, dan dalam proses
mounting itu sendiri, harus dalam lingkungan yang forensically-sound write
protect. Untuk yang berbasis Ms. Windows dapat menggunakan aplikasi
digital forensik yang telah teruji untuk lingkungan tersebut, sedangkan
untuk yang berbasis Linux, dapat menggunakan perintah ‘mount –o ro,loop
File_Image.dd’.
8) Setelah di-mounting dalam lingkungan tersebut, pemeriksa dapat melakukan
proses keyword searching, file content checking atau file recovery untuk
dapat menemukan rekaman suara yang dicari.
9) File yang berisikan rekaman suara barang bukti kemudian di-ekspor dan
diekstraksi metadata-nya untuk dianalisa lebih lanjut untuk mendapatkan
histori teknis dari file rekaman tersebut termasuk keaslian file rekaman yang
juga dapat diperiksa melalui spectrum analysis.
b. Audio Enhancement
1) Rekaman suara barang bukti diperdengarkan (playback) untuk melihat
kualitas rekaman. Jika kualitasnya tidak bagus dikarenakan banyak suara
noise, maka terhadap rekaman suara tersebut harus dilakukan proses
enhancement untuk menaikkan kualitas rekaman sehingga pembicaraan
yang ada di dalam rekaman suara tersebut dapat didengar dengan jelas.
2) Proses enhancement ini dapat dilakukan di komputer analisis berbasis Ms.
Windows dan Linux dengan didukung aplikasi-aplikasi audio yang dapat
diandalkan untuk pemrosesan yang efisien dan efektif. Sebagian aplikasi ini
bahkan dapat menghilangkan suara noise yang kuat sehingga memunculkan
kembali suara pembicaraan yang ada.
3) Pelaksanaan proses enhancement ini mengikuti petunjuk (manual) dari
aplikasi-aplikasi tersebut.
c. Decoding
1) Setelah suara pembicaraan yang berasal dari rekaman barang bukti jelas,
dilanjutkan dengan pembuatan transkrip rekaman.
2) Pembuatan transkrip rekaman harus dilakukan oleh minimal 2 (dua) orang
pemeriksa. Ini dimaksudkan untuk mendapatkan nilai akurasi yang lebih
presisi terhadap hasil transkrip.
3) Transkrip rekaman harus mencantumkan label subyek (misalnya; subyek 1,
subyek 2 dan seterusnya) dan waktu (dalam jam:menit:detik) yang sesuai
dengan berjalannya rekaman. Interval penandaan waktu dapat disusun
setiap 30 detik atau 1 menit.
4) Jika suara pembicaraan di dalam rekaman tersebut tidak jelas, maka ditulis
‘tidak jelas’. Artinya hasil transkrip hanya memperlihatkan suara
pembicaraan yang jelas dan dapat dipahami pengucapan kata-katanya.
d. Voice Recognition
1) Proses ini untuk memastikan apakah suara yang ada di dalam rekaman
barang bukti adalah IDENTIK dengan contoh suara pembanding. Untuk itu
proses ini mengambil kata-kata yang pengucapannya sama antara suara
barang bukti dengan suara pembanding. Terhadap kata-kata tersebut
dilakukan analisa audio forensik yang berbasiskan analisa terhadap pitch,
formant, formant bandwidth dan spectrogram.
2) Disyaratkan minimal 20 (duapuluh) kata yang memiliki kesamaan antara
suara barang bukti dan suara pembanding dari hasil analisa pitch, formant,
bandwidth dan spectrogram, untuk menentukan apakah suara barang bukti
IDENTIK dengan suara pembanding. Ini merujuk pada ‘Spectrographic Voice
Identification: A Forensic Survey’ yang disusun oleh Koenig, B.E. dari Federal
Bureau of Investigation.
3) Jika jumlah kata yang diucapkan dalam rekaman barang bukti tidak
mencapai minimal 20 (duapuluh) kata, maka status rekaman suara barang
bukti adalah TIDAK MEMENUHI SYARAT AUDIO FORENSIK. Selanjutnya
tidak dapat dilakukan analisa voice recognition.
4) Analisa pitch didasarkan pada perhitungan statistik nilai pitch minimum,
maksimum dan rata-rata (mean) serta standard deviation yang dilengkapi
dengan grafiknya antara suara barang bukti dengan suara pembanding.
5) Analisa formant dan formant bandwidth didasarkan pada perhitungan
statistik One-Way Anova yang dilengkapi dengan bentuk graphical
distribution untuk melihat penyebaran nilai antara suara barang bukti
dengan suara pembanding. Analisa formant dan bandwidth ini meliputi
formant 1, formant 2, formant 3, bandwidth 1, bandwidth 2 dan bandwidth
3.
6) Analisa spectrogram didasarkan pada pola umum dan pola khusus yang
bersifat khas antara suara barang bukti dan suara pembanding. Pola-pola
yang khas ini meliputi formant 1, formant 2 dan formant 3 yang disertai level
energi (bandwidth) pada masing-masing formant. Dikarenakan spectrogram
dapat mem-visualisasikan secara lengkap masing-masing formant dan
bandwidth dari kata yang diucapkan secara konsisten, maka analisa
spectrogram sangat penting dalam penentuan akhir analisa voice
recognition.
4. Sampling Suara Pembanding
Untuk memastikan apakah suara yang ada pada rekaman suara barang bukti
adalah IDENTIK atau TIDAK IDENTIK dengan suara orang lain atau subyek, maka perlu
untuk dilakukan pengambilan (Sampling) contoh suara pembanding yang berasal dari
suara si subyek.
5. Analisa Statistik Pitch
Analisa ini didasarkan pada kalkulasi statistik nilai pitch dari masing-masing
suara unknown dan known. Karakteristik pitch dari masing-masing suara tersebut
dibandingkan pada minimum pitch, maximum pitch dan mean pitch.
Jika karakteristik pitch dari masing-masing suara tersebut menunjukkan tingkat
perbedaan yang besar, maka dapat disimpulkan bahwa pitch dari suara unknown dan
known adalah berbeda. Biasanya analisa ini juga didukung bentuk grafis pitch dari
masing-masing suara yang dianalisa
6. Analisa Statistik Formant dan Bandwidth
Analisa Anova
Analisa ini didasarkan pada analisa One-way Anova (Analysis of Variances) yang
mengkalkulasi secara statistik nilai-nilai Formant 1, Formant 2, Formant 3 dan Formant
4 dari suara unknown (SuaraBarangBukti) dan known (SuaraSubyek1). Anova akan
menunjukkan tingkat perbedaaan antara 2 (dua) kelompok data pada masing-masing
formant dari suara unknown dan known, yang ditandai dengan perbandingan ratio F dan
F critical, dan nilai probability P.
Jika nilai ratio F lebih kecil dari F critical, dan nilai probability P lebih besar dari
0.5 maka dapat disimpulkan bahwa kedua kelompok data dari nilai formant yang
dianalisa dari suara unknown dan known tidak memiliki perbedaan (accepted) yang
signifikan pada level 0.05. Kesimpulan ini memiliki tingkat konfidensi sebesar 95%.
Analisa Likelihood Ratio (LR)
Penelaahan lebih detil terhadap analisa statistic terhadap formant dan
bandwidth adalah dengan menggunakan Likelihood Ratio (LR) yang dalam contoh ini
merupakan lanjutan dari Analisa Anova yang telah dijelaskan di atas. Formula LR adalah
sebagai berikut :
LR =
di mana :
p (E | Hp) adalah hipotesis tuntutan (prosecution), yaitu known dan unknown
samples berasal dari orang yang sama.
p (E | Hd) adalah hipotesis perlawanan (defense), yaitu known dan unknown
samples berasal dari orang yang berbeda.
p (E | Hp) berasal dari p-value Anova, sedangkan p (E | Hd) = 1 - p (E | Hp)
Jika LR > 1, maka hal ini mendukung p (E | Hp), sebaliknya jika LR < 1, maka p (E
| Hd) yang didukung. Untuk itu, haruslah nilai p (E | Hp) > 0.5 untuk dapat
menyimpulkan bahwa suara barang bukti (unknown) dan suara pembanding (known)
berasal dari orang yang sama (IDENTIK).
7. Analisa Graphical Distribution
Analisa ditujukan untuk menggambarkan dalam bentuk grafis tingkat penyebaran
(distribusi) masing-masing nilai formant untuk melihat level perbedaan distribusi nilai
formant dari suara unknown dan known. Biasanya analisa ini dibuat dalam bentuk
perbandingan F1 vs F2 dan F2 vs F3.
Jika terdapat nilai yang menyimpang pada formant yang dianalisa yang mana
nilai menyimpang ini tidak terakomodasi dalam analisa statistik Anova, malah membuat
kesimpulan yang keliru, maka analisa graphical distribution ini dapat mengkoreksi
kesimpulan yang keliru tersebut.
Analisa graphical distribution F1 vs F2 dari masing-masing suara Test 1 (unknown) dan
Test 2 (known). Hasil dari analisa ini menunjukkan bahwa Formant 1 dan Formant 2
antara suara Test 1 dan Test 2 memiliki perbedaan pada tingkat penyebarannya.
Pada contoh SuaraBarangBukti dan SuaraSubyek1 yang telah didapat dan
dijelaskan sebelumnya untuk Analisa Statistik Formant, tabulasi data untuk kedua jenis
suara tersebut dapat digunakan untuk melanjutkan analisa ke analisa sebaran grafis
(Graphical Distribution).
8. Analisa Spectrogram
Analisa ini menunjukkan pola umum yang khas pada kata yang diucapkan dan
pola khusus yang khas pada masing-masing formant suku kata yang dianalisa. Pola-pola
khas tersebut juga termasuk dalam analisa tingkatan energi dari masing-masing
formant seperti yang ditunjukkan pada Gambar 5 di atas.
Jika pola-pola khas tersebut untuk pengucapan kata-kata tertentu dari suara
unknown (suara barang bukti) dan known (suara pembanding) tidak menunjukkan
perbedaan yang signifikan, maka dapat disimpulkan bahwa kedua suara tersebut untuk
pengucapan pada kata-kata tersebut adalah IDENTIK (memiliki kesamaan
spectrogram).
Oleh karena spectrogram mampu menampilkan pola-pola yang khas formant dan
bandwidth pada pengucapan kata-kata yang mana pola-pola ini tidak terpengaruh
dengan tinggi rendahnya frekwensi resonansi tiap-tiap formant ketika pengucapan
kata-kata dibuat, maka ada sebagian ahli menyatakan bahwa spectrogram merupakan
sidik jari suara (voice fingerprint). Walaupun begitu ada juga sebagian ahli yang tidak
sependapat dengan pernyataan tersebut. Mereka berargumentasi bahwa spectrogram
untuk pengucapan kata yang sama namun berasal dari 2 (dua) orang yang berbeda akan
memungkinkan menghasilkan pola khas spectrogram yang sama. Hal ini bisa
menyesatkan atau menghasilkan false positive. Artinya untuk voice recognition,
spectrogram bukanlah satu-satunya komponen suara yang dianalisa. Harus ada juga
analisa terhadap komponen suara yang lain seperti analisa statistic terhadap pitch dan
formant yang berbasis Anova dan Likelihood Ratio (LR).