bab ii tinjauan pustaka_ g11mrf
TRANSCRIPT
1
PENDAHULUAN
Latar Belakang
Genre musik adalah pengelompokan musik
sesuai dengan kemiripan satu dengan yang lain,
seperti kemiripan dalam hal frekuensi musik,
struktur ritmik, dan konten harmoni. Genre
musik merupakan hal yang penting bagi
masyarakat yang menyukai musik, karena
membuat masyarakat dengan mudah
mengelompokan musik yang yang mereka
sukai.
Pada umumnya pengelompokan lagu
dilakukan secara manual yaitu dengan
mendengarakan lagu secara langsung kemudian
dikelompokkan bedasarkan genre lagu tersebut.
Metode ini mempunyai keunggulan yaitu
mempunyai tingkat akurasi yang tinggi, tetapi
kekurangan dari metode ini adalah sangat tidak
efisien untuk data berjumlah banyak, karena
harus didengarkan satu persatu. Pengelompokan
genre lagu secara otomatis mulai dikembangkan
untuk membantu mengelompokan lagu yang
berjumlah banyak. Proses ini mempunyai
keunggulan dalam jumlah data yang bisa
diporses namun kekurangan dari proses
otomatis adalah akurasi yang rendah.
Untuk dapat dikelompokkan data musik
harus melalui proses ekstraksi ciri yang
bertujuan mendapatkan ciri dari lagu tersebut.
Salah satu metode yang dapat digunakan adalah
Mel-frequency cepstral coefficient (MFCC).
MFCC mengekstraksi ciri suara berdasarkan
spektrum yang dihasilkan dari musik. Penelitian
yang menggunakan MFCC dalam proses
ekstraksi ciri antara lain, Prameswari (2010)
yang melakukan penelitian pengembangan
sistem pengenalan kata berbasis fonem dalam
bahasa Indonesia dengan metode resilent
backpropagation, dan Wisnudhisastra (2009)
tentang pengenalan chord gitar dengan teknik
ekstraksi ciri Mel-frequency cepstral coefficient
(MFCC).
Leaning Vector Quantization (LVQ)
merupakan salah satu contoh dari jaringan
syaraf tiruan yang digunakan untuk proses
klasifikasi. Metode LVQ sudah banyak
digunakan untuk penelitian, seperti penelitian
oleh Effedy et al (2008) mengenai deteksi
pornografi pada citra digital menggunakan
pengolahan citra dan jaringan syaraf tiruan,
Qur’ani & Rosmalinda (2010) yang meneliti
jaringan syaraf tiruan LVQ untuk aplikasi
pengenalan tanda tangan.
Klasifikasi genre musik telah dilakukan oleh
Talupur et al (2002). Pada penelitian ini genre
yang diklasifikasikan antara lain klasik, rock,
jazz dan country dengan akurasi tertinggi yang
dihasilkan sebesar 80 %. Berdasarkan penelitian
yang terkait, metode MFCC dan LVQ dapat
digunakan untuk klasifikasi genre musik.
Rumusan Masalah
Rumusan masalah dalam penelitian ini
adalah bagaimana membuat model klasifikasi
data audio menggunakan jaringan syaraf tiruan
LVQ.
Ruang Lingkup
Ruang lingkup pada penelitian ini antara
lain:
1. Dalam penelitian ini, genre musik yang
diklasifikasikan dibatasi hanya genre rock,
klasik, jazz dan keroncong.
2. Musik yang diolah mempunyai durasi 5, 10,
20, dan 25 detik dengan format wav.
3. Data musik menggunakan chanel mono.
Tujuan
Tujuan dari penelitian ini adalah
mengembangkan model Learning Vector
Quantization untuk klasifikasi genre musik.
Manfaat
Penelitian ini diharapkan dapat melakukan
klasifikasi pada data musik menggunakan
Learning Vector Quantization agar dapat
membantu peran manusia dalam hal
menentukan genre musik, sehingga genre musik
tidak lagi bersifat relatif, tetapi dapat
dikelompokkan dengan standardisasi yang telah
ditentukan.
TINJAUAN PUSTAKA
Genre Musik
Genre musik adalah label yang dibuat dan
digunakan manusia untuk mengkategorikan dan
menggambarkan musik di dunia (Tzanekatis
2002). http://allmusic.com mengelompokan
genre musik ke dalam 11 genre utama, yaitu
pop/rock, jazz, r&b, rap, country, blues,
elektronik, latin, reggae, internasional, dan
klasik.
Digitalisasi Gelombang Audio
Gelombang audio merupakan gelombang
longitudinal yang merambat melalui medium
seperti medium padat, cair, atau gas.
Gelombang suara merupakan gelombang analog
yang apabila diolah menggunakan peralatan
elektronik, gelombang tersebut harus melalui
tahap digitalisasi sehingga gelombang tersebut
berupa data digital.
2
Dalam proses digitalisasi audio, gelombang
audio melalui dua tahap proses yaitu sampling
dan kuantisasi (Jurafsky & Martin 2000).
Sampling merupakan proses pengambilan nilai
dalam jangka waktu tertentu. Nilai yang
dimaksud adalah amplitudo, yaitu besarnya
volume suara pada suatu waktu. Proses
sampling menghasilkan sebuah vektor yang
menyatakan nilai – nilai hasil sampling. Vektor
tersebut mempunyai panjang yang bergantung
pada lamanya sinyal dan sampling rate yang
digunakan. Sampling rate sendiri adalah
banyaknya nilai yang diambil setiap detiknya.
Untuk mengukur panjang vektor sinyal,
digunakan rumus beikut:
𝑆 = 𝐹𝑠 × 𝑇
dengan
S = panjang vektor
𝐹𝑠= sampling rate (Hertz)
T = panjang sinyal (detik)
Tahap selanjutnya adalah proses kuantisasi.
Kuantisasi bertujuan menyimpan nilai
amplitudo ke dalam representasi nilai 8 bit atau
16 bit (Jurafsky & Martin 2000).
Ekstraksi Ciri Sinyal Audio
Ekstraksi ciri berfungsi mengkarakterisasi
sinyal audio. Beberapa fitur sinyal audio yang
biasa digunakan antara lain Linear Predictive
Coding, Perceptual Linear Prediction, dan Mel-
Frequency. Proses ini dilakukan karena sinyal
audio merupakan sinyal yang bervariasi yang
diwaktukan dengan lambat. Jadi pada jangka
waktu yang sangat pendek (5–100 ms),
karakteristik sinyal tersebut hampir sama, tetapi
dalam jangka waktu yang lebih panjang (0,2
detik atau lebih), karakteristik sinyal audio
tersebut berubah dan memperlihatkan
perbedaan sinyal audio yang diolah (Do 1994).
Mel-Frequency Cepstrum Coefficient (MFCC)
Tujuan dari MFCC adalah mengadapatasi
kemampuan telinga manusia dalam mendengar
dan mengolah suara. Proses MFCC dapat dilihat
pada Gambar 1.
Sinyal Kontinu
Frame Blocking
Windowing
frame
Fast Fourier
Transform
Mel Frequency
Wrapping
spectrum
Cepstrum
mel spctrum
mel spectrum
Windowing
Gambar 1 Diagram blok proses MFCC (Do
1994)
Tahap-tahap dari proses MFCC dapat
dijelaskan sebagai berikut (Do 1994):
1. Frame Blocking, proses ini membagi sinyal
audio ke dalam frame. Tiap frame terdiri
atas N sample. Gambar 2 menggambarkan
ilustrasi dari proses frame blocking.
Gambar 2 Proses Frame Blocking
3
2. Windowing, pada tahap ini sinyal yang telah
dibagi ke dalam frame dilakukan proses
windowing untuk meminimalkan
diskontinuitas sinyal, dengan cara
meminimalkan distorsi spectral dengan
menggunakan window untuk memperkecil
sinyal hingga mendekati nol pada awal dan
akhir tiap frame. Window yang dipakai pada
proses ini adalah Hamming window dengan
persamaan :
𝑤 𝑛 = 0,54 − 0,46 𝑐𝑜𝑠 (2𝜋𝑛/(𝑁 − 1))
(1)
Dengan n = 1, 2, 3... N-1 (N adalah jumlah
frame yang digunakan)
Ilustrasi dari Hamming window dapat dilihat
pada Gambar 3.
Gambar 3 Hamming window
3. Fast Fourier Transform (FFT), merupakan
fast algorithm dari Discrete Fourier
Transform (DFT) yang berguna untuk
konversi setiap frame dari domain waktu
menjadi domain frekuensi. Berikut
persamaan yang digunakan :
𝑋𝑛 = 𝑥𝑘𝑒−2𝜋𝑗𝑘𝑛 /𝑁
𝑁−1
𝑘=0
(2)
dengan n=0, 1, 2 ... N-1, j adalah bilangan
imajiner, yaitu j = − 1.
Gambar 4 memperlihatkan sinyal yang
sudah berubah ke dalam domain frekuensi.
Gambar 4 Sinyal audio dalam domain
frekuensi
4. Mel-Frequency Wrapping. Berdasarkan
studi psikofisik, persepsi manusia terhadap
frekuensi sinyal audio tidak berupa skala
linier. Jadi untuk setiap nada dengan
frekuensi aktual f (dalam Hertz) dapat
diukur tinggi subjektifnya menggunakan
skala ‘mel’. Skala mel-frequency adalah
selang frekuensi di bawah 1000 Hz, dan
selang logaritmik untuk frekuensi di atas
1000 Hz. Gambar 5 mengilustrasikan filter
pada proses mel- frequency wrapping.
Gambar 5 Mel - frequency filter
Proses wrapping terhadap sinyal dalam
domain frekuensi menggunakan persamaan
berikut :
𝑋𝑖 = 𝑙𝑜𝑔10 𝑥 𝑘 𝐻𝑖(𝑘)
𝑁−1
𝑘=0
(3)
dengan i= 1,2,3...,M (M adalah jumlah filter
segitiga) dan Hi(k) adalah nilai filter segitiga
untuk frekuensi akustik sebesar k.
5. Cepstrum, tahap ini menkonversikan log
mel spectrum ke dalam domain waktu Hasil
proses ini disebut mel frequency cepstrum
coefficients. Berikut ini adalah persamaan
yang digunakan dalam DCT :
𝐶𝑗 = 𝑋𝑖𝑐𝑜𝑠(𝑗(𝑖 − 1)/2 𝜋
𝑀)
𝑀
𝑗 =1
(4)
dengan j= 1,2,3, . . . K (K adalah jumlah
koefisien yang diingankan) dan M adalah
jumlah filter.
4
Klasifikasi
Klasifikasi merupakan proses menemukan
sekumpulan model (atau fungsi) yang
menggambarkan dan membedakan konsep atau
kelas-kelas data, dengan tujuan agar model
tersebut dapat digunakan untuk memprediksi
kelas dari suatu objek atau data yang label
kelasnya tidak diketahui (Han & Kamber 2001).
Klasifikasi terdiri atas dua tahap, yaitu
pelatihan dan prediksi (klasifikasi). Pada tahap
pelatihan dibentuk sebuah model domain
permasalahan dari setiap instance yang ada.
Penentuan model tersebut berdasarkan analisis
pada sekumpulan data pelatihan, yaitu data yang
label kelasnya telah diketahui. Pada tahap
klasifikasi, dilakukan prediksi kelas dari
instance (kasus) baru yang telah dibuat pada
tahap pelatihan (Güvnir et al 1998).
Jaringan Syaraf Tiruan
Jaringan syaraf tiruan (JST) adalah sistem
pemroses informasi yang memiliki karakteristik
mirip dengan jaringan syaraf biologi. JST
dibentuk sebagai generalisasi model matematika
dari jaringan syaraf biologi, dengan asumsi
bahwa:
Pemrosesan informasi terjadi pada banyak
elemen sederhana (neuron).
Sinyal dikirimkan di antara neuron-neuron
melalui penghubung-penghubung (sinapsis).
Untuk menentukan output, setiap neuron
menggunakan fungsi aktivasi (Jong 1992).
Arsitektur jaringan syaraf tiruan disajikan
pada Gambar 6.
Gambar 6 Arsitektur JST sederhana (Jong
1992)
Learning Vector Quantization (LVQ)
Learning Vector Quantization (LVQ)
merupakan suatu metode klasifikasi pola yang
masing-masing unit output mewakili kategori
atau kelas tertentu. Vektor bobot untuk unit
output sering disebut vektor referensi untuk
kelas yang dinyatakan oleh unit tersebut. LVQ
mengklasifikasikan vektor input dalam kelas
yang sama dengan unit output yang memiliki
vektor bobot yang paling dekat dengan vektor
input (Widodo 2005). Ilustrasi dari jaringan
LVQ dapat dilihat pada Gambar 7.
Gambar 7 Arsitektur jaringan LVQ (Widodo
2005)
Algoritme pelatihan LVQ bertujuan
memperoleh unit output yang paling dekat
dengan vektor input. Bila x dan wc berasal dari
kelas yang sama, maka vektor bobot didekatkan
ke vektor input, tetapi apabila berasal dari kelas
yang berbeda, maka vektor bobot akan
dijauhkan dengan vektor input.
Kelebihan dari LVQ adalah:
1. nilai error yang lebih kecil dibandingkan
dengan jaringan syaraf tiruan seperti
backpropagation.
2. Dapat meringkas data set yang besar
menjadi vektor codebook berukuran kecil
untuk klasifikasi.
3. Dimensi dalam codebook tidak dibatasi
seperti dalam teknik nearest neighbour.
4. Model yang dihasilkan dapat diperbaharui
secara bertahap.
Kekurangan dari LVQ adalah:
1. Dibutuhkan perhitungan jarak untuk seluruh
atribut.
2. Akurasi model dangan bergantung pada
inisialisasi model serta parameter yang
digunakan (learning rate, iterasi, dan
sebagainya).
3. Akurasi juga dipengaruhi distribusi kelas
pada data training.
4. Sulit untuk menentukan jumlah codebook
vektor untuk masalah yang diberikan.
Algoritme LVQ
Berikut ini adalah algoritme dari LVQ :
Diinisialisasikan nilai bobot, maksimum
epoch, dan learning rate,
Nilai input (m,n), dan kelas target
dimasukkan ke dalam vector (1,n)
Selama kondisi berhenti bernilai salah,
dilakukan :
5
a. Untuk masing-masing pelatihan
vektor input x
b. Dicari j sehingga ||x-wj|| bernilai
minimum
c. Perbaiki wj dengan :
1. Jika T = cj maka
wj baru =wj lama +
α x-wj lama
2. Jika T ≠ cj
wj baru =wj lama -
α x-wj lama
d. Learning rate dikurangi
e. Kondisi berhenti dilihat
K-fold Cross Validation
Metode k-fold cross validation membagi
data menjadi k-buah subset, sebanyak k-1 buah
subset digunakan sebagai training set dan 1
buah set sebagai testing set (Guiterez 2000).
Sebagai gambaran, pada Gambar 8 terdapat
ilustrasi k-fold cross validation menggunakan 4
buah fold.
Gambar 8 Contoh cross validation dengan 4
fold
Confusion Matrix
Confusion matrix mengandung informasi
tentang aktual dan prediksi klasifikasi yang
dilakukan oleh sistem. Hasil dari sebuah sistem
sering dievaluasi menggunakan confusion
matrix (Kohavi and Provost 1998).
METODE PENELITIAN
Penelitian ini melalui beberapa tahapan
proses. Tahapan proses yang dilakukan dalam
penelitian ini disajikan pada Gambar 9.
Studi Pustaka
Pada tahap ini, kegiatan yang dilakukan
adalah mengumpulkan semua informasi atau
literatur yang terkait dalam penelitian.
Informasi tersebut didapatkan dari buku, jurnal,
internet dan artikel-artikel yang membahas
klasifikasi genre musik.
Mulai
Studi Pustaka
Perumusan Masalah
Data Musik
Pelatihan Klasifikasi
Evaluasi
Selesai
Praproses
LVQ
Data Latih Data Uji
Pembagian data
(K-fold cross validation)
Gambar 9 Metodologi penelitian
Perumusan Masalah
Pada tahap ini dilakukan analisis terhadap
permasalahan seperti pemilihan data musik,
pemilihan bagian yang akan dijadikan data latih
dan data uji.
Data Musik
Data yang digunakan pada penelitian ini
berjumlah 80 buah data yang dibagi ke dalam 4
buah genre yaitu, keroncong, jazz, klasik, dan
rock, (masing–masing genre terdiri atas 20 buah
lagu). Penulis menggunakan 4 buah genre
dikarenakan penelitian ini dimaksudkan sebagai
model awal penelitian klasifikasi genre musik.
Setelah data dikumpulkan proses selanjutnya
adalah memotong durasi dari tiap lagu secara
random, menjadi 5, 10, 20 dan 25 detik dengan
menggunakan software Audacity.