bab ii tinjauan pustaka_ g11mrf

5

Click here to load reader

Upload: rezza-aditya

Post on 30-Jul-2015

121 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: BAB II Tinjauan Pustaka_ G11mrf

1

PENDAHULUAN

Latar Belakang

Genre musik adalah pengelompokan musik

sesuai dengan kemiripan satu dengan yang lain,

seperti kemiripan dalam hal frekuensi musik,

struktur ritmik, dan konten harmoni. Genre

musik merupakan hal yang penting bagi

masyarakat yang menyukai musik, karena

membuat masyarakat dengan mudah

mengelompokan musik yang yang mereka

sukai.

Pada umumnya pengelompokan lagu

dilakukan secara manual yaitu dengan

mendengarakan lagu secara langsung kemudian

dikelompokkan bedasarkan genre lagu tersebut.

Metode ini mempunyai keunggulan yaitu

mempunyai tingkat akurasi yang tinggi, tetapi

kekurangan dari metode ini adalah sangat tidak

efisien untuk data berjumlah banyak, karena

harus didengarkan satu persatu. Pengelompokan

genre lagu secara otomatis mulai dikembangkan

untuk membantu mengelompokan lagu yang

berjumlah banyak. Proses ini mempunyai

keunggulan dalam jumlah data yang bisa

diporses namun kekurangan dari proses

otomatis adalah akurasi yang rendah.

Untuk dapat dikelompokkan data musik

harus melalui proses ekstraksi ciri yang

bertujuan mendapatkan ciri dari lagu tersebut.

Salah satu metode yang dapat digunakan adalah

Mel-frequency cepstral coefficient (MFCC).

MFCC mengekstraksi ciri suara berdasarkan

spektrum yang dihasilkan dari musik. Penelitian

yang menggunakan MFCC dalam proses

ekstraksi ciri antara lain, Prameswari (2010)

yang melakukan penelitian pengembangan

sistem pengenalan kata berbasis fonem dalam

bahasa Indonesia dengan metode resilent

backpropagation, dan Wisnudhisastra (2009)

tentang pengenalan chord gitar dengan teknik

ekstraksi ciri Mel-frequency cepstral coefficient

(MFCC).

Leaning Vector Quantization (LVQ)

merupakan salah satu contoh dari jaringan

syaraf tiruan yang digunakan untuk proses

klasifikasi. Metode LVQ sudah banyak

digunakan untuk penelitian, seperti penelitian

oleh Effedy et al (2008) mengenai deteksi

pornografi pada citra digital menggunakan

pengolahan citra dan jaringan syaraf tiruan,

Qur’ani & Rosmalinda (2010) yang meneliti

jaringan syaraf tiruan LVQ untuk aplikasi

pengenalan tanda tangan.

Klasifikasi genre musik telah dilakukan oleh

Talupur et al (2002). Pada penelitian ini genre

yang diklasifikasikan antara lain klasik, rock,

jazz dan country dengan akurasi tertinggi yang

dihasilkan sebesar 80 %. Berdasarkan penelitian

yang terkait, metode MFCC dan LVQ dapat

digunakan untuk klasifikasi genre musik.

Rumusan Masalah

Rumusan masalah dalam penelitian ini

adalah bagaimana membuat model klasifikasi

data audio menggunakan jaringan syaraf tiruan

LVQ.

Ruang Lingkup

Ruang lingkup pada penelitian ini antara

lain:

1. Dalam penelitian ini, genre musik yang

diklasifikasikan dibatasi hanya genre rock,

klasik, jazz dan keroncong.

2. Musik yang diolah mempunyai durasi 5, 10,

20, dan 25 detik dengan format wav.

3. Data musik menggunakan chanel mono.

Tujuan

Tujuan dari penelitian ini adalah

mengembangkan model Learning Vector

Quantization untuk klasifikasi genre musik.

Manfaat

Penelitian ini diharapkan dapat melakukan

klasifikasi pada data musik menggunakan

Learning Vector Quantization agar dapat

membantu peran manusia dalam hal

menentukan genre musik, sehingga genre musik

tidak lagi bersifat relatif, tetapi dapat

dikelompokkan dengan standardisasi yang telah

ditentukan.

TINJAUAN PUSTAKA

Genre Musik

Genre musik adalah label yang dibuat dan

digunakan manusia untuk mengkategorikan dan

menggambarkan musik di dunia (Tzanekatis

2002). http://allmusic.com mengelompokan

genre musik ke dalam 11 genre utama, yaitu

pop/rock, jazz, r&b, rap, country, blues,

elektronik, latin, reggae, internasional, dan

klasik.

Digitalisasi Gelombang Audio

Gelombang audio merupakan gelombang

longitudinal yang merambat melalui medium

seperti medium padat, cair, atau gas.

Gelombang suara merupakan gelombang analog

yang apabila diolah menggunakan peralatan

elektronik, gelombang tersebut harus melalui

tahap digitalisasi sehingga gelombang tersebut

berupa data digital.

Page 2: BAB II Tinjauan Pustaka_ G11mrf

2

Dalam proses digitalisasi audio, gelombang

audio melalui dua tahap proses yaitu sampling

dan kuantisasi (Jurafsky & Martin 2000).

Sampling merupakan proses pengambilan nilai

dalam jangka waktu tertentu. Nilai yang

dimaksud adalah amplitudo, yaitu besarnya

volume suara pada suatu waktu. Proses

sampling menghasilkan sebuah vektor yang

menyatakan nilai – nilai hasil sampling. Vektor

tersebut mempunyai panjang yang bergantung

pada lamanya sinyal dan sampling rate yang

digunakan. Sampling rate sendiri adalah

banyaknya nilai yang diambil setiap detiknya.

Untuk mengukur panjang vektor sinyal,

digunakan rumus beikut:

𝑆 = 𝐹𝑠 × 𝑇

dengan

S = panjang vektor

𝐹𝑠= sampling rate (Hertz)

T = panjang sinyal (detik)

Tahap selanjutnya adalah proses kuantisasi.

Kuantisasi bertujuan menyimpan nilai

amplitudo ke dalam representasi nilai 8 bit atau

16 bit (Jurafsky & Martin 2000).

Ekstraksi Ciri Sinyal Audio

Ekstraksi ciri berfungsi mengkarakterisasi

sinyal audio. Beberapa fitur sinyal audio yang

biasa digunakan antara lain Linear Predictive

Coding, Perceptual Linear Prediction, dan Mel-

Frequency. Proses ini dilakukan karena sinyal

audio merupakan sinyal yang bervariasi yang

diwaktukan dengan lambat. Jadi pada jangka

waktu yang sangat pendek (5–100 ms),

karakteristik sinyal tersebut hampir sama, tetapi

dalam jangka waktu yang lebih panjang (0,2

detik atau lebih), karakteristik sinyal audio

tersebut berubah dan memperlihatkan

perbedaan sinyal audio yang diolah (Do 1994).

Mel-Frequency Cepstrum Coefficient (MFCC)

Tujuan dari MFCC adalah mengadapatasi

kemampuan telinga manusia dalam mendengar

dan mengolah suara. Proses MFCC dapat dilihat

pada Gambar 1.

Sinyal Kontinu

Frame Blocking

Windowing

frame

Fast Fourier

Transform

Mel Frequency

Wrapping

spectrum

Cepstrum

mel spctrum

mel spectrum

Windowing

Gambar 1 Diagram blok proses MFCC (Do

1994)

Tahap-tahap dari proses MFCC dapat

dijelaskan sebagai berikut (Do 1994):

1. Frame Blocking, proses ini membagi sinyal

audio ke dalam frame. Tiap frame terdiri

atas N sample. Gambar 2 menggambarkan

ilustrasi dari proses frame blocking.

Gambar 2 Proses Frame Blocking

Page 3: BAB II Tinjauan Pustaka_ G11mrf

3

2. Windowing, pada tahap ini sinyal yang telah

dibagi ke dalam frame dilakukan proses

windowing untuk meminimalkan

diskontinuitas sinyal, dengan cara

meminimalkan distorsi spectral dengan

menggunakan window untuk memperkecil

sinyal hingga mendekati nol pada awal dan

akhir tiap frame. Window yang dipakai pada

proses ini adalah Hamming window dengan

persamaan :

𝑤 𝑛 = 0,54 − 0,46 𝑐𝑜𝑠 (2𝜋𝑛/(𝑁 − 1))

(1)

Dengan n = 1, 2, 3... N-1 (N adalah jumlah

frame yang digunakan)

Ilustrasi dari Hamming window dapat dilihat

pada Gambar 3.

Gambar 3 Hamming window

3. Fast Fourier Transform (FFT), merupakan

fast algorithm dari Discrete Fourier

Transform (DFT) yang berguna untuk

konversi setiap frame dari domain waktu

menjadi domain frekuensi. Berikut

persamaan yang digunakan :

𝑋𝑛 = 𝑥𝑘𝑒−2𝜋𝑗𝑘𝑛 /𝑁

𝑁−1

𝑘=0

(2)

dengan n=0, 1, 2 ... N-1, j adalah bilangan

imajiner, yaitu j = − 1.

Gambar 4 memperlihatkan sinyal yang

sudah berubah ke dalam domain frekuensi.

Gambar 4 Sinyal audio dalam domain

frekuensi

4. Mel-Frequency Wrapping. Berdasarkan

studi psikofisik, persepsi manusia terhadap

frekuensi sinyal audio tidak berupa skala

linier. Jadi untuk setiap nada dengan

frekuensi aktual f (dalam Hertz) dapat

diukur tinggi subjektifnya menggunakan

skala ‘mel’. Skala mel-frequency adalah

selang frekuensi di bawah 1000 Hz, dan

selang logaritmik untuk frekuensi di atas

1000 Hz. Gambar 5 mengilustrasikan filter

pada proses mel- frequency wrapping.

Gambar 5 Mel - frequency filter

Proses wrapping terhadap sinyal dalam

domain frekuensi menggunakan persamaan

berikut :

𝑋𝑖 = 𝑙𝑜𝑔10 𝑥 𝑘 𝐻𝑖(𝑘)

𝑁−1

𝑘=0

(3)

dengan i= 1,2,3...,M (M adalah jumlah filter

segitiga) dan Hi(k) adalah nilai filter segitiga

untuk frekuensi akustik sebesar k.

5. Cepstrum, tahap ini menkonversikan log

mel spectrum ke dalam domain waktu Hasil

proses ini disebut mel frequency cepstrum

coefficients. Berikut ini adalah persamaan

yang digunakan dalam DCT :

𝐶𝑗 = 𝑋𝑖𝑐𝑜𝑠(𝑗(𝑖 − 1)/2 𝜋

𝑀)

𝑀

𝑗 =1

(4)

dengan j= 1,2,3, . . . K (K adalah jumlah

koefisien yang diingankan) dan M adalah

jumlah filter.

Page 4: BAB II Tinjauan Pustaka_ G11mrf

4

Klasifikasi

Klasifikasi merupakan proses menemukan

sekumpulan model (atau fungsi) yang

menggambarkan dan membedakan konsep atau

kelas-kelas data, dengan tujuan agar model

tersebut dapat digunakan untuk memprediksi

kelas dari suatu objek atau data yang label

kelasnya tidak diketahui (Han & Kamber 2001).

Klasifikasi terdiri atas dua tahap, yaitu

pelatihan dan prediksi (klasifikasi). Pada tahap

pelatihan dibentuk sebuah model domain

permasalahan dari setiap instance yang ada.

Penentuan model tersebut berdasarkan analisis

pada sekumpulan data pelatihan, yaitu data yang

label kelasnya telah diketahui. Pada tahap

klasifikasi, dilakukan prediksi kelas dari

instance (kasus) baru yang telah dibuat pada

tahap pelatihan (Güvnir et al 1998).

Jaringan Syaraf Tiruan

Jaringan syaraf tiruan (JST) adalah sistem

pemroses informasi yang memiliki karakteristik

mirip dengan jaringan syaraf biologi. JST

dibentuk sebagai generalisasi model matematika

dari jaringan syaraf biologi, dengan asumsi

bahwa:

Pemrosesan informasi terjadi pada banyak

elemen sederhana (neuron).

Sinyal dikirimkan di antara neuron-neuron

melalui penghubung-penghubung (sinapsis).

Untuk menentukan output, setiap neuron

menggunakan fungsi aktivasi (Jong 1992).

Arsitektur jaringan syaraf tiruan disajikan

pada Gambar 6.

Gambar 6 Arsitektur JST sederhana (Jong

1992)

Learning Vector Quantization (LVQ)

Learning Vector Quantization (LVQ)

merupakan suatu metode klasifikasi pola yang

masing-masing unit output mewakili kategori

atau kelas tertentu. Vektor bobot untuk unit

output sering disebut vektor referensi untuk

kelas yang dinyatakan oleh unit tersebut. LVQ

mengklasifikasikan vektor input dalam kelas

yang sama dengan unit output yang memiliki

vektor bobot yang paling dekat dengan vektor

input (Widodo 2005). Ilustrasi dari jaringan

LVQ dapat dilihat pada Gambar 7.

Gambar 7 Arsitektur jaringan LVQ (Widodo

2005)

Algoritme pelatihan LVQ bertujuan

memperoleh unit output yang paling dekat

dengan vektor input. Bila x dan wc berasal dari

kelas yang sama, maka vektor bobot didekatkan

ke vektor input, tetapi apabila berasal dari kelas

yang berbeda, maka vektor bobot akan

dijauhkan dengan vektor input.

Kelebihan dari LVQ adalah:

1. nilai error yang lebih kecil dibandingkan

dengan jaringan syaraf tiruan seperti

backpropagation.

2. Dapat meringkas data set yang besar

menjadi vektor codebook berukuran kecil

untuk klasifikasi.

3. Dimensi dalam codebook tidak dibatasi

seperti dalam teknik nearest neighbour.

4. Model yang dihasilkan dapat diperbaharui

secara bertahap.

Kekurangan dari LVQ adalah:

1. Dibutuhkan perhitungan jarak untuk seluruh

atribut.

2. Akurasi model dangan bergantung pada

inisialisasi model serta parameter yang

digunakan (learning rate, iterasi, dan

sebagainya).

3. Akurasi juga dipengaruhi distribusi kelas

pada data training.

4. Sulit untuk menentukan jumlah codebook

vektor untuk masalah yang diberikan.

Algoritme LVQ

Berikut ini adalah algoritme dari LVQ :

Diinisialisasikan nilai bobot, maksimum

epoch, dan learning rate,

Nilai input (m,n), dan kelas target

dimasukkan ke dalam vector (1,n)

Selama kondisi berhenti bernilai salah,

dilakukan :

Page 5: BAB II Tinjauan Pustaka_ G11mrf

5

a. Untuk masing-masing pelatihan

vektor input x

b. Dicari j sehingga ||x-wj|| bernilai

minimum

c. Perbaiki wj dengan :

1. Jika T = cj maka

wj baru =wj lama +

α x-wj lama

2. Jika T ≠ cj

wj baru =wj lama -

α x-wj lama

d. Learning rate dikurangi

e. Kondisi berhenti dilihat

K-fold Cross Validation

Metode k-fold cross validation membagi

data menjadi k-buah subset, sebanyak k-1 buah

subset digunakan sebagai training set dan 1

buah set sebagai testing set (Guiterez 2000).

Sebagai gambaran, pada Gambar 8 terdapat

ilustrasi k-fold cross validation menggunakan 4

buah fold.

Gambar 8 Contoh cross validation dengan 4

fold

Confusion Matrix

Confusion matrix mengandung informasi

tentang aktual dan prediksi klasifikasi yang

dilakukan oleh sistem. Hasil dari sebuah sistem

sering dievaluasi menggunakan confusion

matrix (Kohavi and Provost 1998).

METODE PENELITIAN

Penelitian ini melalui beberapa tahapan

proses. Tahapan proses yang dilakukan dalam

penelitian ini disajikan pada Gambar 9.

Studi Pustaka

Pada tahap ini, kegiatan yang dilakukan

adalah mengumpulkan semua informasi atau

literatur yang terkait dalam penelitian.

Informasi tersebut didapatkan dari buku, jurnal,

internet dan artikel-artikel yang membahas

klasifikasi genre musik.

Mulai

Studi Pustaka

Perumusan Masalah

Data Musik

Pelatihan Klasifikasi

Evaluasi

Selesai

Praproses

LVQ

Data Latih Data Uji

Pembagian data

(K-fold cross validation)

Gambar 9 Metodologi penelitian

Perumusan Masalah

Pada tahap ini dilakukan analisis terhadap

permasalahan seperti pemilihan data musik,

pemilihan bagian yang akan dijadikan data latih

dan data uji.

Data Musik

Data yang digunakan pada penelitian ini

berjumlah 80 buah data yang dibagi ke dalam 4

buah genre yaitu, keroncong, jazz, klasik, dan

rock, (masing–masing genre terdiri atas 20 buah

lagu). Penulis menggunakan 4 buah genre

dikarenakan penelitian ini dimaksudkan sebagai

model awal penelitian klasifikasi genre musik.

Setelah data dikumpulkan proses selanjutnya

adalah memotong durasi dari tiap lagu secara

random, menjadi 5, 10, 20 dan 25 detik dengan

menggunakan software Audacity.