198-612-1-pb
DESCRIPTION
kTRANSCRIPT
445
KAJIAN METODE ANALISIS DISKRIMINAN DAN METODE
LEARNING VECTOR QUANTIZATION UNTUK KLASIFIKASI
Dian Norras Septiana
Jurusan Matematika, FMIPA, Universitas Brawijaya
Email : [email protected]
Abstrak. Analisis diskriminan adalah metode analisis multivariat yang bertujuan untuk memisahkan dan mengalokasikan
objek pengamatan ke dalam kelompok sehingga setiap objek menjadi anggota dari salah satu kelompok dan tidak ada objek
yang menjadi anggota lebih dari satu kelompok. Metode klasifikasi Learning Vektor Quatization (LVQ) merupakan salah
satu algoritma Jaringan Syaraf Tiruan (JST) dengan metode pelatihan pada lapisan kompetitif yang terawasi yang bisa
digunakan untuk klasifikasi. Permasalahan utama dilakukan penelitian ini adalah adanya metode klasifikasi selain metode
analisis diskriminan. Penelitian ini bertujuan untuk membandingkan hasil klasifikasi antara analisis diskriminan yang
merupakan metode statistika dan metode Jaringan Syaraf Tiruan menggunakan metode Learning Vektor Quatization.
Klasifikasi dengan metode analisis diskriminan menggunakan fungsi diskriminan dan skor diskriminan. Klasifikasi dengan
metode analisis diskriminan harus memenuhi asumsi dan syarat agar bisa dilakukan analisis. Sedangkan klasifikasi dengan
metode Learning Vector Quantization menggunakan arsitektur jaringan optimal dangan menentukan MSE terkecil dari
arsitektur jaringan yang dibentuk tanpa ada asumsi yang harus dipenuhi. Secara keseluruhan dapat disimpulkan bahwa kedua
metode sama baiknya untuk klasifikasi sesuai hasil uji t. Metode Learning Vector Quantization bisa digunakan sebagai
alternatif untuk klasifikasi apabila syarat kesamaan vektor rata-rata pada analisis diskriminan tidak terpenuhi.
Kata Kunci: Klasifikasi, Analisis Diskriminan, Learning Vector Quantization
1. PENDAHULUAN
Analisis statistika memiliki banyak metode yang dapat digunakan untuk klasifikasi, antara lain
metode parametrik. Metode parametrik membutuhkan asumsi-asumsi yang harus terpenuhi sebelum
data dapat dianalisis seperti pada metode diskriminan. Selain menggunakan analisis diskriminan
metode jaringan syaraf tiruan juga bisa diterapkan dalam klasifikasi. Perkembangan ilmu pengetahuan
dan teknologi membuat JST semakin berkembang dengan penemuan metode-metode baru dalam
analisis. Pada penelitian ini akan membahas tentang perbandingan hasil klasifikasi antara analisis
diskriminan yang merupakan metode statistika dan metode jaringan syaraf tiruan menggunakan
metode Learning Vektor Quatization.
2. TINJAUAN TEORI
Analisis diskriminan adalah metode analisis multivariat yang bertujuan untuk memisahkan dan
mengalokasikan objek pengamatan ke dalam kelompok sehingga setiap objek menjadi anggota dari
salah satu kelompok dan tidak ada objek yang menjadi anggota lebih dari satu kelompok. Prosedur
analisis diskriminan dilakukan dengan membentuk fungsi diskriminan berdasarkan kombinasi linear
dari variabel bebas yang diteliti. Fungsi diskriminan yang terbentuk digunakan untuk pengelompokan
pada kasus baru yang belum diketahui keanggotaan kelompoknya. Nilai diskriminan dari setiap objek
yang terlibat merupakan petunjuk termasuk dalam kelompok mana objek tersebut berasal (Johnson
dan Wichern, 2007). Ada beberapa fungsi diskriminan yang dapat digunakan untuk klasifikasi dalam
analisis diskriminan, yaitu linier dan kuadratik. Fungsi diskriminan linier ditunjukkan dengan
persamaan berikut:
1 1 p pw x ... x ' β x
Fungsi diskriminan kuadratik digunakan apabila asumsi kehomogenan matriks varian kovarian
tidak terpenuhi tetapi asumsi kenormalan peubah ganda terpenuhi. Fungsi diskriminan kuadratik
ditunjukkan dengan persamaan berikut:
1Q 1 1 1 1 1 1j 1 2 1 1 2 2 1 1 1 2 2 2
2
di mana1 1 1' ' ' ' 'D q q ln2 2 2
x x x x
Metode pengklasifikasian dalam analisis diskriminan ada beberapa macam. Metode klasifikasi
yang dapat digunakan dalam analisis diskriminan antara lain, metode cutoff-value, metode keputusan
statistik, metode fungsi klasifikasi dan metode jarak mahalanobis. Sedangkan dalam penelitian ini
metode klasifikasi yang digunakan adalah metode fungsi klasifikasi.
446
Analisis diskriminan memberikan hasil terbaik apabila variabel dalam setiap kelompok
mengikuti distribusi normal multivariat dan matriks varian kovarian untuk setiap kelompok adalah
homogen. Sehingga ada pengujian asumsi sebelum dilakukan analisis diskriminan dan akan
memberikan ketepatan klasifikasi yang rendah apabila asumsi tersebut tidak dipenuhi.
Metode klasifikasi Learning Vektor Quatization merupakan pelatihan pada lapisan kompetitif
yang terawasi. Suatu lapisan kompetitif akan secara otomatis belajar untuk mengklasifikasikan vektor-
vektor input. Lapisan input dihubungkan dengan lapisan kompetitif oleh bobot. Input akan bersaing
masuk ke dalam suatu kelas. Arsitektur jaringan menurut Learning Vektor Quatization Kusumadewi
(2004), dapat dilihat pada Gambar 1.
Gambar 1. Arsitektur Jaringan Learning Vector Quantization
Kelas yang didapatkan pada metode Learning Vector Quantization hanya bergantung pada
jarak antar vektor input. Jika dua vektor input memiliki nilai yang hampir sama, maka lapisan
kompetitif akan memasukkan kedua vektor input dalam kelas yang sama dengan cara mencari jarak
terdekat menggunakan pendekatan jarak Euclid. Persamaan untuk menghitung jarak Euclid adalah
sebagai berikut:
22 2
1 1 2 2 p pd x,y x y x y ... x y
Tujuan algoritma yang diterapkan pada jaringan syaraf Learning Vektor Quatization adalah
untuk menemukan unit output yang terdekat dengan vektor input (Fauset, 1994).
Ketepatan dalam pengklasifikasian dapat diketahui dengan menghitung nilai Hit Ratio, yaitu
proporsi sampel pengamatan yang tepat diklasifikasikan oleh fungsi klasifikasi (Johnson dan Wichern,
2007). Nilai Hit Ratio dapat dihitung menggunakan rumus berikut:
total objek yang tepat diklasifikasikan
total sa10
mp l0%
eHit Ratio=
3. METODE PENELITIAN
Data yang digunakan dalam penelitian ini berupa 10 set data dalam beberapa bidang ilmu yang
diambil dari Skripsi dan thesis mahasiswa di Universitas Brawijaya maupun dan di perguruan tinggi di
Indonesia yang dipublikasikan pada digital library.
Langkah-langkah analisis yang dilakukan adalah mengklasifikasi data menggunakan metode
analisis diskriminan dan metode Learning Vector Quantization. Kemudian ketepatan klasifikasi hasil
analisis kedua metode dibandingkan untuk mengetahui metode yang terbaik.
X1
X2
X3
X6
X4
X5
1x w-
2x w-
11w
21w
12w
22w
13w
23w
14w
24w
15w
25w
16w
26w
1F
2F
1Y _in
2Y _in
1Y
2Y
447
4. HASIL DAN PEMBAHASAN
Langkah pertama yang harus dilakukan untuk melakukan analisis adalah membagi data menjadi
dua bagian. Bagian pertama sebesar 60% untuk data training, sedangkan sisanya sebesar 40%
digunakan untuk data testing. Selanjutnya dilakukan uji asumsi pada data untuk analisis diskriminan.
Berdasarkan plot normal multivariat koefisien korelasi dapat disimpulkan bahwa seluruh data
training memenuhi asumsi kenormalan multivariat karena seluruh data memiliki plot normal
multivariat yang berbentuk linier dan nilai koefisien korelasinya signifikan.
Tabel 1. Hasil uji box’s M
Data Box's M P-Value
1 23.704 0.001
2 10.816* 0.784
3 7.465* 0.352
4 137.141 0.000
5 75.132* 0.146
6 101.189 0.001
7 24.173 0.002
8 57.559 0.008
9 193.275 0.000
10 142.007 0.000
Keterangan: * = p-value > 0.05
Sesuai hasil uji box’s M pada Tabel 1, data yang memenuhi uji asumsi kehomogenan matriks
varian kovarian dapat dilakukan analisis diskriminan linier. Sedangkan yang tidak memenuhi asumsi,
analisis data menggunakan analisis diskriminan kuadratik.
Tabel 2. Hasil statistik uji wilks’ lambda
Data Wilk's Lambda P-Value
1 0.697* 0.003
2 0.190* 0.000
3 0.986 0.848
4 0.032* 0.000
5 0.567* 0.009
6 0.547* 0.000
7 0.479* 0.000
8 0.165* 0.000
9 0.134* 0.000
10 0.136* 0.000
Keterangan: * = p-value < 0.05
Sesuai dengan kaidah pengambilan keputusan menolak H0 jika p-value < 0.05, maka dapat
dilihat pada Tabel 2 bahwa hampir semua data memenuhi pengujian kesamaan vektor rata-rata kecuali
data 3. Pada data 3, p-value yang diperoleh lebih besar dari 0.05, yaitu sebesar 0.848, sehingga data 3
tidak bisa dilakukan analisis diskriminan karena fungsi diskriminan hanya bisa dibentuk apabila nilai
rata-rata populasi berbeda. Setelah dilakukan uji asumsi selanjutnya dapat dilakukan analisis
diskriminan.
Menentukan arsitektur jaringan terbaik untuk Learning Vector Quantization adalah menentukan
banyaknya neuron pada lapisan kompetitif. Penentuan arsitektur jaringan terbaik pada Learning
Vector Quantization dilakukan dengan cara trial and error yaitu dengan mengubah-ubah jumlah
neuron pada lapisan kompetitif dan memperhatikan nilai MSE yang dihasilkan. Arsitektur jaringan
yang dipakai adalah arsitektur jaringan dengan neuron yang memiliki nilai MSE terkecil. Contoh
arsitektur jaringan yang terbentuk terdapat pada Gambar 2.
448
Gambar 2. Arsitektur Jaringan Learning Vector Quantization untuk Data 1
Setelah melakukan pengujian dengan kedua metode, akan diperoleh hasil klasifikasi data training dan
data testing untuk masing-masing metode. Selanjutnya langkah terakhir untuk mengetahui metode
yang terbaik adalah dengan membandingkan keakuratan hasil klasifikasi kedua metode. Hasil
klasifikasi yang dibandingkan meliputi hasil klasifikasi pada data training dan data testing dapat
dilihat pada Tabel 3.
Tabel 3. Persentase keakuratan klasifikasi metode analisis diskriminan dan metode Learning Vector
Quantization
Data Training Testing
Diskriminan LVQ Diskriminan LVQ
1 67.44% 69.77% 67.86% 67.86%
2 69.20% 73.08% 55.56% 66.67%
3 tidak bisa 80.65% tidak bisa 78.57%
4 82.05% 84.62% 76.92% 84.62%
5 61.70% 71.67% 52.50% 65.00%
6 87.65% 62.96% 72.22% 73.15%
7 86.21% 82.76% 71.43% 71.43%
8 100.00% 100.00% 100.00% 100.00%
9 98.61% 87.50% 77.08% 79.17%
10 100.00% 100.00% 91.67% 100.00%
Rata-rata persentase keakuratan klasifikasi menggunakan metode analisis diskriminan pada data
training sebesar 83.65% dan pada data testing sebesar 73.92%. Sedangkan rata-rata persentase
keakuratan klasifikasi menggunakan metode Learning Vector Quantization pada data training sebesar
81.3% dan pada data testing sebesar 78.65%.
5. KESIMPULAN
Berdasarkan hasil penelitian dapat diambil kesimpulan bahwa secara keseluruhan metode
Learning Vector Quantization lebih baik dibandingkan metode analisis diskriminan jika digunakan
untuk klasifikasi mengacu pada persentase hasil klasifikasi data testing. Selain itu metode Learning
Vector Quantization lebih baik karena semua data bisa dianalisis tanpa harus memenuhi asumsi dan
syarat tertentu.
DAFTAR PUSTAKA
Fausett, L., (1994), Fundamentals of Neural Network: Architectures, Algorithms, and Applications,
Prentice-Hall, Inc., New Jersey.
Johnson, R. A. dan Whichern, D. W., (2007), Applied Multivariate Statistical Analisys, Sixth Edition,
Prentice-Hall, Inc., United States of America.
Kusumadewi, S., (2004), Membangun Jaringan Syaraf Tiruan Menggunakan Matlab dan Excel Link,
Penerbit Graha Ilmu, Yogyakarta.
33w
x1
x2
x3
1x w
2x w
11w
21w
12w
22w
31w 32w
v1
1
3x w
v3
2
13w
23w
v1
2
v2
1 v2
2
v3
1
y_in1
y_in2
y F