198-612-1-pb

445

KAJIAN METODE ANALISIS DISKRIMINAN DAN METODE

LEARNING VECTOR QUANTIZATION UNTUK KLASIFIKASI

Dian Norras Septiana

Jurusan Matematika, FMIPA, Universitas Brawijaya

Email : [email protected]

Abstrak. Analisis diskriminan adalah metode analisis multivariat yang bertujuan untuk memisahkan dan mengalokasikan

objek pengamatan ke dalam kelompok sehingga setiap objek menjadi anggota dari salah satu kelompok dan tidak ada objek

yang menjadi anggota lebih dari satu kelompok. Metode klasifikasi Learning Vektor Quatization (LVQ) merupakan salah

satu algoritma Jaringan Syaraf Tiruan (JST) dengan metode pelatihan pada lapisan kompetitif yang terawasi yang bisa

digunakan untuk klasifikasi. Permasalahan utama dilakukan penelitian ini adalah adanya metode klasifikasi selain metode

analisis diskriminan. Penelitian ini bertujuan untuk membandingkan hasil klasifikasi antara analisis diskriminan yang

merupakan metode statistika dan metode Jaringan Syaraf Tiruan menggunakan metode Learning Vektor Quatization.

Klasifikasi dengan metode analisis diskriminan menggunakan fungsi diskriminan dan skor diskriminan. Klasifikasi dengan

metode analisis diskriminan harus memenuhi asumsi dan syarat agar bisa dilakukan analisis. Sedangkan klasifikasi dengan

metode Learning Vector Quantization menggunakan arsitektur jaringan optimal dangan menentukan MSE terkecil dari

arsitektur jaringan yang dibentuk tanpa ada asumsi yang harus dipenuhi. Secara keseluruhan dapat disimpulkan bahwa kedua

metode sama baiknya untuk klasifikasi sesuai hasil uji t. Metode Learning Vector Quantization bisa digunakan sebagai

alternatif untuk klasifikasi apabila syarat kesamaan vektor rata-rata pada analisis diskriminan tidak terpenuhi.

Kata Kunci: Klasifikasi, Analisis Diskriminan, Learning Vector Quantization

1. PENDAHULUAN

Analisis statistika memiliki banyak metode yang dapat digunakan untuk klasifikasi, antara lain

metode parametrik. Metode parametrik membutuhkan asumsi-asumsi yang harus terpenuhi sebelum

data dapat dianalisis seperti pada metode diskriminan. Selain menggunakan analisis diskriminan

metode jaringan syaraf tiruan juga bisa diterapkan dalam klasifikasi. Perkembangan ilmu pengetahuan

dan teknologi membuat JST semakin berkembang dengan penemuan metode-metode baru dalam

analisis. Pada penelitian ini akan membahas tentang perbandingan hasil klasifikasi antara analisis

diskriminan yang merupakan metode statistika dan metode jaringan syaraf tiruan menggunakan

metode Learning Vektor Quatization.

2. TINJAUAN TEORI

Analisis diskriminan adalah metode analisis multivariat yang bertujuan untuk memisahkan dan

mengalokasikan objek pengamatan ke dalam kelompok sehingga setiap objek menjadi anggota dari

salah satu kelompok dan tidak ada objek yang menjadi anggota lebih dari satu kelompok. Prosedur

analisis diskriminan dilakukan dengan membentuk fungsi diskriminan berdasarkan kombinasi linear

dari variabel bebas yang diteliti. Fungsi diskriminan yang terbentuk digunakan untuk pengelompokan

pada kasus baru yang belum diketahui keanggotaan kelompoknya. Nilai diskriminan dari setiap objek

yang terlibat merupakan petunjuk termasuk dalam kelompok mana objek tersebut berasal (Johnson

dan Wichern, 2007). Ada beberapa fungsi diskriminan yang dapat digunakan untuk klasifikasi dalam

analisis diskriminan, yaitu linier dan kuadratik. Fungsi diskriminan linier ditunjukkan dengan

persamaan berikut:

1 1 p pw x ... x ' β x

Fungsi diskriminan kuadratik digunakan apabila asumsi kehomogenan matriks varian kovarian

tidak terpenuhi tetapi asumsi kenormalan peubah ganda terpenuhi. Fungsi diskriminan kuadratik

ditunjukkan dengan persamaan berikut:

1Q 1 1 1 1 1 1j 1 2 1 1 2 2 1 1 1 2 2 2

2

di mana1 1 1' ' ' ' 'D q q ln2 2 2

x x x x

Metode pengklasifikasian dalam analisis diskriminan ada beberapa macam. Metode klasifikasi

yang dapat digunakan dalam analisis diskriminan antara lain, metode cutoff-value, metode keputusan

statistik, metode fungsi klasifikasi dan metode jarak mahalanobis. Sedangkan dalam penelitian ini

metode klasifikasi yang digunakan adalah metode fungsi klasifikasi.

mailto:[email protected]

446

Analisis diskriminan memberikan hasil terbaik apabila variabel dalam setiap kelompok

mengikuti distribusi normal multivariat dan matriks varian kovarian untuk setiap kelompok adalah

homogen. Sehingga ada pengujian asumsi sebelum dilakukan analisis diskriminan dan akan

memberikan ketepatan klasifikasi yang rendah apabila asumsi tersebut tidak dipenuhi.

Metode klasifikasi Learning Vektor Quatization merupakan pelatihan pada lapisan kompetitif

yang terawasi. Suatu lapisan kompetitif akan secara otomatis belajar untuk mengklasifikasikan vektor-

vektor input. Lapisan input dihubungkan dengan lapisan kompetitif oleh bobot. Input akan bersaing

masuk ke dalam suatu kelas. Arsitektur jaringan menurut Learning Vektor Quatization Kusumadewi

(2004), dapat dilihat pada Gambar 1.

Gambar 1. Arsitektur Jaringan Learning Vector Quantization

Kelas yang didapatkan pada metode Learning Vector Quantization hanya bergantung pada

jarak antar vektor input. Jika dua vektor input memiliki nilai yang hampir sama, maka lapisan

kompetitif akan memasukkan kedua vektor input dalam kelas yang sama dengan cara mencari jarak

terdekat menggunakan pendekatan jarak Euclid. Persamaan untuk menghitung jarak Euclid adalah

sebagai berikut:

22 2

1 1 2 2 p pd x,y x y x y ... x y

Tujuan algoritma yang diterapkan pada jaringan syaraf Learning Vektor Quatization adalah

untuk menemukan unit output yang terdekat dengan vektor input (Fauset, 1994).

Ketepatan dalam pengklasifikasian dapat diketahui dengan menghitung nilai Hit Ratio, yaitu

proporsi sampel pengamatan yang tepat diklasifikasikan oleh fungsi klasifikasi (Johnson dan Wichern,

2007). Nilai Hit Ratio dapat dihitung menggunakan rumus berikut:

total objek yang tepat diklasifikasikan

total sa10

mp l0%

eHit Ratio=

3. METODE PENELITIAN

Data yang digunakan dalam penelitian ini berupa 10 set data dalam beberapa bidang ilmu yang

diambil dari Skripsi dan thesis mahasiswa di Universitas Brawijaya maupun dan di perguruan tinggi di

Indonesia yang dipublikasikan pada digital library.

Langkah-langkah analisis yang dilakukan adalah mengklasifikasi data menggunakan metode

analisis diskriminan dan metode Learning Vector Quantization. Kemudian ketepatan klasifikasi hasil

analisis kedua metode dibandingkan untuk mengetahui metode yang terbaik.

X1

X2

X3

X6

X4

X5

1x w-

2x w-

11w

21w

12w

22w

13w

23w

14w

24w

15w

25w

16w

26w

1F

2F

1Y _in

2Y _in

1Y

2Y

447

4. HASIL DAN PEMBAHASAN

Langkah pertama yang harus dilakukan untuk melakukan analisis adalah membagi data menjadi

dua bagian. Bagian pertama sebesar 60% untuk data training, sedangkan sisanya sebesar 40%

digunakan untuk data testing. Selanjutnya dilakukan uji asumsi pada data untuk analisis diskriminan.

Berdasarkan plot normal multivariat koefisien korelasi dapat disimpulkan bahwa seluruh data

training memenuhi asumsi kenormalan multivariat karena seluruh data memiliki plot normal

multivariat yang berbentuk linier dan nilai koefisien korelasinya signifikan.

Tabel 1. Hasil uji box’s M

Data Box's M P-Value

1 23.704 0.001

2 10.816* 0.784

3 7.465* 0.352

4 137.141 0.000

5 75.132* 0.146

6 101.189 0.001

7 24.173 0.002

8 57.559 0.008

9 193.275 0.000

10 142.007 0.000

Keterangan: * = p-value > 0.05

Sesuai hasil uji box’s M pada Tabel 1, data yang memenuhi uji asumsi kehomogenan matriks

varian kovarian dapat dilakukan analisis diskriminan linier. Sedangkan yang tidak memenuhi asumsi,

analisis data menggunakan analisis diskriminan kuadratik.

Tabel 2. Hasil statistik uji wilks’ lambda

Data Wilk's Lambda P-Value

1 0.697* 0.003

2 0.190* 0.000

3 0.986 0.848

4 0.032* 0.000

5 0.567* 0.009

6 0.547* 0.000

7 0.479* 0.000

8 0.165* 0.000

9 0.134* 0.000

10 0.136* 0.000

Keterangan: * = p-value < 0.05

Sesuai dengan kaidah pengambilan keputusan menolak H0 jika p-value < 0.05, maka dapat

dilihat pada Tabel 2 bahwa hampir semua data memenuhi pengujian kesamaan vektor rata-rata kecuali

data 3. Pada data 3, p-value yang diperoleh lebih besar dari 0.05, yaitu sebesar 0.848, sehingga data 3

tidak bisa dilakukan analisis diskriminan karena fungsi diskriminan hanya bisa dibentuk apabila nilai

rata-rata populasi berbeda. Setelah dilakukan uji asumsi selanjutnya dapat dilakukan analisis

diskriminan.

Menentukan arsitektur jaringan terbaik untuk Learning Vector Quantization adalah menentukan

banyaknya neuron pada lapisan kompetitif. Penentuan arsitektur jaringan terbaik pada Learning

Vector Quantization dilakukan dengan cara trial and error yaitu dengan mengubah-ubah jumlah

neuron pada lapisan kompetitif dan memperhatikan nilai MSE yang dihasilkan. Arsitektur jaringan

yang dipakai adalah arsitektur jaringan dengan neuron yang memiliki nilai MSE terkecil. Contoh

arsitektur jaringan yang terbentuk terdapat pada Gambar 2.

448

Gambar 2. Arsitektur Jaringan Learning Vector Quantization untuk Data 1

Setelah melakukan pengujian dengan kedua metode, akan diperoleh hasil klasifikasi data training dan

data testing untuk masing-masing metode. Selanjutnya langkah terakhir untuk mengetahui metode

yang terbaik adalah dengan membandingkan keakuratan hasil klasifikasi kedua metode. Hasil

klasifikasi yang dibandingkan meliputi hasil klasifikasi pada data training dan data testing dapat

dilihat pada Tabel 3.

Tabel 3. Persentase keakuratan klasifikasi metode analisis diskriminan dan metode Learning Vector

Quantization

Data Training Testing

Diskriminan LVQ Diskriminan LVQ

1 67.44% 69.77% 67.86% 67.86%

2 69.20% 73.08% 55.56% 66.67%

3 tidak bisa 80.65% tidak bisa 78.57%

4 82.05% 84.62% 76.92% 84.62%

5 61.70% 71.67% 52.50% 65.00%

6 87.65% 62.96% 72.22% 73.15%

7 86.21% 82.76% 71.43% 71.43%

8 100.00% 100.00% 100.00% 100.00%

9 98.61% 87.50% 77.08% 79.17%

10 100.00% 100.00% 91.67% 100.00%

Rata-rata persentase keakuratan klasifikasi menggunakan metode analisis diskriminan pada data

training sebesar 83.65% dan pada data testing sebesar 73.92%. Sedangkan rata-rata persentase

keakuratan klasifikasi menggunakan metode Learning Vector Quantization pada data training sebesar

81.3% dan pada data testing sebesar 78.65%.

5. KESIMPULAN

Berdasarkan hasil penelitian dapat diambil kesimpulan bahwa secara keseluruhan metode

Learning Vector Quantization lebih baik dibandingkan metode analisis diskriminan jika digunakan

untuk klasifikasi mengacu pada persentase hasil klasifikasi data testing. Selain itu metode Learning

Vector Quantization lebih baik karena semua data bisa dianalisis tanpa harus memenuhi asumsi dan

syarat tertentu.

DAFTAR PUSTAKA

Fausett, L., (1994), Fundamentals of Neural Network: Architectures, Algorithms, and Applications,

Prentice-Hall, Inc., New Jersey.

Johnson, R. A. dan Whichern, D. W., (2007), Applied Multivariate Statistical Analisys, Sixth Edition,

Prentice-Hall, Inc., United States of America.

Kusumadewi, S., (2004), Membangun Jaringan Syaraf Tiruan Menggunakan Matlab dan Excel Link,

Penerbit Graha Ilmu, Yogyakarta.

33w

x1

x2

x3

1x w

2x w

11w

21w

12w

22w

31w 32w

v1

1

3x w

v3

2

13w

23w

v1

2

v2

1 v2

2

v3

1

y_in1

y_in2

y F

198-612-1-pb

Documents