principal component analysis
DESCRIPTION
sejarah, definisi,algoritma PCATRANSCRIPT
1.1 SEJARAH PCA
Metode Principal Component Analysis (PCA) dibuat pertama kali oleh para ahli statistik
dan ditemukan oleh Karl Pearson pada tahun 1901 yang memakainya pada bidang biologi.
Pada tahun 1947 teori ini ditemukan kembali oleh Karhunen, dan kemudian dikembangkan
oleh Loeve pada tahun l963, sehingga teori ini juga dinamakan Karhunen-Loeve transform
pada bidang ilmu telekomunikasi. [1]
1.2 DEFINISI PCA
Ada beberapa definisi yang menjelaskan PCA, Principal Component Analysis (PCA)
merupakan suatu metode yang melibatkan prosedur matematika yang mengubah dan
mentransformasikan sejumlah besar variabel yang berkorelasi menjadi sejumlah kecil
variabel yang tidak berkorelasi, tanpa menghilangkan informasi penting di dalamnyaโ [2] .
Selain itu PCA juga disebut sebagai Teknik Statistik yang dapat digunakan untuk
menjelaskan struktur variansi-kovariansi dari sekumpulan variabel melalui variabel baru
dimana variabel baru ini saling bebas, dan merupakan kombinasi linier dari variabel asal [3]
Sebagai contoh kasus Sebuah analis keuangan ingin menentukan sehat tidaknya sebuah
departemen keuangan pada sebuah industri. Dalam penelitian awal telah diidentifikasi
terdapat sejumlah rasio keuangan sekitar 120 variabel yang dapat digunakan untuk analisa di
atas. Tentu saja, tidaklah mudah untuk menginterpretasikan 120 buah informasi untuk
menentukan apakah departemen keuangan tersebut dalam keadaan sehat atau tidak. Maka
tugas pertama dari analis tersebut adalah menyederhanakan/ mereduksi ke-120 rasio menjadi
beberapa index saja (misalnya 3), yang mana index tersebut merupakan kombinasi linnier
dari seluruh rasio awal sedemikian hingga rasio baru tersebut tidak saling berkorelasi.
1.3 PENGENALAN WAJAH
Setiap wajah terlihat mirip satu dengan yang lain. Semua memiliki dua mata, satu hidung,
satu mulut dan lain-lain, yang berada pada tempat yang sama, sehingga semua vektor wajah
terletak pada kumpulan yang sempit pada ruang gambar. Sebuah wajah dalam bentuk gambar
dua dimensi dapat dilihat sebagai vektor satu dimensi. Jika panjang gambar adalah w dan
lebar gambar adalah h, maka jumlah komponen dari vektor 1 dimensinya adalah w x h .
Vektor wajah tersebut berada dalam suatu ruang, yaitu ruang wajah yang merupakan
ruang dari semua gambar yang memiliki ukuran w x h pixel. Tetapi keseluruhan ruang
gambar bukanlah ruang yang optimal untuk menggambarkan wajah. Dimensi dari ruang
gambar adalah w * h, dimana semua pixel dari sebuah wajah tidak berhubungan, dan setiap
pixel bergantung pada pixel lain didekatnya. Jadi, dimensi dari ruang wajah lebih kecil
daripada dimensi ruang gambar. Sehingga dibentuk sebuah ruang wajah yang dapat
menggambarkan wajah dengan lebih baik. Vektor basis dari ruang wajah ini disebut principal
components.
2. Mampu menjelaskan algoritma PCA
Langkah umum penyelesaian PCA dapat dilihat pada diagram berikut :
1. Input Data
Data awal dipersiapkan dalam sebuah matriks ukuran mxn. Nantinya jumlah variable n akan
berkurang menjadi k jumlah principal component yang dipertahankan. Misal terdapat matrik
dengan ukuran 6x6 sebagai berikut :
2. Mean Centering
Mean Centering adalah mencari nilai rata-rata masing-masing dimensi (kolom) dan
mengurangkan setiap nilai data sampel dengan nilai rata0rata sesuai dengan kolomnya, ๐๐ โ
๏ฟฝฬ ๏ฟฝ, dimana i = 1, 2, ..., m . Pada matriks sebelumnya maka diperoleh
3. Hitung Matriks Covarian
Persamaan mencari covarian adalah :
Sedangkan bentuk Matriks Covarian adalah
Sehingga dari matriks mean centering diperoleh matriks covarian :
[ 186 194198 192
206 171204 159
125 148121 174
190 188202 190
202 188195 194
139 140175 173
186 201188 187
195 193197 199
214 173200 198]
[ 186 194198 192
206 171204 159
125 148121 174
190 188202 190
202 188195 194
139 140175 173
186 201188 187
195 193197 199
214 173200 198]
Mean = 191.67 192 199.83 182.33 162.33 167.66 โฎ โฎ โฎ โฎ โฎ โฎ
Kurangi nilai setiap kolom dengan mean
[
โ5.67 26.33 0
6.17 โ11.334.17 โ23.33
โ37.33 โ19.66โ41.33 6.34
โ1.67 โ410.33 โ2
2.17 5.67โ4.83 11.67
โ23.33 โ27.6612.67 5.34
โ5.67 9โ3.67 โ5
โ4.83 10.67โ2.83 16.67
51.67 5.3437.67 30.34 ]
๐๐๐ฃ (๐, ๐) =โ (๐๐ โ ๏ฟฝฬ ๏ฟฝ)(๐๐ โ ๏ฟฝฬ ๏ฟฝ)๐
๐=1
(๐ โ 1)
๐ถ = (
๐๐๐ฃ(๐ฅ. ๐ฅ) ๐๐๐ฃ(๐ฅ, ๐ฆ) ๐๐๐ฃ(๐ฅ, ๐ง)๐๐๐ฃ(๐ฆ, ๐ฅ) ๐๐๐ฃ(๐ฆ, ๐ฆ) ๐๐๐ฃ(๐ฆ, ๐ง)๐๐๐ฃ(๐ง, ๐ฅ) ๐๐๐ฃ(๐ง, ๐ฆ) ๐๐๐ฃ(๐ง, ๐ง)
)
๐ถ =
(
45.46 โ11.6 โ4.866 โ6.33 โ62.26 433.8โ11.6โ4.866
26โ3.2
โ3.222.96
โ15.6โ75.56
54โ174.1
โ8.6โ58.46
โ6.33โ62.26433.8
โ15.654
โ8.6
โ75.66โ174.1โ58.46
320.5598.5151.8
598.51579520.7
151.8520.7433.8 )
4. Proses PCA
Proses PCA terdapat 2 macam cara, yaitu EVD (Eigen Value Decomposition) dan SVD
(Singular Value Decomposition).
4.1 EVD (Eigen Value Decomposition)
Proses PCA dengan cara EVD menggunakan eigen function dari covarian-nya, sehingga
setelah didapat matriks covarian maka langkah selanjutnya adalah dengan mencari Nilai
Eigen dan Vektor Eigen dari Matriks Covarian
Sehingga diperoleh Nilai Eigen sebagai berikut :
Jika ๐ adalah nilai eigen maka vektor eigen yang bersesuaian dengan ๐ dapat dicari dengan
persamaan :
(๐ด โ ๐๐ผ) โ ๐ = 0
Dan didapat vektor eigen sebagai berikut
๐1 = 2028.1, dengan V1=
[
44.519.4
โ98.4339.5872.8333 ]
๐2 = 589.2, dengan V2= =
[ โ614.543.4
โ16.2154.5247.5
โ731.5]
๐3 = โ302.1 dengan V3=
[ โ776.3
24โ4.244.9
โ205.4593.7 ]
Lalu tahapan selanjutnya adalah dengan mengurutkan vektor eigen berdasarkan nilai eigen
terbesar ke nilai eigen terkecil, sehingga membentuk Matriks Ciri :
Determinant (๐ถ โ ๐I) = 0
๐1 = 202.81
๐2 = 589.2
๐3 = โ302.1
๐4 = 101.3
๐5 = 9.1
๐6 = 2.1
๐4 = 101.3 dengan V4 =
[ โ95.7412.269.1
โ844.4319.433 ]
๐5 = 9.1 dengan V5=
[ โ88.8โ876.8291.5
โ325.3180.28.4 ]
๐6 = 2.1 dengan V5 =
[ 25.5246.4947.220214
19.6 ]
๐ =
[
44.519.4
โ98.4339.5872.8333
โ614.543.4
โ16.2154.5247.5
โ731.5
โ95.7412.269.1
โ844.4319.433
โ88.8โ876.8291.5
โ325.3180.28.4
25.5246.4947.220214
19.6
โ776.324
โ4.244.9
โ205.4593.7 ]
Dari hasil EVD, vektor eigen dengan nilai eigen tertinggi meng-capture variasi data tertinggi,
sehingga dipilih nilai principal component dengan k % dari jumlah nilai eigen. Misal dalam
kasus ini dipilih 1 principal component dengan 1 nilai eigen tertinggi yang meng-capture
83.5 % dari nilai keseluruhan , maka dipilih
Dan selanjutnya hasil matriks di atas diproyeksikan ke data yang telah dinormalkan (mean
centering) dengan mengalikan X dengan matriks mean centering sebelumnya .Sehingga
ukuran data yang awalnya 6 x 6 direduksi menjadi 1 x 6 saja.
4.2 SVD (Singular Value Decomposition)
Singular Value Decomposition adalah seuatu teknik untuk mendekomposisi matriks
berukuran apa saja (biasanya diaplikasikan untuk matriks dengan ukuran sangat besar), untuk
mempermudah pengolahan data. Hasil dari SVD ini adalah singular value yang disimpan
dalam sebuah matriks diagonal, D, dalam urutan yang sesuai dengan koresponding singular
vector-ya. Dimana, nilai singular value menyimpan informasi yang sangat penting tentang
data, yaitu data yang berkontribusi paling besar terhadap variasi data secara keseluruhan,
yang disimpan pada singular value yang pertama.
Pada EVD, data awal berupa matriks bujur sangkar (n x n), sehingga untuk data dengan
matriks berukuran m x n (tidak memiliki nilai eigen) digunakan metode SVD. Contoh kasus
matriks berukuran 4 x 5
Langkah pertama dalam SVD adalah mencari Ku dan Kv dimana
dan
Sehingga diperoleh Ku dan Kv dari matriks A
Selanjutnya dicari masing-masing Nilai Eigen dan Vektor Eigen dari Ku dan Kv
Nilai Eigen dari Ku
๐ =
[
44.519.4
โ98.4339.5872.8333 ]
A = [
8 711 273 152 19
20 714 522 515 4
12121617
]
๐พ๐ข = ๐ด ๐ด๐ ๐พ๐ฃ = ๐ด๐๐ด
๐พ๐ข = [
569821648981337
2164155328993222
898899555627
133732226273595
] ๐พ๐ฃ =
[ 289813441050
13441140555
10505551125
8467131610
232936801111
8462329
7133680
16101111
51071555
155515110]
๐1 = 346
๐2 = 2578
๐3 = 5494
๐4 = 1696.2
๐ท๐ข = (
โ346000
0
โ257800
00
โ54940
000
โ1696.2
)
Du sendiri adalah matriks diagonal yang diperoleh dari akar Nilai Eigen Ku
Vektor Eigen dari Ku
Nilai Eigen dari Kv
Vektor Eigen dari Kv
Terlihat bahwa Du dan Dv mempunyai nilai yang sama, sehingga kita bisa membuat matriks
D dari Du dan Dv dengan ukuran 4 x 5 dan urutkan dari yang terbesar ke yang terkecil . Pada
matriks D di bawah ini , masing2 elemen telah diakar dan diurutkan
Langkah terakhir yaitu dengan mengalikan Matriks U (Vektor Eigen dari Ku) , Matriks D
dan Matriks V (Vektor Eigen dari Kv) yang telah ditranspose, sehingga diperoleh Matriks
SVD
Dan untuk memproyeksikan ke data awal maka caranya sama dengan EVD sebelumnya yaitu
dengan mengalikan k % dari D dengan Matriks Mean Centering.
3. Mampu menjelaskan perbedaan PCA dan Transformasi Wavelet
PCA Wavelet
Hubungan antar pola dalam satu kelas ada Tidak ada hubungan antar pola dalam satu
๐ = (
0.12870.0137
โ0.98390.1233
0.29130.1891
โ0.0764โ0.9346
โ0.92290.2821
โ0.1442โ0.2188
0.21640.94050.07300.2518
)
๐2 = 0
๐2 = 346
๐3 = 2578
๐4 = 5494
๐5 = 1696.2
๐ท๐ฃ =
(
00
0
โ346000
000
00
00
00
โ257800
0
โ54940
00
โ1696.2)
๐ =
(
โ0.29540.93510.0575
โ0.0444โ0.1819
0.24930.1414
โ0.92240.2570
โ0.0322
โ0.8749โ0.2106โ0.17960.34480.1976
โ0.2171โ0.0424โ0.3209โ0.88660.2492
0.19490.24390.10340.16460.9299)
๐ท = (
74.1215000
050.774
00
00
41.18490
000
18.6011
0000
)
๐๐๐ท = ๐ โ ๐ท โ ๐๐
๐๐๐ท = (
33.2506โ11.8696
18.8459โ0.8786
โ7.5602โ16.4975
โ13.2977โ9.0805
โ8.71776.1608
25.4768โ7.6632
โ67.54913.5353
0.016644.4123
โ1.0136โ19.8597
12.5533โ0.7458
)
yaitu untuk menghasilkan nilai principal
component
kelas
Fitur yang disimpan dalam database adalah
nilai principal component
Fitur yang disimpan dalam database adalah
koefisien approksimasi hasil dekomposisi
wavelet
Transformasi yang dilakukan adalah dengan
menghitung matriks kovarian untuk
menghasilkan nilai eigen dan principal
component
Transformasi yang dilakukan ke dalam
domain sekaligus frekuensi pada tingkat
resolusi yang berbeda
Bersifat Lossy (jika dikembalikan maka akan
ada data yang hilang)
Bersifat Lossless (Jika dikembalikan maka
data kembali seperti semula, tidak ada yang
hilang)
Daftar Pustaka :
[1] Wikipedia, Analisis Komponen Utama https://id.wikipedia.org/wiki/Analisis_komponen_
utama diakses pada tanggal Juli 2015
[2] Wibowo, Bangun Budi. 2011. Pengenalan Wajah Menggunakan Analisis Komponen
Utama. Skripsi, Program Sarjana Universitas Diponegoro, Semarang.
[3] Principal-component-analysisโpca----konsep-dan-aplikasi-dalam-teknik-industri.pdf
Rencana Pertemuan Mendatang :
Melakukan Percobaan Implementasi PCA pada Matlab dan Melengkapi Definisi dan
Algoritma dari Transformasi Wavelet