principal component analysis

6

Click here to load reader

Upload: riskyanakyu-hyun

Post on 26-Jan-2016

254 views

Category:

Documents


22 download

DESCRIPTION

sejarah, definisi,algoritma PCA

TRANSCRIPT

Page 1: PRINCIPAL COMPONENT ANALYSIS

1.1 SEJARAH PCA

Metode Principal Component Analysis (PCA) dibuat pertama kali oleh para ahli statistik

dan ditemukan oleh Karl Pearson pada tahun 1901 yang memakainya pada bidang biologi.

Pada tahun 1947 teori ini ditemukan kembali oleh Karhunen, dan kemudian dikembangkan

oleh Loeve pada tahun l963, sehingga teori ini juga dinamakan Karhunen-Loeve transform

pada bidang ilmu telekomunikasi. [1]

1.2 DEFINISI PCA

Ada beberapa definisi yang menjelaskan PCA, Principal Component Analysis (PCA)

merupakan suatu metode yang melibatkan prosedur matematika yang mengubah dan

mentransformasikan sejumlah besar variabel yang berkorelasi menjadi sejumlah kecil

variabel yang tidak berkorelasi, tanpa menghilangkan informasi penting di dalamnyaโ€ [2] .

Selain itu PCA juga disebut sebagai Teknik Statistik yang dapat digunakan untuk

menjelaskan struktur variansi-kovariansi dari sekumpulan variabel melalui variabel baru

dimana variabel baru ini saling bebas, dan merupakan kombinasi linier dari variabel asal [3]

Sebagai contoh kasus Sebuah analis keuangan ingin menentukan sehat tidaknya sebuah

departemen keuangan pada sebuah industri. Dalam penelitian awal telah diidentifikasi

terdapat sejumlah rasio keuangan sekitar 120 variabel yang dapat digunakan untuk analisa di

atas. Tentu saja, tidaklah mudah untuk menginterpretasikan 120 buah informasi untuk

menentukan apakah departemen keuangan tersebut dalam keadaan sehat atau tidak. Maka

tugas pertama dari analis tersebut adalah menyederhanakan/ mereduksi ke-120 rasio menjadi

beberapa index saja (misalnya 3), yang mana index tersebut merupakan kombinasi linnier

dari seluruh rasio awal sedemikian hingga rasio baru tersebut tidak saling berkorelasi.

1.3 PENGENALAN WAJAH

Setiap wajah terlihat mirip satu dengan yang lain. Semua memiliki dua mata, satu hidung,

satu mulut dan lain-lain, yang berada pada tempat yang sama, sehingga semua vektor wajah

terletak pada kumpulan yang sempit pada ruang gambar. Sebuah wajah dalam bentuk gambar

dua dimensi dapat dilihat sebagai vektor satu dimensi. Jika panjang gambar adalah w dan

lebar gambar adalah h, maka jumlah komponen dari vektor 1 dimensinya adalah w x h .

Vektor wajah tersebut berada dalam suatu ruang, yaitu ruang wajah yang merupakan

ruang dari semua gambar yang memiliki ukuran w x h pixel. Tetapi keseluruhan ruang

gambar bukanlah ruang yang optimal untuk menggambarkan wajah. Dimensi dari ruang

gambar adalah w * h, dimana semua pixel dari sebuah wajah tidak berhubungan, dan setiap

pixel bergantung pada pixel lain didekatnya. Jadi, dimensi dari ruang wajah lebih kecil

daripada dimensi ruang gambar. Sehingga dibentuk sebuah ruang wajah yang dapat

menggambarkan wajah dengan lebih baik. Vektor basis dari ruang wajah ini disebut principal

components.

2. Mampu menjelaskan algoritma PCA

Langkah umum penyelesaian PCA dapat dilihat pada diagram berikut :

1. Input Data

Page 2: PRINCIPAL COMPONENT ANALYSIS

Data awal dipersiapkan dalam sebuah matriks ukuran mxn. Nantinya jumlah variable n akan

berkurang menjadi k jumlah principal component yang dipertahankan. Misal terdapat matrik

dengan ukuran 6x6 sebagai berikut :

2. Mean Centering

Mean Centering adalah mencari nilai rata-rata masing-masing dimensi (kolom) dan

mengurangkan setiap nilai data sampel dengan nilai rata0rata sesuai dengan kolomnya, ๐‘‹๐‘– โˆ’

๏ฟฝฬ…๏ฟฝ, dimana i = 1, 2, ..., m . Pada matriks sebelumnya maka diperoleh

3. Hitung Matriks Covarian

Persamaan mencari covarian adalah :

Sedangkan bentuk Matriks Covarian adalah

Sehingga dari matriks mean centering diperoleh matriks covarian :

[ 186 194198 192

206 171204 159

125 148121 174

190 188202 190

202 188195 194

139 140175 173

186 201188 187

195 193197 199

214 173200 198]

[ 186 194198 192

206 171204 159

125 148121 174

190 188202 190

202 188195 194

139 140175 173

186 201188 187

195 193197 199

214 173200 198]

Mean = 191.67 192 199.83 182.33 162.33 167.66 โ‹ฎ โ‹ฎ โ‹ฎ โ‹ฎ โ‹ฎ โ‹ฎ

Kurangi nilai setiap kolom dengan mean

[

โˆ’5.67 26.33 0

6.17 โˆ’11.334.17 โˆ’23.33

โˆ’37.33 โˆ’19.66โˆ’41.33 6.34

โˆ’1.67 โˆ’410.33 โˆ’2

2.17 5.67โˆ’4.83 11.67

โˆ’23.33 โˆ’27.6612.67 5.34

โˆ’5.67 9โˆ’3.67 โˆ’5

โˆ’4.83 10.67โˆ’2.83 16.67

51.67 5.3437.67 30.34 ]

๐‘๐‘œ๐‘ฃ (๐‘‹, ๐‘Œ) =โˆ‘ (๐‘‹๐‘– โˆ’ ๏ฟฝฬ…๏ฟฝ)(๐‘Œ๐‘– โˆ’ ๏ฟฝฬ…๏ฟฝ)๐‘›

๐‘–=1

(๐‘› โˆ’ 1)

๐ถ = (

๐‘๐‘œ๐‘ฃ(๐‘ฅ. ๐‘ฅ) ๐‘๐‘œ๐‘ฃ(๐‘ฅ, ๐‘ฆ) ๐‘๐‘œ๐‘ฃ(๐‘ฅ, ๐‘ง)๐‘๐‘œ๐‘ฃ(๐‘ฆ, ๐‘ฅ) ๐‘๐‘œ๐‘ฃ(๐‘ฆ, ๐‘ฆ) ๐‘๐‘œ๐‘ฃ(๐‘ฆ, ๐‘ง)๐‘๐‘œ๐‘ฃ(๐‘ง, ๐‘ฅ) ๐‘๐‘œ๐‘ฃ(๐‘ง, ๐‘ฆ) ๐‘๐‘œ๐‘ฃ(๐‘ง, ๐‘ง)

)

๐ถ =

(

45.46 โˆ’11.6 โˆ’4.866 โˆ’6.33 โˆ’62.26 433.8โˆ’11.6โˆ’4.866

26โˆ’3.2

โˆ’3.222.96

โˆ’15.6โˆ’75.56

54โˆ’174.1

โˆ’8.6โˆ’58.46

โˆ’6.33โˆ’62.26433.8

โˆ’15.654

โˆ’8.6

โˆ’75.66โˆ’174.1โˆ’58.46

320.5598.5151.8

598.51579520.7

151.8520.7433.8 )

Page 3: PRINCIPAL COMPONENT ANALYSIS

4. Proses PCA

Proses PCA terdapat 2 macam cara, yaitu EVD (Eigen Value Decomposition) dan SVD

(Singular Value Decomposition).

4.1 EVD (Eigen Value Decomposition)

Proses PCA dengan cara EVD menggunakan eigen function dari covarian-nya, sehingga

setelah didapat matriks covarian maka langkah selanjutnya adalah dengan mencari Nilai

Eigen dan Vektor Eigen dari Matriks Covarian

Sehingga diperoleh Nilai Eigen sebagai berikut :

Jika ๐œ† adalah nilai eigen maka vektor eigen yang bersesuaian dengan ๐œ† dapat dicari dengan

persamaan :

(๐ด โˆ’ ๐œ†๐ผ) โˆ™ ๐‘‰ = 0

Dan didapat vektor eigen sebagai berikut

๐œ†1 = 2028.1, dengan V1=

[

44.519.4

โˆ’98.4339.5872.8333 ]

๐œ†2 = 589.2, dengan V2= =

[ โˆ’614.543.4

โˆ’16.2154.5247.5

โˆ’731.5]

๐œ†3 = โˆ’302.1 dengan V3=

[ โˆ’776.3

24โˆ’4.244.9

โˆ’205.4593.7 ]

Lalu tahapan selanjutnya adalah dengan mengurutkan vektor eigen berdasarkan nilai eigen

terbesar ke nilai eigen terkecil, sehingga membentuk Matriks Ciri :

Determinant (๐ถ โˆ’ ๐œ†I) = 0

๐œ†1 = 202.81

๐œ†2 = 589.2

๐œ†3 = โˆ’302.1

๐œ†4 = 101.3

๐œ†5 = 9.1

๐œ†6 = 2.1

๐œ†4 = 101.3 dengan V4 =

[ โˆ’95.7412.269.1

โˆ’844.4319.433 ]

๐œ†5 = 9.1 dengan V5=

[ โˆ’88.8โˆ’876.8291.5

โˆ’325.3180.28.4 ]

๐œ†6 = 2.1 dengan V5 =

[ 25.5246.4947.220214

19.6 ]

๐‘‹ =

[

44.519.4

โˆ’98.4339.5872.8333

โˆ’614.543.4

โˆ’16.2154.5247.5

โˆ’731.5

โˆ’95.7412.269.1

โˆ’844.4319.433

โˆ’88.8โˆ’876.8291.5

โˆ’325.3180.28.4

25.5246.4947.220214

19.6

โˆ’776.324

โˆ’4.244.9

โˆ’205.4593.7 ]

Page 4: PRINCIPAL COMPONENT ANALYSIS

Dari hasil EVD, vektor eigen dengan nilai eigen tertinggi meng-capture variasi data tertinggi,

sehingga dipilih nilai principal component dengan k % dari jumlah nilai eigen. Misal dalam

kasus ini dipilih 1 principal component dengan 1 nilai eigen tertinggi yang meng-capture

83.5 % dari nilai keseluruhan , maka dipilih

Dan selanjutnya hasil matriks di atas diproyeksikan ke data yang telah dinormalkan (mean

centering) dengan mengalikan X dengan matriks mean centering sebelumnya .Sehingga

ukuran data yang awalnya 6 x 6 direduksi menjadi 1 x 6 saja.

4.2 SVD (Singular Value Decomposition)

Singular Value Decomposition adalah seuatu teknik untuk mendekomposisi matriks

berukuran apa saja (biasanya diaplikasikan untuk matriks dengan ukuran sangat besar), untuk

mempermudah pengolahan data. Hasil dari SVD ini adalah singular value yang disimpan

dalam sebuah matriks diagonal, D, dalam urutan yang sesuai dengan koresponding singular

vector-ya. Dimana, nilai singular value menyimpan informasi yang sangat penting tentang

data, yaitu data yang berkontribusi paling besar terhadap variasi data secara keseluruhan,

yang disimpan pada singular value yang pertama.

Pada EVD, data awal berupa matriks bujur sangkar (n x n), sehingga untuk data dengan

matriks berukuran m x n (tidak memiliki nilai eigen) digunakan metode SVD. Contoh kasus

matriks berukuran 4 x 5

Langkah pertama dalam SVD adalah mencari Ku dan Kv dimana

dan

Sehingga diperoleh Ku dan Kv dari matriks A

Selanjutnya dicari masing-masing Nilai Eigen dan Vektor Eigen dari Ku dan Kv

Nilai Eigen dari Ku

๐‘‹ =

[

44.519.4

โˆ’98.4339.5872.8333 ]

A = [

8 711 273 152 19

20 714 522 515 4

12121617

]

๐พ๐‘ข = ๐ด ๐ด๐‘‡ ๐พ๐‘ฃ = ๐ด๐‘‡๐ด

๐พ๐‘ข = [

569821648981337

2164155328993222

898899555627

133732226273595

] ๐พ๐‘ฃ =

[ 289813441050

13441140555

10505551125

8467131610

232936801111

8462329

7133680

16101111

51071555

155515110]

๐œ†1 = 346

๐œ†2 = 2578

๐œ†3 = 5494

๐œ†4 = 1696.2

๐ท๐‘ข = (

โˆš346000

0

โˆš257800

00

โˆš54940

000

โˆš1696.2

)

Page 5: PRINCIPAL COMPONENT ANALYSIS

Du sendiri adalah matriks diagonal yang diperoleh dari akar Nilai Eigen Ku

Vektor Eigen dari Ku

Nilai Eigen dari Kv

Vektor Eigen dari Kv

Terlihat bahwa Du dan Dv mempunyai nilai yang sama, sehingga kita bisa membuat matriks

D dari Du dan Dv dengan ukuran 4 x 5 dan urutkan dari yang terbesar ke yang terkecil . Pada

matriks D di bawah ini , masing2 elemen telah diakar dan diurutkan

Langkah terakhir yaitu dengan mengalikan Matriks U (Vektor Eigen dari Ku) , Matriks D

dan Matriks V (Vektor Eigen dari Kv) yang telah ditranspose, sehingga diperoleh Matriks

SVD

Dan untuk memproyeksikan ke data awal maka caranya sama dengan EVD sebelumnya yaitu

dengan mengalikan k % dari D dengan Matriks Mean Centering.

3. Mampu menjelaskan perbedaan PCA dan Transformasi Wavelet

PCA Wavelet

Hubungan antar pola dalam satu kelas ada Tidak ada hubungan antar pola dalam satu

๐‘ˆ = (

0.12870.0137

โˆ’0.98390.1233

0.29130.1891

โˆ’0.0764โˆ’0.9346

โˆ’0.92290.2821

โˆ’0.1442โˆ’0.2188

0.21640.94050.07300.2518

)

๐œ†2 = 0

๐œ†2 = 346

๐œ†3 = 2578

๐œ†4 = 5494

๐œ†5 = 1696.2

๐ท๐‘ฃ =

(

00

0

โˆš346000

000

00

00

00

โˆš257800

0

โˆš54940

00

โˆš1696.2)

๐‘‰ =

(

โˆ’0.29540.93510.0575

โˆ’0.0444โˆ’0.1819

0.24930.1414

โˆ’0.92240.2570

โˆ’0.0322

โˆ’0.8749โˆ’0.2106โˆ’0.17960.34480.1976

โˆ’0.2171โˆ’0.0424โˆ’0.3209โˆ’0.88660.2492

0.19490.24390.10340.16460.9299)

๐ท = (

74.1215000

050.774

00

00

41.18490

000

18.6011

0000

)

๐‘†๐‘‰๐ท = ๐‘ˆ โˆ™ ๐ท โˆ™ ๐‘‰๐‘‡

๐‘†๐‘‰๐ท = (

33.2506โˆ’11.8696

18.8459โˆ’0.8786

โˆ’7.5602โˆ’16.4975

โˆ’13.2977โˆ’9.0805

โˆ’8.71776.1608

25.4768โˆ’7.6632

โˆ’67.54913.5353

0.016644.4123

โˆ’1.0136โˆ’19.8597

12.5533โˆ’0.7458

)

Page 6: PRINCIPAL COMPONENT ANALYSIS

yaitu untuk menghasilkan nilai principal

component

kelas

Fitur yang disimpan dalam database adalah

nilai principal component

Fitur yang disimpan dalam database adalah

koefisien approksimasi hasil dekomposisi

wavelet

Transformasi yang dilakukan adalah dengan

menghitung matriks kovarian untuk

menghasilkan nilai eigen dan principal

component

Transformasi yang dilakukan ke dalam

domain sekaligus frekuensi pada tingkat

resolusi yang berbeda

Bersifat Lossy (jika dikembalikan maka akan

ada data yang hilang)

Bersifat Lossless (Jika dikembalikan maka

data kembali seperti semula, tidak ada yang

hilang)

Daftar Pustaka :

[1] Wikipedia, Analisis Komponen Utama https://id.wikipedia.org/wiki/Analisis_komponen_

utama diakses pada tanggal Juli 2015

[2] Wibowo, Bangun Budi. 2011. Pengenalan Wajah Menggunakan Analisis Komponen

Utama. Skripsi, Program Sarjana Universitas Diponegoro, Semarang.

[3] Principal-component-analysisโ€”pca----konsep-dan-aplikasi-dalam-teknik-industri.pdf

Rencana Pertemuan Mendatang :

Melakukan Percobaan Implementasi PCA pada Matlab dan Melengkapi Definisi dan

Algoritma dari Transformasi Wavelet