regresi linier berganda bertahap & pca

1

Regresi Linier Berganda Bertahap

Oleh : Harold J. Breaux

Abstrak

Regresi linier berganda bertahap telah terbukti sebagai teknik perhitungan

yang sangat berguna dalam masalah analisis data. Cara ini telah

diimplementasikan dalam banyak program komputer dan mengatasi masalah akut

yang sering ada dengan metode perhitungan klasik regresi linier berganda.

Masalah ini menunjukkan dirinya melalui waktu perhitungan yang berlebihan

yang termasuk pada solusi yang didapatkan menjadi set persamaan normal 2N-1

yang tampak ketika mencari kombinasi variabel linier yang optimal dari subset

variabel N. Cara ini memiliki kelebihan pada hubungan pengulangan yang ada

diantara kovarian residual, koefisien regresi, dan elemen invers bagian matriks

kovarian. Aplikasi formula pengulangan ini ekuivalen dengan pengenalan delesi

sebuah variabel menjadi fungsi pendekatan linier yang mana dicari sebagai solusi

untuk masalah analisis data. Catatan ini mengandung asal dari formula

pengulangan, menunjukkan bagaimana mereka diimplementasikan pada program

komputer dan termasuk sebuah algoritma yang bermanfaat. Sebuah program

komputer untuk komputer BRIESC yang mana memasukkan cara ini

dideskripsikan oleh penulis dan yang lain dalam catatan sebelumnya, BRL Report

No. 1330, Juli 1966. Catatan ini adalah sebuah penjelasanan teori statistik dan

cara perhitungan yang ditunjukkan dalam catatan ini menambahkan eksposisi

algoritma yang bermanfaat.

1. Pengantar

Pada masalah yang memiliki banyak variabel, mungkin hanya memiliki

kecurigaan instuitif mengenai variabel-variabel ini yang mungkin penting. Pada

hal ini, salah satu pendekatan klasik adalah untuk memperoleh solusi kuadrat

terkecil untuk persamaan regresi yang mengandung semua variabel yang

dipercaya menjadi penting secara potensial dan kemudian mencoba untuk

mengeliminasi variabel yang tak penting dengan tes kepercayaan. Cara ini

2

merupakan penggunaan yang dibatasi ketika banyak variabel dimasukkan dan

biasanya terjadi kesulitan perhitungan yang ekstrim. Sebuah cara alternatif untuk

memeriksa solusi semua model subset yang bisa dibentuk dari koleksi variabel

yang menarik perhatian dan memilih satu dari yang mana terlihat untuk

memberikan “kecocokan yang terbaik”. Bagaimanapun, cara ini bisa sangatlah

banyak dalam hal pola waktu perhitungan. Jika satu memiliki variabel N yang

bebas dan berharap untuk memperoleh semua solusi yang memungkinkan untuk

model yang mengandung 1, 2, ... dan variabel N memiliki solusi persamaan linier

2N-1. Untuk model kandidat yang mengandung lima variabel ini akan

membutuhkan solusi 31 set persamaan linier (jumlah praktis) tapi untuk dua puluh

variabel jumlah ini meloncat ke 1.048.575. Arti untuk pengelakan kesulitan

perhitungan ini disediakan oleh regresi berganda bertahap. Cara ini memiliki

kelebihan sesuai kenyataan bahwa algoritma Gauss Jordan, ketika biasa untuk

menyelesaikan persamaan normal dengan variabel N, menghasilkan solusi

intermediet untuk masalah regresi N yang mengandung 1, 2, ... dan variabel N.

Kekuatan cara ini terletak pada kenyataan bahwa variabel-variabel ini dikenalkan

menjadi regresi dalam urutan kepentingan/kepercayaan mereka. Pada setiap tahap,

variabel yang dimasukkan ke dalam regresi adalah satu yang mana akan

menghasilkan reduksi terbesar dalam jumlah kuadrat residual. Kekuatan cara ini

lebih lanjut dipertajam oleh penghilangan pola dari regresi pada tahap selanjutnya

yang menjadi penting sebagai hasil dari inklusi variabel tambahan dari regresi.

Perhitungan berlanjut sampai titik keseimbangan dicapai dimana tidak ada reduksi

yang penting dalam jumlah kuadrat residual diperoleh dengan menambahkan

variabel dalam regresi dan dimana peningkatan yang penting dalam jumlah

kuadrat residual akan meningkat jika sebuah variabel dihilangkan dari regresi.

Cara yang dijelaskan diatas akan mengacu sebagai regresi bertingkat kedepan.

Sebuah modifikasi metode ini adalah untuk memulai dengan semua variabel

dalam regresi dan kemudian menghilangkan variabel yang tidak signifikan, satu

per satu. Dalam sebuah kebiasaan yang mirip dengan regresi kedepan, sebuah

variabel yang dihilangkan dari regresi bisa dimasukkan kembali sesudah itu jika

3

ini menjadi penting pada tahap selanjutnya. Cara ini akan mengacu sebagai regresi

bertingkat kebelakang.

Keoptimalan atau sub model ideal dipilih dari sebuah model kandidat bisa

didefinisikan sebagai model yang mengandung hanya variabel-variabel yang

mana secara statistik penting pada level yang dipilih dari kepercayaan dan yang

memiliki variansi residual minimum diantara sub-sub model yang memiliki semua

pola penting pada level itu.

Umumnya, tak satu pun dari regresi bertingkat ini menghasilkan model yang

optimal tapi kebanyakan kasus model yang diperoleh oleh cara ini sangat

mendekati keoptimalan dan banyak kasus adalah hampir sama dengan yang

diperoleh dengan metode mahal dari semua solusi yang menyebutkan satu per

satu.

Dalam hal itu dimana satu yang menarik dalam menemukan model

optimum, seperti yang dijelaskan di atas, algoritma Gauss-Jordan dengan baik

mengurangi perhitungan yang dibutuhkan. Bagian optimal dari eliminasi untuk

membangkitkan semua kombinasi bertahap yang memungkinkan bisa dikontrol

oleh “algoritma biner” yang dijelaskan oleh Lotto (1961) dan garside (1965). Cara

ini dioptimalkan hingga perhitungan rekursi. Disamping optimalisasi ini, pekerja

hitung sedemikian rupa sehingga cara terlihat terbatas untuk menangani lebih

kecil dari dua puluh variabel.

Laporan Efroymson mengandung kebanyakan deskripsi dari cara

perhitungan. Laporan ini mengandung asal dari persamaan matematika yang

berhubungan dengan cara yang memasukkan formula pengulangan yang

berhubungan dengan kovarian residual, koefisien regresi, dan elemen invers

bagian matriks kovarian. Sebuah peningkatan algoritma digunakan oleh

Efroymson didapatkan. Algoritma yang ditingkatkan ini mengurangi kebutuhan

penyimpanan sebesar 50% sehingga mengijinkan analisis untuk model yang lebih

besar atau penggunaan aritmatika presisi ganda. Kecenderungan yang belakangan

adalah cukup penting ketika model analisis mengandung banyak variabel.

Tambahan, contoh numerikal ditunjukkan dengan menunjukkan hasil yang

4

berbeda yang bisa diperoleh dengan versi regresi bertahap kedepan dan

kebelakang.

2. Regresi Linier Berganda

Teori regresi linier berganda dan korelasinya didapatkan dalam teori “Model

Statistik Linier” dan bisa ditemukan di banyak laporan seperti Graybill. Konsep

model linier adalah pokok untuk penjelasan berikut dan karena itu definisi yang

ditemukan dalam Graybill disertakan. Dengan sebuah model linier berarti “sebuah

persamaan yang menghubungkan variabel-variabel acak, variabel-variabel

matematika, dan parameter-parameter dan yang linier dalam parameter dan dalam

variabel-variabel acak.” Model linier diklasifikasikan menjadi beberapa kategori

tergantung pada distribusi variabel, keberadaan dan sifat errors ketika

mengobservasi variabel, dan sifat variabel itu sendiri, contohnya, jika variabel

adalah variabel matematika atau variabel acak. Persamaan yangg berhubungan

dengan variabel ditulis dalam bentuk

Xn = bo + b1 X1 + b2 X2 + ... + bn-1 Xn-1 (1)

Variabel X1, X2, ... Xn-1 diacu sebagai “variabel bebas” dan Xn sebagai variabel

terikat. Dalam beberapa kasus, satu yang tertarik dalam model polinomial dan

curvalinier dan variabel X1, X2, ... Xn-1 tidaklah bebas secara perlu dalam

pandangan probabilitas. Contohnya untuk model

X2 = b1 X1 + b2 cos X2 + b3 eX1 (2)

adalah kurvalinier, contohnya linier pada parameter b1, b2 dan b3 walaupun

nonlinier pada X1. Model ini cocok untuk rancangan kerja persamaan (1) ketika

transformasi X2 = cos X1 dan X3 = xX1 ditunjukkan. Model ini kontras dengan

model

X2 = b1 eb2 X1 + b3 cos b4 X1 (3)

5

yang mana nonlinier dengan parameter b1, b2, b3 dan b4 dan tidak bisa

dilinearisasikan dengan transformasi. Masalah ini adalah satu dari regresi

nonlinier dan tidak didiskusikan lebih jauh dalam laporan ini.

Dalam regresi linier berganda, satu yang menarik dalam memperoleh

sebuah perkiraan dari b1 yang mana akan menghasilkan sebuah “persamaan yang

diprediksi” ditunjukkan oleh persamaan (1) yang paling cocok untuk set

pengamatan. Set observasi m dari Xn, variabel terikat, dan X1, X2, ... Xn-1 bisa

ditulis sebagai matrikas xi,j, i = 1,2, ... m, j = 1,2, ... n. Ketika variabel diukur rata-

rata masing-masing, persamaan (1) bisa ditulis

X� − X�� = b� (X� − X�

��)+ b� (X� − X��)+ … + b�� (X�� − X��

��) (4)

Koefisien bo dalam persamaan (1) diperoleh dari hubungan

b� = X�� − � b�X�

�

��

��

. (5)

Disinilah variabel-variabel akan dianggap untuk diukur rata-rata masing-masing

dan kuantitas Xi akan digunakan untuk menunjukkan Xi - X�� .

Untuk persamaan pengamatan (4) yang biasa mengambil bentuk

xjn = b1 xj1 + b2 xj2 + ... + bn-1 xj,n-1 + ej. (6)

ej adalah residual dan merupakan perbedaan antara nilai yang diprediksi dan nilai

yang diamati dari xn*. Metode kuadrat terkecil untuk memperkirakan koefisien bi

didasarkan d=pada minimalisasi jumlah kuadrat residual, dinyatakan sebagai E2.

* ini seharusnya dinyatakan bahwa variabel Xi, i = 1,2, ... n, dianggap untuk

diukur tanpa error.

E� = � e��

�

��

6

= �(x�� − b� x�� − b� x�� − … − b�� x�,��)� (7)

�

��

Minimalisasi ini dicapai dengan mengambil derivatif parsial E2 mengenai tiap-tiap

bk dan menyamakan persamaan (n-1) ini menjadi nol. Ini memimpin pada

persamaan normal

� x�� (x�� − b� x�� −

�

��

b� x�� − … − b�� x�,��)= 0. (8)

k = 1, 2, , ... n-1

persamaan normal bisa dituliskan dalam bentuk matriks

X’X B = X’Y. (9)

X adalah matriks observasi mx(n-1) dari variabel bebas, X’ adalah transpose-nya,

Y adalah matriks observasi mx1 dari variabel terikat dan B adalah vektor kolom

dari koefisien regresi (n-1).

Solusi untuk persamaan normal untuk memperoleh koefisien regresi diberikan

sebagai berikut

B =

⎝

⎛

b�

b�...b��⎠

⎞ = (X�X)��X�Y, (10)

dimana (X’X)-1 adalah invers dari matriks X’X. Persamaan normal bisa diperoleh

dari beberapa algoritma untuk solusi sistem persamaan linier, bagaimanapun,

algoritma Gauss-Jordan digunakan dalam regresi berganda bertingkat untuk

alasan yang akan menjadi nyata.

7

Principal Component Analysis

Oleh: Hervé Abdi dan Lynee J. Williams

Abstrak

PCA adalah sebuah teknik multi variabel yang menganalisis sebuah tabel data

yang mana observasi didiskripsikan dengan beberapa variabel terikat kuantitatif

yang saling berhubungan. Tujuannya adalah untuk mengambil informasi penting

dari tabel, untuk menunjukkannya sebagai set variabel ortogonal yang baru yang

disebut komponen pokok (principal), dan menampilkan pola kesamaan observasi

dan variabel sebagai titik-titik pada peta. Kualitas model PCA bisa dievaluasi

menggunakan teknik validasi campuran seperti bootstrap dan jackknife. PCA bisa

digeneralisasikan sebagai analisis persesuaian (CA) untuk menangani variabel

kualitatif dan sebagai analisis faktor berganda (MFA) untuk menangani variabel-

variabel yang bermacam-macam. Secara matematika, PCA tergantung pada

dekomposisi eigen dari matriks semi-definitif yang positif dan pada dekomposisi

nilai tunggal (SVD) dari matriks persegi.

1. Pengantar

Principal component analysis (PCA) mungkin merupakan teknik statistik

multivariabel yang paling terkenal dan digunakan oleh hampir semua disiplin

peneliti. Ini sepertinya merupakan teknik multivariabel yang tertua. Faktanya,

keasliannya bisa dicari kembali dalam Pearson (1901) atau bahkan Cauchy (1829,

lihat Grattan-Guinness, 1997, hal. 416), atau Jordan (1874, dan juga Cayley,

Silvester, dan hamilton, lihat Stewart, 1993; Boyer dan Merzbach, 1989, untuk

lebih lanjut) tapi instansiasi diformalisasikan oleh Hotelling (1933) yang juga

membuat pola principal component. PCA menganalisa tabel data yang

menunjukkan observasi yang dideskripsikan oleh beberapa variabel terikat, yang

mana, pada umumnya, saling berhubungan. Tujuannya adalah untuk mengambil

informasi penting dari tabel data dan untuk menunjukkan informasi ini sebagai

sebuah set variabel ortogonal yang baru yang disebut principal components. PCA

juga menunjukkan pola kemiripan dari pengamatan dan variabel dengan

8

menampilkannya sebagai titik-titik pada peta (lihat, untuk lebih detail Jolliffe,

2002; Jackson, 1991; Saporta dan Niang, 2009).

2. Syarat Dugaan dan Catatan

Matriks ditunjukkan dalam upper case bold, vektor ditunjukkan oleh lower

care bold, dan elemen ditunjukkan oleh lower care italic. Matriks, vektor, dan

elemen dari matriks yang sama semuanya menggunakan huruf yang sama

(contohnya, A, a, a). Operasi transpose ditunjukkan oleh superscript T. Matriks

identitas ditunjukkan oleh I.

Tabel data dianalisis oleh PCA terdiri dari observasi I yang dideskripsikan

oleh variabel J dan ditunjukkan oleh matrikas X I x I, yang mana elemen

umumnya adalah xi,j. Matriks X telah menduduki L dimana L ≤ min {I, J}.

Umumnya, tabel data akan di-preprocessing sebelum analisis. Kebanyakan,

kolom X ditempatkan sehingga rata-rata setiap kolom sama dengan 0 (contohnya

XT1 = 0, dimana 0 adalah sebuah J oleh 1 vektor nol dan 1 adalah I oleh 1 vektor

satu). Jika ditambahkan, setiap elemen X dibagi oleh √� (atau √� − 1 ), analisis

dirujuk sebagai kovarian PCA karena, dalam hal ini, matriks XTX adalah matriks

kovarian. Tambahan untuk pemusatan, ketika variabel diukur dengan unit yang

berbeda, ini biasa menstandarisasikan setiap variabel untuk norma unit. Ini

didapat dengan membagikan setiap variabel dengan normanya (contohnya akar

dari jumlah semua elemen kuadrat dari variabel ini). Dalam hal ini, analisis

dirujuk sebagai korelasi PCA karena, kemudian, matriks XTX adalah matriks

korelasi (kebanyakan paket statistik menggunakan hubungan preprocessing

sebagai kegagalan).

Matriks X memiliki dekomposisi nilai tunggal sebagai berikut (SVD, lihat

Abdi, 2007a,b; Takane, 2002, dan Appendix B untuk pengenalan SVD):

X = PΔQT (1)

dimana P adalah matriks I x L dari vektor tunggal, Q adalah matriks J x L dari

vektor tunggal yang benar, dan Δ adalah matriks diagonal dari nilai tunggal. Catat

bahwa Δ2 adalah XXT.

9

Inertia of a column didefinisikan sebagai jumlah dari elemen kuadrat dari

kolom ini dan dihitung sebagai

�� = � ��,�

� . (2)

�

�

Jumlah dari semua �� ditunjukkan χ dan disebut dengan inertia dari tabel data

atau total inertia. Catat bahwa inersia total juga sama dengan jumlah nilai tunggal

kuadrat dari tabel data (lihat Appendix A).

Center of gravity of the rows (juga disebut centroid atau barycenter, lihat

Abdi, 2009), ditunjukkan g, adalah vektor rata-rata dari setiap kolom X. Ketika X

dipusatkan, pusat gravitasinya sama dengan vektor baris I x J 0T.

Jarak (euclidean) dari pengamatan ke-i untuk g sama dengan

��,�� = �(��,� − ��)�. (3)

�

�

Ketika data dipusatkan, persamaan 3 dikurangi menjadi

��,�� = � ��,�

� . (4)

�

�

Catat bahwa jumlah dari semua ��,�� adalah sama dengan χ yang mana merupakan

inersia dari tabel data.

3. Tujuan PCA

Tujuan dari PCA adalah untuk:

a. mengambil informasi yang paling penting dari tabel data,

b. memadatkan ukuran data dengan menjaga hanya informasi penting saja,

c. menyederhanakan deskripsi data, dan

d. menganalisa struktur pengamatan dan variabelnya.

Agar bisa mencapai tujuan ini, PCA menghitung variabel baru yang disebut

principal components yang diperoleh sebagai kombinasi linier dari variabel asli.

Komponen pokok yang pertama dibutuhkan untuk memiliki variansi yang terbesar

yang memungkinkan (contohnya inersia dan bagaimanapun komponen ini akan

10

“menjelaskan” atau “mengambil” bagian terbesar dari inersia dari tabel data).

Komponen kedua dihitung dibawah tekanan dari kejadian ortogonal untuk

komponen pertama dan memiliki inersia terbesar yang memungkinkan.

Komponen lain dihitung demikian juga (lihat Appendix A.3 untuk dasarnya). Nilai

dari variabel baru untuk pengamatan ini disebut factor scores, nilai faktor ini

diduga secara geometris sebagai projections pengamatan menjadi komponen

pokok.

regresi linier berganda bertahap & pca

Documents