regresi linier berganda bertahap & pca
DESCRIPTION
Terjemahan dan rangkuman dari karya Harold J. Breaux dan Hervé Abdi & Lynee J. WilliamsTRANSCRIPT
1
Regresi Linier Berganda Bertahap
Oleh : Harold J. Breaux
Abstrak
Regresi linier berganda bertahap telah terbukti sebagai teknik perhitungan
yang sangat berguna dalam masalah analisis data. Cara ini telah
diimplementasikan dalam banyak program komputer dan mengatasi masalah akut
yang sering ada dengan metode perhitungan klasik regresi linier berganda.
Masalah ini menunjukkan dirinya melalui waktu perhitungan yang berlebihan
yang termasuk pada solusi yang didapatkan menjadi set persamaan normal 2N-1
yang tampak ketika mencari kombinasi variabel linier yang optimal dari subset
variabel N. Cara ini memiliki kelebihan pada hubungan pengulangan yang ada
diantara kovarian residual, koefisien regresi, dan elemen invers bagian matriks
kovarian. Aplikasi formula pengulangan ini ekuivalen dengan pengenalan delesi
sebuah variabel menjadi fungsi pendekatan linier yang mana dicari sebagai solusi
untuk masalah analisis data. Catatan ini mengandung asal dari formula
pengulangan, menunjukkan bagaimana mereka diimplementasikan pada program
komputer dan termasuk sebuah algoritma yang bermanfaat. Sebuah program
komputer untuk komputer BRIESC yang mana memasukkan cara ini
dideskripsikan oleh penulis dan yang lain dalam catatan sebelumnya, BRL Report
No. 1330, Juli 1966. Catatan ini adalah sebuah penjelasanan teori statistik dan
cara perhitungan yang ditunjukkan dalam catatan ini menambahkan eksposisi
algoritma yang bermanfaat.
1. Pengantar
Pada masalah yang memiliki banyak variabel, mungkin hanya memiliki
kecurigaan instuitif mengenai variabel-variabel ini yang mungkin penting. Pada
hal ini, salah satu pendekatan klasik adalah untuk memperoleh solusi kuadrat
terkecil untuk persamaan regresi yang mengandung semua variabel yang
dipercaya menjadi penting secara potensial dan kemudian mencoba untuk
mengeliminasi variabel yang tak penting dengan tes kepercayaan. Cara ini
2
merupakan penggunaan yang dibatasi ketika banyak variabel dimasukkan dan
biasanya terjadi kesulitan perhitungan yang ekstrim. Sebuah cara alternatif untuk
memeriksa solusi semua model subset yang bisa dibentuk dari koleksi variabel
yang menarik perhatian dan memilih satu dari yang mana terlihat untuk
memberikan “kecocokan yang terbaik”. Bagaimanapun, cara ini bisa sangatlah
banyak dalam hal pola waktu perhitungan. Jika satu memiliki variabel N yang
bebas dan berharap untuk memperoleh semua solusi yang memungkinkan untuk
model yang mengandung 1, 2, ... dan variabel N memiliki solusi persamaan linier
2N-1. Untuk model kandidat yang mengandung lima variabel ini akan
membutuhkan solusi 31 set persamaan linier (jumlah praktis) tapi untuk dua puluh
variabel jumlah ini meloncat ke 1.048.575. Arti untuk pengelakan kesulitan
perhitungan ini disediakan oleh regresi berganda bertahap. Cara ini memiliki
kelebihan sesuai kenyataan bahwa algoritma Gauss Jordan, ketika biasa untuk
menyelesaikan persamaan normal dengan variabel N, menghasilkan solusi
intermediet untuk masalah regresi N yang mengandung 1, 2, ... dan variabel N.
Kekuatan cara ini terletak pada kenyataan bahwa variabel-variabel ini dikenalkan
menjadi regresi dalam urutan kepentingan/kepercayaan mereka. Pada setiap tahap,
variabel yang dimasukkan ke dalam regresi adalah satu yang mana akan
menghasilkan reduksi terbesar dalam jumlah kuadrat residual. Kekuatan cara ini
lebih lanjut dipertajam oleh penghilangan pola dari regresi pada tahap selanjutnya
yang menjadi penting sebagai hasil dari inklusi variabel tambahan dari regresi.
Perhitungan berlanjut sampai titik keseimbangan dicapai dimana tidak ada reduksi
yang penting dalam jumlah kuadrat residual diperoleh dengan menambahkan
variabel dalam regresi dan dimana peningkatan yang penting dalam jumlah
kuadrat residual akan meningkat jika sebuah variabel dihilangkan dari regresi.
Cara yang dijelaskan diatas akan mengacu sebagai regresi bertingkat kedepan.
Sebuah modifikasi metode ini adalah untuk memulai dengan semua variabel
dalam regresi dan kemudian menghilangkan variabel yang tidak signifikan, satu
per satu. Dalam sebuah kebiasaan yang mirip dengan regresi kedepan, sebuah
variabel yang dihilangkan dari regresi bisa dimasukkan kembali sesudah itu jika
3
ini menjadi penting pada tahap selanjutnya. Cara ini akan mengacu sebagai regresi
bertingkat kebelakang.
Keoptimalan atau sub model ideal dipilih dari sebuah model kandidat bisa
didefinisikan sebagai model yang mengandung hanya variabel-variabel yang
mana secara statistik penting pada level yang dipilih dari kepercayaan dan yang
memiliki variansi residual minimum diantara sub-sub model yang memiliki semua
pola penting pada level itu.
Umumnya, tak satu pun dari regresi bertingkat ini menghasilkan model yang
optimal tapi kebanyakan kasus model yang diperoleh oleh cara ini sangat
mendekati keoptimalan dan banyak kasus adalah hampir sama dengan yang
diperoleh dengan metode mahal dari semua solusi yang menyebutkan satu per
satu.
Dalam hal itu dimana satu yang menarik dalam menemukan model
optimum, seperti yang dijelaskan di atas, algoritma Gauss-Jordan dengan baik
mengurangi perhitungan yang dibutuhkan. Bagian optimal dari eliminasi untuk
membangkitkan semua kombinasi bertahap yang memungkinkan bisa dikontrol
oleh “algoritma biner” yang dijelaskan oleh Lotto (1961) dan garside (1965). Cara
ini dioptimalkan hingga perhitungan rekursi. Disamping optimalisasi ini, pekerja
hitung sedemikian rupa sehingga cara terlihat terbatas untuk menangani lebih
kecil dari dua puluh variabel.
Laporan Efroymson mengandung kebanyakan deskripsi dari cara
perhitungan. Laporan ini mengandung asal dari persamaan matematika yang
berhubungan dengan cara yang memasukkan formula pengulangan yang
berhubungan dengan kovarian residual, koefisien regresi, dan elemen invers
bagian matriks kovarian. Sebuah peningkatan algoritma digunakan oleh
Efroymson didapatkan. Algoritma yang ditingkatkan ini mengurangi kebutuhan
penyimpanan sebesar 50% sehingga mengijinkan analisis untuk model yang lebih
besar atau penggunaan aritmatika presisi ganda. Kecenderungan yang belakangan
adalah cukup penting ketika model analisis mengandung banyak variabel.
Tambahan, contoh numerikal ditunjukkan dengan menunjukkan hasil yang
4
berbeda yang bisa diperoleh dengan versi regresi bertahap kedepan dan
kebelakang.
2. Regresi Linier Berganda
Teori regresi linier berganda dan korelasinya didapatkan dalam teori “Model
Statistik Linier” dan bisa ditemukan di banyak laporan seperti Graybill. Konsep
model linier adalah pokok untuk penjelasan berikut dan karena itu definisi yang
ditemukan dalam Graybill disertakan. Dengan sebuah model linier berarti “sebuah
persamaan yang menghubungkan variabel-variabel acak, variabel-variabel
matematika, dan parameter-parameter dan yang linier dalam parameter dan dalam
variabel-variabel acak.” Model linier diklasifikasikan menjadi beberapa kategori
tergantung pada distribusi variabel, keberadaan dan sifat errors ketika
mengobservasi variabel, dan sifat variabel itu sendiri, contohnya, jika variabel
adalah variabel matematika atau variabel acak. Persamaan yangg berhubungan
dengan variabel ditulis dalam bentuk
Xn = bo + b1 X1 + b2 X2 + ... + bn-1 Xn-1 (1)
Variabel X1, X2, ... Xn-1 diacu sebagai “variabel bebas” dan Xn sebagai variabel
terikat. Dalam beberapa kasus, satu yang tertarik dalam model polinomial dan
curvalinier dan variabel X1, X2, ... Xn-1 tidaklah bebas secara perlu dalam
pandangan probabilitas. Contohnya untuk model
X2 = b1 X1 + b2 cos X2 + b3 eX1 (2)
adalah kurvalinier, contohnya linier pada parameter b1, b2 dan b3 walaupun
nonlinier pada X1. Model ini cocok untuk rancangan kerja persamaan (1) ketika
transformasi X2 = cos X1 dan X3 = xX1 ditunjukkan. Model ini kontras dengan
model
X2 = b1 eb2 X1 + b3 cos b4 X1 (3)
5
yang mana nonlinier dengan parameter b1, b2, b3 dan b4 dan tidak bisa
dilinearisasikan dengan transformasi. Masalah ini adalah satu dari regresi
nonlinier dan tidak didiskusikan lebih jauh dalam laporan ini.
Dalam regresi linier berganda, satu yang menarik dalam memperoleh
sebuah perkiraan dari b1 yang mana akan menghasilkan sebuah “persamaan yang
diprediksi” ditunjukkan oleh persamaan (1) yang paling cocok untuk set
pengamatan. Set observasi m dari Xn, variabel terikat, dan X1, X2, ... Xn-1 bisa
ditulis sebagai matrikas xi,j, i = 1,2, ... m, j = 1,2, ... n. Ketika variabel diukur rata-
rata masing-masing, persamaan (1) bisa ditulis
X� − X���� = b� (X� − X�
���)+ b� (X� − X����)+ … + b��� (X��� − X���
������) (4)
Koefisien bo dalam persamaan (1) diperoleh dari hubungan
b� = X���� − � b�X�
�
���
���
. (5)
Disinilah variabel-variabel akan dianggap untuk diukur rata-rata masing-masing
dan kuantitas Xi akan digunakan untuk menunjukkan Xi - X�� .
Untuk persamaan pengamatan (4) yang biasa mengambil bentuk
xjn = b1 xj1 + b2 xj2 + ... + bn-1 xj,n-1 + ej. (6)
ej adalah residual dan merupakan perbedaan antara nilai yang diprediksi dan nilai
yang diamati dari xn*. Metode kuadrat terkecil untuk memperkirakan koefisien bi
didasarkan d=pada minimalisasi jumlah kuadrat residual, dinyatakan sebagai E2.
* ini seharusnya dinyatakan bahwa variabel Xi, i = 1,2, ... n, dianggap untuk
diukur tanpa error.
E� = � e��
�
���
6
= �(x�� − b� x�� − b� x�� − … − b��� x�,���)� (7)
�
���
Minimalisasi ini dicapai dengan mengambil derivatif parsial E2 mengenai tiap-tiap
bk dan menyamakan persamaan (n-1) ini menjadi nol. Ini memimpin pada
persamaan normal
� x�� (x�� − b� x�� −
�
���
b� x�� − … − b��� x�,���)= 0. (8)
k = 1, 2, , ... n-1
persamaan normal bisa dituliskan dalam bentuk matriks
X’X B = X’Y. (9)
X adalah matriks observasi mx(n-1) dari variabel bebas, X’ adalah transpose-nya,
Y adalah matriks observasi mx1 dari variabel terikat dan B adalah vektor kolom
dari koefisien regresi (n-1).
Solusi untuk persamaan normal untuk memperoleh koefisien regresi diberikan
sebagai berikut
B =
⎝
⎛
b�
b�...b���⎠
⎞ = (X�X)��X�Y, (10)
dimana (X’X)-1 adalah invers dari matriks X’X. Persamaan normal bisa diperoleh
dari beberapa algoritma untuk solusi sistem persamaan linier, bagaimanapun,
algoritma Gauss-Jordan digunakan dalam regresi berganda bertingkat untuk
alasan yang akan menjadi nyata.
7
Principal Component Analysis
Oleh: Hervé Abdi dan Lynee J. Williams
Abstrak
PCA adalah sebuah teknik multi variabel yang menganalisis sebuah tabel data
yang mana observasi didiskripsikan dengan beberapa variabel terikat kuantitatif
yang saling berhubungan. Tujuannya adalah untuk mengambil informasi penting
dari tabel, untuk menunjukkannya sebagai set variabel ortogonal yang baru yang
disebut komponen pokok (principal), dan menampilkan pola kesamaan observasi
dan variabel sebagai titik-titik pada peta. Kualitas model PCA bisa dievaluasi
menggunakan teknik validasi campuran seperti bootstrap dan jackknife. PCA bisa
digeneralisasikan sebagai analisis persesuaian (CA) untuk menangani variabel
kualitatif dan sebagai analisis faktor berganda (MFA) untuk menangani variabel-
variabel yang bermacam-macam. Secara matematika, PCA tergantung pada
dekomposisi eigen dari matriks semi-definitif yang positif dan pada dekomposisi
nilai tunggal (SVD) dari matriks persegi.
1. Pengantar
Principal component analysis (PCA) mungkin merupakan teknik statistik
multivariabel yang paling terkenal dan digunakan oleh hampir semua disiplin
peneliti. Ini sepertinya merupakan teknik multivariabel yang tertua. Faktanya,
keasliannya bisa dicari kembali dalam Pearson (1901) atau bahkan Cauchy (1829,
lihat Grattan-Guinness, 1997, hal. 416), atau Jordan (1874, dan juga Cayley,
Silvester, dan hamilton, lihat Stewart, 1993; Boyer dan Merzbach, 1989, untuk
lebih lanjut) tapi instansiasi diformalisasikan oleh Hotelling (1933) yang juga
membuat pola principal component. PCA menganalisa tabel data yang
menunjukkan observasi yang dideskripsikan oleh beberapa variabel terikat, yang
mana, pada umumnya, saling berhubungan. Tujuannya adalah untuk mengambil
informasi penting dari tabel data dan untuk menunjukkan informasi ini sebagai
sebuah set variabel ortogonal yang baru yang disebut principal components. PCA
juga menunjukkan pola kemiripan dari pengamatan dan variabel dengan
8
menampilkannya sebagai titik-titik pada peta (lihat, untuk lebih detail Jolliffe,
2002; Jackson, 1991; Saporta dan Niang, 2009).
2. Syarat Dugaan dan Catatan
Matriks ditunjukkan dalam upper case bold, vektor ditunjukkan oleh lower
care bold, dan elemen ditunjukkan oleh lower care italic. Matriks, vektor, dan
elemen dari matriks yang sama semuanya menggunakan huruf yang sama
(contohnya, A, a, a). Operasi transpose ditunjukkan oleh superscript T. Matriks
identitas ditunjukkan oleh I.
Tabel data dianalisis oleh PCA terdiri dari observasi I yang dideskripsikan
oleh variabel J dan ditunjukkan oleh matrikas X I x I, yang mana elemen
umumnya adalah xi,j. Matriks X telah menduduki L dimana L ≤ min {I, J}.
Umumnya, tabel data akan di-preprocessing sebelum analisis. Kebanyakan,
kolom X ditempatkan sehingga rata-rata setiap kolom sama dengan 0 (contohnya
XT1 = 0, dimana 0 adalah sebuah J oleh 1 vektor nol dan 1 adalah I oleh 1 vektor
satu). Jika ditambahkan, setiap elemen X dibagi oleh √� (atau √� − 1 ), analisis
dirujuk sebagai kovarian PCA karena, dalam hal ini, matriks XTX adalah matriks
kovarian. Tambahan untuk pemusatan, ketika variabel diukur dengan unit yang
berbeda, ini biasa menstandarisasikan setiap variabel untuk norma unit. Ini
didapat dengan membagikan setiap variabel dengan normanya (contohnya akar
dari jumlah semua elemen kuadrat dari variabel ini). Dalam hal ini, analisis
dirujuk sebagai korelasi PCA karena, kemudian, matriks XTX adalah matriks
korelasi (kebanyakan paket statistik menggunakan hubungan preprocessing
sebagai kegagalan).
Matriks X memiliki dekomposisi nilai tunggal sebagai berikut (SVD, lihat
Abdi, 2007a,b; Takane, 2002, dan Appendix B untuk pengenalan SVD):
X = PΔQT (1)
dimana P adalah matriks I x L dari vektor tunggal, Q adalah matriks J x L dari
vektor tunggal yang benar, dan Δ adalah matriks diagonal dari nilai tunggal. Catat
bahwa Δ2 adalah XXT.
9
Inertia of a column didefinisikan sebagai jumlah dari elemen kuadrat dari
kolom ini dan dihitung sebagai
��� = � ��,�
� . (2)
�
�
Jumlah dari semua ��� ditunjukkan χ dan disebut dengan inertia dari tabel data
atau total inertia. Catat bahwa inersia total juga sama dengan jumlah nilai tunggal
kuadrat dari tabel data (lihat Appendix A).
Center of gravity of the rows (juga disebut centroid atau barycenter, lihat
Abdi, 2009), ditunjukkan g, adalah vektor rata-rata dari setiap kolom X. Ketika X
dipusatkan, pusat gravitasinya sama dengan vektor baris I x J 0T.
Jarak (euclidean) dari pengamatan ke-i untuk g sama dengan
��,�� = �(��,� − ��)�. (3)
�
�
Ketika data dipusatkan, persamaan 3 dikurangi menjadi
��,�� = � ��,�
� . (4)
�
�
Catat bahwa jumlah dari semua ��,�� adalah sama dengan χ yang mana merupakan
inersia dari tabel data.
3. Tujuan PCA
Tujuan dari PCA adalah untuk:
a. mengambil informasi yang paling penting dari tabel data,
b. memadatkan ukuran data dengan menjaga hanya informasi penting saja,
c. menyederhanakan deskripsi data, dan
d. menganalisa struktur pengamatan dan variabelnya.
Agar bisa mencapai tujuan ini, PCA menghitung variabel baru yang disebut
principal components yang diperoleh sebagai kombinasi linier dari variabel asli.
Komponen pokok yang pertama dibutuhkan untuk memiliki variansi yang terbesar
yang memungkinkan (contohnya inersia dan bagaimanapun komponen ini akan
10
“menjelaskan” atau “mengambil” bagian terbesar dari inersia dari tabel data).
Komponen kedua dihitung dibawah tekanan dari kejadian ortogonal untuk
komponen pertama dan memiliki inersia terbesar yang memungkinkan.
Komponen lain dihitung demikian juga (lihat Appendix A.3 untuk dasarnya). Nilai
dari variabel baru untuk pengamatan ini disebut factor scores, nilai faktor ini
diduga secara geometris sebagai projections pengamatan menjadi komponen
pokok.