REGRESI RIDGE
PROGRAM STUDI STATISTIKA
PROGRAM PASCA SARJANA
INSTITUT PERTANIAN BOGOR
2006
REGRESI RIDGE
Pendahuluan
Dalam pendugaan parameter populasi (metode klasik), inferensi mengenai populasi didasarkan sepenuhnya pada informasi yang diperoleh dari sample acak yang diambil dari populasi. Penduga yang baik adalah penduga yang tak bias, dan diantara penduga-penduga yang tak bias, penduga yang memberikan ragam minimumlah yang merupakan penduga yang efisien.
Dalam penelitian yang menggunakan regresi linear berganda, terkadang peneliti langsung melakukan pendugaan terhadap koefisien regresi untuk menemukan model regresinya. Sementara salah satu asumsi yang harus dipenuhi dalam regresi linear berganda adalah tidak adanya korelasi antar variable prediktor. Jika terjadi korelasi diantara variebel prediktor (terjadi multikolinear), maka model regresi menjadi tidak tepat lagi, karena dengan adanya multikolinear ini akan mengakibatkan ragamnya menjadi besar, dan nilai statistik t kecil, sehingga cenderung menerima H0.
Menurut Montgomery & Peck, beberapa penyebab multikolinear antara lain :
1. Dalam pengumpulan data, nilai variabel prediktor yang digunakan dibatasi.
2. Penentuan banyaknya variabel predictor lebih banyak dari pada banyaknya observasi.
3. Data time series, dimana nilai trend yang tercakup dalam variabel regresor mempunyai tingkat penurunan atau peningkatan yang sama, sejalan dengan waktu.
4. Spesifikasi model, misalnya penammbahan bentuk polynomial terhadap model regresi, khusunya ketika nilai jarak antar variabel prediktor sangat kecil.
Beberapa indikasi adanya multikolinear
1. Nilai koefisien determinasi R2 tinggi, tetapi signifikansi statistik uji t dari koefisien penduga parameter rendah.
2. Nilai koefisien determinasi R2 tinggi, tetapi koefisien korelasi parsial rendah.
3. Untuk model regresi linear berganda 2 variabel prediktor : nilai koefisien korelasi antara 2 variabel prediktornya tinggi.
4. Nilai Rj2 tinggi, indikasi variabel prediktor ke-j berkorelasi tinggi dengan sisa variabel bebas lainnya.
5. Tanda dari koefisien korelasi (antara variabel respon dengan variabel prediktor) berlawanan tanda dengan tanda dari koefisien parameter regresi.
6. Nilai VIF yang besar. Myers [1990] nilai VIF > 10 indikasi adanya multikolinear.
Besarnya kolinearitas dapat diukur dengan Variance Inflation Factor (VIF). VIF akan mengukur seberapa besar kenaikan ragam dari koefisien penduga regresi dibandingkan dengan variabel predictor yang orthogonal jika dihubungkan secara linear (Fox dan Monette, 1992). Semakin besar nilai VIF menunjukkan korelasi diantara variabel predictor tinggi. Nilai VIF > 10 menunjukkan adanya adanya kolinearitas ( Neter, Waserrman and Kutner, 1990).
Regresi Ridge
Model regresi linear berganda
Matriks X berukuran nxp, (selain baris pertama) baris ke-i menyatakan nilai pengamatan x yang menimbulkan respon ke-i. vector y menyatakan respon amatan ke-i. Vektor berukuran px1 adalah vector parameter populasi dan vektor berukuran nx1 merupakan vector galat pengamatan yang mempunyai sifat dan .
Persamaan regresi tersebut mempunyai penyelesaian
Jika kolinearitas diantara variabel prediktor kuat, maka element-element diagonal matriks besar sekali dan matriksnya menjadi singular. Sehingga pendugaan dengan metode kuadrat terkecil menghasilkan penduga koefisien regresi yang tak bias tetapi ragamnya menjadi besar. Hal ini mengakibatkan pendugaan koefisien regresi menjadi tidak akurat lagi. Dalam penelitian seringkali semua predictor harus diikutsertakan, di sisi lain korelasi diantara variabel predictor sulit dihindari.
Adanya multikolinear tersebut dapat diatasi dengan menambahkan sejumlah bias tertentu sehingga penduga ragamnya dapat diminimumkan. Karena matriks simetris dengan akar ciri maka terdapat matriks orthogonal P sehingga
Karena matriks P orthogonal, maka persamaan regresi berganda dapat dituliskan dalam bentuk kanonik,
atau
Dengan dan
Penduga dari adalah sehingga diperoleh penduga regresi ridge yaitu :
Untuk meminimumkan jumlah kuadrat galat model kanonik , ditambahkan (k+1) pengali lagrange yaitu , dimana , untuk Dengan metode kuadrat terkecil diperoleh , yang memberikan penyelesaian :
dengan , dan .
Hal tersebut sama artinya dengan menambahkan konstanta tertentu pada element-element diagonal , dan akan mengakibatkan penduga koefisien regresinya menjadi bias. Disisi lain penambahan konstanta tersebut akan membuat matriks tersebut seolah-olah orthogonal. Element-element diagonal menjadi lebih kecil, sehingga penduga koefisien regresinya menjadi lebih stabil.
Model regresi akan optimum jika minimum. Hal ini akan dipenuhi jika , untuk . Dimana diduga dengan , dan diduga dengan .
Algoritma regresi ridge
1. menentukan
2. Menentukan
3. Menentukan
4. solusi persamaan adalah
5.
6. Ulangi iterasi dari langkah 3 sampai 5, dengan pada langkah 4 dan tentukan
7. Iterasi dilakukan sampai diperoleh kestabilan
8. Diperoleh koefisien regresi ridge
Regresi ridge dilakukan dengan tujuan memperkecil ragam dari penduga koefisien regresi, walaupun penduga yang diperoleh berbias. Penduga regresi ridge dapat diperoleh dengan meminimumkan jumlah kuadrat galat dari model
dengan , . Dengan metode pengali Langrange,
diturunkan terhadap dan disamakan dengan nol maka diperoleh
Dan penduga koefisien regresi ridge adalah
Pendugaan koefisien regresi ridge dimulai dari c = 0 , sampai diperoleh nilai c yang memberikan semua koefisien regresi yang stabil. Dalam menentukan nilai c yang mana yang memberikan nilai koefisien regresi yang stabil, dapat dilakukan dengan menggambarkan grafik nilai-nilai koefisien regresi dengan tetapan c padanannya, (disebut jejak ridge).
Tahapan-tahapan dalam runut regresi adalah sebagai berikut :
1. Variabel prediktor dan variabel respon ditransformasi pembakuan menjadi variabel Z dan y*.
2. Menghitung yang merupakan matriks korelasi dari variabel prediktor.
3. Menghitung , yang merupakan matriks korelasi variabel predictor terhadap respon.
4. menghitung penduga parameter untuk berbagai tetapan c, (dimulai dari c =0).
5. Menghitung nilai dan dari berbagai tetapan c.
6. Menggambarkan jejak ridge dengan berbagai tetapan c.
7. Menetapkan nilai tetapan bias c dengan mempertimbangkan nilai VIF serta plot jejak ridge.
8. Menentukan penduga koefisien regresi ridge dari tetapan c yang memberikan pendugaan yang stabil.
Aplikasi regresi ridge
Berikut adalah data survey ekonomi di Pakistan tahun 2000-2001.
YX1X2X3X4X5
20.3019.550.2671328668.92422.2
20.0819.820.1166324871.03322.5
21.8919.760.1178337373.20522.8
22.7321.100.0779367675.44423.2
23.6219.980.0663371577.51623.4
24.1520.230.1072375080.13023.7
24.7020.300.1237381582.58024.0
25.2720.420.1000388284.25426.2
25.8520.310.0448393187.75826.5
26.4020.330.0836404790.48026.9
26.9620.610.0746442393.28627.2
27.9320.670.0483434996.18027.5
28.7021.920.0387454499.16227.9
28.9920.660.38844573102.23028.0
29.9920.730.30874595105.40928.1
30.8220.730.38544543108.67828.3
31.7820.770.38864589111.93828.6
31.7820.960.29104656111.93834.9
31.9421.060.41124849113.61036.0
32.4521.400.21294809116.47037.2
33.2921.510.61214852119.39038.4
33.6021.550.42914998122.36139.6
34.4221.680.12315072125.38740.9
36.8421.980.51204992128.42142.2
37.7321.960.40014924131.51043.6
38.5921.930.40144992134.51145.0
40.4021.990.44235081137.51247.1
41.2021.990.43285128140.47352.0
Sumber : G.R. Pasha and Muhammad Akbar Ali Shah (2004) Application of Ridge Regression to Multicollinear Data , Research, 15, 97-106.
Keterangan :Y = jumlah pekerja (juta)
X1 = luas tanah yang didirikan bangunan ( juta hektar)
X2 = tingkat inflasi (%)
X3 = jumlah bangunan
X4 = jumlah penduduk (juta)X5 = tingkat literasi (%)
Dengan program minitab, dapat diperoleh : korelasi antar variabel predictor, persamaan regresi dan anova dari data tersebut sebagai berikut :
Correlations: Y, X1, X2, X3, X4, X5
Y X1 X2 X3 X4
X1 0.892
0.000
X2 0.712 0.544
0.000 0.003
X3 0.944 0.883 0.659
0.000 0.000 0.000
X4 0.993 0.890 0.729 0.963
0.000 0.000 0.000 0.000
X5 0.957 0.870 0.681 0.867 0.951
0.000 0.000 0.000 0.000 0.000
Cell Contents: Pearson correlation
P-Value
Regression Analysis: Y versus X1, X2, X3, X4, X5
The regression equation is
Y = - 1.22 + 0.353 X1 - 1.16 X2 - 0.00201 X3 + 0.312 X4 + 0.0152 X5
Predictor Coef SE Coef T P VIF
Constant -1.217 7.119 -0.17 0.866
X1 0.3532 0.4211 0.84 0.411 6.2
X2 -1.162 1.197 -0.97 0.342 2.5
X3 -0.002007 0.001108 -1.81 0.084 26.1
X4 0.31157 0.04818 6.47 0.000 67.2
X5 0.01524 0.06405 0.24 0.814 18.5
S = 0.6700 R-Sq = 99.0% R-Sq(adj) = 98.7%
Analysis of Variance
Source DF SS MS F P
Regression 5 945.01 189.00 420.98 0.000
Residual Error 22 9.88 0.45
Total 27 954.89
Untuk mencari persamaan regresi ridge dapat digunakan program SAS sebagai berikut;SAS PROGRAMdata ridge;
input y x1 x2 x3 x4 x5;
cards;
20.3019.550.2671328668.92422.2
20.0819.820.1166324871.03322.5
21.8919.760.1178337373.20522.8
22.7321.100.0779367675.44423.2
23.6219.980.0663371577.51623.4
24.1520.230.1072375080.13023.7
24.7020.300.1237381582.58024.0
25.2720.420.1000388284.25426.2
25.8520.310.0448393187.75826.5
26.4020.330.0836404790.48026.9
26.9620.610.0746442393.28627.2
27.9320.670.0483434996.18027.5
28.7021.920.0387454499.16227.9
28.9920.660.38844573102.23028.0
29.9920.730.30874595105.40928.1
30.8220.730.38544543108.67828.3
31.7820.770.38864589111.93828.6
31.7820.960.29104656111.93834.9
31.9421.060.41124849113.61036.0
32.4521.400.21294809116.47037.2
33.2921.510.61214852119.39038.4
33.6021.550.42914998122.36139.6
34.4221.680.12315072125.38740.9
36.8421.980.51204992128.42142.2
37.7321.960.40014924131.51043.6
38.5921.930.40144992134.51145.0
40.4021.990.44235081137.51247.1
41.2021.990.43285128140.47352.0
;
proc reg;
model y=x1 x2 x3 x4 x5/collin VIF;
run;
proc reg outest=temp outstb noprint;
model y=x1 x2 x3 x4 x5/
ridge=(0 to 0.8 by 0.01)
outvif;
run;
title 'Ridge Trace';
symbol1 v=x h=0.5 c=black;
symbol2 v=circle h=0.5 c=red;
symbol3 v=square h=0.5 c=green;
symbol4 v=triangle h=0.5 c=blue;
symbol5 v=plus h=0.5 c=magenta;
legend1 label=none position=(top center inside)
mode=share;
axis1 label=(angle=90 'Ridge Coefficients');
proc gplot;
where _type_='RIDGESTB';
plot (x1 x2 x3 x4 x5)*_ridge_/ overlay legend=legend1
vaxis=axis1 vref=0;
run;
proc print;
where _type_='RIDGESTB';
where _type_='RIDGEVIF';
var _ridge_ x1 x2 x3 x4 x5;
run;
quit;
1
The REG Procedure
Model: MODEL1
Dependent Variable: y
Analysis of Variance
Sum of MeanSource DF Squares Square F Value Pr > F
Model 5 945.01288 189.00258 420.98 |t| Inflation
Intercept 1 -1.21704 7.11945 -0.17 0.8658 0
x1 1 0.35316 0.42115 0.84 0.4107 6.15852
x2 1 -1.16178 1.19653 -0.97 0.3421 2.54041
x3 1 -0.00201 0.00111 -1.81 0.0836 26.09372
x4 1 0.31157 0.04818 6.47