bab 6[1]. analisis regresi
DESCRIPTION
Analisis Regresi SederhanaTRANSCRIPT
83
BAB 6 ANALIS REGRESI
Materi pada bab ini meliputi pengujian parameter pada model regresi,
pemilihan model terbaik, asumsi-asumsi pada analisis regresi, serta penyimpangan-
penyimpangan asumsi dan cara mengatasinya.
6.1. KOMPETENSI KHUSUS
Setelah mempelajari bab ini, mahasiswa diharapkan memiliki kompetensi
sebagai berikut:
a. Dapat menduga parameter model regresi melalui pengujian parameter model
regresi, baik secara serentak maupun individu
b. Mahasiswa mengetahui dan dapat menggunakan metode pemilihan model terbaik.
c. Mahasiswa dapat menguji asumsi-asumsi pada model regresi.
d. Mahasiswa dapat mengatasi penyimpangan pada model regresi.
6.2. URAIAN MATERI
Analisis regresi adalah analisis statistika yang bertujuan untuk memodelkan
hubungan antara variabel independent dengan variabel dependent. Istilah regresi
pertamakali dikenalkan oleh Francis Galton (1886) melalui artikelnya yang berjudul
Regression Towards Mediocrity In Hereditary Stature, di dalam artikel ini Galton
mengkaji hubungan antara tinggi badan anak dengan tinggi badan orang tua. Dari
hasil kajian ini diperoleh informasi adanya hubungan antara tinggi badan anak
dengan tinggi orang-tuanya.
Model yang menggambarkan hubungan antara variabel independent (X)
dengan variabel dependent (Y) adalah:
( )y f x; ε= +β
Hubungan antara variabel independent dengan variabel dependent dikatakan linear
jika dapat dinyatakan dalam model:
84
BAB 6. ANALISIS REGRESI
0 1 1 2 2 p py x x xβ β β β ε= + + + + +L
Dalam bentuk matriks, model regresi linear dapat ditulis dalam:
= +y Xβ ε
atau
11 1 01 1
21 2 12 2
1
11
1
p
p
n np pn n
x ... xyx ... xy
x ... xy
β εβ ε
β ε
⎡ ⎤ ⎡ ⎤⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= +⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥
⎣ ⎦ ⎣ ⎦⎣ ⎦ ⎣ ⎦
M M O M MM M
Nilai vektor β dapat ditaksir dengan menggunakan metode kuadrat terkecil dengan
cara :
( ) ( )1−=β X'X X'y
dengan
0
1
p
ββ
β
⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦
βM
; ( )
11 1
21 1 11 1
211 1
n ni pii i
n ni i i pii i
n npi i pi pii i
n x ... x
x x ... x x
x x x x
= =
= =
= =
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
∑ ∑∑ ∑ ∑
∑ ∑ ∑
X'XM M O M
M
; ( )
1
11
1
nii
ni ii
npi ii
y
x y
...
x y
=
=
=
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
∑∑
∑
X'Y
Pengujian terhadap vektor β dapat dilakukan dengan dua cara yaitu pengujian secara
serentak dan pengujian secara individu.
6.2.1. Pengujian Parameter Regresi
Pengujian secera serentak
Hipotesis :
0 :H =β 0
1 :H ≠β 0
85
BAB 6. ANALISIS REGRESI
Statistik Uji
Sumber
Variasi df Sum of Squares MS F
Regresi p ∑ − 2)ˆ( YY pYY /)ˆ( 2∑ − sidualMSgresiMS
Re.Re.
Residual n-p-1 ∑ − 2)ˆ( YY )1/()ˆ( 2 −−−∑ pnYY
Total n-1 ∑ − 2)( YY
Tolak Ho jika 1, p , n pF Fα − −> .
Pengujian secara individu
Hipotesis
0 : 0jH β =
1 : 0jH β ≠
Statistik uji: ( )j jˆ ˆt sβ β=
Tolak Ho jika 2 ; n -p-1t tα>
Kegiatan Praktikum
Tentukan model yang menggambarkan hubungan antara harapan hidup
perempuan (Y) dengan pendapatan per-kapita dan kepadatan penduduk yang
dinyatakan dalam:
( ) ( )0 1 2y ln gdp _ cap ln densityβ β β= + +
Penyelesaian :
a) Melakukan transformasi ln(gdp_cap) dan ln(density) dengan cara [klik
transform+ compute]
86
BAB 6. ANALISIS REGRESI
b) Melakukan analisis regresi ;[klik+analyze+regression+linear]
87
BAB 6. ANALISIS REGRESI
dan hasilnya adalah :
Model Summary
.840a .706 .700 5.788Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), ln_gdp, ln_densa.
ANOVAb
8519.080 2 4259.540 127.141 .000a
3551.268 106 33.50312070.349 108
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), ln_gdp, ln_densa.
Dependent Variable: Average female life expectancyb.
Coefficientsa
17.981 3.501 5.136 .000.904 .388 .123 2.332 .022
6.150 .390 .831 15.766 .000
(Constant)ln_densln_gdp
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Average female life expectancya.
Seluruh nilai sig.<5% sehingga harapan hidup perempuan dipengaruhi (Y) oleh
kepadatan penduduk dan pendapatan per-kapita yang dinyatakan dalam model :
( ) ( )17 981 6 150 0 904y , , ln gdp _ cap , ln density= + +
6.2.2. Pemilihan Model Terbaik
Salah satu tujuan di dalam analisis regresi adalah untuk mendapatkan model
terbaik yang menjelaskan hubungan antara variabel independent dengan variabel
dependent, model terbaik adalah model yang seluruh koefisien regresinya berarti
(significant) dan mempunyai kriteria model terbaik optimum. Beberapa kriteria
88
BAB 6. ANALISIS REGRESI
model terbaik dan metode untuk mendapatkannya disajikan pada Tabel 6.1. dan
Tabel 6.2.
Tabel 6.1. Kriteria Model Terbaik pada Regresi
No Kriteria Formula Optimum
1 SSE ( )2
1
ni ii
ˆy y=
−∑ Minimum
2 MSE ( ) ( )2
1
11
ni ii
ˆy yn p =
−− − ∑ Minimum
3 R2 ( )( )
2
12
1
100n
iin
ii
y y%
y y=
=
−×
−
∑∑
Maksimum
4 Adjusted R2 ( ) ( )( )
2 11 1
nR
n p−
− −−
Maksimum
5 Cp Mallow ( )2SSE n pMSE
− − Minimum
6 AIC ( ) ( )2ln SSE n p n+ Minimum
7 SBC ( ) ( ) ( )ln SSE n p n ln n+ Minimum
Tabel 6.2. Metode untuk Mendapatkan Model Terbaik
Metode Penjelasan
Backward Mulai dengan model lengkap, kemudian variabel independent yang ada dievaluasi, jika ada yang tidak significant dikeluarkan yang paling tidak significant, dilakukan terus menerus sampai tidak ada lagi variabel independent yang tidak significant
Forward Variabel independent yang pertama kali masuk ke dalam model adalah variabel yang mempunyai korelasi tertinggi dan significant dengan variabel dependent, variabel yang masuk kedua adalah variabel yang korelasinya dengan variabel dependent adalah tertinggi kedua dan masih significant, dilakukan terus menerus sampai tidak ada lagi variabel independent yang significant
StepSwise Gabungan antara metode forward dan backward, variabel yang pertama kali masuk adalah variabel yang korelasinya tertinggi dan significant dengan variabel dependent, variabel yang masuk kedua adalah variabel yang korelasi parsialnya tertinggi dan masih significant, setelah variabel tertentu masuk ke dalam model maka variabel lain yang ada di dalam model dievaluasi, jika ada variabel yang tidak significant maka variabel tersebut dikeluarkan
Best
subset
regression
Metode ini tersedia di dalam program paket MINITAB. Metode ini menyajikan k buah model terbaik untuk model dengan 1,2,…,p variabel independent.
89
BAB 6. ANALISIS REGRESI
Kegiatan Praktikum
Tentukan model terbaik yang menggambarkan hubungan antara harapan hidup
perempuan (lifeexpf) dengan pendapatan perkapita (gdp_cap), persentase penduduk
yang tinggal dikota (urban), persentase penduduk yang dapat membaca (literacy),
banyaknya kematian per 1000 penduduk (death_rt), rata-rata banyaknya anak
(fertility), konsumsi makanan per-hari (calories) dengan menggunakan metode
stepwise dan best subset regression.
Penyelesaian :
a) Dengan bantuan SPSS permasalahan di atas dapat diselesaikan dengan cara [klik
analyze+regression+linear]
atau melalui syntax berikut ini:
REGRESSION
/STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT lifeexpf /METHOD=STEPWISE gdp_cap calories literacy urban death_rt.
dan hasilnya adalah:
90
BAB 6. ANALISIS REGRESI
ANOVA
7229.894 1 7229.894 222.690 .0002337.565 72 32.4669567.459 738206.309 2 4103.154 214.028 .0001361.150 71 19.1719567.459 738906.744 3 2968.915 314.544 .000
660.716 70 9.4399567.459 739017.788 4 2254.447 282.999 .000
549.672 69 7.9669567.459 73
RegressionResidualTotalRegressionResidualTotalRegressionResidualTotalRegressionResidualTotal
Model1
2
3
4
Sum ofSquares df Mean Square F Sig.
Model Summary
.869a .756 .752 5.698
.926b .858 .854 4.378
.965c .931 .928 3.072
.971d .943 .939 2.822
Model1234
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), People who read (%)a.
Predictors: (Constant), People who read (%), Deathrate per 1000 people
b.
Predictors: (Constant), People who read (%), Deathrate per 1000 people, Gross domestic product / capita
c.
Predictors: (Constant), People who read (%), Deathrate per 1000 people, Gross domestic product / capita,Daily calorie intake
d.
91
BAB 6. ANALISIS REGRESI
Coefficientsa
36.226 2.275 15.924 .000.430 .029 .869 14.923 .000
53.279 2.961 17.995 .000.330 .026 .667 12.606 .000
-.966 .135 -.378 -7.137 .000
62.740 2.350 26.699 .000.192 .024 .389 7.890 .000
-1.211 .099 -.474 -12.214 .000
.001 .000 .363 8.614 .000
54.214 3.143 17.252 .000.172 .023 .347 7.456 .000
-1.136 .093 -.444 -12.178 .000
.000 .000 .252 5.170 .000
.004 .001 .186 3.734 .000
(Constant)People who read (%(Constant)People who read (%Death rate per 1000people(Constant)People who read (%Death rate per 1000peopleGross domesticproduct / capita(Constant)People who read (%Death rate per 1000peopleGross domesticproduct / capitaDaily calorie intake
Model1
2
3
4
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Average female life expectancya.
Sehingga model terbaiknya adalah :
( ) ( ) ( ) ( )54 214 0 172 1 136 0 000 0 004lifeexp , , literacy , death_rt , gdp_cap , calorie= + − + +
dengan R2= 0.943
b) Dengan menggunakan best subset regression :[klik stat+regression+best subset]
sehingga diperoleh hasil sebagai berikut:
92
BAB 6. ANALISIS REGRESI
Response is LIFEEXPF L C D I G A E T D L A U E P O T R R _ R H B A C I _ A C A E R Vars R-Sq R-Sq(adj) C-p S N Y P S T 1 75.6 75.2 225.8 5.6979 X 1 60.2 59.6 412.2 7.2752 X 1 59.8 59.3 416.2 7.3055 X 2 86.9 86.6 90.3 4.1981 X X 2 85.8 85.4 103.5 4.3686 X X 2 83.7 83.3 128.9 4.6816 X X 3 93.1 92.8 17.5 3.0711 X X X 3 92.1 91.7 30.1 3.2935 X X X 3 89.6 89.2 59.8 3.7688 X X X 4 94.3 93.9 5.5 2.8207 X X X X 4 93.5 93.1 15.1 3.0095 X X X X 4 92.5 92.1 26.2 3.2150 X X X X 5 94.4 94.0 6.0 2.8112 X X X X X
Dengan menggunakan criteria Cp-Mallows dan MSE terkecil diperoleh model
terbaik yang mengandung variabel literacy, gdp_cap, calories dan death_rt, hasil ini
sama dengan metode stepwise
6.2.3. Asumsi dalam Analisis Regresi
Model linear yang menggambarkan hubungan antara variabel independent dan
variabel dependent adalah :
0 1 1 2 2 p py x x xβ β β β ε= + + + + +L
Asumsi yang diperlukan untuk model ini adalah:
a. ( )20~ N ,ε σ
b. ( ) 2ivar ε σ= untuk semua i
c. ( ) 0i jcov ,ε ε = untuk i≠j
d. Antar variabel independen saling bebas
93
BAB 6. ANALISIS REGRESI
Asumsi-asumsi di atas kadang-kadang tidak dipenuhi, untuk mendeteksi dan
mengatasi adanya masalah pelanggaran asumsi di atas dapat dilakukan langkah-
langkah pada Tabel 6.3. berikut ini:
Tabel 6.3. Penyimpangan Asumsi pada Model Regresi dan Cara Mengatasinya
No. Masalah Deteksi Penyelesaian
1 Residual tidak
Berdistribusi
normal
Normal probability plot
Uji kenormalan,
misalnya uji KS
Tranformasi variabel
Regresi bootstrap
2 Hetroscedastivity
( ) 2ivar ε σ≠
Plot e dengan y
Uji Glesjer, White
Uji Golfeld-Quandt
Transformasi variabel
Weighted Least Squares
3 Autocorrelation
( ) 0i jcov ,ε ε ≠
untuk i≠j
Plot e dengan y
Uji Durbin Watson
ACF plot
Regresi beda,
Regresi ratio,
Memasukkan trend,
Cochrane Orcutt,
Hildreth-Lu,
Durbin, Prais-Winsten
4 Multicollinearity ( )i jr X ,X tinggi,
VIF > 10, 0' ≈XX
R2 tinggi tetapi tidak
ada yang significant
stepwise
Principal component reg.
Ridge regression
6.2.3.1. Heteroscedastisitas dan Normalitas
Heteroscedasticity adalah sifat residual yang mempunyai varians yang tidak
homogen, atau :
iii ωσσε 22)var( ==
Untuk memeriksa sifat ini dapat dipergunakan scatter-plot antara residual
yang sudah dibakukan dengan nilai y , jika scatter plot membentuk gambar seperti
pola sebelah kiri berikut maka varians residual masih dianggap konstan dan jika
94
BAB 6. ANALISIS REGRESI
membentuk pola seperi sebelah kanan maka varians residual cenderung tidak
homogen.
(a)
(b)
Gambar 6.1. Plot Untuk Uji Homogenitas Varians
Selain dengan menggunakan scatter-plot seperti di atas, keberadaan
hetrocedasticity juga dapat diuji dengan menggunakan uji Glejser dengan cara
meregresikan kuadrad atau harga mutlak residual dengan variabel independent, jika
ada variabel independent yang significant maka varians residual cenderung tidak
homogen, untuk mengatasi hal ini biasanya dilakukan transformasi dengan cara
membagi seluruh nilai variabel dengan variabel yang significant, atau:
Jika 1e k.x= . maka dilakukan transformasi sebagai berikut :
...1
1
33
1
22
1
11
10
1
++++=xx
xx
xx
xxy ββββ
atau
...*33
*22
*101
* ++++= xxxy ββββ
Koefisien regresi dari model ini kemudian ditaksir dengan menggunakan metode
kuadrat terkecil sehingga diperoleh:
...*33
*22
*101
* ++++= xbxbxbby
Kemudian model ini dikembalikan ke variabel asal dengan menggandakan ruas kiri
dan ruas kanan dengan x1 sehingga diperoleh :
...3322101 ++++= xbxbxbby
95
BAB 6. ANALISIS REGRESI
Secara umum masalah heterocedasticity dapat diatasi dengan mengguna-kan
metode weighted least-squares yaitu:
( ) 1ˆ −= -1 -1β X'Ω X XΩ y
dengan Ω adalah matriks diagonal dengan unsur diagonal adalah iω
Selain dengan menggunakan uji Glejser, uji adanya heteroscedasticity dapat
diuji dengan koefisien korelasi Spearman antara residual dengan variabel
independent, jika korelasi ini significant maka cenderung terjadi kasus
hetroscedasticity.
Koefisien korelasi Spearman dihitung dengan cara :
)1(6
1 2
2
−−= ∑
nnD
r
dengan D adalah selisih rank antar dua variabel.
Kegiatan Praktikum :
Dengan menggunakan uji Glejser, periksalah adanya kasus heteroscedasticity
untuk data berikut:
Year Saving Income Year Saving Income Year Saving Income 1 264 8777 12 950 17663 23 2105 295602 105 9210 13 779 18575 24 1600 281503 90 9954 14 819 19635 25 2250 321004 131 10508 15 1222 21163 26 2420 325005 122 10979 16 1702 22880 27 2570 352506 107 11912 17 1578 24127 28 1720 335007 406 12747 18 1654 25604 29 1900 360008 503 13499 19 1400 26500 30 2100 362009 431 14269 20 1829 27670 31 2300 38200
10 588 15522 21 2200 2830011 898 16730 22 2017 27430
Penyelesaian :
Dengan bantuan MINITAB permasalahan di atas, dapat diselesaikan dengan
cara:
96
BAB 6. ANALISIS REGRESI
MTB > regr 'saving' 1 'income'; SUBC> fits c11; SUBC> resid c12.
dan hasilnya adalah: The regression equation is saving = - 648 + 0.0847 income
Predictor Coef SE Coef T P Constant -648.1 118.2 -5.49 0.000 income 0.084665 0.004882 17.34 0.000
S = 247.6 R-Sq = 91.2% R-Sq(adj) = 90.9%
Untuk melakukan uji Glejser, dilakukan perintah :
MTB > let c13=abs(c12) MTB > name c13='abs_res' MTB > regr 'abs_res' 1 'income'
The regression equation is abs_res = - 7.7 + 0.00935 income
Predictor Coef SE Coef T P Constant -7.69 47.73 -0.16 0.873 income 0.009346 0.001972 4.74 0.000 S = 100.0 R-Sq = 43.6% R-Sq(adj) = 41.7%
Dari hasil uji Glejser ini, diperoleh informasi adanya hubungan antara variabel
harga mutlak residual dengan variabel income sehingga terjadi kasus
heteroscedasticity. Karena nilai harga mutlak residual sebanding dengan nilai
income maka selanjutnya dilakukan analisis regresi untuk model :
( ) ( )0 1 1saving income incomeβ β ε= + +
Dengan bantuan MINITAB analisis regresi untuk model di atas dapat dilakukan
dengan cara :
MTB > let c4=saving/income MTB > let c5=1/income MTB > name c4='y*' c5='x*' MTB > regr 'y*' 1 'x*';
97
BAB 6. ANALISIS REGRESI
SUBC> resid c21.
dan hasilnya adalah:
The regression equation is y* = 0.0881 - 723 x* Predictor Coef SE Coef T P Constant 0.088139 0.004372 20.16 0.000 x* -722.50 72.36 -9.98 0.000 S = 0.01051 R-Sq = 77.5% R-Sq(adj) = 76.7%
Pengujian adanya heteroscedasticity dengan uji Glejser
MTB > let c22=abs(c21) MTB > name c22='absres' MTB > regr 'absres' 1 'income'
Hasil pengujian Glejser
The regression equation is absres = 0.00793 +0.000000 income Predictor Coef SE Coef T P Constant 0.007931 0.002608 3.04 0.005 income 0.00000003 0.00000011 0.31 0.760 S = 0.005465 R-Sq = 0.3% R-Sq(adj) = 0.0%
Nilai p untuk variabel income >5% sehingga tidak ada hubungan antara harga mutlak
residual dengan income atau varians residual cenderung sudah homogen.
Sedangkan asumsi kenormalan residual dapat diuji dengan cara :
MTB > %NormPlot C21; SUBC> Kstest.
Hasil uji kenormalan dengan menggunakan uji Kolmogorov Smirnov adalah :
98
BAB 6. ANALISIS REGRESI
Gambar 6.2. Hasil Uji Kenormalan Data
Hasil pengujian Komogorov Smirnov, diperoleh hasil p-value>5% sehingga dapat
diputuskan residual sudah berdistribusi normal.
Model yang menggambarkan hubungan antara saving dengan income setelah
dilakukan transfromasi adalah:
y* = 0.0881 – 723 x* atau
( ) ( )0 0881 723 1saving income , income= −
Ruas kiri dan kanan digandakan dengan income maka diperoleh :
723 0 0881saving , income= − +
6.2.3.2. Autokorelasi
Autocorrelation berarti ada hubungan antar residual atau residual bersifat tidak
saling independent, kasus ini sering dijumpai pada data time series. Autocorrelation
dapat dideteksi dengan metode-metode berikut ini:
a) Statistik uji Durbin-Watson :
∑
∑
=
=−−
= n
ii
n
iii
e
eed
1
2
2
21 )(
99
BAB 6. ANALISIS REGRESI
b) ACF plot, ada nilai ( )t t kr e ,e − melampaui batas ( )0 2 n± maka residual tidak
saling independent
c) Statistik uji Ljung-Box
∑= −
+=k
j
j
jnr
nnQ1
2
)2(
Tolak Ho atau residual saling independent jika 2;kQ αχ> .
pelanggaran asumsi model regresi, yaitu residual yang saling dependent dapat
diatasi dengan:
a. Regresi beda
ttttt xxyy εββ +−+=− −− )( 1101
b. Regresi Nisbah
tt
t
t
t
xx
yy
εββ ++=−− 1
101
1 0 1 1t t t t ty .y ( x x )ρ β β ρ ε− −− = + − +
Kegiatan Praktikum
tahun export gdp tahun export gdp tahun export gdp 1970 102 255 1980 106 259 1990 112 268 1971 105 261 1981 106 258 1991 114 271 1972 105 261 1982 106 257 1992 113 269 1973 105 260 1983 106 257 1993 112 266 1974 104 257 1984 108 261 1994 114 270 1975 104 257 1985 108 261 1995 113 267 1976 106 261 1986 109 262 1996 117 276 1977 106 260 1987 110 264 1997 117 276 1978 105 257 1988 113 271 1998 117 276 1979 106 259 1989 113 271 1999 117 275
Tentukan model yang menggambarkan hubungan antara gdp dengan export dan periksa
apakah residual sudah saling independent.
Penyelesaian
a. Penentuan model regresi dan pemeriksaan asumsi independent residual
100
BAB 6. ANALISIS REGRESI
MTB > regr ‘gdp’ 1 ‘export’;
SUBC > resid c5.
The regression equation is gdp = 110 + 1.41 export Predictor Coef SE Coef T P Constant 110.354 6.839 16.14 0.000 export 1.40664 0.06251 22.50 0.000 S = 1.549 R-Sq = 94.8% R-Sq(adj) = 94.6%
MTB > %acf c5
Gambar 6.3. Plot Autokorelasi (ACF)
Nilai autokorelasi residual keluar dari batas pada lag ke-1 sehingga residual tidak
saling independent.
b. Mengatasi autocorrelation dengan regresi beda
MTB > diff 'export' c7 MTB > diff 'gdp' c8 MTB > name c7 'dif_xprt' c8 'diff_gdp' MTB > regr c8 1 c7; SUBC> resid c9.
101
BAB 6. ANALISIS REGRESI
The regression equation is diff_gdp = - 0.488 + 2.28 dif_xprt 29 cases used 1 cases contain missing values Predictor Coef SE Coef T P Constant -0.48789 0.09875 -4.94 0.000 dif_xprt 2.27658 0.06924 32.88 0.000 S = 0.4956 R-Sq = 97.6% R-Sq(adj) = 97.5%
MTB > %acf c9
Gambar 6.4. Plot Autokorelasi (ACF)
residual sudah saling independent, sehingga model regresinya adalah:
)exp(exp28.2488.0)( 11 −− −+−=− tttt ortortgdpgdp
c. Mengatasi autocorrelation dengan regresi nisbah
MTB > let c11=c2/lag(c2) MTB > let c12=c3/lag(c3) MTB > regr c12 1 c11; SUBC> resid c13.
The regression equation is C12 = 0.0563 + 0.942 C11 29 cases used 1 cases contain missing values Predictor Coef SE Coef T P Constant 0.05627 0.02957 1.90 0.068 C11 0.94186 0.02942 32.01 0.000 S = 0.001930 R-Sq = 97.4% R-Sq(adj) = 97.3%
102
BAB 6. ANALISIS REGRESI
MTB > %acf c13
Gambar 6.5. Plot Autokorelasi (ACF)
residual sudah saling independent, sehingga model regresinya adalah
11 expexp
942.00563.0−−
+=t
t
t
t
ortort
gdpgdp
6.2.3.3. Multikolinearitas
Multicollinearity adalah Adanya hubungan linear antar variabel independent.
Multicollinearity dapat dideteksi dengan cara berikut:
a. Variance Inflation Factor (VIF) yang tinggi, biasanya>10
b. korelasi antar variabel independent yang tinggi
c. 0' ≈XX
d. R2 tinggi tetapi tidak ada variabel independent yang significant
e. Koefisien korelasi dan koefisien regresi berbeda tanda
Multicollinearity dapat diatasi dengan metode berikut ini:
a. Mengeluarkan salah satu variabel independent yang berkorelasi tinggi dengan
variabel independent yang lain. Pengeluaran variabel ini dapat dilakukan secara
manual ataupun otomatis melalui metode stepwise.
b. Ridge Regression. Penaksiran koefisien parameter model regresi pada ridge
regression adalah
103
BAB 6. ANALISIS REGRESI
( ) 1ˆ k −= +β X'X I X'y , untuk 0 1k< < .
c. Principal Component Regression (PCR). Langkah-langkah dari metode PCR
adalah sebagai berikut:
• Melakukan pembakuan (pen-stadar-an) data : s
xxz −=
• Membangkitkan variabel baru yang saling independent
1 11 1 12 2 1
2 21 1 22 2 2
1 2 2
p p
p p
p p p pp p
w a x a x a xw a x a x a x
w a x a x a x
= + + +
= + + +
= + + +
L
L
M
L
atau
i i′=w a x , dengan i′a adalah eigen-vector dari eigen-value ke-i yang dihitung
dari matriks korelasi antar variabel independent
• Melakukan regresi y dengan w dan mensubstitusi mundur ke dalam model asal,
yaitu model y dengan x.
6.3. KEGIATAN PRAKTIKUM
1. Periksa adanya kasus multicollinearity pada pemodelan harapan hidup perempuan
dengan pendapatan perkapita persentase penduduk yang tinggal di kota,
persentase perempuan yang dapat membaca, persentase laki-laki yang dapat
membaca di region Amerika Latin
2. Jika ada kasus multicollinearity, atasi dengan beberapa metode untuk mengatasi
multicollinearity
Penyelesaian
a. Memilih data dari region Amerika Latin klik [ data+select cases+if ]
104
BAB 6. ANALISIS REGRESI
b. Memeriksa adanya kasus multicollinearity dengan menentukan matriks korelasi antar variabel independent, klik [analyze+correlate+bivariate]
Correlations
1 .550** .500* .833** .756**
.550** 1 .285 .617** .581**
.500* .285 1 .578** .542*
.833** .617** .578** 1 .956**
.756** .581** .542* .956** 1
Average female lifeexpectancyGross domestic product /
itPeople living in cities (%)Females who read (%)Males who read (%)
Averagefemale lifeexpectancy
Grossdomesticproduct /
capita
Peopleliving incities(%)
Femaleswho read
(%)
Maleswhoread(%)
Correlation is significant at the 0.01 level (2-tailed).**.
Correlation is significant at the 0.05 level (2-tailed).*.
105
BAB 6. ANALISIS REGRESI
Korelasi antar variabel independent cukup tinggi dan significant segingga ada
kecenderungan terjadi kasus multicollinearity.
c. Memeriksa adanya kasus multicollinearity dengan VIF
klik [analyze+regression+linear]
kemudian klik [statistics]
106
BAB 6. ANALISIS REGRESI
Coefficientsa
45.921 8.483 5.413 .000
.000 .001 .320 .753 1.640
.011 .068 .159 .875 1.525
-.273 .274 -.997 .334 11.573.594 .238 2.498 .024 13.289
(Constant)Gross domestic product/ capitaPeople living in cities(%)Males who read (%)Females who read (%)
B Std. Error
UnstandardizedCoefficients
t Sig. VIF
CollinearityStatistics
Dependent Variable: Average female life expectancya.
Ada variabel independent yang nilai VIF>10 dan tanda koefisien regresi untuk
males who read negatif sedangkan koefisien korelasinya positif sehingga memang
ada kasus multicollinearity.
d. Mengatasi multicollinearity dengan metode stepwise : klik [analyze + regression
+ linear + method stepwise]
Coefficientsa
39.013 5.077 7.684 .000.406 .062 6.557 .000 1.000
(Constant)Females who read (%)
Model1
B Std. Error
UnstandardizedCoefficients
t Sig. VIF
CollinearityStatistics
Dependent Variable: Average female life expectancya.
e. Mengatasi multicollinearity dengan ridge regression : klik [file + new + syntax]
107
BAB 6. ANALISIS REGRESI
klik [Run +All] R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K K RSQ GDP_CAP URBAN LIT_FEMA LIT_MALE ______ ______ ________ ________ ________ ________ .00000 .71418 .054792 .026292 1.216924 -.453266 .05000 .69610 .094060 .064195 .727695 -.027707 .10000 .68316 .108722 .079079 .576309 .089996 .15000 .67496 .116972 .087904 .499551 .141542 .20000 .66894 .122256 .093883 .451628 .168551 .25000 .66400 .125810 .098171 .418018 .183994 .30000 .65966 .128228 .101326 .392635 .193180 .35000 .65564 .129847 .103668 .372467 .198665 .40000 .65182 .130880 .105402 .355839 .201821 .45000 .64811 .131470 .106666 .341745 .203441 .50000 .64445 .131719 .107560 .329540 .204016 .55000 .64083 .131700 .108158 .318790 .203861 .60000 .63722 .131470 .108517 .309190 .203186 .65000 .63360 .131071 .108681 .300520 .202137 .70000 .62999 .130537 .108683 .292617 .200817 .75000 .62637 .129895 .108551 .285355 .199298 .80000 .62273 .129165 .108309 .278639 .197636 .85000 .61909 .128365 .107975 .272392 .195871 .90000 .61544 .127509 .107564 .266551 .194033 .95000 .61179 .126608 .107088 .261068 .192146 1.0000 .60813 .125671 .106558 .255901 .190227
Besarnya k dipilih sedemikian hingga nilai koefisien regresinya dianggap sudah
tidak berubah lagi, besarnya k yang memenuhi kriteria ini adalah k=0.35,
pemilihan k ini juga dapat ditentukan berdasarkan gambar berikut:
108
BAB 6. ANALISIS REGRESI
Gambar 6.6. Iterasi pada Regresi Ridge
f. Mengatasi multicollinearity dengan principal component regression
1. Menentukan skor komponen (w1, w2,…)
MTB > PCA 'GDP_CAP' 'URBAN' 'LIT_MALE' 'LIT_FEMA'; SUBC> Coefficients c41-c44; SUBC> Scores c51-c54.
Eigenanalysis of the Correlation Matrix
Eigenvalue 2.8278 0.7163 0.4141 0.0419 Proportion 0.707 0.179 0.104 0.010 Cumulative 0.707 0.886 0.990 1.000
Variable PC1 PC2 PC3 PC4 GDP_CAP -0.435 0.655 -0.616 0.049 URBAN -0.414 -0.755 -0.506 0.046 LIT_MALE -0.560 0.028 0.478 0.676 LIT_FEMA -0.571 0.022 0.368 -0.734
2. Meregresikan y dengan w
Hanya w1 yang eigen-value-nya >1 sehingga regresinya hanya dengan w1 MTB > regr 'lifeexpf' 1 'w1'
The regression equation is LIFEEXPF = 71.8 - 3.51 w1 Predictor Coef SE Coef T P Constant 71.7619 0.9930 72.26 0.000 w1 -3.5140 0.6051 -5.81 0.000
109
BAB 6. ANALISIS REGRESI
3. Menyatakan model regresi ke dalam variabel asal
171 8 3 51y , , w= − ( )1 2 3 471 8 3 51 0 435 0 414 0 560 0 571y , , . z . z . z . z= − − − − −
1 2 3 471 8 1 53 1 45 1 97 2 00y , , z , z , z , z= + + + +
4321
44332211 297.145.153.18.71xxxx s
xxs
xxs
xxs
xxy
−+
−+
−+
−+=