bab 6[1]. analisis regresi

83

BAB 6 ANALIS REGRESI

Materi pada bab ini meliputi pengujian parameter pada model regresi,

pemilihan model terbaik, asumsi-asumsi pada analisis regresi, serta penyimpangan-

penyimpangan asumsi dan cara mengatasinya.

6.1. KOMPETENSI KHUSUS

Setelah mempelajari bab ini, mahasiswa diharapkan memiliki kompetensi

sebagai berikut:

a. Dapat menduga parameter model regresi melalui pengujian parameter model

regresi, baik secara serentak maupun individu

b. Mahasiswa mengetahui dan dapat menggunakan metode pemilihan model terbaik.

c. Mahasiswa dapat menguji asumsi-asumsi pada model regresi.

d. Mahasiswa dapat mengatasi penyimpangan pada model regresi.

6.2. URAIAN MATERI

Analisis regresi adalah analisis statistika yang bertujuan untuk memodelkan

hubungan antara variabel independent dengan variabel dependent. Istilah regresi

pertamakali dikenalkan oleh Francis Galton (1886) melalui artikelnya yang berjudul

Regression Towards Mediocrity In Hereditary Stature, di dalam artikel ini Galton

mengkaji hubungan antara tinggi badan anak dengan tinggi badan orang tua. Dari

hasil kajian ini diperoleh informasi adanya hubungan antara tinggi badan anak

dengan tinggi orang-tuanya.

Model yang menggambarkan hubungan antara variabel independent (X)

dengan variabel dependent (Y) adalah:

( )y f x; ε= +β

Hubungan antara variabel independent dengan variabel dependent dikatakan linear

jika dapat dinyatakan dalam model:

84

BAB 6. ANALISIS REGRESI

0 1 1 2 2 p py x x xβ β β β ε= + + + + +L

Dalam bentuk matriks, model regresi linear dapat ditulis dalam:

= +y Xβ ε

atau

11 1 01 1

21 2 12 2

1

11

1

p

p

n np pn n

x ... xyx ... xy

x ... xy

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= +⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥

⎣ ⎦ ⎣ ⎦⎣ ⎦ ⎣ ⎦

M M O M MM M

Nilai vektor β dapat ditaksir dengan menggunakan metode kuadrat terkecil dengan

cara :

( ) ( )1−=β X'X X'y

dengan

0

1

p

ββ

β

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦

βM

; ( )

11 1

21 1 11 1

211 1

n ni pii i

n ni i i pii i

n npi i pi pii i

n x ... x

x x ... x x

x x x x

= =

= =

= =

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

∑ ∑∑ ∑ ∑

∑ ∑ ∑

X'XM M O M

M

; ( )

1

11

1

nii

ni ii

npi ii

y

x y

...

x y

=

=

=

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

∑∑

∑

X'Y

Pengujian terhadap vektor β dapat dilakukan dengan dua cara yaitu pengujian secara

serentak dan pengujian secara individu.

6.2.1. Pengujian Parameter Regresi

Pengujian secera serentak

Hipotesis :

0 :H =β 0

1 :H ≠β 0

85


Statistik Uji

Sumber

Variasi df Sum of Squares MS F

Regresi p ∑ − 2)ˆ( YY pYY /)ˆ( 2∑ − sidualMSgresiMS

Re.Re.

Residual n-p-1 ∑ − 2)ˆ( YY )1/()ˆ( 2 −−−∑ pnYY

Total n-1 ∑ − 2)( YY

Tolak Ho jika 1, p , n pF Fα − −> .

Pengujian secara individu

Hipotesis

0 : 0jH β =

1 : 0jH β ≠

Statistik uji: ( )j jˆ ˆt sβ β=

Tolak Ho jika 2 ; n -p-1t tα>

Kegiatan Praktikum

Tentukan model yang menggambarkan hubungan antara harapan hidup

perempuan (Y) dengan pendapatan per-kapita dan kepadatan penduduk yang

dinyatakan dalam:

( ) ( )0 1 2y ln gdp _ cap ln densityβ β β= + +

Penyelesaian :

a) Melakukan transformasi ln(gdp_cap) dan ln(density) dengan cara [klik

transform+ compute]

86


b) Melakukan analisis regresi ;[klik+analyze+regression+linear]

87


dan hasilnya adalah :

Model Summary

.840a .706 .700 5.788Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), ln_gdp, ln_densa.

ANOVAb

8519.080 2 4259.540 127.141 .000a

3551.268 106 33.50312070.349 108

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), ln_gdp, ln_densa.

Dependent Variable: Average female life expectancyb.

Coefficientsa

17.981 3.501 5.136 .000.904 .388 .123 2.332 .022

6.150 .390 .831 15.766 .000

(Constant)ln_densln_gdp

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Average female life expectancya.

Seluruh nilai sig.<5% sehingga harapan hidup perempuan dipengaruhi (Y) oleh

kepadatan penduduk dan pendapatan per-kapita yang dinyatakan dalam model :

( ) ( )17 981 6 150 0 904y , , ln gdp _ cap , ln density= + +

6.2.2. Pemilihan Model Terbaik

Salah satu tujuan di dalam analisis regresi adalah untuk mendapatkan model

terbaik yang menjelaskan hubungan antara variabel independent dengan variabel

dependent, model terbaik adalah model yang seluruh koefisien regresinya berarti

(significant) dan mempunyai kriteria model terbaik optimum. Beberapa kriteria

88


model terbaik dan metode untuk mendapatkannya disajikan pada Tabel 6.1. dan

Tabel 6.2.

Tabel 6.1. Kriteria Model Terbaik pada Regresi

No Kriteria Formula Optimum

1 SSE ( )2

1

ni ii

ˆy y=

−∑ Minimum

2 MSE ( ) ( )2

1

11

ni ii

ˆy yn p =

−− − ∑ Minimum

3 R2 ( )( )

2

12

1

100n

iin

ii

y y%

y y=

=

−×

−

∑∑

Maksimum

4 Adjusted R2 ( ) ( )( )

2 11 1

nR

n p−

− −−

Maksimum

5 Cp Mallow ( )2SSE n pMSE

− − Minimum

6 AIC ( ) ( )2ln SSE n p n+ Minimum

7 SBC ( ) ( ) ( )ln SSE n p n ln n+ Minimum

Tabel 6.2. Metode untuk Mendapatkan Model Terbaik

Metode Penjelasan

Backward Mulai dengan model lengkap, kemudian variabel independent yang ada dievaluasi, jika ada yang tidak significant dikeluarkan yang paling tidak significant, dilakukan terus menerus sampai tidak ada lagi variabel independent yang tidak significant

Forward Variabel independent yang pertama kali masuk ke dalam model adalah variabel yang mempunyai korelasi tertinggi dan significant dengan variabel dependent, variabel yang masuk kedua adalah variabel yang korelasinya dengan variabel dependent adalah tertinggi kedua dan masih significant, dilakukan terus menerus sampai tidak ada lagi variabel independent yang significant

StepSwise Gabungan antara metode forward dan backward, variabel yang pertama kali masuk adalah variabel yang korelasinya tertinggi dan significant dengan variabel dependent, variabel yang masuk kedua adalah variabel yang korelasi parsialnya tertinggi dan masih significant, setelah variabel tertentu masuk ke dalam model maka variabel lain yang ada di dalam model dievaluasi, jika ada variabel yang tidak significant maka variabel tersebut dikeluarkan

Best

subset

regression

Metode ini tersedia di dalam program paket MINITAB. Metode ini menyajikan k buah model terbaik untuk model dengan 1,2,…,p variabel independent.

89


Kegiatan Praktikum

Tentukan model terbaik yang menggambarkan hubungan antara harapan hidup

perempuan (lifeexpf) dengan pendapatan perkapita (gdp_cap), persentase penduduk

yang tinggal dikota (urban), persentase penduduk yang dapat membaca (literacy),

banyaknya kematian per 1000 penduduk (death_rt), rata-rata banyaknya anak

(fertility), konsumsi makanan per-hari (calories) dengan menggunakan metode

stepwise dan best subset regression.

Penyelesaian :

a) Dengan bantuan SPSS permasalahan di atas dapat diselesaikan dengan cara [klik

analyze+regression+linear]

atau melalui syntax berikut ini:

REGRESSION

/STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT lifeexpf /METHOD=STEPWISE gdp_cap calories literacy urban death_rt.

dan hasilnya adalah:

90


ANOVA

7229.894 1 7229.894 222.690 .0002337.565 72 32.4669567.459 738206.309 2 4103.154 214.028 .0001361.150 71 19.1719567.459 738906.744 3 2968.915 314.544 .000

660.716 70 9.4399567.459 739017.788 4 2254.447 282.999 .000

549.672 69 7.9669567.459 73

RegressionResidualTotalRegressionResidualTotalRegressionResidualTotalRegressionResidualTotal

Model1

2

3

4

Sum ofSquares df Mean Square F Sig.

Model Summary

.869a .756 .752 5.698

.926b .858 .854 4.378

.965c .931 .928 3.072

.971d .943 .939 2.822

Model1234

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), People who read (%)a.

Predictors: (Constant), People who read (%), Deathrate per 1000 people

b.

Predictors: (Constant), People who read (%), Deathrate per 1000 people, Gross domestic product / capita

c.

Predictors: (Constant), People who read (%), Deathrate per 1000 people, Gross domestic product / capita,Daily calorie intake

d.

91


Coefficientsa

36.226 2.275 15.924 .000.430 .029 .869 14.923 .000

53.279 2.961 17.995 .000.330 .026 .667 12.606 .000

-.966 .135 -.378 -7.137 .000

62.740 2.350 26.699 .000.192 .024 .389 7.890 .000

-1.211 .099 -.474 -12.214 .000

.001 .000 .363 8.614 .000

54.214 3.143 17.252 .000.172 .023 .347 7.456 .000

-1.136 .093 -.444 -12.178 .000

.000 .000 .252 5.170 .000

.004 .001 .186 3.734 .000

(Constant)People who read (%(Constant)People who read (%Death rate per 1000people(Constant)People who read (%Death rate per 1000peopleGross domesticproduct / capita(Constant)People who read (%Death rate per 1000peopleGross domesticproduct / capitaDaily calorie intake

Model1

2

3

4

B Std. Error


Beta

StandardizedCoefficients

t Sig.


Sehingga model terbaiknya adalah :

( ) ( ) ( ) ( )54 214 0 172 1 136 0 000 0 004lifeexp , , literacy , death_rt , gdp_cap , calorie= + − + +

dengan R2= 0.943

b) Dengan menggunakan best subset regression :[klik stat+regression+best subset]

sehingga diperoleh hasil sebagai berikut:

92


Response is LIFEEXPF L C D I G A E T D L A U E P O T R R _ R H B A C I _ A C A E R Vars R-Sq R-Sq(adj) C-p S N Y P S T 1 75.6 75.2 225.8 5.6979 X 1 60.2 59.6 412.2 7.2752 X 1 59.8 59.3 416.2 7.3055 X 2 86.9 86.6 90.3 4.1981 X X 2 85.8 85.4 103.5 4.3686 X X 2 83.7 83.3 128.9 4.6816 X X 3 93.1 92.8 17.5 3.0711 X X X 3 92.1 91.7 30.1 3.2935 X X X 3 89.6 89.2 59.8 3.7688 X X X 4 94.3 93.9 5.5 2.8207 X X X X 4 93.5 93.1 15.1 3.0095 X X X X 4 92.5 92.1 26.2 3.2150 X X X X 5 94.4 94.0 6.0 2.8112 X X X X X

Dengan menggunakan criteria Cp-Mallows dan MSE terkecil diperoleh model

terbaik yang mengandung variabel literacy, gdp_cap, calories dan death_rt, hasil ini

sama dengan metode stepwise

6.2.3. Asumsi dalam Analisis Regresi

Model linear yang menggambarkan hubungan antara variabel independent dan

variabel dependent adalah :

0 1 1 2 2 p py x x xβ β β β ε= + + + + +L

Asumsi yang diperlukan untuk model ini adalah:

a. ( )20~ N ,ε σ

b. ( ) 2ivar ε σ= untuk semua i

c. ( ) 0i jcov ,ε ε = untuk i≠j

d. Antar variabel independen saling bebas

93


Asumsi-asumsi di atas kadang-kadang tidak dipenuhi, untuk mendeteksi dan

mengatasi adanya masalah pelanggaran asumsi di atas dapat dilakukan langkah-

langkah pada Tabel 6.3. berikut ini:

Tabel 6.3. Penyimpangan Asumsi pada Model Regresi dan Cara Mengatasinya

No. Masalah Deteksi Penyelesaian

1 Residual tidak

Berdistribusi

normal

Normal probability plot

Uji kenormalan,

misalnya uji KS

Tranformasi variabel

Regresi bootstrap

2 Hetroscedastivity

( ) 2ivar ε σ≠

Plot e dengan y

Uji Glesjer, White

Uji Golfeld-Quandt

Transformasi variabel

Weighted Least Squares

3 Autocorrelation

( ) 0i jcov ,ε ε ≠

untuk i≠j

Plot e dengan y

Uji Durbin Watson

ACF plot

Regresi beda,

Regresi ratio,

Memasukkan trend,

Cochrane Orcutt,

Hildreth-Lu,

Durbin, Prais-Winsten

4 Multicollinearity ( )i jr X ,X tinggi,

VIF > 10, 0' ≈XX

R2 tinggi tetapi tidak

ada yang significant

stepwise

Principal component reg.

Ridge regression

6.2.3.1. Heteroscedastisitas dan Normalitas

Heteroscedasticity adalah sifat residual yang mempunyai varians yang tidak

homogen, atau :

iii ωσσε 22)var( ==

Untuk memeriksa sifat ini dapat dipergunakan scatter-plot antara residual

yang sudah dibakukan dengan nilai y , jika scatter plot membentuk gambar seperti

pola sebelah kiri berikut maka varians residual masih dianggap konstan dan jika

94


membentuk pola seperi sebelah kanan maka varians residual cenderung tidak

homogen.

(a)

(b)

Gambar 6.1. Plot Untuk Uji Homogenitas Varians

Selain dengan menggunakan scatter-plot seperti di atas, keberadaan

hetrocedasticity juga dapat diuji dengan menggunakan uji Glejser dengan cara

meregresikan kuadrad atau harga mutlak residual dengan variabel independent, jika

ada variabel independent yang significant maka varians residual cenderung tidak

homogen, untuk mengatasi hal ini biasanya dilakukan transformasi dengan cara

membagi seluruh nilai variabel dengan variabel yang significant, atau:

Jika 1e k.x= . maka dilakukan transformasi sebagai berikut :

...1

1

33

1

22

1

11

10

1

++++=xx

xx

xx

xxy ββββ

atau

...*33

*22

*101

* ++++= xxxy ββββ

Koefisien regresi dari model ini kemudian ditaksir dengan menggunakan metode

kuadrat terkecil sehingga diperoleh:

...*33

*22

*101

* ++++= xbxbxbby

Kemudian model ini dikembalikan ke variabel asal dengan menggandakan ruas kiri

dan ruas kanan dengan x1 sehingga diperoleh :

...3322101 ++++= xbxbxbby

95


Secara umum masalah heterocedasticity dapat diatasi dengan mengguna-kan

metode weighted least-squares yaitu:

( ) 1ˆ −= -1 -1β X'Ω X XΩ y

dengan Ω adalah matriks diagonal dengan unsur diagonal adalah iω

Selain dengan menggunakan uji Glejser, uji adanya heteroscedasticity dapat

diuji dengan koefisien korelasi Spearman antara residual dengan variabel

independent, jika korelasi ini significant maka cenderung terjadi kasus

hetroscedasticity.

Koefisien korelasi Spearman dihitung dengan cara :

)1(6

1 2

2

−−= ∑

nnD

r

dengan D adalah selisih rank antar dua variabel.

Kegiatan Praktikum :

Dengan menggunakan uji Glejser, periksalah adanya kasus heteroscedasticity

untuk data berikut:

Year Saving Income Year Saving Income Year Saving Income 1 264 8777 12 950 17663 23 2105 295602 105 9210 13 779 18575 24 1600 281503 90 9954 14 819 19635 25 2250 321004 131 10508 15 1222 21163 26 2420 325005 122 10979 16 1702 22880 27 2570 352506 107 11912 17 1578 24127 28 1720 335007 406 12747 18 1654 25604 29 1900 360008 503 13499 19 1400 26500 30 2100 362009 431 14269 20 1829 27670 31 2300 38200

10 588 15522 21 2200 2830011 898 16730 22 2017 27430

Penyelesaian :

Dengan bantuan MINITAB permasalahan di atas, dapat diselesaikan dengan

cara:

96


MTB > regr 'saving' 1 'income'; SUBC> fits c11; SUBC> resid c12.

dan hasilnya adalah: The regression equation is saving = - 648 + 0.0847 income

Predictor Coef SE Coef T P Constant -648.1 118.2 -5.49 0.000 income 0.084665 0.004882 17.34 0.000

S = 247.6 R-Sq = 91.2% R-Sq(adj) = 90.9%

Untuk melakukan uji Glejser, dilakukan perintah :

MTB > let c13=abs(c12) MTB > name c13='abs_res' MTB > regr 'abs_res' 1 'income'

The regression equation is abs_res = - 7.7 + 0.00935 income

Predictor Coef SE Coef T P Constant -7.69 47.73 -0.16 0.873 income 0.009346 0.001972 4.74 0.000 S = 100.0 R-Sq = 43.6% R-Sq(adj) = 41.7%

Dari hasil uji Glejser ini, diperoleh informasi adanya hubungan antara variabel

harga mutlak residual dengan variabel income sehingga terjadi kasus

heteroscedasticity. Karena nilai harga mutlak residual sebanding dengan nilai

income maka selanjutnya dilakukan analisis regresi untuk model :

( ) ( )0 1 1saving income incomeβ β ε= + +

Dengan bantuan MINITAB analisis regresi untuk model di atas dapat dilakukan

dengan cara :

MTB > let c4=saving/income MTB > let c5=1/income MTB > name c4='y*' c5='x*' MTB > regr 'y*' 1 'x*';

97


SUBC> resid c21.

dan hasilnya adalah:

The regression equation is y* = 0.0881 - 723 x* Predictor Coef SE Coef T P Constant 0.088139 0.004372 20.16 0.000 x* -722.50 72.36 -9.98 0.000 S = 0.01051 R-Sq = 77.5% R-Sq(adj) = 76.7%

Pengujian adanya heteroscedasticity dengan uji Glejser

MTB > let c22=abs(c21) MTB > name c22='absres' MTB > regr 'absres' 1 'income'

Hasil pengujian Glejser

The regression equation is absres = 0.00793 +0.000000 income Predictor Coef SE Coef T P Constant 0.007931 0.002608 3.04 0.005 income 0.00000003 0.00000011 0.31 0.760 S = 0.005465 R-Sq = 0.3% R-Sq(adj) = 0.0%

Nilai p untuk variabel income >5% sehingga tidak ada hubungan antara harga mutlak

residual dengan income atau varians residual cenderung sudah homogen.

Sedangkan asumsi kenormalan residual dapat diuji dengan cara :

MTB > %NormPlot C21; SUBC> Kstest.

Hasil uji kenormalan dengan menggunakan uji Kolmogorov Smirnov adalah :

98


Gambar 6.2. Hasil Uji Kenormalan Data

Hasil pengujian Komogorov Smirnov, diperoleh hasil p-value>5% sehingga dapat

diputuskan residual sudah berdistribusi normal.

Model yang menggambarkan hubungan antara saving dengan income setelah

dilakukan transfromasi adalah:

y* = 0.0881 – 723 x* atau

( ) ( )0 0881 723 1saving income , income= −

Ruas kiri dan kanan digandakan dengan income maka diperoleh :

723 0 0881saving , income= − +

6.2.3.2. Autokorelasi

Autocorrelation berarti ada hubungan antar residual atau residual bersifat tidak

saling independent, kasus ini sering dijumpai pada data time series. Autocorrelation

dapat dideteksi dengan metode-metode berikut ini:

a) Statistik uji Durbin-Watson :

∑

∑

=

=−−

= n

ii

n

iii

e

eed

1

2

2

21 )(

99


b) ACF plot, ada nilai ( )t t kr e ,e − melampaui batas ( )0 2 n± maka residual tidak

saling independent

c) Statistik uji Ljung-Box

∑= −

+=k

j

j

jnr

nnQ1

2

)2(

Tolak Ho atau residual saling independent jika 2;kQ αχ> .

pelanggaran asumsi model regresi, yaitu residual yang saling dependent dapat

diatasi dengan:

a. Regresi beda

ttttt xxyy εββ +−+=− −− )( 1101

b. Regresi Nisbah

tt

t

t

t

xx

yy

εββ ++=−− 1

101

1 0 1 1t t t t ty .y ( x x )ρ β β ρ ε− −− = + − +

Kegiatan Praktikum

tahun export gdp tahun export gdp tahun export gdp 1970 102 255 1980 106 259 1990 112 268 1971 105 261 1981 106 258 1991 114 271 1972 105 261 1982 106 257 1992 113 269 1973 105 260 1983 106 257 1993 112 266 1974 104 257 1984 108 261 1994 114 270 1975 104 257 1985 108 261 1995 113 267 1976 106 261 1986 109 262 1996 117 276 1977 106 260 1987 110 264 1997 117 276 1978 105 257 1988 113 271 1998 117 276 1979 106 259 1989 113 271 1999 117 275

Tentukan model yang menggambarkan hubungan antara gdp dengan export dan periksa

apakah residual sudah saling independent.

Penyelesaian

a. Penentuan model regresi dan pemeriksaan asumsi independent residual

100


MTB > regr ‘gdp’ 1 ‘export’;

SUBC > resid c5.

The regression equation is gdp = 110 + 1.41 export Predictor Coef SE Coef T P Constant 110.354 6.839 16.14 0.000 export 1.40664 0.06251 22.50 0.000 S = 1.549 R-Sq = 94.8% R-Sq(adj) = 94.6%

MTB > %acf c5

Gambar 6.3. Plot Autokorelasi (ACF)

Nilai autokorelasi residual keluar dari batas pada lag ke-1 sehingga residual tidak

saling independent.

b. Mengatasi autocorrelation dengan regresi beda

MTB > diff 'export' c7 MTB > diff 'gdp' c8 MTB > name c7 'dif_xprt' c8 'diff_gdp' MTB > regr c8 1 c7; SUBC> resid c9.

101


The regression equation is diff_gdp = - 0.488 + 2.28 dif_xprt 29 cases used 1 cases contain missing values Predictor Coef SE Coef T P Constant -0.48789 0.09875 -4.94 0.000 dif_xprt 2.27658 0.06924 32.88 0.000 S = 0.4956 R-Sq = 97.6% R-Sq(adj) = 97.5%

MTB > %acf c9


residual sudah saling independent, sehingga model regresinya adalah:

)exp(exp28.2488.0)( 11 −− −+−=− tttt ortortgdpgdp

c. Mengatasi autocorrelation dengan regresi nisbah

MTB > let c11=c2/lag(c2) MTB > let c12=c3/lag(c3) MTB > regr c12 1 c11; SUBC> resid c13.

The regression equation is C12 = 0.0563 + 0.942 C11 29 cases used 1 cases contain missing values Predictor Coef SE Coef T P Constant 0.05627 0.02957 1.90 0.068 C11 0.94186 0.02942 32.01 0.000 S = 0.001930 R-Sq = 97.4% R-Sq(adj) = 97.3%

102


MTB > %acf c13


residual sudah saling independent, sehingga model regresinya adalah

11 expexp

942.00563.0−−

+=t

t

t

t

ortort

gdpgdp

6.2.3.3. Multikolinearitas

Multicollinearity adalah Adanya hubungan linear antar variabel independent.

Multicollinearity dapat dideteksi dengan cara berikut:

a. Variance Inflation Factor (VIF) yang tinggi, biasanya>10

b. korelasi antar variabel independent yang tinggi

c. 0' ≈XX

d. R2 tinggi tetapi tidak ada variabel independent yang significant

e. Koefisien korelasi dan koefisien regresi berbeda tanda

Multicollinearity dapat diatasi dengan metode berikut ini:

a. Mengeluarkan salah satu variabel independent yang berkorelasi tinggi dengan

variabel independent yang lain. Pengeluaran variabel ini dapat dilakukan secara

manual ataupun otomatis melalui metode stepwise.

b. Ridge Regression. Penaksiran koefisien parameter model regresi pada ridge

regression adalah

103


( ) 1ˆ k −= +β X'X I X'y , untuk 0 1k< < .

c. Principal Component Regression (PCR). Langkah-langkah dari metode PCR

adalah sebagai berikut:

• Melakukan pembakuan (pen-stadar-an) data : s

xxz −=

• Membangkitkan variabel baru yang saling independent

1 11 1 12 2 1

2 21 1 22 2 2

1 2 2

p p

p p

p p p pp p

w a x a x a xw a x a x a x

w a x a x a x

= + + +

= + + +

= + + +

L

L

M

L

atau

i i′=w a x , dengan i′a adalah eigen-vector dari eigen-value ke-i yang dihitung

dari matriks korelasi antar variabel independent

• Melakukan regresi y dengan w dan mensubstitusi mundur ke dalam model asal,

yaitu model y dengan x.

6.3. KEGIATAN PRAKTIKUM

1. Periksa adanya kasus multicollinearity pada pemodelan harapan hidup perempuan

dengan pendapatan perkapita persentase penduduk yang tinggal di kota,

persentase perempuan yang dapat membaca, persentase laki-laki yang dapat

membaca di region Amerika Latin

2. Jika ada kasus multicollinearity, atasi dengan beberapa metode untuk mengatasi

multicollinearity

Penyelesaian

a. Memilih data dari region Amerika Latin klik [ data+select cases+if ]

104


b. Memeriksa adanya kasus multicollinearity dengan menentukan matriks korelasi antar variabel independent, klik [analyze+correlate+bivariate]

Correlations

1 .550** .500* .833** .756**

.550** 1 .285 .617** .581**

.500* .285 1 .578** .542*

.833** .617** .578** 1 .956**

.756** .581** .542* .956** 1

Average female lifeexpectancyGross domestic product /

itPeople living in cities (%)Females who read (%)Males who read (%)

Averagefemale lifeexpectancy

Grossdomesticproduct /

capita

Peopleliving incities(%)

Femaleswho read

(%)

Maleswhoread(%)

Correlation is significant at the 0.01 level (2-tailed).**.

Correlation is significant at the 0.05 level (2-tailed).*.

105


Korelasi antar variabel independent cukup tinggi dan significant segingga ada

kecenderungan terjadi kasus multicollinearity.

c. Memeriksa adanya kasus multicollinearity dengan VIF

klik [analyze+regression+linear]

kemudian klik [statistics]

106


Coefficientsa

45.921 8.483 5.413 .000

.000 .001 .320 .753 1.640

.011 .068 .159 .875 1.525

-.273 .274 -.997 .334 11.573.594 .238 2.498 .024 13.289

(Constant)Gross domestic product/ capitaPeople living in cities(%)Males who read (%)Females who read (%)

B Std. Error


t Sig. VIF

CollinearityStatistics


Ada variabel independent yang nilai VIF>10 dan tanda koefisien regresi untuk

males who read negatif sedangkan koefisien korelasinya positif sehingga memang

ada kasus multicollinearity.

d. Mengatasi multicollinearity dengan metode stepwise : klik [analyze + regression

+ linear + method stepwise]

Coefficientsa

39.013 5.077 7.684 .000.406 .062 6.557 .000 1.000

(Constant)Females who read (%)

Model1

B Std. Error


t Sig. VIF

CollinearityStatistics


e. Mengatasi multicollinearity dengan ridge regression : klik [file + new + syntax]

107


klik [Run +All] R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K K RSQ GDP_CAP URBAN LIT_FEMA LIT_MALE ______ ______ ________ ________ ________ ________ .00000 .71418 .054792 .026292 1.216924 -.453266 .05000 .69610 .094060 .064195 .727695 -.027707 .10000 .68316 .108722 .079079 .576309 .089996 .15000 .67496 .116972 .087904 .499551 .141542 .20000 .66894 .122256 .093883 .451628 .168551 .25000 .66400 .125810 .098171 .418018 .183994 .30000 .65966 .128228 .101326 .392635 .193180 .35000 .65564 .129847 .103668 .372467 .198665 .40000 .65182 .130880 .105402 .355839 .201821 .45000 .64811 .131470 .106666 .341745 .203441 .50000 .64445 .131719 .107560 .329540 .204016 .55000 .64083 .131700 .108158 .318790 .203861 .60000 .63722 .131470 .108517 .309190 .203186 .65000 .63360 .131071 .108681 .300520 .202137 .70000 .62999 .130537 .108683 .292617 .200817 .75000 .62637 .129895 .108551 .285355 .199298 .80000 .62273 .129165 .108309 .278639 .197636 .85000 .61909 .128365 .107975 .272392 .195871 .90000 .61544 .127509 .107564 .266551 .194033 .95000 .61179 .126608 .107088 .261068 .192146 1.0000 .60813 .125671 .106558 .255901 .190227

Besarnya k dipilih sedemikian hingga nilai koefisien regresinya dianggap sudah

tidak berubah lagi, besarnya k yang memenuhi kriteria ini adalah k=0.35,

pemilihan k ini juga dapat ditentukan berdasarkan gambar berikut:

108


Gambar 6.6. Iterasi pada Regresi Ridge

f. Mengatasi multicollinearity dengan principal component regression

1. Menentukan skor komponen (w1, w2,…)

MTB > PCA 'GDP_CAP' 'URBAN' 'LIT_MALE' 'LIT_FEMA'; SUBC> Coefficients c41-c44; SUBC> Scores c51-c54.

Eigenanalysis of the Correlation Matrix

Eigenvalue 2.8278 0.7163 0.4141 0.0419 Proportion 0.707 0.179 0.104 0.010 Cumulative 0.707 0.886 0.990 1.000

Variable PC1 PC2 PC3 PC4 GDP_CAP -0.435 0.655 -0.616 0.049 URBAN -0.414 -0.755 -0.506 0.046 LIT_MALE -0.560 0.028 0.478 0.676 LIT_FEMA -0.571 0.022 0.368 -0.734

2. Meregresikan y dengan w

Hanya w1 yang eigen-value-nya >1 sehingga regresinya hanya dengan w1 MTB > regr 'lifeexpf' 1 'w1'

The regression equation is LIFEEXPF = 71.8 - 3.51 w1 Predictor Coef SE Coef T P Constant 71.7619 0.9930 72.26 0.000 w1 -3.5140 0.6051 -5.81 0.000

109


3. Menyatakan model regresi ke dalam variabel asal

171 8 3 51y , , w= − ( )1 2 3 471 8 3 51 0 435 0 414 0 560 0 571y , , . z . z . z . z= − − − − −

1 2 3 471 8 1 53 1 45 1 97 2 00y , , z , z , z , z= + + + +

4321

44332211 297.145.153.18.71xxxx s

xxs

xxs

xxs

xxy

−+

−+

−+

−+=

bab 6[1]. analisis regresi

Documents