masalah-masalah dalam model regresi linier · pdf filer2 tinggi tetapi tidak banyak variabel...

14
MASALAH-MASALAH DALAM MODEL REGRESI LINIER Pendahuluan Analisis model regresi linier memerlukan dipenuhinya berbagai asumsi agar model dapat digunakan sebagai alat prediksi yang baik. Namun tidak jarang peneliti menghadapi masalah dalam modelnya. Berbagai masalah yang sering dijumpai dalam analisis regresi adalah Multikolineritas, Heteroskedastisitas dan Autokorelasi. Multikolinearitas Salah satu asumsi yang digunakan dalam metode OLS adalah tidak ada hubungan linier antara variabel independen. Adanya hubungan antara variabel independen dalam satu regresi disebut dengan multikolinearitas. Multikolinearitas terjadi hanya pada persamaan regresi berganda. Ada kolinieritas antara X 1 dan X 2 : X 1 = γ X2 atau X 2 = γ -1 X 1 X 1 = X 2 + X 3 terjadi perfect multicollinearity X 2 = 4X 1 (perfect multicollinearity) X3 = 4X1 + bilangan random (tidak perfect multicollinearity) Jika dua variabel independen atau lebih saling mempengaruhi, masih bisa menggunakan metode OLS untuk mengestimasi koefisien persamaan regresi dalam mendapatkan estimator yang BLUE. Estimator yang BLUE tidak memerlukan asumsi terbebas dari masalah Multikolinearitas. Estimator BLUE hanya berhubungan dengan asumsi tentang variabel gangguan. Ada dua asumsi penting tentang variabel gangguan yang mempengaruhi sifat dari estimator yang BLUE. 1. Varian dari variabel gangguan adalah tetap atau konstan (homoskedastisitas) 2. TidaK adanya korelasi atau hubungan antara variable gangguan satu observasi dengan variable gangguan observasi yang lain atau sering disebut tidak ada masalah autokorelasi Jika variabel gangguan tidak memenuhi kedua asumsi variabel gangguan tersebut maka estimator yang kita dapatkan dalam metode OLS tidak lagi mengandung sifat BLUE.

Upload: trinhnhu

Post on 06-Feb-2018

222 views

Category:

Documents


1 download

TRANSCRIPT

MASALAH-MASALAH DALAM MODEL REGRESI LINIER

Pendahuluan

Analisis model regresi linier memerlukan dipenuhinya berbagai asumsi agar model

dapat digunakan sebagai alat prediksi yang baik. Namun tidak jarang peneliti

menghadapi masalah dalam modelnya. Berbagai masalah yang sering dijumpai dalam

analisis regresi adalah Multikolineritas, Heteroskedastisitas dan Autokorelasi.

Multikolinearitas

Salah satu asumsi yang digunakan dalam metode OLS adalah tidak ada

hubungan linier antara variabel independen. Adanya hubungan antara variabel

independen dalam satu regresi disebut dengan multikolinearitas. Multikolinearitas

terjadi hanya pada persamaan regresi berganda.

Ada kolinieritas antara X1 dan X2: X1 = γ X2 atau X2 = γ -1 X1

X1 = X2 + X3 terjadi perfect multicollinearity

X2 = 4X1 (perfect multicollinearity)

X3 = 4X1 + bilangan random (tidak perfect multicollinearity)

Jika dua variabel independen atau lebih saling mempengaruhi, masih bisa

menggunakan metode OLS untuk mengestimasi koefisien persamaan regresi dalam

mendapatkan estimator yang BLUE. Estimator yang BLUE tidak memerlukan asumsi

terbebas dari masalah Multikolinearitas. Estimator BLUE hanya berhubungan dengan

asumsi tentang variabel gangguan. Ada dua asumsi penting tentang variabel gangguan

yang mempengaruhi sifat dari estimator yang BLUE.

1. Varian dari variabel gangguan adalah tetap atau konstan (homoskedastisitas)

2. TidaK adanya korelasi atau hubungan antara variable gangguan satu observasi

dengan variable gangguan observasi yang lain atau sering disebut tidak ada

masalah autokorelasi

Jika variabel gangguan tidak memenuhi kedua asumsi variabel gangguan tersebut

maka estimator yang kita dapatkan dalam metode OLS tidak lagi mengandung sifat

BLUE.

Adanya Multikolinearitas masih menghasilkan estimator yang BLUE, tetapi

menyebabkan suatu model mempunyai varian yang besar

Sifat- sifat multikolinieritas secara statistik:

1. Sempurna => β tidak dapat ditentukan, β = ( XTX )-1 XTY

2. Tidak sempurna => β dapat ditentukan;

tetapi standard error-nya besar, 3 kurang tepat.

Tidak ada kolinieritas antara X1 dan X2: X1 = X22 atau X1 log X2

Akibat multikolinieritas:

1. Variansi besar (dan taksiran OLS)

2. Interval kepercayaan lebar (variansi besar � SE besar � Interval kepercayaan

lebar)

3. t rasio tidak signifikan,

4. R2 tinggi tetapi tidak banyak variabel yang signifikan dari uji t.

Cara mengatasi kolinieritas:

1. Melihat informasi sejenis yang ada

Konsumsi = σ0 + σ1 Pendapatan + σ2 Kekayaan + u

Misalnya : σ2 = 0,25 σ1

2. Tidak mengikutsertakan salah satu variabel yang kolinier

Dengan menghilangkan salah satu variabel yang kolinier dapat menghilangkan

kolinieritas pada model. Akan tetapi, ada kalanya pembuangan salah satu variabel

yang kolinier menimbulkan specification bias yaitu salah spesifikasi kalau

variabel yang dibuang merupakan variabel yang sangat penting.

3. Mentransforinasikan variabel

Yt = β1 + β2X2t + β3X3t + ut

Yt-1 = β1 + β2X2t-1 + β3X3t-1 + ut-1

(Yt – Yt-1) = β2 (X2t – X2t-1) + β3 (X3t – X3t-1) + (ut – ut-1)

Yt* = β2X2t* + β3X3t* + ut*

4. Mencari data tambahan

Dengan tambahan data, kolineritas dapat berkurang, tetapi dalam praktek tidak

mudah untuk mencari tambahan data.

5. Cara-cara lain: transformasi eksponensial dan logaritma

APLIKASI EVIEWS

Dependent Variable: IHSG Method: Least Squares Date: 07/10/11 Time: 22:38 Sample: 2009M10 2011M05 Included observations: 20

Variable Coefficient Std. Error t-Statistic Prob. C 26.45235 7.500357 3.526812 0.0031

DJIA 0.725756 0.219194 3.311015 0.0048 SBI -0.319151 0.163398 -1.953215 0.0697

KURS -2.469224 0.714175 -3.457449 0.0035 INF 0.041571 0.010092 4.119047 0.0009

R-squared 0.944660 Mean dependent var 8.037632

Adjusted R-squared 0.929903 S.D. dependent var 0.162302 S.E. of regression 0.042971 Akaike info criterion -3.244269 Sum squared resid 0.027697 Schwarz criterion -2.995336 Log likelihood 37.44269 F-statistic 64.01300 Durbin-Watson stat 1.611971 Prob(F-statistic) 0.000000

Estimation Equation: ===================== IHSG = C(1) + C(2)*DJIA + C(3)*SBI + C(4)*KURS + C(5)*INF Substituted Coefficients: ===================== IHSG = 26.45235239 + 0.7257556584*DJIA - 0.3191514431*SBI - 2.469223716*KURS + 0.04157097176*INF

Correlation Matriks DJIA IHSG INF KURS SBI

DJIA 1 0.841957 0.6759917 -0.7858188 0.75559279 IHSG 0.841957 1 0.8907004 -0.8797351 0.56271160 INF 0.675991 0.890700 1 -0.7340958 0.42553243

KURS -0.785818 -0.879735 -0.7340958 1 -0.70832435 SBI 0.755592 0.562711 0.42553243 -0.7083243 1

INF = F ( IHSG, ..)

Dependent Variable: INF Method: Least Squares Date: 07/10/11 Time: 22:52 Sample: 2009M10 2011M05 Included observations: 20

Variable Coefficient Std. Error t-Statistic Prob. C -190.3878 170.8450 -1.114389 0.2826

IHSG 12.76755 3.099637 4.119047 0.0009 DJIA -5.460703 4.853140 -1.125190 0.2782 SBI 1.399196 3.186688 0.439075 0.6669

KURS 14.11205 16.37712 0.861693 0.4024 R-squared 0.821028 Mean dependent var 5.095500

Adjusted R-squared 0.773302 S.D. dependent var 1.581646 S.E. of regression 0.753066 Akaike info criterion 2.482991 Sum squared resid 8.506630 Schwarz criterion 2.731924 Log likelihood -19.82991 F-statistic 17.20299 Durbin-Watson stat 1.249816 Prob(F-statistic) 0.000018

Regresi Auxiliary

DJIA = F(KURS, SBI, INF)

Dependent Variable: DJIA Method: Least Squares Date: 07/11/11 Time: 22:18 Sample: 2009M10 2011M05 Included observations: 20

Variable Coefficient Std. Error t-Statistic Prob. C 12.47113 7.966069 1.565531 0.1370

KURS -0.756840 0.792265 -0.955286 0.3536 SBI 0.393026 0.158356 2.481921 0.0246 INF 0.017192 0.010678 1.610041 0.1269

R-squared 0.739220 Mean dependent var 8.233119

Adjusted R-squared 0.690324 S.D. dependent var 0.088071 S.E. of regression 0.049010 Akaike info criterion -3.016726 Sum squared resid 0.038432 Schwarz criterion -2.817580 Log likelihood 34.16726 F-statistic 15.11813 Durbin-Watson stat 1.310918 Prob(F-statistic) 0.000063

KURS = F(DJIA, SBI, INF)

Dependent Variable: KURS Method: Least Squares Date: 07/11/11 Time: 22:20 Sample: 2009M10 2011M05 Included observations: 20

Variable Coefficient Std. Error t-Statistic Prob. C 10.35601 0.436444 23.72817 0.0000

DJIA -0.071294 0.074631 -0.955286 0.3536 SBI -0.093818 0.052168 -1.798382 0.0910 INF -0.007411 0.003008 -2.463704 0.0255

R-squared 0.744883 Mean dependent var 9.116767

Adjusted R-squared 0.697048 S.D. dependent var 0.027329 S.E. of regression 0.015042 Akaike info criterion -5.379065 Sum squared resid 0.003620 Schwarz criterion -5.179919 Log likelihood 57.79065 F-statistic 15.57210 Durbin-Watson stat 0.933317 Prob(F-statistic) 0.000053

SBI = F(DJIA, KURS, INF)

Dependent Variable: SBI Method: Least Squares Date: 07/11/11 Time: 22:21 Sample: 2009M10 2011M05 Included observations: 20

Variable Coefficient Std. Error t-Statistic Prob. C 17.17747 10.64179 1.614153 0.1260

DJIA 0.707272 0.284969 2.481921 0.0246 KURS -1.792267 0.996600 -1.798382 0.0910

INF -0.021753 0.014452 -1.505173 0.1518 R-squared 0.654200 Mean dependent var 6.550000

Adjusted R-squared 0.589362 S.D. dependent var 0.102598 S.E. of regression 0.065746 Akaike info criterion -2.429187

Sum squared resid 0.069160 Schwarz criterion -2.230041 Log likelihood 28.29187 F-statistic 10.08983 Durbin-Watson stat 1.117814 Prob(F-statistic) 0.000568

INF = F(DJIA, KURS, SBI)

Dependent Variable: INF Method: Least Squares Date: 07/11/11 Time: 22:22 Sample: 2009M10 2011M05 Included observations: 20

Variable Coefficient Std. Error t-Statistic Prob. C 314.0052 168.3938 1.864708 0.0807

DJIA 8.109744 5.036978 1.610041 0.1269 KURS -37.11079 15.06301 -2.463704 0.0255

SBI -5.701951 3.788237 -1.505173 0.1518 R-squared 0.618592 Mean dependent var 5.095500

Adjusted R-squared 0.547078 S.D. dependent var 1.581646 S.E. of regression 1.064440 Akaike info criterion 3.139631 Sum squared resid 18.12851 Schwarz criterion 3.338777 Log likelihood -27.39631 F-statistic 8.649945 Durbin-Watson stat 0.709709 Prob(F-statistic) 0.001215

Heteroskedastisitas (Heteroscedasticity)

Metode OLS baik model regresi sederhana maupun berganda mengasumsikan bahwa

variabel gangguan (ui) mempunyai rata-rata nol atau E(ui) = 0, mempunyai varian

yang konstan atau Var (ui) = σ2 dan variabel gangguan tidak saling berhubungan

antara satu observasi dengan observasi lainnya atau Cov (ui ,uj ) = 0.

Salah satu asumsi yang harus dipenuhi dalam model OLS adalah varian

bersifat homoskedastisitas atau Var (ui) = σ2. Dalam kenyataannya seringkali varian

variabel gangguan adalah tidak konstan atau disebut dengan heteroskedastisitas

Catatan:

Data cross-sectional cenderung untuk bersifat heteroscedastic karena pengamatan

dilakukan pada individu yang berbeda pada saat yang sama.

Dampak Heteroskedastisitas terhadap OLS

1. Estimator metode OLS masih linier

2. Estimator metode OLS masih tidak bias

3. Namun estimator metode OLS tidak lagi mempunyai varian yang menimum

dan terbaik (no longer best)

Cara mengatasi heteroskedastisitas dengan Metode GLS

Y j = β1 + β2X j + uj dengan Var (uj) = σj2

masing-masing dikalikan 1 : Yj = β1 1 + β2 Xj + uj

σj σj σj σj σj

Maka diperoleh transformed model sebagai berikut:

Yi* = β1* + β2X i* + ui*

Kita periksa dulu apakah ui* homoskedastis?

E (ui*) = E ui = 1 E(ui) = 1 (σi2) = 1 konstan

σi σi2 σi

2

Dengan demikian ui homoskedastis.

Kita akan menaksir transformed model dengan OLS dan taksiran yang diperoleh akan

BLUE, sedangkan model ash yang belum ditransformasikan (original model) bila

ditaksir dengan OLS, taksirannya tidak BLUE. Prosedur yang menaksir transformed

model dengan OLS disebut metode Generalized Least Square (GLS).

Dampak OLS bila ada heteroskedastisitas

(i) variansi dan taksiran lebih besar

(ii) uji t dan F kurang akurat

(iii) interval kepercayaan sangat besar

(iv) kesimpulan yang kita ambil dapat salah

Cara mendeteksi adanya heteroskedastisitas

tidak mudah mendeteksinya : intuisi, studi terdahulu, dugaan

Bila kita menggunakan data cross-section yang sangat heterogen untuk melihat total

penjualan dan perusahaan kecil, menengah dan sangat besar, sudah dapat diduga

bahwa akan ada masalah heteroskedastisitas.

Uji Park

Lakukan langkah-langkah berikut:

In ui2 = σ + β In Xi + vi; ui : error term regresi : Yi = σ0 + β0X i + ui

Bila β secara statistik signifikan, maka ada heteroskedastisitas

Uji Goldfeld — Quandt

Metode Goldfeld — Quandt sangat populer untuk digunakan, namun agak repot.

Langkah-langkah pada metode ini adalah sebagai berikut:

1. Urutkan pengamatan berdasarkan nilai X dan kecil ke besar

2. Abaikan pengamatan sekitar median, katakanlah sebanyak c pengamatan

3. Sisanya, masih ada (N — c) pengamatan

4. Lakukan regresi pada pengamatan ( N – c ) yang pertama. Hitung RSS1,

Residual Sum of Squares pertama 2

5. Lakukan regresi pada pengamatan ( N – c )yang kedua. Hitung RSS2,

Residual Sum of Squares yang kedua 2

6. Hitung λ = RSS2 /df2

RSS1 /df1

df= degrees of freedom = derajat bebas

df = banyaknya pengamatan dikurangi banyaknya parameter yang ditaksir

7. Lakukan uji F

Bila λ > F, kita tolak hipotesis yang mengatakan data mempunyai variansi yang

homoskedastis

Aplikasi Eviews

White Heteroskedasticity Test:

F-statistic 8.213817 Probability 0.000000

Obs*R-squared 39.41211 Probability 0.000010

Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: 07/10/11 Time: 23:30 Sample: 2005M07 2011M07 Included observations: 73

Variable Coefficient Std. Error t-Statistic Prob. C -217.2862 63.35708 -3.429548 0.0011

DJIA 5.286349 2.125101 2.487575 0.0155 DJIA^2 0.122153 0.035783 3.413773 0.0011

DJIA*SBI -0.023761 0.004767 -4.984095 0.0000 DJIA*KURS -0.775775 0.233489 -3.322530 0.0015

SBI -0.565149 0.291609 -1.938035 0.0571 SBI^2 0.000238 0.000734 0.323423 0.7474

SBI*KURS 0.082797 0.033525 2.469709 0.0162 KURS 43.15816 12.36109 3.491453 0.0009

KURS^2 -2.041863 0.595189 -3.430614 0.0011 R-squared 0.539892 Mean dependent var 0.015307

Adjusted R-squared 0.474162 S.D. dependent var 0.023040 S.E. of regression 0.016707 Akaike info criterion -5.219298 Sum squared resid 0.017585 Schwarz criterion -4.905536 Log likelihood 200.5044 F-statistic 8.213817 Durbin-Watson stat 1.690539 Prob(F-statistic) 0.000000

Autokorelasi

Secara harfiah autokorelasi berarti adanya korelasi antara anggota observasi

satu dengan observasi yang lain yang berlainan waktu. Dalam kaitannya dengan

asumsi metode OLS, autokorelasi merupakan korelasi antara satu variabel gangguan

dengan variabel gangguan yang lain. Sedangkan salah satu asumsi penting metode

OLS berkaitan dengan variabel gangguan adalah tidak adanya hubungan antara

variabel gangguan satu dengan variabel gangguan yang lain. Tidak adanya serial

korelasi antara variabel gangguan ini sebelumnya dinyatakan:

Tidak ada korelasi bila E ( ui, uj ) = 0 ; i ≠ j

Jika Ada autokorelasi bila E ( ui, uj ) ≠ 0 ; i ≠ j

Autokorelasi dapat berbentuk autokorelasi positif dan autokorelasi negatif. Dalam

analisis runtut waktu, lebih besar kemungkinan terjadi autokorelasi positif, karena

variabel yang dianalisis biasanya mengandung kecenderungan meningkat, misalnya

IHSG dan Kurs

Autokorelasi terjadi karena beberapa sebab. Menurut Gujarati (2006), beberapa

penyebab autokorelasi adalah:

1. Data mengandung pergerakan naik turun secara musiman, misalnya IHSG

kadang menaikan dan kadang menurun

2. Kekeliruhan memanipulasi data, misalnya data tahunan dijadikan data

kuartalan dengan membagi empat

3. Data runtut waktu, yang meskipun bila dianalis dengan model yt = a + b xt + et

karena datanya bersifat runtut, maka berlaku juga yt-1 = a + b xt-1 + et-1.

Dengan demikian akan terjadi hubungan antara data sekarang dan data periode

sebelumnya

4. Data yang dianalisis tidak bersifat stasioner

Pengaruh Autokorelasi

Apabila data yang kita analisis mengandung autokorelasi, maka estimator yang kita

dapatkan memiliki karakteristik berikut ini:

a. Estimator metode kuadrat terkecil masih linier

b. Estimator metode kuadrat terkecil masih tidak bias

c. Estimator metode kuadrat terkecil tidak mempunyai varian yang menimum (no

longer best)

Dengan demikian, seperti halnya pengaruh heteroskedastisitas, autokorelasi juga akan

menyebabkan estimator hanya LUE, tidak lagi BLUE.

Kasus ada autokorelasi

(i) Jika pendapatan keluarga i meningkat, konsumsi keluarga i meningkat, dan

konsumsi keluarga j ikut rneningkat pula; i ≠ j

(ii) Fenomena Cob Web : Supply tergantung dan harga komoditas periode lalu

(Supply)t = βi + β2 Pt-1 + Ut

Estimasi OLS pada saat ada autokorelasi

Yt = β1 + β2Xt + ut;

E (ut, ut+s) ≠ 0, berarti ut dan ut+s berautokorelasi ; misalkan : Ut = p Ut-1 + εt

Apakah β1 dan β2 BLUE? (tidak, karena variansinya tidak minimum lagi)

Oleh karena itu, gunakan GLS pada saat terjadi autokorelasi

Mengindentifikasi Autokorelasi

Uji Durbin-Watson (Uji D-W)

Uji D-W merupakan salah satu uji yang banyak dipakai untuk mengetahui ada

tidaknya autokorelasi. Hampir semua program statistic sudah menyediakan fasilitas

untuk menghitung nilai d (yang menggambarkan koefisien DW). Nilai d akan berada

di kisaran 0 hingga 4.

Jika nilai d berada antara 0 sampai 1,10 � Tolak Ho, berarti ada autokorelasi positif

Jika nilai d berada antara 1,10 sampai 1,54 � Tidak dapat diputuskan

Jika nilai d berada antara 1,54 sampai 2,46 � Tidak menolak Ho, berarti tidak ada

autokorelasi

Jika nilai d berada antara 2,46 sampai 2,90 � Tidak dapat diputuskan

Jika nilai d berada antara 2,90 sampai 4� Tolak Ho, berarti ada autokorelasi negatif

p = koefisien autokorelasi. -1 ≤ p ≥ 1. Sehingga: 0 ≤ d ≤ 4

• Pada saat p = 0, d = 2, artinya tidak ada korelasi

• Pada saat p = 1, d = 0, artinya ada korelasi positif

• Pada saat p = -1, d 4, artinya ada korelasi negatif

Pengamatan kasar:

Bila d dekat dengan 2, p akan dekat dengan nol, jadi tidak ada korelasi.

Ada uji yang lebih spesifik, menggunakan Tabel Durbin-Watson dengan

melihat nilai dL dan dU

Meskipun Uji D-W ini relatif mudah, tetapi ada beberapa kelemahan yang harus

diketahui. Kelemahan-kelemahan tersebut adalah sebagai berikut:

a. Uji D-W hanya berlaku bila variabel independennya bersifat random

(stokastik)

b. Bila model yang dianalisis menyertakan data yang didiferensi,

misalnya model auotoregressive AR(p), uji D-W hanya berlaku pada

AR(1), sedang pada AR(2) dan seterusnya, uji D-W tidak dapat

digunakan

c. Uji D-W tidak dapat digunakan pada model rata-rata bergerak (moving

average).

Uji Breusch-Godfrey (Uji BG)

Nama lain dari uji BG adalah Uji Lagrange-Multiplier. Dari nilai probability

lebih kecil dari α = 5% yang mengindikasikan bahwa data mengandung masalah

autokorelasi

Breusch-Godfrey Serial Correlation LM Test:

F-statistic 29.37420 Probability 0.000000

Obs*R-squared 31.46826 Probability 0.000000

Test Equation: Dependent Variable: RESID Method: Least Squares

Date: 10/03/10 Time: 07:34 Presample missing value lagged residuals set to zero.

Variable Coefficient Std. Error t-Statistic Prob. C -179.5515 295.7918 -0.607020 0.5462

KURS 0.017865 0.028261 0.632125 0.5298 SBI 1.146495 10.80750 0.106083 0.9159

RESID(-1) 0.818412 0.131428 6.227057 0.0000 RESID(-2) -0.145856 0.133078 -1.096014 0.2777

R-squared 0.507553 Mean dependent var 1.07E-12

Adjusted R-squared 0.472995 S.D. dependent var 232.0697 S.E. of regression 168.4713 Akaike info criterion 13.16862 Sum squared resid 1617807. Schwarz criterion 13.34016 Log likelihood -403.2271 F-statistic 14.68710 Durbin-Watson stat 1.551782 Prob(F-statistic) 0.000000

Cara pengobatan Autokorelasi

Secara umum susah untuk mengatasinya. Transformasi logaritma dapat mengurangi

korelasi. Hanya saja, kadang-kadang data-data yang dianalisis ada data yang negatif

sehingga kita tidak dapat melakukan transformasi logaritma.

Kalau kita tahu atau dapat menduga bahwa hubungan korelasinya adalah spesifik,

misalnya ut = p ut-1 + εt dan p dapat dihitung/dicari atau diketahui, maka kita dapat

rnenggunahan GLS untuk mencari taksiran yang BLUE (Best Linear Unbiased

Estimator).