harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/publications/files/3866/buku... ·...

129

Upload: dophuc

Post on 09-May-2019

233 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan
Page 2: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan
Page 3: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan
Page 4: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

ANALISISANALISISANALISISANALISIS

REGRESIREGRESIREGRESIREGRESI LLLLINEARINEARINEARINEAR

Johan HarlanJohan HarlanJohan HarlanJohan Harlan

Page 5: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

AAAAnalisisnalisisnalisisnalisis RegresiRegresiRegresiRegresi LLLLinearinearinearinear

Penulis : Johan Harlan

Cetakan Pertama, Agustus 2018

Disain cover : Joko Slameto

Diterbitkan pertama kali oleh Gunadarma

Jl. Margonda Raya No. 100, Pondokcina, Depok 16424

Telp. +62-21-78881112, 7863819 Faks. +62-21-7872829

e-mail : [email protected]

Hak Cipta dilindungi undang-undang. Dilarang mengutip atau

memperbanyak dalam bentuk apapun sebagian atau seluruh isi

buku tanpa ijin tertulis dari penerbit.

Page 6: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

v

KATA PENGANTAR

Buku Analisis Regresi Linear ini sebagian besar memuat materi

pengajaran Statistika tingkat dasar dengan sedikit pengembangan untuk

tingkat lanjut. Analisis regresi linear memiliki secara teoretis dasar

matematik yang luas dan mendetil, terutama dengan menerapkan aljabar

matriks, namun dalam pembahasan di sini penulis berusaha menghindari

pembahasan yang bersifat matematis dengan lebih banyak membahas

pemahaman praktis disertai contoh-contoh aplikatifnya.

Sesuai dengan perkembangan Statistika pada era Teknologi Informasi

ini yang semakin lama semakin banyak memanfaatkan program komputer

statistik, antara lain sebagai dampak semakin bervariasinya teknik dan

metode baru Statistika yang sangat sulit dan hampir tidak mungkin untuk

diterapkan secara manual, praktis semua metode yang dibahas dalam buku

ini disertakan contoh aplikasinya dengan menggunakan program Stata 15.

Penulis sangat mengharapkan saran-saran yang berguna dari pembaca

untuk memperbaiki kesalahan-kesalahan yang ada dalam isi buku ini serta

meningkatkan kualitas pembahasannya.

Jakarta, Agustus 2018

Penulis

Page 7: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

vi

DAFTAR ISI

Kata Pengantar v

Daftar Isi vi

Bab 1 Diagram Tebar dan Garis Regresi 1

Diagram Tebar 1

Garis Regresi 2

Bab 2 Regresi Linear Sederhana 5

Regresi Linear Sederhana dengan Prediktor Kontinu 5

Regresi Linear Sederhana dengan Prediktor Indikator 10

Bab 3 Regresi Linear Ganda 13

Regresi Linear Ganda dengan Prediktor Kontinu 13

Regresi Linear Ganda dengan Prediktor Kategorik Non-

Biner

17

Regresi Linear Ganda dengan Interaksi 20

Bab 4 Asumsi-Asumsi pada Regresi Linear 27

Model Adekuat 27

Asumsi Linearitas 28

Asumsi Independensi dan Non-Otokorelasi 30

Asumsi Normalitas 32

Asumsi Homoskedastisitas 33

Asumsi Non-Multikolinearitas 34

Page 8: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

vii

Bab 5 Estimasi Koefisien Regresi dan Interpretasi

Hasil

39

Metode Estimasi Koefisien Regresi 39

Tabel Analisis Variansi 40

Tabel Koefisien Regresi 43

Bab 6 Konfaunding dan Interaksi 49

Konfaunding 49

Interaksi 62

- Modifikasi Efek 62

- Interaksi Statistik 63

Konfaunding dan Interaksi 70

Bab 7 Diagnostika Regresi 73

Outliers dan Pengamatan Influensial 73

Leverage 75

Jarak Cook 76

DFBETA 77

Bab 8 Beberapa Penanganan Penyimpangan Asumsi 87

Estimasi Variansi Robust 88

Regresi Robust 91

Regresi Ridge 99

Kepustakaan 106

Lampiran 1 Pemodelan dan Seleksi Prediktor 108

Lampiran 2 Beberapa Grafik Galat 111

Page 9: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan
Page 10: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

BAB 1

DIAGRAM TEBAR DAN

GARIS REGRESI

� Diagram Tebar

Diagram tebar (scatter diagram

sampel pengamatan bivariat. Diagram tebar merupakan

penting untuk menilai tipe hubungan antar 2 variabel kontinu.

Gambar 1.1 Rerata suhu tahunan di suatu wilayah dan angka kematian

karena kanker payudara

1

BAB 1

DIAGRAM TEBAR DAN

GARIS REGRESI

scatter diagram) adalah diagram dua dimensi untuk

iagram tebar merupakan alat bantu yang

hubungan antar 2 variabel kontinu.

Gambar 1.1 Rerata suhu tahunan di suatu wilayah dan angka kematian

karena kanker payudara

Page 11: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

Contoh 1.1:

Pada contoh ini akan diperlihatkan perintah Stata untuk menghasilkan

diagram tebar dengan menggunakan file dataset

. use “D:\Analisis Regresi Linear

(1978 Automobile Data)

. scatter mpg weight

� Garis Regresi

Garis regresi adalah garis lurus di antara titik

yang secara terbaik menggambarkan hubungan linear antara kedua variabel

pada diagram tebar tersebut. Garis ini sering pula disebut sebagai garis

dengan kesesuaian terbaik (line of best

dengan seluruh titik-titik pada diagram tebar itu.

Tanpa membahas cara perolehan garis regresi (akan dibah

bab-bab berikut), di bawah ini diperlihatkan beberapa contoh diagram tebar

2

Pada contoh ini akan diperlihatkan perintah Stata untuk menghasilkan

diagram tebar dengan menggunakan file dataset auto_simp.dta.

Regresi Linear\Data\auto_simp.dta”, clear

garis lurus di antara titik-titik pada diagram tebar

yang secara terbaik menggambarkan hubungan linear antara kedua variabel

pada diagram tebar tersebut. Garis ini sering pula disebut sebagai garis

line of best-fit), yang memiliki jarak terdekat

titik pada diagram tebar itu.

Tanpa membahas cara perolehan garis regresi (akan dibahas dalam

bab berikut), di bawah ini diperlihatkan beberapa contoh diagram tebar

Page 12: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

beserta garis regresinya yang menggambarkan tipe hubungan antar kedua

variabel pada diagram tersebut.

Gambar 1.2 Atas kiri: Hubungan positif; Atas kanan:

negatif; Bawah: Tidak ada hubungan

Ketiga tipe hubungan yang terlihat pada gambar 1.2 yaitu:

a. Hubungan positif (kiri atas): Pe

umumnya disertai dengan pertambahan nilai

b. Hubungan negatif: Pertambahan nilai

disertai dengan pengurangan nilai

c. Tidak ada hubungan: Pertambahan nilai

jelas memiliki efek terhadap nilai

Contoh 1.2:

Pada contoh ini, dengan menggunakan file dataset

yang sama seperti pada contoh 1.1, akan diperlihatkan perintah Stata mula

mula untuk memperoleh diagram tebar beserta garis regresinya dan

kemudian hanya diagram garis regresinya.

3

beserta garis regresinya yang menggambarkan tipe hubungan antar kedua

Gambar 1.2 Atas kiri: Hubungan positif; Atas kanan: Hubungan

negatif; Bawah: Tidak ada hubungan

Ketiga tipe hubungan yang terlihat pada gambar 1.2 yaitu:

: Pertambahan nilai X (sumbu horizontal)

disertai dengan pertambahan nilai Y (sumbu vertikal)

: Pertambahan nilai X (sumbu horizontal) umumnya

disertai dengan pengurangan nilai Y (sumbu vertikal)

: Pertambahan nilai X (sumbu horizontal) tidak

memiliki efek terhadap nilai Y (sumbu vertikal).

Pada contoh ini, dengan menggunakan file dataset auto_simp.dta

yang sama seperti pada contoh 1.1, akan diperlihatkan perintah Stata mula-

mula untuk memperoleh diagram tebar beserta garis regresinya dan

kemudian hanya diagram garis regresinya.

Page 13: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

. use “D:\Analisis Regresi Linear

(1978 Automobile Data)

Garis regresi di antara titik-

sebagai berikut:

. scatter mpg weight || lfit mpg weight

Perintah twoway lfit menghasilkan h

. twoway lfit mpg weight

4

Analisis Regresi Linear\Data\auto_simp.dta”, clear

-titik pada diagram tebar diperlihatkan

. scatter mpg weight || lfit mpg weight

menghasilkan hanya garis regresi:

Page 14: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

5

BAB 2

REGRESI LINEAR SEDERHANA

Regresi linear (linear regression) adalah teknik yang digunakan

untuk memperoleh model hubungan antara 1 variabel dependen dengan 1

atau lebih variabel independen. Jika hanya digunakan 1 variabel independen

dalam model, maka teknik ini disebut sebagai regresi linear sederhana

(simple linear regression), sedangkan jika yang digunakan adalah beberapa

variabel independen, teknik ini disebut regresi linear ganda (multiple linear

regression).

Variabel dependen pada regresi linear disebut juga sebagai respons

atau kriterion, sedangkan variabel independen dikenal pula sebagai

prediktor atau regresor. Kovariat adalah variabel independen yang

berkorelasi dengan prediktor lainnya, juga mempengaruhi respons. Kovariat

umumnya tidak diminati hubungannya dengan respons dan hanya digunakan

untuk pengendalian hubungan prediktor-respons dalam model.

Respons pada regresi linear selalu berupa variabel kontinu,

sedangkan prediktor dapat berupa variabel kontinu, indikator, ataupun

karegorik yang disubstitusikan menjadi variabel indikator.

� Regresi Linear Sederhana dengan Prediktor

Kontinu

Model yang digunakan untuk regresi linear sederhana adalah:

iY = 0β +

1β iX + iε ; i = 1, 2, . . . , n

iY : Respons untuk subjek ke-i

iX : Prediktor untuk subjek ke-i

iε : Galat untuk subjek ke-i

Page 15: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

` 0β dan

1β merupakan parameter dalam populasi yang hendak

diestimasi dalam fitting model. Pada

diperoleh persamaan garis regresi (gambar 2.1)

ˆiY =

0b + 1b iX

0b dinamakan intersep (intercept

dari titik pangkal ke titik potong garis regresi dengan sumbu

vertikal), merupakan penaksir untuk

(slope) atau koefisien regresi, menyatakan kemiringan garis regresi yang

diukur sebagai tangen sudut yang dibentuk oleh garis horizontal dengan garis

regresi dalam arah positif (diukur berlawanan de

merupakan penaksir untuk 1β . ie menyatakan galat untuk anggota sampel

ke-i, sekaligus merupakan penaksir untuk

Gambar 2.1 Garis regresi

Perintah Stata untuk fitting model regresi linear sederhana adalah:

regress var_dep var_indep

var_dep : Variabel dependen

var_indep : Variabel independen

6

merupakan parameter dalam populasi yang hendak

Pada fitting model dengan data sampel akan

(gambar 2.1):

; i = 1, 2, . . . , n

intercept) atau konstante, menyatakan jarak

dari titik pangkal ke titik potong garis regresi dengan sumbu Y (sumbu

, merupakan penaksir untuk 0β .

1b disebut juga sebagai kemiringan

) atau koefisien regresi, menyatakan kemiringan garis regresi yang

diukur sebagai tangen sudut yang dibentuk oleh garis horizontal dengan garis

regresi dalam arah positif (diukur berlawanan dengan perputaran jarum jam),

menyatakan galat untuk anggota sampel

, sekaligus merupakan penaksir untuk iε .

Gambar 2.1 Garis regresi

model regresi linear sederhana adalah:

indep [if] [in] [, options]

Variabel independen

Page 16: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

7

Contoh 2.1:

File dataset yang digunakan di sini adalah elemapi.dta, yang

menyatakan kinerja akademik sejumlah sekolah di sebuah regio di Amerika

Serikat.

. use “ D:\Analisis Regresi Linear\Data\elemapi.dta”, clear

. sum enroll api00

Variable | Obs Mean Std. Dev. Min Max

---------+--------------------------------------------------

enroll | 400 483.465 226.4484 130 1570

api00 | 400 647.6225 142.249 369 940

enroll : Jumlah siswa

api00 : Kinerja akademik sekolah pada tahun 2000

Selanjutnya dilakukan fitting model regresi linear sederhana.

. regress api00 enroll

Source | SS df MS Number of obs = 400

---------+---------------------------- F( 1, 398) = 44.83

Model | 817326.293 1 817326.293 Prob > F = 0.0000

Residual | 7256345.70 398 18232.0244 R-squared = 0.1012

---------+---------------------------- Adj R-squared = 0.0990

Total | 8073672.00 399 20234.7669 Root MSE = 135.03

----------------------------------------------------------------

api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------+--------------------------------------------------------

enroll | -.1998674 .0298512 -6.70 0.000 -.2585532 -.1411817

_cons | 744.2514 15.93308 46.71 0.000 712.9279 775.5749

----------------------------------------------------------------

Page 17: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

8

Tampak estimasi intersep dan koefisien regresi, masing-masing

sebesar 744.25 dan −0.20. Estimasi intersep menyatakan prediksi nilai

respons, jika prediktor bernilai nol, walaupun hal ini tidak realistis di sini,

yaitu jika enroll bernilai sama dengan nol (tidak ada calon siswa yang

mendaftarkan diri), tidak mungkin kinerja akademik api00 bernilai 744.25.

Perlu dijelaskan bahwa prediksi nilai respons hanya berlaku dalam rentang

nilai-nilai prediktor dalam sampel, yaitu 130 s.d. 1,570.

Estimasi koefisien regresi bernilai negatif sebesar −0.20 dan

bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap

pertambahan 1 siswa yang mendaftar akan menurunkan kinerja akademik

sekolah sebesar −0.20 satuan.

Model estimasi adalah:

api00 = 744.25 – 0.20 enroll + e

Contoh 2.2:

File yang digunakan di sini merupakan penyederhanaan terhadap file

auto.dta, yang sering digunakan pada berbagai contoh perintah Stata.

Sesuai dengan topik pada bab ini, yang disisakan pada file auto_simp.dta

hanya variabel mpg dan weight yang akan digunakan dalam model regresi

linear sederhana di sini.

. use “D:\Analisis Regresi Linear\Data\auto_simp.dta”, clear

(1978 Automobile Data)

Perintah berikut adalah untuk fitting model regresi linear sederhana:

. regress mpg weight

Page 18: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

9

Source | SS df MS Number of obs = 74

---------+--------------------------- F(1, 72) = 134.62

Model | 1591.9902 1 1591.9902 Prob > F = 0.0000

Residual | 851.469256 72 11.8259619 R-squared = 0.6515

---------+--------------------------- Adj R-squared = 0.6467

Total | 2443.45946 73 33.4720474 Root MSE = 3.4389

--------------------------------------------------------------

mpg | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------+------------------------------------------------------

weight | -.0060087 .0005179 -11.60 0.000 -.0070411 -.0049763

_cons | 39.44028 1.614003 24.44 0.000 36.22283 42.65774

--------------------------------------------------------------

Model estimasi adalah:

mpg = 39.44 – 0.01 weight + e

Tampak bahwa nilai koefisien determinasi 2

R adalah 0.6515,

menunjukkan bahwa 65% variasi respons mpg dapat “dijelaskan” oleh

prediktor weight. Prediktor weight tampak bermakna dengan nilai p =

0.000. Untuk fitting model regresi yang melalui titik pangkal (tanpa

intersep), perintahnya adalah:

. regress, beta

Source | SS df MS Number of obs = 74

---------+--------------------------- F(1, 72) = 134.62

Model | 1591.9902 1 1591.9902 Prob > F = 0.0000

Residual | 851.469256 72 11.8259619 R-squared = 0.6515

---------+--------------------------- Adj R-squared = 0.6467

Total | 2443.45946 73 33.4720474 Root MSE = 3.4389

Page 19: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

10

--------------------------------------------------------------

mpg | Coef. Std. Err. t P>|t| Beta

-------+------------------------------------------------------

weight | -.0060087 .0005179 -11.60 0.000 -.8071749

_cons | 39.44028 1.614003 24.44 0.000 .

-------------------------------------------------------------

Model estimasi untuk model tanpa intersep menjadi:

mpg = −81 weight + e

� Regresi Linear Sederhana dengan Prediktor

Indikator

Model untuk regresi linear sederhana dengan prediktor indikator

(variabel dummy) adalah:

= 0β +

1β iX + iε ; X = {0, 1}

iX : Prediktor indikator (variabel dummy). Indikator adalah variabel

kategorik biner yang hanya dapat bernilai 0 atau 1.

Perhatikan bahwa indikator tidak diberikan nilai 1 atau 2. Variabel

kategorik biner yang bernilai 1 dan 2 terlebih dahulu dikonversi menjadi

indikator yang bernilai 0 atau 1 sebelum dilakukan fitting model.

Contoh 2.3:

. use “ D:\Analisis Regresi Linear\Data\elemapi.dta”, clear

. tabulate yr_rnd

iY

Page 20: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

11

year round |

school | Freq. Percent Cum.

-----------+---------------------------------

No | 308 77.00 77.00

Yes | 92 23.00 100.00

-----------+---------------------------------

Total | 400 100.00

. tabulate yr_rnd, nolabel

year round |

school | Freq. Percent Cum.

-----------+---------------------------------

0 | 308 77.00 77.00

1 | 92 23.00 100.00

-----------+---------------------------------

Total | 400 100.00

yr_rnd (year round school) adalah variabel indikator dengan nilai

0 atau 1. Selanjutnya akan dilakukan fitting model dengan api00 sebagai

respons dan yr_rnd sebagai prediktor indikator.

. regress api00 yr_rnd

Source | SS df MS Number of obs = 400

--------+------------------------- F( 1, 398) = 116.24

Model |1825000.56 1 1825000.56 Prob > F = 0.0000

Residual|6248671.43 398 15700.1795 R-squared = 0.2260

--------+------------------------- Adj R-squared = 0.2241

Total |8073672 399 20234.7669 Root MSE = 125.3

Page 21: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

12

-------------------------------------------------------------

api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------+-----------------------------------------------------

yr_rnd | -160.5064 14.8872 -10.78 0.000 -189.7737 -131.239

_cons | 684.539 7.13965 95.88 0.000 670.5028 698.5751

-------------------------------------------------------------

. Model estimasi adalah:

api00 = 684.54 – 160.51 yr_rnd + e

Prediktor yr_rnd bermakna secara statistik (p = 0.000). Untuk

yr_rnd = 0, api00 bernilai 684.54 (sama dengan estimasi intersep),

sedangkan untuk yr_rnd = 1, api00 adalah (684.54 − 160.51) ≈ 524.03.

Page 22: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

13

BAB 3

REGRESI LINEAR GANDA

Regresi linear ganda (multiple linear regression) adalah model

regresi linear dengan 1 variabel dependen kontinu beserta k (dua atau lebih)

variabel independen kontinu dan/atau kategorik.

� Regresi Linear Ganda dengan Prediktor

Kontinu

Model untuk regresi linear ganda yaitu:

iY = 0β +

1β 1iX + 2β 2iX + . . . +

kiX + iε

Perintah Stata untuk fitting regresi linear ganda dengan prediktor

kontinu adalah

regress var_dep vars_indep [if] [in] [, options]

var_dep : Variabel dependen

vars_indep : Himpunan variabel independen kontinu

0β ,

1β , 2β , . . . ,

kβ adalah nilai-nilai parameter yang akan

diestimasi dengan perintah Stata tersebut. Sebagai keluaran akan diperoleh

estimasi persamaan garis regresi linear ganda:

ˆiY =

0b + 1b 1i

X + 2b 2i

X + . . . + k

bki

X ; i = 1, 2, . . . , n

Page 23: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

14

Contoh 3.1:

. use “D:\Analisis Regresi Linear\Data\elemapi”, clear

Variabel-variabel yang akan digunakan dalam contoh ini yaitu:

api00 : Kinerja akademik sekolah tahun 2000

acs_k3 : Rerata ukuran kelas dari TK s.d. kelas 3

meals : Persentase siswa yang mendapat makan gratis (indikator

kemiskinan)

full : Persentase guru yang memiliki akreditasi penuh untuk

mengajar

Sebagai gambaran, diperlihatkan sebagian nilai-nilai tersebut pada

dataset:

. list api00 acs_k3 meals full in 1/7

+---------------------------------+

| api00 acs_k3 meals full |

|---------------------------------|

1. | 693 16 67 76.00 |

2. | 570 15 92 79.00 |

3. | 546 17 97 68.00 |

4. | 571 20 90 87.00 |

5. | 478 18 89 87.00 |

|---------------------------------|

6. | 858 20 . 100.00 |

7. | 918 19 . 100.00 |

+---------------------------------+

Diagram tebar untuk tiap pasangan variabel tersebut dalam bentuk

matriks adalah:

. graph matrix api00 acs_k3 meals full, half

Page 24: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

15

Matriks korelasi diperoleh dengan perintah:

. correlate api00 acs_k3 meals full

(obs=313)

| api00 acs_k3 meals full

-------------+------------------------------------

api00 | 1.0000

acs_k3 | -0.0641 1.0000

meals | -0.8184 0.0097 1.0000

full | 0.2328 0.1789 -0.2518 1.0000

Selanjutnya dilakukan fitting model regresi linear ganda:

. regress api00 acs_k3 meals full

Source | SS df MS Number of obs = 313

---------+---------------------------- F( 3, 309) = 213.41

Model | 2634884.26 3 878294.754 Prob > F = 0.0000

Residual | 1271713.21 309 4115.57673 R-squared = 0.6745

---------+---------------------------- Adj R-squared = 0.6713

Total | 3906597.47 312 12521.1457 Root MSE = 64.153

api2000

avgclasssizek-3

pctfree

meals

pct fullcredential

400 600 800 1000

-20

0

20

-20 0 20

0

50

100

0 50 100

0.00

50.00

100.00

Page 25: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

16

--------------------------------------------------------------------

api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------+------------------------------------------------------------

acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073

meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348

full | .1086104 .090719 1.20 0.232 -.0698947 .2871154

_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555

--------------------------------------------------------------------

Interpretasi terhadap keluaran berikut adalah:

-` Variabel rerata ukuran kelas acs_k3 dengan koefisien regresi b = −2.68

tidak jelas kebermaknaannya (p = 0.055). Koefisien regresi yang negatif

menyatakan bahwa ukuran kelas yang lebih besar terkait dengan kinerja

akademik lebih rendah.

- Efek meals dengan koefisien regresi b = −3.70 (p = 0.000) tampak

bermakna. Koefisien regresi yang negatif mengindikasikan bahwa

semakin besar proporsi siswa penerima makanan gratis, semakin rendah

kinerja akademik.

Ini tidak berarti bahwa makanan gratis menyebabkan kinerja akademik

yang rendah. Variabel meals terkait erat dengan tingkat penghasilan dan

berfungsi sebagai proxy untuk kemiskinan. Tingkat kemiskinan yang

lebih tinggi diasosiasikan dengan kinerja akademik yang lebih rendah.

- Persentase guru dengan akreditasi penuh full dengan koefisien regresi b =

0.11 (p = 0.232) tak terkait dengan kinerja akademik. Ini

mengindikasikan bahwa persentase guru dengan akreditasi penuh bukan

merupakan faktor penting untuk memprediksi kinerja akademik sekolah.

Page 26: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

17

� Regresi Linear Ganda dengan Prediktor

Kategorik Non-Biner

Misalkan dimiliki variabel ramdom kontinu Y dan variabel kategorik

X dengan 3 kategori, X = {1, 2, 3}. Misalkan pula hendak dilakukan regresi X

terhadap Y, maka X harus terlebih dahulu ditransformasikan menjadi 2

variabel indikator 1Z dan 2Z ; 1Z = {0, 1} dan 2Z = {0, 1}.

Pada Stata, transformasi variabel kategorik menjadi variabel indikator

dilakukan dengan menggunakan operator i. Tiap variabel kategorik X dengan

p taraf oleh operator i., yaitu i.X ditransformasikan menjadi (p – 1) indikator

Z. Misalnya variabel kategorik X dengan 3 taraf ditransformasikan menjadi 2

variabel indikator 1Z dan 2Z .

1Z 2Z

X = 1 0 0

X = 2 1 0

X = 3 0 1

Model yang diinginkan untuk regresi X terhadap Y menjadi regresi

linear Z terhadap Y, yaitu:

iY = 0β +

1β 1iZ +

2β 2iZ + iε

Model regresi linear dengan satu prediktor kategorik non-biner

(dengan taraf lebih daripada dua) dapat dianggap sebagai regresi linear

ganda, karena pada fitting modell diperlakukan memiliki (p – 1) variabel

independen indikator dengan (p – 1) estimator koefisien regresi.

Perintah Stata untuk regresi linear ganda dengan prediktor kategorik

(non-biner) adalah:

regress depvar i.indepvar(s) [if] [in] [, options]

Page 27: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

18

Tanpa operator i., prediktor akan dianggap sebagai variabel kontinu.

Variabel indikator yang terbentuk dengan operator i. dan digunakan untuk

fitting model tidak tersimpan dalam dataset. Jika diinginkan (p – 1) variabel

indikator yang terbentuk tersimpan dalam dataset, perintah Stata adalah:

xi: regress depvar i.indepvar(s) [if] [in] [, options]

Contoh 3.2:

. use “D:\Analisis Regresi Linear\Data\hsb2.dta”, clear

(highschool and beyond (200 cases))

. tabulate ses

ses | Freq. Percent Cum.

------------+-----------------------------------

low | 47 23.50 23.50

middle | 95 47.50 71.00

high | 58 29.00 100.00

------------+-----------------------------------

Total | 200 100.00

. tabulate ses, nolabel

ses | Freq. Percent Cum.

------------+-----------------------------------

1 | 47 23.50 23.50

2 | 95 47.50 71.00

3 | 58 29.00 100.00

------------+-----------------------------------

Total | 200 100.00

Selanjutkan dilakukan fitting model. Variabel kategorik ses dengan

3 taraf akan direpresentasikan oleh 2 variabel indikator yang dibentuk oleh

i.ses (X = 1 menjadi baseline).

. regress science i.ses

Page 28: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

19

Source | SS df MS Number of obs = 200

---------+-------------------------- F( 2, 197) = 8.57

Model | 1561.57802 2 780.789008 Prob > F = 0.0003

Residual | 17945.922 197 91.0960507 R-squared = 0.0801

---------+-------------------------- Adj R-squared = 0.0707

Total | 19507.5 199 98.0276382 Root MSE = 9.5444

----------------------------------------------------------

science | Coef. Std. Err. t P>|t| [95% Conf. Interval]

--------+-------------------------------------------------

ses |

middle| 4.003135 1.702093 2.35 0.020 .6464741 7.359797

high | 7.746148 1.873189 4.14 0.000 4.052072 11.44022

|

_cons | 47.70213 1.392197 34.26 0.000 44.9566 50.44765

----------------------------------------------------------

Dengan awalan perintah (command prefix) xi:

. xi: regress science i.ses

i.ses _Ises_1-3 (naturally coded; _Ises_1 omitted)

Source | SS df MS Number of obs = 200

---------+---------------------------- F(2, 197) = 8.57

Model | 1561.57802 2 780.789008 Prob > F = 0.0003

Residual | 17945.922 197 91.0960507 R-squared = 0.0801

---------+---------------------------- Adj R-squared = 0.0707

Total | 19507.5 199 98.0276382 Root MSE = 9.5444

Page 29: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

20

---------------------------------------------------------------

science | Coef. Std. Err. t P>|t| [95% Conf. Interval]

--------+------------------------------------------------------

_Ises_2 | 4.003135 1.702093 2.35 0.020 .6464741 7.359797

_Ises_3 | 7.746148 1.873189 4.14 0.000 4.052072 11.44022

_cons | 47.70213 1.392197 34.26 0.000 44.9566 50.44765

---------------------------------------------------------------

Taraf low pada variabel kategorik ses menjadi baseline untuk

kontras (middle vs low dan high vs low). Tampak bahwa baik kontras ses

untuk middle vs low maupun untuk high vs low, keduanya bermakna,

masing-masing dengan nilai p = 0.02 dan p = 0.00. Tampak pula bahwa

untuk middle = 0 dan high = 0, nilai science adalah 47.70, sedangkan jika

middle = 0 dan high = 1, nilai science menjadi (47.70 + 7.75) = 55.45.

Perhatikan pula bahwa tidak mungkin terjadi kombinasi nilai middle

= 1 dan high = 1.

� Regresi Linear Ganda dengan Interaksi

Misalkan hendak diregresikan variabel random 1X dan 2X

besertanya interaksinya terhadap variabel random kontinu Y dengan model:

iY = 0β +

1β 1iX +

2β 2iX +

3β 1iX 2i

X + iε

Untuk model regresi dengan interaksi ini, selain operator i. yang

mentransformasikan variabel kategorik dengan k taraf menjadi (k – 1)

variabel indikator, akan diperkenalkan pula operator c. yang kegunaannya

akan dibahas di bawah ini.

Pada model dengan interaksi, suku-suku yang ada pada ruas kanan

persamaan dibedakan menjadi (a) suku variabel tunggal yang tidak

Page 30: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

21

menyatakan interaksi, disebut sebagai efek utama (main effects) dan (b)

suku perkalian dua (atau lebih) variabel tunggal yang menyatakan suku

interaksi.

Yang dapat dijadikan efek utama adalah variabel indikator, variabel

kontinu, atau variabel kategorik dengan operator i.; menjadi i.varname.

Yang dapat dimasukkan dalam suku interaksi adalah variabel

indikator, variabel kategorik, atau variabel kontinu dengan operator c.;

menjadi c.varname.

Contoh 3.3:

. use “D:\Analisis Regresi Linear\Data\honolulu.dta”, clear

Berikut diperlihatkan beberapa contoh regresi linear ganda. Contoh

pertama adalah regresi linear ganda dengan 2 prediktor kontinu, yaitu usia

dan kolesterol.

. regress tek_darah usia kolesterol

Source | SS df MS Number of obs = 100

---------+--------------------------- F( 2, 97) = 4.02

Model | 3404.78195 2 1702.39098 Prob > F = 0.0211

Residual | 41118.218 97 423.899155 R-squared = 0.0765

---------+--------------------------- Adj R-squared = 0.0574

Total | 44523 99 449.727273 Root MSE = 20.589

Page 31: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

22

-----------------------------------------------------------------

tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]

----------+------------------------------------------------------

usia | .8469443 .408067 2.08 0.041 .0370443 1.656844

kolesterol| .0906782 .0535687 1.69 0.094 -.0156407 .1969972

_cons | 64.97095 23.74061 2.74 0.007 17.85242 112.0895

-----------------------------------------------------------------

Contoh berikut ini menunjukkan regresi linear ganda dengan 2

prediktor kontinu, usia dan kolesterol, serta interaksi antara keduanya.

Variabel kontinu dalam suku interaksi harus mendapat operator c. agar tidak

dianggap sebagai variabel kategorik dalam suku interaksi.

. regress tek_darah usia kolesterol c.usia#c.kolesterol

Source | SS df MS Number of obs = 100

---------+--------------------------- F( 3, 96) = 3.27

Model | 4127.36425 3 1375.78808 Prob > F = 0.0246

Residual | 40395.6358 96 420.787872 R-squared = 0.0927

---------+--------------------------- Adj R-squared = 0.0643

Total | 44523 99 449.727273 Root MSE = 20.513

-------------------------------------------------------------------------

tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]

----------------+--------------------------------------------------------

usia | 4.383427 2.729183 1.61 0.112 -1.033959 9.800813

kolesterol | .9399724 .6503 1.45 0.152 -.3508628 2.230808

|

c.usia# |

c.kolesterol | -.0158138 .0120677 -1.31 0.193 -.0397681 .0081404

|

_cons | -124.6174 146.5978 -0.85 0.397 -415.6118 166.377

-------------------------------------------------------------------------

Page 32: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

23

Contoh di bawah ini menunjukkan regresi linear ganda dengan 1

prediktor kontinu, usia, dan 1 prediktor kategorik biner, rokok.

. regress tek_darah usia rokok

Source | SS df MS Number of obs = 100

---------+--------------------------- F( 2, 97) = 2.87

Model | 2485.12693 2 1242.56346 Prob > F = 0.0617

Residual | 42037.8731 97 433.380135 R-squared = 0.0558

---------+--------------------------- Adj R-squared = 0.0363

Total | 44523 99 449.727273 Root MSE = 20.818

-----------------------------------------------------------------

tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]

------------------------------------------------------

usia | .9466804 .4112442 2.30 0.023 .1304745 1.762886

rokok | 3.566772 4.323255 0.83 0.411 -5.013693 12.14724

_cons | 77.97196 22.34209 3.49 0.001 33.6291 122.3148

-----------------------------------------------------------------

Contoh selanjutnya memperlihatkan regresi linear ganda dengan 1

prediktor kontinu usia, 1 prediktor kategorik biner rokok, serta interaksi

antara keduanya. Variabel kontinu usia dalam suku interaksi diberi operator

c.

. regress tek_darah usia rokok c.usia#rokok

Source | SS df MS Number of obs = 100

---------+--------------------------- F( 3, 96) = 1.93

Model | 2531.81794 3 843.939314 Prob > F = 0.1300

Residual | 41991.1821 96 437.408146 R-squared = 0.0569

---------+--------------------------- Adj R-squared = 0.0274

Total | 44523 99 449.727273 Root MSE = 20.914

Page 33: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

24

--------------------------------------------------------------------------

tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]

------------+-------------------------------------------------------------

usia | 1.040749 .5035781 2.07 0.041 .041154 2.040343

rokok | 18.94451 47.26727 0.40 0.689 -74.88028 112.7693

|

rokok# |

c.usia |

1 | -.2877643 .8807723 -0.33 0.745 -2.036083 1.460555

|

_cons | 72.89675 27.29671 2.67 0.009 18.7132 127.0803

--------------------------------------------------------------------------

Sekarang diperlihatkan regresi linear ganda dengan 1 prediktor

kontinu, usia, dan 1 prediktor kategorik, pend. Variabel kategorik non-

biner yang dijadikan efek utama harus diberi operator i. menjadi i.pend

untuk mengkonversinya menjadi variabel indikator.

. regress tek_darah usia i.pend

Source | SS df MS Number of obs = 100

---------+--------------------------- F( 5, 94) = 1.68

Model | 3658.43513 5 731.687027 Prob > F = 0.1462

Residual | 40864.5649 94 434.729413 R-squared = 0.0822

---------+--------------------------- Adj R-squared = 0.0333

Total | 44523 99 449.727273 Root MSE = 20.85

Page 34: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

25

-------------------------------------------------------------------

tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]

----------+--------------------------------------------------------

usia | .8387384 .420814 1.99 0.049 .0032023 1.674275

|

pend |

2 | -1.292157 5.573684 -0.23 0.817 -12.35884 9.774523

3 | -.0548732 6.053667 -0.01 0.993 -12.07457 11.96482

4 | -12.39448 8.182403 -1.51 0.133 -28.64083 3.851877

5 | -7.623154 7.872033 -0.97 0.335 -23.25326 8.006951

|

_cons | 87.38939 23.51743 3.72 0.000 40.69497 134.0838

-------------------------------------------------------------------

Berikut ini adalah contoh regresi linear ganda dengan 1 prediktor

kontinu dan 1 prediktor kategorik non-biner. Sebagai efek utama, variabel

kategorik pend harus diberi operator i. menjadi i.pend, sedangkan dalam

suku interaksi, variabel kontinu usia yang harus diberi operator c. menjadi

c.usia.

. regress tek_darah usia i.pend c.usia#pend

Source | SS df MS Number of obs = 100

---------+----------------------------- F( 9, 90) = 1.25

Model | 4941.84363 9 549.093736 Prob > F = 0.2762

Residual | 39581.1564 90 439.790626 R-squared = 0.1110

---------+----------------------------- Adj R-squared = 0.0221

Total | 44523 99 449.727273 Root MSE = 20.971

Page 35: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

26

------------------------------------------------------------------------------

tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

usia | 1.328125 .7005981 1.90 0.061 -.0637355 2.719985

|

pend |

2 | 49.26815 52.90101 0.93 0.354 -55.82895 154.3652

3 | -11.77593 69.6128 -0.17 0.866 -150.0739 126.5221

4 | 17.71206 126.0571 0.14 0.889 -232.7224 268.1465

5 | 155.7896 116.6524 1.34 0.185 -75.96074 387.5399

|

pend#c.usia |

2 | -.9249705 .9623264 -0.96 0.339 -2.8368 .9868588

3 | .2471469 1.303531 0.19 0.850 -2.342544 2.836838

4 | -.5503472 2.392998 -0.23 0.819 -5.304456 4.203761

5 | -3.089319 2.206097 -1.40 0.165 -7.472116 1.293478

|

_cons | 60.47312 38.76049 1.56 0.122 -16.53136 137.4776

------------------------------------------------------------------------------

Page 36: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

27

BAB 4

ASUMSI-ASUMSI PADA

REGRESI LINEAR

Beberapa asumsi pada model regresi linear yaitu:

a. Model adekuat

b. Asumsi linearitas

c. Asumsi independensi dan non-otokorelasi

d. Asumsi normalitas

e. Asumsi homoskedatisitas

f. Asumsi non-multikolinearitas.

Kelima asumsi pertama berlaku untuk regresi linear sederhana

maupun ganda, sedangkan asumsi terakhir hanya berlaku pada regresi linear

ganda. Pada umumnya, seluruh asumsi-asumsi baru dapat dinilai validitasnya

setelah dilakukan fitting model.

� Model Adekuat

Asumsi ini menyatakan bahwa model yang diajukan peneliti harus

adekuat untuk memprediksi respons. Asumsi ini dinilai dengan uji goodness-

of-fit, yaitu uji F dengan hipotesis 0H : iβ = 0 untuk seluruh i (i = 1, 2, . . . ,

k) vs 1H : 0H tidak benar (paling sedikit satu iβ ≠ 0). Hasil uji F ini

ditampilkan pada perintah regress Stata.

Uji ini terutama penting pada regresi linear ganda, karena pada

regresi linear sederhana, uji F untuk model pada hakekatnya sama dengan uji

t untuk prediktor tunggalnya.

Page 37: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

28

Contoh 4.1:

Lihat kembali data dan hasil keluaran pada contoh 2.1.

. use “ D:\Analisis Regresi Linear\Data\elemapi.dta”, clear

. regress api00 enroll

Source | SS df MS Number of obs = 400

---------+---------------------------- F( 1, 398) = 44.83

Model | 817326.293 1 817326.293 Prob > F = 0.0000

Residual | 7256345.70 398 18232.0244 R-squared = 0.1012

---------+---------------------------- Adj R-squared = 0.0990

Total | 8073672.00 399 20234.7669 Root MSE = 135.03

Tampak nilai p untuk uji F adalah adalah 0.0000, sehingga hipotesis

0H : 1β = 0 ditolak dan model dianggap adekuat untuk memprediksi

respons. Koefisien determinasi 2

R = 0.1012 menunjukkan bahwa prediktor

enroll hanya “menjelaskan” 10% variasi pada respons.

� Asumsi Linearitas

Asumsi linearitas menyatakan bahwa hubungan antara X dan Y linear.

Secara kasar linearitas hubungan ini dapat dinilai dari diagram tebar X-Y,

sedangkan penilaian secara lebih eksak adalah dengan uji lack-of-fit dengan

0H : Tidak ada lack-of-fit vs 1H : Ada lack-of-fit.

Page 38: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

29

Contoh 4.2:

Lihat kembali data pada contoh 2.1.

. graph twoway scatter api00 enroll || lfit api00 enroll

Tampak bahwa tebaran titik-titik tidak terlalu jelas mengikuti garis

regresi yang diestimasikan. Selanjutnya pemeriksaan asumsi linearitas

diteruskan dengan uji lack-of-fit.

. regress api00 enroll

. maxr2

maximum R-square = 0.7917

relative R-square = 0.1279

actual adjusted R-square = 0.0990

relative adjusted R-square = 0.1257

400

600

800

1000

0 500 1000 1500number of students

api 2000 Fitted values

Page 39: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

30

SSLF (df) = 5574305.5 (306) MSLF = 18216.684

SSPE (df) = 1682040.3 (92) MSPE = 18283.046

F (dfn, dfd) for lack-of-fit test (MSLF/MSPE) = 0.9964 (306,92)

prob > F = 0.5206

number of covariate patterns = 308

as ratio of observations = 0.770

Dengan nilai p = 0.5206, hipotesis 0H : Tidak ada lack-of-fit tidak ditolak.

� Asumsi Independensi dan Non-Otokorelasi

Asumsi independensi dan non-otokorelasi menyatakan bahwa suku

galat saling independen dan tak saling berkorelasi. Untuk data dari studi

cross-sectional, asumsi ini dianggap telah terpenuhi jika data diperoleh

melalui sampling acak (random sampling), walaupun independensi dapat

lebih jelas dilihat dari grafik galat-respons.

Pada data runtun waktu (time-series), asumsi non-otokorelasi

diperiksa dengan uji Durbin-Watson, yang tak akan dibahas di sini.

Contoh 4.3:

Lihat data pada contoh 2.1.

. regress api00 enroll

Suku galat diperoleh dengan perintah berikut.

. predict yhat

Page 40: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

31

. gen e=api00-yhat

Secara langsung, suku galat diperoleh dengan perintah:

. predict e, residuals

Perintah Stata berikut menampilkan plot residual (galat) vs prediktor:

. rvpplot enroll, yline(0)

Tampak bahwa residual (galat) tersebar secara acak di atas dan di

bawah garis horizontal 0, mengindikasikan bahwa residual (dan juga

respons) saling independen.

-400

-200

0200

400

Residuals

Page 41: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

32

� Asumsi Normalitas

Asumsi normalitas menyatakan bahwa suku galat berdistribusi

normal dengan rerata nol. Asumsi ini dapat diperiksa dengan uji normalitas

Kolmogorov-Smirnov atau uji Shapiro-Wilk untuk menguji hipotesis 0H :

Suku galat berdistribusi normal vs 1H : Suku galat tidak berdistribusi normal.

Contoh 4.4:

Lihat data pada contoh 2.1.

. regress api00 enroll

. predict e, residuals

Dilakukan uji Shapiro-Wilk untuk menguji normalitas suku galat.

. swilk e

Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z

---------+--------------------------------------------

e | 400 0.97083 8.030 4.957 0.00000

Dengan nilai p = 0.0000 hipotesis 0H : Suku galat berdistribusi

normal ditolak.

Page 42: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

33

� Asumsi Homoskedatisitas

Asumsi homoskedastisitas menyatakan bahwa suku galat memiliki

variansi konstan. Asumsi ini dapat diperiksa dengan uji Breusch-Pagan dan

uji White, keduanya menguji 0H : Homoskedastisitas vs 1H :

Heteroskedastisitas. Uji Breusch-Pagan ditujukan untuk menguji linear

heteroskedasticity, sedangkan uji White menggunakan 1H : Unrestricted

heteroskedasticity untuk menguji hourglass heteroskedasticity.

Contoh 4.5:

Lihat data pada contoh 2.1.

. regress api00 enroll

Uji Breusch-Pagan (untuk linear heteroskedasticity) adalah sebagai

berikut:

. estat hettest

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Ho: Constant variance

Variables: fitted values of api00

chi2(1) = 1.91

Prob > chi2 = 0.1665

Dengan p = 0.1665 hipotesis 0H : Homoskedastisitas tidak ditolak

(tidak ada linear heteroskedasticity). Selanjutnya dilakukan uji White (untuk

menguji glasshour heteroskedasticity):

Page 43: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

34

. estat imtest, white

White's test for Ho: homoskedasticity

against Ha: unrestricted heteroskedasticity

chi2(2) = 3.78

Prob > chi2 = 0.1514

Cameron & Trivedi's decomposition of IM-test

---------------------------------------------

Source | chi2 df p

-------------------+-------------------------

Heteroskedasticity | 3.78 2 0.1514

Skewness | 34.11 1 0.0000

Kurtosis | 26.44 1 0.0000

-------------------+-------------------------

Total | 64.32 4 0.0000

---------------------------------------------

Dengan p = 0.1514, hipotesis 0H : Homoskedastisitas tidak ditolak

(tidak ada glasshour heteroskedasticity).

Pada regresi linear ganda, dengan adanya lebih daripada satu variabel

independen, pengujian keempat asumsi di atas harus dilakukan untuk

pasangan variabel dependen dengan tiap variabel independennya satu-per-

satu.

� Asumsi Non-Multikolinearitas

Asumsi non-multikoliearitas (hanya untuk regresi linear ganda)

menyatakan bahwa tidak boleh ada korelasi yang “hampir sempurna” antar

tiap pasangan variabel independen. Ada korelasi yang “hampir sempurna”

dapat dinilai dengan memeriksa matriks korelasi antar variabel independen,

Page 44: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

35

atau secara kuantitatif dengan menghitung nilai VIF (variance inflation

factor) ataupun inversinya Tolerance = 1/VIF. Nilai VIF yang lebih besar

daripada 10 atau nilai Tolerance yang kurang daripada 0.10

mengindikasikan adanya multi kolinearitas.

Contoh 4.6:

. use “D:\Analisis Regresi Linear\Data\elemapi.dta”, clear

Variabel-variabel pada dataset ini adalah:

api00 : Kinerja akademik sekolah tahun 2000

acs_k3 : Rerata ukuran kelas dari TK s.d. kelas 3

meals : Persentase siswa yang mendapat makan gratis (indikator

kemiskinan)

full : Persentase guru yang memiliki akreditasi penuh untuk

mengajar

Sebagian dari nilai-nilai pada dataset diperlihatkan sebagai berikut:

. list api00 acs_k3 meals full in 1/7

+---------------------------------+

| api00 acs_k3 meals full |

|---------------------------------|

1. | 693 16 67 76.00 |

2. | 570 15 92 79.00 |

3. | 546 17 97 68.00 |

4. | 571 20 90 87.00 |

5. | 478 18 89 87.00 |

|---------------------------------|

6. | 858 20 . 100.00 |

7. | 918 19 . 100.00 |

+---------------------------------+

Page 45: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

36

Matriks korelasi yang disajikan dalam bentuk diagram tebar adalah:

. graph matrix api00 acs_k3 meals full, half

Matriks korelasi diperoleh dengan perintah berikut:

. correlate api00 acs_k3 meals full

(obs=313)

| api00 acs_k3 meals full

-------------+------------------------------------

api00 | 1.0000

acs_k3 | -0.0641 1.0000

meals | -0.8184 0.0097 1.0000

full | 0.2328 0.1789 -0.2518 1.0000

Fitting model:

. regress api00 acs_k3 meals full

api2000

avgclasssizek-3

pctfree

meals

pct fullcredential

400 600 800 1000

-20

0

20

-20 0 20

0

50

100

0 50 100

0.00

50.00

100.00

Page 46: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

37

Source | SS df MS Number of obs = 313

---------+------------------------------ F( 3, 309) = 213.41

Model | 2634884.26 3 878294.754 Prob > F = 0.0000

Residual | 1271713.21 309 4115.57673 R-squared = 0.6745

---------+------------------------------ Adj R-squared = 0.6713

Total | 3906597.47 312 12521.1457 Root MSE = 64.153

------------------------------------------------------------------------

api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------+----------------------------------------------------------------

acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073

meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348

full | .1086104 .090719 1.20 0.232 -.0698947 .2871154

_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555

------------------------------------------------------------------------

Dilakukan uji multikolinearitas dengan perintah vif, perintah ini

harus langsung diberikan setelah perintah regress:

. vif

Variable | VIF 1/VIF

-------------+----------------------

full | 1.11 0.903713

meals | 1.07 0.933517

acs_k3 | 1.04 0.964781

-------------+----------------------

Mean VIF | 1.07

Tampak bahwa untuk ketiga variabel independen tidak ada nilai VIF

yang lebih besar daripada 10 atau nilai Tolerance = 1/VIF yang kurang

daripada 0.10, sehingga disimpulkan tidak ada multikolinearitas.

Page 47: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan
Page 48: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

39

BAB 5

ESTIMASI KOEFISIEN REGRESI

DAN INTERPRETASI HASIL

� Metode Estimasi Koefisien Regresi

Metode estimasi yang paling umum digunakan untuk mengestimasi

koefisien regresi linear adalah metode Kuadrat Terkecil (Ordinary Least

Squares; OLS). Di sini hanya akan dibahas metode kuadrat terkecil untuk

regresi linear sederhana.

Misalkan dimiliki estimasi garis regresi untuk model regresi

sederhana:

ˆiY =

0b + 1b iX

Misalkan pula Q menyatakan jumlah kuadrat galat, yaitu:

Q = 2

1

n

ii

e=∑ (5.1)

Metode kuadrat terkecil meminimumkan jumlah kuadrat galat Q

dengan syarat derivat partial Q terhadap 0b dan

1b masing-masing sama

dengan nol:

0

Q

b

∂ = 0 dan

1

Q

b

∂ = 0 (5.2)

sehingga diperoleh:

n 0b +

1b iX∑ −

iY∑ = 0 (5.3.a)

dan 0b

iX∑ + 1b

2iX∑ −

i iX Y∑ = 0 (5.3.b)

Page 49: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

40

Diperoleh rumus untuk koefisien regresi 1b :

1b =

( )( )

( )2

i i

i

X X Y Y

X X

− −

∑ (5.4)

dan 0b = Y −

1b X (5.5)

� Tabel Analisis Variansi

Keluaran hasil analisis regresi dengan Stata akan menampilkan dua

tabel, yaitu tabel analisis variansi dengan hasil pelengkapnya dan tabel

koefisien regresi.

Dari model:

iY = 0β +

1β iX +

diperoleh estimasi model:

iY = 0b +

1b iX +

ie

sehingga: ( )iVar Y = ( ) 0 1 i iVar b b X e+ +

dan: ( )iVar Y = ( ) 0Var b + ( )

1 iVar b X + ( ) iVar e

0b adalah konstante, sehingga ( ) 0Var b = 0 dan:

( )iVar Y = ( ) 1 iVar b X + ( )

iVar e

Pada tabel analisis variansi (tabel ANOVA), variansi variabel

dependen ( )iVar Y diestimasi oleh jumlah kuadrat total (JKT).

Penguraiannya dirinci pada tabel analisis variansi (tabel ANOVA) menjadi:

1. Jumlah kuadrat regresi (JKR) sebagai estimator untuk ( ) 1 iVar b X :

Menyatakan komponen variansi yang berkaitan dengan (“dijelaskan

oleh”) model regresi; beserta

Page 50: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

41

2. Jumlah kuadrat galat (jumlah kuadrat residual; JKG) sebagai

estimator untuk ( ) iVar e : Menyatakan komponen variansi sisanya yang

“tidak dijelaskan” oleh model.

Jumlah kuadrat dibagi dengan derajat bebasnya menghasilkan rerata

kuadrat, masing-masing yaitu “rerata kuadrat regresi” dan “rerata

kuadrat galat” yang nilai-nilainya digunakan untuk uji F di bawah ini.

Bentuk umum tabel analisis variansi ini adalah:

Sumber Variasi Jumlah Kuadrat db Rerata

Kuadrat

Model JKR k RKR

Galat JKG n – k – 1 RKG

JKT n – 1

JKR : Jumlah Kuadrat Regresi

JKG : Jumlah Kuadrat Galat (Jumlah Kuadrat Residual)

JKT : Jumlah Kuadrat Total ; JKT = JKR + JKG

db : derajat bebas ; db JKR = k

db JKG = n – k – 1

db JKT = (db JKR) + (db JKG)

= n – 1

RKR : Rerata Kuadrat Regresi ; RKR = JKR / k

RKG : Rerata Kuadrat Galat ; RKG = JKG / (n – k – 1)

n : ukuran sampel

k : jumlah variabel independen

Sebagai pelengkap tabel analisis variansi, diperoleh pula hasil dan

nilai estimasi:

� Uji F, yaitu uji statistik untuk keadekuatan model yang diajukan

peneliti beserta nilai p-nya.

Uji F menguji hipotesis 0H : Model tak adekuat vs 1H : Model adekuat.

Page 51: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

42

Statistik pengujinya adalah:

ujiF = ( )

JKR

JKG 1

k

n k− − =

RKR

RKG (5.6)

yang berdistribusi F dengan derajat bebas pembilang (numerator) = k

dan derajat bebas penyebut (denominator) = n – k – 1; n menyatakan

ukuran sampel; k menyatakan jumlah variabel independen.

Perhatikan bahwa model yang “adekuat” belum tentu merupakan model

yang “terbaik”.

� Koefisien determinasi 2R (R-squared), yaitu proporsi variansi yang

“dijelaskan oleh” model. Estimasinya adalah: yaitu: dan estimasi

“penyesuaian”-nya adj 2R (adjusted 2

R ), masing-masing yaitu:

2R =

JKR

JKT =

JKT - JKG

JKT (5.7)

Sebagian ahli menganggap nilai 2R sebagai estimasi yang bias

terhadap proporsi variansi yang “dijelaskan oleh” model, sehingga

diperlukan penyesuaian menjadi adjusted R-squared:

adj 2R = 1 −

( ) ( )21 1

1

R n

n p

− −

− − (5.8)

p menyatakan jumlah variabel independen dalam model.

� Root MSE, yaitu akar RKG.

Root MSE = RKG = JKG

1n k− − (5.9)

Nilai ini akan digunakan pada sejumlah uji statistik pasca fitting model

regresi.

Page 52: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

43

� Tabel Koefisien Regresi

Tabel ini terutama berguna pada analisis regresi ganda. Pada analisis

regresi sederhana dengan hanya satu variabel independen, nilai p untuk uji

signifikansi koefisien regresinya adalah sama dengan nilai p untuk model

pada uji F, tetapi pada analisis regresi ganda, dengan adanya beberapa

variabel independen, tiap variabel independen akan memiliki nilai

kemaknaan sendiri-sendiri, sehingga diperlukan tabel koefisien regresi untuk

melihat kemaknaan masing-masing variabel independen.

Bentuk umum tabel koefisien regresi adalah:

Y Koeff SE t nilai p Int Konf 95%

1X 1b ( )

1ˆSE b

1t 1p

1 lowb −

1 highb −

2X 2b ( )

2ˆSE b

2t 2p

2 lowb −

2 highb −

. . . . . . . . . . . . . . . . . . . . .

kX

kb ( )

ˆk

SE b k

t k

p k low

b − k high

b −

Intersep 0b ( )

0ˆSE b

0t 0p

0 lowb −

0 highb −

Kemaknaan tiap estimasi koefisien regresi diuji dengan uji Wald

yang menggunakan uji t dengan statistik penguji:

ujit = ( )ˆ

j

j

b

SE b =

jb

RKG JKR (5.10)

yang berdistribusi t dengan derajat bebas (n – k – 1).

Page 53: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

44

Contoh 5.1:

Lihat kembali contoh 2.1 dengan file data elemapi.dta, yang

memuat data tentang kinerja akademik 400 sekolah di sebuah regio di

Amerika Serikat. Perintah Stata regress menampilkan hasil tabel analisis

variansi berserta pelengkapnya dan variabel koefisien regresi. Tabel analisis

variansi beserta pelengkapnya adalah:

Source | SS df MS Number of obs = 400

---------+---------------------------- F( 1, 398) = 44.83

Model | 817326.293 1 817326.293 Prob > F = 0.0000

Residual | 7256345.70 398 18232.0244 R-squared = 0.1012

---------+---------------------------- Adj R-squared = 0.0990

Total | 8073672.00 399 20234.7669 Root MSE = 135.03

Tampak nilai JKT (Jumlah Kuadrat Total; Total) sebesar

8,073,672.00 dengan derajat bebas n – 1 = 399, yang dapat dijabarkan

menjadi JKR (Jumlah Kuadrat Regresi) dan JKG (Jumlah Kuadrat Galat).

JKR (SS Model) adalah 817,326.293 dengan derajat bebas k = 1 dan JKG

(SS Residual) adalah 7,256,345.70 dengan derajat bebas n – k – 1 = 398.

Pembagian tiap nilai Jumlah Kuadrat dengan derajat bebasnya

(degree of freedom; df) menghasilkan nilai Rerata Kuadrat (MS). RKR

(Rerata Kuadrat Regresi; MS Model) adalah 817,326.293 dan RKG (Rerata

Kuadrat Galat; MS Residual) adalah 18,232.0244. Pembagian RKR

dengan RKG menghasilkan statistik penguji [F(1, 398)] sebesar 44.83

dengan nilai-p (Prob > F) 0.0000, yang menyatakan hasil yang sangat

bermakna, sehingga hipotesis 0H : Model tak adekuat ditolak (paling sedikit

salah satu prediktor bermakna untuk memprediksi respons).

Koefisien determinasi (R-squared) adalah 0.1012,

mengindikasikan bahwa model dengan 1 prediktor enroll (jumlah siswa)

hanya dapat menjelaskan 10.12% variansi respons api00 (kinerja akademik

sekolah pada tahun 2000). Penyesuaian koefisien variansi (Adj R-

Page 54: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

45

squared) sebesar 0.0990 hanya menghasilkan sedikit perubahan, yaitu

model tetap hanya dapat menjelaskan 9.90% variansi respons api00.

Nilai Root MSE yaitu akar MS Residual adalah 135.03.

Selanjutnya diperlihatkan tabel koefisien regresi, yaitu:

----------------------------------------------------------------

api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------+--------------------------------------------------------

enroll | -.1998674 .0298512 -6.70 0.000 -.2585532 -.1411817

_cons | 744.2514 15.93308 46.71 0.000 712.9279 775.5749

----------------------------------------------------------------

Dari tabel ini tampak bahwa respons adalah api00, sedangkan

prediktor hanya ada 1 yaitu enroll. Dengan nilai-nilai estimasi yang ada

untuk koefisien regresi (Coef.), maka estimasi model adalah:

api00 = 744 – 0.200 enroll + e

Pembagian tiap nilai estimasi koefisien regresi (Coef.) dengan

standard error-nya (Std. Err.) menghasilkan nilai t (t), yaitu statistik

penguji untuk tiap hipotesis 0H : jb = 0 (uji Wald untuk tiap koefisien

regresi) dengan nilai p-nya (P>|t|) masing-masing. Hasil uji bahwa

hipotesis nol tidak ditolak mengindikasikan bahwa koefisien regresi

bersangkutan “dapat dianggap” sama dengan nol, sehingga prediktor yang

bersangkutan dapat dikeluarkan dari model.

Nilai p untuk enroll adalah 0.000 yang sangat bermakna, sehingga

prediktor enroll dapat dianggap sangat bermakna dalam memprediksi

kinerja akademik sekolah.

Estimasi untuk 1β (Coef. enroll) adalah −0.200 dengan interval

konfidensi 95% ([95% Conf. Interval]) untuk estimasi koefisien

Page 55: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

46

regresi 1β adalah [−0.259 ; −0.141]. Bagi estimasi koefisien regresi enroll

yang bernilai negatif ini dapat diinterpretasikan bahwa tiap penambahanan 1

orang siswa (1 unit enroll) akan menurunkan kinerja akademik sekolah

sebesar 0.200 satuan.

Contoh 5.2:

Lihat kembali contoh 3.1 yang juga menggunakan file data

elemapi.dta dengan respons yang sama api00, tetapi pada model regresi

linear ganda dengan 3 prediktor, yaitu acs_k3, meals, dan full.

Tabel analisis variansi adalah:

Source | SS df MS Number of obs = 313

---------+---------------------------- F( 3, 309) = 213.41

Model | 2634884.26 3 878294.754 Prob > F = 0.0000

Residual | 1271713.21 309 4115.57673 R-squared = 0.6745

---------+---------------------------- Adj R-squared = 0.6713

Total | 3906597.47 312 12521.1457 Root MSE = 64.153

Ukuran sampel (Number of Obs) adalah n = 313 dan jumlah

variabel independen (prediktor) adalah k = 3.

Tampak nilai Jumlah Kuadrat Total (SS Total) sebesar

3,906,597.47 dengan derajat bebas (df Total) n – 1 = 312. Pada

penguraiannya diperoleh Jumlah Kuadrat Regresi (SS Model) 2,634,884.26

dengan derajat bebas (df Model) k = 3 dan Jumlah Kuadrat Galat (SS

Residual) 1,271,713.21 dengan derajat bebas (df Residual) n – k – 1

= 309.

Pembagian Jumlah Kuadrat dengan derajat bebas menghasilkan

Rerata Kuadrat, masing-masing yaitu Rerata Kuadrat Regresi (MS Model)

sebesar 878,294.754 dan Rerata Kuadrat Galat (MS Residual) sebesar

Page 56: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

47

4,115.577. Pembagian Rerata Kuadrat Regresi dengan Rerata Kuadrat Galat

menghasilkan nilai statistik penguji untuk uji F [F( 3, 309)] untuk

menguji hipotesis 0H : Model tak adekuat vs 1H : Model adekuat, yaitu

213.41, yang berdistribusi F dengan derajat bebas pembilang 3 dan derajat

bebas penyebut 309). Uji F ini menghasilkan nilai p (Prob > F) 0.000,

sehingga hipotesis 0H : Model tak adekuat ditolak (model dianggap adekuat).

Koefisien determinasi 2R (R-squared) adalah 0.674,

mengindikasikan bahwa 67.4% variansi respons api00 yang dapat

“dijelaskan” oleh model. Penyesuaiannya menjadi adj 2R (Adj R-

squared) sebesar 0.671 atau 67.1%.

Akar JKG (MS Residual) adalah Root MSE, yaitu 64.153.

Selanjutnya tabel koefisien regresi adalah:

--------------------------------------------------------------------

api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------+------------------------------------------------------------

acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073

meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348

full | .1086104 .090719 1.20 0.232 -.0698947 .2871154

_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555

--------------------------------------------------------------------

Tabel menunjukkan bahwa variabel respons adalah api00 dengan 3

prediktor, acs_k3, meals, dan full. Model estimasi adalah:

api00 = 906.74 – 2.68 acs_k3 – 3.70 meals + 0.11 full + e

Seandainya acs_k3 (rerata ukuran kelas), meals (persentasi siswa

yang mendapat makan gratis), dan full (persentasi guru dengan akreditasi

penuh) seluruhnya bernilai nol, maka api00 (kinerja akademik sekolah) akan

bernilai 906.74.

Page 57: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

48

Dari hasil uji Wald dengan uji t untuk ketiga estimasi koefisien

regresi, tampak bahwa acs_k3 tidak jelas bermakna (p = 0.055), meals

jelas bermakna (p = 0.000), dan full tidak bermakna (p = 0.232) terhadap

respons api00.

Kedua kolom terakhir menyatakan nilai batas bawah dan batas atas

interval konfidensi 95%. Jika p > 0.5, maka batas bawah akan bernilai

negatif dan batas atas positif, sedangkan jika p < 0.05, maka batas bawah dan

atas akan keduanya bernilai negatif atau keduanya bernilai positif.

Page 58: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

49

BAB 6

KONFAUNDING DAN INTERAKSI

� Konfaunding

Misalkan pada hubungan antara prediktor 1X dan respons Y ,

dimiliki prediktor lain 2X yang juga mempengaruhi respons Y . Jika

seandainya pengendalian terhadap 2X (dengan menginkorporasikan

2X ke

dalam model) mengakibatkan perubahan besar hubungan antara prediktor

pertama 1X dengan Y , maka

2X dikatakan sebagai konfaunder

(confounder) dan fenomena ini dikatakan sebagai konfaunding

(confounding) pada hubungan antara 1X dan Y . Syarat konfaunding yaitu:

a. 2X berpengaruh terhadap Y

b. 2X juga berpengaruh terhadap

1X .

Model konfaunding yang paling sederhana dan paling lazim

ditemukan demikian diperlihatkan pada gambar 6.1, yang sering juga

disajikan sebagai 1 2X X Y← → .

Gambar 6.1 Model konfaunding

Konfaunder 2X umumnya merupakan variabel kategorik. Peristiwa

konfaunding terjadi karena distribusi prediktor 1X tak homogen pada

berbagai taraf nilai konfaunder 2X , walaupun demikian besar efek prediktor

Page 59: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

50

1X terhadap respons Y (dinyatakan dengan koefisien regresinya) pada

berbagai taraf nilai konfaunder 2X ini adalah sama ataupun hampir sama.

Misalkan dimiliki prediktor 1X dan respons Y dengan model regresi

sederhana sebagai berikut:

Y = 0β +

c1β 1X + ε (6.1)

Misalkan dimiliki pula konfaunder potensial 2X , sehingga dengan

inkorporasinya model regresi menjadi tersebut menjadi:

Y = 0β +

c1β 1X +

c 2β 2X + ε (6.2)

Koefisien regresi c1β pada model pertama disebut sebagai “koefisien

regresi kasar” (crude coefficient of regression), selanjutnya dinyatakan

sebagai c1cr β− , sedangkan koefisien regresi

c1β pada model kedua adalah

‘koefisien regresi suaian” (adjusted coefficient of regression), dinyatakan

sebagai 1adj β− .

Besar konfaunding adalah selisih antara estimasi koefisien regresi

kasar dengan estimasi suaiannya, yaitu:

b∆ = c1cr β− − 1adj β− (6.3)

Keberadaan konfaunding tidak ditentukan berdasarkan uji statistik,

melainkan berdasarkan penilaian substantif ranah bidang penelitian yang

bersangkutan, akan tetapi dengan “rule of thumb” (aturan berdasarkan

pengalaman), dapat dinyatakan bahwa konfaunding ada jika 1b adj β−∆

lebih besar daripada 10%.

Page 60: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

51

Walaupun tak selalu, pada umumnya konfaunder adalah variabel

kategorik, dan dalam keadaan ini perlu diperiksa koefisien regresi prediktor

terhadap respons pada tiap taraf kategori konfaunder, yaitu koefisien regresi

spesifik-kategori. Koefisien regresi spesifik-kategori ini harus hampir sama,

tetapi jelas berbeda dengan koefisien regresi “kasar”. Jika koefisien regresi

spesifik-kategori jelas saling berbeda satu sama lain, hal ini mengindikasikan

kemungkinan adanya interaksi.

Untuk pemeriksaan konfaunder kontinu, cukup diperiksa dan

diperbandingkan koefisien regresi “kasar” dan koefisien regresi “suaian”nya.

Nilai yang jelas berbeda antar keduanya mengindikasikan kemungkinan

konfaunding, dengan syarat tidak ada interaksi.

Contoh 6.1:

Konfaunder dalam suatu model regresi mungkin lebih daripada satu,

sebagaimana diperlihatkan pada contoh di sini dengan hanya menggunakan

diagram tebar. Pada diagram tebar pertama di bawah ini, tidak terlihat jelas

adanya hubungan antara Skor Diet (banyaknya asupan makanan) dengan

BMI (indeks massa tubuh).

Page 61: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

52

Dengan mengendalikan konfaunfer pertama, yaitu faktor Usia

sebagai variabel biner (Usia dewasa > 20 tahun vs Usia anak < 20 tahun)

pada diagram kedua, tampak adanya kecenderungan kenaikan indeks massa

tubuh yang sejalan dengan kenaikan asupan makanan di kedua kelompok

Usia.

Dengan mengendalikan faktor usia, yaitu mengkategorikan anggota

sampel ke dalam dua kelompok usia, masing-masing “lebih daripada 20

tahun” serta “kurang daripada atau sama dengan 20 tahun”, tampak adanya

hubungan linear antara asupan makanan dengan indeks massa tubuh di

masing-masing kategori.

Pengendalian konfaunder kedua, yaitu Jenis Kelamin (Pria vs Wanita)

lebih memperjelas hubungan antara banyak asupan makanan dengan indeks

massa tubuh (diagram ketiga di bawah ini), sedangkan besar hubungan di

tiap kategori konfaunder (dinilai dengan koefisien regresinya) adalah kurang

lebih sama.

Page 62: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

53

Contoh 6.2 (Konfaunder kategorik):

Sebagai contoh konfaunding di sini akan digunakan dataset

Framingham.dta yang memuat data tentang 4,690 subjek dewasa berusia

30 s.d. 68 tahun. Variabel dependen adalah tekanan darah sistolik (sbp)

dengan prediktor indeks massa tubuh (bmi) dan variabel kategorik biner

age.cat sebagai konfaunder potensial.

. use "D:\Analisis Regresi Linear\Data\framingham_confounding

.dta", clear

. sum sbp bmi

Variable | Obs Mean Std. Dev. Min Max

---------+--------------------------------------------

sbp | 4,699 132.7665 22.8011 80 270

bmi | 4,690 25.63171 4.094672 16.2 57.6

Page 63: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

54

. tab age_cat

Age |

Categorical | Freq. Percent Cum.

------------+-----------------------------------

< 52 years | 3,309 70.42 70.42

>= 52 years | 1,390 29.58 100.00

------------+-----------------------------------

Total | 4,699 100.00

. tab age_cat, nolabel

Age |

Categorical | Freq. Percent Cum.

------------+-----------------------------------

0 | 3,309 70.42 70.42

1 | 1,390 29.58 100.00

------------+-----------------------------------

Total | 4,699 100.00

Untuk memperoleh koefisien regresi kasar bmi, variabel dependen

sbp diregresikan terhadap bmi. Jika ditemukan konfaunder, harus dihitung

korefisien regresi suaiannya, sedangkan jika tidak ditemukan konfaunder,

koefisien regresi kasar ini akan menjadi koefisien regresi akhir.

. regress sbp bmi

Source | SS df MS Number of obs = 4,690

---------+----------------------------- F(1, 4688) = 565.07

Model | 262347.407 1 262347.407 Prob > F = 0.0000

Residual | 2176529.37 4,688 464.276742 R-squared = 0.1076

---------+----------------------------- Adj R-squared = 0.1074

Total | 2438876.78 4,689 520.127271 Root MSE = 21.547

Page 64: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

55

----------------------------------------------------------------

sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]

------+---------------------------------------------------------

bmi | 1.82675 .0768474 23.77 0.000 1.676093 1.977407

_cons | 85.93592 1.9947 43.08 0.000 82.02537 89.84647

----------------------------------------------------------------

Diperoleh koefiesien regresi kasar sementara c1cr β− = 1.827,

sehingga estimasi model adalah:

sbp = 85.936 + 1.827.bmi + e

Koefisien regresi kasar c1cr β− = 1.827 mengindikasikan bahwa kenaikan 1

satuan bmi akan menyebabkan kenaikan sbp sebesar 1.827 satuan.

Syarat bagi age_cat sebagai konfaunder yaitu variabel ini harus

memiliki hubungan baik prediktor bmi maupun respons sbp.

. regress bmi age_cat

Source | SS df MS Number of obs = 4,690

---------+------------------------------ F(1, 4688) = 97.21

Model | 1597.05562 1 1597.05562 Prob > F = 0.0000

Residual | 77020.3199 4,688 16.4292491 R-squared = 0.0203

---------+------------------------------ Adj R-squared = 0.0201

Total | 78617.3755 4,689 16.7663415 Root MSE = 4.0533

---------------------------------------------------------------

bmi | Coef. Std. Err. t P>|t| [95% Conf. Interval]

--------+------------------------------------------------------

age_cat | 1.279192 .1297432 9.86 0.000 1.024835 1.53355

_cons | 25.25395 .0705055 358.18 0.000 25.11572 25.39217

---------------------------------------------------------------

Page 65: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

56

. regress sbp age_cat

Source | SS df MS Number of obs = 4,699

---------+------------------------------ F(1, 4697) = 615.30

Model | 282895.911 1 282895.911 Prob > F = 0.0000

Residual | 2159548.99 4,697 459.77198 R-squared = 0.1158

---------+------------------------------ Adj R-squared = 0.1156

Total | 2442444.9 4,698 519.890358 Root MSE = 21.442

-----------------------------------------------------------------

sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]

--------+--------------------------------------------------------

age_cat | 17.00044 .6853591 24.81 0.000 15.65682 18.34407

_cons | 127.7377 .3727545 342.69 0.000 127.0069 128.4685

-----------------------------------------------------------------

Tampak bahwa age_cat memiliki hubungan bermakna, baik dengan

bmi maupun sbp. Selanjutnya akan diperlihatkan bahwa koefisien regresi

prediktor bmi tidak berbeda bermakna antar berbagai taraf kategori

konfaunder.

. regress sbp if age_cat==0

Source | SS df MS Number of obs = 3,305

---------+------------------------------ F(1, 3303) = 433.24

Model | 136140.952 1 136140.952 Prob > F = 0.0000

Residual | 1037934.6 3,303 314.239962 R-squared = 0.1160

---------+------------------------------ Adj R-squared = 0.1157

Total | 1174075.55 3,304 355.349742 Root MSE = 17.727

----------------------------------------------------------------

sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]

------+---------------------------------------------------------

bmi | 1.619515 .0778075 20.81 0.000 1.466959 1.772071

_cons | 86.82944 1.988993 43.65 0.000 82.92966 90.72923

----------------------------------------------------------------

Page 66: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

57

. regress sbp bmi if age_cat==1

Source | SS df MS Number of obs = 1,385

---------+------------------------------ F(1, 1383) = 87.43

Model | 58365.6713 1 58365.6713 Prob > F = 0.0000

Residual | 923271.701 1,383 667.58619 R-squared = 0.0595

---------+------------------------------ Adj R-squared = 0.0588

Total | 981637.372 1,384 709.275558 Root MSE = 25.838

---------------------------------------------------------------

sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]

------+--------------------------------------------------------

bmi | 1.524472 .16304 9.35 0.000 1.204639 1.844304

_cons | 104.3127 4.381322 23.81 0.000 95.71796 112.9075

---------------------------------------------------------------

Tampak bahwa kedua koefisien regresi tidak banyak berbeda,

masing-masing yaitu 1.620 dan 1.524. Jika keduanya jelas berbeda, perlu

dipertimbangkan kemungkinan interaksi. Setelah ditetapkan status age_cat

sebagai konfaunder, langkah terakhir adalah menghitung koefisien regresi

suaian.

. regress sbp bmi age_cat

Source | SS df MS Number of obs = 4,690

---------+------------------------------ F(2, 4687) = 570.55

Model | 477517.59 2 238758.795 Prob > F = 0.0000

Residual | 1961359.19 4,687 418.46793 R-squared = 0.1958

---------+------------------------------ Adj R-squared = 0.1955

Total | 2438876.78 4,689 520.127271 Root MSE = 20.456

----------------------------------------------------------------

sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]

--------+-------------------------------------------------------

bmi | 1.588524 .0737103 21.55 0.000 1.444017 1.733031

age_cat | 15.00111 .6615513 22.68 0.000 13.70416 16.29806

_cons | 87.61209 1.895182 46.23 0.000 83.89664 91.32754

----------------------------------------------------------------

Page 67: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

58

Estimasi model adalah

sbp = 87.612 + 1.589.bmi + 15.001.age_cat + e

dengan 1adj β− = 1.589, yaitu kenaikan 1 satuan bmi akan menyebabkan

kenaikan sbp sebesar 1.589 satuan.

Tampak bahwa:

b∆ = c1cr β− − 1adj β−

= 1.827 – 1.589 = 0.238

dan: cadj

b

b

∆ =

0.238

1.589 = 0.150 = 15.0%

yang dengan “rule of thumb” mengindikasikan adanya konfaunding.

Dalam penilaian secara substantif, kenaikan bmi sebesar 1 satuan

yang tampaknya cukup bermakna bagi massa tubuh, ternyata hanya

menghasilkan kenaikan tekanan darah sistolik “kasar” sebesar 1.827 mm Hg

ataupun kenaikan “suaian” sebesar 1.589 mm Hg, keduanya relatif tak

bermakna secara substantif, apalagi perubahannya karena koreksi

konfaunding yang hanya sebesar (1.827 – 1.589) mm Hg = 0.238 mm Hg.

Maka walaupun secara kuantitatif didapatkan adanya konfaunding, secara

substantif fenomena konfaunding relatif tak penting untuk diperhitungkan

ataupun dikoreksi.

Contoh 6.3 (konfaunder kontinu):

Pada contoh ini akan digunakan dataset

framingham_confounding.dta yang sama seperti seperti pada Contoh

6.2, tetapi dengan memeriksa variabel age sebagai konfaunder potensial

kontinu.

. use “D:\Analisis Regresi Linear\Data\framingham

_confounding.dta”, clear

Page 68: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

59

. sum sbp bmi age

Variable | Obs Mean Std. Dev. Min Max

---------+------------------------------------------------

sbp | 4,699 132.7665 22.8011 80 270

bmi | 4,690 25.63171 4.094672 16.2 57.6

age | 4,699 46.04107 8.504363 30 68

. regress sbp bmi

Source | SS df MS Number of obs = 4,690

---------+----------------------------- F(1, 4688) = 565.07

Model | 262347.407 1 262347.407 Prob > F = 0.0000

Residual | 2176529.37 4,688 464.276742 R-squared = 0.1076

---------+----------------------------- Adj R-squared = 0.1074

Total | 2438876.78 4,689 520.127271 Root MSE = 21.547

----------------------------------------------------------------

sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]

------+---------------------------------------------------------

bmi | 1.82675 .0768474 23.77 0.000 1.676093 1.977407

_cons | 85.93592 1.9947 43.08 0.000 82.02537 89.84647

----------------------------------------------------------------

Koefisien regresi kasar bmi adalah 1.827.

. regress bmi age

Source | SS df MS Number of obs = 4,690

---------+------------------------------ F(1, 4688) = 157.75

Model | 2559.28728 1 2559.28728 Prob > F = 0.0000

Residual | 76058.0882 4,688 16.2239949 R-squared = 0.0326

---------+------------------------------ Adj R-squared = 0.0323

Total | 78617.3755 4,689 16.7663415 Root MSE = 4.0279

Page 69: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

60

----------------------------------------------------------------

bmi | Coef. Std. Err. t P>|t| [95% Conf. Interval]

------+---------------------------------------------------------

age | .0869364 .0069218 12.56 0.000 .0733663 .1005064

_cons | 21.63002 .3239954 66.76 0.000 20.99484 22.2652

----------------------------------------------------------------

. regress sbp age

Source | SS df MS Number of obs = 4,699

---------+------------------------------ F(1, 4697) = 865.99

Model | 380213.315 1 380213.315 Prob > F = 0.0000

Residual | 2062231.59 4,697 439.052924 R-squared = 0.1557

---------+------------------------------ Adj R-squared = 0.1555

Total | 2442444.9 4,698 519.890358 Root MSE = 20.954

--------------------------------------------------------------

sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]

------+-------------------------------------------------------

age | 1.057829 .0359468 29.43 0.000 .9873561 1.128301

_cons | 84.06298 1.68302 49.95 0.000 80.76347 87.36249

--------------------------------------------------------------

Tampak bahwa age memiliki hubungan bermakna, baik dengan bmi

maupun sbp.

. regress sbp bmi age

Source | SS df MS Number of obs = 4,690

---------+------------------------------ F(2, 4687) = 676.63

Model | 546405.806 2 273202.903 Prob > F = 0.0000

Residual | 1892470.97 4,687 403.770209 R-squared = 0.2240

---------+------------------------------ Adj R-squared = 0.2237

Total | 2438876.78 4,689 520.127271 Root MSE = 20.094

Page 70: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

61

-----------------------------------------------------------------

sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]

------+----------------------------------------------------------

bmi | 1.478067 .0728609 20.29 0.000 1.335225 1.620908

age | .9311772 .0351072 26.52 0.000 .8623506 1.000004

_cons | 52.01112 2.257478 23.04 0.000 47.58541 56.43684

-----------------------------------------------------------------

Diperoleh koefisien regresi suaian bmi sebesar 1.478. Tampak

bahwa:

b∆ = c1cr β− − 1adj β−

= 1.827 – 1.478 = 0.349

dan:

cadj

b

b

∆ =

0.349

1.478 = 0.236 = 23.6%

yang bahkan lebih besar daripada untuk perhitungan age kategorik sebagai

konfaunder potensial di atas, yang dengan “rule of thumb” juga

mengindikasikan adanya konfaunding.

Walaupun demikian, pada penilaian secara substantif, 1 satuan bmi

sebesar relatif cukup bermakna bagi massa tubuh, hanya menghasilkan

kenaikan tekanan darah sistolik “kasar” sebesar 1.827 mm Hg, kenaikan

“suaian” sebesar 1.478 mm Hg, maupun perubahannya karena koreksi

konfaunding sebesar 0.349 mm Hg, yang kesemuanya relatif tak bermakna

secara substantif. Maka walaupun dengan konfaunder kontinu di sini secara

kuantitatif didapatkan adanya konfaunding, secara substantif fenomena

konfaunding tetap tak perlu untuk diperhitungkan ataupun dikoreksi.

Page 71: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

62

� Interaksi

Interpretasi interaksi dapat dibedakan menjadi 2 konsep yang berbeda

namun saling berkaitan, yaitu modifikasi efek (effect modification) dan

interaksi statistik (statistical interaction).

� Modifikasi Efek

Misalkan dimiliki hubungan antara prediktor 1X dengan respons Y

dalam model regresi sederhana:

Y = 0β +

c1β 1X + ε

Misalkan dimiliki pula variabel kategorik 2X , sedemikian hingga besar

hubungan antara 1X dengan Y tidak tidak sama pada berbagai taraf nilai

2X , maka peristiwa ini disebut sebagai modifikasi efek dengan 2X sebagai

pemodifikasi efek (effect modifier) –nya.

Pada umumnya, perbedaan efek antara prediktor dengan respons pada

berbagai taraf pemodifikasi efeknya ini dapat “dijelaskan secara substantif”

sesuai dengan ranah bidang ilmu penelitian. Dengan adanya dugaan

peristiwa modifikasi efek oleh 2X ini, model yang perlu diuji menjadi:

Y = 0β +

c1β 1X +

c 2β 2X +

c3β 1X

2X + ε

Perhatikan bahwa pada inklusi suku interaksi c3β

1X 2X , aturan hirarki

interaksi mensyaratkan pula pemasukan suku c 2β

2X dalam model.

Pengujian modifikasi efek secara statistik dapat dilakukan dengan uji

Wald pada fitting model regresi, yang menguji hipotesis 0H : c3β = 0.

Adanya modifikasi efek disimpulkan dengan tingkat kemaknaan yang

umumnya lebih besar daripada tingkat kemaknaan untuk koefisien regresi

biasa, yaitu dengan α = 0.25. Seandainya tidak ditemukan modifikasi efek,

maka model regresi dikembalikan ke model semula dengan menghapus baik

Page 72: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

63

suku interaksi c3β

1X 2X maupun suku pemodifikasi-efeknya

c 2β 2X

menjadi:

Y = 0β +

c1β 1X + ε

Walaupun tidak selalu, pemodifikasi efek umumnya adalah variabel

kategorik, dan dalam hal in model estimasi akhir harus dinyatakan secara

terpisah untuk tiap taraf kategori pemodifikasi efek.

� Interaksi Statistik

Misalkan dimiliki dua prediktor 1X dan

2X dengan respons Y

dalam model regresi:

Y = 0β +

c1β 1X +

c 2β 2X + ε

Interaksi statistik antara prediktor 1X dan

2X dinyatakan ada jika

penjumlahan efek 1X terhadap Y dan efek

2X terhadap Y (efek harapan;

expected effect) tidak sama dengan efek bersama 1X dan

2X terhadap Y

(efek pengamatan; observed effect). Selisih antara keduanya menyatakan

besar efek interaksi statistik 1X dan

2X terhadap Y , yang keberadaannya

secara substantif tak selalu dapat dijelaskan menurut ranah bidang ilmu yang

diteliti.

Di sini model yang akan diuji interaksi statistiknya adalah:

Y = 0β +

c1β 1X +

c 2β 2X +

c3β 1X

2X + ε

Pengujian statistik juga dilakukan dengan uji Wald pada fitting model regresi

terhadap hipotesis 0H : c3β = 0, biasanya dengan tingkat signifikansi α =

0.25. Seandainya pada uji statistik ini hipotesis nol tidak ditolak maka

interaksi dianggap tidak ada dan tidak hanya suku interaksi c3β

1X 2X yang

dikeluarkan dari model menjadi:

Y = 0β +

c1β 1X +

c 2β 2X + ε

Page 73: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

64

Suku interaksi statistik biasanya berisikan perkalian antar dua

variabel kontinu. Pengujian cukup dilakukan dengan uji Wald.

Contoh 6.4:

Dalam contoh ini akan diperlihatkan interaksi antar variabel

kategorik dengan menggunakan dataset elemapi2.dta, yang memuat data

mengenai 400 sekolah di Amerika Serikat. Variabel dependen adalah

penampilan akademik sekolah pada tahun 2000 (api00) dengan dua

prediktor kategorik, yaitu kategori kolese sekolah (collcat) serta kategori

persentase siswa di sekolah yang mendapat makanan gratis (mealcat).

Prediktor terakhir dapat dianggap sebagai indikator tingkat kemiskinan siswa

sekolah.

. use "D:\Analisis Regresi Linear\Data\elemapi2.dta", clear

. sum api00

Variable | Obs Mean Std. Dev. Min Max

---------+--------------------------------------

api00 | 400 647.6225 142.249 369 940

. tab collcat

collcat | Freq. Percent Cum.

------------+-----------------------------------

1 | 129 32.25 32.25

2 | 134 33.50 65.75

3 | 137 34.25 100.00

------------+-----------------------------------

Total | 400 100.00

Page 74: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

65

. tab mealcat

Percentage |

free meals |

in 3 |

categories | Freq. Percent Cum.

------------+-----------------------------------

1 | 131 32.75 32.75

2 | 132 33.00 65.75

3 | 137 34.25 100.00

------------+-----------------------------------

Total | 400 100.00

. regress api00 i.collcat i.mealcat collcat#mealcat

Source | SS df MS Number of obs = 400

---------+---------------------------- F(8, 391) = 166.76

Model | 6243714.81 8 780464.351 Prob > F = 0.0000

Residual | 1829957.19 391 4680.19741 R-squared = 0.7733

---------+---------------------------- Adj R-squared = 0.7687

Total | 8073672 399 20234.7669 Root MSE = 68.412

-------------------------------------------------------------------

api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]

----------+--------------------------------------------------------

collcat |

2 | 8.736877 15.57439 0.56 0.575 -21.88315 39.35691

3 | -34.76334 14.90052 -2.33 0.020 -64.05851 -5.468177

|

mealcat |

2 | -227.5643 19.17628 -11.87 0.000 -265.2658 -189.8628

3 | -322.9954 14.03445 -23.01 0.000 -350.5878 -295.4029

|

Page 75: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

66

collcat# |

mealcat |

2#2 | 38.51777 24.19532 1.59 0.112 -9.051422 86.08697

2#3 | 6.177537 20.08262 0.31 0.759 -33.3059 45.66097

3#2 | 101.051 22.88808 4.42 0.000 56.05191 146.0501

3#3 | 82.57776 24.43941 3.38 0.001 34.52867 130.6268

|

_cons | 816.9143 11.56373 70.64 0.000 794.1794 839.6492

-------------------------------------------------------------------

Estimasi model adalah:

ˆapi00 = 816.91 + 8.74 (2.collcat) – 34.76 (3.collcat) – 227.56

(2.mealcat) – 322 (3.mealcat) + 38.52 (2.collcat)*(2.mealcat)

+ 6.18 (2.collcat)*(3.mealcat) + 101.05

(3.collcat)*(2.mealcat) + 82.58 (3.collcat)*(3.mealcat)

Dengan batasan p < 0.25 sebagai batas kemaknaan interaksi, estimasi

persamaan regresi menjadi:

ˆapi00 = 816.91 + 8.74 (2.collcat) – 34.76 (3.collcat) – 227.56

(2.mealcat) – 322 (3.mealcat) + 38.52

(2.collcat)*(2.mealcat) + 101.05 (3.collcat)*(2.mealcat) +

82.58 (3.collcat)*(3.mealcat)

Nilai prediksi respons harus dinyatakan pada tiap taraf interaksi:

- collcat = 2 (2.collcat = 1) dan mealcat = 2 (2.mealcat = 1)

Nilai prediksi api00 adalah

ˆapi00 = 816.91 + 8.74 (2.collcat) – 34.76 (3.collcat) – 227.56

(2.mealcat) – 322 (3.mealcat) + 38.52

(2.collcat)*(2.mealcat) + 101.05 (3.collcat)*(2.mealcat) +

82.58 (3.collcat)*(3.mealcat)

Page 76: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

67

ˆapi00 = 816.91 + 8.74 (1) – 34.76 (0) – 227.56 (1) – 322 (0) +

38.52 (1)*(1) + 101.05 (0)*(1) + 82.58 (0)*(0)

=` 636.61

- collcat = 2 (2.collcat = 1) dan mealcat = 3 (3.mealcat = 1)

Nilai prediksi api00 adalah:

ˆapi00 = 816.91 + 8.74 (1) – 34.76 (0) – 227.56 (0) – 322 (1) +

38.52 (1)*(0) + 101.05 (0)*(0) + 82.58 (0)*(1)

= 503.65

- collcat = 3 (3.collcat = 1) dan mealcat = 2 (2.mealcat = 1)

Nilai prediksi api00 adalah:

ˆapi00 = 816.91 + 8.74 (0) – 34.76 (1) – 227.56 (1) – 322 (0) + 38.52

(0)*(1) + 101.05 (1)*(1) + 82.58 (0)*(0)

= 655.64

- collcat = 3 (3.collcat = 1) dan mealcat = 3 (3.mealcat = 1)

Nilai prediksi api00 adalah:

ˆapi00 = 816.91 + 8.74 (0) – 34.76 (1) – 227.56 (0) – 322 (1) + 38.52

(0)*(0) + 101.05 (1)*(0) + 82.58 (1)*(1)

= 643.78

Perbandingan antara 2.collcat dengan 3.collcat:

. test 2.collcat 3.collcat

( 1) 2.collcat = 0

( 2) 3.collcat = 0

F( 2, 391) = 5.44

Prob > F = 0.0047

Page 77: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

68

Perbandingan antara 2.mealcat dengan 3.meal.cat:

. test 2.mealcat 3.mealcat

( 1) 2.mealcat = 0

( 2) 3.mealcat = 0

F( 2, 391) = 264.96

Prob > F = 0.0000

Pengujian untuk beberapa suku interaksi:

. test 2.collcat#2.mealcat 2.collcat#3.mealcat 3.collcat#2.mealcat

3.collcat#3.mealcat

( 1) 2.collcat#2.mealcat = 0

( 2) 2.collcat#3.mealcat = 0

( 3) 3.collcat#2.mealcat = 0

( 4) 3.collcat#3.mealcat = 0

F( 4, 391) = 6.63

Prob > F = 0.0000

Prediksi nilai-nilai respons diperoleh dengan perintah:

. predict pred

(option xb assumed; fitted values)

Perintah selanjutnya adalah untuk memperoleh rerata prediksi

respons pada berbagai taraf interaksi:

. table collcat mealcat, contents(mean pred)

Page 78: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

69

----------------------------------------

| Percentage free meals in 3

| categories

collcat | 1 2 3

----------+-----------------------------

1 | 816.9143 589.35 493.9189

2 | 825.6512 636.6047 508.8333

3 | 782.1509 655.6377 541.7333

----------------------------------------

Perintah separate adalah untuk memisahkan variabel pred yang

sebelumnya baru terbentuk dengan perintah predict menjadi 3 variabel

berdasarkan taraf kategori collcat.

. separate pred, by(collcat)

storage display value

variable name type format label variable label

-------------------------------------------------------------

pred1 float %9.0g pred, collcat == 1

pred2 float %9.0g pred, collcat == 2

pred3 float %9.0g pred, collcat == 3

Sekarang dapat dibuat grafik pred1, pred2, dan pred3 berdasarkan

ketiga kategori mealcat.

. graph twoway scatter pred1 pred2 pred3 mealcat, c(l l l)

xlabel(1 2 3) sort

Page 79: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

70

� Konfaunding dan Interaksi

Skema pemeriksaan konfaunding dan interaksi untuk 1 respons

kontinu, 1 prediktor kontinu, dan 1 konfaunder potensial biner diperlihatkan

pada gambar 6.2. Penjelasannya adalah sebagai berikut:

1. Hitung estimasi koefisien regresi stratum-spesifik prediktor terhadap

respons.

2. Estimasi koefisien regresi stratum-spesifik pada kedua strata mungkin

sama (atau hampir sama) ataupun jelas berbeda.

3. Jika keduanya sama atau hampir sama, yang perlu dipertimbangkan

adalah konfaunding. Interaksi tidak mungkin ada.

4. Hitung estimasi koefisien regresi kasar dan suaian.

5. Estimasi koefisien regresi kasar dan suaian yang sama atau hampir

sama mengindikasikan bahwa tidak ada konfaunding dan tidak ada

interaksi.

500

600

700

800

900

Page 80: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

6. Estimasi koefisien regresi dan kasar yang berbeda mengindikasikan

adanya konfaunding.

Gambar 6.2 Pemeriksaan konfaunding dan interaksi

7. Jika estimasi koefisien regresi stratum

berbeda, hal ini mengindikasikan adanya interaksi.

Seandainya interaksi ada, konfaunding tidak perlu (dan tidak dapat)

diperiksa keberadaannya.

71

Estimasi koefisien regresi dan kasar yang berbeda mengindikasikan

Pemeriksaan konfaunding dan interaksi

Jika estimasi koefisien regresi stratum-spesifik pada kedua strata jelas

berbeda, hal ini mengindikasikan adanya interaksi.

Seandainya interaksi ada, konfaunding tidak perlu (dan tidak dapat)

Page 81: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan
Page 82: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

73

BAB 7

DIAGNOSTIKA REGRESI

Diagnostika regresi (regression diagnostics) adalah sekumpulan

statistik yang digunakan setelah proses fitting model terhadap data

pengamatan, bertujuan memeriksa apakah model peneliti beserta asumsi-

asumsi yang diberlakukan konsisten dengan data pengamatan. Statistik dasar

untuk pemeriksaan tersebut adalah galat (residual) dan adakalanya juga galat

terskala-ulang (rescaled residuals).

Galat adalah selisih antara nilai prediksi respons berdasarkan model

peneliti dengan nilai respons aktual atau nilai pengamatan. Perolehan

himpunan nilai galat yang tak relevan akan menimbulkan keraguan terhadap

model peneliti ataupun asumsi yang diberlakukan. Dalam beberapa keadaan

tertentu, keyakinan akan kebenaran model peneliti ataupun asumsi yang

diberlakukan dapat dipulihkan dengan membuang beberapa kasus yang

disebut pengamatan influensial (influential; berpengaruh) dari dataset.

� Outliers dan Pengamatan Influensial

Outliers (data pencilan) adalah titik data yang terletak jauh dari garis

regresi (pada regresi linear sederhana) atau dari hyperplane (pada regresi

linear ganda), yang menunjukkan penyimpangan bermakna secara statistik

dari model yang diasumsikan. Secara sederhana, outlier dapat dikatakan

sebagai pengamatan dengan galat yang besar. Pengamatan influensial

(influential observation) adalah titik data yang memiliki dampak yang relatif

besar terhadap estimasi terhadap satu atau lebih parameter regresi. Inklusi

pengamatan influensial tersebut pada fitting model akan menimbulkan

perubahan yang nyata pada estimasi satu atau lebih parameter regresi.

Page 83: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

74

Deteksi outliers dan pengamatan influensial dilakukan melalui

pemeriksaan visual dengan menggunakan statistik khusus yang disebut

diagnostika regresi (regression diagnostics). Diagnostika regresi

merupakan statistik per kasus, yaitu akan ada satu nilai diagnostika regresi

bagi tiap anggota dari n anggota sampel.

Statistik influensial adalah sejumlah statistik yang dirancang untuk

menilai efek atau pengaruh (influence) suatu observasi dalam penentuan hasil

analisis regresi. Pada gambar 7.1 tampak diagram tebar untuk data hipotetis

Anscombe (1973), fitting model sepenuhnya ditentukan titik pencilan yang

ada di sudut kanan atas diagram. Jika observasi ini dihilangkan, maka

estimasi kemiringan garis regresi (estimasi koefisien regresi) tak dapat

ditentukan. Dengan demikian, observasi ini merupakan pengamatan

influensial yang sangat berpengaruh terhadap fitting model regresi.

Gambar 7.1 Contoh diagram tebar untuk data Anscombe (1973)

Pendekatan yang umumnya diadopsi untuk mendeteksi observasi

influensial ini adalah dengan memeriksa perubahan yang terjadi pada

koefisien regresi jika suatu observasi dihilangkan. Statistik influensial yang

digunakan dapat berbeda-beda, tergantung pada statistik hasil regresi yang

diukur perubahannya ataupun standardisasi yang digunakan agar hasilnya

dapat diperbandingkan antar pengamatan. Seluruh statistik influensial

Page 84: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

75

tersebut dapat dihitung dari hasil regresi dengan menggunakan keseluruhan

data.

Observasi influensial dapat terjadi jika observasi tersebut merupakan

data pencilan, atau memiliki nilai leverage yang tinggi, ataupun keduanya.

� Leverage

Leverage adalah istilah yang digunakan dalam analisis regresi bagi

observasi (pengamatan) yang memiliki nilai ekstrim pada satu atau lebih

variabel independen. Efek titik-titik demikian yaitu mengharuskan fitting

model mendekati nilai respons yang diobservasi, agar menghasilkan nilai

galat (residual) yang kecil.

Ukuran leverage adalah matriks H, yaitu matriks yang terbentuk pada

regresi ganda, digunakan untuk memperoleh prediksi nilai respons yang

terkait dengan nilai-nilai observasi melalui persamaan:

y = Hy (7.1)

y : Vektor prediksi respons

y : Vektor respons observasi

Matriks H yang disebut sebagai matriks hat (hatmatrix), merupakan

matriks yang simetrik dan idempoten. Dinyatakan dalam X, H adalah:

H = X(X’X)-1

X (7.2)

Elemen diagonal matriks H seringkali berguna untuk secara

diagnostik dalam menilai hasil analisis.

Dengan Stata, perintah untuk mendapatkan leverage diberikan

langsung setelah perintah regress, yaitu:

Page 85: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

76

predict lev_name, hat

lev_name : Nama variabel baru untuk prediksi nilai-nilai leverage pada

dataset

Grafik untuk leverage (leverage plot) diperoleh dengan perintah:

avplot pred_var

pred_var : Variabel prediktor

� Jarak Cook

Jarak Cook (Cook’s distance) adalah statistik influensial yang

dirancang untuk mengukur perubahan estimasi vektor parameter ββββ pada

fitting model regresinya jika suatu observasi tertentu dihilangkan. Jarak Cook

merupakan ukuran gabungan dampak suatu observasi terhadap keseluruhan

koefisien regresi. Jarak Cook untuk observasi ke-i didefinisikan sebagai:

iD = ( )

2ir

tr H 1

i

i

h

h− (7.3)

ir : Galat terstandardisasi (standardized residual) untuk observasi ke-i

Jika dimiliki galat berdistribusi normal dengan rerata 0 dan variansi

2εσ , maka galat terstandardisasi adalah:

ir = ie

εσ (7.3.a)

ih : elemen diagonal ke-i matriks hat

H : matriks hat, diperoleh dari analisis regresi

Page 86: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

77

Jarak Cook yang lebih besar daripada 1 bagi sebuah observasi

mengindikasikan bahwa observasi tersebut memiliki pengaruh (influence)

yang berlebihan ataupun tak sebanding terhadap estimasi koefisien regresi.

Dengan Stata, perintah untuk mendapatkan jarak Cook diberikan

langsung setelah perintah regress, yaitu:

predict new_var, cooksd

new_var : Nama untuk variabel baru yang memuat nilai-nilai jarak Cook

� DFBETA

DFBETA untuk observasi ke-i dan koefisien regresi ke-j adalah

perubahan nilai estimasi koefisien regresi ke-j jika observasi ke-i dihilangkan

dari analisis data. DFBETA dengan perubahan koefisien regresi ke-j dan

penghilangan observasi ke-i adalah:

,j iDFBETA − = ,j j i

i jj

b b

s c

− (7.4)

jb : Estimasi koefisien regresi ke-j

,j ib − : Estimasi koefisien regresi ke-j dengan menghilangkan observasi

ke-j

is− : Estimasi standard error dengan menghilangkan observasi ke-i

jjc : Unsur diagonal matriks ( )1

'−

X X

Untuk mendeteksi observasi influensial, nilai batas DFBETA adalah

2 n . Dalam keadaan moderat dan ukuran sampel kecil, cukup digunakan

nilai batas + 2.

Page 87: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

78

Dengan Stata, perintah untuk mendapatkan nilai-nilai DFBETA

diberikan langsung setelah perintah regress, yaitu:

predict DF_pred, dfbeta(pred_var)

DF_pred : Variabel baru untuk nilai-nilai DFBETA

pred_var : Variabel prediktor

Jika ada beberapa prediktor, untuk DFBETAS pada regresi dengan

seluruh prediktor:

. dfbeta

Contoh 7.1:

Lihat kembali contoh 2.1, yang menggunakan file data elemapi.dta.

. regress api00 enroll

Source | SS df MS Number of obs = 400

---------+---------------------------- F( 1, 398) = 44.83

Model | 817326.293 1 817326.293 Prob > F = 0.0000

Residual | 7256345.70 398 18232.0244 R-squared = 0.1012

---------+---------------------------- Adj R-squared = 0.0990

Total | 8073672.00 399 20234.7669 Root MSE = 135.03

----------------------------------------------------------------

api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------+--------------------------------------------------------

enroll | -.1998674 .0298512 -6.70 0.000 -.2585532 -.1411817

_cons | 744.2514 15.93308 46.71 0.000 712.9279 775.5749

----------------------------------------------------------------

Page 88: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

79

Pertama akan diprediksi nilai-nilai galat dan akan ditentukan

observasi dengan galat terbesar.

. predict e, residuals

. sum e

Variable | Obs Mean Std. Dev. Min Max

---------+-------------------------------------------------

e | 400 1.08e-07 134.8567 -285.4997 389.148

. list api00 enroll e if e>389.147

+--------------------------+

| api00 enroll e |

|--------------------------|

8. | 831 1513 389.148 |

+--------------------------+

Didapatkan galat terbesar adalah untuk observasi nomor 8. Untuk

memperoleh statistik leverage (diagonal matriks hat):

. predict lvg, hat

Diperoleh variabel baru lvg pada dataset, yang memuat nilai-nilai

leverage untuk tiap observasi.

. sum lvg

Page 89: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

80

Variable | Obs Mean Std. Dev. Min Max

---------+----------------------------------------------

lvg | 400 .005 .0056276 .0025 .0602

. list api00 enroll e lvg if lvg>.0601

+-----------------------------------+

| api00 enroll e lvg |

|-----------------------------------|

210. | 493 1570 62.54047 .0602 |

+-----------------------------------+

Tampak bahwa nilai lvg terbesar adalah 0.0602 dan nilai ini didapat

untuk observasi nomor 210 dengan nilai api00 sama dengan 493 pada

enroll sama dengan 1570, tetapi bukan untuk observasi dengan galat

terbesar. Keputusan apakah observasi nomor 210 perlu dihilangkan dari

dataset sepenuhnya tergantung pada pertimbangan dari segi ranah bidang

ilmu perolehan data.

Grafik leverage versus kuadrat galat ternormalisasi adalah:

. lvr2plot

Page 90: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

81

Pada grafik terlihat juga bahwa observasi dengan leverage terbesar

tidak sama dengan observasi dengan kuadrat galat ternormalisasi terbesar.

Perintah untuk mendapatkan nilai Cook’s Distance D adalah:

. predict new, cooksd

Variabel baru new pada dataset memuat nilai-nilai jarak Cook untuk

tiap observasi.

. sum new

Variable | Obs Mean Std. Dev. Min Max

---------+------------------------------------------------

new | 400 .0026611 .0127133 5.64e-10 .2521747

0.02

.04

.06

Leverage

Page 91: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

82

. list api00 enroll e lvg new if new>.2521746

+------------------------------------------------+

| api00 enroll e lvg new |

|------------------------------------------------|

8. | 831 1513 389.148 .0543049 .2521747 |

+------------------------------------------------+

Tampak bahwa nilai jarak Cook terbesar yaitu 0.252 didapatkan

untuk observasi nomor 8, yang juga merupakan observasi dengan nilai galat

terbesar.

Untuk memperoleh nilai DFBETAS pada regresi dengan prediktor

enroll:

. predict DF_pred, dfbeta(enroll)

. sum DF_pred

Variable | Obs Mean Std. Dev. Min Max

---------+----------------------------------------------

DF_pred | 400 .0000925 .053313 -.1519209 .700537

. list api00 enroll e lvg new DF_pred if DF_pred>.7005

+-----------------------------------------------------+

| api00 enroll e lvg new DF_pred |

|-----------------------------------------------------|

8. | 831 1513 389.148 .0543049 .2521747 .700537 |

+-----------------------------------------------------+

Page 92: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

83

Nilai DFBETAS terbesar adalah 0.7005, didapatkan untuk observasi

nomor 8. Tampak bahwa penilaian galat terbesar, jarak Cook terbesar, dan

DFBETAS terbesar memberi hasil yang konsisten, yaitu terjadi untuk

observasi nomor 8, sedangkan leverage terbesar terjadi pada observasi

nomor 210.

Contoh 7.2:

Lihat kembali contoh analisis regresi ganda pada contoh 3.1.

. regress api00 acs_k3 meals full

Source | SS df MS Number of obs = 313

---------+---------------------------- F( 3, 309) = 213.41

Model | 2634884.26 3 878294.754 Prob > F = 0.0000

Residual | 1271713.21 309 4115.57673 R-squared = 0.6745

---------+---------------------------- Adj R-squared = 0.6713

Total | 3906597.47 312 12521.1457 Root MSE = 64.153

--------------------------------------------------------------------

api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------+------------------------------------------------------------

acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073

meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348

full | .1086104 .090719 1.20 0.232 -.0698947 .2871154

_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555

--------------------------------------------------------------------

Untuk memperoleh nilai-nilai galat:

. predict e, residuals

(87 missing values generated)

Page 93: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

84

Untuk memperoleh statistik leverage (diagonal matriks hat):

. predict lvg_1, hat

(87 missing values generated)

Perintah untuk mendapatkan nilai-nilai jarak Cook adalah:

. predict distance, cooksd

(87 missing values generated)

Variabel baru distance memuat nilai-nilai jarak Cook. Estimasi

nilai-nilai DFBETA untuk seluruh prediktor diperoleh dengan:

. dfbeta

(87 missing values generated)

_dfbeta_1: dfbeta(acs_k3)

(87 missing values generated)

_dfbeta_2: dfbeta(meals)

(87 missing values generated)

_dfbeta_3: dfbeta(full)

Diperoleh 3 variabel baru pada dataset, yaitu _dfbeta_1, _dfbeta_2,

dan _dfbeta_3, masing-masing memuat nilai-nilai DFBETA untuk prediktor

acs_k3, meals, dan full. Nilai terbesar untuk galat, leverage, jarak Cook,

dan DFBETAS adalah:

. sum e lvg_1 distance _dfbeta_1 _dfbeta_2 _dfbeta_3

Page 94: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

85

Variable | Obs Mean Std. Dev. Min Max

----------+----------------------------------------------

e | 313 -7.68e-08 63.84359 -195.6183 188.8671

lvg_1 | 313 .0127796 .0432135 .0033227 .7687116

distance | 313 .0045331 .0354736 1.39e-08 .626511

_dfbeta_1 | 313 .0038461 .0930495 -.1386698 1.576904

_dfbeta_2 | 313 -.0001792 .0560422 -.2267429 .2701659

----------+----------------------------------------------

_dfbeta_3 | 313 -.0009695 .0601078 -.3692697 .2131358

. list api00 enroll e lvg_1 distance _dfbeta_1 _dfbeta_2

_dfbeta_3 if e>188.8671

+-----------------------------------------------------------------------+

| api00 enroll e lvg_1 distance _dfbet~1 _dfbet~2 _dfbet~3 |

|-----------------------------------------------------------------------|

271. | 690 230 188.8671 .012422 .0275976 .0309159 .2310598 .2131358 |

|-----------------------------------------------------------------------|

Tampak bahwa untuk observasi nomor 271 dengan galat terbesar,

nilai-nilai leverage, jarak Cook, dan DFBETAS tak ada yang mencapai nilai

maksimum.

Page 95: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan
Page 96: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

87

BAB 8

BEBERAPA PENANGANAN

PENYIMPANGAN ASUMSI

Dalam berbagai situasi dan kondisi pengumpulan data sampel

seringkali menghasilkan data yang tak memenuhi persyaratan asumsi untuk

melakukan analisis regresi linear. Dalam keadaan demikian tindakan pada

tahap pertama adalah memeriksa ulang proses pengumpulan dan pengukuran

data. Jika tahap pertama ini tak dapat dikerjakan atau tidak memberi hasil

yang diharapkan, pilihan yang dapat dilakukan pada tahap kedua adalah

melakukan transformasi data. Jika tahap kedua ini juga tidak memberi hasil

atau tidak ingin dikerjakan peneliti, pilihan terakhir adalah memperlunak

asumsi yang akan dibahas di sini.

Penyebab utama penyimpangan asumsi pada regresi linear umumnya

disebabkan oleh adanya: (1) Heteroskedatisitas; (2) Kemencengan

(skewness) yang menyebabkan ketidaknormalan distribusi data; dan (3)

Adanya data pencilan (outliers). Penyimpangan asumsi pertama dan kedua

ditangani dengan penggunaan estimasi variansi robust, sedangkan kelainan

terakhir ditangani dengan metode regresi robust. Ketidakadekuatan akibat

penyimpangan asumsi ini pada analisis regresi linear ditemukan antara lain

pada uji hipotesis terhadap parameter regresi yang dihasilkan dengan metode

kuadrat terkecil.

Pada regresi linear ganda dapat ditemukan penyimpangan asumsi

berupa multikolinearitas. Penanganannya dapat dilakukan dengan

menghapus 1 atau lebih prediktor dari model, tetapi jika hal ini tak dapat

dikerjakan, dapat dilakukan fitting model dengan metode regresi ridge.

Page 97: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

88

� Estimasi Variansi Robust

Dua asumsi penting dalam regresi linear yaitu asumsi normalitas dan

asumsi homoskedastisitas. Penyimpangan terhadap salah satu atau kedua

asumsi ini akan menyebabkan tak adekuatnya pengendalian terhadap besar

probabilitas kesalahan tipe I. Ketidakadekuatan akibat penyimpangan asumsi

ini pada analisis regresi linear ditemukan antara lain pada uji hipotesis

terhadap parameter regresi yang dihasilkan dengan metode kuadrat terkecil.

Upaya untuk mengatasinya dapat dilakukan dengan menggunakan

estimasi variansi robust, sebagai alternatif terhadap estimasi variansi OLS

(ordinary least squares). Estimasi variansi robust diperoleh dengan metode

yang tak sensitif terhadap penyimpangan ringan terhadap asumsi normalitas

galat dan homogenitas variansi model. Tak ada batasan jelas mengenai berat

penyimpangan asumsi yang mengindikasikan digunakannya prosedur

estimasi robust.

Dalam Stata, sintaks untuk melakukan estimasi variansi robust yaitu:

regress depvar indepvars [if] [in], robust [options]

depvar : Variabel dependen

indepvars : Himpunan variabel independen

robust : Opsi robust untuk estimasi variansi. Jika opsi metode

estimasi variansi tidak dispesifikasikan, default-nya adalah

metode kuadrat terkecil (ordinary least squares; ols)

Contoh 8.1:

Lihat kembali file data pada contoh 3.3.

. use “D:\Analisis Regresi Linear\Data\honolulu.dta”, clear

Page 98: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

89

Mula-mula diperlihat hasil fitting model dengan metode kuadrat

terkecil seperti telah dilakukan pada contoh 3.3.

. regress tek_darah usia kolesterol

Source | SS df MS Number of obs = 100

---------+--------------------------- F( 2, 97) = 4.02

Model | 3404.78195 2 1702.39098 Prob > F = 0.0211

Residual | 41118.218 97 423.899155 R-squared = 0.0765

---------+--------------------------- Adj R-squared = 0.0574

Total | 44523 99 449.727273 Root MSE = 20.589

----------------------------------------------------------------------

tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-----------+----------------------------------------------------------

usia | .8469443 .408067 2.08 0.041 .0370443 1.656844

kolesterol | .0906782 .0535687 1.69 0.094 -.0156407 .1969972

_cons | 64.97095 23.74061 2.74 0.007 17.85242 112.0895

----------------------------------------------------------------------

Pemeriksaan asumsi normalitas:

. predict e, residuals

. swilk e

Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z

---------+----------------------------------------------

e | 100 0.94108 4.865 3.509 0.00022

Dengan p = 0.00022, hipotesis 0H : Galat berdistribusi normal

ditolak. Selanjutnya diperiksa asumsi homogenitas variansi:

Page 99: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

90

. estat hettest

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Ho: Constant variance

Variables: fitted values of tek_darah

chi2(1) = 0.01

Prob > chi2 = 0.9164

Dengan p = 0.9164, hipotesis 0H : Homogenitas variansi tidak

ditolak. Selanjutnya akan dilakukan fitting model dengan metode estimasi

variansi robust.

. regress tek_darah usia kolesterol, robust

Linear regression Number of obs = 100

F(3, 309) = 5.00

Prob > F = 0.0086

R-squared = 0.0765

Root MSE = 20.589

-----------------------------------------------------------------

| Robust

tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-----------+-----------------------------------------------------

usia | .8469443 .3538266 2.39 0.019 .1446964 1.549192

kolesterol | .0906782 .0472369 1.92 0.058 -.0030739 .1844303

_cons | 64.97095 21.11918 3.08 0.003 23.05522 106.8867

-----------------------------------------------------------------

Perbandingan beberapa statistik yang diperoleh pada fitting model

dengan metode ols dan robust diperlihatkan sebagai berikut.

Page 100: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

91

ols robust

F(2, 97) 4.02 5.00

Prob > F 0.0211 0.0086

R-squared 0.0765 0.0765

Coef.

usia 0.847 0.847

kolesterol 0.091 0.091

_cons 64.971 64.971

Std.

Err.

usia 0.408 0.354

kolesterol 0.054 0.047

_cons 64.971 21.119

P>|t|

usia 0.041 0.019

kolesterol 0.094 0.058

_cons 0.007 0.003

Tampak adanya perbedaan nilai statistik penguji F, walaupun dengan

kedua metode hasilnya sama-sama bermakna; sedangkan estimasi koefisien

determinasi 2R dengan kedua metode sama.

Untuk estimasi koefisien regresi, tampak bahwa estimasi

koefisiennya tetap sama, tetapi estimasi standard error dan nilai p-nya yang

berbeda, yaitu batas kemaknaan suatu prediktor akan lebih mudah tercapai

pada estimasi variansi robust.

� Regresi Robust

Regresi robust tidak sama dengan regresi linear dengan estimasi

variansi robust. Regresi robust digunakan jika terdapat pengamatan luar

yang mengubah nilai estimasi koefisien regresi secara substansial (“bad

outlier”).

Page 101: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

92

Sintaks regresi robust adalah:

rreg depvar indepvars [if] [in] [, options]

Opsi:

genwt(newvar) : Membuat variabel newvar yang memuat bobot untuk

tiap pengamatan. Pada regresi kuadrat terkecil bobot

untuk tiap pengamatan sama dengan 1.

Pada regresi robust, pengamatan dengan Cook’s D lebih besar

daripada 1 secara otomatis dikeluarkan dari fitting model.

Contoh 8.2:

File data yang digunakan adalah crime.dta, yang memuat nilai

angka kejahatan pada 51 negara bagian di AS.

. use “D:\Analisis Regresi Linear\Data\crime.dta”, clear

(crime data from agresti & finlay - 1997)

Variabel-variabel dalam penelitian ini adalah:

- sid : Nomor identitas negara bagian (state id)

- state : Nama negara bagian

- crime : Angka kejahatan per 100,000 penduduk

- murder : Angka pembunuhan per 1,000,000 penduduk

- pctmetro : Persentase penduduk yang tinggal di area metropolitan

- pctwhite : Persentase penduduk kulit putih

- pcths : Persentase penduduk berpendidikan SLTA (high school)

ke atas

- poverty : Persentase penduduk di bawah garis kemiskinan

- single : Persentase penduduk yang menjadi single parent

Page 102: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

93

Akan digunakan prediktor poverty dan single untuk memprediksi

crime.

. summarize crime poverty single

Variable | Obs Mean Std. Dev. Min Max

---------+----------------------------------------------

crime | 51 612.8431 441.1003 82 2922

poverty | 51 14.25882 4.584242 8 26.4

single | 51 11.32549 2.121494 8.4 22.1

Pada umumnya regresi linear dimulai dengan metode kuadrat terkecil

yang dilanjutkan dengan beberapa prosedur diagnostika regresi untuk

memeriksa keberadaan data pencilan.

. regress crime poverty single

Source | SS df MS Number of obs = 51

---------+---------------------------- F(2, 48) = 57.96

Model | 6879872.44 2 3439936.22 Prob > F = 0.0000

Residual | 2848602.3 48 59345.8813 R-squared = 0.7072

---------+---------------------------- Adj R-squared = 0.6950

Total | 9728474.75 50 194569.495 Root MSE = 243.61

-----------------------------------------------------------------

crime | Coef. Std. Err. t P>|t| [95% Conf. Interval]

--------+--------------------------------------------------------

poverty | 6.787359 8.988529 0.76 0.454 -11.28529 24.86001

single | 166.3727 19.42291 8.57 0.000 127.3203 205.425

_cons | -1368.189 187.2052 -7.31 0.000 -1744.59 -991.7874

-----------------------------------------------------------------

Perintah lvr2plot berikut menghasilkan grafik galat terstandardisasi

kuadrat dan leverage.

Page 103: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

94

. lvr2plot, mlabel(state)

Tampak negara bagian DC, Florida, dan Missisippi memiliki nilai

leverage yang tinggi ataupun galat yang besar. Selanjutnya akan dihitung

Cook’s D dan diperlihatkan pengamatan dengan nilai Cook’s D yang besar.

. predict d1, cooksd

. list state crime poverty single d1 if d1>4/51, noobs

+---------------------------------------------+

| state crime poverty single d1 |

|---------------------------------------------|

| ak 761 9.1 14.3 .125475 |

| fl 1206 17.8 10.6 .1425891 |

| ms 434 24.7 14.7 .6138721 |

| dc 2922 26.4 22.1 2.636252 |

+---------------------------------------------+

0.2

.4.6

Leverage

Page 104: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

95

Pengamatan untuk DC dihapus karena nilai Cook’s D-nya lebih besar

daripada satu (mengindikasikan influensial yang berlebihan), selain itu DC

bukan merupakan negara bagian AS.

. predict r1, rstandard

. gen absr1 = abs(r1)

Sekarang data diurutkan dengan perintah gsort, perintah untuk

mengurutkan nilai negatif abs(r1) dari besar ke kecil (descending).

. gsort -absr1

. list state absr1 in 1/10, noobs

+------------------+

| state absr1 |

|------------------|

| ms 3.56299 |

| fl 2.902663 |

| dc 2.616447 |

| vt 1.742409 |

| mt 1.460884 |

|------------------|

| me 1.426741 |

| ak 1.397418 |

| nj 1.354149 |

| il 1.338192 |

| md 1.287087 |

+------------------+

Sekarang akan dilakukan regresi robust dengan perintah rreg disertai

opsi gen(weight) untuk membentuk variabel baru weight yang memuat

bobot final untuk tiap pengamatan.

. rreg crime poverty single, gen(weight)

Page 105: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

96

Huber iteration 1: maximum difference in weights = .66846346

Huber iteration 2: maximum difference in weights = .11288069

Huber iteration 3: maximum difference in weights = .01810715

Biweight iteration 4: maximum difference in weights = .29167992

Biweight iteration 5: maximum difference in weights = .10354281

Biweight iteration 6: maximum difference in weights = .01421094

Biweight iteration 7: maximum difference in weights = .0033545

Robust regression Number of obs = 50

F( 2, 47) = 31.15

Prob > F = 0.0000

----------------------------------------------------------------

crime | Coef. Std. Err. t P>|t| [95% Conf. Interval]

--------+-------------------------------------------------------

poverty | 10.36971 7.629288 1.36 0.181 -4.978432 25.71786

single | 142.6339 22.17042 6.43 0.000 98.03276 187.235

_cons | -1160.931 224.2564 -5.18 0.000 -1612.076 -709.7849

----------------------------------------------------------------

Pengamatan untuk DC dihapus karena nilai Cook’s D-nya lebih besar

daripada satu (mengindikasikan influensial yang berlebihan), selain itu DC

juga bukan merupakan negara bagian AS. Tampak dihasilkannya estimasi

koefisien regresi yang berbeda dengan regresi kuadrat terkecil. Selain itu

tidak ada tampilan koefisien determinasi R-squared, koefisien determinasi

suaian adj R-squared, ataupun estimasi root MSE.

Perbandingan estimasi fitting model dengan regresi OLS dan regresi

robust diperlihatkan sebagai berikut:

Page 106: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

97

regresi ols regresi robust

No of obs 51 50

F value F (2 , 48)

= 57.96

F (2 , 47)

= 31.15

Prob > F 0.0000 0.0000

Coef.

poverty 6.787 10.370

single 166.373 142.634

_cons −1368.189 −1160.931

Std.

Err.

poverty 8.989 7.629

single 19.423 22.170

_cons 187.205 224.256

P>|t|

poverty 0.454 0.181

single 0.000 0.000

_cons 0.007 0.000

Tampak hasil-hasil yang cukup berbeda antara kedua metode regresi.

. list state weight if state =="dc", noobs

+----------------+

| state weight |

|----------------|

| dc . |

+----------------+

Tampak bahwa negara bagian DC memang memiliki bobot 0,

sehingga tidak diperhitungkan dalam analisis data.

. sort weight

. list sid state weight absr1 d1 in 1/10, noobs

Page 107: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

98

+-----------------------------------------------+

| sid state weight absr1 d1 |

|-----------------------------------------------|

| 25 ms .02638862 3.56299 .6138721 |

| 9 fl .11772218 2.902663 .1425891 |

| 46 vt .59144513 1.742409 .0427155 |

| 26 mt .66441582 1.460884 .016755 |

| 20 md .67960728 1.287087 .0356962 |

|-----------------------------------------------|

| 14 il .69124917 1.338192 .0126569 |

| 21 me .69766511 1.426741 .0223313 |

| 31 nj .74574796 1.354149 .0222918 |

| 19 ma .75392127 1.198541 .016399 |

| 5 ca .80179038 1.015206 .0123064 |

+-----------------------------------------------+

. twoway (scatter crime single [weight=weight], msymbol(oh)) if

state !="dc"

(analytic weights assumed)

0500

1000

1500

violent crime rate

Page 108: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

99

� Regresi Ridge

Regresi ridge digunakan jika terdapat multikolinearitas pada data.

Sintaks Stata adalah:

ridgereg depvar indepvars [if] [in] , model(orr|grr1|grr2|grr3)

Opsi:

orr : Model Ordinary Ridge Regression

grr1 : Model Generalized Ridge Regression

grr2 : Model Iterative Generalized Ridge

grr3 : Model Adaptive Generalized Ridge

Contoh 8.3:

. use “D:\Analisis Regresi Linear\Data\ridgereg1.dta”, clear

Mula-mula dilakukan regresi OLS seperti biasa.

. regress y x1 x2 x3

Source | SS df MS Number of obs = 20

---------+----------------------------- F(3, 16) = 107.37

Model | 6601.91542 3 2200.63847 Prob > F = 0.0000

Residual | 327.9304 16 20.49565 R-squared = 0.9527

---------+----------------------------- Adj R-squared = 0.9438

Total | 6929.84582 19 364.728727 Root MSE = 4.5272

Page 109: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

100

-------------------------------------------------------------

y | Coef. Std. Err. t P>|t| [95% Conf. Interval]

------+------------------------------------------------------

x1 | 1.058783 .173579 6.10 0.000 .6908121 1.426754

x2 | .4522435 .6557569 0.69 0.500 -.9378991 1.842386

x3 | .1211505 1.087042 0.11 0.913 -2.183275 2.425576

_cons | 8.132845 8.921103 0.91 0.375 -10.77905 27.04474

-------------------------------------------------------------

Untuk pemeriksaan asumsi non-multikolinearitas, pertama-tama akan

diperiksa matriks korelasi antar variabel independen.

. correlate x1 x2 x3

(obs=20)

| x1 x2 x3

-------------+---------------------------

x1 | 1.0000

x2 | 0.7185 1.0000

x3 | 0.9152 0.6306 1.0000

Tampak adanya korelasi yang cukup besar antara variabel x1 dan x3,

yaitu r = 0.92; walaupun demikian masih akan dilakukan uji

multikolinearitas dengan perintah vif.

. vif

Variable | VIF 1/VIF

-------------+----------------------

x1 | 7.73 0.129285

x3 | 6.21 0.160959

x2 | 2.09 0.479345

-------------+----------------------

Mean VIF | 5.34

Page 110: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

101

Tampak bahwa tidak ada variabel independen yang memiliki nilai vif

lebih besar daripada 10 ataupun nilai Tolerance = 1/vif yang kurang

daripada 0.10. Walaupun demikian, sebagai latihan akan dicoba melakukan

fitting model dengan regresi ridge.

Dalam perintah ridgereg berikut, opsi kr(#) menyatakan Ridge k

Value dengan rentang nilai (0 < k < 1); mfx(lin) menyatakan bentuk

fungsional adalah model linear, lmcol menyatakan permintaan untuk uji

diagnostik multikolinearitas; dan diag menyatakan untuk menyatakan

kriteria diagnostik seleksi model.

Pada contoh regresi ridge di sini akan ditampilkan berturut-turut hasil

fitting model dengan Ordinary Ridge Regression, beberapa nilai kriteria

diagnostik untuk model, beberapa hasil uji diagnostik multikolinearitas

. ridgereg y x1 x2 x3 , model(orr) kr(0.5) mfx(lin) lmcol diag

Hasil fitting model dengan Ordinary Ridge Regression:

====================================================

* (OLS) Ridge Regression - Ordinary Ridge Regression

====================================================

y = x1 + x2 + x3

------------------------------------------------------------------

Ridge k Value = 0.50000 | Ordinary Ridge Regression

------------------------------------------------------------------

Sample Size = 20

Wald Test = 97.9066 | P-Value > Chi2(3) = 0.0000

F-Test = 32.6355 | P-Value > F(3 , 16) = 0.0000

(Buse 1973) R2 = 0.8968 | Raw Moments R2 = 0.9936

(Buse 1973) R2 Adj = 0.8775 | Raw Moments R2 Adj = 0.9924

Root MSE (Sigma) = 6.6848 | Log Likelihood Function = -64.1440

------------------------------------------------------------------

- R2h= 0.9247 R2h Adj= 0.9106 F-Test = 65.53 P-Value > F(3,16) 0.0000

- R2v= 0.6313 R2v Adj= 0.5622 F-Test = 9.13 P-Value > F(3,16) 0.0009

Page 111: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

102

-------------------------------------------------------------

y | Coef. Std. Err. t P>|t| [95% Conf. Interval]

------+------------------------------------------------------

x1 | .4519515 .2563028 1.76 0.097 -.0913863 .9952892

x2 | 1.483555 .9682758 1.53 0.145 -.5690985 3.536208

x3 | 2.25139 1.605101 1.40 0.180 -1.151273 5.654053

_cons | 10.48659 13.1727 0.80 0.438 -17.43829 38.41146

-------------------------------------------------------------

Beberapa nilai kriteria diagnostik untuk model yang digunakan:

==================================================================

* OLS Model Selection Diagnostic Criteria - Model= (orr)

==================================================================

- Log Likelihood Function LLF = -64.1440

--------------------------------------------------------------------

- Akaike Information Criterion (1974) AIC = 53.3313

- Akaike Information Criterion (1973) Log AIC = 3.9765

--------------------------------------------------------------------

- Schwarz Criterion (1978) SC = 65.0834

- Schwarz Criterion (1978) Log SC = 4.1757

--------------------------------------------------------------------

- Amemiya Prediction Criterion (1969) FPE = 53.6235

- Hannan-Quinn Criterion (1979) HQ = 55.4454

- Rice Criterion (1984) Rice = 59.5817

- Shibata Criterion (1981) Shibata = 50.0486

- Craven-Wahba Generalized Cross Validation (1979) GCV = 55.8578

--------------------------------------------------------------------

Beberapa hasil uji diagnostik multikolinearitas:

Page 112: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

103

=====================================================

*** Multicollinearity Diagnostic Tests - Model= (orr)

=====================================================

* Correlation Matrix

(obs=20)

| x1 x2 x3

----------+---------------------------

x1 | 1.0000

x2 | 0.7185 1.0000

x3 | 0.9152 0.6306 1.0000

* Multicollinearity Diagnostic Criteria

+-----------------------------------------------------------------+

| Var | Eigenval | C_Number | C_Index | VIF | 1/VIF | R2_xi,X |

|-----+----------+----------+---------+--------+--------+---------|

| x1 | 2.5160 | 1.0000 | 1.0000 | 7.7349 | 0.1293 | 0.8707 |

| x2 | 0.4081 | 6.1651 | 2.4830 | 2.0862 | 0.4793 | 0.5207 |

| x3 | 0.0758 | 33.1767 | 5.7599 | 6.2127 | 0.1610 | 0.8390 |

+-----------------------------------------------------------------+

* Farrar-Glauber Multicollinearity Tests

Ho: No Multicollinearity - Ha: Multicollinearity

--------------------------------------------------

* (1) Farrar-Glauber Multicollinearity Chi2-Test:

Chi2 Test = 43.8210 P-Value > Chi2(3) 0.0000

* (2) Farrar-Glauber Multicollinearity F-Test:

+------------------------------------------------------+

| Variable | F_Test | DF1 | DF2 | P_Value |

|-----------+----------+----------+---------+----------|

| x1 | 57.246 | 17.000 | 3.000 | 0.003 |

| x2 | 9.233 | 17.000 | 3.000 | 0.046 |

| x3 | 44.308 | 17.000 | 3.000 | 0.005 |

+------------------------------------------------------+

Page 113: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

104

* (3) Farrar-Glauber Multicollinearity t-Test:

+-------------------------------------+

| Variable | x1 | x2 | x3 |

|----------+--------+--------+--------|

| x1 | . | | |

| x2 | 4.259 | . | |

| x3 | 9.362 | 3.350 | . |

+-------------------------------------+

* |X'X| Determinant:

|X'X| = 0 Multicollinearity - |X'X| = 1 No Multicollinearity

|X'X| Determinant: (0 < 0.0779 < 1)

------------------------------------------------------

* Theil R2 Multicollinearity Effect:

R2 = 0 No Multicollinearity - R2 = 1 Multicollinearity

- Theil R2: (0 < 0.9529 < 1)

--------------------------------------------------------

* Multicollinearity Range:

Q = 0 No Multicollinearity - Q = 1 Multicollinearity

- Gleason-Staelin Q0: (0 < 0.7641 < 1)

1- Heo Range Q1: (0 < 0.8581 < 1)

2- Heo Range Q2: (0 < 0.8129 < 1)

3- Heo Range Q3: (0 < 0.7209 < 1)

4- Heo Range Q4: (0 < 0.7681 < 1)

5- Heo Range Q5: (0 < 0.8798 < 1)

6- Heo Range Q6: (0 < 0.7435 < 1)

-----------------------------------------------

Page 114: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

105

* Marginal Effect - Elasticity (Model= orr): Linear *

+---------------------------------------------------------------+

| Variable | Marginal_Effect(B) | Elasticity(Es) | Mean |

|----------+--------------------+------------------+------------|

| x1 | 0.4520 | 0.3280 | 52.5840 |

| x2 | 1.4836 | 0.3629 | 17.7245 |

| x3 | 2.2514 | 0.1645 | 5.2935 |

+---------------------------------------------------------------+

Mean of Dependent Variable = 72.4650

Perbandingan hasil fitting model dengan regresi OLS dan regresi

ridge diperlihatkan sebagai berikut:

regresi ols regresi ridge

F (3, 16) 107.37 32.635

Prob > F 0.0000 0.0000

Coef.

x1 1.059 0.452

x2 0.452 1.484

x3 0.121 2.251

_cons 8.133 10.487

Std.

Err.

x1 0.174 0.256

x2 0.656 0.968

x3 1.087 1.605

_cons 8.921 13.173

P>|t|

x1 0.000 0.097

x2 0.500 0.145

x3 0.913 0.180

_cons 0.375 0.438

Tampak hasil yang cukup berbeda antara regresi OLS dengan regresi

ridge.

Page 115: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

106

KEPUSTAKAAN

Baddeley MC & Barrowclough DV. 2009. Running Regressions: A

Practical Guide to Quantitative Research in Economics, Finance

and Development Studies. Cambridge University Press, Cambridge.

Bingham NH & Fry JM. 2010. Regression: Linear Models in Statistics.

Springer, London.

Chatterjee S & Hadi AS. 2012. Regression Analysis by Example, 5th Ed.

John Wiley & Sons, Hoboken, New Jersey.

Cook RD & Weisberg S. Residuals and Influence in Regression. 1982.

Chapman and Hall, New York.

Fahrmeir L, Kneib T, Lang S, & Marx B. 2013. Regression: Models,

Methods and Applications. Springer, New York.

Gordon RA. 2015. Regression Analysis for the Social Sciences, 2nd Ed.

Routledge, New York.

Keith TZ. 2015. Multiple Regression and Beyond: An Introduction to

Multiple Regression and Structural Equation Modeling, 2nd Ed.

Routledge, New York.

LaMorte WW. 2018. The Power of Multiple Regression Models. Boston

University School of Public Health. Available from <http://sphweb.

bumc.bu.edu/otlt/MPH-Modules/QuantCore/PH717_MultipleVariable

Regression/index.html>

Mendelhall W & Sincich T. 2012. A Second Course in Statistics:

Regression Analysis, 7th Ed. Prentice Hall, Boston.

Montgomery DC, Peck EA, & Vining GG. 2012. Introduction to Linear

Regression Analysis, 5th Ed. John Wiley & Sons, Hoboken, New

Jersey.

Pardoe I. 2012. Applied Regression Modeling, 2th Ed. John Wiley & Sons,

Hoboken, New Jersey.

Richardson S. 2015. Business Applications of Multiple Regression, 2nd

Ed. Business Expert Press, New York.

Vach W. 2013. Regression Models as A Tool in Medical Research. CRC

Press, Boca Raton, FL.

Page 116: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

107

Vittinghoff E, Glidden DV, Shiboski SC, & McCulloch CE. 2012.

Regression Methods in Biostatistics: Linear, Logistic, Survival, and

Repeated Measures Models, 2nd Ed. Springer, New York.

Weisberg S. Applied Linear Regression, 4th Ed. 2014. John Wiley & Sons,

Hoboken, New Jersey.

Xin Y & Xiao GS. 2009. Linear Regression Analysis: Theory and

Computing. World Scientific Publishing, Singapore.

Page 117: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

108

Lampiran 1

PEMODELAN DAN SELEKSI

PREDIKTOR

Tujuan pemodelan adalah mendapatkan model dengan fitting terbaik

dan paling parsimoni (hemat prediktor), namun juga secara masuk akal

(reasonably) mampu menjelaskan hubungan substantif antara himpunan

prediktor dengan respons sesuai dengan ranah bidang ilmu yang

bersangkutan. Tiap penambahan prediktor baru ke dalam model akan

memperbesar koefisien determinasi 2R yang merupakan proporsi variansi

respons yang ‘dijelaskan’ oleh himpunan prediktor, tetapi juga semakin

menjauhkan model dari prinsip parsimoni.

Dengan demikian jika jumlah ‘kandidat’ prediktor relatif besar,

diperlukan prosedur seleksi variabel independen untuk pemodelan. Prosedur

seleksi variabel dibedakan menjadi:

1. Seluruh kemungkinan regresi (all possible regressions):

Dilakukan pemodelan dengan tiap kemungkinan kombinasi variabel

independen, lalu dari seluruh model tersebut dipilih 1 model yang

terbaik.

Prosedur ini hanya dapat dikerjakan jika jumlah ‘kandidat’ prediktor

tidak terlalu besar. Jika dimiliki k ‘kandidat’ prediktor, maka jumlah

model regresi yang mungkin dibuat adalah 2 1k− . Misalkan dimiliki 10

‘kandidat’ prediktor, maka jumlah model yang harus diperiksa adalah

102 1− = 1023 model. Harus bahwa penilaian model tidak hanya

mencakup aspek statistiknya, tetapi juga aspek substantif ranah bidang

ilmu yang bersangkutan

2. Prosedur stepwise:

Prosedur stepwise dapat dilaksanakan dengan 2 cara, yaitu seleksi ke

depan atau eliminasi ke belakang.

Page 118: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

109

a. Seleksi ke depan (forward selection)

Mula-mula dilakukan regresi linear sederhana dengan masing-

masing prediktor, lalu dipilih 1 model dengan prediktor yang nilai

p-nya terkecil. Seleksi ke depan dimulai dengan menambahkan

prediktor kedua yang nilai p-nya terkecil kedua di antara himpunan

regresi linear sederhana mula-mula. Jika nilai p-nya menunjukkan

prediktor baru ini bermakna, seleksi dilanjutkan dengan

menambahkan prediktor yang nilai p-nya terkecil ketiga, dan

seterusnya. Prosedur dilaksanakan sampai prediktor yang terakhir

dimasukkan tak bermakna (nilai p-nya lebih besar daripada 0.05),

maka yang dipilih adalah model yang terakhir yang tiap

prediktornya masih bermakna.

b. Eliminasi ke belakang (backward elimination)

Seleksi dimulai dengan regresi linear ganda yang menginklusikan

semua ‘kandidat’ prediktor. Dipilih prediktor yang nilai p-nya

terbesar dan lebih besar daripada 0.05 untuk dieliminasi dari model.

Jika pada fitting ulangan masih ada prediktor dengan nilai p lebih

besar daripada 0.05, seleksi dilanjutkan dengan mengeliminasikan

prediktor dengan nilai p terbesar, dan seterusnya. Seleksi berakhir

apabila seluruh prediktor sisa masing-masing memiliki nilai p lebih

kecil daripada 0.05.

Perhatikan:

- Pemodelan tidak boleh dilakukan dengan meregresikan respons terhadap

himpunan seluruh ‘kandidat’ prediktor, lalu sekaligus mengeliminasikan

semua prediktor yang nilai p-nya lebih besar daripada 0.05. Eliminasi

tidak boleh dilakukan secara bersamaan sekaligus, karena dalam model

dengan beberapa prediktor yang tak bermakna demikian, eliminasi 1

prediktor saja dengan nilai p terbesar adakalanya mengakibatkan seluruh

prediktor tersisa menjadi bermakna.

- Seluruh prosedur di atas dilaksanakan dengan asumsi batas ‘kemaknaan’

adalah 0.05. Asumsi demikian dibutuhkan sebagai dasar untuk

pelaksanaan langkah-langkah seleksi. Dalam kenyataannya besar batas

Page 119: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

110

‘kemaknaan’ demikian dapat saja diubah menurut pertimbangan peneliti.

Selain itu aspek substantif adakala lebih perlu diperhatikan daripada

aspek statistik. Variabel yang menurut peneliti sangat penting dapat saja

tetap dipertahankan dalam model, walaupun nilai p-nya melebihi 0.05.

- Pada tahap akhir, perlu diperhatikan pula pemenuhan asumsi non-

multikolinearitas. Pasangan prediktor yang merupakan pasangan

kolinearitas adakalanya perlu dikeluarkan salah satu di antaranya dari

model.

Page 120: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

111

Lampiran 2

BEBERAPA GRAFIK GALAT

Dalam regresi linear, terdapat sejumlah grafik galat, yang terutama

digunakan dalam diagnostika regresi. Dalam Stata kumpulan grafik galat

tersebut dikenal sebagai residual plots, yang hanya dapat ditampilkan setelah

perintah regress, dan karena itu dikelompokkan sebagai regress

postestimation plots.

Beberapa grafik galat yang akan diperlihatkan di sini adalah:

- rvfplot - acprplot

- avplot - rvpplot

- avplots - lvr2plot

- cprplot

Contoh:

. use “D:\Data\elemapi”

. regress api00 acs_k3 meals full

Source | SS df MS Number of obs = 313

---------+---------------------------- F( 3, 309) = 213.41

Model | 2634884.26 3 878294.754 Prob > F = 0.0000

Residual | 1271713.21 309 4115.57673 R-squared = 0.6745

---------+---------------------------- Adj R-squared = 0.6713

Total | 3906597.47 312 12521.1457 Root MSE = 64.153

--------------------------------------------------------------------

api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------+------------------------------------------------------------

acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073

meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348

full | .1086104 .090719 1.20 0.232 -.0698947 .2871154

_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555

Page 121: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

112

--------------------------------------------------------------------

. rvfplot

Grafik rvfplot (residual versus fitted plot) adalah plot galat vs nilai

prediksi respons. Grafik ini terutama bermanfaat untuk mendeteksi data

pencilan (outlier), yang memiliki nilai galat besar.

- Sumbu Y: Galat (residuals) = ie

- Sumbu X: Prediksi respons (fitted values) = ˆiY

. avplot meals

Grafik avplot (added variable plot) adalah grafik untuk

menunjukkan hubungan antara respons dengan satu variabel independen

yang dispesifikasikan, dengan penyesuaian (adjusted for) terhadap variabel

independen lainnya. Kemiringan (slope) grafik ini menyatakan koefisien

regresi parsial variabel independen yang dispesifikasikan tersebut.

Pengamatan dengan leverage yang tinggi akan tampak sebagai titik yang

berjarak horizontal jauh dari sisa datanya. Sintaks untuk menampilkan grafik

avplot adalah:

-200

-100

0100

200

Residuals

Page 122: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

113

avplot indepvar

Misalkan: iY = 0b +

1b 1iX + ie dan

2iX = 0v +

1v 1iX + if

maka:

- Sumbu Y: Galat regresi respons terhadap (himpunan) variabel

independen minus variabel independen yang dispesifikasikan = ie

- Sumbu X: Galat regresi variabel independen yang dispesifikasikan

terhadap (himpunan) variabel independen sisa = if

. avplots

Perintah avplots menghasilkan grafik avplot untuk seluruh variabel

independen dalam satu citra.

-200

0200

400

e( api00 | X )

Page 123: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

114

. cprplot acs_ k3

Grafik cprplot (component-plus-residual plot) adalah grafik galat

plus komponen vs variabel independen yang dispesifikasikan. Sintaksnya

adalah:

cprplot indepvar

-200

-100

0100

200

e( api00 | X )

-200

0200

400

e( api00 | X )

-200

-100

0100

200

e( api00 | X )

Page 124: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

115

Misalkan: iY = 0b +

1b 1iX + 2b 2iX + ie

- Sumbu Y: Galat galat plus komponen = ie + 1b 1iX

- Sumbu Y: Variabel independen yang dispesifikasikan = 1iX

. acprplot full

Grafik acprplot adalah grafik galat parsial tertambah (augmented

component-plus-residual plot) untuk variabel independen tertentu.

Sintaksnya adalah:

acprplot indepvar

-300

-200

-100

0100

Component plus residual

Page 125: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

116

Grafik ini merupakan pengembangan dari cprplot dengan

menambahkan komponen kuadrat prediktor. Opsi lowess digunakan untuk

mendeteksi adanya penyimpangan dari asumsi linearitas.

. acprplot full, lowess

-200

-100

0100

200

Augmented component plus residual

-200

-100

0100

200

Augmented component plus residual

Page 126: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

117

. rvpplot meals

Grafik rvpplot (residual versus predictor) adalah grafik galat vs

prediktor, mem-plot galat terhadap prediktor spesifik. Sintaksnya adalah:

rvpplot indepvar

- Sumbu Y: Galat

- Sumbu X: Variabel independen yang dispesifikasikan

. lvr2plot

Grafik lvr2plot (leverage versus squared residual) adalah grafik

leverage vs galat terstandardisasi kuadrat. Nilai galat terstandardisasi kuadrat

yang besar mengindikasikan respons memiliki nilai yang jauh berbeda dari

yang diprediksikan oleh model. Nilai ekstrim pada sumbu X ataupun

kombinasi nilai yang sangat berbeda pada sumbu X dan Y menunjukkan

pengamatan dengan leverage yang tinggi. Sintaks untuk menampilkan

lvr2plot adalah:

lvr2plot

-200

-100

0100

200

Residuals

Page 127: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan

118

- Sumbu Y: Leverage

- Sumbu X: Galat terstandarsisasi kuadrat

0.2

.4.6

.8Leverage

Page 128: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan
Page 129: harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/3866/Buku... · bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap pertambahan