multiple regression 9.1

10
Regresi Multiple: Validasi Model dan Diagnostik Di Bagian 7.8.2 dan 7.9 kita membahas beberapa konsekuensi dari model yang kurang spesifik. Di bab ini kita mempelajari beberapa pendekatan untuk memeriksa model dan asumsi tambahan untuk kelayakan dan validitas. Beberapa sifat residu [lihat (7.11)] dan matriks hat yang dikembangkan di Bagian 9.1 dan 9.2. Kami membahas pencilan, pengaruh pengamatan individu, dan efeknya dalam Bagian 9.3 dan 9.4. 9.1 Residual Model yang biasa diberikan oleh (7.4) sebagaiy=+ε dengan asumsi E ( ε ) =0 dan cov ( ε) =σ 2 I, di mana y adalah nx 1 ,Xadalahnx (k +1) dari peringkat k +1<n, dan β adalah ( k +1 ) x 1. Vektor error ε teramati kecuali β adalah diketahui. Untuk memperkirakan ε untuk sampel yang diberikan, kita menggunakan vektor residual. ^ ε=yX ^ β=y^ y……………………… ( 9.1) sebagaimana didefinisikan dalam (7.11). Residu n dalam (9.1), ^ ε 1 , ^ ε 2 ,…, ^ ε n , digunakan dalam beragam plot dan prosedur untuk memeriksa keabsahan atau kecukupan model. Kita pertama kali mempertimbangkan beberapa sifat vektor residual ^ ε. Menggunakan estimator kuadrat terkecil ^ β=( X ' X ) 1 X'y di (7,6), vektor nilai yang diperkirakan ^ y=X ^ β dapat ditulis sebagai

Upload: iman-al-fajri

Post on 03-Aug-2015

57 views

Category:

Documents


10 download

TRANSCRIPT

Page 1: Multiple Regression 9.1

Regresi Multiple: Validasi Model dan Diagnostik

Di Bagian 7.8.2 dan 7.9 kita membahas beberapa konsekuensi dari model yang

kurang spesifik. Di bab ini kita mempelajari beberapa pendekatan untuk memeriksa model

dan asumsi tambahan untuk kelayakan dan validitas. Beberapa sifat residu [lihat (7.11)]

dan matriks hat yang dikembangkan di Bagian 9.1 dan 9.2. Kami membahas pencilan,

pengaruh pengamatan individu, dan efeknya dalam Bagian 9.3 dan 9.4.

9.1 Residual

Model yang biasa diberikan oleh (7.4) sebagaiy=Xβ+ε dengan asumsi E (ε )=0

dan cov (ε )=σ2 I , di mana y adalahn x1 , X adala hn x (k+1) dari peringkat k+1<n, dan β

adalah (k+1 ) x1. Vektor error ε teramati kecuali β adalah diketahui. Untuk memperkirakan

ε untuk sampel yang diberikan, kita menggunakan vektor residual.

ε= y−X β= y− y ……………………… (9.1)

sebagaimana didefinisikan dalam (7.11). Residu n dalam (9.1),ε 1, ε2 ,…, εn, digunakan

dalam beragam plot dan prosedur untuk memeriksa keabsahan atau kecukupan model.

Kita pertama kali mempertimbangkan beberapa sifat vektor residual ε .

Menggunakan estimator kuadrat terkecil β=(X ' X )−1 X ' y di (7,6), vektor nilai yang

diperkirakan y=X β dapat ditulis sebagai

y=X β=X ( X ' X )−1X ' y

¿ Hy ………… …………(9.2)

di manaH=X ( X ' X )−1X ' (lihat bagian 8.2). Matriks H n x n disebut matriks hat karena

mengubah y ke y. Kami juga mengacu pada H sebagai matriks proyeksi karena pada

dasarnya dengan alasan yang sama bahwa ia memproyeksikan geometris y (tegak lurus) ke

y (lihat Gambar 7.4.). Matriks hat H simetris dan idempoten (lihat Soal 5.32a).

Mengalikan X dengan H , kita mendapatkan

HX=X ( X ' X )−1X ' X=X ………………… (9.3)

Menulis X di dalam kolom dan menggunakan (2.28), kita dapat menulis (9.3) sebagai

Page 2: Multiple Regression 9.1

HX=H ( j , x1 , …, xk )=( Hj , H x1, …, H xk )

maka

j=Hj , xi=H x i ,i=1,2, …,k . …………… (9.4)

Menggunakan (9.2), vektor residual ε (9.1) dapat diekspresikan dalam syarat H :

ε= y− y= y−Hy

¿ (1−H ) y ………………… (9.5)

Kita dapat menuliskan kembali (9.5) untuk mengekspresikan vektor residual ε dalam

syarat ε :

ε=(1−H ) y= (1−H ) ( Xβ+ε )

¿ ( Xβ−HXβ )+(1−H ) ε

¿ ( Xβ−Xβ )+(1−H ) ε… …… [by (9.3 ) ]

¿ (1−H )ε …… ………………………….(9.6)

di dalam syarat elemen hij dari H , kita mempunyai ε i=εi−∑j=1

n

hij ε j , i=1,2 ,… ,n . Sehingga,

jika hij kecil (dalam nilai mutlak), ε❑ mendekati untuk ε❑

Berikut ini adalah beberapa sifat ε (lihat masalah 9.1). Untuk empat yang pertama,

kita mengasumsikan bahwa E ( y )=Xβ dan cov ( y )=σ2 I :

E ( ε )=0 ………………… ..(9.7)

cov ( ε )=σ2 [ I−X ( X ' X )−1X ' ]=σ 2 ( I−H ) ………………… (9.8 )

cov ( ε , y )=σ2 [ I −X ( X ' X )−1X ' ]=σ2 (I−H )… ……….. … (9.9 )

cov ( ε , y )=O …………… ……(9.10)

ε ¿∑i−1

n

εi

n= ε ' j

n=0 ………………… (9.11)

ε ' y=SSE= y ' [ I−X ( X ' X )−1X ' ] y= y ' ( I−H ) y ……………… ..(9.12)

ε ' y=0 ………………… (9.13 )

Page 3: Multiple Regression 9.1

ε ' X=0' ……………… .. ( 9.14 )

Di (9.7), vektor residual ε mempunyai rata-rata yang sama sebagai syarat eror ε ,

tetapi di (9.8) cov ( ε )=σ2(I−H ) berbeda dari asumsi cov (ε )=σ2 I . Sehingga residual

ε 1, ε2 ,…, εn adalah tidak bebas. Namun, dalam banyak kasus, terutama jika n besar, hij

cenderung kecil ( for i≠ j), dan ketergantungan ditampilkan dalam σ 2(I −H) tidak terlalu

mempengaruhi plot dan teknik lain untuk validasi model. Setiap ε i terlihat berkorelasi

dengan masing-masing y j di (9,9), tetapi di (9.10)ε i ' s tidak berkorelasi dengan y j' s .

Beberapa Sifat sampel residu diberikan dalam (9.11)-(9.14). Rata-rata sampel dari

residu adalah nol, seperti yang ditunjukkan dalam (9.11).

r ε y=ε ' ( y− y j)

√( ε ' ε ) ( y− y j )' ( y− y j)= ε ' y

√( ε ' ε ) ( y− y j )' ( y− y j)

Namun, ε dan y ortogonal oleh (9.13), dan karena itu

r ε y=0……… ………… (9.15 )

Demikian pula, dengan (9,14), ε ortogonal terhadap setiap kolom X dan

r ε x i=0 , i=1,2 , …, k . ………………. (9.16 )

Gambar 9.1 Plot residual ideal saat model benar.

Page 4: Multiple Regression 9.1

Jika asumsi model dan tambahan sudah benar, maka dengan (9.15), suatu plot dari

residu dibandingkan nilai-nilai diprediksi, ( ε1, y1 ) , ( ε2 , y2) ,…. ,( εn , yn), harus menunjukkan

tidak ada pola yang sistematis. Demikian juga, dengan (9.16), plot k dari residual

dibandingkan dengan setiap x1 , x2 ,…, xk, harus menunjukkan hanya variasi acak. Plot ini

karena itu berguna untuk memeriksa model. Sebuah plot khas jenis ini ditunjukkan pada

Gambar 9.1. Hal ini juga mungkin berguna untuk merencanakan residu di atas kertas

probabilitas normal dan untuk merencanakan residu dalam urutan waktu.

Jika model tidak benar, plot yang melibatkan beragam residu dapat menunjukkan

penyimpangan dari model yang dipasang seperti pencilan, kelengkungan, atau varians tak

konstan. Plot juga mungkin menyarankan langkah-langkah perbaikan untuk meningkatkan

kekuatan dari model. Misalnya, residu bisa diplot terhadap salah satu x i ' s dan pola

melengkung sederhana mungkin menyarankan penambahan x i2 untuk model. Kami akan

mempertimbangkan berbagai pendekatan untuk mendeteksi pencilan dalam Bagian 9.3 dan

untuk menemukan pengamatan berpengaruh dalam Bagian 9.4.

9.2 THE HAT MATRIX

Telah ditentukan berikut ini pada bagian (9.2) bahwa hat matriks H=H (X ' X)−1 X '

simetris dan idempoten. Kami sekarang menyajikan beberapa sifat tambahan dari matriks

ini. Properti ini akan berguna dalam pembahasan outlier dan pengamatan berpengaruh

dalam Bagian 9.3 dan 9.4.

Untuk model yang berpusat

y=αj+X c β1+ε (9.17)

Dari Persamaan (7.32), y menjadi

y= α j+¿ X c β1 (9.18)

dan hat matriks adalahH c=Xc (Xc ' Xc)−1 X c ', di mana

X c=(I−1n

J )X1=(x11−x1 x12−x2

x21−x1 x22−x2

⋯…

x1k−xk

x2k−xk

⋮ ⋮ ⋮ ⋮xn1−x1 xn 2−x2 ⋯ xnk−xk

)Dari persamaan (7.36) dan (7,37), kita dapat menuliskan persamaan (9.18) sebagai

Page 5: Multiple Regression 9.1

y= y j+ Xc ( Xc ' Xc )−1 Xc' y=( 1

nj ' y) j+H c y

¿( 1n

J +H c) y (9.19)

Dengan Membandingkan persamaan (9.19) dan (9.2), kita peroleh

H=1n

J+ H c=1n

J+X c ( X c ' X c)−1 X c ' (9.20)

Sekarang kita memeriksa beberapa sifat unsur hij dari H.

Teorema 9.2. Jika Xadalahn x (k+1)dari rank k+1<n, dan jika kolom pertama dari X

adalah j, maka elemen hijdari H=X ¿ memiliki sifat sebagai berikut:

(i). ( 1n )≤ hii ≤ 1 ,untuk i=1,2… ,n .

(ii). −.5≤ hij ≤ .5 ,untuk semua j ≠ i

(iii).

hii=( 1n )+( x1 i−x1 )' ( Xc ' Xc )−1 ( x1 i−x1) dimana x ' 1 i=( x i 1 , x i2 ,… x ik ) , x '=x1 , x2 , …, xk¿dan ( x1 i−x1 ) adalahi th deretanmatriks berpusat X c

(iv). tr ( H )=∑i=1

n

hii=k+1.

BUKTI

(i). batas bawah berikut dari persamaan (9.20), karena X c ' Xc adalah definit positif.

karenaH simetris dan idempoten, kita menggunakan hubungan H=H 2 untuk

menemukan batas atas hii. Biarkan hi' menjadi ith baris ke H. Lalu

hii=h i ' h i=¿ ( hi 1 , hi 2 ,…, hi m ¿(hi 1

hi 2

⋮h¿

)=∑j=1

n

hij2

¿hij2 +∑

j ≠1

hij2 (9.21)

Page 6: Multiple Regression 9.1

Dengan Membagi kedua sisi pada persamaan (9.21) oleh hii

[ yang positif karena hii ≥( 1n )], kita memperoleh

1=hii+∑j ≠1

hij2

hii

(9.2)

yang berarti hii ≤1.

(ii). Pada buku (Chatterjee dan Hadi 1988, hal. 18.) Kita dapat menuliskan persamaan

(9.21) dalam bentuk

hii=h ii2+h ij

2+∑r ≠ij

h ir2

Atau

hii−h ii2=hij

2+∑r ≠ij

hir2

Dengan demikian,hij2 ≤h ii−hii

2, dan karena nilai maksimum hii−h ii2adalah

14

, kita

memiliki hij2 ≤

14

untuk j ≠ i.

(iii). ini berikut dari persamaan (9,20), lihat Soal 9.2b.

(iv). Lihat 9.2c Masalah.

Berdasarkan Teorema 9.2 (iv), kita melihat bahwa dengan meningkatnya nilain, nilai-nilai

hii akan cenderung menurun. Fungsi (x1 i−x1)’ ( X c ' X c)−1 (x1 i−x1) dalam Teorema 9.2 (iii)

adalah jarak standar. Jarak standar (Mahalanobis distance) didefinisikan dalam (3.27)

adalah untuk matriks kovarians populasi. Matriks X c ' Xc sebanding dengan matriks

kovarians sampel [lihat (7.44)]. Dengan demikian, (x1 i−x1)’ ( X c ' X c)−1 (x1 i−x1) adalah

jarak yang diperkirakan standar dan memberikan ukuran yang baik dari jarak relatif x1 i

dari setiap titik pusat yang diwakili oleh x1.

Page 7: Multiple Regression 9.1

Tugas Kelompok Mata Kuliah Pemodelan Statistika

REGRESI MULTIPEL : Residual dan Matriks Hat

IMAN AL FAJRI / H121 09 253

A F R I Y A N I / H111 09

Page 8: Multiple Regression 9.1

JURUSAN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS HASANUDDIN

MAKASSAR

2012