multiple regression 9.1
TRANSCRIPT
Regresi Multiple: Validasi Model dan Diagnostik
Di Bagian 7.8.2 dan 7.9 kita membahas beberapa konsekuensi dari model yang
kurang spesifik. Di bab ini kita mempelajari beberapa pendekatan untuk memeriksa model
dan asumsi tambahan untuk kelayakan dan validitas. Beberapa sifat residu [lihat (7.11)]
dan matriks hat yang dikembangkan di Bagian 9.1 dan 9.2. Kami membahas pencilan,
pengaruh pengamatan individu, dan efeknya dalam Bagian 9.3 dan 9.4.
9.1 Residual
Model yang biasa diberikan oleh (7.4) sebagaiy=Xβ+ε dengan asumsi E (ε )=0
dan cov (ε )=σ2 I , di mana y adalahn x1 , X adala hn x (k+1) dari peringkat k+1<n, dan β
adalah (k+1 ) x1. Vektor error ε teramati kecuali β adalah diketahui. Untuk memperkirakan
ε untuk sampel yang diberikan, kita menggunakan vektor residual.
ε= y−X β= y− y ……………………… (9.1)
sebagaimana didefinisikan dalam (7.11). Residu n dalam (9.1),ε 1, ε2 ,…, εn, digunakan
dalam beragam plot dan prosedur untuk memeriksa keabsahan atau kecukupan model.
Kita pertama kali mempertimbangkan beberapa sifat vektor residual ε .
Menggunakan estimator kuadrat terkecil β=(X ' X )−1 X ' y di (7,6), vektor nilai yang
diperkirakan y=X β dapat ditulis sebagai
y=X β=X ( X ' X )−1X ' y
¿ Hy ………… …………(9.2)
di manaH=X ( X ' X )−1X ' (lihat bagian 8.2). Matriks H n x n disebut matriks hat karena
mengubah y ke y. Kami juga mengacu pada H sebagai matriks proyeksi karena pada
dasarnya dengan alasan yang sama bahwa ia memproyeksikan geometris y (tegak lurus) ke
y (lihat Gambar 7.4.). Matriks hat H simetris dan idempoten (lihat Soal 5.32a).
Mengalikan X dengan H , kita mendapatkan
HX=X ( X ' X )−1X ' X=X ………………… (9.3)
Menulis X di dalam kolom dan menggunakan (2.28), kita dapat menulis (9.3) sebagai
HX=H ( j , x1 , …, xk )=( Hj , H x1, …, H xk )
maka
j=Hj , xi=H x i ,i=1,2, …,k . …………… (9.4)
Menggunakan (9.2), vektor residual ε (9.1) dapat diekspresikan dalam syarat H :
ε= y− y= y−Hy
¿ (1−H ) y ………………… (9.5)
Kita dapat menuliskan kembali (9.5) untuk mengekspresikan vektor residual ε dalam
syarat ε :
ε=(1−H ) y= (1−H ) ( Xβ+ε )
¿ ( Xβ−HXβ )+(1−H ) ε
¿ ( Xβ−Xβ )+(1−H ) ε… …… [by (9.3 ) ]
¿ (1−H )ε …… ………………………….(9.6)
di dalam syarat elemen hij dari H , kita mempunyai ε i=εi−∑j=1
n
hij ε j , i=1,2 ,… ,n . Sehingga,
jika hij kecil (dalam nilai mutlak), ε❑ mendekati untuk ε❑
Berikut ini adalah beberapa sifat ε (lihat masalah 9.1). Untuk empat yang pertama,
kita mengasumsikan bahwa E ( y )=Xβ dan cov ( y )=σ2 I :
E ( ε )=0 ………………… ..(9.7)
cov ( ε )=σ2 [ I−X ( X ' X )−1X ' ]=σ 2 ( I−H ) ………………… (9.8 )
cov ( ε , y )=σ2 [ I −X ( X ' X )−1X ' ]=σ2 (I−H )… ……….. … (9.9 )
cov ( ε , y )=O …………… ……(9.10)
ε ¿∑i−1
n
εi
n= ε ' j
n=0 ………………… (9.11)
ε ' y=SSE= y ' [ I−X ( X ' X )−1X ' ] y= y ' ( I−H ) y ……………… ..(9.12)
ε ' y=0 ………………… (9.13 )
ε ' X=0' ……………… .. ( 9.14 )
Di (9.7), vektor residual ε mempunyai rata-rata yang sama sebagai syarat eror ε ,
tetapi di (9.8) cov ( ε )=σ2(I−H ) berbeda dari asumsi cov (ε )=σ2 I . Sehingga residual
ε 1, ε2 ,…, εn adalah tidak bebas. Namun, dalam banyak kasus, terutama jika n besar, hij
cenderung kecil ( for i≠ j), dan ketergantungan ditampilkan dalam σ 2(I −H) tidak terlalu
mempengaruhi plot dan teknik lain untuk validasi model. Setiap ε i terlihat berkorelasi
dengan masing-masing y j di (9,9), tetapi di (9.10)ε i ' s tidak berkorelasi dengan y j' s .
Beberapa Sifat sampel residu diberikan dalam (9.11)-(9.14). Rata-rata sampel dari
residu adalah nol, seperti yang ditunjukkan dalam (9.11).
r ε y=ε ' ( y− y j)
√( ε ' ε ) ( y− y j )' ( y− y j)= ε ' y
√( ε ' ε ) ( y− y j )' ( y− y j)
Namun, ε dan y ortogonal oleh (9.13), dan karena itu
r ε y=0……… ………… (9.15 )
Demikian pula, dengan (9,14), ε ortogonal terhadap setiap kolom X dan
r ε x i=0 , i=1,2 , …, k . ………………. (9.16 )
Gambar 9.1 Plot residual ideal saat model benar.
Jika asumsi model dan tambahan sudah benar, maka dengan (9.15), suatu plot dari
residu dibandingkan nilai-nilai diprediksi, ( ε1, y1 ) , ( ε2 , y2) ,…. ,( εn , yn), harus menunjukkan
tidak ada pola yang sistematis. Demikian juga, dengan (9.16), plot k dari residual
dibandingkan dengan setiap x1 , x2 ,…, xk, harus menunjukkan hanya variasi acak. Plot ini
karena itu berguna untuk memeriksa model. Sebuah plot khas jenis ini ditunjukkan pada
Gambar 9.1. Hal ini juga mungkin berguna untuk merencanakan residu di atas kertas
probabilitas normal dan untuk merencanakan residu dalam urutan waktu.
Jika model tidak benar, plot yang melibatkan beragam residu dapat menunjukkan
penyimpangan dari model yang dipasang seperti pencilan, kelengkungan, atau varians tak
konstan. Plot juga mungkin menyarankan langkah-langkah perbaikan untuk meningkatkan
kekuatan dari model. Misalnya, residu bisa diplot terhadap salah satu x i ' s dan pola
melengkung sederhana mungkin menyarankan penambahan x i2 untuk model. Kami akan
mempertimbangkan berbagai pendekatan untuk mendeteksi pencilan dalam Bagian 9.3 dan
untuk menemukan pengamatan berpengaruh dalam Bagian 9.4.
9.2 THE HAT MATRIX
Telah ditentukan berikut ini pada bagian (9.2) bahwa hat matriks H=H (X ' X)−1 X '
simetris dan idempoten. Kami sekarang menyajikan beberapa sifat tambahan dari matriks
ini. Properti ini akan berguna dalam pembahasan outlier dan pengamatan berpengaruh
dalam Bagian 9.3 dan 9.4.
Untuk model yang berpusat
y=αj+X c β1+ε (9.17)
Dari Persamaan (7.32), y menjadi
y= α j+¿ X c β1 (9.18)
dan hat matriks adalahH c=Xc (Xc ' Xc)−1 X c ', di mana
X c=(I−1n
J )X1=(x11−x1 x12−x2
x21−x1 x22−x2
⋯…
x1k−xk
x2k−xk
⋮ ⋮ ⋮ ⋮xn1−x1 xn 2−x2 ⋯ xnk−xk
)Dari persamaan (7.36) dan (7,37), kita dapat menuliskan persamaan (9.18) sebagai
y= y j+ Xc ( Xc ' Xc )−1 Xc' y=( 1
nj ' y) j+H c y
¿( 1n
J +H c) y (9.19)
Dengan Membandingkan persamaan (9.19) dan (9.2), kita peroleh
H=1n
J+ H c=1n
J+X c ( X c ' X c)−1 X c ' (9.20)
Sekarang kita memeriksa beberapa sifat unsur hij dari H.
Teorema 9.2. Jika Xadalahn x (k+1)dari rank k+1<n, dan jika kolom pertama dari X
adalah j, maka elemen hijdari H=X ¿ memiliki sifat sebagai berikut:
(i). ( 1n )≤ hii ≤ 1 ,untuk i=1,2… ,n .
(ii). −.5≤ hij ≤ .5 ,untuk semua j ≠ i
(iii).
hii=( 1n )+( x1 i−x1 )' ( Xc ' Xc )−1 ( x1 i−x1) dimana x ' 1 i=( x i 1 , x i2 ,… x ik ) , x '=x1 , x2 , …, xk¿dan ( x1 i−x1 ) adalahi th deretanmatriks berpusat X c
(iv). tr ( H )=∑i=1
n
hii=k+1.
BUKTI
(i). batas bawah berikut dari persamaan (9.20), karena X c ' Xc adalah definit positif.
karenaH simetris dan idempoten, kita menggunakan hubungan H=H 2 untuk
menemukan batas atas hii. Biarkan hi' menjadi ith baris ke H. Lalu
hii=h i ' h i=¿ ( hi 1 , hi 2 ,…, hi m ¿(hi 1
hi 2
⋮h¿
)=∑j=1
n
hij2
¿hij2 +∑
j ≠1
hij2 (9.21)
Dengan Membagi kedua sisi pada persamaan (9.21) oleh hii
[ yang positif karena hii ≥( 1n )], kita memperoleh
1=hii+∑j ≠1
hij2
hii
(9.2)
yang berarti hii ≤1.
(ii). Pada buku (Chatterjee dan Hadi 1988, hal. 18.) Kita dapat menuliskan persamaan
(9.21) dalam bentuk
hii=h ii2+h ij
2+∑r ≠ij
h ir2
Atau
hii−h ii2=hij
2+∑r ≠ij
hir2
Dengan demikian,hij2 ≤h ii−hii
2, dan karena nilai maksimum hii−h ii2adalah
14
, kita
memiliki hij2 ≤
14
untuk j ≠ i.
(iii). ini berikut dari persamaan (9,20), lihat Soal 9.2b.
(iv). Lihat 9.2c Masalah.
Berdasarkan Teorema 9.2 (iv), kita melihat bahwa dengan meningkatnya nilain, nilai-nilai
hii akan cenderung menurun. Fungsi (x1 i−x1)’ ( X c ' X c)−1 (x1 i−x1) dalam Teorema 9.2 (iii)
adalah jarak standar. Jarak standar (Mahalanobis distance) didefinisikan dalam (3.27)
adalah untuk matriks kovarians populasi. Matriks X c ' Xc sebanding dengan matriks
kovarians sampel [lihat (7.44)]. Dengan demikian, (x1 i−x1)’ ( X c ' X c)−1 (x1 i−x1) adalah
jarak yang diperkirakan standar dan memberikan ukuran yang baik dari jarak relatif x1 i
dari setiap titik pusat yang diwakili oleh x1.
Tugas Kelompok Mata Kuliah Pemodelan Statistika
REGRESI MULTIPEL : Residual dan Matriks Hat
IMAN AL FAJRI / H121 09 253
A F R I Y A N I / H111 09
JURUSAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS HASANUDDIN
MAKASSAR
2012