Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Analisis Regresi 1Pokok Bahasan :Diagnosa Model Melalui Pemeriksaan Sisaan dan Identifikasi Pengamatan Berpengaruh
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
SisaanSisaan adalah menyimpangnya nilai amatan yiterhadap dugaan nilai harapannya
Sisaan untuk suatu amatan ke-i:Sisaan baku
iiy xbb]x|[Y E ]x|[Y E 10ii iii yye
s
es
yyr iyy
iiiii
ˆ
ˆ Bisa digunakan untuk memeriksa kebenaran menyebar N(0,1) i
Kurang tepat sebab ragam (ei) = s2 (1-hii)
2
21 , )1( xx
xxnhhser
k
iii
iiii
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Informasi-informasi yang Didapat Melalui Sisaan Bisa melihat pola sebaran peubah acak Y Melalui sisaan, kita dapat mengetahui apakah asumsi-asumsi yang disyaratkan pada pendugaan dengan MKT dipenuhi atau tidak Melalui sisaan, kita juga dapat menguji parameter regresi, sehingga kita perlu mengetahui sebaran sisaan Melalui sisaan, kita juga bisa melihat apakah model yang kita pilih pas atau tidak Melalui sisaan, kita juga bisa melihat apakah sebuah pengamatan merupakan pencilan atau bukan Melalui sisaan, kita juga bisa melihat apakah sebuah pengamatan merupakan pengamatan berpengaruh atau bukan
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Contoh: menghitung sisaan
i 1 2 3 4 5 6 7 8 9 10 11 12 13Y 10.98 11.13 12.51 8.4 9.27 8.73 6.36 8.5 7.82 9.14 8.24 12.19 11.88X1 20 20 23 20 21 22 11 23 21 20 20 21 21
i 14 15 16 17 18 19 20 21 22 23 24 25Y 9.57 10.94 9.58 10 8.11 6.83 8.88 7.7 8.47 8.86 10.4 11.08X1 19 23 20 22 22 11 23 20 21 20 20 22
Berikut adalah 1 set (25 pengamatan) data berpasangan x1i dan yiyang didapat dari sebuah percobaan. Dari data ini ingin diketahui model matematika hubungan antara x1 dan Y.
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Contoh: menghitung sisaan
εxββY 10
X1
Y
2422201816141210
131211109876
Scatterplot of Y vs X1 Dari tebaran x1 terhadap Y digunakan persamaan garis regresi linier sederhana ordo satu :Dengan Minitab didapatkan dugaan persamaannya : = 3.56 + 0.290 X1Untuk setiap amatan dihitung nilai dugaannya, kemudian hitung sisaannya
(lanjutan)
Y
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Contoh: menghitung sisaan
i 1 2 3 4 5 6 7 8 9 10 11 12 13y 10.98 11.13 12.51 8.40 9.27 8.73 6.36 8.50 7.82 9.14 8.24 12.19 11.88y_duga 9.35 9.35 10.22 9.35 9.64 9.93 6.75 10.22 9.64 9.35 9.35 9.64 9.64sisaan 1.63 1.78 2.29 -0.95 -0.37 -1.20 -0.39 -1.72 -1.82 -0.21 -1.11 2.55 2.24
i 14 15 16 17 18 19 20 21 22 23 24 25y 9.57 10.94 9.58 10.09 8.11 6.83 8.88 7.68 8.47 8.86 10.36 11.08y_duga 9.06 10.22 9.35 9.93 9.93 6.75 10.22 9.35 9.64 9.35 9.35 9.93sisaan 0.51 0.72 0.23 0.16 -1.82 0.08 -1.34 -1.67 -1.17 -0.49 1.01 1.15
(lanjutan)
Y duga = 3.56 + 0.290 X1 sisaan ke i = amatan ke-i – dugaan pd titik x ke-i
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Plot Sisaan untuk:Melihat Ketidakpasan Model
Plot sisaan terhadap y_duga masih berpola (kuadratik) Sisaan masih mengandung komponen kuadratik Model belum pas model harus ditambah dg komponen kuadratik
y_duga
sisaan
200150100500
403020100
-10-20-30-40
Plot sisaan vs y_duga
Plot SISAAN vs Y duga
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Plot Sisaan untuk :Pemeriksaan Asumsi MKT
y_duga
sisaa
n
10.510.09.59.08.58.07.57.0
3
2
1
0
-1
-2
Plot Sisaan vs y_duga
terpenuhi ji ,0][ 3. penuhi tidak ter ]E[ 2.
terpenuhi 0][ .122
i
ji
i
E
E
Kondisi Gauss-Markov
Pada tebaran sisaan terhadap nilai dugaan Y dapat dilihat :- Sisaan di sekitar nilai nol / tidak nilai harapan
- Lebar pita sisaan sama atau tidakuntuk semua nilai dugaan kehomogenan ragam
- Tebaran berpola atau tidak ketidakpasan model sisaan bebas atau tidak
Plot SISAAN vs Y duga
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Pola tebaran sisaan yang tidak memenuhi asumsi MKT:Ragam tidak homogen (perlu analisis kua-
drat terkecil terboboti; atau transformasi thdp Y)
Penyimpangan terhadap persamaan regresi bersifat sistematis; atau karena tdk disertakannya kedalam model
Model tidak pas (perlu suku-suku lain dalam model atau transformasi thdp Y)
Pola tebaran sisaan memenuhi asumsi MKT: berpusat di NOL, lebar pita sama, tidak berpola
Pola Tebaran Sisaan terhadap
0
iY
0
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Transformasi untuk :Menghomogenkan RagamTransformasi terhadap peubah respon Y
YY*1b Yln Y*2b
Y1Y* 3 b
Y1 Y* 4b jika : Anggap 2
ba Setelah respon Y ditransformasi, lakukan analisis regresi seperti biasa, sisaan harus diperiksa lagi, jika masih belum memenuhi asumsi, model diubah, kemungkinan ada suku nonlinier yg belum masuk model, atau lakukan pendugaan dg MKT terboboti.
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Contoh Transformasi untuk Menghomogenkan Ragam
Fitted Value
Resid
ual
252015105
10
5
0
-5
-10
Residuals Versus the Fitted Values(response is Y)
Fitted Value
Resid
ual
5,04,54,03,53,02,5
1,0
0,5
0,0
-0,5
-1,0
-1,5
Residuals Versus the Fitted Values(response is akar Y)
Plot Sisaan vs Y duga “data asli” Plot Sisaan vs “data transformasi Y*= “YY
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Plot Sisaan untuk:Pemeriksaan Bentuk Sebaran
S is a a n
Frekue
nsi
3210- 1- 2- 3
4
3
2
1
0
N o r m a l H i s to g r a m S i s a a n
Tebaran sisaan dan histogram di samping untuk melihat :BENTUK SEBARAN SISAAN, simetri atau tidak
HASIL DIAGNOSA : Sebaran sisaan agak menjulur ke kanan
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Plot Sisaan untuk:Pemeriksaan Sebaran Normal
Sisaan
Peluan
g norm
al
543210-1-2-3-4
99
959080706050403020105
1
Normal - 95% CIProbability Plot of Sisaan Plot sisaan terhadap peluang Normal untuk :
Mencocokkan apakah sebaran sisaan merupakan sebaran Normal atau tidak. Ya jika pola tebaran membentuk garis lurusHasil Diagnosa :Titik2 masih di dalam selang 95% bisa dianggap lurus menyebar Normal
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Plot Sisaan untuk:Pemeriksaan Kebebasan SisaanPlot sisaan terhadap urutan untuk :Memeriksa apakah sisaan bebas satu dengan lainnya atau tidak. Bebas jika tdk membentuk pola.Hasil Diagnosa :Tebaran tidak membentuk pola Sisaan saling bebasurutan
RESI1
121086420
2
1
0
-1
-2
Scatterplot of RESI1 vs urutan
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Pola tebaran sisaan yang menginformasikan bahwa pengaruh waktu belum diperhitungkanRagam tidak homogen (perlu analisis kuadrat
terkecil terboboti)Suatu suku linier dalam waktu harus
ditambahkan ke dalam modelSuku linier dan kuadratik dalam waktu perlu
ditambahkan ke dalam model
Pengaruh waktu jangka panjang tidak mempengaruhi data.
Pola Tebaran Sisaan terhadap Urutan Waktu
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Plot Sisaan untuk:Pemeriksaan Pengaruh WaktuPlot sisaan terhadap urutan waktu yg jaraknya sama.Perhatikan : lebar pita sama/tidak berpola/tidakHasil Diagnosa :• Lebar pita sama homogen• Tebaran tidak membentuk pola tidak perlu ditambahkan penga-ruh waktu ke dalam modelurutan
RESI1
121086420
2
1
0
-1
-2
Scatterplot of RESI1 vs urutan
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Sisaan Terstandardkan(Sisaan Baku)
se
syyr iyy
iiiii
ˆ
ˆ Bisa digunakan untuk memeriksa kebenaran menyebar N(0,1) i
ragam(ei)= s2, kurang tepat ragam(ei) = s2 (1- hii)
2
21 , )1( xx
xxnhhser
k
iii
iiii
SISAAN BAKU :
ei = sisaan amatan ke-in = banyaknya pengamatans2 = dugaan bagi ragam Yi KTsisaanhii = unsur diagonal ke-i matriks H = X(X’X)-1X’
Pd sebaran Normal Baku peluang nilai riterletak antara -1,96 s.d 1,96 adalah 95%. | ri|>2 patut dicurigaiSisaan akan memiliki ragam yg relatif besar jika xi di sekitar x
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Sisaan Terstandarkan (Sisaan Baku)(lanjutan)
Fitted Value
Resid
ual
2,82,62,42,22,01,81,61,41,21,0
1,0
0,5
0,0
-0,5
-1,0
Residuals Versus the Fitted Values(response is ln(y))
FITS1
SRES1
2,82,62,42,22,01,81,61,41,21,0
2
1
0
-1
-2
-3
-4
Scatterplot of SRES1 vs FITS1
Plot Sisaan ei vs Dugaan Y Plot Sisaan Baku ri vs Dugaan Y
Pola tebaran plot sisaan ei dan ri tidak berbeda. pemeriksaan sisaan dg pola tebaran, keduanya dapat digunakan
NILAINYA BERBEDA, untuk uji statistik gunakan ri
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Nilai PRESSPRESS = Prediction Sum of Squares, adalah prosedur yang merupakan kombinasi dari: semua kemung-kinan regresi, analisis sisaan, dan teknik validasi.
2i,-i
2,
e ˆPRESS
iii yy 22 PRESS1R yyi
PRED
yi : nilai respon pada x=xi (data lengkap): nilai ramalan y pd x=xi yg diramal melalui dugaan persamaan regresi dari data tanpa amatan ke-i
Model baik jika memiliki PRESS yg kecil
iiy ,ˆ
2
1 1
n
i iiih
e=
R2pred adalah statistik uji la-innya yg berhub dg PRESS. Model valid jika R2pred besar.
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Nilai PRESS(lanjutan)PROSEDUR PRESS
Mis. p adalah banyaknya parameter dalam suatu pers regresi, n adalah banyaknya amatan
pyy 11 ˆnpnpp yyyyyy ˆ ..., ,ˆ ,ˆ 3322
21
ˆ n
iipi yyPRESS
Langkah-langkahnya:1. Sisihkan amatan ke-1, amatan ke-1 tidak digunakan, data tinggal n-1.2. Dugalah semua ”kemungkinan model regresi” thdp n-1 data tersebut. (jika
p=1 banyaknya ”kemungkinan model” hanya 1)3. Ramal y1 dengan model yang didapat pd no.2. (lakukan untuk semua
kemungkinan model hanya 1 jika p=1)4. Hitung perbedaan y1 yg disisihkan tadi dengan hasil no.3. 5. Ulangi langkah 1-4 dengan menyisihkan amatan ke-2, ke-3,...., ke-n.
Didapat6. Untuk setiap model regresi yang mungkin hitung :7. Pilih model yang relatif memiliki nilai PRESS terkecil, dan melibatkan
peubah penjelas sedikit.
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Nilai PRESS (lanjutan)
Y X Dugaan Garis Regresiramalan Yi tnp amatan
ke-i ei,-i e i,-ikuadrat7,46 10 Y tnp 1 = 3,01 + 0,505 X tnp 1 8,06 -0,6 0,366,77 8 Y tnp 2 = 3,05 + 0,497 X tnp 2 7,026 -0,256 0,06553
12,74 13 Y tnp 3 = 4,01 + 0,345 X tnp 3 8,495 4,245 18,020037,11 9 Y tnp 4 = 3,04 + 0,500 X tnp 4 7,54 -0,43 0,184907,81 11 Y tnp 5 = 2,95 + 0,514 X tnp 5 8,604 -0,794 0,630438,84 14 Y tnp 6 = 2,46 + 0,577 X tnp 6 10,538 -1,698 2,883206,08 6 Y tnp 7 = 2,97 + 0,502 X tnp 7 5,982 0,098 0,009605,39 4 Y tnp 8 = 2,72 + 0,526 X tnp 8 4,824 0,566 0,320358,15 12 Y tnp 9 = 2,84 + 0,528 X tnp 9 9,176 -1,026 1,052676,42 7 Y tnp 10 = 3,03 + 0,498 X tnp10 6,516 -0,096 0,009215,73 5 Y tnp 11 = 2,88 + 0,511 X tnp11 5,435 0,295 0,08703
Total = PRESS = 23,6229
Contoh Proses PRESS, untuk n=11 dan p=1
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Output Minitab untuk data contoh tsb
Nilai PRESS(lanjutan)
The regression equation isY = 3,00 + 0,500 XPredictor Coef SE Coef T PConstant 3,002 1,124 2,67 0,026X 0,4997 0,1179 4,24 0,002S = 1,23631 R-Sq = 66,6% R-Sq(adj) = 62,9%PRESS = 23,6210 R-Sq(pred) = 42,70%Analysis of VarianceSource DF SS MS F PRegression 1 27,470 27,470 17,97 0,002Residual Error 9 13,756 1,528Total 10 41,226
• Hasil PRESS melalui proses= hasil Minitab
• Untuk p=1 hanya ada 1 model• Amatan ke-3 memberikan
simpangan ramalan terbesar • Amatan ke-3 dapat dipandang
sebagai amatan berpengaruh• Dugaan parameter regresi
tanpa amatan ke-3 sangatberbeda dg lainnya dugaanyg ini relatif yg benar/baik
Keluarkan amatan ke-3 dari analisis. Cek nilai PRESS-nya. Cek nilai R2nya
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
The regression equation isY tnp 3 = 4,01 + 0,345 X tnp 3Predictor Coef SE Coef T PConstant 4,00619 0,00221 1811,78 0,000X tnp 3 0,345334 0,000237 1454,74 0,000S = 0,00308655 R-Sq = 100,0PRESS = 0,000174853 R-Sq(pred) = 100,00%Analysis of VarianceSource DF SS MS F PRegression 1 20,161 20,161 2116264,34 0,000Residual Error 15 0,000 0,000Total 16 20,161
Output Minitab data lengkap Output Minitab data tanpa amatan ke-3The regression equation isY = 3,00 + 0,500 XPredictor Coef SE Coef T PConstant 3,002 1,124 2,67 0,026X 0,4997 0,1179 4,24 0,002S = 1,23631 R-Sq = 66,6%PRESS = 23,6210 R-Sq(pred) = 42,70%Analysis of VarianceSource DF SS MS F PRegression 1 27,470 27,470 17,97 0,002Residual Error 9 13,756 1,528Total 10 41,226
Nilai PRESS (lanjutan)
Menyisihkan amatan ke-3 mempengaruhi dugaan parameter, menurunkan nilai PRESSDari sisi model, “persamaan tanpa amatan ke-3” yg terbaik. R-Sq(pred)=100,00% model sangat valid kesalahan memprediksi=0
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
X
Y
15,012,510,07,55,0
13121110987654
Fitted Line PlotY = 3,002 + 0,4997 X
X tnp 3
Y tnp
3
15,012,510,07,55,0
9
8
7
6
5
Fitted Line PlotY tnp 3 = 4,006 + 0,3453 X tnp 3
Nilai PRESS (lanjutan)
Dugaan garis regresi dg data lengkapPRESS = 23,6210 R-Sq(pred) = 42,70%
Dugaan garis regresi tanpa amatan ke-3PRESS = 0,000174853 R-Sq(pred) = 100,0%
Semakin kecil nilai PRESS-nya model semakin valid semakin baik untuk meramalSetiap 1 model regresi thdp 1 set data memiliki 1 nilai PRESS