analisa data statistik- chap 14

25
Analisa Data Statistik Chap 14: Regresi Linear Jamak (Multiple Linear Regression) Agoes Soehianie, Ph.D

Upload: jegosss

Post on 16-Jan-2016

237 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Analisa Data Statistik- Chap 14

Analisa Data StatistikChap 14: Regresi Linear Jamak

(Multiple Linear Regression)

Agoes Soehianie, Ph.D

Page 2: Analisa Data Statistik- Chap 14

LATAR BELAKANG

Sering kali ada lebih dari 1 variabel independen (Xk) yang menentukan variabel dependen (Y). Sehingga model Regresi Jamak (Multiple Regression Model) diperlukan. Jikalau hubungan antara Y dan Xk linear maka model disebut Model Regresi Linear Jamak (Multiple Linear Regression Model).

Untuk populasi model tsb, berarti nilai rata-rata Y akan diberikan oleh

Y = β0 + β1X1 + β2X2 + ….+ βkXk

Dan estimasi bagi Y yang diperoleh dari sampel adalah:

kk xbxbxbby 22110ˆ

Page 3: Analisa Data Statistik- Chap 14

MENGHITUNG KOEFISIEN

Misalkan dari sampel diperoleh data {Yi, X1i, X2i, …, Xki} untuk i=1,n maka model regresi linear jamaknya adalah:

Dengan ei adalah random error.

Memakai cara yg sama dengan regresi linear, didefinisikan SSE:

Dengan diferensiasi thd b0, b1, dst hasilnya = 0, maka diperoleh satu set sistem persamaan linear bari b0,b1, ….

ikikiii xbxbxbby 22110ˆ

n

ikikiii

n

iii xbxbxbbyyySSE

1

222110

1

2 )()ˆ(

Page 4: Analisa Data Statistik- Chap 14

Persamaan Bagi Koefisien

n

iki

n

ii

n

i

k

n

ki

n

iki

n

iki

n

ki

n

kii

n

ii

n

i

n

i

n

ki

n

i

n

i

n

yx

yx

y

b

b

b

b

xxxxxx

xxxxxx

xxx

11

111

11

2

1

0

11

2

112

111

11

111

1121

11

21

111

11112

111

11

.......

1

Sistem Persamaan Linear ini diselesaikan dengan metoda yg dikenal, misalnya Eliminasi-Gauss atau Gauss-Jordan, Dekomposisi LU dll

Page 5: Analisa Data Statistik- Chap 14

Contoh

Sebuah studi tentang emisi NOx dari sebuah truk dilakukan untuk melihat pengaru dari kelembaban, suhu, dan tekanan udara mempengaruhi emisi NOx. Model yg ingin dites adalah:

Dengan Y adalah kadar (ppm) dari NOx yg diemisi truk, X1 : kelembaban, X2 : suhu dan X3 : tekanan udara saat percobaan.

Y = β0 + β1X1 + β2X2 + β3X3

  NOX(ppm) Kelembaban(%) Suhu(F) Tekanan (Psi)

No Y X1 X2 X3

1 0.9 72.4 76.3 29.18

2 0.96 34.3 77.1 29.24

3 1 10.7 79 29.78

4 1.1 12.9 67.4 29.39

5 1.15 8.3 66.8 29.69

6 1.03 20.1 76.9 29.48

7 1.1 31.5 76.9 29.63

8 0.78 96.6 78.7 29.29

9 0.82 107.4 86.8 29.03

10 0.95 54.9 70.9 29.37

Sum 9.79 449.1 756.8 294.08

Average 0.979 44.91 75.68 29.408

Page 6: Analisa Data Statistik- Chap 14

Matrix SPL bagi Koefisien

Y = β0 + β1X1 + β2X2 + β3X3

10

113

10

112

10

111

10

11

3

2

1

0

10

11

23

10

1123

10

1113

10

113

3

1131

10

1121

10

11

21

10

111

10

113

10

112

10

111

10

11

1

ii

ii

ii

i

iiiiii

iiiiii

iii

yx

yx

yx

y

b

b

b

b

xxxxxx

xxxxxx

xxx

Page 7: Analisa Data Statistik- Chap 14

Tabel Perhitungan Manual

X1*X2 X1*X3 X2*X3 X12 X2

2 X32 X1Y X2Y X3Y

5524.12 2112.632 2226.434 5241.76 5821.69 851.4724 65.16 68.67 26.262

2644.53 1002.932 2254.404 1176.49 5944.41 854.9776 32.928 74.016 28.0704

845.3 318.646 2352.62 114.49 6241 886.8484 10.7 79 29.78

869.46 379.131 1980.886 166.41 4542.76 863.7721 14.19 74.14 32.329

554.44 246.427 1983.292 68.89 4462.24 881.4961 9.545 76.82 34.1435

1545.69 592.548 2267.012 404.01 5913.61 869.0704 20.703 79.207 30.3644

2422.35 933.345 2278.547 992.25 5913.61 877.9369 34.65 84.59 32.593

7602.42 2829.414 2305.123 9331.56 6193.69 857.9041 75.348 61.386 22.8462

9322.32 3117.822 2519.804 11534.76 7534.24 842.7409 88.068 71.176 23.8046

3892.41 1612.413 2082.333 3014.01 5026.81 862.5969 52.155 67.355 27.9015

35223.04 13145.31 22250.455 32044.63 57594.06 8648.816 403.447 736.36 288.0946

3522.304 1314.531 2225.0455 3204.463 5759.406 864.8816 40.3447 73.636 28.80946

ΣMean

Page 8: Analisa Data Statistik- Chap 14

Matrix SPL dan SOlusi

10 449.1 756.8 294.08 b0 9.79

449.1 32044.63 35223.04 13145.31 b1 403.447

756.8 35223.04 57594.06 22250.46 b2 736.36

294.08 13145.31 22250.46 8648.816 b3

288.0946

=

Mb = N

Salah satu cara solusi : b =M-1 N

4668.8026 -0.8684 0.3836 -158.4172-0.8684 0.0003 -0.0007 0.03080.3836 -0.0007 0.0054 -0.0258

-158.4172 0.0308 -0.0258 5.4061

b0 0.545504b1 -0.002458b2 -0.004224b3 0.029364

M-1 Y = 0.5455 -0.0025X1 – 0.0042X2 + 0.0293X3

Page 9: Analisa Data Statistik- Chap 14

Perluasan : Regresi Polinomial

Model multiple regresi linear juga bisa langsung diterapkan untuk model regresi polinomial:

Y = b0 + b1x + b2x2+b3x3 + ….+ bnxn

Dengan analogi : x = x1 x2=x2 x3 = x3 …. Xn = xn dengan

Substitusi ini semua rumus yang dipakai untuk menghitung koefisien b0, b1 dst bisa dipergunakan dengan penyesuaian seperlunya.

Soal.

Diberikan data berikut X 0 1 2 3 4 5 6 7 8

Y 9.1 7.3 3.2 4.6 4.8 2.9 5.7 7.1 8.8

Buatlah kurva regresi Y thd X jika Y = b0+b1X + b2X2 + b3X3

Page 10: Analisa Data Statistik- Chap 14

Hipotesa yg ingin diperiksa adalah :

H0 : β1= β2= β3= β4=… 0 berarti Y tidak bergantung semua Xk

H1 : Paling tidak ada 1 nilai βk ≠ 0

Untuk memeriksa kebenaran hipotesa ini bisa digunakan F-test, dengan nilai F:

Dengan v1=k dan v2=n-(k+1) dan test 1 ekor bagian atas. Jadi H0 ditolak Jika F > Fkritis

ANOVA UNTUK REGRESI JAMAK LINEAR

MSE

MSRF

SUmber Variasi

Sum Squares

Derajat Kebebasan

Mean Square F

Regresi SSR k MSR= SSR/k MSR/MSE

Error SSE n-(k+1) MSE=SSE/

{n-(k+1)}

TOTAL SST n-1

Page 11: Analisa Data Statistik- Chap 14

ANOVA: Sumber-sumber Variansi

2)ˆ( n

ii yySSR

2)ˆ( n

iii yySSE

2)( n

iii yySSTotal

SUmber Variansi

0

50

100

150

200

250

300

350

400

450

0 2 4 6 8 10 12 14 16

X

Y

X : mean (X,Y)

SSE

SSR

SSTot

Page 12: Analisa Data Statistik- Chap 14

TESTING INVIDUAL KOEFISIEN

Untuk masing-masing koefisien, dapat dilakukan test hipotesa

H0 : βk = 0

H1 : βk ≠ 0

Dengan mempergunakan variabel test:

Variabel t ini terdistribusi menurut student-t dengan derajat kebebasan v=n-(k+1). Dengan Sbk adalah standard error dari koefisien bk. Perhitungan Sbk secara manual rumit, melibatkan elemen diagonal dari matrix variansi-kovariansi. (Lihat Text Book)

bk

k

S

bt

0

Page 13: Analisa Data Statistik- Chap 14

INTERVAL BAGI KOEFISIEN

Interval kepercayaan 100(1-α)% bagi koefisien βk adalah:

Variabel t ini terdistribusi menurut student-t dengan derajat kebebasan v=n-(k+1).

bkkbkk StbStb 2/2/

Page 14: Analisa Data Statistik- Chap 14

Contoh.

  X1 X2 X3 Y Prediksi    

No Temp Insul Age Cost Y' (Y-Y' ) 2 (Y-Ym)2 (Y' - Ym)2

1 35 3 6 250 258.9 79.46 2002.56 2879.85

2 29 4 10 360 296.0 4098.12 23947.56 8232.56

3 36 7 3 165 176.7 137.01 1620.06 814.82

4 60 6 9 43 118.2 5648.75 26325.06 7584.99

5 65 5 6 92 91.8 0.05 12825.56 12877.12

6 30 5 5 200 246.1 2121.96 27.56 1665.85

7 10 6 7 355 335.1 396.44 22425.06 16858.22

8 7 10 10 290 307.8 317.44 7182.56 10519.96

9 21 9 11 230 264.6 1196.57 612.56 3521.41

10 55 2 5 120 176.0 3134.97 7267.56 856.10

11 54 12 4 73 26.2 2193.63 17490.06 32071.87

12 48 5 1 205 139.2 4333.23 0.06 4366.21

13 20 5 15 400 352.9 2218.25 37927.56 21801.03

14 39 4 7 320 231.9 7769.76 13167.56 707.76

15 60 8 6 72 70.2 3.26 17755.56 18240.30

16 20 5 8 272 310.2 1458.82 4455.56 11013.35

17 58 7 3 94 75.9 328.10 12376.56 16734.93

18 40 8 11 190 192.4 5.53 232.56 166.36

19 27 9 8 235 218.8 262.69 885.06 183.40

20 30 7 5 139 216.4 5991.23 4389.06 124.39

Sum 744 127 140 4105 4105 41695 212916 171220

Mean 37.2 6.35 7 205.25 205.25 41616 210913 168341

Y’: Y Prediksi

Ym: Y mean

Page 15: Analisa Data Statistik- Chap 14

Hipotesa Testing (Global)

Hipotesa yg ingin diperiksa adalah :H0 : β1= β2= β3=0 berarti Y tidak bergantung semua XkH1 : Paling tidak ada 1 nilai βk ≠ 0

Untuk memeriksa kebenaran hipotesa ini bisa digunakan F-test, dengan nilai F:

n-1SSTotTOTAL

MSE=SSE/

{n-(k+1)}

n-(k+1)SSEError

MSR/MSEMSR= SSR/kkSSRRegresi

FMean SquareDerajatKebebasan

Sum Squares

SUmberVariasi

n-1SSTotTOTAL

MSE=SSE/

{n-(k+1)}

n-(k+1)SSEError

MSR/MSEMSR= SSR/kkSSRRegresi

FMean SquareDerajatKebebasan

Sum Squares

SUmberVariasi

Dengan jumlah data n=20 dan jumlah variabel independen k=3

Page 16: Analisa Data Statistik- Chap 14

Contoh.

Dilakukan multiple regresi linear:

Y = b0 + b1X1+ b2X2+ b3X3

Hasilnya adalah:

b0

b1

b2

b3

Intercept 427.194Temp -4.583Insul -14.831Age 6.101

Persamaan Regresinya:

Yprediksi= Y = 427.19 – 4.583X1 -14.831X2+ 6.101X3

Dari model ini kemudian bisa dihitung: SStot=SSE+SSR

2)ˆ( n

ii yySSR2)ˆ(

n

iii yySSE2)(

n

iii yySSTotal

Page 17: Analisa Data Statistik- Chap 14

Contoh.

Dari tabel diperoleh:

SSE = 41 695 SSR = 171 200 SSTot = 212 916

Banyak data n=20, banyak variabel bebas k=3

SUmber Variasi

Sum Squares

Derajat Kebebasan

Mean Square F

Regresi SSR k MSR= SSR/k MSR/MSE

Error SSE n-(k+1) MSE=SSE/

{n-(k+1)}

TOTAL SSTot n-1

SUmber Variasi

Sum Squares

Derajat Kebebasan

Mean Square F

Regresi 171 200 3 57 073.5 21.9

Error 41 695 20-(3+1) 2606.0

TOTAL 212 916 19

Page 18: Analisa Data Statistik- Chap 14

Contoh.

Dari tabel F untuk v1=3 danv2=16, dan tingkat signifikan α=0.05

Diperoleh nilai kritis F adalah F(3,16) = 3.24. Hasil perhitungan menunjukkan F=21.9. Karena 21.9 > 3.24 maka H0 ditolak, sehingga tidak benar kalau dikatakan bahwa X1, X2 dan X3 seluruhnya tidak menentukan nilai Y.

Page 19: Analisa Data Statistik- Chap 14

Line Fit

Insul Line Fit Plot

0

100

200

300

400

500

0 5 10 15

Insul

Co

st Cost

Predicted Cost

Age Line Fit Plot

0

100

200

300

400

500

0 10 20

Age

Co

st Cost

Predicted Cost

Temp Line Fit Plot

0

100

200

300

400

500

0 50 100

Temp

Co

st Cost

Predicted Cost

Page 20: Analisa Data Statistik- Chap 14

Koefisien Korelasi Jamak dan Determinasi Jamak

Koefisien Determinasi Jamak (Multiple Determination) R2 adalah total variasi data Y yang bisa dijelaskan oleh model regresi, yaitu:

Yaitu variansi karena regresi dibagi variasi total.

Sedangkan

R : koefisien korelasi jamak =

Selain itu juga didefinisikan Adjusted R2

R2 selalu bertambah dengan penambahan variabel independen. R2adj

memperhitungkan pengaruh ini, sehingga akan “menghukum” overfitted model.

SStotal

SSRR 2

SStotal

SSRR

)1/(

)1/(12

nSST

knSSERadj

Page 21: Analisa Data Statistik- Chap 14

Dari tabel diperoleh:

SSE = 41 695 SSR = 171 200 SSTot = 212 916

Banyak data n=20, banyak variabel bebas k=3

Selain itu juga didefinisikan Adjusted R2

Koefisien adjusted R2 baru berarti bilamana dalam pembentukan model ingin diketahui apakah penambahan variabel independen baru memang memperbaiki model atau tidak.

804.0212916

1712002 SStot

SSRR

767.0)120/(212916

)1320/(416951

)1/(

)1/(12

nSST

knSSERadj

897.0804.0 R

Koefisien Korelasi Jamak dan Determinasi Jamak

Page 22: Analisa Data Statistik- Chap 14

Hasil Output Excell

SUMMARY OUTPUT

Regression StatisticsMultiple R 0.897R Square 0.804Adjusted R Square0.767Standard Error 51.049Observations 20

ANOVAdf SS MS F Significance F

SSR Regression 3 171220.5 57073.5 21.9 0.00001SSE Residual 16 41695.3 2606.0Sstot Total 19 212915.8

Coefficients

Standard Error t Stat P-value Lower 95% Upper 95%

Intercept 427.194 59.601 7.168 0.000 300.844 553.543Temp -4.583 0.772 -5.934 0.000 -6.220 -2.945Insul -14.831 4.754 -3.119 0.007 -24.910 -4.752Age 6.101 4.012 1.521 0.148 -2.404 14.606

Page 23: Analisa Data Statistik- Chap 14

TESTING INVIDUAL KOEFISIEN

Untuk masing-masing koefisien, dapat dilakukan test hipotesa

H0 : β1 = 0 H0 : β2 = 0 H0 : β3 = 0

H1 : β1 ≠ 0 H1 : β2 ≠ 0 H1 : β3 ≠ 0

Dari output Excell Sb1 = standard error b1 = 0.772, maka t1

Hasil ini bisa dilihat juga di output Excell tsb (kolom tstat), demikian juga untuk t2 =-3.119 dan t3 = 1.521.

Dari Output Excell hal itu bisa secara cepat dilihat pada nilai P-value yang menyatakan luas daerah sebelah kanan nilai t-hitung

bk

k

S

bt

0

934.5772.0

583.40

1

11

bS

bt

Page 24: Analisa Data Statistik- Chap 14

TESTING INVIDUAL KOEFISIEN

Test ini adalah test 2 ekor dengan derajat kebebasan v=n-(k+1) = 20-(3+1)=16. Untuk tingkat signifikan α = 0.05 maka t0.025 (v=16) = 2.120 (dari tabel).

Berarti H0 di tolak jika thitung < -2.12 atau thitung > 2.12.

Berarti dari

t1 = -5.93 t2 =-3.119 dan t3 = 1.521,

H0 ditolak untuk t1, t2 dan diterima untuk t3. Berarti variabel X1 (temp) dan X2(insulasi) memiliki pengaruh signifikan pada biaya Y (cost), sedangkan X3 (age) tidak berkontribusi secara signifikan thd Y(cost).

Page 25: Analisa Data Statistik- Chap 14

INTERVAL BAGI KOEFISIEN

Interval bagi koefisien βk untuk tingkat kepercayaan 95% dapat juga disusun. Nilai t0.025 =2.12 untuk v=20-(3+1)

bkkbkk StbStb 2/2/ b SbkCoefficie

ntsStandard

Error t0.025 Sbk*t0.025Batas Bawah

Batas Atas

Temp b1 -4.583 0.772 2.120 1.637 -6.220 -2.945Insul b2 -14.831 4.754 2.120 10.079 -24.910 -4.752Age b3 6.101 4.012 2.120 8.506 -2.405 14.607

Hasil tsb juga dapat dilihat pada output Excell. Pada kolom lower95% dan Upper 95%. Terlihat memang interval 95% bagi koefisien Age membentang dari -2.405 hingga 14.607!