pemilihan model regresi terbaik

1

UJIAN AKHIR SEMESTER

PEMILIHAN MODEL REGRESI TERBAIK DENGAN MENGGUNAKAN:

Regresi Bertatar (Stepwise Regression)

Pendekatan Langkah Mundur (Backward Elimination) APRE (All Posible Regression Evaluation)

PENGAJAR: TOTO WARSA, IR., MS.

Oleh

Ade Setiawan 1502 2006 0003

ILMU TANAH PERTANIAN PROGRAM PASCASARJANA

UNIVERSITAS PADJADJARAN UNPAD 2007

2

DATA A sociologist investigating the recent upward shift in homicide trends throughout the United States studied the extent to wich the homicide rate per 100.000 population (Y) is associated with population size (X1), the percent of families with yearly incomes less than $5,000, and the rate of unemployment (X3). Data are provided in the table for a hypotetical sampel of 20 cities.

City X1 X2 X3 Y1 587 16.5 6.2 11.22 643 20.5 6.4 13.43 635 26.3 9.3 40.74 692 16.5 5.3 5.35 1248 19.2 7.3 24.86 643 16.5 5.9 12.77 1964 20.2 6.4 20.98 1531 21.3 7.6 35.79 713 17.2 4.9 8.7

10 749 14.3 6.4 9.611 7895 18.1 6.0 14.512 762 23.1 7.4 26.913 2793 19.1 5.8 15.714 741 24.7 8.6 36.215 625 18.6 6.5 18.116 854 24.9 8.3 28.917 716 17.9 6.7 14.918 921 22.4 8.6 25.819 595 20.2 8.4 21.720 3353 16.9 6.7 25.7

SOAL: Carilah model regresi terbaik antara Y, X1, X2, X3 pada taraf uji 5% dan 10% dengan menggunakan step: a. Regresi Bertatar b. Pendekatan Langkah Mundur c. APRE (All Posible Regression Evaluation)

3

Jawaban:

A. Regresi Bertatar (Stepwise Regression)

Langkah 1. Matriks Korelasi X1 X2 X3 Y

X1 1 X2 -0.16378 1 X3 -0.23341 0.815418 1 Y -0.0671 0.839778 0.864841 1

Dari matriks di atas, variabel X3 paling tinggi nilai korelasinya dengan variabel respons Y, rx3y = 0.865. Dengan demikian, variabel X3 yang pertama dimasukkan ke dalam persamaan regresi.

Sumber Variasi Db JK RJK Fhit F.05 F.10 R2 Regresi (X3) 1 1387.59972 1387.59972 53.41 * 4.41 3.01 0.75

Residu 18 467.602282 25.98 Total 19 1855.202

Uji F secara keseluruhan untuk variabel X3 menunjukkan bahwa bahwa persamaan regresi ini nyata secara statistik dengan R2 = 0.75.

Langkah 2: Menghitung koefisien korelasi parsial orde ke-1 untuk memilih variabel selanjutnya (X1 dan X2)

( )( )[ ] 2122

313

3131

31

11

.

xxyx

xxyxyxxyx

rr

rrrr

−−

−=

( )( )

0.076202

0.276047)-0.23341(1)0.864841(1

))(-0.23341 0.864841(0671.0

2

22

31

31

=

=

−−

−=

xyx

xyx

r

r

( )( )

0.2144123

0.463047)0.815418(1)0.864841(1

))(0.815418 0.864841(0.839778

2

22

32

32

=

=

−−

−=

xyx

xyx

r

r

Dari perhitungan di atas, tampak bahwa koefisien korelasi parsial variabel X2 paling tinggi, sehingga variabel X2 dimasukkan ke dalam model.

4

Langkah 3 : Mengevaluasi model Y = ƒ(X3, X2) Analisis Varians Regresi Parsial

Sumber Ragam DB JK RJK F-hit F 0.05 F 0.10 R2 Regresi (X3, X2) 2 1487.859 743.9297 34.43 * 3.59 2.64 0.802 R(X2|X3) 1 100.2597 100.2597 4.64 * 4.45 3.03 R(X3|X2) 1 179.5199 179.5199 8.31 * 4.45 3.03 Residu 17 367.3426 21.60839 Total 19 1855.202 97.64221

Model Persamaan baru Y = f(X3, X2) Y = -34.0725 + 1.223931 X2 + 4.398936 X3, R2 = 0.802* Persamaan ini mempunyai R2 = 80.2% dan nyata. Terdapat peningkatan nilai koefisien determinan dari R2 = 75% menjadi R2 = 80,2% dengan dimasukkannya variabel X2 ke dalam model. Nilai F-parsial variabel X3 dan X2 juga nyata, sehingga kedua variabel tersebut harus dipertahankan. Langkah selanjutnya adalah memeriksa layak tidaknya variabel X1 dimasukkan ke dalam model.

Langkah 4. Menguji Variabel yang belum dimasukkan (Variabel X1)

Evaluasi model Persamaan baru Y = f(X3, X2, X1)

Analisis Varians Regresi Parsial

Sumber Ragam DB JK RJK F-hit F 0.05 F 0.10 R2 Regresi (X3, X2, X1) 3 1518.145 506.0483 24.02 * 3.24 2.46 0.8183 R(X1| X2, X3) 1 30.28554 30.28554 1.44 tn 4.49 3.05 R(X2| X1, X3) 1 94.91292 94.91292 4.51 * 4.49 3.05 R(X3| X1, X2) 1 200.3465 200.3465 9.51 * 4.49 3.05 Residu 16 337.0571 21.06607 Total 19 1855.202 97.64221

Dari ketiga nilai F-parsial, baik pada taraf nyata 5% maupun taraf nyata 10%, ternyata variabel X3 yang terkecil dan tidak signifikan, sehingga harus dikeluarkan dari persamaan. Dengan demikian, variabel yang terpilih adalah X2 dan X3 dan prosedur regresi bertahap selesai, dengan persamaan akhir:

Persamaan Y = f(X3, X2):

Y = -34.0725 + 1.223931 X2 + 4.398936 X3, R2 = 80.2%*

5

II. Metode Backward Elimination (BE)

Langkah 1 : Bentuk persamaan lengkap dan analisis varians tertera di bawah ini :

Evaluasi model Persamaan Y = f(X3, X2, X1)

321 7198213724192174211100076293707649252836ˆ X. X. X. . - Y +++= Analisis Varians Regresi Parsial

Sumber Ragam DB JK RJK F-hit F 0.05 F 0.10 R2 Regresi (X3, X2, X1) 3 1518.145 506.0483 24.02 * 3.24 2.46 0.8183 R(X1| X2, X3) 1 30.28554 30.28554 1.44 tn 4.49 3.05 R(X2| X1, X3) 1 94.91292 94.91292 4.51 * 4.49 3.05 R(X3| X1, X2) 1 200.3465 200.3465 9.51 * 4.49 3.05 Residu 16 337.0571 21.06607 Total 19 1855.202 97.64221

Dari tabel Analisis Varians F-Parsial, tampak bahwa Variabel X1 mempunyai Nilai F-parsial terkecil dan tidak nyata, sehingga harus dikeluarkan dari model.

Langkah 2. Mengevaluasi model tanpa menyertakan Variabel X3: Y = f(X2,X3)

Analisis Varians Regresi Parsial

Sumber Ragam DB JK RJK F-hit F 0.05 F 0.10 R2 Regresi (X3, X2) 2 1487.859 743.9297 34.43 * 3.59 2.64 0.802 R(X2|X3) 1 100.2597 100.2597 4.64 * 4.45 3.03 R(X3|X2) 1 179.5199 179.5199 8.31 * 4.45 3.03 Residu 17 367.3426 21.60839 Total 19 1855.202 97.64221

Model Persamaan baru Y = f(X3, X2): Y = -34.0725 + 1.223931 X2 + 4.398936 X3, R2 = 80.20% * Model persamaan ini nyata dengan Nilai F hitung keseluruhan 34.3* (nyata baik pada taraf 5% maupun pada taraf 10%) dengan nilai koefisien determinan, R2 = 80.2% dan nyata. Nilai F-parsial variabel X3 dan X2 juga nyata, sehingga kedua variabel tersebut harus dipertahankan. Karena tidak terdapat lagi variabel yang dikeluarkan dari Model, maka persamaan akhir Regresi dengan pendekatan langkah mundur adalah:

Y = -34.0725 + 1.223931 X2 + 4.398936 X3, R2 = 80.20% *

6

III. Metode All Posible Regression Evaluation (APRE) Model persamaan yang terbentuk sebanyak 23 = 8 model persamaan. Model-model persamaan tersebut adalah:

No Model Persamaan Jumlah Variabel

1 Y = β0 Tanpa Variabel Xi

2 Y = β0 + β1X1 1 Variabel Xi

3 Y = β0 + β1X2

4 Y = β0 + β1X3

5 Y = β0 + β1X1 + β2X2 2 Variabel Xi

6 Y = β0 + β1X1 + β2X3

7 Y = β0 + β1X2 + β2X3

8 Y = β0 + β1X1 + β2X2 + β3X3 3 Variabel Xi Dengan menggunakan bantuan Microsoft Excel, diperoleh:

No Model Persamaan 100.R2 % 1 Y = 20.57 2 Y = 20.57 - 0.067098 X1 0.45 % 3 Y = 20.57 + 0.839778 X2 70.52 % 4 Y = 20.57 + 0.864841 X3 74.80 % 5 Y = 20.57 + 0.072382 X1 + 0.851633 X2 71.03 % 6 Y = 20.57 + 0.142525 X1 + 0.898108 X3 76.72 % 7 Y = 20.57 + 0.401592 X2 + 0.537376 X3 80.20 % 8 Y = 20.57 + 0.131544 X1 + 0.391172 X2 + 0.576575 X3 81.83 %

Dari semua model tersebut, tampak bahwa sumbangan dari variabel X1 sangat kecil (No 2; 5; 6; 8, masing-masing hanya menambah 0.45%; 0.51%; 1.92%; dan 1.63%). Dengan demikian, meskipun persamaan No 8 (Y = 20.57 + 0.131544 X1 + 0.391172 X2 + 0.576575 X3) mempunyai nilai R2 tertinggi (81.83%), akan tetapi kenaikan nilai R2 hanya sebesar 1.92% dibandingkan dengan Model Persamaan No. 7, yang hanya menyertakan variabel X2 dan X3 saja (R2 80.20%). Dari Analisis tersebut, kita bisa menarik kesimpulan bahwa Model Persamaan No. 7 dengan hanya menyertakan Variabel X2 dan X3 saja yang terpilih, yaitu:

Y = 20.57 + 0.401592 X2 + 0.537376 X3

7

Kesimpulan: Dari Ketiga cara pemilihan model regresi terbaik, ternyata untuk kasus sosial di atas semuanya konsisten. Hanya Variabel X2 (pendapatan keluarga) dan X3 (tingkat pengangguran) saja yang terpilih dan nyata memberikan kontribusi dalam menentukan tinggi rendahnya Y (Laju bunuh diri).

pemilihan model regresi terbaik

Documents