outlier p ada analisis regresi

47
Outlier Pada Analisis Regresi By Eni Sumarminingsih, SSi, MM

Upload: simone

Post on 24-Feb-2016

101 views

Category:

Documents


0 download

DESCRIPTION

Outlier P ada Analisis Regresi. By Eni Sumarminingsih , SSi , MM. Pendahuluan. Tujuan dari Analisis Regresi adalah mengepas persamaan pada peubah yang terobservasi Model regresi linier klasik mengasumsikan hubungan berikut : Dimana n adalah ukuran contoh - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Outlier  P ada Analisis Regresi

Outlier Pada Analisis Regresi

By Eni Sumarminingsih, SSi, MM

Page 2: Outlier  P ada Analisis Regresi

Pendahuluan

Tujuan dari Analisis Regresi adalah mengepas persamaan pada peubah yang terobservasi

Model regresi linier klasik mengasumsikan hubungan berikut :

Dimana n adalah ukuran contohVariabel xi1, …, xip adalah variabel penjelas dan yi

adalah variabel respon

Page 3: Outlier  P ada Analisis Regresi

Pada theori klasik diasumsikan eror ei menyebar normal dengan rata – rata nol dan ragam 2

Jadi dengan analisis regresi kita menduga parameter

Dari data

Page 4: Outlier  P ada Analisis Regresi

Dengan menggunakan metode penduga regresi pada data tersebut didapatkan

Dimana adalah koefisien regresi adalah nilai duga y yang didapat dari

persamaan berikut

Page 5: Outlier  P ada Analisis Regresi

Residual ri dari amatan ke I adalah selisih antara y observasi dan y dugaan

Metode Kuadrat Terkecil (MKT) atau Ordinary Least Square (OLS) adalah metode paling populer untuk menduga parameter model regresi

Page 6: Outlier  P ada Analisis Regresi

Ide dasar metode OLS adalah mencari nilai duga paramete yang meminimumkan Jumlah Kuadrat Galat

Page 7: Outlier  P ada Analisis Regresi

Efek Outlier pada Regresi Linier Sederhana

Model Regresi Linier Sederhana

Misal kita memiliki 5 observasi (x1,y1),…, (x5,y5) yang jika diplotkan akan tampak seperti berikut : setiap titik sangat dekat dengan garis regresi

Page 8: Outlier  P ada Analisis Regresi
Page 9: Outlier  P ada Analisis Regresi

Misalkan terdapat kesalahan penulisan y4, maka titik (x4,y4) akan terletak jauh dari garis idealnya.

Titik ini dinamakan outlier dalam y, dan mempengaruhi garis LS

Page 10: Outlier  P ada Analisis Regresi
Page 11: Outlier  P ada Analisis Regresi

Outlier juga dapat terjadi dalam X. Berikut adalah plot dari 5 titik (x1,y1), … (x5,y5) berikut garis LS-nya

Page 12: Outlier  P ada Analisis Regresi

Misalkan kita membuat kesalahan dalam mencatat x1 sehingga maka kita dapatkan gambar berikut

Page 13: Outlier  P ada Analisis Regresi

Titik (x1,y1) dinamakan outlier dalam arah x dan efeknya pada penduga LS sangat besar karena merubah garis LS.

Titik (x1,y1) disebut leverage point

Page 14: Outlier  P ada Analisis Regresi

Perhatikan bahwa (xk,yk) dalam gambar berikut bukan leverage point. Mengapa?

Page 15: Outlier  P ada Analisis Regresi

Breakdown Point

Misalkan terdapat sample dengan n titik data

Dan misalkan T adalah penduga regresi sehingga Misalkan Z’ adalah sample yang didapat dari Z

dimana m titik dalam Z diganti dengan titik – titik yang sembarang (ada kemungkinan outlier)

Page 16: Outlier  P ada Analisis Regresi

Notasikan bias(m; T, Z) adalah bias maksimum yang dapat disebabkan oleh kontaminasi tersebut

Jika bias (m;T, Z) infinite berarti m outlier dapat memiliki efek yang besar pada T atau dapat dikatakan bahwa estimator “breaks down”

Page 17: Outlier  P ada Analisis Regresi

Breakdown point dari estimator T pada sample Z didefinisikan sebagai

Dengan kata lain, break down point adalah proporsi kontaminasi terkecil yang dapat menyebabkan estimator T menghasilkan yang cukup jauh dari T(Z)

Page 18: Outlier  P ada Analisis Regresi

Breakdown point untuk MKT (OLS) adalah

Karena telah kita lihat bahwa satu outlier sudah dapat merubah nilai koefisien regresi

Hal ini menunjukkan bahwa OLS sangat sensitif terhadap outlier

Page 19: Outlier  P ada Analisis Regresi

Identifikasi Pencilan pada Y

Dalam beberapa analisis regresi seringkali ditemukan adanya amatan ekstrem, yaitu bernilai jauh dengan amatan yang lain dalam sampel

Adanya amatan ekstrem atau pencilan ini dapat menyebabkan residual yang besar dan seringkali memiliki efek yang besar pada dugaan fungsi regresi yang menggunakan OLS sehingga penduga koefisien regresi menjadi bias dan atau tidak konsisten

Page 20: Outlier  P ada Analisis Regresi

Pencilan harus diteliti dengan hati – hati apakah sebaiknya amatan ini dipertahankan atau dihilangkan.

Jika dipertahankan, efek pencilan ini harus dikurangi

Page 21: Outlier  P ada Analisis Regresi

Suatu amatan dapat menjadi pencilan pada Y atau pada X atau pada keduanya

Page 22: Outlier  P ada Analisis Regresi

Pendeteksian Outlier

Untuk pendeteksian pencilan , diperlukan suatu matriks yang dinamakan hat matrix yang dilambangkan dengan H

Page 23: Outlier  P ada Analisis Regresi

Penduga Y dapat ditulis sebagai

Dengan

Page 24: Outlier  P ada Analisis Regresi

Elemen diagonal dari matriks H memberikan informasi tentang data observasi yang mempunyai nilai leverage yang besar

Elemen diagonal ke-i dari matriks H yang dilambangkan dengan hii diperoleh dari:

Page 25: Outlier  P ada Analisis Regresi

Dengan adalah vektor baris yang berisi nilai-nilai dari variabel bebas atau independen dalam pengamatan ke-i.

Pada elemen diagonal matriks H, diperoleh

dimana p adalah banyaknya peubah dalam model

Page 26: Outlier  P ada Analisis Regresi

Pendeteksian pencilan pada X

Jika nilai lebih besar dari 2(p+1)/n maka pengamatan ke-i dikatakan sebagai outlier pada X (leverage point).

Page 27: Outlier  P ada Analisis Regresi

Pendeteksian Pencilan pada Y

Hipotesis yang digunakan untuk menguji adalah:H0 : Pengamatan ke-i bukan outlierH1 : Pengamatan ke-i merupakan outlierStatistik uji yang dapat digunakan untuk

menguji adalah studentized residual atau studentized deleted residual yang didefinisikan:

Page 28: Outlier  P ada Analisis Regresi

Pendeteksian Pencilan pada Y

Kriteria yang digunakan untuk menguji ada tidaknya outlier adalah

di mana p adalah banyaknya variabel bebas ditambah satu

Page 29: Outlier  P ada Analisis Regresi

Pendeteksian Pengamatan Berpengaruh

Pengamatan berpengaruh• merupakan pengamatan yang berpengaruh

besar dalam pendugaan koefisien regresi• memiliki nilai galat atau sisaan yang besar atau

mungkin pula tidak, tergantung pada model yang digunakan

Page 30: Outlier  P ada Analisis Regresi

Metode untuk mendeteksi pengamatan berpengaruh

1. Cook’s DistanceCook’s Distance merupakan jarak antara

pendugaan parameter dengan MKT yang diperoleh dari n pengamatan atau observasi yaitu dan pendugaan parameter yang diperoleh dengan terlebih dahulu menghapus pengamatan atau observasi ke-i yaitu

Page 31: Outlier  P ada Analisis Regresi

Jarak tersebut dapat dituliskan sebagai berikut:

dengan

Page 32: Outlier  P ada Analisis Regresi

Hipotesis untuk menguji adanya pengamatan berpengaruh adalah sebagai berikut:

H0 : Pengamatan ke-i tidak berpengaruhH1 : Pengamatan ke-i berpengaruhkriteria yang digunakan untuk menguji hipotesis

tersebut adalah sebagai berikut, alpha = 0.5:

Page 33: Outlier  P ada Analisis Regresi

2. The Difference In Fits Statistic (DFITS)Hipotesis untuk menguji adanya pengamatan

berpengaruh adalah sebagai berikut:H0 : Pengamatan ke-i tidak berpengaruhH1 : Pengamatan ke-i berpengaruh merupakan pengaruh pengamatan atau

observasi ke-i pada nilai duga yang didefinisikan sebagai

Page 34: Outlier  P ada Analisis Regresi

Kriteria yang digunakan untuk menguji hipotesis tersebut adalah

Page 35: Outlier  P ada Analisis Regresi

Metode untuk Penanganan Pencilan

1. Metode TheilMerupakan metode regresi nonparametrikTidak terpengaruh terhadap adanya data outlier

atau pencilanAsumsi:• Contoh yang diambil bersifat acak dan kontinyu;• Regresi bersifat linier;• Data diasumsikan tidak berdistribusi normal.

Page 36: Outlier  P ada Analisis Regresi

Misalkan terdapat n pasangan pengamatan, (X1, Y1), (X2, Y2), …, (Xn, Yn), persamaan regresi linier sederhana adalah:

Theil (1950) dalam Sprent (1991, hal 179-180) mengusulkan perkiraan slope garis regresi sebagai median slope dari seluruh pasangan garis dari titik-titik dengan nilai X yang berbeda

Page 37: Outlier  P ada Analisis Regresi

Untuk satu pasangan (Xi, Yi) dan (Xj, Yj) slope-nya adalah

untuk i < jpenduga dinotasikan dengan dinyatakan

sebagai median dari nilai-nilai sehingga

Page 38: Outlier  P ada Analisis Regresi

Penduga M (M-Estimator) dengan Fungsi Huber

Penduga M adalah solusi

(1)Dimana (.) adalah fungsi kriteria yang dapat

berubah-ubah

Page 39: Outlier  P ada Analisis Regresi

fungsi krtiteria (.) mempunyai beberapa sifat sebagai berikut:

Page 40: Outlier  P ada Analisis Regresi

Untuk mendapatkan penduga koefisien regresi maka fungsi kriteria diturunkan dan disamakan dengan nol

Dimana adalah hasil diferensiasi dari fungsi kriteria dan Xij adalah observasi ke-i pada regressor ke-j

Page 41: Outlier  P ada Analisis Regresi

Bentuk umum dari persamaan (1) adalah

Dan bentuk umum persamaan (2) adalah

Page 42: Outlier  P ada Analisis Regresi

Fungsi kriteria Huber yang didefinisikan sebagai berikut :

Page 43: Outlier  P ada Analisis Regresi

Dan fungsi pengaruhnya adalah

Dengan

Page 44: Outlier  P ada Analisis Regresi

Persamaan kedua dapat dituliskan

Dengan

Jika maka persamaan (2) menjadi

Page 45: Outlier  P ada Analisis Regresi

Untuk fungsi pengaruh Huber, diperloleh pembobot sebagai berikut :

Page 46: Outlier  P ada Analisis Regresi

Langkah-langkah penghitungan penduga M:

Page 47: Outlier  P ada Analisis Regresi