outlier(pencilan)

Upload: akhmad-alfan-rahadi

Post on 20-Jul-2015

747 views

Category:

Documents


9 download

TRANSCRIPT

1 PENCILAN (OUTLIER) OLEH : SOEMARTINI JURUSAN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS PADJADJARAN JATINANGOR 2007 2 DAFTAR ISI DAFTAR ISI .........................................................................................................i BAB I : PENDAHULUAN....................................................................... 1 1.1. Latar Belakang...................................................................... 1 1.2. Tujuan................................................................................... 2 1.3. Manfaat................................................................................. 2 BAB II : TINJAUAN PUSTAKA............................................................. 3 2.1.Analisis Residual dan Defenisi........................................3 2.2. Dampak Pencilan.................................................................. 4 2.3. Identifikasi Pencilan............................................................. 4 2.3.1. Metode Grafis (Scatter Plot)...................................... 4 2.3.2. Boxplot....................................................................... 6 2.3.3. Leverage Values, DfFITS, Cooks Distance, danDfBETA(s)................................................................. 6 2.3.4. Internal Studentization ( Residu yang distudentkan)7 2.4.Tindakan terhadap Pencilan......................................8 2.4.1. Pemodelan Regresi Menggunakan Metode Least Trimmed Square........................................................ 8 2.4.1.1. Residu Robust (RR) dan Jarak Robust ( RD) .... 10 BAB III : CONTOH APLIKASI.............................................................13 3.1.Pengidentifikasian Pencilan...............................................13 3.1.1. Metode Grafis (Scatter Plot).................................... 14 3.1.2. Boxplot......................................................................15 3 3.1.3. Leverage Values, DfFITS, Cooks Distance, dan DfBETA(s).................................................................16 Penanggulangan Pencilan ..........................................17 BAB IV: KESIMPULAN DAN SARAN.................................... ............19 4.1. Kesimpulan..........................................................................19 4.2. Saran................................................................18 DAFTAR PUSTAKA..........................................................................................20 4 BAB I PENDAHULUAN 1.1. Latar Belakang Analisisregresimerupakananalisisyangmempelajaribagaimana membangun sebuah model fungsional dari data untuk dapat menjelaskan ataupun meramalkan suatu fenomena alami atas dasarfenomena yang lain. Untuk itu kita membutuhkan sekumpulan data prediktor untuk dapat menjelaskan data respon.Halpertamayangdilakukandalamsetiapanalisisdataadalahtahap persiapandatayangmeliputipengumpulandanpemeriksaandata.Proses pengumpulandatadapatdilakukandengancarasensusatausampling.Untuk kedua hal tersebut, langkah yang dapat ditempuh adalah :a.Mengadakanpenelitianlangsungkelapanganataulaboratoriumterhadap objek penelitian. b.Mengambilataumenggunakan,sebagianatauseluruhnya,darisekumpulan data yang telah dicatat atau dilaporkan oleh pihak lain. c.Mengadakanangket,yaknicarapengumpulandatadenganmenggunakan daftarisianataudaftarpertanyaanyangtelahdisiapkandandisusun sedemikian rupa sehingga calon responden tinggal mengisi atau menandainya dengan mudah dan cepat. 5 Tahapselanjutnyaadalahpemeriksaandata.Halinidilakukanuntuk menghindarihal-halyangtidakdiinginkan,misalnyakekeliruanatau ketidakcocokan tentang data. Padadatayangdiperolehbukandariangket,tidakjarangditemukansatu ataubeberapadatayangjauhdaripolakumpulandatakeseluruhan,yanglazim didefenisikansebagaidatapencilan(outlier).Karenadalamsuatupengamatan terhadapsuatukeadaantidakmenutupkemungkinandiperolehsuatunilai pengamatanyangberbedadengannilaipengamatanlainnya.Halinimungkin disebabkanolehkesalahanpadasaatpersiapandataatauterdapatperistiwayang ekstrim yang mempengaruhi data. Tujuan Adapun tujuan dari penulisan makalah ini adalah untuk : a.Menjelaskan definisi pencilan. b.Mengetahuidampakkeberadaanpencilandalamanalisisdata,dalamhalini analisis regresi. c.Menjelaskanmetode-metodeyangdapatdipergunakandalam mengidentifikasi keberadaan pencilan.

1.2. Manfaat Manfaatyangdapatdiperolehdaripenyusunanmakalahiniadalahkita dapatmemahamitindakanyangperludilakukandalammengidentifikasiserta menanggulangi keberadaan pencilan dalam data yang akan dianalisis.6 BAB II TINJAUAN PUSTAKA 2.1. Analisis Residual danDefinisi Metodayangdigunakandalamhubungannyadenganoutlier(pencilan), influential observations ( pengamatan berpengaruh) , dan high leverage ( pengaruh tinggi) adalah analisis residual . Residual banyak memegang peranan penting dalam pengujian untuk model regresi karena residual itu sendiri merupakan sisa pada suatu pengamatan . ei = Yi Umumnyapengamatanyangdicurigaisebagaioutlier,influentialobservations, dan high leverage dikategorikan ke dalam pelanggaran asumsi. Makalebih tepat jika digunakan analisisresidual. Berikut ini adalah beberapa definisi outlier : 1. Ferguson ( 1961) Outlier adalah suatu data yang menyimpang dari sekumpulan data yang lain. 2.Barnett (1981) Outlieradalahpengamatanyangtidakmengikutisebagianbesarpoladan terletakjauh dari pusat data. 3.R.K. Sembiring (1950)7 Outlieradalahpengamatanyangjauhdaripusatdatayangmungkin berpengaruh besarterhadap koefesien regresi. 4. Weissberg (1985)Jikaterdapatmasalahyangberkaitandenganoutlier,makadiperlukanalatdiagnosisyangdapatmengidentifikasimasalahoutlier,salahsatunyadengan menyisihkanoutlierdarikelompokdatakemudianmenganalisisdatatanpa outlier. 2.2 Dampak Pencilan Keberadaandatapencilanakanmengganggudalamprosesanalisisdata danharusdihindaridalambanyakhal.Dalamkaitannyadengananalisisregresi, pencilan dapat menyebabkan hal-hal berikut : Residual yang besar dari model yang terbentuk atau E[e]0 Varians pada data tersebut menjadi lebih besar Taksiran interval memiliki rentang yang lebar 2.2. Identifikasi Pencilan Dalamstatistikruang,datapencilanharusdilihatterhadapposisidan sebaran data yang lainnya sehingga akan dievaluasi apakah data pencilan tersebut perludihilangkanatautidak.Terdapatbeberapametodeuntukmenentukan batasan pencilan dalam sebuah analisis, yaitu :2.2.1.Metode Grafis 8 Untuk melihat apakah terdapat pencilan pada data, dapat dilakukan dengan memplotantaradatadenganobservasike-i(i=1,2,3,...,n)sepertigambar berikut :Gambar 1. Contoh scatter-plot dari data dengan observasi ke-i Daricontohdiatasterdapatsalahsatudata,yakniobservasike-28yang mengindikasikan merupakan pencilan. Selainmelaluiscatter-plotdiatas,jikasudahdidapatkanmodelregresi makadapatdilakukandengancaramemplotantararesidual(e)dengannilai prediksi Y (). Jika terdapat satu atau beberapa data yang terletak jauh dari pola kumpulan data keseluruhan maka hal ini mengindikasikan adanya pencilan. Kelemahan dari metode ini adalah keputusan bahwa suatu data merupakan pencilansangatbergantngpadajudgementpeneliti,karenahanyamengandalkan visualisasigrafis,untukitudibutuhkanseseorangyangahlidanberpengalaman dalam menginterpretasikan plot tersebut. 9 Dalamrangkameminimumkankesalahanteknis,makapendeteksian dilakukanmelaluiperhitunganstatistisyangakandijelaskanpadabagian selanjutnya. 2.2.2.Boxplot Metodeinimerupakanyangpalingumumyaknidenganmempergunakan nilai kuartil dan jangkauan. Kuartil 1, 2, dan 3 akan membagi sebuah urutan data menjadiempatbagian.Jangkauan(IQR,InterquartileRange)didefinisikan sebagai selisih kuartil 1 terhadap kuartil 3, atau IQR = Q3 Q1. Data-data pencilan dapat ditentukan yaitu nilai yang kurang dari 1.5*IQR terhadap kuartil 1 dan nilai yang lebih dari 1.5*IQR terhadap kuartil 3. Gambar 2. Skema identifikasi pencilan menggunakan IQR atau boxplot PencilanPencilanNilai EkstrimNilai EkstrimQ3Q2Q11.5R1.5R****R = Q3 Q1Batas Bukan Pencilan3R3R10 2.2.3.Leverage Values, DfFITS, Cooks Distance, dan DfBETA(s) Sebelummenjelaskanketentuanuntukmetodediatas,terlebihdahulu didefinisikan arti dari masing-masing metode : Leverage Values; menampilkan nilai leverage (pengaruh) terpusat. DfFITSatauStandardizedDfFIT;menampilkannilaiperubahandalamharga yang diprediksi bilamana case tertentu dikeluarkan, yang sudah distandarkan. Cooks Distance;menampilkan nilai jarak Cook DfBETA(s);menampilkannilaiperubahankoefisienregresisebagaihasil perubahanyangdisebabkanolehpengeluarancasetertentu.Digunakanuntuk mendeteksi pencilan pada variabel bebas. Adapunketentuanyangberlakudalampengambilankeputusanadanya pencilan atau tidak adalah sebagai berikut : Gambar 3. Kriteria pengambilan keputusan adanya pencilan atau tidak Ket. : n = Jumlah observasi(sampel); p = Jumlah parameter 2.3.4. Internal Studenization ( Residu Yang Distudentkan) Umumnyaoutliermemilikinilaiyyangekstrim.Untukmendeteksiapakah terdapat outlier atau tidak ,Internal Studenization ( Residu yang distudentkan ) Hipotesis : 11 HO : i = o ( tidak terdapat outlier ) H1 : io ( tidak terdapat outlier ) = taraf nyataStatistik Uji: iiiip ser=1 ~ 1 p nt Dimana :p + 1 = banyaknya parameter p= banyaknya variabelbebaspii = diagonal utama matriks prediksiKriteria uji : HO ditolak Jika ir > 1 ; 2 / p nt , dan HO diterima jika ir < 1 ; 2 / p nt , 2.4. Tindakan terhadap Pencilan Bilaternyatahasilidentifikasimenunjukkanadanyapencilan,makayang dapatdilakukanadalahmembuang/menghilangakandatapengamatantersebut, jikatidakmemberikanpengaruhsetelahdilakukanpengujian.Karena bagaimanapun juga keberadaan data pencilan mengganggu proses analisis. Sedangkandalamupayamengantisipasikemungkinandatapencilanyang disebabkankekeliruanteknis,makatahappersiapandatamerupakanhalsangat perlu diperhatikan. 2.4.1.Pemodelan Regresi Menggunakan Metode Least Trimmed Square 12 MetodeLeastTrimmedSquaressebagaisalahsatumetodepenaksiran parametermodelregresiyangrobustterhadapkehadirannilaipencilan.Adapun tujuan yang ingin dicapai adalah mendapatkan nilai parameter model regresi yang robust terhadap kehadiran nilai pencilan. Analisisregresirobusttelahdigunakanselamaratusantahun(Stigler, 1973)tapitidakdenganseriussampaiakhir-akhirini.Metodeinimerupakan metodealternatifyangsesuaiuntukdatayangterkontaminasinilaipencilan, bahkanbisamenyaingiprosedurbiasayangasumsistandarnyaterpenuhi (Wilcox; Wiggins 2000). Metode ini di kembangkan oleh Rousseeuw dan Leroy (1987).Ketikamenggunakanalatalatanalisis,biasanyalangkahpertama adalah mencobaadalah menghapuspencilan kemudian mencocokkan data yang sudahbagusdenganmenggunakanmetodekuadratterkecil,,tetapianalisis robustmencocokkanmodelregresidengansebagianbesardatadankemudian mengatasititiktitikpencilanyangmemilikinilairesiduyangbesarsebagaisolusi robust tersebut. ( Rousseeuw dan Leroy 1987) Jadimetodeinitidakmembuangbagiandaridatamelainkanmenemukan model fit dari mayoritas data. Misalkan model regresi linear multipel adalah0 1 1 2 2 i i i iY X X = + + + Model taksirannya adalah0 1 1 2 2 i i iY X X = + + Dan nilai residunya adalah13 0 1 1 2 2 ( ) i i i ir Y X X = + +Prinsipdarimetodeiniadalahmeminimumkan 2: ,1hi nir=darisebanyak nh|||\. kombinasi data kemudian, model dengan jumlah kuadrat residu yang terkecil dijadikan sebagai model fit. Dimana h = coverage; n =banyaknya pengamatan; r = residu Nilaihberadaantara 3 112 4n n ph+ +((+ (( tapibiasanyauntuk mendapatkannilaimaksimumbreakdownyaitumencapai50%maka 3 14n ph+ +(= ( dengan p = banyaknya parameter Nilaibreakdownadalahproporsiminimaldaribanyaknyapencilan dibandingkan seluruh data pengamatan. 2.4.1.1.Residu Robust (RR) danJarak Robust (RD) Sebuah alat baru dikembangkan, yaituresidu robust dan jarak robust. Hal ini memiliki banyak keuntungan. Pertama, robust residual-RD (yang diperoleh dari model fit Least trimmed squares) lebih baik menunjukkan pencilan pada regresi dibandingkan dari pada residu kuadrat terkecil, yang dipengaruhi efek ketertutupan.Padaregresilinier,pencilanadalahpengamatandengannilairesiduyang besar, artinyapada pengamatan tersebut nilai variabel bebas tidak sesuai dengan nilai yang diberikan oleh variabel tak bebas. 14 Titik pencilan dapat dideteksi dengan menggunakan nilai residualnya. {0jikar 3Titik Pencilan1untuk lainnya=

Dimana 0 1 1 2 2 ( ) ,1,..., i i i ir Y X X i n = + + =Untukalasanyangsama,jarakrobustmendiagnosistitikleveragelebih reliabel(dapatdipercaya)daripadaMahalanobisklasikatauHatdiagonal. Leverageadalahpengamatandengannilaiekstrimpadavariabeltakbebasatau ukuran jauhnya variabel tak bebas menyimpang dari rata-ratanya. Titik leverage dapat dideteksi dengan menggunakan jarak robust. {i0jika RD(X ) ( )LEVERAGE1untuk lainnyaC p =

Dengan cut value 2;1( )pc p=

Jarak Robust ( ) ( ) ( ) ( ) ( )1( )Ti i iRD X X T X C X X T X (= ( ) ( ) danT X C X adalahvektorrata-ratarobustdanmatrikskovarians robust. Danterakhirplotantararesidurobustdanjarakrobustmemungkinkan penggunauntukmencirikan/membedakan4modeltitikyaitu:observasibiasa, pencilan vertikal, titik good leverage dan titik bad leverage. 1.Observasi regular yaitu suatu titik yang memiliki nilai residu robust dan nilai jarak robust kecil. 2.Pencilanyaituyaitusuatutitikyangmemilikinilairesidurobustbesardan nilai jarak robust kecil.15 3.Goodleverageyaitusuatutitikyangmemilikinilairesidurobustkecildan nilai jarak robust besar. Ini berarti bahwa Xi menjauh tetapi Yi cocok dengan garis linear. 4.Badleverageyaitusuatutitikyangmemilikinilairesidurobustdannilai jarakrobustbesar.Titikinilebihberbahayadaripadapencilankarena memiliki pengaruh paling besar pada regresi linear klasik. Tentu saja tidak selalu semua titik ini dimiliki oleh data. Adapun langkah-langkah nya adalah sebagai berikut : 1.Tentukan nilai h, gunakan 3 14n ph+ +(= ( .2.Buat subset dari data yaitu sebanyaknh|||\.. 3.Gunakanmetodekuadratterkecilbiasauntukmendapatkannilaiparameter dan residu dari tiap subset. 4.Tentukan model fit dengan mencari jumlah kuadrat residu yang terkecil dari keseluruhan subset. Setelah didapat model yang fit, kemudian1.Hitung nilai residu robust untuk menentukan titik pencilan. 2.Hitung nilai jarak robust untuk menentukan titik leverage3.Buatlah plot antara jarak robust vs residu robust. 16 BAB III CONTOH APLIKASI 3.1 Pengidentifikasian Pencilan Untuklebihmemperjelaspemahamanmengenaipencilanini,teori-teori yangtelahdiuraikansebelumnyaakanditerapkanpadacontoh.Diketahuidata sebagai berikut : Tabel 3.1 Data Penelitian Ket. : X1 = Blood Clotting Score; X2 = Prognostic Index; X3 = Enzyme Function Test;Y = Suvival Time; X3 = Enzyme Function Test; X4 = Liver Function Test; 17 Berdasarkandatadiatas,akandilakukanpengidentifikasiankeberadaan pencilan melalui metode-metode yang telah diuraikan sebelumnya, yaitu : 3.1.1.Metode Grafis Melalui metode grafis diperoleh gambar berikut : Gambar 4. Scatter-plot 18 Kelimagambardiatasmenunjukkanscatter-plotuntuksemuavariabel penelitian.Padamasing-masingplotmengindikasikanadanyapencilan.Demi memudahkanpembacaangambar,penulismemberikanlabelnomorpadadata yang diduga merupakan pencilan. Untuklebihmemberikankeyakinanataskeputusandarihasilanalisis visual di atas, dilakukan analisis lainnya. 3.1.2.Boxplot Untukkeperluaniniterlebihdahuludihitungnilaikuartil(Q)1,2,dan3 serta jangkauan (IQR, Interquartile Range) sehingga diperoleh tabel berikut :Tabel 3.2 Ringkasan Hasil Perhitungan Kuartil X1X2X3X4Y Q15.02552.50067.2502.020110.500 Q25.80063.00079.0002.595155.500 Q36.50076.00089.5003.275216.500 IQR1.47523.50022.2501.255106.000 1.5*IQR 2.21335.25033.3751.883159.000 Atau, bila disajikan dalam boxplot akan tampak seperti di bawah ini : Gambar 5. Boxplot 19 Berdasarkanketigaboxplotdiatas,diketahuiterdapatbeberapapencilan pada masing-masing variabel, yaitu : Data ke-28, 37, dan 43 pada variabel Blood Clotting (X1) Data ke-38 pada variabel Prognostic (X2) Data ke-16 dan 32 pada variabel Enzyme (X3) Data ke-5; 21, 28 dan 43 pada variabel Liver (X4) 3.1.3.Leverage Values, DfFITS, Cooks Distance, dan DfBETA(s) Dari perhitungan diperoleh nilai-nilai berikut :Leverage Values = (2p 1)/n= (2*5-1)/54= 0.1667 DfFITS= 2*sqrt(p/n)= 2*sqrt(5/54) = 0.6086 Cooks Distance= F(0.5;p,n-p) = F(0.5;5, 49) = 0.8824 DfBETA(s)= 2/sqrt(n) = 2/sqrt(54)= 0.2722 Dengankriteriadiatas,akandiidentifikasikeberadaanpencilanpada masing-masing variabel (prediktor maupun respon).20 Tabel 3.3. Case Summaries Identifikasi Pencilan 21 PendeteksianpencilanpadadataobservasiYmenunjukkanterdapat beberapaobservasiyangmerupakanpencilan(berdasarkankriteriahatmatrix) yakni data ke-28, 32, dan 38. SedangkanpendeteksianoutlierobservasivariabelXimenunjukkan terdapatbeberapaobservasiyangmerupakanpencilan(berdasarkankriteria DfBETA(s)) yakni :Data ke-21, 28, dan 50pada variabel X1. Data ke-21 pada variabel X2. Data ke-21 pada variabel X3. Data ke-17 pada variabel X4. 3.2. Penanggulangan Pencilan Untuk menanggulangi pencilan pada data, yaitu dengan mengeluarkan atau membuang observasi ke-i pada data yang diduga merupakan pencilan. Kemudian dilakukanpengujiankembaliuntukmendeteksiterdapatatautidaknyapencilan pada data sampai tidak terdapat lagi pencilan pada data tersebut. Meskipunpencilanidentikdengandatayangtidakbagus,akantetapiia merupakanbagianterpentingdaridata,karenamenyimpaninformasitertentu. Untukitu,alternatifyangdapatdiambilterhadapdatayangterkontaminasi pencilanadalahdenganmenggunakanmetodeLeastTrimmedSquaredalam penaksiran model regresi. 22 BAB IV KESIMPULAN DAN SARAN 4.1. Kesimpulan Pencilan(outlier)adalahsuatudatayangjauhberbedadibandingkan terhadap keseluruhan data. Data yang jauh berbeda ini disebabkan oleh kesalahan pada saat sampling, analisis, atau terjadi pada saat pemfilteran.Pencilan dapat menyebabkan hal-hal berikut: Residual yang besar dari model yang terbentuk atau E[e]0 Varians pada data tersebut menjadi lebih besar Taksiran interval memiliki rentang yang lebar Pencilandapatdideteksidenganmetodegrafis,Boxplot,atauLeverage Values,DfFITS,CooksDistance,danDfBETA(s).Pencilandapatditanggulangi denganmembuangobservasike-iyangdianggappencilan.Adapunalternatif lainnyaadalahmenggunakanmetodeLeastTrimmedSquaredalampenaksiran model regresi, yang biasanya menggunakan OLS. 4.2. Saran Saranuntukpenelitianselanjutnyaadalahsupayapenelitilebihbanyak mambacadanmendapatkanbahantentangpencilan,supayamendapatkanlebih banyak cara untuk mendeteksi dan menanggulangi pencilan pada data. 23 DAFTAR PUSTAKA Atkinson A.C (1981). Two Graphical Display for Outlying and Influential Observation in Regression. Technometricss Chen , Colin .2002. The Robust Regression and Outlier Detection with the ROBUSTREG Procedure . SUGI Paper 265-267 .SAS Institute : Cary , NC Dien Sukardinah , Soemartini , I.Gde Mindra . 2005. Bahan Kuliah Regresi Lanjutan , JurusanStatistika , UNPAD- Bandung . Gujarati (1988). Basic Econometrics 2nd. Ed., Mc Graw-Hill Book. Co. New York Hawkins ,D.M.,1994.The Feasible Solution Algorithm for Least Trimmed Squares Regression .Comput.Statst. Data Anal. 17,185-196 Imon, Rahmatullah. 2007, Robust Regression, Postgraduate Lecture Series 3. Institute of Mathematical Sciences University of Malaya. Lane, Ken. 2002. What is Robust Regression and How Do You Do it? MathSoft (1999a), S-Plus 2000 Users Guide, Chapter 9. Data Analysis Produts Division, MathSoft, Seattle, WA. Rousseeuw, P.J. (1991), Diagnostic Plot for Regression Outlier and Leverage Point, Statistical Software Newsletter, 127-129. Rousseeuw, P.J. 1998. High Breakdown Value Estimation in SAS 9.0 Help and Documentation. Rousseeuw, P.J., and van Zomeren, B.C (19990), Unmasking Multivariate Outliersand Leverage Points, Journal of the American Statistical Association, 85, 633-651. STATA 9 Reference Manual, Stata Data Analysis Exsample Robust Regression, STATA Press, College Station, Tex., 249-254.