14. regresi poisson & negatif binomial 2013

19
Poisson and Negative Binomial Regression Oleh: Agung Priyo Utomo 1 [email protected]

Upload: monica-windi-triasturi

Post on 18-Aug-2015

317 views

Category:

Documents


18 download

DESCRIPTION

adk

TRANSCRIPT

Poisson and Negative Binomial Regression Oleh: Agung Priyo Utomo [email protected] POISSON REGRESSION Tujuan: memodelkan data counts (hitungan/frekuensi) pada suatu interval waktu tertentu, khususnya pada kasus dimana total banyaknya kejadian belum dapat diketahui sampai batas akhir interval waktu tersebut Berbasis distribusi Poisson, dg fungsi peluang sbb: dimana y=banyaknya kejadian pada interval waktu tertentu =0, 1, 2, =rata-rata banyaknya kejadian pada interval waktu tertentu e =2.71828 Rata-rata = Varian = [email protected] CONTOH Banyaknya kecelakaan mobil fatal di suatu wilayah pada suatu tahun tertentu ( = rata-rata banyaknya kecelakaan mobil fatal pertahun). Variabel yang diduga berpengaruh:penggunaan seat belt, komsumsi obat-obatan tertentu, dsb. Jumlah penderita positif AIDS dari sekumpulan orang berpotensi terkena AIDS di suatu wilayah pada suatu bulan tertentu ( = rata-rata pengidap AIDS perbulan). Variabel bebas: pemahaman ttg seks bebas, penggunaan alat kontrasepsi, apakah mengkonsumsi obat-obatan terlarang, dsb. Jumlah kasus pembunuhan di kota X pada tahun tertentu. Variabel bebas: jumlah (rasio) personel keamanan, tipe daerah (desa/kota), dsb. [email protected] CONTOH Banyaknya server yang mati pada suatu interval waktu tertentu di suatu perusahaan berbasis web. Variabel bebas: lamanya waktu operasi, ada/tidaknya serangan virus, dsb. Banyaknya gempa bumi dengan skala tertentu yg terjadi di suatu daerah potensi gempa dalam suatu dekade tertentu. Variabel bebas: topografi wilayah Banyaknya antrian di suatu loket pembelian tiket KA. Variabel bebas: jumlah loket yang buka, kecepatan pelayanan, dsb. [email protected] POISSON REGRESSION Ilustrasi:Misal banyaknya pejalan kaki yang menjadi korban kecelakaan mobil di suatu kota pada tahun tertentu. dengan rata-rata 2 korban kecelakaan pertahun. Kasus tersebut mengikuti distribusi Poisson dengan = 2. 0.1353 0.27070.2707 0.1804 0.0902 0.0361 0.0120 0.0034 0.0009 012345678 Peluang tidak ada pejalan kaki yg menjadi korban kecelakaan mobil Peluang ada 3 atau lebih pejalan kaki yg menjadi korban kecelakaan mobil = 0,3233 [email protected] POISSON REGRESSION Number of Goals Observed Number of Teams Peluang Expected Number of Teams* 0370.284336.4 1470.357645.8 2270.224928.8 3130.094312.1 420.02963.8 510.00751.0 600.00160.2 700.00030.0 810.00000.0 Jumlah128 Data on Individual Team Score From The 2002 World Cup in Soccer * = diasumsikan berdistribusi Poisson Rata-rata = 1,258 dan Varian = 1,499 1,500 Nilai observed & expected number of teams mendekati sama distribusi Poisson sesuai [email protected] TIDAK SEMUA DATA FREKUENSI (COUNTS) COCOK DIMODELKAN DG DISTRIBUSI POISSON Yearly Data on Chicago Homocides from 1965 to 1995 Rata-rata kasus pembunuhan pertahun sebesar 768,2 dan varian sebesar 16.505 atau lebih dari 20 kali besarnya rata-rata P [email protected] BERIKUT DATA JUMLAH GOL YANG DICETAK DALAM SETIAP PERTANDINGAN (LIGA INGGRIS 2011-2012) 8 POISSON DISTRIBUTED? [email protected] POISSON REGRESSION MODEL (PRM) Asumsi: Munculnya suatu kejadian dihasilkan dari suatu proses yang kontinyu & tidak dpt diketahui sebelumnya Antar kejadian saling bebas Pada setiap level covariate memiliki varian yg sama dengan rata-ratanya PRM didasarkan pada distribusi Poisson: dimana Model: Ln(Y) = 0 +1

1 ++

atau Y = exp(0 +1

1 ++

) dimana response variable (Y) berupa data counts [email protected] POISSON REGRESSION MODEL (PRM) Estimasi parameter menggunakan ML, dg fungsi likelihood: Fungsi log-likelihood: [email protected] OVERDISPERSI PADA PRM Jika nilai varian > rata-rata overdispersi Cara mendeteksi terjadinya overdispersi: Plot residual vs rata-rata predictor/explanatory variable pada sestiap level. Melalui pengujian hipotesis: H0: tidak terjadi overdispersi H1: terjadi overdispersi Statistik uji: Rasio antara G2 atau X2 dibagi dengan n-p (dimana n = banyaknya observasi, p = banyaknya parameter dlm model) Tolak H0 jika rasio tersebut > nilai kritis distribusi Chi-Squares dengan db n - p 11 INFERENSIA DALAM PRM UJI HIPOTESIS OVERALL TEST: Statistik Uji: L0: loglikelihood model hanya intersep (tanpa variabel bebas) L1: loglikelihood model dengan semua variabel bebas PARTIAL TEST:H0: j = 0 vs H1: j 0 Statistik Uji: [email protected] INTERPRETASI Dalam PRM interpretasi dapat dilakukan melaluiyg menyatakan perubahan nilai frekuensi harapan saat Xj berubah satu satuan, dg asumsi variabel bebas yg lain konstan (DeMarris, 2004). Perubahan secara proporsional saat xj berubah satu satuan adalah: [email protected] INTERPRETASI Perubahan secara proporsional saat xj berubah satu satuan adalah: perubahan (%) dari frekuensi harapan utk setiap kenaikan 1 unit variabel Xj adalahJika Xj mpk variabel dummy, makamenyatakan rasio frekuensi harapan kategori tertentu terhadap kategori referensi. [email protected] CONTOH Table 10.1 presents both OLS and PRM estimates for the regression of number of previous math courses on several characteristics of students: age over 21 (a dummy for whether students are over 21), male (a dummy for being male), social sciences major (a dummy for majoring in a social science other than sociology, with sociology majors as the contrast group), other major (a dummy for majoring in other than a social science field, with sociology majors as the contrast group), classification (student classification), high school GPA, and college GPA. [email protected] CONTOH [email protected] The PRM models coefficient suggests that mens expected count of previous math courses is 36.8% higher than womens. The PRM coefficient, on the other hand, suggests that the expected count increases by 48.4% for each unit increase in high school GPA. CONTOH: NASCAR CRASHL. Winner (2006). NASCAR Winston Cup Race Results for 1975-2003, Journal of Statistics Education, Vol.14,#3, www.amstat.org/publications/jse/v14n3/datasets.winner.html The National Association for Stock Car Auto Racing (NASCAR) dimulai pada bulan Desember 1947. Perlombaan pertama diadakan 15 Februari 1948 di Daytona Beach, FL.17 NASCAR Winston Cup Races Units: NASCAR Winston Cup Races (1975-1979) n=151 Races DependentVariable:Y =banyaknya kecelakaan (bendera bahaya)(CAUTIONS) Independent Variables: X1=banyaknya pembalap (DRIVERS) X2= panjang lintasan(TRKLENGTH) X3= banyaknya lap yg dapat diselesaikan setiap pembalap(LAPS) Data: poisson_nascar.sav 18 EXERCISE: POISSON REGRESSION Contoh: poissonRegCIGS.xls A cohort of subjects, some non-smokers and others smokers, was observed for several years. The number of cases of cancer of the lung diagnosed among the different categories was recorded. Data regarding the number of years of smoking were also obtained from each individual. For each category the person-years of observation were calculated. The investigators wish to address the question of the relative risks of smoking. 19