pemodelan data cacahan dalam glm · maka dikembangkan model linear terampat (glm) untuk mengatasi...

39
Pemodelan Data Cacahan dalam GLM Dr. Kusman Sadik, M.Si Sekolah Pascasarjana Departemen Statistika IPB Semester Ganjil 2018/2019

Upload: hadung

Post on 22-Mar-2019

228 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

Pemodelan Data Cacahan

dalam GLM

Dr. Kusman Sadik, M.Si

Sekolah Pascasarjana Departemen Statistika IPB

Semester Ganjil 2018/2019

Page 2: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

2

Pada model linear klasik, seperti regresi linear,

memerlukan asumsi bahwa peubah respon y

menyebar Normal.

Pada kenyataanya banyak ditemukan bahwa peubah

respon y tidak menyebar Normal. Misalnya menyebar

Binomial, Poisson, Gamma, Eksponensial, dsb.

Maka dikembangkan Model Linear Terampat (GLM)

untuk mengatasi masalah ini.

Page 3: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

3

1. Komponen Acak (Random Component)

Komponen acaknya adalah peubah respon y.

Dalam GLM, peubah respon diasumsikan

mempunyai sebaran yang termasuk ke dalam

keluarga eksponensial (exponential family),

yaitu :

Page 4: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

4

2. Komponen Sistematik (Systematic Component)

Komponen sistematik adalah kombinasi linear

dari kovariat x1, x2, …, xp. Sehingga dapat

dituliskan sebagai berikut:

i = (ixi)

i disebut juga sebagai penduga linear (linear

predictor), i adalah konstanta.

Page 5: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

5

3. Fungsi Hubung (Link Function)

Yaitu fungsi yang menghubungkan antara

komponen acak dengan komponen sistematik.

Misalkan E(yi) = i, selanjutnya dapat dibuat

hubungan sebagai berikut :

g(i) = i = (ixi)

g(.) disebut sebagai fungsi hubung. Fungsi ini

harus bersifat terdiferensialkan monoton

(monotonic differentiable)

Page 6: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

6

Normal

Binomial

Multinomial

Poisson

Gamma

Eksponensial

Negatif Binomial

Dsb.

Page 7: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

7

Sebaran y Fungsi Hubung

Normal Identitas

Binomial Logit

Gamma Invers

Poisson Log

Multinomial Logit Kumulatif

Negatif Binomial Log

Inverse Gaussian Invers Kuadrat

Page 8: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

8

Pendugaan Parameter

Metode Fisher Scoring

L(,y) adalah fungsi kemungkinan (likelihood), I disebut

matrik informasi Fisher. Maka penduga secara iteratif

adalah sebagai berikut :

srr

r

yLE

yLU

),( ;

),( 2

I

)1()1()1()()1( ˆˆ kkkkkUβIβI

)1()1()1()( )(ˆˆ kkkkUIββ

-

Page 9: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

9

Kelayakan model (goodness of fit) pada GLM dapatdiukur berdasarkan Deviance (D).

Deviance adalah dua kali perbedaan antara log likelihood nilai aktual dengan log likelihood nilaidugaan.

Nilai deviance dapat digunakan sebagai statistik ujimengenai kelayakan model.

Deviance merupakan peubah acak yang sebarannyamendekati sebaran 2.

Page 10: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

10

Sebaran asimptotik bagi deviance (D) adalah

2(n-p)

dimana n adalah banyaknya data, sedangkanp adalah banyaknya parameter dalammodel.

Page 11: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

11

Uji hipotesis untuk vektor r

Ho : r = 0 H1: r 0

p = [ r : p-r ]

Page 12: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

12

Respon yang diukur (y) berupa banyaknya

kejadian selama selang waktu tertentu atau

dalam luas area tententu.

Misalnya, banyaknya pengunjung mal per hari,

banyaknya bakteri dalam kultur biakan, dsb.

Peubah respon y yang demikian disebut

menyebar Poisson

Page 13: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

13

Page 14: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

14

Page 15: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

15

Page 16: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

16

Page 17: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

17

Page 18: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

18

Page 19: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

19

Page 20: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

20

Page 21: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

21

Page 22: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

22

Page 23: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

23

Page 24: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

24

## 6.3.2. A study of wave damage to cargo ships

## McCullagh dan Nelder (hlm.204)

shipku <- read.csv(file='1-data.ship.accident.mccullagh.csv',

header=TRUE)

tipe <- factor(shipku[,2]) # Kategorik

tahun <- factor(shipku[,4]) # Kategorik

periode <- factor(shipku[,6]) # Kategorik

service <- shipku[,7] # Kontinu

incidents <- shipku[,8] # Kontinu

## Menentukan kategori pembanding

tipe <- relevel(tipe, ref="A")

tahun <- relevel(tahun, ref="1960-64")

periode <- relevel(periode, ref="1960-74")

data.frame(tipe,tahun,periode,service,incidents)

Page 25: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

25

## We model the rate of damage incidents per month of service, so

## log(service) is an offset.

## We expect overdispersion, so we fit by quasi-likelihood using

## the quasipoisson family.

## The number of damage incidents must be zero for any observation

## with zero aggregated months of service (whether they corrspond

## to "necessarily empty" or "accidentally empty cells." These

## "observations" are not useful in fitting the model, and so are

## omitted using the subset argument.

model <- glm(incidents ~ tipe + tahun + periode,

offset = log(service), family = quasipoisson("link"=log),

subset = (service != 0))

summary(model)

Page 26: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

26

> data.frame(tipe,tahun,periode,service,incidents)

tipe tahun periode service incidents

1 A 1960-64 1960-74 127 0

2 A 1960-64 1975-79 63 0

3 A 1965-69 1960-74 1095 3

4 A 1965-69 1975-79 1095 4

5 A 1970-74 1960-74 1512 6

6 A 1970-74 1975-79 3353 18

7 A 1975-79 1960-74 0 0

8 A 1975-79 1975-79 2244 11

.

.

.

37 E 1970-74 1960-74 1157 5

38 E 1970-74 1975-79 2161 12

39 E 1975-79 1960-74 0 0

40 E 1975-79 1975-79 542 1

Page 27: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

27

Deviance Residuals:

Min 1Q Median 3Q Max

-1.6768 -0.8293 -0.4370 0.5058 2.7912

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -6.40590 0.28276 -22.655 < 2e-16 ***

tipeB -0.54334 0.23094 -2.353 0.02681 *

tipeC -0.68740 0.42789 -1.607 0.12072

tipeD -0.07596 0.37787 -0.201 0.84230

tipeE 0.32558 0.30674 1.061 0.29864

tahun1965-69 0.69714 0.19459 3.583 0.00143 **

tahun1970-74 0.81843 0.22077 3.707 0.00105 **

tahun1975-79 0.45343 0.30321 1.495 0.14733

periode1975-79 0.38447 0.15380 2.500 0.01935 *

----------------

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasipoisson family taken to be 1.691028)

Null deviance: 146.328 on 33 degrees of freedom

Residual deviance: 38.695 on 25 degrees of freedom

Page 28: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

28

Page 29: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

29

Page 30: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

30

Page 31: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

31

Page 32: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

32

Page 33: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

33

Page 34: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

34

Page 35: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

35

Page 36: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

36

McCullagh, P. and Nelder, J.A. (1989) Generalized

Linear Models, 2nd. C&H.

Dobson and Barnett. (2008). An Introduction to

Generalized Linear Models, New York: C&H, 3rd ed.

Agresti, A. (2015). Foundations of Linear and

Generalized Linear Models. New Jersey: Wiley.

Page 37: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

37

Jiang, J. (2007). Linear and Generalized Linear Mixed

Models and Their Applications, Springer.

McCulloch, C.E. and Searle, S.R. (2001) Generalized,

Linear, and Mixed Models, Wiley

Pawitan, Y. (2001) In All Likelihood. Oxford.

Lee, Y., Nelder, J.A. and Pawitan, Y. (2006).

Generalized Linear Models with Random Effects. C&H.

Page 38: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

38

Materi ini bisa di-download di:

kusmansadik.wordpress.com

Page 39: Pemodelan Data Cacahan dalam GLM · Maka dikembangkan Model Linear Terampat (GLM) untuk mengatasi masalah ini. 3 ... hubungan sebagai berikut : g ... matrik informasi Fisher

39