generalized linear models (logistic regression)

31
GENERALIZED LINEAR MODELS INDAH NURINA 10110094

Upload: indah-fitri-hapsari

Post on 20-Jun-2015

326 views

Category:

Data & Analytics


7 download

TRANSCRIPT

Page 1: Generalized linear models (logistic regression)

GENERALIZED LINEAR MODELS

INDAH NURINA

10110094

Page 2: Generalized linear models (logistic regression)

DATA

Data asuransi kendaraan bermotor dengan jangka waktu 1 tahun. Berisi 67856 polis, 4624(6.8%) diantaranya memiliki setidaknya 1 claim(Generalized Linear Models for Insurance Data, Piet de Jong dan Gillian

Z. Heller )

Variables:1. Veh_value: Vehicle value (harga kendaraan)2. Clm: occurence of claim (mengajukan klaim/tidak)3. Veh_body: vehicle body (tipe kendaraan)4. Area: Area tempat tinggal pengemudi5. Agecat: Kategori usia pengemudi

Diketahui data Exposure dari masing-masing polis

Page 3: Generalized linear models (logistic regression)

PEMILIHAN VARIABEL RESPON

Clm (occurence of claim) sebagai variabel respon

(termasuk variabel kategorikal)

Binary outcome ( can take only one of two value 0=No 1=Yes)

Sifat distribusi bernoulli: hanya memiliki 2 kemungkinan (2 mutually exclusive and exhaustive ways)

Clm berdistribusi B(1,π)

Jumlah observasi = jumlah polis= 67856

Tujuan: Mengetahui probabilitas seseorang yang memiliki

karakteristik tertentu untuk mengajukan claim

Page 4: Generalized linear models (logistic regression)

REGRESI MENGGUNAKAN GLM

• Distribusi Respon (clm) berasal dari distribusi

keluarga eksponensial

• Transformasi dari mean respon (clm) linear

terhadap variabel-variabel prediktornya.

Page 5: Generalized linear models (logistic regression)

DISTRIBUSI BERNOULI SEBAGAI ANGGOTA KELUARGA DISTRIBUSI EKSPONENSIAL

Bentuk distribusi keluarga eksponensial

Misal y=clm (occurrence of claim), y~B(1,π)

Page 6: Generalized linear models (logistic regression)

Note slide sebelumnya

• Choice a(theta) determine the actual probability

function----habis menetapkan distribu, taksir

parameter miu dan variansi dari sampel.

(metode momen) atau pake mle, kan y i nya iid.

• Fungsi Variansi (relationship between

variance and mean). Mean kan bervariasi

sesuai eksplanatori variables, karena mean nya

bervariasi, begitu juga variansinya. Mereka

dihubungkan melalui fungsi variansi.

Page 7: Generalized linear models (logistic regression)

Pemilihan Fungsi Link

• Link kanonik untuk distribusi binomial

Sehingga untuk bernoulli:

Nilai π yang dipilih:

Probability bahwa clm bernilai 1 (Yes)

Page 8: Generalized linear models (logistic regression)

Note slide sebelumnya

• Link kanonik g(miu)=theta-- parameter

kanonik tujuan buat menyimpelkan estimasi

• Link logit memastikan bahwa pi berada di

interval 0,1 untuk semua x dan beta

Page 9: Generalized linear models (logistic regression)

Predictor 1

1. Veh_value (vehicle value, in $10,000s)

Jenis variabel: Kontinu

Page 10: Generalized linear models (logistic regression)

Predictor 1

1. Veh_value (vehicle value, in $10,000s)

Hubungan dengan variabel respon

Page 11: Generalized linear models (logistic regression)

Predictor

1. Veh_value (vehicle value, in $10,000s)

Hubungan dengan variabel respon:

Page 12: Generalized linear models (logistic regression)

Penjelasan gambar slide sebelumnya

• Scatter plot smoother menunjukkan hubungan

yang tidak linier. Terlihat bahwa mngkn

hubungannya kuadratik atau kubik

• Ini buat memenuhi asumsi kelinearan antara

fungsi dr respon dengan prediktor

• Model kuadratik punya kelemahan di oddnya.

• Nilai AIC paling kecil g menjamin model paling

oke harus di fit

Page 13: Generalized linear models (logistic regression)

Banding Vehicle Value

clmvalue(vehicle valuecategory)

1 2 3 4 5 6

0 0,756529 0,155476 0,017287 0,001474 0,000619 0,000472

1 0,053584 0,013101 0,001356 5,89E-05 2,95E-05 1,47E-05

Page 14: Generalized linear models (logistic regression)

Predictor 2

Veh_body (vehicle body/tipe kendaraan)

Jenis variabel: Kategorikal 1. BUS

2. CONVT = convertible

3. COUPE

4. HBACK = hatchback

5. HDTOP = hardtop

6. MCARA = motorized caravan

7. MIBUS = minibus

8. PANVN = panel van

9. RDSTR = roadster

10. SEDAN

11. STNWG = station wagon

12. TRUCK

13. UTE - utility

Page 15: Generalized linear models (logistic regression)

Predictor

3. Agecate (kategori usia)

Jenis variabel: Kategorikal

1 2 3 4 5 6

clmAge Category

1 2 3 4 5 6

0 0,077311 0,176005 0,215957 0,222309 0,149169 0,091105

1 0,00731 0,013735 0,016402 0,01627 0,009049 0,005379

Page 16: Generalized linear models (logistic regression)

Predictor

4. Area (Area tinggal pengemudi)

Jenis variabel: Kategorikal

A B C D E F

clmArea

1 2 3 4 5 6

0 0,224402 0,182386 0,281891 0,113137 0,081437 0,048603

1 0,01599 0,014221 0,020809 0,00731 0,005689 0,004126

Page 17: Generalized linear models (logistic regression)

Pemilihan Base Level

12 var

5 var

5 var

5 var agecat1 2 3 4 5 6

5742 12875 15767 16189 10736 6547

areaA B C D E F

16312 13341 20540 8173 5912 3578

veh_body

BUS CONVT COPUE HBACK HDTOP MCARA MIBUS

48 81 780 18915 1579 127 717

PANVN RDSTR SEDAN STNWG TRUCK UTE

752 27 22233 16261 1750 4586

valuecat1 2 3 4 5 6

54971 11439 1265 104 44 33

Full model

Page 18: Generalized linear models (logistic regression)

STEPWISE REGRESSION-WITHOUT EXPOSURE

Agecat entered

STEP 1

AIC = -2 Log L + 2((k-1) + s)

Memberikan Penalti

Likelihood ratio: -2 Log L(null model) - 2 Log L(fitted model)

Page 19: Generalized linear models (logistic regression)

STEPWISE REGRESSION-WITHOUT EXPOSURE

Veh_body entered

STEP 2

Odds:

Page 20: Generalized linear models (logistic regression)

Penjelasan slide sebelumnya

• Chi square: Ngetes 1 variabel dengan asumsi

variabel lainnya di step tersebut ada di dlm

model. Distribusi chi square karena variansi

heteroskedastik. Kalo p value sama2 kecil, lihat

nilai score chi square. Significantly different

from 0.

• Yang diuji beta j-0/ variansi beta j. H0: C.Beta

=0 H1: C.Beta tdk=0

• AIC k=jumlah level prediktor s=jumlah prediktor

• Score Chi-Square Test : at least one of the

predictors' regression coefficient is not equal to

zero in the model

Page 21: Generalized linear models (logistic regression)

STEPWISE REGRESSION-WITHOUT EXPOSURE

Page 22: Generalized linear models (logistic regression)

STEPWISE REGRESSION-WITHOUT EXPOSURE

Analysis of effect eligible

for enty

Testing global null hipotesis

MLE of Parameter

Odd ratio Estimate

Analysis of effect eligible for removal

Page 23: Generalized linear models (logistic regression)

STEPWISE REGRESSION SUMMARY-WITHOUT EXPOSURE

STEPEffect

EnteredAIC

0 intercept33.768.78

9

1 agecat33.707.66

8

2 veh_body33.691.34

6

3 valuecat33.684.21

4

4 area33.680.35

6

Page 24: Generalized linear models (logistic regression)

STEPWISE REGRESSION SELECTED MODEL-WITHOUT EXPOSURE

STEP Effect Entered AIC

0 intercept 33.768.789

1 agecat 33.707.668

2 veh_body 33.691.346

3 valuecat 33.684.214

4 area 33.680.356

Sensitivity: Frekuensi relatif dari memprediksi sebuah kejadian

(claim) ketika kejadian tersebut terjadi

Specificity:Frekuensi relatif dari memprediksi tidak terjadinya

sebuah kejadian ketika kejadian (claim)

tersebut memang tidak terjadi

Page 25: Generalized linear models (logistic regression)

STEPWISE REGRESSION SELECTED MODEL-WITHOUT EXPOSURE

Page 26: Generalized linear models (logistic regression)

STEPWISE REGRESSION SELECTED MODEL-WITHOUT EXPOSURE

Hasil Regresi:

Page 27: Generalized linear models (logistic regression)

Considering the exposure

Exposure (t) : proporsi yang menunjukkan perbandingan jangka waktu polis yang terekspose terhadap jangka waktu polis yang seharusnya.

Clm berdistribusi B(1,π)

Clm berdistribusi B(1,tπ)

EKSPOSURE

Definisikan

Sehingga fungsi inversnya:

Page 28: Generalized linear models (logistic regression)

note

• Nilai pi bintang akan tetap berada di interval 0 1

karena t kan proporsii..

Page 29: Generalized linear models (logistic regression)

REGRESSION-WITH EXPOSURE

Page 30: Generalized linear models (logistic regression)

REGRESSION-WITH EXPOSURE

Hasil Regresi

Page 31: Generalized linear models (logistic regression)

KESIMPULAN

STEP Effect Entered AIC

0 intercept 33.768.789

1 agecat 33.707.668

2 veh_body 33.691.346

3 valuecat 33.684.214

4 area 33.680.356

Without Exposure With Exposure