regresi logistik

15
REGRESI LOGISTIK Regresi logistik merupakan pengembangan lebih lanjut sebagai multivariat chi square yaitu variabel dependentnya dalam skala data nominal (dikotomis ). Regresi logistik termasuk dalam rumpun dari regresi sehingga kedudukannya sama dengan regresi linier, sebagai uji prediksi atau estimasi, namun secara sederhana perbedaan antara regresi biasa dengan pemodelan logit ialah hanya pada variabel dependen atau responnya. Dimana pada regresi biasa dengan pemodelan logit ialah hanya pada variabel dependen dan responnya. Dimana pada regresi biasa, data variabel berupa data kontinyu, namun pada regresi logistik, data variabel dependennya berupa kategorik, baik Biner ( seperti Ya atau Tidak ) yang sering disebut dikotomus, atau juga polycotomus ( seperti sangat setuju, setuju, biasa, tidak setuju, dan sangat tidak setuju ), namun yang sering digunakan adalah untuk variabel dependen dikotomus. Model logit berdasarkan dari ide linier probability model (LPM ), yaitu Y = b₀ + b₁X + u misalnya variabel X adalah usia sedangkan variabel Y kejadian ca pulmo ( kanker pulmo)dimana 0 = tidak terjadi ca pulmo, 1 = tidak terjadi ca pulmo. Regresi linier tidak mampu menyelesaikan analisis ini, namun LPM dapat menyelesaikan analisis ini dengan cara ekspektasi kondisional Y dari X, dapat diinterpretasikan sebagai probabilitas kondisional saat suatu event Y akan muncul karena X, atau dituliskan dengan E(Yix), yang didefinisikan : 1

Upload: ida-ayu-dyantari-putri

Post on 24-Jun-2015

3.446 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: REGRESI LOGISTIK

REGRESI LOGISTIK

Regresi logistik merupakan pengembangan lebih lanjut sebagai multivariat chi square

yaitu variabel dependentnya dalam skala data nominal (dikotomis ). Regresi logistik termasuk

dalam rumpun dari regresi sehingga kedudukannya sama dengan regresi linier, sebagai uji

prediksi atau estimasi, namun secara sederhana perbedaan antara regresi biasa dengan

pemodelan logit ialah hanya pada variabel dependen atau responnya. Dimana pada regresi

biasa dengan pemodelan logit ialah hanya pada variabel dependen dan responnya. Dimana

pada regresi biasa, data variabel berupa data kontinyu, namun pada regresi logistik, data

variabel dependennya berupa kategorik, baik Biner ( seperti Ya atau Tidak ) yang sering

disebut dikotomus, atau juga polycotomus ( seperti sangat setuju, setuju, biasa, tidak setuju,

dan sangat tidak setuju ), namun yang sering digunakan adalah untuk variabel dependen

dikotomus.

Model logit berdasarkan dari ide linier probability model (LPM ), yaitu Y = b₀ + b₁X

+ u misalnya variabel X adalah usia sedangkan variabel Y kejadian ca pulmo ( kanker

pulmo)dimana 0 = tidak terjadi ca pulmo, 1 = tidak terjadi ca pulmo. Regresi linier tidak

mampu menyelesaikan analisis ini, namun LPM dapat menyelesaikan analisis ini dengan cara

ekspektasi kondisional Y dari X, dapat diinterpretasikan sebagai probabilitas kondisional saat

suatu event Y akan muncul karena X, atau dituliskan dengan E(Yix), yang didefinisikan :

p=P(Y) P=(Y=1IX=x), maka E(YIx)=p.1 + ( 1-p )*0=p

untuk memenuhi konsep LPM , sangat sulit karena terkadang nilai dari P berada diluar range

0-1, sedangkan nilai R² umumnya kecil, sehingga perlu dibuat pemodelan logit untuk

menyelesaikan kelemahan-kelemahan yang ada dalam LPM.

Untuk membuat harga p selalu berada diantara 0 dan 1, maka perlu suatu fungsi

monoton positif, yang memtakan linier prediktor h= a+bX ke unit interval. Transformasi tipe

ini akan mempertahankan struktur linier dari model dan menghindari nilai peluang berada

diluar interval [0,1]. Fungsi distribusi kumulatif (CDF= cummulative distributions function)

akan memnuhi kriteria di atas.

p=P(Y) P=(Y=1IX=x), P(h)= P(a+bX)

dengan menggunakan fungsi logistik, diperoleh linier regresion atau linier logit model,

dengan rumus sebagai berikut :

1

Page 2: REGRESI LOGISTIK

p= = =

maka untuk rumus regresi logistik adalah

p= E (Y=1IX )=

untuk mencari odd ratio / OR ( sebagai faktor resiko ), maka dapat dicari dari harga b yang

telah diketahui , maka rumus mencari OR adalah

OR=

Dimana e adalah bilangan natural yang besarnya adalah 2,718

Contoh :

sebuah penelitian bertujuan ingin mencari faktor-faktor yang mempengaruhi kejadian kanker

pulmo ( ca pulmo ), dianalisis variabel independen adalan kebiasaan merokok, usia, riwayat

keluarga ca pulmo dan daerah asal tinggal. Adapun data yang dikumpulkan adalah sebagai

berikut:

CA PULMO PEROKOK USIA RIWAYAT KELUARGA DAERAH

tidak capulmo tak merokok 45 tdk ada riwayat ca desa

tidak capulmo tak merokok 43 tdk ada riwayat ca desa

tidak capulmo tak merokok 34 tdk ada riwayat ca desa

tidak capulmo tak merokok 34 tdk ada riwayat ca desa

tidak capulmo tak merokok 26 tdk ada riwayat ca kota

2

Page 3: REGRESI LOGISTIK

tidak capulmo tak merokok 27 tdk ada riwayat ca kota

tidak capulmo tak merokok 27 tdk ada riwayat ca kota

tidak capulmo merokok 28 tdk ada riwayat ca kota

tidak capulmo tak merokok 29 tdk ada riwayat ca kota

tidak capulmo tak merokok 29 tdk ada riwayat ca kota

tidak capulmo tak merokok 30 tdk ada riwayat ca desa

tidak capulmo tak merokok 31 tdk ada riwayat ca desa

tidak capulmo merokok 32 ada riwayat ca desa

tidak capulmo merokok 33 tdk ada riwayat ca desa

capulmo merokok 45 ada riwayat ca desa

capulmo merokok 45 ada riwayat ca desa

capulmo merokok 46 ada riwayat ca desa

capulmo merokok 47 ada riwayat ca desa

capulmo merokok 8 ada riwayat ca desa

capulmo merokok 57 ada riwayat ca kota

capulmo merokok 57 ada riwayat ca kota

capulmo merokok 54 tdk ada riwayat ca kota

capulmo tak merokok 55 tdk ada riwayat ca kota

capulmo tak merokok 48 tdk ada riwayat ca kota

capulmo tak merokok 49 tdk ada riwayat ca kota

capulmo tak merokok 59 tdk ada riwayat ca kota

capulmo merokok 37 tdk ada riwayat ca kota

capulmo merokok 57 tdk ada riwayat ca kota

capulmo merokok 58 tdk ada riwayat ca desa

capulmo merokok 59 ada riwayat ca desa

Keterangan data dari variabel dimana dari variabel ca pulmo , ca pulmo=1; tidak ca pulmo=0,

pada variabel umur berskala data interval, pada variabel perokok, tak merokok=0 ;

merokok=1,pada variabel daerah, desa=0 ; kota=1, pada variabel riwayat keluarga tidak ada

riwayat ca=0; ada riwayat ca=1. Untuk menyelesaikan masalah diatas hanya dapat dikerjakan

dengan regresi logistik karena variabelnya berupa variabel dikotomi untuk variabel ca pulmo,

perokok, daerah dan riwayat keluarga. Sedangkan variabel usia distribusi data tidak normal.

3

Page 4: REGRESI LOGISTIK

Soal ini dapat diselesaikan dengan menggunakan aplikasi SPSS (Statistical Package For

Social Science)

CA PULMO PEROKOK USIA

RIWAYAT

KELUARGA DAERAH

0 0 45 0 0

0 0 43 0 0

0 0 34 0 0

0 0 34 0 0

0 0 26 0 1

0 0 27 0 1

0 0 27 0 1

0 1 28 0 1

0 0 29 0 1

0 0 29 0 1

0 0 30 0 0

0 0 31 0 0

0 1 32 1 0

0 1 33 0 0

1 1 45 1 0

1 1 45 1 0

1 1 46 1 0

1 1 47 1 0

1 1 8 1 0

1 1 57 1 1

1 1 57 1 1

1 1 54 0 1

1 0 55 0 1

1 0 48 0 1

1 0 49 0 1

1 0 59 0 1

1 1 37 0 1

1 1 57 0 1

4

Page 5: REGRESI LOGISTIK

1 1 58 0 0

1 1 59 1 0

Masukkan data tersebut ke dalam aplikasi SPSS

Analyze, pilih regression, binary logistik

Isikan ca pulmo pada dependent

Sedangkan rokok, usia, riwayat keluarga dan daerah pada covariates selanjutnya klik

ok

Maka akan tampil output seperti dibawah ini

Logistic Regression

Case Processing Summary

30 100,0

0 ,0

30 100,0

0 ,0

30 100,0

Unweighted Casesa

Included in Analysis

Missing Cases

Total

Selected Cases

Unselected Cases

Total

N Percent

If weight is in effect, see classification table for the totalnumber of cases.

a.

Dependent Variable Encoding

0

1

Original Valuetidak capulmo

capulmo

Internal Value

Block 0: Beginning Block

Classification Tablea,b

0 14 ,0

0 16 100,0

53,3

Observedtidak capulmo

capulmo

kanker pulmo

Overall Percentage

Step 0tidak capulmo capulmo

kanker pulmo PercentageCorrect

Predicted

Constant is included in the model.a.

The cut value is ,500b.

5

Page 6: REGRESI LOGISTIK

Variables in the Equation

,134 ,366 ,133 1 ,715 1,143ConstantStep 0B S.E. Wald df Sig. Exp(B)

Variables not in the Equation

8,571 1 ,003

12,820 1 ,000

6,531 1 ,011

,536 1 ,464

19,306 4 ,001

ROKOK

USIA

RWYKLG

DAERAH

Variables

Overall Statistics

Step0

Score df Sig.

Block 1: Method = Enter

Omnibus Tests of Model Coefficients

27,960 4 ,000

27,960 4 ,000

27,960 4 ,000

Step

Block

Model

Step 1Chi-square df Sig.

Model Summary

13,496 ,606 ,810Step1

-2 Loglikelihood

Cox & SnellR Square

NagelkerkeR Square

Classification Tablea

13 1 92,9

1 15 93,8

93,3

Observedtidak capulmo

capulmo

kanker pulmo

Overall Percentage

Step 1tidak capulmo capulmo

kanker pulmo PercentageCorrect

Predicted

The cut value is ,500a.

Variables in the Equation

1,888 1,628 1,344 1 ,246 6,603

,169 ,063 7,111 1 ,008 1,184

5,236 3,086 2,877 1 ,090 187,824

3,310 2,068 2,562 1 ,109 27,393

-10,295 3,705 7,722 1 ,005 ,000

ROKOK

USIA

RWYKLG

DAERAH

Constant

Step1

a

B S.E. Wald df Sig. Exp(B)

Variable(s) entered on step 1: ROKOK, USIA, RWYKLG, DAERAH.a. d

ari hasil diketahui bahwa semua variabel dimasukkan dalam hasil analisis, karena metode

6

Page 7: REGRESI LOGISTIK

yang kita pakai adalah metode enter. Hasil menunjukkan bahwa variabel usia yang

signifikan ( sig.= 0,010 ) sedangkan variabel lainnya sebagai variabel moderator atas

terjadinya ca pulmo.

Untuk mengetahui variabel mana yang berpengaruh atas ca pulmo, maka kita perlu

melakukan analisis dengan metode forward, dimana dengan memasukkan variabel

yang signifikan saja dalam analisis. Langkah analisis metode forward adalah :

Langkah awal sama dengan langkah sebelumnya

Method diganti Forward Conditional

Lalu klik ok

Maka akan tampil output seperti dibawah ini

Logistic Regression

Case Processing Summary

30 100,0

0 ,0

30 100,0

0 ,0

30 100,0

Unweighted Casesa

Included in Analysis

Missing Cases

Total

Selected Cases

Unselected Cases

Total

N Percent

If weight is in effect, see classification table for the totalnumber of cases.

a.

Dependent Variable Encoding

0

1

Original Valuetidak capulmo

capulmo

Internal Value

Block 0: Beginning Block

Classification Tablea,b

0 14 ,0

0 16 100,0

53,3

Observedtidak capulmo

capulmo

kanker pulmo

Overall Percentage

Step 0tidak capulmo capulmo

kanker pulmo PercentageCorrect

Predicted

Constant is included in the model.a.

The cut value is ,500b.

7

Page 8: REGRESI LOGISTIK

Variables in the Equation

,134 ,366 ,133 1 ,715 1,143ConstantStep 0B S.E. Wald df Sig. Exp(B)

Variables not in the Equation

8,571 1 ,003

12,820 1 ,000

6,531 1 ,011

,536 1 ,464

19,306 4 ,001

ROKOK

USIA

RWYKLG

DAERAH

Variables

Overall Statistics

Step0

Score df Sig.

Block 1: Method = Forward Stepwise (Conditional)

Omnibus Tests of Model Coefficients

15,640 1 ,000

15,640 1 ,000

15,640 1 ,000

6,407 1 ,011

22,047 2 ,000

22,047 2 ,000

Step

Block

Model

Step

Block

Model

Step 1

Step 2

Chi-square df Sig.

Model Summary

25,815 ,406 ,543

19,409 ,520 ,695

Step1

2

-2 Loglikelihood

Cox & SnellR Square

NagelkerkeR Square

Classification Tablea

12 2 85,7

2 14 87,5

86,7

12 2 85,7

1 15 93,8

90,0

Observedtidak capulmo

capulmo

kanker pulmo

Overall Percentage

tidak capulmo

capulmo

kanker pulmo

Overall Percentage

Step 1

Step 2

tidak capulmo capulmo

kanker pulmo PercentageCorrect

Predicted

The cut value is ,500a.

8

Page 9: REGRESI LOGISTIK

Model if Term Removeda

-20,767 15,719 1 ,000

-13,403 7,398 1 ,007

-16,720 14,032 1 ,000

VariableUSIAStep 1

ROKOK

USIA

Step 2

Model LogLikelihood

Change in-2 Log

Likelihood dfSig. of the

Change

Based on conditional parameter estimatesa.

Variables not in the Equation

6,458 1 ,011

5,713 1 ,017

,365 1 ,546

9,801 3 ,020

1,741 1 ,187

1,301 1 ,254

5,530 2 ,063

ROKOK

RWYKLG

DAERAH

Variables

Overall Statistics

Step1

RWYKLG

DAERAH

Variables

Overall Statistics

Step2

Score df Sig.

Dari hasil forward diketahui bahwa variabel independen yang berpengaruh terhadap ca

pulmo adalah rokok ( koefesiensi regresi= 2,794 , sig.=0,027) dan variabel usia ( koefisiensi

regresi= 0,163, sig.=0,011 ) dengan konstanta -7,728. Sehingga persamaan regresinya adalah

P = -7,728+ 2,794X₁+0,163X₂

Interpretasi hasil dari model logit tersebut bukanlah nilai kuantitatif dari response melainkan

sebagai probabilitas atau peluang terjadinya suatu kejadian atau event dalam hal ini adalah

kejadian kanker pulmo (ca pulmo ), dengan persamaan distribusi komulatifnya adalah :

9

Variables in the Equation

,156 ,052 8,973 1 ,003 1,169

-6,186 2,133 8,408 1 ,004 ,002

2,794 1,263 4,893 1 ,027 16,352

,163 ,064 6,519 1 ,011 1,177

-7,728 2,895 7,125 1 ,008 ,000

USIA

Constant

Step1

a

ROKOK

USIA

Constant

Step2

b

B S.E. Wald df Sig. Exp(B)

Variable(s) entered on step 1: USIA.a.

Variable(s) entered on step 2: ROKOK.b.

Page 10: REGRESI LOGISTIK

p= E (Y=1IX )=

Perlu diketahui bahwa besarnya (a+b₁X₁+b₂X₂) = Z

Sehingga E (Y=1IX ) dibaca harga harapan / peluang terjadinya suatu kejadian atau event,

dengan nilai kuantitatif 1 dalam hal ini adalah terjadinya kanker paru ( ca pulmo )

dikarenakan suatu respon dengan input/ prediktor variabel X.

Dari haril koefisien regresi yang diperoleh, dapat dicari

OR untuk variabel yang signifikan (yaitu rokok dan usia )

OR untuk rokok adalah OR1= = = 16,34

OR untuk usia adalah OR2= = = 1,17

Dari hasil tersebut diketahui bahwa riwayat perokok sebagai faktor resiko terhadap terjadinya

ca pulmo sebesar 16,34. Sedangkan usia sebagai faktor resiko terjadinya ca pulmo sebasar

1,17.

Contoh :

Jika terdapat seseorang dengan kriteria X₁= perokok ( nilai= 1 ), dan X₂=usia 30 tahun, maka

kemungkinan terjadinya kanker paru-paru adalah

Z= a+b₁X₁+b₂X₂

Z= -7,728+ 2,794X₁+0,163X₂

Z= -7,728+( 2,794*1)+(0,163*30)

Z= -7,728 + 2,794 + 4,89

Z= -7,728 + 7,684

Z= -0,044

10

Page 11: REGRESI LOGISTIK

Sehingga p= E (Y=1IX )=

Atau p= E (Y=1I X )=

Sehingga besar Z = -0,044 dengan e adalah bilangan natural dengan nilai 2,718, maka

p= E (Y=1I X )=

p= E (Y=1IX )=

p= E (Y=1IX )=

p= E (Y=1IX )=

jadi orang memiliki peluang sebesar 48,9% atau 49% untuk terjadi kanker paru-paru, dengan

kondisi ia perokok dan berumur 30 tahun.

11

Page 12: REGRESI LOGISTIK

Jika terdapat seseorang dengan kriteria X₁=tidak perokok ( nilai= 0 ), dan X₂=usia 30 tahun,

maka kemungkinan terjadinya kanker paru-paru adalah

Z= a+b₁X₁+b₂X₂

Z= -7,728+ 2,794X₁+0,163X₂

Z= -7,728+( 2,794*0)+(0,163*30)

Z= -7,728 + 0 + 4,89

Z= -7,728 + 4,89

Z= -2,838

Sehingga besar Z = -2,838 dengan e adalah bilangan natural dengan nilai 2,718, maka

p= E (Y=1I X )=

p= E (Y=1IX )=

p= E (Y=1IX )=

p= E (Y=1IX )=

dengan kata lain bahwa orang tersebut memiliki peluang sebesar 5,5% atau 6 % untuk terjadi

kanker paru-paru, dengan kondisi ia tidak perokok dan berumur 30 tahun.

12