regresi logistik biner

41
Regresi Logistik Biner Regresi logistik merupakan salah satu metode regresi yang menggambarkan hubungan antara suatu variabel respon (dependent) dan satu atau lebih variabel prediktor (independent) , dimana variabel respon bersifat biner atau dikotomus. Variabel dikotomus adalah variabel yang hanya mempunyai dua kemungkinan nilai, misalnya aktif dan tidak aktif, yang dinotasikan dengan Y=1 (aktif) dan Y=0 (tidak aktif), maka variabel Y tersebut mengikuti distribusi Bernoulli. Bentuk dari model Regresi Logistik dengan variabel independen p adalah sebagai berikut. π ( x )= exp ( β 0 +β 1 x 1 +β 2 x 2 + ...+β p x p ) 1+exp ( β 0 +β 1 x 1 +β 2 x 2 +...+ β p x p ) (2.5) Dengan menggunakan transformasi logit dari π ( x ) , maka model logistik dikotomus dapat ditulis sebagai berikut. g( x )=β 0 +β 1 x 1 +β 2 x 2 + ...+β p x p Selanjutnya g(x) disebut dengan Model Logit dan merupakan fungsi linear dalam parameter-parameternya (Hosmer dan Lemeshow, 1989). Estimasi Parameter Model Regresi Logistik Metode Maximum Likelihood Estimation (MLE) digunakan untuk mengestimasi parameter regresi logistik. Metode ini akan menghasilkan dugaan maksimum likelihood bagi β melalui iterasi Newton Raphson. Fungsi distribusi probabilitas untuk setiap pasangan (x i , y i ), adalah f ( x i ) = π ( x i ) y i ( 1π ( x i ) ) 1y i , i = 1,2...,n

Upload: deden-istiawan

Post on 28-Sep-2015

62 views

Category:

Documents


9 download

DESCRIPTION

biner

TRANSCRIPT

Regresi Logistik BinerRegresi logistik merupakan salah satu metode regresi yang menggambarkan hubungan antara suatu variabel respon (dependent) dan satu atau lebih variabel prediktor (independent) , dimana variabel respon bersifat biner atau dikotomus. Variabel dikotomus adalah variabel yang hanya mempunyai dua kemungkinan nilai, misalnya aktif dan tidak aktif, yang dinotasikan dengan Y=1 (aktif) dan Y=0 (tidak aktif), maka variabel Y tersebut mengikuti distribusi Bernoulli. Bentuk dari model Regresi Logistik dengan variabel independen p adalah sebagai berikut.

(2.5)

Dengan menggunakan transformasi logit dari , maka model logistik dikotomus dapat ditulis sebagai berikut.

Selanjutnya g(x) disebut dengan Model Logit dan merupakan fungsi linear dalam parameter-parameternya (Hosmer dan Lemeshow, 1989).Estimasi Parameter Model Regresi Logistik

Metode Maximum Likelihood Estimation (MLE) digunakan untuk mengestimasi parameter regresi logistik. Metode ini akan menghasilkan dugaan maksimum likelihood bagi melalui iterasi Newton Raphson. Fungsi distribusi probabilitas untuk setiap pasangan (xi, yi), adalah

, i = 1,2...,nFungsi likelihood berikut akan diperoleh jika pengamatan diasumsikan independen.

Secara sistematis lebih mudah untuk memaksimumkan ln likelihood yang didefinisikan sebagai berikut (Agresti, 1990).

Maksimum likelihood berikut diperoleh dengan mendifferensialkan terhadap dan menyamakan dengan nol,

Teori MLE (Maximum Likelihood Estimator) menyatakan bahwa turunan kedua fungsi ln likelihood akan menghasilkan estimasi varians dan kovarians (Agresti, 1990).Turunan kedua yaitu

Metode iterasi Newton Raphson digunakan untuk mendapatkan nilai taksiran dari penyelesaian turunan pertama fungsi ln likelihood, dimana persamaannya bersifat non linier (Agresti, 1990) dengan rumus sebagai berikut

(2.6)dengan

dimana elemen-elemen matrikss Hessian Pengujian Parameter Model Regresi Logistik Model yang telah diperoleh perlu diuji kesesuaiannya, dengan melakukan uji statistik akan diketahui apakah variabel variabel prediktor yang terdapat dalam model memiliki hubungan yang nyata dengan variabel responnya. Pengujian yang dilakukan adalah sebagai berikut .1. Uji Parsial Signifikansi parameter terhadap variabel respon dapat diketahui dengan uji parsial. Pengujian signifikansi parameter ini menggunakan uji Wald (Hosmer dan Lemeshow,1989).Hipotesis:H0 : j = 0 j=1, 2, 3, ..., pH1 : j 0Statistik uji : Statistik Uji Wald

(2.7)

Pada tingkat kepercayaan , H0 ditolak jika nilai atau dengan derajat bebas v.2. Uji Serentak

Untuk mengetahui apakah model telah tepat (signifikan) dan untuk memeriksa kemaknaan koefisien secara keseluruhan dapat dilakukan dengan uji serentak.Hipotesis:H0 : 1 = 2 = = p = 0

H1 : paling sedikit ada satu , dengan i = 1, 2, ..., pStatistik Uji : Statistik Uji G2 atau Likelihood Ratio Test, yaitu

(2.8)dengan :

= banyaknya observasi yang berkategori 1

= banyaknya observasi yang berkategori 0

Daerah penolakan H0 adalah jika G > dengan db=v.Uji Kesesuaian Model Regresi LogistikStatistik uji yang dapat digunakan untuk menguji kesesuaian model regresi logistik adalah Goodness of Fit.

(2.9)dengan

jumlah variabel respon pada grup ke- k

rata-rata taksiran probabilitas

banyaknya observasi yang memiliki nilai

banyaknya observasi pada grup ke- kStatistik uji diatas untuk menguji hipotesis sebagai berikut.H0 : Model sesuai (tidak ada perbedaan antara hasil observasi dengan kemungkinan hasil prediksi model)H1 : Model tidak sesuai (ada perbedaan antara hasil observasi dengan kemungkinan hasil prediksi model)

Keputusan : Tolak H0 jika hitung (db,), dengan derajat bebas sebesar g-2.Interpretasi Model Setelah didapatkan kesesuaian model pada koefisienkoefisien parameter yang signifikan, selanjutnya adalah memberikan interpretasi nilai koefisien dalam model tersebut. Pada variabel prediktor dikotomus, interpretasi koefisien parameter dapat menggunakan nilai odds ratio (). Variabel penjelas x yang bersifat kategori terbagi dalam 2 kategori yang dinyatakan dengan kode 0 dan 1. Disini kategori 1 dibandingkan terhadap kategori 2 berdasarkan nilai -nya yang menyatakan variabel 1 berpengaruh kali variabel 2 terhadap variabel respon. Sehingga berdasarkan model ada dua nilai (x) dan dua nilai 1-(x). Nilainilai itu dapat dinyatakan seperti Tabel 2.2.Tabel 2.2 Nilai Model Regresi Logistik bila Variabel X DikotomusVariabel ResponVariabel Bebas

X = 1X = 0

Sumber : Hosmer and Lemeshow (1989)

Odds ratio didefinisikan sebagai berikut .

= (2.10)

(2.11) Nilai odds ratio digunakan untuk menunjukkan kecenderungan hubungan suatu variabel X terhadap variabel Y. Bila nilai = 1, maka antara kedua variabel tersebut tidak terdapat hubungan. Bila nilai < 1, maka antara kedua variabel terdapat hubungan negatif terhadap perubahan nilai X dan demikian sebaliknya bila > 1.

Pada variabel prediktor kontinu, Hosmer and Lemeshow (1989) menjelaskan jika model regresi logistik mengandung variabel prediktor kontinu, maka interpretasi dari koefisien model tergantung pada bagaimana variabel tersebut dimasukkan kedalam model. Jika asumsi bahwa logit bersifat linier, maka persamaannya adalah . Ini menunjukkan koefisien slope, 1, memberikan perubahan nilai pada ln odds untuk penambahan 1 unit x. Dengan kata lain, untuk setiap nilai x (Hosmer and Lemeshow, 1989).

Regresi Logistik Regresi logistik adalah salah satu metode statistik untuk menganalisis hubungan variabel respon (dependen) yang memiliki skala nominal atau ordinal dengan variabel prediktor (independen). Regresi logistik yang memiliki variabel respon dengan dua kategori disebut regresi logistik biner (dhikotomus). Sedangkan regresi logistik yang memiliki variabel respon dengan tiga atau lebih kategori dimanakan regresi logistik polikotomus. Regresi polikotomus terdiri dari dua yaitu regresi logistik multinomial dan regresi logistik ordinal. Regresi logistik multinomial, masing- masing kategori pada variabel respon tidak ada tingkatan melainkan hanya membedakan sedangkan yang memiliki tingkatan dinamakan regresi logistik ordinal.Regresi Logistik Biner

Regresi lgisrtik biner merupakan metode statistik yang dapat digunakan untuk mengetahui pola hubungan antara variabel respon yang memiliki dua kategori dan variabel respon. Misalkan variabel prediktor tersebut memiliki kategori gagal dan sukses . Dalam hal ini setiap pengamatan Y mengikuti distribusi Bernaulli dengan adalah peluang untuk dan adalah peluang untuk . Adapun fungsi peluang untuk setiap pengamatan adalah sebagai berikut ( Hosmer dan Lemeshow, 2000):

(1)

dimana .

Pada analisis regresi logistik mengasumsikan bahwa hubungan antara dan dapat dijelaskan melalui fungsi logistik sebagai berikut ( Hosmer dan Lemeshow, 2000):

atau (2)

Untuk mempermudah menaksir parameter regresi, fungi logistic ditransformasi logit terhadap sehingga menjadi persamaan sebagai berikut :

=

=

=-

=

=

=ln

=

g(x) = , (3)

dimana = Uji Serentak Dalam pengujian serentak, uji signifikansi model dapat dipergunakan likelihood-ratio test. Likelihood-ratio test adalah metode pengujian signifikansi model dengan membandingkan likelihood untuk model lengkap (L1) dan likelihood untuk model yang semua parameternya sama dengan nol (L0). Hipotesis :

H0 :

H1 : minimal ada satu ;k = 1, 2, ..,p dimana p adalah jumlah prediktor dalam model.

H0 ditolak bila G > dimana p adalah jumlah prediktor dalam model.Adapun statistik uji untuk likelihood-ratio test adalah sebagai berikut (Hosmer dan Lemeshow, 2000)

=

=

= (4)dimana : L0 = Likelihood tanpa variabel independen L1 = Likelihood dengan variabel independen

Uji ParsialPengujian ini dilakukan untuk mengetahui signifikansi parameter secara individu terhadap variabel respon. Pengujian signifikansi parameter menggunakan uji Wald (Hosmer dan Lemeshow, 2000) dengan hipotesis:

H0 :

H1 : , dengan i = 1, 2, ...p

Statistik uji : . (3.5)

Daerah penolakan H0 adalah jika atau dengan derajat bebas v.Odd RasioOdd rasio pada regresi logistik biner dapat dicari dengan menggunakan acuan tabel nilai peluang sebagai berikut (Hosmer dan Lemeshow, 2000):Tabel 2.1: Tabel Nilai Peluang Regresi Logistik Jika Variabel dependen dan Independen Memiliki Dua KategoriVariabel responVariabel Prediktor

x = 1x = 0

y = 1

y = 0

Nilai odd rasio yang dinotasikan OR didefinisikan sebagai rasio untuk x=1 dan x=0 (Hosmer dan Lemeshow, 2000). Adapun peramaannya adalah sebagai berikut:

OR. (6)

Dengan mensubtitusikan nilai peluang pada tabel didapatkan hasil sebagai berikut :

=

=

= exp(. (7)

Dari persamaan di atas dapat disimpulkan bahwa odd rasio merupakan nilai eksponensial dari .Analisis Regresi Logistik Biner Analisis regresi logistik biner adalah suatu analisis regresi logistik antara variabel prediktor dengan variabel respon yang terdiri dari dua buah kategori (Hosmer,1989). Disebut sebagai variabel biner apabila variabel respon (Y) menghasilkan 2 kategori, yaitu 0 dan 1. Sehingga variabel Y akan mengikuti distribusi Bernoulli dengan fungsi probabilitas sebagai berikut :f(y) = py (1 p)1-y dimana y = 0, 1..................................(2.3)Jika y = 0, maka f(0) = 1 pJika y = 1, maka f(1) = pTujuan dari analisis regresi logistik biner adalah untuk mencari pola hubungan secara probabilitas antara variabel x dengan p (probabilitas kejadian yang diakibatkan oleh x). Berapapun nilai x bila disubstitusikan ke fungsi logistik hasilnya akan berkisar 0 dan 1. Fungsi logistik dapat dilihat sebagai berikut :

f(x) = , ........................................... (2.4)

Jika x = -, maka

Jika x = +, maka Untuk mempermudah notasi maka digunakan nilai (x) = E(Y|X) untuk menyatakan rata-rata bersyarat dari Y jika diberikan nilai x. Bentuk model regresi logistik adalah :

........................................... (2.5)Dengan suatu transformasi dari persamaan (2.5) dikenal sebagai transformasi logit digunakan untuk memperoleh fungsi g (x) yang linear dalam parameter-parameternya, sehingga akan mempermudah mengestimasi parameter-parameternya. Model transformasi tersebut adalah sebagai berikut :

g(x) = ln

g(x) = ........................................... (2.6)g(x) disebut dengan bentuk logit.

Metode Maximum Likelihood

Metode Maximum Likelihood (metode kemungkinan maksimum) digunakan untuk menduga parameter-parameter dari model persamaan regresi logistik (Hosmer dan Lameshow,1989). Parameter dari model diestimasi dari vektor = (0, 1, 2, , k). Nilai vektor diperoleh dengan memaksimumkan fungsi L() melalui pendeferensialan dengan parameter-parameter yang akan dihitung.Fungsi L() adalah fungsi log likelihood, yaitu :

L() = .(2.7)

Fungsi log likelihood diatas diperoleh berdasarkan pada persamaan likelihood :

(2.8)

dengan (xi) = ...................................... (2.9)Dimana i = 1, 2, , nFungsi di atas merupakan gabungan dari (Y1, Y2, , Yn) yang saling independen, dengan nilai dari Y observasi terdiri dari sukses (1) dan gagal (0), dengan distribusi binomial dan memiliki E (Yi) = ni(x) ; dimana n1 + n2 + + ni = N.Persamaan log likelihood pada persamaan (2.7) dideferensialkan terhadap masing-masing elemen . Sehingga diperoleh persamaan likelihood sebagai berikut :

= 0 dengan j = 0, 1, 2, , k ............................ (2.10)Sedangkan metode untuk mengestimasi varian dan kovarians dari estimasi koefisien parameter dikembangkan teori maximum likelihood estimation. Teori ini mengatakan bahwa estimasi varian diperoleh dari turunan kedua fungsi likelihood, turunan kedua adalah sebagai berikut :

........................................... (2.11)

Pengujian Estimasi Parameter Menurut Hosmer dan Lameshow (1989), model yang telah diperoleh tersebut perlu diuji kesignifikasinya, dengan melakukan pengujian statistik akan menentukan apakah variabel-variabel prediktor yang terdapat dalam model tersebut memiliki hubungan yang nyata dengan variabel responnya. Pengujian yang dilakukan adalah sebagai berikut :1. Uji SerentakUji serentak dilakukan untuk memeriksa atau peran keberartian koefisien secara keseluruhan atau serentak (Hosmer,1989). Pengujian yang dilakukan adalah sebagai berikut :

Hipotesa : H0 :

H1 : Minimal ada satu Statistik Uji :

atau Likelihood Ratio Test :

= -2 ln ........................................... (2.12)

Dimana : dan N = n0 + n1

Nilai G2 yang diperoleh dibandingkan dengan distribusi dengan derajat bebas v = k + 1 sesuai dengan p-value yang diinginkan untuk dapat menolak H0 atau H1.2. Uji ParsialMenurut Hosmer dan Lemeshow (1989) menyatakan bahwa uji parsial ini dilakukan untuk menguji keberartian koefisien secara parsial, yaitu dengan membandingkan parameter dari hasil maksimum likelihood, dugaan , dengan penduga standar errornya dan hipotesa yang dilakukan sebagai berikut :Hipotesa

H0 :

H1 :

Statistik Uji : Uji Wald : Statistik uji Wald mengikuti distribusi Normal, sehingga pengujiannya dilakukan melalui pembanding nilai statistik W1 dengan nilai ZtabelSelain uji Wald tersebut di atas, dapat pula dilakukan Uji Wald yang lain, yaitu : ........................................... (2.13)

Statistik uji Wz mengikuti distribusi Chi-Square 2 sehingga pengujiannya dilakukan melalui pembanding nilai statistik Wz dengan nilai tabel dan derajat bebas v (banyaknya variabel prediktor).Uji Kesesuaian Model Regresi Logistik Menurut Agresti (1990) terdapat beberapa statistik uji yang dapat digunakan untuk menguji kesesuaian model regresi logistik antara lain :1. 2 Log Likelihood

G2 = 2 2. Goodness of Fit

Dari kedua statistik uji diatas untuk menguji hipotesis sebagai berikut :H0 : Model sesuai (tidak ada perbedaan antara hasil observasi dengan kemungkinan hasil prediksi model)H1 : Model tidak sesuai (ada perbedaan antara hasil observasi dengan kemungkinan hasil prediksi model)3. ImprovementUji ini digunakan untuk menilai apakah satu atau lebih variabel prediktor yang belum masuk ke dalam model memiliki peran yang penting dalam model (Agresti, 1990). Pengujian yang dilakukan adalah sebagai berikut :Hipotesa :H0 : Model tanpa variabel prediktor tertentu adalah model terbaikH1: Model dengan variabel prediktor tertentu adalah model terbaikStatistik Uji :G2 = -2 (L0 L1)Dimana :L0 = Log Likelihood untuk model dengan variabel prediktor tertentuL1 = Log Likelihood untuk model tanpa variabel prediktor tertentuNilai G2 yang diperoleh dibandingkan dengan distribusi 2 dengan derajat bebas selisih antara L0 dan L1. Jika H0 ditolak maka model dengan variabel prediktor tertentu secara signifikan lebih baik dibanding model tanpa prediktor tertentu.

Analisis Regresi Logistik Biner Analisis regresi logistik biner adalah suatu analisis regresi logistik antara variabel prediktor dengan variabel respon yang terdiri dari dua buah kategori (Hosmer,1989). Disebut sebagai variabel biner apabila variabel respon (Y) menghasilkan 2 kategori, yaitu 0 dan 1. Sehingga variabel Y akan mengikuti distribusi Bernoulli dengan fungsi probabilitas sebagai berikut :f(y) = py (1 p)1-y dimana y = 0, 1..................................(2.3)Jika y = 0, maka f(0) = 1 pJika y = 1, maka f(1) = pTujuan dari analisis regresi logistik biner adalah untuk mencari pola hubungan secara probabilitas antara variabel x dengan p (probabilitas kejadian yang diakibatkan oleh x). Berapapun nilai x bila disubstitusikan ke fungsi logistik hasilnya akan berkisar 0 dan 1. Fungsi logistik dapat dilihat sebagai berikut :

f(x) = , ........................................... (2.4)

Jika x = -, maka

Jika x = +, maka Untuk mempermudah notasi maka digunakan nilai (x) = E(Y|X) untuk menyatakan rata-rata bersyarat dari Y jika diberikan nilai x. Bentuk model regresi logistik adalah :

........................................... (2.5)Dengan suatu transformasi dari persamaan (2.5) dikenal sebagai transformasi logit digunakan untuk memperoleh fungsi g (x) yang linear dalam parameter-parameternya, sehingga akan mempermudah mengestimasi parameter-parameternya. Model transformasi tersebut adalah sebagai berikut :

g(x) = ln

g(x) = ........................................... (2.6)g(x) disebut dengan bentuk logit.

Metode Maximum Likelihood

Metode Maximum Likelihood (metode kemungkinan maksimum) digunakan untuk menduga parameter-parameter dari model persamaan regresi logistik (Hosmer dan Lameshow,1989). Parameter dari model diestimasi dari vektor = (0, 1, 2, , k). Nilai vektor diperoleh dengan memaksimumkan fungsi L() melalui pendeferensialan dengan parameter-parameter yang akan dihitung.Fungsi L() adalah fungsi log likelihood, yaitu :

L() = .(2.7)

Fungsi log likelihood diatas diperoleh berdasarkan pada persamaan likelihood :

(2.8)

dengan (xi) = ...................................... (2.9)Dimana i = 1, 2, , nFungsi di atas merupakan gabungan dari (Y1, Y2, , Yn) yang saling independen, dengan nilai dari Y observasi terdiri dari sukses (1) dan gagal (0), dengan distribusi binomial dan memiliki E (Yi) = ni(x) ; dimana n1 + n2 + + ni = N.Persamaan log likelihood pada persamaan (2.7) dideferensialkan terhadap masing-masing elemen . Sehingga diperoleh persamaan likelihood sebagai berikut :

= 0 dengan j = 0, 1, 2, , k ............................ (2.10)Sedangkan metode untuk mengestimasi varian dan kovarians dari estimasi koefisien parameter dikembangkan teori maximum likelihood estimation. Teori ini mengatakan bahwa estimasi varian diperoleh dari turunan kedua fungsi likelihood, turunan kedua adalah sebagai berikut :

........................................... (2.11)

Pengujian Estimasi Parameter Menurut Hosmer dan Lameshow (1989), model yang telah diperoleh tersebut perlu diuji kesignifikasinya, dengan melakukan pengujian statistik akan menentukan apakah variabel-variabel prediktor yang terdapat dalam model tersebut memiliki hubungan yang nyata dengan variabel responnya. Pengujian yang dilakukan adalah sebagai berikut :1. Uji SerentakUji serentak dilakukan untuk memeriksa atau peran keberartian koefisien secara keseluruhan atau serentak (Hosmer,1989). Pengujian yang dilakukan adalah sebagai berikut :

Hipotesa : H0 :

H1 : Minimal ada satu Statistik Uji :

atau Likelihood Ratio Test :

= -2 ln ........................................... (2.12)

Dimana : dan N = n0 + n1

Nilai G2 yang diperoleh dibandingkan dengan distribusi dengan derajat bebas v = k + 1 sesuai dengan p-value yang diinginkan untuk dapat menolak H0 atau H1.2. Uji ParsialMenurut Hosmer dan Lemeshow (1989) menyatakan bahwa uji parsial ini dilakukan untuk menguji keberartian koefisien secara parsial, yaitu dengan membandingkan parameter dari hasil maksimum likelihood, dugaan , dengan penduga standar errornya dan hipotesa yang dilakukan sebagai berikut :Hipotesa

H0 :

H1 :

Statistik Uji : Uji Wald : Statistik uji Wald mengikuti distribusi Normal, sehingga pengujiannya dilakukan melalui pembanding nilai statistik W1 dengan nilai ZtabelSelain uji Wald tersebut di atas, dapat pula dilakukan Uji Wald yang lain, yaitu : ........................................... (2.13)

Statistik uji Wz mengikuti distribusi Chi-Square 2 sehingga pengujiannya dilakukan melalui pembanding nilai statistik Wz dengan nilai tabel dan derajat bebas v (banyaknya variabel prediktor).Uji Kesesuaian Model Regresi Logistik Menurut Agresti (1990) terdapat beberapa statistik uji yang dapat digunakan untuk menguji kesesuaian model regresi logistik antara lain :1. 2 Log Likelihood

G2 = 2 2. Goodness of Fit

Dari kedua statistik uji diatas untuk menguji hipotesis sebagai berikut :H0 : Model sesuai (tidak ada perbedaan antara hasil observasi dengan kemungkinan hasil prediksi model)H1 : Model tidak sesuai (ada perbedaan antara hasil observasi dengan kemungkinan hasil prediksi model)3. ImprovementUji ini digunakan untuk menilai apakah satu atau lebih variabel prediktor yang belum masuk ke dalam model memiliki peran yang penting dalam model (Agresti, 1990). Pengujian yang dilakukan adalah sebagai berikut :Hipotesa :H0 : Model tanpa variabel prediktor tertentu adalah model terbaikH1: Model dengan variabel prediktor tertentu adalah model terbaikStatistik Uji :G2 = -2 (L0 L1)Dimana :L0 = Log Likelihood untuk model dengan variabel prediktor tertentuL1 = Log Likelihood untuk model tanpa variabel prediktor tertentuNilai G2 yang diperoleh dibandingkan dengan distribusi 2 dengan derajat bebas selisih antara L0 dan L1. Jika H0 ditolak maka model dengan variabel prediktor tertentu secara signifikan lebih baik dibanding model tanpa prediktor tertentu.Regresi Logistik

Regresi logistik digunakan jika variabel respon bersifat kategorik (nominal atau ordinal) dengan variabel-variabel prediktor kontinu maupun kategorik (Agresti, 1990). Variabel respon Y yang bersifat random dan dikotomus, yakni bernilai 1 dengan probabilitas dan bernilai 0 dengan probabilitas 1-, disebut sebagai point-binomial (Le, 1998). Untuk pengamatan ke-i dari sampel (i = 1,2,...,n), Yi adalah variabel bernoulli dengan distribusi probabilitas (Le, 1998):

; yi = 0,1 dan n = jumlah sampelFungsi basis logistik adalah (Le, 1998)

, (1)

Dimana,

Untuk maka , sedangkan untuk maka .

Dengan melihat kemungkinan nilai yang berkisar antara 0 dan 1, menunjukkan bahwa regresi logistik sebenarnya menggambarkan probabilitas terjadinya suatu event.(Sumber: Le, 1998)Secara umum, model regresi logistik yang dinyatakan sebagai fungsi x adalah (Hosmer and Lemeshow, 1989)

(2)

Untuk mempermudah penaksiran parameter regresi, maka digunakan transformasi logit terhadapsehingga menjadi bentuk logit pada persamaan (3)

= (3)

Regresi logistik bergandaModel regresi logistik dengan k variabel prediktor adalah (Le, 1998)

(4)Jika model pada persamaan (4) ditransformasi dengan menggunakan transformasi logit, maka akan menghasilkan bentuk logit

g(x) = (5)yang merupakan fungsi linier dalam parameter-parameternya.

Estimasi parameter

Metode estimasi yang mengarah pada fungsi least squares dalam model regresi linier (jika residual berdistribusi normal) disebut maximum likelihood (Hosmer and Lemeshow, 1989). Jika parameter pada model regresi logistik dinotasikan sebagai maka pada dasarnya metode maximum likelihood mengestimasi nilai dengan memaksimumkan fungsi Likelihood (Hosmer and Lemeshow, 1989).Fungsi distribusi probabilitas untuk setiap pasangan (xi, yi), adalah (Hosmer and Lemeshow, 1989)

(6) Dimana,

Secara matematis, lebih mudah untuk memaksimumkan ln atau disebut juga ln likelihood yang dinotasikan sebagai (Agresti, 1990).

Maksimum ln likelihood dapat diperoleh dengan cara men-differensialkanterhadapdan menyamakannya dengan nol (Agresti, 1990).

; j = 0,1,, k (7)Dimana,

menyatakan estimasi daridengan menggunakan metode maximum likelihood.

Dari hasil penurunan pertama pada persamaan (7), nilai diestimasi dengan metode numerik karena persamaannya ber-sifat nonlinier. Sedangkan metode untuk mengestimasi varians dan kovarians dari taksirandikembangkan menurut teori MLE (Maximum Likelihood Estimator) yang menyatakan bahwa estimasi varians dan kovarians diperoleh dari turunan kedua fungsi ln Likelihood (Agresti, 1990), yaitu :

= ; j = 0, 1,,k (8)

Pengujian signifikansi parameterPengujian parameter model dilakukan untuk memeriksa apakah variabel predictor mempunyai peranan (pengaruh) yang nyata di dalam model. Uji parameter yang digunakan dalam penelitian ini adalah :a. Statistik uji Gb. Statistik uji Wald (W)Statistik uji-G adalah uji rasio kemungkinan (likelihood ratio test) yang digunakan untuk menguji peranan variabel prediktor di dalam model secara bersama-sama (Hosmer and Lemeshow, 2000). Rumus umum untuk uji-G berdasarkan hipotesis :

H0 :

H1 : Minimal ada satu untuk j=1,2,...,kStatistik Uji (Hosmer and Lemeshow, 1989):

(9)

Dengan, ; ;

Dibawah H0, statistik uji G akan mengikuti distribusi chi-square dengan derajat bebas k (Hosmer and Lemeshow, 1989). Sehingga untuk memperoleh keputusan, nilai statistik uji G dibandingkan dengan nilai. Kriteria penolakan H0 adalah jika .

Statistik uji Wald digunakan untuk menguji parameter secara parsial (Hosmer and Lemeshow, 2000). Rumus umum untuk uji-Wald berdasarkan hipotesis :

H0 : = 0 ; j = 1,2,...,k

H1 : 0Statistik Uji (Le, 1998):

(10)

Kriteria penolakan H0 adalah jika |.

Uji Kesesuaian Model

Dari estimasi model regresi logistik yang diperoleh, ingin diketahui seberapa besar keefektifan model dalam menjelaskan variabel respon. Hal ini disebut sebagai goodness-of-fit (kesesuaian model). Goodness-of-fit dihitung berdasarkan nilai yang tergantung pada susunan variabel-variabel prediktor dalam model, bukan pada jumlah variabel prediktor (Hosmer and Lemeshow, 1989). Berikut ini adalah prosedur pengujian kesesuaian model.H0 : Model sesuaiH1 : Model tidak sesuaiStatistik Uji (Hosmer and Lemeshow, 1989):

(11)

Dengan g = Jumlah grup,= Banyaknya subjek pada grup ke-k,, jumlah nilai variabel respon pada grup ke-k ,, rata-rata taksiran probabilitas dimana mj adalah banyaknya subjek pada kategori variabel respon.

Jika H0 benar, maka distribusi statistik uji mengikuti distribusi chi-square dengan derajat bebas g-2 (Hosmer and Lemeshow, 1989). Daerah penolakan H0 adalah .

Interpretasi koefisien model regresi logistikEstimasi koefisien dari variabel prediktor menyatakan slope atau nilai perubahan variabel respon untuk setiap perubahan satu unit variabel prediktor. Interpretasi meliputi: menentukan hubungan fungsional antara variabel respon dan variabel prediktor serta mendefinisikan unit perubahan variabel respon yang disebabkan oleh variabel prediktor (Hosmer and Lemeshow, 1989).

Untuk regresi logistik dimana variabel prediktor bersifat dikotomus, nilai x dikategorikan 0 atau 1. Pada model ini, ada dua nilaidan dua nilai.

Tabel 1 Nilai-Nilai dan Untuk Variabel Prediktor DikotomusVariabel responVariabel Prediktor

x = 1x = 0

y = 1

y = 0

Sumber: Hosmer and Lemeshow, 1989

Odds rasio, dinotasikan, didefinisikan sebagai rasio odds untuk x = 1 terhadap odds untuk x = 0, yang dapat dituliskan dalam persamaan (12) berikut (Hosmer and Lemeshow, 1989).

(12)Berdasarkan Tabel 1, nilai odds rasio adalah

Regresi Logistik

Model Regresi Logistik merupakan analisis statistik yang digunakan untuk menggambarkan hubungan antara variabel tak bebas yang bersifat kategori dengan variabel bebas yang bersifat kategori, kontinu atau keduanya. Untuk variabel bebas bertipe kualitatif digunakan variabel dummy sedangkan untuk variabel bebas bertipe kuantitatif didefinisikan secara langsung. Hubungan antara variabel tak bebas (Y) dengan variabel bebas (X), menurut Agresti (1996) adalah mean dan varian . Sedangkan regresi logistik dengan k variabel bebas (X) dan variabel tak bebas (Y) menurut Hosmer (1989) adalah , maka bentuk persamaan regresi logistik berganda adalah

(2.1)atau

(2.2)

Dengan menggunakan transformasi logit dari , maka model regresi logistik dapat ditulis sebagai berikut :

(2.3)

(2.4)

(2.5)

(2.6)

(2.7)sehingga

(2.8)yang merupakan fungsi linier dalam parameter parameternya.

Dalam suatu model regresi linier diasumsikan bahwa suatu amatan dari variabel tidak bebas dapat diekspresikan sebagai , dimana merupakan komponen acak yang mengekspresikan penyimpangan amatan dari rataan dan diasumsikan mengikuti sebaran normal rataan nol dan varian konstan.

Pada pola distribusi bersyarat errornya diekspresikan sebagai mempunyai salah satu dari dua kemungkinan nilai error yaitu :

Jika , maka dengan peluang

Jika , maka dengan peluang

Maka nilai errornya mempunyai rataan nol dan varian , yang mengikuti distribusi Binomial (Hosmer, 1989)Estimasi Parameter

Suatu model yang memiliki respon biner, dimana antar amatan diasumsikan bebas dan nilai harapan variabel tak bebasnya tidak linier terhadap parameter, maka pendugadapat diperoleh dengan metode maximum likelihood. Metode maximum likelihood merupakan penduga yang konsisten dan efisien untuk ukuran sampel besar , dimana s adalah jumlah parameter. Maximum Likelihood Estimation adalah suatu fungsi dari parameter yang memaksimumkan peluangnya untuk menduga parameter.

Pada dasarnya metode maximum likelihood memberikan nilai dugaan dengan memaksimumkan suatu fungsi likelihood. Fungsi likelihood yang dimaksimumkan adalah :

(2.9)karena setiap pengamatan bebas maka fungsi likelihood merupakan fungsi kepadatan gabungan dimana adalah vektor, yaitu :

(2.10)dengan melakukan transformasi logit terhadap model regresi logistik pada Persamaan (2.10) maka didapatkan :

(2.11)

Untuk mendapatkan nilai taksiran menggunakan Maximum Likelihood Estimatian adalah dengan memaksimalkan fungsi likelihood. Secara matematis akan lebih mudah untuk memaksimalkan nilai yang dapat disebut log likelihood, yang didefinisikan sebagai berikut :

(2.12)

Untuk mendapatkan nilai, maka dilakukan penurunan pada Persamaan (2.12) terhadap. Hasil turunan parsial pertama dari Persamaan (2.12) adalah :

(2.13)Metode yang digunakan untuk melakukan estimasi varian dan kovarian adalah pengembangan dari teori Maximum Likelihood Estimation. Teori ini menyatakan bahwa estimasi varian dan kovarian diperoleh dari turunan kedua fungsi likelihood.

Turunan kedua fungsi likelihood terhadap adalah sebagai berikut :

(2.14)untuk b = u adalah estimasi varian yang dapat ditulis menjadi:

(2.15)dimana : b, u = 0,1,2,...,k (parameter)

Untuk mendapatkan Maximum Likelihood Estimatian bagi digunakan metode Newton Rhapson melalui iterasi sebagai berikut :

(2.16)dimana t = 0,1,2,...sampai konvergen dengan

(2.17)

(2.18)

Adapun langkah langkah estimasidengan pendekatan estimasi Newton Rhapson adalah, adalah sebagai berikut :a.

Mensubstitusikan estimasi kedalam Persamaan (2.2) untuk mendapatkan . b. Mensubstitusikan kedalam Persamaan (2.15). c.

Untuk t > 0 digunakan nilai , nilai digunakan untuk mencari sehingga mendapatkan dan untuk memperoleh sampai konvergen.Pengujian Estimasi ParameterPengujian statistik dilakukan untuk menentukan apakah variabel variabel bebas yang terdapat dalam model tersebut memiliki hubungan yang nyata dengan variabel tak bebasnya. Pengujian ini dilakukan sebagai berikut : 1. Uji Serentak Dilakukan untuk memeriksa kemaknaan koefisien secara serentak dan hipotesa pengujiannya adalah Ho : 0 = 1 = ...........= k = 0H1 : paling sedikit ada satu k 0Statistik uji yang digunakan adalah statistik uji G atau Likelihood Ratio Test, yaitu

(2.19)

atau

G = 2

Dimana: n1 = banyaknya observasi yang berkategori 1 atau

n0 = banyaknya observasi yang berkategori 0 atau n = n0 + n1

Nilai G yang diperoleh dibandingkan dengan distribusi Chi Square dengan derajat bebas dan untuk menolak H0.

Tolak H0 jika G > atau jika nilai p value < .2. Uji ParsialUntuk memeriksa kemaknaan koefisien secara parsial dengan membandingkan dugaan dengan penduga standar errornya.Hipotesis :

Ho :

H1 : Dengan Statistik uji Wald :

(2.20)

Statistik uji mengikuti distribusi, sehingga H0 ditolak jika nilai atau p-value atau p-value < maka model tersebut tidak sesuai. Interpretasi ModelMenurut Hosmer (1989) interpretasi dari koefisien model adalah sebagai berikut :1. Untuk menjelaskan hubungan fungsional antara variabel variabel bebas dengan variabel tak bebas.2. Untuk menentukan unit perubahan setiap variabel bebas.

Odds Ratioyaitu nilai yang menunjukkan besarnya pengaruh antara kategori satu dengan kategori dua (kategori dua terhadap respon dengan kategori pembanding) dalam satu variabel tersebut. Jika variabel tak bebas dikategorikan dalam 2 kategori dan dinyatakan dengan 0 dan 1 dan variabel bebas juga dibagi dalam 2 kategori dan dinyatakan dengan kode 0 dan 1. Sehingga akan didapatkan model dengan 2 nilai dan 2 nilai 1-.Tabel 2.1 Probabilitas Nilai Regresi LogistikVariabel bebas

X = 1X = 0

Variabel tak bebas Y = 1

Y = 0

Odds ratio dilambangkan dengan dan dinyatakan sebagai :

(2.23)

nilai menyatakan bahwa variabel bebas dengan kategori 1 berpengaruh kali dari kategori 0 terhadap variabel tak bebas. Uji Independensi Untuk mengetahui hubungan antara variabel A dan B digunakan uji independensi. Adapun hipotesis yang digunakan adalah :H0 : Tidak ada hubungan antara variabel A dan B H1 : Ada hubungan antara variabel A dan BDalam bentuk peluang, hipotesis H0 dan H1 dapat ditulis sebagai berikut :

H0 :

H1 :

Jika A dan B saling bebas, maka :

Taksiran parameter untuk , adalah :

(2.24)

Nilai harapan sel frekuensinya : Taksiran nilai harapan jika H0 benar adalah :

(2.25)Statistik uji yang digunakan adalah :

(2.26)

Jika H0 benar, maka statistik uji mendekati distribusi Chi Square dengan derajat bebas = (a1)(b1). Kriteria penolakan H0 adalah jika