regresi logistik

6
STATISTIKA DASAR (MT308) AGUNG ANGGORO 1200053 MATEMATIKA C 2012 Topik : Regresi Logistik Pendahuluan Regresi logistik merupakan teknik pemodelan pada suatu kondisi dimana variabel dependennya (variabel respon) bersifat memiliki dua buah nilai (dikotomi), sedangkan variabel independennya berskala interval atau rasio. Misalkan pengaruh kemampuan matematika pada peserta tes SNMPTN terhadap keberhasilan peserta diterima di Program Studi Pendidikan Matematika. Kemampuan matematika adalah variabel independen sedangkan keberhasilan peserta adalah variabel terikat dimana bernilai 1 jika diterima dan 0 jika tidak diterima di Program Studi Pendidikan Matematika UPI. Persamaan regresi logistik tidak menghasilkan nilai pada variabel dependen, namun menghasilkan peluang kejadian pada variabel dependen. Pada kasus diatas berarti akan dihasilkan probabilitas peserta tes SNMPTN diterima di Program Studi Pendidikan Matematika berdasarkan kemampuan matematikanya. Asumsi (Ariyoso, 2009) Pada model regresi logistik, asumsi-asumsi berikut harus dipenuhi : 1. Kategori dalam variabel independen harus terpisah satu sama lain atau bersifat eksklusif. 2. Sampel yang diperlukan dalam jumlah relatif besar, minimum dibutuhkan hingga 50 sampel data untuk sebuah variabel bebas. Model Regresi Logistik Model regresi logistik menggunakan transformasi logit. Model umum regresi logistik untuk k variabel independen adalah berdasarkan persamaan berikut : ( = 1) = 0 + 1 1 + 2 2 +⋯+ 1+ 0 + 1 1 + 2 2 +⋯+ “Model regresi logistik adalah model linear logit(P) sebagai kombinasi linier dari variabel penjelas x. Seperti halnya dalam regresi linear, kita bisa mendapatkan nilai-nilai intercept dan slope dari model tersebut” (Sartono, 2010). Sehingga, persamaan regresi logistik juga dapat dinyatakan sebagai berikut : (ekuivalen dengan persamaan di atas) Logit(Pi) = 0 + 1 1 + 2 2 +⋯+ Dengan logit(Pi) = ln( 1− ) Variabel independen pada tingkat yang paling rendah akan menyebabkan probabilitasnya mendekati 0. Ketika nilai pada variabel independen meningkat, probabilitasnya juga meningkat (kurva naik), tetapi pada titik tertentu kemudian slopenya mulai menurun, pada berbagai tingkat variabel independen probabilitasnya akan mendekati 1 tetapi tidak pernah lebih dari 1. (Regresi logistik positif)

Upload: agung-anggoro

Post on 21-Feb-2017

255 views

Category:

Science


10 download

TRANSCRIPT

Page 1: Regresi Logistik

STATISTIKA DASAR (MT308)

AGUNG ANGGORO 1200053 MATEMATIKA C 2012

Topik : Regresi Logistik

Pendahuluan

Regresi logistik merupakan teknik pemodelan pada suatu kondisi dimana variabel dependennya (variabel respon) bersifat memiliki dua buah nilai (dikotomi), sedangkan variabel independennya berskala interval atau rasio. Misalkan pengaruh kemampuan matematika pada peserta tes SNMPTN terhadap keberhasilan peserta diterima di Program Studi Pendidikan Matematika. Kemampuan matematika adalah variabel independen sedangkan keberhasilan peserta adalah variabel terikat dimana bernilai 1 jika diterima dan 0 jika tidak diterima di Program Studi Pendidikan Matematika UPI. Persamaan regresi logistik tidak menghasilkan nilai pada variabel dependen, namun menghasilkan peluang kejadian pada variabel dependen. Pada kasus diatas berarti akan dihasilkan probabilitas peserta tes SNMPTN diterima di Program Studi Pendidikan Matematika berdasarkan kemampuan matematikanya.

Asumsi

(Ariyoso, 2009) Pada model regresi logistik, asumsi-asumsi berikut harus dipenuhi :

1. Kategori dalam variabel independen harus terpisah satu sama lain atau bersifat eksklusif. 2. Sampel yang diperlukan dalam jumlah relatif besar, minimum dibutuhkan hingga 50 sampel

data untuk sebuah variabel bebas.

Model Regresi Logistik

Model regresi logistik menggunakan transformasi logit. Model umum regresi logistik untuk k variabel independen adalah berdasarkan persamaan berikut :

𝑃(𝑦𝑖 = 1) = 𝑒𝛽0+𝛽1𝑥1𝑖+𝛽2𝑥2𝑖+⋯+𝛽𝑘𝑥𝑘𝑖

1 + 𝑒𝛽0+𝛽1𝑥1𝑖+𝛽2𝑥2𝑖+⋯+𝛽𝑘𝑥𝑘𝑖

“Model regresi logistik adalah model linear logit(P) sebagai kombinasi linier dari variabel

penjelas x. Seperti halnya dalam regresi linear, kita bisa mendapatkan nilai-nilai intercept dan slope dari model tersebut” (Sartono, 2010). Sehingga, persamaan regresi logistik juga dapat dinyatakan sebagai berikut : (ekuivalen dengan persamaan di atas)

Logit(Pi) = 𝛽0 + 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + ⋯ + 𝛽𝑘𝑥𝑘𝑖

Dengan logit(Pi) = ln (𝑃𝑖

1−𝑃𝑖)

Variabel independen pada tingkat yang paling rendah akan menyebabkan probabilitasnya mendekati 0. Ketika nilai pada variabel independen meningkat, probabilitasnya juga meningkat (kurva naik), tetapi pada titik tertentu kemudian slopenya mulai menurun, pada berbagai tingkat variabel independen probabilitasnya akan mendekati 1 tetapi tidak pernah lebih dari 1. (Regresi logistik positif)

Page 2: Regresi Logistik

Nilai pada 𝑃𝑖

1−𝑃𝑖 disebut sebagai odds ratio responden ke-i. Odds ratio merupakan

perbandingan antara keberhasilan dan ketidakberhasilan.

Sumber : ats.ucla.edu

Gambar di atas merupakan contoh kurva pada model regresi logistik dengan satu macam variabel bebas. Sumbu x pada kurva merepresentasikan nilai-nilai pada variabel bebas, sedangkan sumbu y merepresentasikan probabilitas kejadian variabel dependen bernilai 1.

Menduga Koefisien dan Konstanta pada Model Regresi Logistik Sederhana

Untuk menduga koefisien dan konstanta (intercept) pada model regresi logistik tidak

digunakan metode least square sebagaimana pada model regresi linier. Pada regresi logistik metode maximum likelihood digunakan untuk menduga koefisien dan konstanta (intercept). Model regresi logistik sederhana terdiri atas satu set variabel independen dan variabel dependen yang dikotomus. Bentuk persamaan regresi logistik sederhana adalah sebagai berikut :

Logit(Pi) = 𝛽0 + 𝛽1𝑥𝑖

Koefisien 𝛽0 dan 𝛽1 selanjutnya diduga menggunakan metode maximum log-likelihood, yaitu mencari nilai koefisien yang memaksimumkan fungsi berikut ini :

𝐿𝐿 = ∑ 𝑦𝑖

𝑛

𝑖=1ln 𝑃𝑖 + (1 − 𝑦𝑖)ln (1 − 𝑃𝑖)

Penduga bagi koefisien 𝛽0 dan 𝛽1 diperoleh sebagai solusi bagi permasalahan

memaksimumkan LL (akan dibahas pada contoh kasus). Metode demikian dapat juga digunakan pada regresi logistik dengan sejumlah variabel independen dengan bantuan perangkat lunak statistik seperti SPSS, MiniTab, dan sejenisnya. Untuk memeriksa kontribusi variabel-variabel penielas (x) dalam model, dilakukan penguiian terhadap parameter model (β).

(Sartono, 2010) Pengujian peranan variabel bebas dalam model dapat dilakukan

menggunakan uji likelihood ratio dengan formula :

𝐺 = −2ln (𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 𝑇𝑎𝑛𝑝𝑎 𝑉𝑎𝑟𝑖𝑎𝑏𝑒𝑙 𝐵𝑒𝑏𝑎𝑠

𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 𝑀𝑜𝑑𝑒𝑙)

atau

G = -2(LL Tanpa Variabel Bebas – LL Model )

Page 3: Regresi Logistik

dengan

LL Tanpa Variabel bebas = ∑ 𝑦𝑖𝑛𝑖=1 ln(𝑃𝑟𝑜𝑝𝑜𝑟𝑠𝑖 𝑦 = 1) + (1 − 𝑦𝑖)ln (1 − (𝑃𝑟𝑜𝑝𝑜𝑟𝑠𝑖 𝑦 = 1))

Hipotesis yang digunakan adalah sebagai berikut : H0 : β1 = β2 = . . . = βk = 0 (koefisien tidak signifikan)

H1 : minimal ada satu β1 yang tidak sama dengan 0 (koefisien signifikan) Pada regresi logistik sederhana, maka hipotesis yang digunakan :

H0 : β1 = 0 (koefisien tidak signifikan)

H1 : β1 ≠ 0 (koefisien signifikan)

Statistik G ini secara teoritis mengikuti sebaran χ2 dengan derajat bebas k, untuk k variabel bebas. Kriteria keputusan yang diambil yaitu menolak H0 bila Ghitung > χ2

α(k).

Contoh Kasus (Data Fiktif) Contoh penggunaan model regresi logistik sederhana adalah pada data berikut.

DATA KEMAMPUAN MATEMATIKA PESERTA TES SNMPTN DAN KEBERHASILAN PESERTA DITERIMA DI PROGRAM STUDI PENDIDIKAN MATEMATIKA (DATA FIKTIF)

No. Kemampuan

Matematika (x) Keberhasilan

(y)

1. 82 1

2. 87 1

3. 83 0

4. 80 0

5. 82 0

6. 82 1

7. 80 1

8. 85 1

9. 80 0

10. 82 0

11. 79 0

12. 81 0

13. 82 0

14. 80 0

15. 83 1

16. 82 0

17. 83 0

18. 80 1

19. 81 0

20. 82 0

21. 80 0

22. 79 0

23. 80 0

24. 79 0

25. 82 1

26. 79 0

27. 80 0

28. 79 0

29. 80 0

30. 80 0

31. 79 0

32. 80 0

33. 80 0

34. 79 0

35. 85 1

Page 4: Regresi Logistik

36. 80 1

37. 79 1

38. 81 0

39. 79 0

40. 81 0

41. 83 1

42. 79 0

43. 80 0

44. 80 0

45. 80 0

46. 79 1

47. 80 0

48. 80 0

49. 80 0

50. 80 0

51. 88 1

52. 83 1

53. 82 1

54. 81 1

55. 82 1

56. 82 1

Kita akan menduga 𝛽0 dan 𝛽1 untuk persamaan berikut yaitu model regresi logistik dari data di

atas.

𝑃(𝑌 = 1) = 𝑒𝛽0+𝛽1𝑥𝑖

1 + 𝑒𝛽0+𝛽1𝑥𝑖

Koefisien 𝛽0 dan 𝛽1 merupakan solusi sedemikian sehingga memaksimumkan fungsi berikut :

𝐿𝐿 = ∑ 𝑦𝑖

𝑛

𝑖=1ln 𝑃𝑖 + (1 − 𝑦𝑖)ln (1 − 𝑃𝑖)

Menurut Bagus Sartono, solusi dalam memaksimumkan fungsi LL dapat dilakukan dengan

bantuan fasilitas Solver pada Microsoft Excell. Langkah-langkah yang harus dilakukan diuraikan seperti berikut ini.

Seluruh data dari 56 responden diinput pada sel-sel Excell dan masukkan formula pada sel-sel tertentu seperti seperti gambar berikut. (Tambahkan tanda sama dengan (=) di awal). Formula-formula yang digunakan merupakan rumus-rumus yang telah dibahas sebelumnya yaitu rumus probabilitas dan fungsi Log-Likehood (LL). Sedangkan, sel C3 dan C4 pertama-tama diisi sebarang nilai.

Page 5: Regresi Logistik

Kemudian digunakan fasilitas Solver untuk menemukan solusi untuk LL model maksimum. Solver harus diaktifkan terlebih dahulu pada Options > Add-ins jika belum diaktifkan. Kemudian klik sel F3, klik tap data kemudian klik Solver.

Penggunaan Solver untuk memaksimumkan nilai fungsi LL (sel F3) yaitu dengan mengganti nilai pada sel C3 dan C4 (𝛽0 dan 𝛽1 ) yang sebelumnya telah diisi sembarang nilai adalah sebagai berikut

Hasil akhir pengerjaan ini adalah sebagai berikut

Page 6: Regresi Logistik

Kita telah memperoleh (menduga) β0 = -58,973 dan β1 = 0,719. Untuk memeriksa apakah koefisien yang telah diperoleh signifikan, dilakukan uji dengan likelihood ratio (uji G). Dari

pengerjaan di atas diperoleh LL model = -28,099 dan LL tanpa variabel bebas = -35,871. Hipotesis yang akan diuji adalah sebagai berikut, dengan taraf signifikansi α = 0,05.

H0 : β1 = 0 (koefisien tidak signifikan)

H1 : β1 ≠ 0 (koefisien signifikan)

Diperoleh G sama dengan 15,544. Sedangkan χ20,05(1) = 3,841. Karena G > 3,841 maka H0

ditolak. sehingga dapat disimpulkan bahwa variabel x (kemampuan matematika peserta tes) memiliki pengaruh signifikan terhadap keberhasilan diterima di program studi matematika.

“Interpretasi regresi logistik menggunakan odds ratio (ψ). yang menjelaskan berapa kali lipat kenaikan atau penurunan peluang y = 1, jika nilai variabel penjelas (x) berubah sebesar nilai tertentu” (Olis). Nilai odds ratio selalu positif. Hubungan antara odds ratio (ψ) dan koefisien variabel x (β) dijelaskan oleh persamaan berikut :

Ψab = e β(b-a)

Ψab adalah odds ratio antara objek dengan nilai x=b terhadap objek dengan nilai x=a. Dalam

contoh kasus untuk a=80 dan b=82, Ψ = e 0,719(82-80) = 4,212. Artinya, peserta dengan nilai 82

memiliki peluang diterima 4,212 kali lebih besar daripada peserta dengan nilai 80 atau peluang diterima bertambah 4,212 kali lipat ketika kemampuan matematika bertambah sebesar 2.

Referensi Ariyoso. (2009, November 11). Regresi Logistik Biner. Diambil kembali dari Statistik 4 Life:

http://ariyoso.wordpress.com/2009/11/11/regresi-logistik/

Olis. (t.thn.). Hand Out Materi Pelatihan Analisis Statistik untuk Kesehatan. Diambil kembali dari Statistika Unhalu.

Sartono, B. (2010). Menduga dan Menguji Koefisien Regresi Logistik Biner.