pemodelan statistika dengan metode generalisasi model (glm)

22
Tugas Individu Final test Disusun oleh: Iswan Rahman (H12112286) Regresi Logistik Biner Dengan Generalised Linier Model Pengaruh Rokok dan Riwayat Kanker Terhadap Kanker Paru

Upload: iswan

Post on 06-Nov-2015

33 views

Category:

Documents


12 download

DESCRIPTION

tugas final pemodelan statistika

TRANSCRIPT

Tugas IndividuFinal testRegresi Logistik Biner Dengan Generalised Linier ModelPengaruh Rokok dan Riwayat Kanker Terhadap Kanker Paru

Disusun oleh:

Iswan Rahman (H12112286)

JURUSAN MATEMATIKAFAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAMUNIVERSITAS HASANUDDINMAKASSAR2015

ABSTRAK

Berdasarkan data mengenai kanker paru dari jumlah 200 orang. Mengenai adanya pengaruh dari merokok dan genetik atau riwayat kanker, maka perlu dianalisis. Dalam analisis ini, faktor-faktor yang digunakan sebagai prediktor adalah rokok dan riwayat kanker. Hasil uji regresi logistik biner menunjukkan bahwa kedua variable predictor signifikan berpengaruh terhadap kanker paru.

BAB IPENDAHULUAN1.1 Latar BelakangKanker paru merupakan salah satu jenis kanker yang mempunyai tingkat insidensi yang tinggi di dunia, sebanyak 17% insidensi terjadi pada pria (peringkat kedua setelah kanker prostat) dan 19% pada wanita (peringkat ketiga setelah kanker payudara dan kanker kolorektal).Menurut data WHO tahun 2012, tercatat sebanyak 8,2 juta orang di dunia meninggal akibat kanker, sekitar 1,59 juta diantaranya meninggal karena kanker paru, kanker paru menempati posisi pertama menurut WHO dengan jumlah kematian terbanyak. Menurut WHO faktor resiko utama penyebab kanker paru adalah tembakau. Menurut studi tentang hubungan tembakau dan kanker paru, sekitar 80-90% kanker paru disebabkan karena merokok. Menurut data yang saya dapat dari website tembakau internasional, tercatat bahwa Indonesia merupakan negara dengan angka perokok laki-laki terbanyak di dunia.Tecatat pada tahun 2012, 2 dari 3 laki-laki di Indonesia atau sekitar 67% adalah perokok aktif. Factor lainnya adalah genetik, bahwa riwayat anggota keluarga kanker paru memiliki resiko lebih besar terkena penyakit ini. Bahwa mutasi pada proonton dan gen-gen penekan tumor memiliki arti penting dalam timbul dan berkembangnya kanker paru.1.2 Rumusan MasalahUntuk itu dalam pembahasan ini akan di buktikan apakah ada pengaruh rokok dan riwayat keluarga penderita kanker memberikan pengaruh yang signifikan terhadap penyakit kanker paru.

BAB IITINJAUAN PUSTAKAA. Generalised Linear Model (GLM)Gereralized linear model (GLM) merupakan sebuah metode untuk mengantisifikasi hubungan antar variable respon (bebas) dengan variable predictor (terikat). Dengan menggunakan GLM, kita dapat menjelaskan bagaimana perubahan nilai dari variable respon apabila terdapat perubahan dari variable-variabel predictor. Dua hal yang harus di perhatikan dalam penggunaan GLM ialah:1. Distribusi dari variable respon merupakan anggota dari distribusi keluarga eksponensial .2. Transformasi terhadap nilai mean dari variable respon memiliki hubungan dengan variable-variabel prediktornya.

B. Regresi Logistik BinerRegresi logistik biner adalah suatu metode analisis data yang digunakan untuk mencari hubungan antara variable respon (y) yang bersifat biner dengan variabel prediktor (x) (Hosmer dan Lemeshow, 2000)[2]. Variabel respon y terdiri dari 2 kategori yaitu sukses dan gagal yang dinotasikan dengan y=1 (sukses) dan y=0 (gagal). Dalam keadaan demikian, variabel y mengikuti distribusi Bernoulli untuk setiap observasi tunggal. Fungsi Probabilitas untuk setiap observasi adalah diberikan sebagai berikut.

Dimana jika y = 0 maka f(y) = 1 dan jika y = 1 maka f(y)= . Fungsi regresi logistiknya dapat dituliskan sebagai berikut:

Model regresi logistiknya adalah sebagai berikut

Dimana p = banyaknya variabel predictor Model transformasi logit dari (x) dari persamaan diatas dapat dituliskan sebagai berikut:

Statistic W untuk uji signifikansi parameter regresi losgistik:

Wilayah kritis

Rumus untuk penentuan Odds Ordo

Dimana:P = peluang dari peristiwa yang terjadiP -1= peluang dari peristiwa yang tidak terjadi

BAB IIIMETOLOGI PENELITIAN1.1 Sumber DataData yang digunakan dalam penelitian ini berasal dari data individu dari hasil survei dengan jumlah sampel individu sebanyak 200 orang. Dari data tersebut diperoleh jumlah data individu yang terdiri dari 3 variabel, yaitu perokok dan riwayat kanker sebagai prediktor dan kanker paru sebagai variable respon.1.2 Variabel PenelitianDi mana variabel bebas ada 2 yaitu rokok dan riwayat kanker pada keluarga dan variabel terikatnya adalah kejadian kanker paru. Rokok terdiri dari 2 kategori yaitu "tidak merokok (kode 0)" dan "merokok (kode 1)." Riwayat terdiri dari 2 kategori yaitu "tidak ada riwayat (kode 0)" dan "ada riwayat (kode 1)." Kanker paru terdiri dari 2 kategori yaitu "tidak mengalami kanker (kode 0)" dan "mengalami kanker (kode 1)." Sebagai catatan: kategori yang terburuk diberi kode 1 dan kategori yang terbaik diberi kode 0. 1.3 Langkah AnalisisLangkah-langkah analisis yang digunakan dalam penelitian ini yaitu sebagai berikut:1. Melakukan analisis data dengan statistik deskriptif2. Melakukan uji independensi untuk semua variabel menggunakan uji pearson chi-square.3. Melakukan pengujian parameter secara serentak dan parsial untuk setiap variable4. Melakukan pemilihan model terbaik5. Melakukan uji kesesuaian model6. Melakukan uji ketepatan klasifikasi.7. Melakukan uji kesamaan dua model dalam regresi logistik biner.8. Melakukan estimasi parameter dari variabel yang signifikan

BAB IVHASIL DAN PEMBAHASANTabel Iteration History pada block Saat variabel independen tidak dimasukkan dalam model: N=200 mendapatkan Nilai-2 Log Likelihood: 276,939. DF = N - 1 = 200-1=199. Chi-Square (X2) Tabel Pada DF 199 dan Prob. 0.05 = 232,912. Nilai -2 Log Likelihood(276,939) > X2 tabel (232,912) sehingga menolak H0, maka menunjukkan bahwa model sebelum memasukkan variabel independen adalah tidak fit dengan data.Tabel Classifacation Table: Terlihat bahwa yang "Mengalami Kanker" sebanyak 104.,Sedangkan yang "Tidak mengalami Kanker" sebanyak 96 orang dari sebanyak 200 orang. Sehingga nilaioverall percentagesebelum variabel independen dimasukkan ke dalam model sebesar: 104/200 = 52,0%.Tabel Variables in The Equation: Saat sebelum variabel independen di masukkan ke dalam model. B dari Konstanta adalah sebesar 0,080 dengan Exp(B) sebesar 1,083. Nilai Signifikansi atau p value dari uji Wald sebesar 0,572 > dari nilai alfa 0,05 artinya konstanta tdk layak di masukkan dalam model.Tabel Iteration history Block 1 atau saat variabel independen dimasukkan dalam model: N=200. Degree of Freedom (DF) = N - jumlah variabel independen - 1 = 200-2-1=197. Chi-Square (X2) Tabel Pada DF 197 dan Prob 0.05 = 230,746.Nilai -2 Log Likelihood(207,575) < X2 tabel (230,746) sehingga menerima H0, maka menunjukkan bahwa model dengan memasukkan variabel independen adalah FIT dengan data. Hal ini berbeda denganBlock Beginningdi atas, di mana saat sebelum variabel independen dimasukkan ke dalam model, model tidak fit dengan data.Tabel omnibus tests of model coefficients: Tampak bahwa selisihnya (-2 Log likelihood sebelum variabel independen masukmodel:276,939dikurangi -2 Log likelihood setelah variabel independen masuk model:207,575= 69,364) adalahnilai chi-square69,394.Nilai X269,394> X2 tabel pada DF 2 (jumlah variabel independen 2) yaitu 5,991 atau dengan signifikansi sebesar 0,000 (< 0,05) sehingga menolak H0, yang menunjukkan bahwa penambahan variabel independen dapat memberikan pengaruh nyata terhadap model, atau dengan kata lain model dinyatakan fit.Sehingga jawaban terhadap hipotesis pengaruh simultan variabel independen terhadap variabel dependen adalah menerima H1 dan menolak H0 atau yang berarti ada pengaruh signifikan secara simultan merokok dan riwayat keluarga terhadap kejadian kanker paru oleh karena nilai p value Chi-Square sebesar 0,000 di mana < Alpha 0,05 atau nilai Chi-Square Hitung 69,364 > Chi-Square tabel 5,991.

Tabel model summary: Untuk melihat kemampuan variabel independen dalam menjelaskan variabeldependen, digunakan nilaiCox & Snell R SquaredanNagelkerke R Square.NilaiNagelkerke R Squaresebesar 0,391 danCox & Snell R Square0,293, yang menunjukkan bahwa kemampuan variabelindependendalam menjelaskan variabeldependenadalah sebesar 0,391 atau 39,1%danterdapat 100% - 39,1% = 60,9% faktor lain di luar model yang menjelaskan variabel dependen.Hosmer and Lemeshow Test adalah ujiGoodness of fit test (GoF), yaitu uji untuk menentukan apakah model yang dibentuk sudah tepat atau tidak. Dikatakan tepat apabila tidakada perbedaan signifikan antara model dengan nilai observasinya.NilaiChi Squaretabel untuk df 1 (Jumlah variabel independen - 1) pada taraf signifikansi 0,05 adalah sebesar 3,841. Karena nilaiChi Square Hosmer and Lemeshowhitung 13,671 > Chi Square table 3,841 atau nilai signifikansi sebesar 0,000 (< 0,05) sehingga H0 di tolak, yang menunjukkan bahwa model tidak dapat diterima dan pengujian hipotesis tidak dapat dilakukan sebabada perbedaan signifikan antara model dengan nilai observasinya. Karena nilai Hosmer and Lemeshow Test menolak H0, sebaiknya untuk membuat agar nilai Hosmer and Lemeshow Test menerima H0. Caranya adalah dengan mengubah model persamaan regresi logistik dengan menambahkan variabel interaksi antar variabel independen. Misal pada kasus di sini, dengan menambahkan variabel interaksi antara X1 dan X2. Untuk sementara, seolah-olah hasil uji Hosmer and Lemeshow Test menerima H0.TabelClassification Table: jumlah sampel yang tidak mengalami kanker 78 + 18 = 96 orang.Yang benar-benar tidak mengalami kanker sebanyak 78 orang dan yang seharusnya tidak mengalami kanker namun mengalami, sebanyak 18 orang. Jumlah sampel yang mengalami kanker 27 + 77 = 104 orang.Yang benar-benar mengalami kanker sebanyak 27 orang dan yang seharusnya mengalami kanker namun tidak mengalami, sebanyak 77 orang.Tabel di atas memberikan nilaioverall percentagesebesar (78+77)/200 = 77,5% yang berarti ketepatan model penelitian ini adalah sebesar 77,5%.

Variables in the Equation

BS.E.WalddfSig.Exp(B)

Step 1ax11.837.45516.3011.0006.277

x2.973.4524.6381.0312.645

Constant-1.214.24025.5781.000.297

a. Variable(s) entered on step 1: x1, x2.

Hipotesis:H0= koefisien regresi tidak signifikanH1= koefisien regresi signifikan.Semua variabel independen nilai P value uji wald (Sig) < 0,05, artinya masing-masing variabel mempunyai pengaruh parsial yang signifikan terhadap Y di dalam model. X1 atau merokok mempunyai nilai Sig Wald 0,000 < 0,05 sehingga menolak H0 atau yang berarti merokok memberikan pengaruh parsial yang signifikan terhadap kejadian kanker paru. X2 atau riwayat keluarga mempunyai nilai Sig Wald 0,031 < 0,05 sehingga menolak H0 atau yang berartiriwayat keluargamemberikan pengaruh parsial yang signifikan terhadap kejadian kanker paru.Besarnya pengaruh ditunjukkan dengan nilai EXP (B). Variabel Merokok dengan OR 6,277 maka orang yang merokok, lebih beresiko mengalami kanker paru sebanyak 6,277 kali lipat di bandingkan orangyang tidak merokok. Nilai B = Logaritma Natural dari 6,277 = 1,837. Variabel Riwayat Keluarga dengan OR 2,645 maka orang yang ada riwayat keluarga, lebih beresiko mengalami kanker paru sebanyak2,645kali lipat dibandingkan orangyang tidak ada riwayat keluarga. Nilai B = Logaritma Natural dari2,645= 0,973. Oleh karena nilai B bernilai positif, maka riwayat keluarga mempunyai hubungan positif dengan kejadian kanker.Berdasarkan nilai-nilai B pada perhitungan di atas, maka model persamaan yang dibentuk adalah sebagai berikut:g(X)= -1,214 + 1,837X1 + 0,973X2Atau bisa menggunakan rumus turunan dari persamaan di atas, yaitu:

Misalkan sampel yang merokok dan ada riwayat keluarga, maka merokok=1 dan riwayat keluarga=1. Jika dimasukkan ke dalam model persamaan di atas, maka sebagai berikut:

Karena probabilitas 0,8315 > 0,05 maka nilaiPredicted Group Membershipdari sampel di atas adalah 1. Di mana 1 adalah kode mengalami kanker. Jadi jika sampel merokok (kode 1) dan ada riwayat keluarga (kode 1) maka prediksinya adalah mengalami kanker (kode 1). Jika seandainya sampel yang bersangkutan ternyata faktanya tidak mengalami kanker (kode 0) maka sampel tersebut keluar dari nilai prediksi.

BAB VPENUTUP5.1 KesimpulanModel logit untuk data pengaruh rokok dan riwayat kanker terhadap kanker paru adalah sebagai berikut :Y= -1,214 + 1,837X1 + 0,973X2Merokok dan adanya riwayat keluarga yang menderita kanker mempunyai memberikan pengaruh yang signifikan terhadap terjadinya kanker paru. Dimana orang yang merokok, lebih beresiko mengalami kanker paru sebanyak 6,277 kali lipat di bandingkan orangyang tidak merokok dan orang yang ada riwayat keluarga, lebih beresiko mengalami kanker paru sebanyak2,645kali lipat dibandingkan orangyang tidak ada riwayat keluarga.

5.2 SaranDiharapkan agar kiranya untuk tidak merokok dan berada dekat dengan orang yang merokok, untuk mengurangi resiko terjadinya kanker paru.

LampiranData:No.X1X2YNo.X1X2Y

1.000101.111

2.010102.000

3.100103.111

4.111104.100

5.110105.111

6.000106.000

7.000107.010

8.111108.100

9.001109.111

10.010110.110

11.001111.000

12.110112.000

13.000113.001

14.110114.111

15.100115.001

16.110116.111

17.110117.111

18.111118.010

19.010119.111

20.110120.101

21.000121.111

22.000122.000

23.001123.010

24.111124.100

25.111125.111

26.111126.110

27.111127.000

28.000128.000

29.000129.111

30.111130.111

31.000131.111

32.111132.111

33.111133.000

34.111134.000

35.000135.111

36.011136.000

37.000137.111

38.111138.111

39.101139.111

40.110140.000

41.000141.011

42.111142.000

43.000143.111

44.001144.101

45.001145.110

46.000146.000

47.111147.111

48.001148.000

49.111149.001

50.000150.001

51.111151.000

52.111152.111

53.111153.001

54.000154.111

55.010155.000

56.001156.111

57.001157.111

58.100158.111

59.001159.000

60.000160.010

61.000161.001

62.000162.001

63.111163.100

64.111164.001

65.000165.000

66.000166.000

67.000167.000

68.111168.111

69.000169.111

70.111170.000

71.111171.000

72.000172.000

73.010173.111

74.111174.000

75.111175.111

76.111176.111

77.111177.000

78.000178.010

79.111179.111

80.000180.111

81.000181.111

82.000182.111

83.000183.000

84.001184.111

85.001185.000

86.000186.000

87.111187.000

88.010188.000

89.111189.001

90.000190.001

91.111191.000

92.001192.111

93.111193.010

94.001194.111

95.000195.000

96.000196.111

97.010197.001

98.100198.111

99.111199.001

100.110200.000

Case Processing Summary

Unweighted CasesaNPercent

Selected CasesIncluded in Analysis200100.0

Missing Cases0.0

Total200100.0

Unselected Cases0.0

Total200100.0

a. If weight is in effect, see classification table for the total number of cases.

Dependent Variable Encoding

Original ValueInternal Value

tidak mengalami kanker0

mengalami kanker1

Block 0: Beginning BlockIteration Historya,b,c

Iteration-2 Log likelihoodCoefficients

Constant

Step 01276.939.080

2276.939.080

a. Constant is included in the model.

b. Initial -2 Log Likelihood: 276.939

c. Estimation terminated at iteration number 2 because parameter estimates changed by less than .001.

Classification Tablea,b

ObservedPredicted

yPercentage Correct

tidak mengalami kankermengalami kanker

Step 0ytidak mengalami kanker096.0

mengalami kanker0104100.0

Overall Percentage52.0

a. Constant is included in the model.

b. The cut value is .500

Variables in the Equation

BS.E.WalddfSig.Exp(B)

Step 0Constant.080.142.3201.5721.083

Variables not in the Equation

ScoredfSig.

Step 0Variablesx161.1911.000

x250.2611.000

Overall Statistics64.6052.000

Block 1: Method = EnterIteration Historya,b,c,d

Iteration-2 Log likelihoodCoefficients

Constantx1x2

Step 11208.765-1.0771.621.790

2207.580-1.2081.823.962

3207.575-1.2141.837.973

4207.575-1.2141.837.973

a. Method: Enter

b. Constant is included in the model.

c. Initial -2 Log Likelihood: 276.939

d. Estimation terminated at iteration number 4 because parameter estimates changed by less than .001.

Omnibus Tests of Model Coefficients

Chi-squaredfSig.

Step 1Step69.3642.000

Block69.3642.000

Model69.3642.000

Model Summary

Step-2 Log likelihoodCox & Snell R SquareNagelkerke R Square

1207.575a.293.391

a. Estimation terminated at iteration number 4 because parameter estimates changed by less than .001.

Hosmer and Lemeshow Test

StepChi-squaredfSig.

113.6711.000

Contingency Table for Hosmer and Lemeshow Test

y = tidak mengalami kankery = mengalami kankerTotal

ObservedExpectedObservedExpected

Step 116670.1602520.84091

22011.680513.32025

31014.1607469.84084

Classification Tablea

ObservedPredicted

yPercentage Correct

tidak mengalami kankermengalami kanker

Step 1ytidak mengalami kanker781881.3

mengalami kanker277774.0

Overall Percentage77.5

a. The cut value is .500

Correlation Matrix

Constantx1x2

Step 1Constant1.000-.255-.333

x1-.2551.000-.643

x2-.333-.6431.000

Daftar Pustakahttp://lpkeperawatan.blogspot.com/2014/01/laporan-pendahuluan-ca-paru-kanker-paru.html#.VVh20Lntmkohttp://kesehatan.kompasiana.com/medis/2014/04/14/kanker-paru-tidak-semurah-harga-rokok-647582.htmlhttp://repository.usu.ac.id/bitstream/123456789/25643/5/Chapter%20I.pdfhttp://www.statistikian.com/2015/02/regresi-logistik.html