tugas akhir

30
TUGAS AKHIR PRAKTIKUM ANALISIS DATA KATEGORIK Disusun oleh : Nama : Yuni Dwi Setyaningsih NIM : 121.061.005 Program Studi : Statistika JURUSAN MATEMATIKA PROGRAM STUDI STATISTIKA FAKULTAS SAINS TERAPAN INSTITUT SAINS DAN TEKNOLOGI AKPRIND

Upload: panji-haryono-azis

Post on 08-Feb-2016

20 views

Category:

Documents


1 download

DESCRIPTION

gygyug

TRANSCRIPT

Page 1: TUGAS AKHIR

TUGAS AKHIR PRAKTIKUM ANALISIS DATA KATEGORIK

Disusun oleh :

Nama : Yuni Dwi Setyaningsih

NIM : 121.061.005

Program Studi : Statistika

JURUSAN MATEMATIKA

PROGRAM STUDI STATISTIKA

FAKULTAS SAINS TERAPAN

INSTITUT SAINS DAN TEKNOLOGI AKPRIND

YOGYAKARTA

2013

Page 2: TUGAS AKHIR

KATA PENGANTAR

Dengan memanjatkan puji syukur kehadirat Allah SWT, Alhamdulilah penulis

telah menyelesaikan laporan akhir Praktikum Analisis Data Kategorik ini.

Cukup banyak hambatan dan kesulitan yang dihadapi dalam menyelesaikan laporan

akhir ini. Meskipun demikian, atas petunjuk dan limpahan rahmat-Nya hambatan dan

kesulitan tersebut dapat teratasi dengan adanya uluran tangan dan bantuan dari berbagai

pihak. Sehingga pada saatnya laporan akhir ini dapat terwujud meskipun dalam bentuk

sederhana. Untuk itu sudah sepantasnya jika penyusun menyampaikan penghormatan

yang setinggi-tingginya dan ucapan terima kasih yang sebesar-besarnya kepada :

1. Drs. Yudi Setyawan, M.S., M.Sc, selaku dosen pembimbing yang telah

memberikan pengarahan.

2. Ririn Dwi Jayanti, Hermenia Ximenes, Fatikh N Khabibah selaku asisten

Laboratorium Statistika.

3. Kedua orangtua yang telah menyediakan anggaran untuk semua yang berkaitan

dalam penulisan makalah.

4. Teman-teman yang telah memberikan dukungan.

Penulis menyadari bahwa dalam makalah ini terdapat banyak kesalahan dan kekurangan.

Oleh karena itu kepada para pembaca, penulis mengharapkan saran dan kritik yang

sifatnya membangun demi kesempurnaan laporan ini.

Semoga laporan ini dapat bermanfaat bagi para pembaca.

Penyusun

Page 3: TUGAS AKHIR

DAFTAR ISI

Page 4: TUGAS AKHIR

BAB I

PROPORSI 2 SAMPEL

1.1 LANDASAN TEORI

1.2 SOAL DAN PEMBAHASAN

Soal

Suatu sampel random dengan 200 orang laki-laki umur 50 sampai 65 tahun menunjukkan

banyaknya penderita penyakit gula dan penyakit jantung sebagai berikut :

Penyakit jantung

Penyakit gulaAda Tidak

Ada 16 20

Tidak 32 132

Untuk mengetahui apakah ada perbedaan seseorang berpotensi mempunyai penyakit jantung

terhadap ada tidaknya penyakit gula seseorang. Dengan menggunakan tingkat signifikansi 5%

lakukan pengujian apakah terdapat perbedaan proporsi seseorang berpotensi mempunyai

penyakit jantung?

Pembahasan

(1) Prosedur

Untuk menyelesaikan kasus di atas kita gunakan software R dengan menuliskan

syntaxnya yaitu sebagai berikut :

Page 5: TUGAS AKHIR

(2) Analisis

Hipotesis yang digunakan dalam kasus ini adalah :

H0 : proporsi seseorang berpotensi mempunyai penyakit jantung kurang dari atau sama

dengan proporsi seseorang berpotensi mempunyai penyakit gula.

H1 : proporsi seseorang berpotensi mempunyai penyakit jantung lebih dari proporsi

seseorang berpotensi mempunyai penyakit gula.

Nilai signifikansi α = 5% = 0.05

Statistic uji

Dari hasil output di atas diperoleh nilai p value adalah 0.003113

Daerah kritis

H0 ditolak apabila p value < α dan H0 diterima apabila p value > α

Kesimpulan

Karena p value < α atau 0.003113 < 0.05 maka H0 ditolak yang artinya bahwa proporsi

seseorang berpotensi mempunyai penyakit jantung lebih dari proporsi seseorang

berpotensi mempunyai penyakit gula.

Page 6: TUGAS AKHIR

BAB II

TABEL KONTINGENSI TIGA ARAH

2.1 LANDASAN TEORI

2.2 SOAL DAN PEMBAHASAN

Soal

Seorang peneliti ingin meneliti banyaknya kematian bayi terhadap jarak kelahiran dan tempat

tinggal. Data hasil penelitian disajikan dalam tabel berikut :

Jarak kelahiran Tempat tinggal

Kematian bayi

Ya Tidak

< 2 tahun Pedesaan 164 30

Perkotaan 93 23

> 2 tahun Pedesaan 40 14

Perkotaan 15 6

Hitung odds ratio dan jelaskan.

Pembahasan

(1) Prosedur

Untuk menyelesaikan persoalan di atas kita gunakan software R yaitu dengan langkah-

langkah sebagai berikut :

Page 7: TUGAS AKHIR

Mencari odds ratio :

(2) Analisis

Dari output di atas dapat dilihat bahwa nilai odds ratio untuk jarak kelahiran kurang dari

2 tahun adalah sebesar 1.351971 sedangkan nilai odds ratio untuk jarak kelahiran lebih

dari 2 tahun adalah sebesar 1.142857.

Page 8: TUGAS AKHIR

BAB III

GENERALIZED LINEAR MODEL (GLM)

3.1 LANDASAN TEORI

Generalized Linear Models

Model linear tergeneralisir atau Generalized Linear Models (GLM) merupakan

pengembangan dari model linear yang mengakomodir dua hal utama yaitu distribusi respon

yang non normal dan transformasi untuk linearitas.

Variabel respon banyak yang hanya memiliki dua kategori misalnya kelulusan dalam tes

(lulus atau tidak), pengobatan penyakit (sembuh atau tidak) dan lain-lain.

3.2 SOAL DAN PEMBAHASAN

Soal

Teliti hubungan antara IPK dan pengalaman kerja seseorang terhadap penerimaan seseorang

dalam suatu perusahaan ( 0 = tidak, 1 = ya ).

Lakukan evaluasi dari kebaikan model GLM dengan tes statistic Wald. Data hasil penelitian

disajikan dalam tabel berikut :

No.tes IPK Pengalaman Kerja Diterima

1 3.12 1 0

2 3.22 0 0

3 3.45 1 1

4 3.55 1 1

5 3.88 1 1

6 2.98 0 0

7 3.33 1 1

8 3.31 1 0

9 3.09 0 0

10 3.75 0 1

Page 9: TUGAS AKHIR

11 3.41 0 0

12 3.83 0 1

13 3.56 0 1

14 2.99 1 1

15 3.10 0 0

Pembahasan

(1) Prosedur

Untuk menyelesaikan kasus di atas gunakan software R dengan langkah-langkah sebagai

berikut :

a) Menginputkan data ke dalam software R :

Klik menu Data >> New Dataset >> ketikkan nama dataset >> OK >> inputkan data di

atas seperti pada tabel berikut :

b) Untuk memulai analisis klik Statistics >> Fit Model >> Generalized Linear Model :

Page 10: TUGAS AKHIR

c) Akan muncul kotak dialog berikut :

Akan menghasilkan output regresi logistic sebagai berikut :

> GLM.1 <- glm(diterima ~ IPK + pengalaman_kerja, family=binomial(logit), + data=data)> summary(GLM.1)

Call:glm(formula = diterima ~ IPK + pengalaman_kerja, family = binomial(logit), data = data)

Deviance Residuals: Min 1Q Median 3Q Max -1.69490 -0.36045 0.07326 0.44839 1.84664

Coefficients:

Page 11: TUGAS AKHIR

Estimate Std. Error z value Pr(>|z|) (Intercept) -29.116 14.405 -2.021 0.0433 *IPK 8.341 4.141 2.014 0.0440 *pengalaman_kerja 2.671 1.852 1.442 0.1493 ---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 20.728 on 14 degrees of freedomResidual deviance: 10.454 on 12 degrees of freedomAIC: 16.454

Number of Fisher Scoring iterations: 6d) Untuk mengevaluasi kebaikan model GLM yang telah diperoleh klik Models >>

Confidence intervals :

e) Akan muncul kotak dialog :

Kita gunakan confidence level yaitu 0.95 dan menggunakan test Wald Statistic lalu

klik OK.

Maka akan menghasilkan output interval keyakinan dari Statistik Wald :

Page 12: TUGAS AKHIR

(2) Analisis

Dari hasil output regresi logistic di atas menunjukkan bahwa IPK berpengaruh

signifikan terhadap penerimaan seseorang dalam suatu perusahaan, sedangkan

pengalaman kerja tidak berpengaruh terhadap penerimaan seseorang dalam suatu

perusahaan. Hal ini ditunjukkan oleh besarnya p value (Pr >|z|) dari uji Z pada kedua

variabel.

Untuk IPK nilai p value sebesar 0.0440 yang artinya kurang dari α =0.05, sedangkan

nilai p value pada variabel pengalaman kerja sebesar 0.1493 yang artinya lebih dari α =

0.05.

Secara matematis model regresi logistic yang diperoleh berdasarkan output di atas

adalah :

μ(X) = atau

log =

dengan X1 adalah variabel IPK dan X2 adalah variabel pengalaman kerja.

Untuk output yang kedua adalah output interval keyakinan statistic Wald yang

menjelaskan bahwa variabel IPK mempunyai pengaruh yang signifikan terhadap

Page 13: TUGAS AKHIR

variabel respon (penerimaan seseorang dalam suatu perusahaan), hal ini ditunjukkan

dengan interval keyakinan koefisien dari variabel IPK yang tidak mencakup nilai nol

pada batas bawah (positif) dan batas atasnya (positif). Sedangkan variabel pengalaman

kerja tidak berpengaruh terhadap variabel respon yang ditunjukkan oleh interval

keyakinan koefisien dari variabel pengalaman kerja yang mencakup nilai nol pada

batas bawah (negative) dan batas atasnya (positif).

Page 14: TUGAS AKHIR

BAB IV

ANALISIS REGRESI LOGISTIK BERGANDA

4.1 LANDASAN TEORI

4.2 SOAL DAN PEMBAHASAN

Soal

Data di bawah ini adalah data hasil nilai tugas 1, 2, dan 3 dan sukses tidaknya UAS

sekelompok mahasiswa :

Nilai tugas 1 Nilai tugas 2 Nilai tugas 3 Sukses UAS

8 9 9 1

6 5 7 0

5 4 8 0

7 9 7 1

8 8 7 1

4 5 5 0

9 8 7 1

6 9 5 1

7 5 5 0

6 5 4 0

6 7 6 0

9 8 7 1

7 5 8 1

6 7 8 1

Lakukan analisis terhadap data di atas. Variabel bebas mana saja yang berpengaruh secara

signifikansi terhadap sukses tidaknya UAS ?

Page 15: TUGAS AKHIR

Pembahasan

1) Prosedur

(a) Membuat desain variabel.Pada Variabel View buat desain variabel seperti tabel berikut ini :

Untuk variabel sukses_UAS pada values isikan 0 untuk “tidak” dan 1 untuk “ya”. Caranya pada kotak dialog berikut isikan pada value : 0 lalu pada label ketik : tidak kemudian Add dan pada value ketik : 1 lalu pada label ketik ya klik Add dan OK.

(b) Menginputkan dataPada Data View inputkan data tersebut seperti berikut :

Page 16: TUGAS AKHIR

(c) Lakukan analisis dengan cara klik Analyze >> Regression >> Binary Logistic :

Maka akan muncul kotak dialog :

Page 17: TUGAS AKHIR

Pada kolom Dependent isi dengan variabel sukses_UAS dan pada kolom Covariates isi dengan variabel nilai_tugas1, nilai_tugas2 dan nilai_tugas3 lalu klik Options.

Pilih Hosmer Lemeshow goodness of fit lalu klik Continue lalu OK.

Output :

Case Processing Summary

Unweighted Casesa N Percent

Selected Cases Included in Analysis 14 100.0

Missing Cases 0 .0

Total 14 100.0

Unselected Cases 0 .0

Total 14 100.0

a. If weight is in effect, see classification table for the total number of cases.

Dependent Variable Encoding

Original Value Internal Value

Tidak 0

Ya 1

Page 18: TUGAS AKHIR

Classification Tablea,b

Observed

Predicted

sukses_UAS

Percentage Correcttidak ya

Step 0 sukses_UAS Tidak 0 6 .0

Ya 0 8 100.0

Overall Percentage 57.1

a. Constant is included in the model.

b. The cut value is .500

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

Step 0 Constant .288 .540 .284 1 .594 1.333

Variables not in the Equation

Score df Sig.

Step 0 Variables nilai_tugas1 6.007 1 .014

nilai_tugas2 8.215 1 .004

nilai_tugas3 3.540 1 .060

Overall Statistics 10.228 3 .017

Omnibus Tests of Model Coefficients

Chi-square df Sig.

Step 1 Step 19.121 3 .000

Block 19.121 3 .000

Model 19.121 3 .000

Page 19: TUGAS AKHIR

Model Summary

Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square

1 .000a .745 1.000

a. Estimation terminated at iteration number 20 because maximum iterations

has been reached. Final solution cannot be found.

Hosmer and Lemeshow Test

Step Chi-square Df Sig.

1 .000 8 1.000

Contingency Table for Hosmer and Lemeshow Test

sukses_UAS = tidak sukses_UAS = ya

TotalObserved Expected Observed Expected

Step 1 1 1 1.000 0 .000 1

2 1 1.000 0 .000 1

3 1 1.000 0 .000 1

4 1 1.000 0 .000 1

5 1 1.000 0 .000 1

6 1 1.000 0 .000 1

7 0 .000 1 1.000 1

8 0 .000 1 1.000 1

9 0 .000 1 1.000 1

10 0 .000 5 5.000 5

Page 20: TUGAS AKHIR

Classification Tablea

Observed

Predicted

sukses_UAS Percentage

Correcttidak ya

Step 1 sukses_UAS tidak 6 0 100.0

ya 0 8 100.0

Overall Percentage 100.0

a. The cut value is .500

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

Step 1a nilai_tugas1 48.973 1.674E4 .000 1 .998 1.856E21

nilai_tugas2 25.838 7.612E3 .000 1 .997 1.665E11

nilai_tugas3 18.400 1.356E4 .000 1 .999 9.794E7

Constant -601.506 1.015E5 .000 1 .995 .000

a. Variable(s) entered on step 1: nilai_tugas1, nilai_tugas2, nilai_tugas3.

Analisis(a) Uji kelayakan model regresi Hipotesis yang digunakan adalah :

H0 : tidak ada perbedaan signifikansi antara klasifikasi yang diprediksi dan yang diamati.H1 : ada perbedaan signifikansi antara klasifikasi yang diprediksi dan yang diamati.

Signifikansi α = 5% = 0.05 Statistic uji

Page 21: TUGAS AKHIR

Hosmer and Lemeshow Test

Step Chi-square df Sig.

1 .000 8 1.000

Hasil output di atas menunjukkan bahwa angka probabilitas pada kolom Sig. sebesar 1.000

Kriteria keputusanJika probabilitas > 0.05 maka H0 tidak ditolakJika probabilitas < 0.05 maka H0 ditolak

KesimpulanKarena probabilitas > α atau 1.000 > 0.05 maka H0 tidak ditolak artinya model regresi biner layak untuk digunakan analisa selanjutnya karena tidak ada perbedaan antara klasifikasi yang diprediksi dan yang diamati.

(b) Uji kelayakan model keseluruhan (Overall Model Fit)Layak dan tidaknya model keseluruhan dapat dilihat dengan menggunakan angka-angka Log Likelihood, dalam perhitungan ini angka tersebut sebesar 0.000.

Model Summary

Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square

1 .000a .745 1.000

a. Estimation terminated at iteration number 20 because maximum iterations

has been reached. Final solution cannot be found.

(a) Uji koefisien regresi

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

Step 1a nilai_tugas1 48.973 1.674E4 .000 1 .998 1.856E21

nilai_tugas2 25.838 7.612E3 .000 1 .997 1.665E11

nilai_tugas3 18.400 1.356E4 .000 1 .999 9.794E7

Constant -601.506 1.015E5 .000 1 .995 .000

a. Variable(s) entered on step 1: nilai_tugas1, nilai_tugas2, nilai_tugas3.

Page 22: TUGAS AKHIR

Untuk menguji apakah koefisien regresi layak, kita gunakan angka probabilitas (Sig.) pada tabel Variables in the Equation. Untuk analisis selanjutnya kita gunakan variabel yang memiliki sig. kurang dari α (0.05).Pada hasil output di atas nilai sig. ketiga variabel lebih dari α (0.05) artinya bahwa tidak ada variabel yang mempengaruhi secara signifikan terhadap sukses tidaknya UAS . Sehingga analisis selanjutnya tidak dapat dilanjutkan.

Page 23: TUGAS AKHIR

BAB V

KESIMPULAN DAN SARAN

5.1 KESIMPULAN

5.2 SARAN

Page 24: TUGAS AKHIR

DAFTAR PUSTAKA