analisis tabel kontingensi menggunakan model

LAB Statistika 07

ANALISIS TABEL KONTINGENSI MENGGUNAKAN MODEL LOGLINEAR

DR. Jaka Nugraha M.Si

Penerbit:

2019

Penulis:

Kampus Terpadu UIIJl. Kaliurang Km 14,5 Yogyakarta 55584 Tel. (0274) 898 444 Ext. 2301; Fax. (0274) 898 444 psw 2091http://gerai.uii.ac.id;e-mail: [email protected]

Anggota IKAPI, Yogyakarta

Penerbit:

ANALISIS TABEL KONTINGENSI MENGGUNAKAN MODEL LOGLINEAR

©2019 Penulis

Hak cipta dilindungi Undang-Undang.Dilarang memperbanyak atau memindahkan seluruh atau sebagian isi buku ini dalam bentuk apapun, baik secara elektronik ataupun mekanik termasuk memfotokopi, tanpa izin dari Penulis.

Cetakan IDesember 2019 M / Jumadil awal 1441 H

Penulis: Jaka Nugraha

ISBN : 978-602-450-437-3E-ISBN : 978-602-450-436-6

Ukuran : 16 x 23Jumlah Halaman : xiv + 156

v

KATA PENGANTAR

Model Loglinear merupakan model statistik yang paling populer dan penting

untuk analisis data kategorikal. memiliki aplikasi dalam banyak bidang ilmiah,

mulai dari ilmu sosial dan biologi, hingga masalah kedokteran, penambangan

data, pemrosesan bahasa, dan genetika. Popularitas model Loglinear telah

meningkat pesat dalam beberapa dekade terakhir karena meningkatnya

kebutuhan untuk menganalisis data dalam bentuk tabel kontingensi yang

besar.

Analisis dengan model log linear dilakukan untuk mempelajari pola

assosiasi antara sekelompok variabel. Disamping itu juga digunakan untuk

memperkirakan banyaknya observasi yang diharapkan dalam tiap sel tabel

kontingensi. Selanjutnya berdasarkan nilai harapan itu dapat dihitung

beberapa statistik penting seperti proporsi, statistik rasio kecenderungan.

Analisis Loglinear merupakan pengembangan dari analisis tabel kontingensi.

Model Loglinear dapat digunakan untuk menganalisa hubungan antara

beberapa variabel kategori Analisis dengan model Loglinear dilakukan untuk

mempelajari pola assosiasi antara sekelompok variabel

Dalam buku ini, pembahasan diawali dengan penjelasan data kategorik

dan penyajian datanya. Dalam Bab 2, dijelaskan distribusi probabilitas

yang menjadi dasar inferensi model Loglinear. Model Loglinear merupakan

pengembangan dari analisis Crosstab, sehingga pada Bab 3 dibahas uji

independensi pada tabel kontingensi dimensi dua. Pembahasan Loglinear

untuk tabel kontingensi dimensi dua disampaikan pada Bab 4. Pembahasan

model Loglinear dilanjutkan pada Bab 5 untuk tabel kontingensi multidimensi.

Pada Bab 6 berisi penjelasan bagaimana menggunakan software R untuk

membantu perhitungan dalam rangka analisis data kategorik, khususnya

analisis menggunakan model Loglinear.

Pembaca harus memiliki pemahaman yang cukup yang meliputi materi

metode statistika yang mencakup estimasi parameter dan uji signifikansi

vi

dan model regresi. Buku ini akan membantu peneliti melakukan analisis

yang berkaitan dengan respon kategorik yang banyak ditemukan di bidang

sosial, perilaku, dan ilmu-ilmu biomedis, serta dalam kesehatan masyarakat,

pemasaran, pendidikan, ilmu biologi dan pertanian, dan kontrol kualitas

industri.

Penulis mengucapkan terimakasih kepada Kementrian Riset, Teknologi dan

Pendidikan Tinggi atas dukungan berupa hibah Penelitian Dasar Unggulan

Perguruan Tingg (PDUPT) tahun 2019. Terima kasih juga untuk Universitas

Islam Indonesia yang telah memfasilitasi penerbitan buku ini. Semoga buku

ini membantu mahasiswa dalam memahami analisis data kategorik dan

membantu para peneliti yang berkaitan dengan data kategori.

Yogyakarta, 16 Oktober 2019

Penulis

Jaka Nugraha

Jurusan Statistika UII

vii

DAFTAR ISI

KATA PENGANTAR .................................................................................v

DAFTAR ISI ..............................................................................................vii

DAFTAR TABEL .......................................................................................x

DATA KATEGORIK DAN TABEL KONTINGENSI .....................................11.1 Data dan Variabel ..................................................................................1

1.2 Data Kategori dan Data Numerik .....................................................2

1.3 Data per Kasus dan Data Frekuensi ...............................................3

1.4 Variabel Eksplanatori dan Variabel Respon..................................5

1.5 Tabel Kontingensi ..................................................................................6

DISTRIBUSI BINOMIAL, MULTINOMIAL DAN POISSON .......................112.1 Distribusi Binomial ...............................................................................11

2.2 Pendekatan Distribusi Normal atas Distribusi Binomial ..........16

2.3 Distribusi Multinomial ..........................................................................19

2.4 Distribusi Poisson ...................................................................................22

2.4.1 Pendekatan Distribusi Poisson untuk Distribusi

Binomial ........................................................................................24

2.4.2 Menghitung Nilai Peluang Menggunakan Excel dan

Program R .....................................................................................24

UJI INDEPENDENSI PADA TABEL DIMENSI DUA ...................................273.1 Struktur Data dan Probabilitas pada Tabel 2x2 ..........................28

3.2 Statistik Uji Independen pada Tabel 2x2 ......................................31

3.3 Analisis Tabel Kontingensi bxk ........................................................33

3.4 Struktur Data dan Probabilitas Tabel Kontingensi bxk ............35

3.4.1 Statistik Pearson Chi-square ..................................................37

3.4.2 Statistik Rasio Likelihood ........................................................39

3.4.3 Uji Independensi Pendekatan Distribusi Normal ...........39

3.4.4 Contoh Data Tabel bxk .............................................................40

3.5 Uji Cochran-Mantel-Haenszel untuk Tabel 2x2xJ .......................41

3.6 Ukuran Assosiasi .....................................................................................42

viii

MODEL LOGLINEAR PADA TABEL KONTINGENSI DIMENSI DUA .........474.1 Pendahuluan ..........................................................................................47

4.2 Struktur Tabel Kontingensi Dua Arah .............................................48

4.3 Struktur Model Loglinear Dua Faktor ............................................51

4.3.1 Model Independen ...................................................................51

4.3.2 Model Lengkap ...........................................................................54

4.3.3 Visualisasi Model pada Tabel 2x2 .........................................56

4.4 Estimasi Parameter dan Uji Goodness of Fit .................................. 63

4.4.1 Estimasi Parameter Efek Faktor. ...........................................65

4.4.2 Estimasi Parameter pada Distribusi Multinomial ..........66

4.5 Contoh Kasus Tabel 2x2. ....................................................................68

4.6 Contoh Kasus Tabel bxk. ....................................................................71

MODEL LOGLINEAR PADA TABEL KONTENGENSI MULTIDIMENSI .....755.1 Pendahuluan ..........................................................................................75

5.2 Paradoks Simpson ................................................................................76

5.3 Model Loglinier Tiga Dimensi ............................................................79

5.3.1 Model Model lengkap (saturated) .......................................81

5.3.2 Model Mutual independence ................................................82

5.3.3 Model Partial independence .................................................. 82

5.3.4 Conditional Independence ....................................................84

5.3.5 Model Interaksi Dua Faktor ....................................................85

5.3.6 Maximum Likelihood Estimator (MLE) ..................................85

5.3.7 Uji Goodness of Fit .....................................................................87

5.3.8 Pemilihan Model Terbaik .........................................................90

5.3.9 Contoh Kasus 1. .........................................................................91

5.3.10 Contoh Kasus 2. ........................................................................95

5.4 Membangun model ..............................................................................102

5.5 Model Loglinear pada Tabel Kontingensi 4 Dimensi. ................104

5.5.1 Interpretasi Model .....................................................................104

5.5.2 Visualisasi Grafis ........................................................................106

5.5.3 Contoh Kasus Model Loglinear Empat Dimensi. ...........108

MENGELOLA DAN MENGANALISIS DATA KATEGORIKMENGGUNAKAN SOFTWARE R .............................................................113

6.1 Pendahuluan............................................................................................113

ix

6.2 Input Data ................................................................................................115

6.3 Vektor .........................................................................................................118

6.4 Array dan Matrik ....................................................................................118

6.5 Frame ..........................................................................................................119

6.6 Membuat dan Memanipulasi Tabel Frekuensi ...........................124

6.6.1 Case form ......................................................................................125

6.6.2 Frequency form .........................................................................126

6.6.3 Table form. ...................................................................................127

6.6.4 Fungsi structable( ) ....................................................................128

6.6.5 Fungsi table( ) ........................................................................... 129

6.6.6 Tabel Marginal ...........................................................................130

6.6.7 Pengurangan Level Tabel. ......................................................132

6.6.8 Konversi Format Data. .............................................................133

6.7 Impor Data dalam R ..............................................................................134

6.8 Grafik Distribusi Chi-square ................................................................137

6.9 Uji Independensi dalam Tabel Kontingensi Menggunakan

R ...................................................................................................................139

6.10 Model Loglinear ......................................................................................142

REFERENSI ..............................................................................................159

GLOSARIUM ...........................................................................................162

INDEKS SUBJEK ......................................................................................164

x

DAFTAR TABEL

Tabel 1.1 Tipe-tipe variabel kategori .......................................................................... 2

Tabel 1.3. Data dengan format Frekuensi, ................................................................ 5

Tabel 1.4. Data Kasus 1 .................................................................................................... 6

Tabel 1.5 Data Kasus 2 ..................................................................................................... 6

Tabel 1.6. Tabel kontingensi dua arah ....................................................................... 7

Tabel 1.7. Proporsi pada tabel kontingensi dua arah ........................................... 8

Tabel 2.1. Menghitung probabilitas dalam program Excel ................................ 25

Tabel 2.2. Operasi distribusi dalam program R ....................................................... 25

Tabel 3.1. Tabel kontingensi Faktor A dan Faktor B .............................................. 28

Tabel 3.2. Struktur parameter π .................................................................................... 29

Tabel 3.3. Struktur statistik p ......................................................................................... 29

Tabel 3.4. Tabel kontingensi Faktor A dan Faktor B .............................................. 32

Tabel 3.5. Tabel kontingensi dua dimensi untuk Faktor A dan Faktor B ........ 35

Tabel 3.6. Proporsi pada tabel kontingensi dua arah ........................................... 36

Tabel 3.7. Data gender dan partai afiliasi .................................................................. 40

Tabel 3.8. Tabel kontingensi 2x2xJ untuk faktor A, B dan C ............................... 41

Tabel 4.1.Tabel kontingensi bxk Faktor A dan Faktor B untuk data

populasi ........................................................................................................... 49

Tabel 4.2.Tabel distribusi bersama Faktor A dan Faktor B untuk data

populasi ........................................................................................................... 49

Tabel 4.3. Tabel kontingensi bxk Faktor A dan Faktor B untuk data

sampel ............................................................................................................. 50

Tabel 4.4. Sebaran parameter pada kondisi tidak ada pengaruh faktor A

dan B. ................................................................................................................ 56

Tabel 4.5. Sebaran parameter pada kondisi tidak ada pengaruh faktor A

dan terdapat pengaruh B........................................................................ 57

Tabel 4.6. Sebaran parameter pada kondisi terdapat pengaruh faktor A

dan tidak terdapat pengaruh B ............................................................. 58

Tabel 4.7. Terdapat pengaruh faktor A dan pengaruh faktor B tetapi tidak

ada efek interaksi ......................................................................................... 59

xi

Tabel 4.8. Sebaran parameter pada kondisi terdapat pengaruh faktor

A dan faktor B ................................................................................................ 60

Tabel 4.9. Sebaran parameter pada kondisi terdapat pengaruh faktor

interaksi AB .................................................................................................... 62

Tabel 4.10. Penaksir MLE untuk parameter λ, {λiA }, {λ

jB } dan {λ

ijAB }.................. 67

Tabel 4.11. Kadar Kolesterol dan tekanan darah Diastolik ................................. 68

Tabel 4.12. Proporsi kolesterol dan tekanan darah ............................................... 68

Tabel 4.13. Nilai frekuensi harapan dan observasi ............................................... 69

Tabel 4.14. Nilai statistik Chi-square Pearson dan Likelihood rasio ................ 70

Tabel 4.15. Data afiliasi Partai dan Profesi................................................................. 71

Tabel 4.16. Estimasi parameter model loglinear pada model lengkap

dengan SPSS .................................................................................................. 73

Tabel 5.1. Analisis hasil keseluruhan. .......................................................................... 77

Tabel 5.2.Analisis produksi menurut perusahaan .................................................. 77

Tabel 5.3.Data pengamatan sukses menurut jenis kelamin dan

perlakuan ........................................................................................................ 78

Tabel 5.4. Data pengamatan sukses menurut kelompok perlakuan .............. 78

Tabel 5.5. Tabel Kontingensi Tiga dimensi ............................................................... 79

Tabel 5.6. Struktur Probabilitas Tabel Kontingensi Tiga Dimensi .................... 80

Tabel 5.7. Derajat Bebas untuk Loglinear 3 Dimensi ............................................ 81

Tabel 5.8. Minimal Sufficient Statistics pada Model Loglinear ............................ 86

Tabel 5.9. MLE untuk parameter pada masing masing model. ........................ 87

Tabel 5.10. Hipotesis dan Derajat Bebas untuk Loglinear 3 Dimensi ............. 88

Tabel 5.11. Data observasi pasien ............................................................................... 90

Tabel 5.12. Nilai harapan pada model independen ............................................. 91

Tabel 5.13. Data Cholesterol dan Diastolic pada P1 ............................................. 91

Tabel 5.14. Data Cholesterol dan Diastolic pada P2 .............................................. 92

Tabel 5.15. Nilai Harapan Model (CP, DP). ................................................................. 92

Tabel 5.16. Statistic Pearson dan Rasio Likelihood ............................................... 92

Tabel 5.17. Hasil uji Goodness of Fit ........................................................................... 93

Tabel 5.18.Penanganan Kecelakaan Kerja Status, Klasifikasi dan Lokasi ....... 94

Tabel 5.19. Hasil uji Chi-Square .................................................................................... 94

Tabel 5.20. Estimasi Frekuensi Harapan .................................................................... 95

Tabel 5.21. Estimasi Frekuensi Harapan (lanjutan) ............................................... 95

Tabel 5.22. Uji goodness of fit model Log Linear ................................................... 97

xii

Tabel 5.23. Analisis Residual .......................................................................................... 99

Tabel 5.24. Uji Simultan untuk masing-masing level interaksi. ......................... 102

Tabel 5.25. Interpretasi model loglinear dimensi empat .................................... 105

Tabel 5.26. Nilai harapan model loglinear empat dimensi ................................ 107

Tabel 5.27. Data kecelakaan. ........................................................................................ 107

Tabel 5.28. Nilai G2 pada beberapa model Loglinear ........................................... 108

Tabel 5.29. Inferensi efek interaksi tiga faktor ......................................................... 109

Tabel 6.1. Paket yang tersedia dalam situs r-project. ........................................... 115

Tabel 6.2. Konversi format data .................................................................................... 133

Tabel 6.3. Data Sekolah ................................................................................................... 134

xiii

DAFTAR GAMBAR

Gambar 2.1. Grafik fungsi likelihood ............................................................................14

Gambar 2.2. Grafik fungsi densitas dari distribusi Normal ...................................17

Gambar 2.3. Grafik fungsi densitas dari distribusi Normal Standar ..................18

Gambar 2.4. Distribusi Binomial pada p=0.2 dan beberapa ukuran

n (a) n=10 (b) n=30 (c) n=100 (d) n=100............................................19

Gambar 2.5. Grafik distribusi Poisson pada nilai λ=0.5, λ=1 dan λ=4 ...............23

Gambar 3.1. Distribusi Chi-square .................................................................................38

Gambar 4.1. Model independen, tidak ada pengaruh faktor A dan

Faktor B. .........................................................................................................57

Gambar 4.2. Model independen, tidak ada pengaruh faktor A dan

Faktor B. .........................................................................................................58

Gambar 4.3. Model independen, terdapat pengaruh faktor A tetapi

tidak terdapat pengaruh Faktor B. .......................................................59

Gambar 4.4. Model independen, terdapat pengaruh faktor A dan

pengaruh Faktor B. ....................................................................................60

Gambar 4.5. Model lengkap, terdapat pengaruh faktor interaksi AB. ..............61

Gambar 4.6. Grafik profesi dan afiliasi partai .............................................................72

Gambar 5.1. Sketsa model lengkap. ..........................................................................82

Gambar 5.2. Sketsa model independen ......................................................................82

Gambar 5.3. Sketsa model partial independen ......................................................83

Gambar 5.4. Sketsa model partial independen ......................................................84

Gambar 5.5. Scatterplot Nilai Residual berdasarkan Nilai Estimasi

Frekuensi Harapan .....................................................................................102

Gambar 5.6. Visualisasi model loglinear empat dimensi. .....................................107

D ata k at e g o r i k d a n ta b e l k o n t i n g e n s i 1

1. DATA KATEGORIK DAN TABEL KONTINGENSI

Dalam Kamus Besar Bahasa Indonesia (KBBI), kategori diartikan sebagai

bagian dari sistem klasifikasi (golongan, jenis pangkat, dan sebagainya).

Kategori mempunyai makna yang berbeda dalam kontek yang berbeda. Akan

dijelaskan dulu makna kategori yang berkaitan dengan data. Dalam bab ini

dibahas (a) tipe variabel kategori yaitu: biner, nominal dan ordinal. (b) data

per kasus dan data frekuensi (c) perbedaan antara variabel eksplanatori dan

variabel respons.

1.1 Data dan Variabel

Hasil pengamatan terhadap suatu objek tertentu jika dicatat atau direkam

maka akan diperoleh data terkait dengan objek tersebut. Data merupakan

“keterangan“ yang berhasil dicatat atau direkam mengenai suatu objek

pengamatan. Masing-masing objek dilakukan pengamatan terhadap atribut

yang dimiliki oleh objek tersebut. Atribut atas objek yang diamati inilah

yang biasa disebut dengan variabel. Jadi data merupakan kumpulan hasil

pengamatan terhadap objek mengenai atribut-atribut yang dimiliki oleh

masing-masing objek. Objek dan variabel yang diamati ditentukan oleh

peneliti. Misalnya

a. Data Mahasiswa,

Objeknya adalah mahasiswa pada program studi atau universitas tertentu.

Atribut atau variabel yang dapat diamati misalnya alamat, usia, agama,

nilai matakuliah, Indeks Prestasi Semester (IPS) dan lain sebagainya.

b. Data Kependudukan.

Objeknya adalah desa. Variabel yang diamati adalah jumlah penduduk,

jumlah laki-laki, jumlah wanita, jumlah kelahiran, jumlah kematian dan

lain sebagainya

2 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r

c. Data Hasil Pemilihan Umum 2019.

Objeknya adalah tempat pemiliha suara (TPS). Variabel yang diamati

misanya jumlah pemilih, jumlah pemilih syah, jumlah pemilih masing-

masing kandidat, alamat TPS dan lain sebagainya.

Variabel-variabel inilah yang memuat data-data yang akan digunakan untuk

keperluan analisis dan mendeskripsikan populasi, dan diintrepetasikan dalam

laporan atau publikasi.

1.2 Data Kategori Dan Data Numerik

Variabel kategori adalah variabel yang kemungkinan hasil pengukurannya

berupa klasifikasi atas objek tersebut, dapat dikelompokan, dapat berurut

maupun tidak berurutan. Variabel numerik adalah variabel yang kemungkinan

hasil pengukurannya berupa numerik atau bilangan real.

Tabel 1.1 Tipe-tipe variabel kategori

Variabel Kemungkinan hasil pengamatan TipeJenis Kelamin (Gender) “Laki-laki”, “Perempuan” Biner

Agama“Islam”, “Kristen”, “Katolik”, “Hindu”, “Budha”, “Khonghucu”

Nominal

Pendidikan “SD”, “SMP”, “SLTA”, “PT” Ordinal

Jumlah Anak Bilangan cacah : 0, 1, 2 ,…. Cacah

Tinggi Badan Bilangan real positif atau 0<Real Kontinu

Variabel kategori dapat dibedakan lagi menjadi

a. Variabel biner : hasil pengamatan hanya dapat diklasifikasikan

menjadi dua kelompok atau jenis. Contohnya pengamatan sukses/

gagal, siang/malam, laki/perempuan. Variabel biner umumnya

dikodekan dengan angka “0” dan “1”.

b. Vaiabel nominal : hasil pengamatan dapat diklasifikasikan menjadi

lebih dari dua kelompok atau jenis. Variabel nominal merupakan

pengembangan dari variabel biner. Kelas atau kelompok tersebut

hanya mempunyai makna membedakan, tidak mempunyai makna

peringkat. Contohnya pengamatan asal daerah, agama, warna,

moda transportasi.


c. Variabel ordinal : : hasil pengamatan dapat diklasifikasikan menjadi

lebih dari dua kelompok atau jenis dan mempunyai makna urutan.

Contohnya pengamatan mengenai ukuran baju (S, M, L, XL), jenjang

pendidikan (Dasar, Menengah, Atas, Sarjana, Magister, Doktor).

1.3 Data per Kasus dan Data Frekuensi

Penyajian data hasil pengamatan terhadap objek untuk variabel kategorik

dapat dituliskan dalam bentuk

1. Farmat per kasus (Case form), berisi catatan hasil pengamatan

masing-masing objek per individu

2. Format Frekuensi (Frekuensi form), berisi akumulasi pada masing-masing

kategorik. Penyajian data tidak dilakukan per individu, tetapi diklasifikasi

pada masing-masing kategorinya. Pada masing-masing kategori dihitung

jumlah objek yang memililiki sifat anggotanya.

Contoh data dengan format per kasusData rekam medis 100 pasien rawat inap yang menderita kanker leher rahim di

RSUD XXX. Variabel yang diamati

a. Stadium adalah tingkat keparahan penyakit kanker leher rahim

yang diderita oleh pasien yang dibagi menjadi tiga kategori, yaitu

1 : Stadium I, yaitu kanker telah tumbuh dalam leher rahim

namun belum menyebar kemanapun.

2 : Stadium II, yaitu kanker berada dibagian dekat leher rahim

tapi bukan di luar panggul.

3 : Stadium III, yaitu kanker telah menyebar ke jaringan lunak

sekitar vagina dan leher rahim sepanjang dinding panggul, mungkin

juga dapar menghambat aliran urin ke kandung kemih.

b. Usia Pasien (dalam tahun)

c. Paritas, yaitu jumlah kelahiran yang pernah dialami pasien, baik

lahir hidup maupun lahir mati. Paritas dibagi menjadi dua kategori,

yaitu :

0 : Paritas ≤ 3 kali, yaitu jumlah kelahiran kurang dari samadengan

tiga kali.

1 : Paritas > 3 kali (1) yaitu jumlah kelahiran lebih dari tiga kali.


d. Penyakit Anemia, adalah penyakit yang disebabkan oleh terlalu

banyaknya darah yang keluar atau pendarahan. Anemia dibagi

menjadi dua kategori, yaitu :

0 : Tidak menderita anemia

1 : Menderita anemia

e. Pendidikan, dibagi menjadi dua kelompok kategori :

1 : SD

2 : SMP

3 : SLTA

4 : Diploma/Sarjana

Tabel 1.2 Data rekam medis 100 pasien rawat inap yang menderita kanker leher rahim

No Stadium Usia Paritas Anemia Pendidikan

1 3 54 1 1 2

2 2 53 0 0 3

3 3 48 1 1 1

4 2 35 0 0 1

5 3 60 0 1 3

6 3 55 0 1 3

7 3 59 1 1 2

8 2 44 1 0 4

9 3 75 0 1 1

10 3 43 0 1 1

11 1 47 0 0 2

12 3 57 0 1 2

13 2 40 0 0 4

14 1 48 0 1 3

15 2 53 0 1 1

16 3 59 1 1 3

17 2 52 1 1 2

18 2 45 0 0 1

…. …. …. …. …. ….

94 1 50 0 0 3

95 2 53 0 0 2


96 3 57 1 1 3

97 2 60 1 0 2

98 3 48 0 1 2

99 3 48 0 1 2

100 3 68 1 1 2

Contoh data dengan format frekuensi.

Data pada Tabel 1.2, dapat disajikan dalam format frekuensi untuk variabel

Stadium dan Paritas.

Tabel 1.3. Data dengan format Frekuensi,

No Stadium Paritas Frekuensi

1 1 0 9

2 1 1 1

3 2 0 19

4 2 1 10

5 3 0 21

6 3 1 40

1.4 Variabel Eksplanatori dan Variabel Respon

Dalam pemodelan statistika, variabel dibedakan menjadi dua yaitu variabel

respon (variabel dependen) dan varaibel eksplanatori (independen atau

variabel prediktor). Dalam model linear klasik seperti dalam analisis regresi

dan analisis variansi (ANOVA), variabel respon harus berupa data kontinu.

Ketika variabel respon bukan data kontinu maka analisis regresi klasik tidak

dapat diterapkan dan oleh karena itu metode analis lain dapat digunakan

seperti analisis regresi logistik. Ketika pengamatan melibatkan yang variabel

independennya bersifat kategori dan variabel dependenya bersifat kontinu

maka data hasil pengamatan dapat disajikan sebagaimana pada Tabel 5. Perlu

dibedakan tabel penyajian data pada data kategori (Tabulasi silang) dan data

dengan variabel respon kontinu yang biasa dipakai dalam analisis variansi.


Contoh data kategori vs Kontinu.Kasus 1 (data Kategori): Sebagaimana dalam contoh pada Tabel 1.2, hasil

pengamatan 100 objek dengan variabel teramati yaitu Stadium (A) dan

variabel Paritas (B) yang masing masing merupakan variabel kategori. Variabel

A terdiri darai 3 klasifikasi (A1, A2, A3) dan variabel B terdiri dari 2 klasifikasi

yaitu B1 (“≤ 3 kali” ) dan B2 (“>3 kali”). Hasil pengamatan disajikan dalam Tabel

1.4.

Kasus 2 (data Kontinu): pengamatan untuk mengetahui kekuatan benang

dilihat dari jenis dan kondisi. Variabel Jenis yang diklasifikasikan menjadi tiga

level yaitu A1, A2 dan A3, sedangkan variabel Kondisi diklasifikasikan menjadi

2 level yaitu basah (B1) dan kering (B2). Hasil disajikan dalam Tabel 1.5.

Tabel 1.4. Data Kasus 1 Tabel 1.5 Data Kasus 2

A B

B1 B2

A1 9 1

A2 19 10

A3 21 40

A B

B1 B2

A1 9 1

A2 19 10

A3 21 40

Dalam contoh dikedua tabel, Tabel 1.4 dan Tabel 1.5 disengaja mempunyai

faktor yang sama dan nilai setiap selnya memiliki angka yang sama,

sebenarnya memiliki makna yang berbeda, Pada Tabel 1.4, angka-angka

dalam sel merupakan bilangan cacah yaitu merupakan frekuensi objek yang

memiliki sifat sesuai posisi sel tersebut. Misal fij adalah frekuensi pada baris

ke-i dan kolom ke-j yang berarti cacah objek yang memiliki sifat Ai dan sifat

Bj. Cohtohnya f

21= 19 adalah cacah objek (pasien) yang yang memiliki sifat A2

(stadium II) dan sifat B1 (paritasnya ≤ 3 kali).

Pada Tabel 1.5, angka-angka dalam sel adalah bilangan kontinu (real) yang

merupakan hasil pengukuran Variabel kekuatan benang. Data pada sel (2,

1) sebesar y21

= 9 adalah kekuatan benang jenis A2 dengan kondisi B1. Oleh

karena itu pada kasus 1 (Tabel 4) pengamatan hanya melibatkan dua variabel

kategorik, sedangkan pada kasus 2 (Tabel 5) pengamatannya melibatkan dua

variabel kategori dan satu variabel kontinu. Metode ANOVA dapat diterapkan


pada kasus 2, sedangkan pada kasus 1 ANOVA tidak dapat digunakan sehingga

harus menggunakan analisis data kategori.

1.5 Tabel Kontingensi

Tabel kontingensi biasa disebut juga tabulasi silang (cross tab) adalah distribusi

frekuensi bersama beberapa variabel (lebih dari dua). Data tabel kontingensi

diperoleh dari pengamatan terhadap variabel–variabel dari objek-objek yang

bersifat kategorik. Jika variable yang diamati sebanyak dua buah maka data

hasil pengamatan dapat disajikan dalam bentuk tabel kontingensi dua arah

atau dimensi dua. Misalkan variabel pertama terdiri dari b kategori dan variable

kedua terdiri dari k kategori, maka data hasil pengamatan dapat ditampilkan

pada sebagaimana Tabel 1.6.

Tabel 1.6. Tabel kontingensi dua arah

Baris Kolom Jumlah

1 2 … k

1 n11

n12

… n1k

n1+

2 n21

n22

… n2k

n2+

… … … … …

b nb1

nb2

… nbk

nb+

Jumlah n+1

n+2

… n+k

n

Kuantitas dalam sel, nij adalah frekuensi (banyaknya) objek yang memiliki

sifat atau klasifikasi ke-i untuk variabel baris dan klasifikasi ke-j untuk variabel

kolom, i=1,…,b dan j=1,…,k.

, = n n n n n n+ = = == =∑ ∑ ∑ ∑k b b kj j ij i+ i ij i j ij=1 1 1 1dan

(1.1)

Pada uji kesamaan proporsi, masing-masing baris mewakili hasil pengamatan

dari populasi lasi terntentu. Baris ke-i menyatakan populasi ke-i sehingga ni+

merupakan ukuran sampel yang diambil dari populasi ke-i.

Pada pembahasan-pembahasan dalam bab berikutnya, diasumsikan sampel

diambil dari satu populasi dengan ukuran sampel sebesar n. Oleh karena

itu distribusi atas data pengamatan tersebut adalah distribusi multinomial


atau bisa juga berdistribusi Poisson. Pada percobaan Multinomial, ukuran

sampel sebesar n ditetapkan sebelum dilakukan pengamatan, sedangkan

pada percobaan Poisson peneliti belum mengetahui berapa besar ukuran

sampelnya sebelum penelitian berakhir. Batasan objek penelitian pada

percobaan Poisson dapat berupa waktu, wilayah atau lokasi.

Dari data pengamatan pada Tabel 1.6, jika didasarkan pada percobaan

Multinomial, maka dapat disusun parameter proporsi untuk masing-masing

sel sebagaimana disajikan dalam Tabel 1.7.

Tabel 1.7. Proporsi pada tabel kontingensi dua arah

Baris Kolom Jumlah

1 2 … k

1 π11

π12

… π1k

π1+

2 π21

π21

… π2k

π2+

… … … … …

b πb1

πb1

… πbk

πb+

Jumlah π+1

π+2

… π+k

1

Parameter sebagaimana terdapat dalam ditribusi multinomial (Tabel 2.2)

dapat dilakukan menggunakan metode Maximum Likelihood Estimator (MLE).

Fungsi likelihood dari distribusi multinomial adalah

( ) 11 1 1

1 2

x xkk k k

k

n!L ,..., | x ,...,x ;n ,...,x ! x ! ...x

π π π π= (1.2)

Fungsi log-likelihoodnya adalah

( )1 1( ,..., | ,..., ; )k kLL log L x x nπ π=

( )11 2

k

j jjk

n!LL log x logx ! x ! ...x !

π=

= +

∑ (1.3)

Dalam mencari nilai π yang memaksimalkan fungsi LL tidak dapat dilakukan

secara langsung, karena terdapat pembatasan bahwa 1k

1jj =∑

=

π sebagaimana

pada persamaan (1.3). Oleh karena itu perlu digunakan Lagrange multipliers.


11

k

jj

LLg LL λ π=

= + −

∑ (1.4)

Jika nj >0 untu j=1,…,k dan dengan adanya syarat 0< π

j <1 dan 1

1kjj

π=

=∑

maka Selanjutnya,

berdasarkan dengan menggunakan aturan 0=∂

∂π

LLg , maksimum fungsi

f (π1, ... , π

k ) akan dicapai pada titik ( π

1, ... , π

k ) = ( p

1, ... , p

k )dengan

1,..., kj

j j

xp j

nπ = = =untuk . (1.5)

Permasalahan yang dapat dibahas pada pengamatan seperti ini adalah

melakukan pengujian apakah terdapat asosiasi (hubungan) atau pengaruh

antar variabel baris dan variabel kolom.

D I S T R I B U S I B I N O M I A L , M U LT I N O M I A L D A N P O I S S O N 11

2. DISTRIBUSI BINOMIAL, MULTINOMIAL DAN POISSON

Parameter proporsi ditemukan dalam pengamatan yang menggunakan

variabel kategorik. Perhitungan proporsi didasarkan pada banyaknya objek

pada masing-masing klasifikasi dari variabel kategoriknya. Parameter proporsi

dapat ditemukan pada distribusi Binomial dan Multinomial. Distribusi Poisson

adalah distribusi data yang lain yang didasarkan pada banyaknya objek

(frekuensi kejadian).

2.1 Distribusi Binomial

Pengamatan atas kejadian yang dapat diklasifikasikan ke dalam dua sifat

yang umumnya disebut “sukses” dan “gagal”. Variabel random X menyatakan

hasil pengamatan (sukses atau gagal). Hasil sukses dinyatakan dengan X=1

dan hasil gagal dinyatakan dengan X = 0. Peluang sukses dinyatakan dengan

parameter π, sehingga P(X = 1) = π. Peluang gagal, dapat dinyatakan sebagai

P (X = 0) = 1- π. Variabel random X mempunyai distribusi Bernouli yang dapat

dinyakan dalam fungsi

1(1 ) ; x 0, 1( )

0 ;

x x

P X x−π − π =

= = untuk x yang lainnya (2.1)

dengan 10 ≤≤ π .

Seringkali dijumpai rangkaian pengamatan Bernoulli yang saling independen

dan yang menjadi perhatian adalah banyaknya sukses atas semua pengamatan

tersebut.

Pengamatan sebanyak n kali dapat diperoleh dari n objek masing-masing

diamati sekali atau sebuah objek diamati sebanyak n kali. Hasil setiap

pengamatan dapat diklasifikasikan ke dalam dua sifat yang umumnya disebut

“sukses” dan “gagal”. Percobaan yang masuk dikelompokan kedalam distribusi

Binomial jika memiliki ciri-ciri


a. percobaan terdiri atas n ulangan

b. ulangan-ulangan itu bersifat bebas satu sama lain

c. dalam setiap ulangan hasilnya dapat digolongkan sebagai berhasil atau

gagal

d. peluang berhasil dilambangkan π dan untuk setiap ulangan adalah sama

(tidak berubah-ubah)

Sebaran peluang binom dapat nyatakan ke dalam rumus:

(1 ) ; x 0, 1, ...., n( )

0 ;untuk x yang lainnya

x n xnP X x x

− π − π = = =

(2.2)

dengan 10 ≤≤ π .Persamaan 2.2. biasa dinyatakan dalam bentuk

!( ) (1 )( )! !

x n xnP X xn x x

−= = π − π−

.

Variabel random X berdistribusi Binomial dengan proporsi sukses sebesar π

dari n pengamatan dapat tuliskan sebagai X ~ BIN(n, π)

Rata-rata (mean), E(X) = nπ dan variansinya adalah Var(X) = nπ(1-π). Bukti

perhitungannya sebagai berikut

0

1

1 ( 1) ( 1)

1

( 1)

0

1

( ) (1 )

1(1 )

1

1(1 )

1

1(1 )

( (1 ))

nx n x

x

nx n x

x

nx n x

x

nk n k

k

n

nE X x

x

nn

x

nn n

x

nn n

x

n n

−

=

−

=

− − − −

=

− −

=

−

= π − π

−

= π − π − −

= π π − π − −

= π π − π

= π π + − π = π

∑

∑

∑

∑


[ ]

2 2

0

( )

0

( )

2

( )

2

( )

2

2

( ) (1 )

( 1) (1 )

( 1) (1 )

( 1) (1 ) ( )

2( 1) (1 ) ( )

2

2( 1) (1

nx n x

x

nx n x

x

nx n x

x

nx n x

x

nx n x

x

x

nE X x

x

nx x x

x

nx x

x

nx x E X

x

nn n E X

x

nn n

k

−

=

−

=

−

=

−

=

−

=

= π − π

= − + π − π

= − π − π

= − π − π +

− = − π − π + −

− = − π π − π

∑

∑

∑

∑

∑

( 2)

2

2 2

2

2 2 2

) ( )

( 1) ( (1 ))( 1)

nn k

k

n

E X

n n nn n nn n n

− −

=

−

+

= − π π + − π + π

= − π + π

= π − π + π

∑

[ ]22

2 2 2 2

2

( ) ( ) ( )

( )

(1 )

Var X E X E X

n n n nn nn

= −

= π − π + π − π

= π − π= π − π

Jika Xi berdistribusi Bernouli dengan peluang sukses π dan saling independen,

maka Y=1 i

nX

i =∑ berdistribusi Binomial dengan mean E(Y) = nπ dan variansi

Var(Y) = nπ(1-π).Dalam praktek, nilai parameter dalam distribusi binomial tidak diketahui.

Estimasi parameter dilakukan menggunakan data sampel Salah satu metode

yang digunakan untuk mengestimasi parameter adalah Maximum Likelihood

Estimator (MLE). Fungsi likelihood dari distribusi Bernouli dan Binomial yang

merupakan fungsi dari parameter π. Jika X1, ...,X

n masing-masing merupakan

variabel random yang saling independen dan berdistribusi Bernouli dengan

peluang sukses sebesar π maka X=X1+...+X

n berdistribusi Binomial(n, π). X


sering disebut banyaknya sukses dari n pengamatan. Dari sampel random

berukuran n tersebut dapat disusun fungsi likelihood sebagai berikut

L(π) = πx(1-π)n-x dengan 1ni ix x== ∑ dan x

i=0,1,...., n. (2.3)

Jika X adalah variabel random berdistribusi Binomial(n, π), dengan n diketahui

dan π adalah parameter yang akan diestimasi, maka fungsi likekehoodnya

adalah

!( ) (1 ) 0,1,..., n

( )! !x n xnL x

n x x−π = π − π =

−dengan (2.4)

Grafik fungsi L(π) dapat dilihat pada Gambar 2.1.

Gambar 2.1. Grafik fungsi likelihood

MLE adalah sebuah nilai penaksir dari parameter π (yaitu p) yang

memaksimumkan fungsi likelihood berdasarkan data sampel (x). L(p)

merupakan nilai maksimun atas fungsi L(π). Untuk mendapatkan MLE, langkah

pertama adalah menyusun fungsi log-likelihood. Untuk distribusi Bernoulli,

fungsi likelihoodnya adalah

log(L(π))=LL(π) = xlog(π) + (1-x)log(1-π) dengan x=0,1 Untuk distribusi Binomial, fungsi likelihoodnya adalah

log(L(π))=LL(π) = !( )( )! !

nlogn x x−

+ xlog(π) + (n-x)log(1-π)untuk x=1,...,n. (2.5)

Operasi log dibaca ”logaritma natura (ln)”. Suku !( )( )! !

nlogn x x−

pada persamaan

(2.5) tidak berpengaruh pada proses penentuan titik maksimum. Langkah

selanjutnya adalah mencari nilai π yang memaksimumkan fungsi LL(π). Caranya

adalah dengan menggunakan aturan derivatif,

2

2

( ) ( )0 0LL LL∂ π ∂ π= <

∂π ∂πdan


Syarat pertama adalah mencari nilai π sedemikian hingga

( ) ( )( 1)(1 )

(1 ) ( )(1 ) (1 )

(1 )

(1 )

LL y n y

y n y

y y n y

y n

y n

∂ π − −= +

∂π π − π− π π −

= −π − π π − π

− π − π + π=

π − π− π

=π − π

= − π

Diperoleh persamaan y - πn = 0 sehingga

nxp ==π̂

Syarat ke-dua adalah menunjukan bahwa 2

2

( ) 0p

LLπ=

∂ π<

∂π

( )

( )( )( )

( )( )( )

( )

( )

2

2

22

2 2

2 22 2

2 2 2

22

2

22

( )(1 )

( )1

11 1

2

1

21

n xLL x

x n x

x n x

x x x n x

x x x

− ∂ π ∂ ∂ = − ∂π ∂π π ∂π − π −

= − −π − π

− π − π= − −

π − π π − π

− + π − π − π − π=

π − π

− + π − π=

π − π

Diketahui bahwa

π2(1-π)2 > 0dan


22

2

2 2

2

1 0

p

x xx x n x x nn n

x xxn n

xxn

xxn

π=

− + π − π = − + −

= − + −

= − +

= − <

sehingga terpenuhi sifat 2

2

( ) 0p

LL

π=

∂ π<

∂π . Dapat disimpulkan bahwa MLE

untuk parameter π pada distribusi binomial adalah

nxp ==π̂ (2.6)

Penaksir parameter π pada pengamatan kejadian binomial yang didasarkan

dari sampel berukuran n=10 diperoleh sukses y=6, MLE parameter π sama

dengan 6ˆ 0.6

10π = =

Pada proses estimasi ini, yaitu menduga karakteristik populasi (parameter)

menggunakan data sampel (statistik) akan menghasilkan ketidakpastian nilai.

Pada umumnya nilai parameter dalam distribusi binomial tidak diketahui

sehingga perlu diestimasi dengan menggunakan data sampel. Salah satu

metode yang digunakan untuk mengestimasi parameter adalah Maximum

Likelihood Estimator (MLE).


2.2 Pendekatan Distribusi Normal atas Distribusi Binomial

Pada distribusi Normal terdapat dua parameter yaitu nilai rata-rata µ dan

variansi σ2 . Persamaan fungsi kepadatan peluang adalah

2

2

1 1( ) ( )22

xf x exp − µ = − σ πσ (2.7)

dalam hal ini π = 3.14159 dan e = 2.71828. Variabel random X yang mempunyai

distribusi Normal mempunyai dua parameter yaitu µ (baca “mu”) dan variansi

σ2 (baca “siqma kuadrat”) biasa dituliskan menjadi X~ N(µ, σ2). Gambar 2.2.

adalah grafik fungsi densitas dari distribusi Normal N(1;9) dan N(2;4).

Gambar 2.2. Grafik fungsi densitas dari distribusi Normal

Sifat-sifat kurva distribusi Normal, adalah :

i. simetris terhadap µ=x

ii. mempunyai titik belok pada σµ ±=x

iii. memotong sumbu x secara asimtotis di ∞− dan ∞+

iv. Luas daerah di bawah kurva dan di atas sumbu x sama dengan satu.


Luas di bawah kurva distribusi Normal menunjukkan peluang harga x diantara

nilai a dan b, yaitu :

( )( )2

2212

xb

a

P a x b e dxµ

σ

σ π

−−

≤ ≤ = ∫Distribusi Normal ini merupakan salah satu distribusi yang sangat penting,

baik dalam statistika teori maupun statistika terapan, khususnya distribusi

Normal standar (Baku). distribusi Normal standar mempunyai mean µ = 0

dan variansi 2σ = 1, ditulis dengan notasi N(0,1). Fungsi kepadatan peluanya

adalah

( ) ∞<<∞−=

−

zezz

;21 2

2

πφ (2.8)

Gambar 2.3. adalah grafik fungsi densitas Normal standar (µ=0 dan σ=1).

Gambar 2.3. Grafik fungsi densitas dari distribusi Normal Standar

Pada distribusi binomial, MLE untuk parameter π adalah p=x/n. Distribusi

sampling untuk proporsi sampel p mempunyai mean dan deviasi standar

π=)( pE dan n

pVar )1()( ππ −= (2.9)

Semakin besar n maka Var(p) mendekati nol, yang berarti bahwa sampel

proporsi p cukup dekat dengan parameter π. Bedasarkan Gambar 2.4. dapat

memberikan visualisasi pengaruh ukuran n terhadap kesesuaian dengan

distribusi Normal. Semakin besar n, maka pendekatan distribusi normal akan

semakin akurat yaitu kurva distribusinya berbetuk simetris di titik rata-rata

(nπ).


(a) (b)

(c) (d)Gambar 2.4. Distribusi Binomial pada p=0.2 dan beberapa ukuran n (a) n=10 (b) n=30 (c) n=100

(d) n=100

Namun demikian jika π 0 atau π 1 maka agar diperoleh pendekatan

distribusi Normal yang baik, diperlukan jumlah sampel lebih besar

dibandingkan dengan kondisi π 0.5. Hal ini cukup terlihat jelas pada

Gambar 2.4 yang menjelaskan grafik Ditribusi Binomial pada beberapa nilai π.

Distribusi Binomial pada π=0.5 akan selalu menghasilkan grafik yang simetris

pada ukuran sampel kecil maupun besar. Pada ukuran sampel kecil dan π<0.5

maka grafik akan menceng ke kiri sebaliknya jika π>0.5 maka menceng ke

kanan (Lihat Gambar 2.4. a). Distribusi binomial pada n yang cukup besar

(lebih dari 100) berbentuk simetrik pada semuai nilai π=0.5, π= 0.2 maupun

π=0.8 (lihat Gambar 2.4. c dan Gambar 2.4. c).


2.3 Distribusi Multinomial

Variabel random X menyatakan banyaknya sukses dari n pengamatan .

P(X) merupakan fungsi peluang sebab

a. 0 ≤ P(X) ≤ 1 b. ( )0 1n

x P x= =∑

Kejadian binomial hanya terdapat dua kemungkinan hasil (sukses atau gagal).

Jika terdapat lebih dari dua kemungkinan hasil maka termasuk kejadian

multinomial. Ciri-ciri selengkapnya

a. Percobaan terdiri atas n ulangan

b. ulangan-ulangan itu bersifat bebas satu sama lain

c. dalam setiap ulangan hasilnya dapat digolongkan kedalam beberapa sifat

(misal k sifat). Setiap objek hanya memiliki satu sifat (mutually exclusive).

d. peluang berhasil untuk sifat ke-i dilambangkan πi dan untuk setiap

ulangan besarnya sama (tidak berubah-ubah)

Sebaran peluang multinom dapat nyatakan ke dalam rumus:

xkk

x

kkk xx

nnxxP ππππ ,...,

,...,);,...,;,...,( 1

11

11

= (2.10)

1 ,x0 n, xdengan k

1iii

k

1ii =≤≤= ∑∑

==

πn dan 10 ≤≤ π . Variabel random Xi

adalah banyaknya objek yang mempunyai sifat ke-i dari n pengamatan.

Dengan adanya syarat

1dan n x k

1ii

k

1ii == ∑∑

==

π (2.11)

maka dari k sifat akan terdapat (k-1) variabel random yaitu X1,...,X

k-1 dan

(k-1) parameter yaitu π1,..., π

k-1. Nilai X

k dan π

k dapat dihitung menggunakan

persamaan

∑∑==

==1-k

1iik

1-k

1iik -1 dan x-n x ππ


Persamaan (2.8) dapat dijuga dinyatakan dalam bentuk

111 1 1

1 2

( ,..., ; ,..., ; ) ,...,! !... !

x xkk k k

k

nP x x nx x x

π π π π= (2.12)

Variabel X= (X1,...,X

k-1) berdistribusi Multinomial peluang masing-masing

sebesar -sukses sebesar π1,..., π

k-1 dari n pengamatan dapat tuliskan sebagai

X~MULT(n, π1,..., π

k-1). Distribusi Multinomial merupakan bentuk distribusi

bersama karena memuat beberapa variabel random. Distribusi marginalnya

dapat berupa distribusi Multinomial ataupun distribusi Binomial.

Jika (X1,X

2) ~MULT(n, π

1, π

2) maka X

1 ~BIN(n, π

1) dan X

2~BIN(n, π

2). Pembuktian

atas sifat ini dapat ditunjukan dengan mencari fungsi desitas marginal dari

densitas gabungan.

( ) ( ) ( )

[ ]( )

( )

( ) ( ) ( )

( )

1

1 1 1 2 1 22 2 0

1 2211 2 1 21

12 01 2 1 2

1 1 211 21 2 1 2

2 0 21 1

( 1)11 2 1 2

1

11

1

, ,

( )! (1 )!! ! !

! 1! !

1

1

n x

x x

n x xXn xx

x

n x n x xx x

x

n xx

x

f x f x x f x x

n xnx x n x x

n xnxx n x

nx

nx

−

=

− −−

=

− − −

=

−

= =

− π − π − π= π

− − −

= π π − π − π −

= π π + − π − π

= π − π

∑ ∑

∑

∑

( )( )11

n x−

Jika hanya diperhatikan satu variabel random xi saja, maka x

i berdistribusi

binomial dengan parameter πi. Oleh karena itu mean dan variansinya adalah

E(Xi) = nπ

i dan Var(X

i) = nπ

i(1-π

i) (2.13)

Kovariansi dua variabel random Xi dan X

j dengan i≠j adalah

Cov(Xi, X

j) = -nπ

iπ

j (2.14)

Antar variabel random Xi tidak saling independen sebab

x-n x1-k

1iik ∑

=

=


Dalam percobaan Multinomial, dianggap satu populasi dan setiap objek

diklasikasi dalam faktor baris dan kolom. Sampel sebesar n ditetapkan sebelum

penelitian. Jumlah variabel random dapat dihitung menggunakan persamaan

jumlah variabel random = jumlah baris x jumlah kolom – 1.

Dalam percobaan Poisson, dianggap satu populasi dan setiap objek diklasikasi

dalam faktor baris dan kolom. banyaknya sampel tidak ditetapkan, bahkan

tidak diketahui. Yang ditetapkan adalah pengamatan pada interval waktu atau

daerah tertentu. Jumlah variabel random = baris x kolom.

Fungsi likelihood dari distribusi multinomial adalah

111 1 1

1 2

( ,..., | ,..., ; ) ,...,! !... !

x xkk k k

k

nL x x nx x x

π π π π= (2.15)


( )1 1( ,..., | ,..., ; )k kLL log L x x nπ π=

11 2

! ( )! ! ... !

k

i iik

nLL log x logx x x

π=

= +

∑ (2.16)


secara langsung, karena terdapat pembatasan bahwa 1k

1ii =∑

=

π sebagaimana

pada persamaan (2.11). Oleh karena itu perlu digunakan Lagrange multipliers.

11

k

ii

LLg LL λ π=

= + −

∑Selanjutnya, berdasarkan dengan menggunakan aturan 0=

∂∂

πLLg

diperoleh

MLE untuk masing-masing parameter πi adalah

1 1ixp

nπ = = . (2.17)


2.4 Distribusi Poisson

Percobaan Poisson memiliki ciri-ciri sebagai berikut

a. banyaknya hasil percobaan yang terjadi dalam selang waktu atau

suatu daerah tertentu, tidak tergantung pada banyaknya hasil

percobaan yang terjadi pada selang waktu atau daerah lain yang

terpisah

b. peluang terjadinya suatu hasil percobaan selama suatu selang

waktu yang singkat sekali atau dalam suatu daerah yang kecil,

sebanding dengan panjang selang waktu atau besarnya daerah

tersebut, dan tidak tergantung pada banyaknya hasil percobaan

yang terjadi diluar selang waktu atau daerah tersebut.

c. peluang bahwa lebih dari satu hasil percobaan akan terjadi dalam

selang waktu yang singkat tersebut atau dalam daerah yang kecil

tersebut, dapat diabaikan.

Distribusi Poisson dapat dituliskan ke dalam rumus

( ) ; 0,1,...!

0 untuk x yang lainnya

xe xP x x

λλ−==

(2.18)

e = 2.71828... dan λ merupakan parameter rata-rata banyaknya hasil percobaan

yanga terjadi selama selang waktu atau dalam daerah yang dinyatakan.

Fungsi log-likelihood untuk variabel random X1,…,X

n yang berdistribusi

Poisson adalah

( ) ( ) ( )( )

( ) ( ) ( )1

1 1

n

i ii

n ni ii i

LL X log log X !

LL log X n log X !

λ λ λ

λ λ λ=

= =

= − −

= − −

∑

∑ ∑

(2.19)

Selanjutnya, berdasarkan dengan menggunakan aturan 0LLλ

∂=

∂ diperoleh

1

1 0n

ii

LL x nλ λ =

∂= − =

∂ ∑


MLE parameter λ adalah

1ni ix

xn=λ = = ∑ .

(2.20)

Distribusi variabel random X pada nilai λ=0.5, λ=1 dan λ=4 dapat dilihat pada

Gambar 2.5.

(a) λ=0.5 (b) λ=1

(c) λ=4Gambar 2.5. Grafik distribusi Poisson pada nilai λ=0.5, λ=1 dan λ=4

2.4.1 Pendekatan Distribusi Poisson untuk Distribusi Binomial

Sebaran Binomial dan sebaran Poisson memiliki histogram yang hampir sama

bila n besar dan p kecil ( mendekati nol). Oleh karena itu, bila kedua kondisi

itu dipenuhi, maka sebaran Binomial dapat didekati menggunakan sebaran

Poisson dengan λ=np. Syarat p kecil equivalen dengan persyaratan p besar

(mendekati 1) yaitu dengan mepertukarkan definisi sukses-gagal.

( )lim 1 0,1,2,....!

xn xxn e x

x x

−λ−

π→∞

λπ − π = =


Pembuktian persamaan tersebut adalah sebagai berikut

( ) ( )!1 1

! !

1 1... 1!

x n xn xx

xx

n nx x n x n n

n n n xx n n n n

−−

−

λ λ π − π = − −

λ − − + λ = −

Selanjutnya dengan menggunkan sifat limit berikut

( )

lim 1 lim 1 1

lim 1!

n x

x

xn xx

en n

n ex x

−λ

π→∞ →∞

λ−

π→∞

λ λ − = − =

λπ − π =

dan

Maka terbukti

2.4.2 Menghitung Nilai Peluang Menggunakan Excel dan Program R

Perhitungan nilai probabilitas beserta funsgi distribusi menggunakan Excel

disajikan pada Tabel 2.1.

Tabel 2.1. Menghitung probabilitas dalam program Excel

No Distribusi Variabel Random

Parameter P(X) = f(x) F(x) = P(X≤x)

1 Binomial X P BINOM.DIST(n;x;p;false)

BINOM.DIST(n;x;p;True)

2 Poisson X µ POISSON.DIST(x; µ;false)

POISSON.DIST(x; µ;true)

3 Hipergeometrik X - HYPGEOM.DIST

(x;k;n;N;false)

HYPGEOM.DIST(x;k;n;N;true)

4 Binomial negatif

X P NEGBINOM.DIST((x-

k);k;p;false)

NEGBINOM.DIST((x-

k);k;p;true)


Perhitungan nilai probabilitas beserta fungsi distribusi menggunakan R

disajikan pada Tabel 2.2.

Tabel 2.2. Operasi distribusi dalam program R

No Distribusi Variabel

Random

Parameter P(X) = f(x) F(x) = P(X≤x)

1 Binomial X P dbinom(x,n,p) pbinom(x, n, p)

2 Poisson X µ dpois(x, µ) ppois(x, µ)

3 Hipergeometrik X - dhyper(x,k,N-k,n)

dhyper(x,k,N-k,n)

4 Binomial negatif X P dnbinom((x-k), k,p)

pnbinom((x-k), k,p)

U J I I N D E P E N D E N S I P A D A TA B E L D I M E N S I D U A 27

3. UJI INDEPENDENSI PADA TABEL DIMENSI DUA

Orang-orang lebih suka mengelompokkan berbagai hal ke dalam kategori.

Hampir setiap proyek penelitian. Data hasil pengamatan dikelompokan ke

dalam spesifikasi tertentu seperti kelompok kecil seperti: pria atau wanita;

status pernikahan; rusak atau tidak rusak; kecil, sedang, atau besar; ras pasien;

dengan atau tanpa operasi amandel; dan seterusnya. Dalam penelitian ilmu

sosial dan biologi, data hasil pengamatan seringkali disajikan dalam tabel

kontingensi.

Variabel kategorikal biasanya diklasifikasikan sebagai dua tipe dasar: nominal

dan ordinal. Variabel nominal melibatkan kategori yang tidak memiliki urutan

tertentu seperti warna rambut, ras, atau lokasi klinik, sedangkan kategori yang

terkait dengan variabel ordinal memiliki beberapa urutan bawaan (kategori

status sosial ekonomi, dll.). Para ahli statistik telah menemukan sejumlah cara

untuk menganalisis dan menjelaskan data kategorik. Analisis tabel kontingensi

digunakan untuk menguji hubungan antara dua variabel kategori. Uji

goodness-of-fit digunakan untuk mengukur apakah kelompok hitungan yang

diamati cocok dengan pola teoretis.

Sementara itu untuk menguji adanya asosiasi dalam tabel kontingensi,

khususnya tabel 2x2 tidak ada kata sepakat dalam menetapkan uji yang

paling sesuai. Perdebatan mengenai ukuran asosiasi tersebut dimulai oleh

ahli statistik pada awal abad 20 seperti Pearson (1913) dan Yule (1912).

Pearson (1904, 1913) telah membahas dengan pendekatan distribusi kontinu

bivariat. Dia menyakini bahwa dapat dilukiskan assosiasi antar faktor dengan

menggunakan ukuran seperti korelasi sebagaimana data kontinu. Ukuran

tersebut dikenal dengan sebagai Pearson’s contigency coefficient. Person

berpendapat bahwa koefisien yang disarankan oleh Yule (1900, 1912) untuk


tabel 2x2 yang disebut odds ratio tidaklah cocok. Untuk menguji independensi

antara dua faktor, Pearson (1904, 1913) mengusulkan Uji Pearson Chi-square.

Statistik uji yang lain yang diusulkan oleh Fisher (1922, 1925,1936) dan Irwin

(1949) adalah Fisher’s exact test. Yates (1934) mengusulkan suatu koreksi atas

statistik Pearson yang memberikan p-value yang lebih baik dibandingkan

pendekatan distribusi hipergeometrik dalam Fisher’s exact test. Goodman dan

Kruskal (1959) telah menjelaskan sejarah perkembangan ukuran asosiasi pada

tabel kontingensi. Ukuran-ukuran lain yang didasarkan pada konkordan dan

diskordan diusulkan oleh Kendall (1945), Kruskal (1958) dan Agresti (1984)

meneliti tentang assosiasi ordinal.

3.1 Struktur Data dan Probabilitas pada Tabel 2x2

Tabel kontingensi 2x2 merupakan klasifikasi objek pengamatan berdasar

dua variabel dan masing masing variabel diklasifikasikan menjadi dua

kelompok. Tabel 3.1. merupakan penyajikan n objek yang diklasifikasikan

menuruk variabel baris (Faktor A) dan variabel kolom (Faktor B). Dalam tabel

kontingensi, istilah variabel seringkali digantikan dengan istilah faktor. Hal

ini dikarenakan variabel yang dimaksud bersifat nominal sehingga dapat

disebut sebagai faktor. Penamaan variabel baris dan variabel kolom tidak

lepas dari penempatan kedua variabel tersebut. Faktor A sebagai variabel baris

berarti letaknya pada baris, demikian juga jika disebut variabel kolom berarti

diletakkan pada kolom.

Tabel 3.1. Tabel kontingensi Faktor A dan Faktor B

Faktor AVariabel Kolom (Faktor B)

TotalB1 B2

A1

n11

n12

n1+

= n11

+ n12

A2

n21

n22

n2+

= n21

+ n22

Total n+1

= n11

+ n21

n+2

= n12

+ n22

n

Diasumsikan bahwa masing-masing objek memiliki salah satu sifat/klasifikasi

A dan salah satu sifat B.


Nilai pada masing-masing sel merepresentasikan distribusi bersama yaitu

berdistribusi multinomial dengan empat kategori. Nilai pada kolom terakhir

dan baris terakhir merepresentasikan distribusi marginal yang berdistribusi

Binomial. Struktur distribusi multinomial dapat disajikan pada Tabel 3.2.

Tabel 3.2. Struktur parameter π

Faktor AFaktor B

TotalB1 B2

A1 π11

π12

π1+

= π11

+ π12

A2 π21

π22

π2+

= π21

+ π22

Total π+1

=π11

+ π21

π+2

=π12

+ π22

1

Jika data pada Tabel 3.1 merupakan data populasi, maka

11 12 21 2211 12 21 22; ; ; .n n n n

n n n nπ = π = π = π =

Biasanya data yang dimiliki merupakan data sampel. Parameter πij masing-

masing diestimasi berdasarkan data sampel, yaitu menggunakan pij. Struktur

parameter proporsi untuk data sampel dapat disajikan pada Tabel 3.3.

Tabel 3.3. Struktur statistik p

Faktor AFaktor B

TotalB1 B2

A1

p11

p12

p1+

= p11

+ p12

A2

p21

p22

p2+

= p21

+ p22

Total p+1

=p11

+ p21

p+2

=p12

+ p22

1

Statistik pij dihitung menggunakan data sampel dengan persamaan sebagai

berikut

11 12 21 2211 12 21 22, , , .n n n np p p p

n n n n= = = =

Nilai pada masing-masing sel merepresentasikan distribusi bersama yaitu

berdistribusi multinomial dengan empat kategori. Nilai pada kolom terakhir

dan baris terakhir merepresentasikan distribusi marginal yang berdistribusi

Binomial.


Probabilitas dalam tabel kontingensi dapat dikelompokan menjadi 3

jenis, yaitu

a. Probabilitas bersama.

Pada Tabel 3.2, probabilitas bersama merupakan distribusi multinomial

yang terdiri atas 4 kelompok (sel). Masing-masing sel mempunyai

probabilitas

P(A1∩B1) = π11, P(A1∩B2) = π12, P(A2∩B1) = π21, P(A2∩B2) =π22.

b. Probabilitas marginal.

Pada tabel kontingensi dua arah (baris dan kolom) terdapat dua distribusi

marginal. Dari Tabel 3.2, probabilitas marginalnya merupakan distribusi

Binomial karena hanya terdapat dua kemungkinan hasil (dua kelompok).

Nilai probabilitas untuk distribusi marginal baris adalah

P(A1) = π1+ dan P(A2) = π2+ Nilai probabilitas untuk distribusi marginal adalah

P(B1) = π+1 dan P(B2) =π+2

Probabilitas marginal kolom dihitung pada masing-masing kolom tanpa

memperhatikan variabel baris.

c. Probabilitas bersyarat (conditional)

Probabilitas bersyarat dapat diterapkan pada kasus sifat objek yang

dimatai sudah diketahui memiliki sifat tertentu. Jika diketahui objek

memiliki sifat A dan hendak dihitung peluangnya atas sifat B maka dapat

dinyatakan menjadi

( )( | )

( )j i

j ii

P B AP B A

P A∩

=

111 1

1

( | )P B B A A ππ +

= = = dan 122 1

1

( | )P B B A A ππ +

= = =

Sehingga

2 1 2 1( | ) ( | ) 1P B B A A P B B A A= = + = = =

Demikian juga

211 2

2

( | )P B B A A ππ +

= = = dan 222 2

2

( | )P B B A A ππ +

= = =


Sehingga

2 2 2 2( | ) ( | ) 1P B B A A P B B A A= = + = = =

Dua variabel dikatakan independen secara statistik jika distribusi bersyarat

untuk variabel A pada semua level B adalah indentik. Ketika dua variabel

independen, maka

)|()|( 2121 AABBPAABBP =====

Berdasarkan distribusi bersama, maka A dan B independen jika

πij = πi+π+j (3.1)

Sifat ini dapat dipakai menguji apakah Variabel A dan B saling independen.

Hipotesis nya adalah

H0 : π

ij = π

i+π

+j untuk semua i dan j (Variabel baris dan variabel kolom saling

independen) untuk i,j=1,2.

H0 : π

ij ≠ π

i+π

+j untuk suatu i dan j (Variabel baris dan variabel kolom tidak

independen)

Terdapat beberapa statistik uji untuk hipotesis tersebut diantaranya yang

popular adalah

1. Pearson’s Chi-Squared test

2. Yates’s Chi-Squared test

3. Likelihood Ratio test

4. ‘N - 1’ Chi-Squared test.

Ke-empat statistik ini merupakan uji pendekatan menggunakan distribusi

Normal. Pada kasus sampel kecil, dapat diterapkan uji Eksak Fisher.

3.2 Statistik Uji Independen pada Tabel 2x2

Tabel kontingensi 2 × 2 adalah struktur paling elemental yang mengarah

ke ide-ide asosiasi yang dimulai dari masalah perbandingan dua parameter

Binomial. Beberapa konsensus terkait dengan analisis tabel kontingensi yang

menggunakan uji Chi-square adalah jumlah minimum yang diharapkan pada

masing-masing sel minimal 5.


Statistik Chi-Square adalah statistik utama yang digunakan untuk menguji

apakah kedua variabel tersebut independen atau tidak dari tabel tabulasi

silang. Uji Chi-square didasarkan pada distribusi pendekatan dan akan valid jika

frekuensi yang diharapkan cukup besar. Tidak ada frekuensi yang diharapkan

harus kurang dari 1 dan nilai harapan masing-masing sel yang besarnya kurang

dari 5 jumlahnya tidak lebih dari 20% dari total sel yang ada. Untuk tabel yang

lebih besar dari 2x2, distribusi Chi-square dengan derajat kebebasan yang

sesuai memberikan perkiraan yang baik untuk distribusi sampling dengan

statistik Pearson dan Likelihood Ratio. Kedua statistik berdistribusi Chi-Square,

namun distribusi pendekatan ini akan memburuk dengan frekuensi yang

diharapkan kecil. Aturan umumnya adalah bahwa frekuensi yang diharapkan

terkecil harus setidaknya lima. Namun Cochran (1952, 1954), yang umumnya

dianggap sebagai sumber aturan ini, mengakui bahwa angka “5” tampaknya

dipilih tanpa didasari perhitungan secara eksak.

Uji Chi-square sering dikenal sebagai Chi-square Pearson, berasal dari

makalah oleh Karl Pearson pada awal 1900-an. Uji ini berfungsi baik sebagai

tes “good-of-fit”, di mana data dikategorikan dalam satu dimensi, dan sebagai

tes untuk “tabel kontingensi” yang lebih umum, di mana kategorisasi berada di

dua dimensi atau lebih. Statistik Chi-square Pearson untuk tabel Kontingensi

2x2 sebagaimana disajikan pada Tabel 3.4 didefinisikan sebagai berikut Χ 2

( )22

1 2 1 2

n ad bcm m n n

χ−

=

(3.2)

Tabel 3.4. Tabel kontingensi Faktor A dan Faktor B

Faktor AFaktor B

TotalB1 B2

A1

a b n1

A2

c d n2

Total m1

m2

n

Statistik Likelihood rasio yang diperoleh dari fungsi likelihood didefinisikan

sebagai berikut

2

1 1 1 1 1 1 1 1

2 .log .log .log .logan bn cn dna b c dm n m n m n m n

χ = + + +

(3.3)


Jika nilai harapan kurang dari 5, maka dapat digunakan statistic uji Yates

correction (Yates’s Chi-Squared test ) and the N - 1 Chi-square test. Yates’

correction (Yates, 1934) adalah sama dengan statistik Pearson’s Chi-square

tetapi ditambahkan adanya komponen koreksi yaitu 2

2

1 2 1 2

| |2nn ad bc

m m n n

− − χ =

(3.4)

Sebagaimana disampaikan Campbell (2007), jika nilai harapan setiap

selnya minimal sama dengan 1 maka statistik “N – 1” Chi-square lebih baik

dibandingkan dengan Chi-square Pearson. Statistik “N – 1” chi-square

didefinikan sebagai berikut

( )2

1 2 1 2

( 1)n ad bcm m n n

− −χ =

(3.5)

Ketika n kecil apalagi kurang dari 1, lebih baik menggunakan distribusi eksak

dibanding dengan pendekatan sampel besar. Untuk uji eksak dikemukakan

oleh Fisher (Davis, 1968). Didasarkan atas sampling tanpa pengembalian

dari distribusi hipergeometrik. H0 benar (kedua pengamatan independen),

peluang komposisi pengamatan seperti Tabel 3.1 (dengan asumsi jumlah

margin tetap ) adalah

( )

21

1 1 2 1 211

1

! !m m !! !c!d!n!

nnm aa n nP n an a bm

− = = =

(3.6)

P-value merupakan jumlah semua nilai probabilitas P(n11

) yang mendukung

H1. Selanjutnya H

0 ditolak jika P-value lebih kecil dari α. Statistik uji ini disebut

uji eksak Fisher’s yang disampaikan oleh R. A. Fisher pada tahun 1934.

Campbell (2007) telah memberikan bukti baru dan menyempurnakan

pedoman yang dibuat oleh Cochran. Pembuktian dilakukan dengan simulasi

terhadap empat metode yaitu (1) uji Chi-square Pearson (2) uji Chi-square

Pearson dengan “Yate Correction” (3) Chi square “N-1” (4) uji Fisher-Irwin .

Berdasarkan pengujian secara simulasi terhadap empat metode, tersebut

disimpulkan bahwa


i. Jika nilai harapan semua sel minimal sebesar 1 maka sebaiknya

digunakan uji ‘N–1’ Chi-square.

ii. Jika nilai harapan kurang dari 1 maka sebaiknya digunakan uji

Fisher-Irwin.

3.3 Analisis Tabel Kontingensi bxk

Dalam suatu penelitian, observasi terhadap obyek penelitian tidak hanya satu

variabel akan tetapi bisa lebih dari satu variabel. Jika setiap obyek dilakukan

observasi lebih dari satu variabel kategori, maka data hasil observasi dapat

disajikan dalam bentuk tabel yang disebut tabel tabulasi silang atau tabel

kontingensi. Misalkan observasi terhadap karyawan perusahaan, variabel

kategori yang dapat diobservasi adalah jenis kelamin, status perkawinan,

pendidikan dan lain-lain.

Analisis tabel kontingensi adalah metode umum untuk menganalisis hubungan

antara dua variabel kategori. Variabel kategori yang pertama diklasifikasikan

menjadi b respon kategori dan variabel kategori lain memiliki kemungkinan

hasil sebanyak k. Dalam hal ini, ada bxk kemungkinan untuk kedua variabel

ini. Tabel kontingensi bxk memiliki b baris dan kolom k yang terdiri dari sel

sebanya bk yang berisi jumlah yang diamati (frekuensi) untuk masing-masing

sel.

Analisis ini disebut analisis tabel kontingensi dan biasanya dilakukan dengan

menggunakan statistik Chi-square yang membandingkan jumlah yang diamati

dengan yang akan diharapkan jika tidak ada hubungan antara kedua variabel.

Berikut ini adalah beberapa contoh situasi di mana analisis tabel kontingensi

chi-square akan sesuai.

i. Sebuah studi membandingkan jenis-jenis kejahatan dan klasifikasi

apakah penjahat itu peminum.

ii. Analisis dilakukan untuk menentukan apakah ada preferensi gender

antara kandidat yang mencalonkan diri sebagai gubernur.

iii. Lembaga pelatihan ingin mengetahui apakah tingkat drop out dua

metode pelatihan kerja besarnya sama.


iv. Bagian riset pemasaran ingin mengetahui apakah ada perbedaan

dalam tingkat respons di antara perusahaan kecil, menengah, dan

besar dalam mengembalikan kuesioner yang dikirimkan.

Pada Tabel tabulasi silang, terdapat dua uji yang ditentukan oleh proses

pengambilan sampelnya yaitu Uji Independensi dan Uji Homogenitas.

Walaupun proses pengambilan samplenya berbeda, tetapi seakan-akan data

yang dihasilkan sama.

i. Uji Independensi.

Sampel pengamatan acak tunggal dipilih dari populasi yang diamati dan

data dikategorikan berdasarkan dua variabel. Misalnya, dalam contoh riset

pemasaran di atas, strategi pengambilan sampel ini akan menunjukkan

bahwa sampel acak tunggal perusahaan dipilih, dan setiap perusahaan

yang dipilih dikategorikan berdasarkan ukuran (kecil, sedang, atau besar)

dan apakah perusahaan itu mengembalikan survei.

ii. Uji Homogenitas.

Sampel acak terpisah diambil dari masing-masing dua atau lebih

populasi untuk menentukan apakah respon yang terkait dengan variabel

kategori mengasilkan proporsi yang konsisten di seluruh populasi. Dalam

contoh riset pemasaran di atas, strategi pengambilan sampel ini akan

memperhatikan tiga populasi perusahaan (berdasarkan ukuran), dan

sampel dipilih dari masing-masing populasi ini. Selanjutnya pengujian

dilakukan untuk menentukan apakah terdapat perbedaan tingkat

respons di antara ketiga jenis perusahaan.

Tabel dua arah yang dihasilkan dari dua pengujian ini adalah sama, walaupun

strategi pengambilan sampelnya berbeda. Yang membedakan satu dengan

yang lainnya adalah dalam pernyataan hipotesis dan kesimpulan.

Validitas uji Chi-square tergantung pada ukuran sampel dan jumlah sel.

Beberapa aturan praktis telah disarankan untuk menunjukkan apakah analisis

menggunakan Chi-square mengasilkan kesimpulan yang baik atau tidak.


Satu aturan seperti yang disarankan oleh Cochran (1954) mengatakan bahwa

perkiraannya memadai jika tidak ada frekuensi sel yang diharapkan kurang

dari satu dan tidak lebih dari 20% kurang dari lima. Ketika aturan tetang

frekuensi harapan ini tidak terpenuhi maka dapat dilakukan penggabungan

kategori pada faktor tertentu.

3.4 Struktur Data dan Probabilitas Tabel Kontingensi bxk

Bentuk tabel tabulasi silang dari suatu observasi yang melibatkan dua variabel

kategori dapat disajikan dalam tabel kontingensi sebagaimana Tabel 3.5.

Tabel 3.5. Tabel kontingensi dua dimensi untuk Faktor A dan Faktor B

Faktor AFaktor B

JumlahB1 B2 ..... Bk

A1

n11

n12

..... n1k

n1+

A2

n21

n22

...... n1k

n2+

.

...........

.....

...............

.....

................

Ab

nb1

nb2

nbk

nb+

Jumlah n+1 n

+2 ........n

+kn

Proporsi masing-masing sel disajikan dalam Tabel 3.6.

Tabel 3.6. Proporsi pada tabel kontingensi dua arah

Faktor AFaktor B

JumlahB1 B2 ..... Bk

A1

π11

π12

… π1k

π1+

A2

π21

π21

… π2k

π2+

.

.… … … …

Ab

πb1

πb1

… πbk

πb+

Jumlah π+1

π+2

… π+k

1

Dalam tabel kontingensi dua arah dengan probabilitas bersama πij , hipotesis

nol untuk menguji independensi dua variabel (baris dan kolom). Dengan


asumsi independen, berarti distribusi bersama (joint distribution) dapat

dihitung menggunakan distribusi marginalnya. Probabilitas dua kejadian

yang saling independen mempunyai sifat P(A ∩ B) = P(A).P(B).

Dengan kata lain, Jika faktor A dan Faktor B saling bebas, maka nilai proporsi

baris ke i kolom ke j atau sel (i,j) adalah perkalian proporsi baris ke-i dengan

proporsi kolom ke-j,

πij =πi+ π+j untuk i=1,…,b dan j=1,…,k.

. jiij

nnn n

++π = (3.7)

Kita ingin menguji apakah Faktor A dan Faktor B saling independen yang dapat

dihipotesiskan sebagai berikut :

H0 : π

ij = π

i+π

+j untuk semui i dan j (Faktor A dan Faktor B saling independen)

H1 : π

ij ≠ π

i+π

+j untuk suatu i dan j ( Faktor A dan Faktor B tidak independen)

Nilai harapan dihitung dengan asumsi H0 benar atau Faktor A dan Faktor B

saling independen.

Nilai πi+

dan π+j

tidak diketahui, sehingga pada data sampel jika sifat independen

terpenuhi maka frekuensi sel yang diharapkan (eij) dihitung menggunakan

persamaan j i ji

ij i j

n n nne np p nn n n

+ + +++ += = = (3.8)

Nilai frekuensi harapan (eij) dihitung berdasarkan asumsi bahwa variabel baris

(grup) dan variabel kolom saling independen.

Dalam tabel kontingensi dua arah, Chi-square dapat digunakan untuk

menguji independensi dua variabel marginal. Uji Chi-square sering dinamakan

goodness-of-fit test tetapi sebenarnya yang diuji adalah badness-of-fit test,

karena besarnya nilai Chi-square mengindikasikan ketidak sesuaian antar

frekuensi observasi (nij) dan frekuensi harapan (e

ij). Terdapat dua statistik

Chi-square yaitu Pearson Chi-square (χ2) dan Likelihood Ratio Chi-square (G2).


3.4.1 Statistik Pearson Chi-square

Persamaan statistik Pearson Chi-square adalah 2

2

1 1

( )b kij ij

i j ij

n µχ

µ= =

−= ∑∑

dan µij = nπij. (3.9)

nij adalah frekuensi observasi sel pada baris ke-i dan kolom ke-j. µ

ij merupakan

parameter dari rata rata frekuensi sel (i,j) pada baris ke-i dan kolom ke-j. Statistik

χ2 digunakan untuk menguji H0 (variabel baris dan kolom saling independen),

Statistik ini disampaikan pada tahun 1900 oleh Karl Pearson. Statistik χ2

mempunyai nilai minimum nol ketika nij = µ

ij . Pada sampel terbatas, besarnya

nilai selisih (nij − µ

ij) menghasilkan nilai χ2 yang besar dan bertentangan dengan

H0. Oleh karena itu nilai χ2 yang besar mengindikasikan bahwa sampel tidak

sesuai dengan H0. Pada sampel besar χ2 mempunyai distribusi mendekati

distribusi Chi-square dengan derajad bebas (b-1)(k-1). Pendekatan ini akan

baik jika µij semakin besar dan µ

ij ≥ 5. Distribusi Chi-Square mempunyai mean

sama dengan derajat bebasnya (df = degrees of freedom) dan variansinya

sama dengan 2 kali df. Semakin besar df maka semakin mendekati distribusi

Normal. Sebagaimana dalam Gambar 3.1. berikut merupakan grafik distribusi

Chi-square pada df = 1, 5, 10, dan 20.

Gambar 3.1. Distribusi Chi-square


Berdasarkan data sampel, dengan asumsi kondisi H0 terpenuhi maka µ

ij

diestimasi dengan eij. Statistik uji untuk χ2 adalah

22

1 1

( )b kij ij

i j ij

n ee

χ= =

−= ∑∑

(3.10)

Statistik ini mempunyai distribusi Chi-square dengan derajad bebas sama

dengan (b-1)(k-1). Rumus di atas dapat disajikan dalam bentuk :2 2 21 22

1 1 11 2

1 1 1... 1k k k

j j bj

j j jj j b j

n n nn

n n n n n nχ

= = =+ + + + + +

= + + + −

∑ ∑ ∑

(3.11)

Derajad bebas ini merupakan selisih banyaknya parameter dalam H0 dan H

1.

Pada variabel baris diketahui bahwa ∑=

+ =b

ii

11π sehingga terdapat (b-1) dari

πi+

yang nilainya bebas dipilih. Demikian juga pada variabel kolom diketahui

bahwa ∑=

+ =k

jj

11π sehingga terdapat (k-1) dari π

i+ yang nilainya bebas dipilih.

Jadi dibawah H0 benar, terdapat parameter sebanyak ((b-1) + (k-1)). Pada

hipotesis alternatif (H1) menyatakan variabel baris dan variabel kolom tidak

independen. Dari sel sebanyak bk dan 1 1

1b k

iji j

π= =

=∑∑ terdapat derajad bebas

(bk -1). Derajad bebas adalah selisih banyaknya parameter dalam H0 dan H

1

yaitu

df = (bk − 1) − [(b − 1) + (k − 1)] = bk − b − k + 1 = (b − 1)(k − 1)

3.4.2 Statistik Rasio Likelihood

Uji rasio likelihood menentukan nilai parameter yang memaksimumkan fungsi

likelihood dibawah asumsi H0 benar. Statistik ujinya merupakan logaritma dari

rasio fungsi likelihood

2

1 12 log

b kij

iji j ij

nG n

e= =

=

∑∑

(3.12)

Statistik uji ini mempunyai nilai non negatif dan berdistribusi Chi-Square

dengan derajad bebas (b-1)(k-1). G2 disebut statistik likelihood-ratio Chi-Square

yang bernilai besar ketika H0 salah. G2 mempunyai nilai minimum nol ketika

nij = µ

ij. Besarnya nilai G2 menandakan besarnya kecenderungan menolak H

0.

Ketika H0 benar dan µ

ij besar, statistik χ2 dan G2 mempunyai distribusi yang

sama yaitu Chi-square dan nilainyapun juga relatif sama.


3.4.3 Uji Independensi Pendekatan Distribusi Normal

Fisher (1936) dan Yates (1934) membuktikan bahwa jika derajat bebas cukup

besar , (b-1)(k-1) > 30, ternyata bentuk 22χ mendekati distribusi Normal

dengan rataan 2( 1)( 1) 1b k− − − dan simpangan baku 1. Oleh karena itu

( )( )22 2 1 1 1Z X b k= − − − − (3.13)

Z berdistribusi Normal standar. Pendekatan ini hanya dapat dipertanggung-

jawabkan jika eij cukup besar. Jika e

ij harganya kecil-kecil maka dapat digunakan

pendekatan lain yaitu jika derajat babas cukup besar (lebih dari 30) dan harga

eij kecil-kecil, maka statistik χ2 mendekati distribusi Normal dengan rata-rata

( 1)( 1)1

n b kn

− −µ =

−

sedangkan variansinya

22

1 1 2 2 1 22 ( )( )

3 1n nn n

n nσ µ µ µ µ= − − +

− −

dengan

1 2

( 1)( ) ( 1)( ),( 1) ( 1)

b n b b n kn nn n

− − − −= =

− −

)2(

1 2

11 −

−

=∑

= +

n

bn

nb

i iµ, )2(

11

2

2 −

−

=∑

= +

n

kn

nk

j jµ

Selanjutnya pengujian berdasar statistik z yang berdistribusi Normal standar

σµχ −

=2

z (3.14)

3.4.4 Contoh Data Tabel bxk

Akan diuji apakah jenis kelamin (Gender) berasosiasi dengan partai yang

dianut (Demokrat, Agama, Republik). Dari responden sebanyak 2757, dapat

diklasifikasikan sebagai berikut


Tabel 3.7. Data gender dan partai afiliasi

GenderPartai

P1 P2 P3 Total

Wanita 762 327 4681557

(703.7) (319.6) (533.7)

Laki 484 239 4771200

(542.3) (246.4) (411.3)

Total 1246 566 945 2757

Frekuensi harapan dinyatakan dalam tanda kurung pada masing-masing sel

yang bersesuaian.

Hipotesis dari permasalahan tersebut adalah

Ho : Variabel Gender dan variabel Partai saling independen

H1 : Variabel Gender dan variabel Partai tidak saling independen

Untuk menguji hipotesis tersebut, dapat digunakan statistik Pearson’s

Chi-square. Dalam program R, untuk menghitung statistik Pearson’s Chi-square

dapat digunakan fungsi chisq.test

> gender <- matrix(c(762,327,468,484,239,477),byrow=TRUE,nrow=2)

>dimnames(gender) <- list(Gender=c(“Wanita”,”Laki”),

Party=c(“P1”,”P2”,”P3”))

> chisq.test(gender)

Pearson’s Chi-squared test

data: gender

X-squared = 30.0701, df = 2, p-value = 2.954e-07

Dari perhitungan tersebut, diperoleh statistik Pearson Chi-square, χ2 =

30.0701 dengan derajad bebas (df )=(2-1)(3-1) = 2 dan p-value = 2.954e-07.

Dapat disimpulkan tolak H0 yang berarti bahwa faktor Gender berpengaruh

terhadap Partai.


3.5 Uji Cochran-Mantel-Haenszel untuk Tabel 2x2xJ

Cochran–Mantel–Haenszel (CMH) test adalah salah satu alternatif uji

independensi dua faktor bersyarat dalam tabel kontingensi 2x2xJ.

Tabel 3.8. Tabel kontingensi 2x2xJ untuk faktor A, B dan C

Faktor C Faktor B faktor A Jumlah

A1 A2C1 B1 n

111n

121n

1+1

B2 n211

n221

n2+1

Jumlah n+11

n+21

n++1

.... .... .... ...Cj B1 n

11jn

12jn

1+j

B2 n21j

n22j

n2+j

jumlah n+1j

n+2j

n++j

.... .... .... ....CJ B1 n

11Jn

12Jn

1+J

B2 n21J

n22J

n2+J

jumlah n+1J

n+2J

n++J

Uji independensi dilakukan pada masing-masing tabel kontingensi 2x2

untuk faktor C tertentu. H0 merupakan hipotesis bahwa faktor A dan faktor B

independen untuk semua level C, atau dapat dinyatakan sebagai

H0 : 1 1

11j j

jj

n ne

n+ +

++

= untuk semua j=1,...,J

Statistik uji yang digunakan adalah 2

11 111

111

( )

( )

J

j jj

J

jj

n eCMH

Var n

=

=

−

=∑

∑

dengan 1 2 1 2

11 2( )( 1)

j j j jj

j j

n n n nVar n

n n+ + + +

++ ++

=−

(3.15)

Untuk sampel yang sangat besar, statistik CMH mendekati distribusi Chi-Square

dengan derajat bebas satu (df=1).

Cochran–Mantel–Haenszel (CMH) test dapat dikembangkan untuk tabel bxkxJ


(Cochran, 1954). Uji independensi tabel kontingensi bxk untuk semua j=1,...,J.

Misalkan

nj = (n

11j , n

12j , ... , n

1(k-1)j , ... , n

(b-1)(k-1)j )’

merupakan vektor dari sel observasi dan

( ) ( )( )1 1 1 2 1 11

1 , ,..., 'j j j j j b j k jj

n n n n n nn + + + + − + + −

+

=m

yang merupakan nilai ekspektasi. Cochran-Mantel-Haenszel test telah

diimplementasikan dalam program R menggunakan fungsi mantelhaen.test

dalam ctest library.

3.6 Ukuran Assosiasi

Untuk mengetahui derajad keeratan hubungan antara dua faktor dapat

digunakan beberapa ukuran asosiasi berikut yang didasarkan pada statistik

Chi-square.

a. Koefisien kontingensi kuadrat tengah (Φ2)

n

22 χ

=Φ , 0 < Φ2 < ∞ (3.16)

b. Koefisien kontingensi Pearson (P)

)1( 2

22

nn

χχ+

=Ρ , 0 < P < 1 (3.17)

P= 0 menyatakan adanya independen sempurna dan P = 1 adanya

dependensi.

c. Koefisien kontingensi Kendall-Stuart (K) (Kendall dan Stuart,1979)2 /

( 1)( 1)nK

b kχ

=− −

, 0 < K < 1 (3.18)

K = 0 berarti independen sempurna dan K = 1 berarti dependen sempurna

hanya jika (b=k). Jika b≠k angka 1 tak pernah tercapai.

d. Koefisien kontingensi Cramer (C)

{ }2 /

( 1);( 1)nC

min b kχ

=− −

(3.19)

Jika b = k maka C = K, sedangkan jika b≠k maka C > K.


e. Koefisien kontingensi Tau-Kendall

Ukuran asosiasi ini diturunkan dari data peringkat. Langkah pertama

adalah dicari banyaknya pengamatan yang dibentuk oleh pasangan

kategori dengan peringkat searah/serasi (yang disebut pasangan

konkordan) dan pasangan kategori dengan peringkat berlawanan arah

(yang disebut diskonkordan). Jumlah pasangan konkordan dinyatakan

dengan M dan jumlah pasangan diskonkordan dinyatakan dengan N.

Selanjutnya

Q = M-N

Dari Q dturunkan tiga macam statistik tau (ukuran tau-Kendall)

NnnQ

a )1(2

−=τ (3.20)

2( )( )b

QM N X M N Y+ +

τ =+ + + +

(3.21)

dengan

X+ : jumlah pengamatan seri hanya pada variabel pertama

Y+ : jumlah pengamatan seri hanya pada variabel kedua

( )2

21a

Qn m

τ =−

(3.22)

dengan m = min(b;k). τa tidak berlaku jika terdapat pengamatan seri,

karena itu tidak berlaku untuk tabel kontingensi. Sedangkan τb dan τ

c

untuk menghitung assosiasi dua variabel dengan kategori peringkat.

Kelima ukuran ini tidak memiliki pengertian probabilistik, seperti halnya

koefisien korelasi. Ukuran assosiasi yang memiliki pengertian probabilistik

sehingga dapat digunakan untuk prediktif adalah

a. Lambda Goodman-Kruskal (Goodman dan Kruskal, 1979)

Identifikasi dahulu faktor prediktornya. Jika faktor baris sebagai perediktor

maka ukuran assosiasinya λB sedangkan faktor kolom sebagai Prediktor

maka ukuran assosiasinya λK

( ) ( )

( )1

k

ij ij

Bi

max n max n

n max nλ

+=

+

−=

−

∑ ,

( ) ( )( )

1

b

ij ji

Kj

max n max n

n max nλ

+=

+

−=

−

∑ (3.23)

0 < λB< 1 demikian juga 0 < λK< 1. Ukuran simetri (koefisien simetri)


( ) ( ) ( ) ( )

( ) ( )1 1

2

b k

ij j j ii j

j i

max n max n max n max n

n max n max nλ

+ + += =

+ +

+ − −=

− −

∑ ∑ (3.24)

b. Gamma Goodman-Kruskal (Goodman, 1970, 1971)

Ukuran assosiasi ini diturunkan dari statistik Q dalam statistik Tau-Kendall.

Rumusnya :

)( NMQ+=γ (3.25)

γ = 1 terjadi dependensi sempurna dan γ=0 terjadi independensi

sempurna.

c. d Somers

Jika kita mempunyai dua variabel yang satu sebagai prediktor dan

yang lain sebagai respon , masing-masing variabel kategori peringkat,

maka ukuran assosiasinya dihitung dengan statistik d Somers. X sebagai

prediktor dan Y sebagai respon , statistik ini dinotasikan

( )YXQd

M N X +

=+ +

(3.26)

Y sebagai prediktor dan X sebagai respon, statistik ini dinotasikan

( )XYQd

M N Y+

=+ +

(3.27)

Antara tau kendal (τ2b ) dengan d Somers berlaku persamaan

τ2b = 4dxy

dyx

(3.28)

M O D E L L O G L I N E A R P A D A TA B E L K O N T I N G E N S I D I M E N S I D U A 47

4. MODEL LOGLINEAR PADA TABEL KONTINGENSI DIMENSI DUA

4.1 Pendahuluan

Sampai akhir 1960-an, tabel kontingensi atau tabel dua arah yang dibentuk

oleh klasifikasi variabel baris dan variabel kolom, biasanya dianalisis

menggunakan statistik Chi-square untuk pengujian kebebasan antara variabel

baris dan kolom. Ketika tabel terdiri dari lebih dari dua variabel, peneliti akan

menghitung statistik Chi-square untuk tabel dua arah dan kemudian kembali

untuk beberapa sub-tabel terbentuk dalam rangka untuk menentukan apakah

ada asosiasi atau interaksi yang terjadi antara variabel-variabel tersebut. Pada

tahun 1970-an analisis tabel kontingensi berubah cukup dramatis dengan

munculnya model loglinear oleh L. A. Goodman (1970, 1971). Sekarang ini,

aplikasi model linear sudah sangat luas dan banyak software yang sudah

memuat analisis loglinear.

Model Loglinear bisa dibilang model statistik yang paling populer dan penting

untuk analisis data kategorikal; lihat, misalnya, Bishop, Fienberg dan Holland

(1975), Christensen (1997). Model-model yang kuat, yang termasuk sebagai

kasus khusus model grafis [lihat, misalnya, Lauritzen (1996)] serta banyak

model logit [lihat, misalnya, Agresti (2002), Bishop, Fienberg dan Holland

(1975)], memiliki aplikasi dalam banyak bidang ilmiah, mulai dari ilmu sosial

dan biologi, hingga masalah kedokteran, penambangan data, pemrosesan

bahasa, dan genetika. Popularitas model Loglinear telah meningkat pesat

dalam beberapa dekade terakhir karena meningkatnya kebutuhan untuk

menganalisis data dalam bentuk tabel kontingensi yang besar dan sebagian

besar entri sel sangat kecil atau nol. Terlepas dari meluasnya penggunaan

model-model ini, penerapan dan sifat statistik dari model Loglinear masih

sangat kurang dipahami. Akibatnya, meskipun tabel kontingensi dimensi

tinggi merupakan jenis data yang umum dalam praktik.


Model loglinear adalah salah satu kasus khusus dari Generalized Linear Model

(GLM). Analisis loglinear merupakan pengembangan dari analisis tabel

kontingensi dua arah atau lebih. Walaupun model loglinear dapat digunakan

untuk menganalisa hubungan antara dua variabel kategori (tabel kontingensi

dua arah), tetapi biasanya digunakan untuk mengevaluasi multi arah dari

tabel kontingensi yang melibatkan tiga atau lebih variabel. Dalam analisis ini

tidak membedakan antara variabel respon dan prediktornya. Model loglinear

hanya menunjukkan hubungan antara variabel-variabel. Jika satu atau lebih

variabel diperlakukan sebagai variabel dependen dan variabel lain sebagai

variabel independen, maka regresi logistik akan lebih tepat digunakan.

Analisis dengan model log linear dilakukan untuk mempelajari pola

assosiasi antara sekelompok variabel. Disamping itu juga digunakan untuk

memperkirakan banyaknya observasi yang diharapkan dalam tiap sel tabel

kontingensi. Selanjutnya berdasarkan nilai harapan itu dapat dihitung

beberapa statistik penting seperti proporsi, statistik rasio kecenderungan.

Analisis Loglinear merupakan pengembangan dari analisis tabel kontingensi.

Model Loglinear dapat digunakan untuk menganalisa hubungan antara

beberapa variabel kategori Analisis dengan model Loglinear dilakukan untuk

mempelajari pola assosiasi antara sekelompok variabel. Dalam analisis ini tidak

membedakan antara variabel respon (dependen) dan prediktor (independen).

Jika satu atau lebih variabel diperlakukan sebagai variabel dependen dan

variabel lain sebagai variabel independen, maka regresi logistik akan lebih

tepat digunakan.

Model Loglinear digunakan untuk memperkirakan banyaknya observasi

yang diharapkan dalam tiap sel tabel kontingensi. Selanjutnya berdasarkan

nilai harapan itu dapat dihitung beberapa statistik penting seperti proporsi,

statistik rasio kecenderungan.

4.2 Struktur Tabel Kontingensi Dua Arah

Hasil pengamatan yang melibatkan dua variabel kategorik, misalkan variabel

A yang memiliki b jenis dan variabel B yang memiliki k jenis dapat disajikan

dalam tabel kontingesi tabel kontingensi dua arah berukuran bxk sebagaimana

sebagaimana Tabel 4.1.


Tabel 4.1.Tabel kontingensi bxk Faktor A dan Faktor B untuk data populasi

Variabel A Variabel B JumlahB

1B

2..... B

k

A1

µ11

µ12

....... µ1k

µ1+

A2

µ21

µ22

.......... µ2k

µ2+

... ...... ...... ....... ...... ......

Ab

µb1

µb2

........ µbk

µb+

Jumlah µ+1

µ+2

........ µ+k

N

µij adalah jumlah objek yang memiliki sifat A

i dan B

j, yang merupakan sel (i,j)

untuk data populasi.

µi0

adalah jumlah objek yang memiliki sifat Ai atau total frekuensi baris ke-i,

µ0j

adalah jumlah objek yang memiliki sifat Bj atau total frekuensi kolom ke-j,

N adalah total objek dalam populasi,

Dalam struktur probabilitas penyajian datanya adalah sebagai berikut

Tabel 4.2.Tabel distribusi bersama Faktor A dan Faktor B untuk data populasi

Variabel A Variabel B JumlahB1 B2 ..... Bk

A1

π11

π 12

....... π 1k

π 1+

A2

π 21

π 22

.......... π 2k

π 2+

... ...... ...... ....... ...... ......

Ab

π b1

π b2

........ π bk

π b+

Jumlah π +1

π +2

........ π +k

1

Dari Tabel 4.1. dan Tabel 4.2. dapat dibuat persamaan µij = Nπ

ij atau π

ij = µ

ij/N.

Simbol µ merupakan parameter rata-rata yang terdapat dalam distribusi

Poisson, sedangkan π merupakan parameter proporsi yang dapat ditemukan

dalam distribusi Binomial dan Multinomial.

πij adalah proporsi objek yang memiliki sifat A

i dan B

j, yang merupakan sel (i,j)

untuk data populasi

πi+

adalah proporsi objek yang memiliki sifat Ai atau

π+j

adalah proporsi objek yang memiliki sifat Bj atau


Hasil pengamatan atas sampel random berukuran n dapat disajikan dalam

Tabel 4.3.

Tabel 4.3. Tabel kontingensi bxk Faktor A dan Faktor B untuk data sampel

Variabel A Variabel B JumlahB1 B2

... Bk

A1

y11

y12

... y1k

y1+

A2

y21

y22

... y2k

y2+

... ... ... ... ... ...

Ab

yb1

yb2

... ybk

yb+

Jumlah y+1

y+2

... y+k

n

yij adalah variabel random yang merupakan frekuensi untuk sel ke-(

i,j

) dimana

i=1,...,b dan j=1,...,k.

Data dalam tabel kontingensi dalam proses pengambilan sampel

diklasifikasikan menjadi dua yaitu (a) Randomisasi pada masing-masing baris

atau kolom (b) Randomisasi secara bersamaan antara baris dan kolom.

Proses randomisasi pada masing-masing baris atau kolom dilakukan dengan

menganggap bahwa setiap baris atau kolom mewakili kelompok atau populasi

tertentu. Proses randomisasinya dlakukan pada masing-masing baris tersebut.

Jumlah pengamatan pada setiap barisnya (yi+

) sudah ditentukan setiap baris.

Percobaan atau pengamatan yang terdiri terdiri dari b populasi dan masing-

masing populasi diambil sampel secara random sebesar Y1+

,...,Yb+

. Dengan

demikian derajad bebasnya sebesar b(k-1).

Proses randomisasi yang kedua adalah terjadi pada masing-masing sel( i,j )

karena randomisasi dilakukan secara besama-sama atara baris dan kolom.

Pengamatan seperti ini mempunyai asumsi bahwa objek penelitian hanya

berasal dari satu populasi. Proses ini mengakibakan jumlah pengamatan pada

setiap barisnya (Yi+

) ataupun pada setiap kolomnya (Y+j

) belum diketahui. Jika

total pengamatan (n) sudah ditetapkan maka disebut percobaan Multinomial

dengan struktur parameter seperti pada Tabel 4.1. Jika total pengamatan (n)

tidak ditetapkan dan pengamatan dibatasi oleh interval waktu atau luasan


tertentu, maka disebut percobaan Poisson dengan struktur parameter seperti

pada Tabel 4.2. Pada percobaan multinomial, jumlah derajad bebasnya sebesar

(bk-1). Sedangan pada percobaan Poisson, derajad bebasnya sebesar bk.

Model Loglinear mempunyai asumsi bahwa unit percobaan/pengamatan

berasal dari satu populasi, sehingga randomisasi tidak dibatasi oleh total

pengamatan setiap baris maupun kolom. Yang perlu ditetapkan peneliti adalah

menggunakan percobaan Multinomial atau percobaan Poisson. Perbedaan

percobaan ini akan memberikan konsekuensi pada jumlah parameter yang

dapat diestimasi. Jumlah parameter yang dapat diestimasi pada percobaan

Poisson lebih besar dibandingkan dengan percobaan Multinomial.

4.3 Struktur Model Loglinear Dua Faktor

4.3.1 Model Independen

Berdasarkan sifat independensi dua kejadi A dan B, berlaku sifat

∩P(A B)=P(A).P(B). Jika Faktor A dan Faktor B saling independen, maka

peluang pengamatan jatuh pada sel (i,j) yaitu πij sama dengan perkalian

peluang margin baris ke-i (π

i+) dengan peluang margin kolom ke-

j (π

+j),

πij = π

i+. π

+j (4.1)

log πij = log π

i+ + log π

+j (log dibaca ”ln: logaritma natural)”)

Berdasarkan frekuensi teoritis (frekuensi data populasi),

µij = nπij ; µi+ = nπi+ ; µ+j = nπ+j (4.2)

Sehingga, jika asumsi independen terpenuhi maka berlaku sifat sebagai

berikutlog (µij)= log (nπij) dengan syarat µij > 0

= log (nπi+π+j) = log (πi+) + log (π+j) + log (n) (4.3)

atau bisa juga dinyatakan dalam parameter µ berikut log (µij)= log ([nπi+][nπ+j]/n)

= log (nπi+) + log (nπ+j) – log (n)= log (µi+) + log (µ+j) – log (n) (4.4)


Berdasarkan persamaan (4.3) dengan mengambil

( ) ( )

( ) ( )

( ) ( )

1 1

1

1

1log log

1

1

b k

i ji j

bAi i i

ik

Bi j j

i

n logb

log logb

log logk

+ += =

+ +=

+ +=

λ = + π + π

λ = π − π

λ = π − π

∑ ∑

∑

∑

dapat disusun model loglinear independenlog (µij)= λ + λi

A + λjB atau µij = exp(λ + λi

A + λjB) (4.5)

Persamaan (4.5) disebut model Loglinear independen untuk dua Faktor A dan

B yang memuat parameter-parameter

µij : frekuensi yang diharapkan dalam setiap sel (i,j) dengan i = 1, ..., b dan

j=1,....,kλ : parameter rata-rata

λiA : parameter pengaruh tingkat ke-i faktor pertama (A)

λjB : parameter pengaruh tingkat ke-j faktor kedua (B)

Nilai parameter λiA →0 untuk semua i berarti tidak ada efek faktor A (Faktor

baris), hal ini menunjukan total frekuensi antar baris relatif sama. Demikian

juga Nilai parameter λjB →0 untuk semua j berari tidak ada efek faktor B (Faktor

kolom), hal ini menunjukan total frekuensi antar kolom relatif sama.

Untuk kepentingan estimasi parameter, perlu ditambahkan persyaratan

01

=∑=

b

i

Aiλ , 0

1=∑

=

k

j

Bjλ . Persyaratan atau lebih tepatnya pembatasan ini

dimaksudkan untuk menjamin parameternya dapat diestimasi. Parameter {λiA}

dan {λiB} merupakan nilai deviasi terhadap mean λ dan memenuhi sifat

01

=∑=

b

i

Aiλ , 0

1=∑

=

k

j

Bjλ .Dengan batasan ini, maka untuk parameter {λ

iA} yang

independen sebanyak (b-1) sehingga yang mesti dihitung hanya i=1,…,(b-1).

Demikian juga untuk parameter {λiB} yang independen sebanyak (k-1) sehingga

yang mesti dihitung hanya j=1,…,(k-1). Dengan adanya batasan ini maka

jumlah parameter dalam persamaan (4.5) sebanyak


{1 + (b-1) + (k-1)} = b + k - 1. Cara pembatasan lain adalah dengan menetapkan salah satu parameter pada

masing-masing faktor diberikan nilai nol sebagaimana dalam sofware SPSS

dilakukan dengan cara menetapkan λb

A = 0 demikian juga λk

B = 0. Parameter

yang ditetapkan nilai menjadi nol ini dapat dipandang sebagai titik acuan

standar besaran efek sehingga nilai parameternya besarnya relatif terhadap

parameter standar.

Persamaan (4.5) dapat juga disajikan dalam parameter berdasarkan

persamaan (4.4)

a) ( )

( )

1 1

1 1

( ) ( ) ( ) b log

1 1( ) ( ) ( ) log

b bi ij i i j

b b

ij i ji i

log blog n

log log log nb b

= = + +

+ += =

µ = µ + µ −

µ = µ + µ −

∑ ∑

∑ ∑

b) ( )

( )

1 1

1 1

( ) ( ) ( ) log

1 1( ) ( ) ( ) log

k kj

k k

ij i j j

ij i ji i

log k log log k n

nk k

log log

= + = +

+ += =

= + −

= + −

∑ ∑

∑ ∑

µ µ µ

µ µ µ

c) ( )

( ) ( ) ( ) ( )

1 1 1 1 1

1 1 1

1 1 1 1

( ) log

( ) log( )

1 1 1 log

b k b k bi j ij i j i i

k b kj j i j

b k b k

ij i ji j i j

log

log n

log log log nbk b k

= = = = + =

= + = =

+ += = = =

= +

−

= + −

∑ ∑ ∑ ∑ ∑∑ ∑ ∑

∑∑ ∑ ∑

µ µ

µ

µ µ µ

Berdasarkan persamaan (a), (b) dan (c),

( ) ( ) ( )

( ) ( ) ( )

jj j

ii i

log log log log nn

log log log log nn

++ +

++ +

π = = −

π = = −

µµ

µ µ


maka

a) (4.6)

b) (4.7)

c) (4.8)

Persamaan (4.5) adalah model Loglinearnya dengan asumsi Faktor A dan

Faktor B independen. Susunan model Loglinear identik dengan analisis

variansi (ANOVA : Analysis of Variance). Perbedaannya adalah dalam ANOVA

diasumsikan data berdistribusi Normal sedangkan dalam Loglinear data

berbentuk cacah (frekuensi). Dengan Mengadopsi model ANOVA, dapat

disusun model yang memuat efek interaksi antara Faktor A dan Faktor B.

4.3.2 Model Lengkap

Andaikan Faktor A dan Faktor B tidak independen, model Loglinear untuk dua

variabel dapat disajikan sebagai

log(µij) = λ + λiA + λj

B + λijAB i = 1, ..., b dan j=1,....,k (4.9)


µij : frekuensi yang diharapkan dalam setiap sel (i,j) dengan syarat µ

ij > 0

λ : parameter rata-rata umum

λiA : parameter pengaruh tingkat ke-i faktor pertama (A)

λjB : parameter pengaruh tingkat ke-j faktor kedua (B)

λij

AB : parameter pengaruh faktor interaksi pada sel (i,j)

dengan syarat 01

=∑=

b

i

Aiλ , 0

1=∑

=

k

j

Bjλ ,

10

bAB

iji

λ=

=∑ ,1

0.k

ABij

jλ

=

=∑ Model yang

memuat semua faktor interaksi sebagaimana persamaan (4.9 )disebut model

lengkap (Saturated Model). Pada model lengkap ini jumlah parameter dalam

persamaan (4.9) sebanyak

{1 + (b-1) + (k-1) + (b-1)(k-1)} = bk.

{λij

AB } menggambarkan tingkat hubungan antara faktor A dan faktor B. Jika {λij

AB}

nilainya mendekati nol berarti faktor A dan faktor B cenderung independen.

Dengan adanya syarat 1

0b

ABij

iλ

=

=∑ dan 1

0k

ABij

jλ

=

=∑ jumlah parameter yang

independen sebanyak (b-1)(k-1). Nilai parameter { λij

AB } yang dihitung cukup

pada sel pada baris ke-1 sampai dengan baris ke-(b-1) dan sel pada kolom ke-1

sampai dengan ke-(k-1).

{ λij

AB } untuk i=1,...,(b-1) dan j=1,...,k.

Parameter {λiA} dan {λ

jB} merupakan nilai deviasi terhadap mean dan memenuhi

sifat 01

=∑=

b

i

Aiλ , 0

1=∑

=

k

j

Bjλ . Dengan batasan ini, maka untuk parameter

{λiA} yang independen sebanyak (b-1) sehingga yang mesti dihitung hanya

i=1,…,(b-1). Demikian juga untuk parameter {λjB} yang independen sebanyak

(k-1) sehingga yang mesti dihitung hanya j=1,…,(k-1).

Misal terdapat dependensi antara faktor baris dan faktor kolom serta untuk

semua i dan

j , . Misalkan

1

1 1 1

1( ); ;

1 1;

kij ij i ijj

b b bj ij iji i i

logk

b bk

θ µ θ θ

θ θ θ θ

+ =

+ ++= = =

= =

= =

∑

∑ ∑ ∑


Nilai parameter-parameter yang terdapat dalam persamaan (4.9) dapat

dihitung menggunakan persamaan berikut ini (Agresti, 2002)

i.

1 1 1 1

1 1 ( )b k b k

ij iji j i j

logbk bk

++

= = = =

λ

λ =

= =∑∑ ∑∑

θ

θ µ

(4.10)

ii.

1 1 1 1 1 1

1 1 1( ) ( )1

Ai i

k b k k b k

ij ij ij ijj i j j i j

iA log log

k bk bkk

+ ++

= = = = = =

λ

λ = − =

=

∑ ∑∑ ∑ ∑∑

θ θ

θ θ µ

−

µ

(4.11)

iii.

1 1 1 1 1 1

1 1 1( ) ( )1

Bj j

b k b k

ij ij j ij iji

B

i j j i

b b

j

log logbk bkb b

+ ++

= = = = = =

λ

=

=

λ −− =∑ ∑∑ ∑ ∑∑

θ

θ

− θ

θ µ µ

(4.12)

iv.

1 1 1 1

1 1 1 1

1 1

1 1 1( ) ( ) ( )

1

) (

k

ABj ij i j

b

j

k

ij ij ij ijj j i j

k b b

bAB

b

ij ij ij ii

j

ABj

j i i

bk

g

k

log log log lok b b

b

k

+ + ++

= = = =

= = = =

+

λ = − − +

λ

λ =

− − +=

∑ ∑ ∑∑

∑ ∑ ∑∑

θ θ θ θ

θ θ θ

−

µ

−

θ

µ µ µ

(4.13)

Pada frekuensi sel (i,j), model Poisson µij = exp(λ + λ

iA + λ

jB + λ

ijAB) dapat

dikonversi menjadi model Multinomial. Probabilitas sel (i,j) adalah

( )( )

1 1

1 1

exp

exp

ijij k b

j i ij

A B ABi i ij

ij k b A B ABj i i i ij

= =

= =

π =

λ + λ + λ + λπ =

λ + λ + λ + λ

∑ ∑

∑ ∑

µµ


4.3.3 Visualisasi Model pada Tabel 2x2

Pada tabel 2x2, parameter λ, λA , λB dan λAB dapat divisualisasikan pada kondisi

λ2

A = λ2

B = 0 demikian juga λ12

AB=λ21

AB=λ22

AB=0. λA menjelaskan efek faktor A

terhadap sebaran frekuensi. λB menjelaskan efek faktor B terhadap sebaran

frekuensi dan λAB menjelaskan efek faktor interaksi AB terhadap sebaran

frekuensi.

a. Tidak ada pengaruh faktor A dan B

Jika tidak ada pengaruh faktor A maupun B maka λA =0 dan λB = 0.

Sehingga tabel sebaran nilai pengaruh menjadi sebagaimana Tabel

4.4.dan dapat divisualkan pada Gambar 4.1.

Tabel 4.4. Sebaran parameter pada kondisi tidak ada pengaruh faktor A dan B.

Faktor B Bc

A λ λ

Ac λ λ

Total pengamatan sebesar N tersebar secara merata di empat sel,

sehingga berdasarkan persamaan (4.5)

n = 4exp(λ) atau λ = log (n/4)

Pada kondisi ini, µ11

= µ12

= µ21

= µ22

= n/4. Visualisasinya seperti pada

Gambar 4.1.

B Bc

A

Ac

Gambar 4.1. Model independen, tidak ada pengaruh faktor A dan Faktor B.


b. Tidak ada pengaruh faktor A dan ada pengaruh faktor B

Pada keadaan tidak ada pengaruh faktor A (λA=0) dan ada pengaruh faktor

B (λB≠0), terdapat dua kemungkinan yaitu frekuensi pada B lebih tinggi

dibandingkan dengan Bc atau sebaliknya frekuensi pada Bc lebih tinggi

dibandingkan dengan B. Dengan menetapkan λB > 0 pada Bc bernilai nol

(λB = 0), keadaan ini dapat diilustrasikan dalam Tabel 4.5.

Tabel 4.5. Sebaran parameter pada kondisi tidak ada pengaruh faktor A dan terdapat

pengaruh B

Faktor B Bc

A λ+λB λ

Ac λ+λB λ

Tidak ada pengaruh faktor A berarti bahwa frekuensi pada baris A sama

dengan frekuensi pada baris Ac.

µ11

= µ21

dan µ12

= µ22

Parameter-parameternya dapat dihitung menggunakan persamaan

λ = log (µ12) atau λ = log (µ22) λB = log (µ11) - log (µ21) atau λB = log (µ21) - log (µ22)Total pengamatan sebesar n, sehingga berdasarkan persamaan (4.5)

pada keadaan 1 diperoleh persamaan

n = 2[exp(λ+λB) + exp(λ)]

= 2exp(λ)[exp(λB) + 1]


Visualisasi seperti pada Gambar 4.2.

B Bc

A

Ac

Gambar 4.2. Model independen, tidak ada pengaruh faktor A dan Faktor B.

c. Ada pengaruh faktor A dan tidak ada pengaruh faktor B

Pada keadaan ada pengaruh faktor A (λA≠0) dan tidak ada pengaruh

faktor B (λB=0), terdapat dua kemungkinan yaitu (1) Keadaan 1 : frekuensi

pada A lebih tinggi dibandingkan dengan Ac (2) Keadaan 2 : frekuensi

pada Ac lebih tinggi dibandingkan dengan A. Dengan menetapkan λA

pada Ac bernilai nol (λA = 0), kedua keadaan ini dapat diilustrasikan dalam

Tabel 4.6.

Tabel 4.6. Sebaran parameter pada kondisi terdapat pengaruh faktor A dan tidak terdapat

pengaruh B

Faktor B Bc

A λ+λA λ+λA

Ac λ λ

Tidak ada pengaruh faktor B berarti bahwa frekuensi pada kolom B

sama dengan frekuensi pada kolom Bc.

µ11

= µ12

dan µ21

= µ22

Parameter-parameternya dapat dihitung menggunakan persamaan

λ = log (µ22

) atau λ = log (µ21

)

λA = log (µ11

) - log (µ22

) atau λA = log (µ12

) - log (µ22

)


Total pengamatan sebesar n, sehingga berdasarkan persamaan (4.5)

diperoleh persamaan

n = 2[exp(λ+λA) + exp(λ)]

= 2exp(λ)[exp(λA) + 1]

Visualisasi keadaan 1 diilustrasikan pada Gambar 4.3.

B Bc

A

Ac

Gambar 4.3. Model independen, terdapat pengaruh faktor A tetapi tidak terdapat pengaruh

Faktor B.

d. Terdapat pengaruh faktor A dan faktor B tetapi tidak ada efek interaksi

Pada keadaan ada pengaruh faktor A (λA≠0) dan ada pengaruh faktor B

(λB≠0), terdapat empat kemungkinan keadaan, (1) empat sel memiliki

frekuensi yang berbeda-beda (2) salah satunya adalah Keadaan 1 :

frekuensi pada A lebih tinggi dibandingkan dengan Ac dan frekuensi

pada B lebih tinggi dibandingkan dengan Bc. Dengan menetapkan λ pada

Ac dan pada Bc bernilai nol (λ2

A =λ2

B = 0), Keadaan 1 ini dapat diilustrasikan

dalam Tabel 4.7.

Tabel 4.7. Terdapat pengaruh faktor A dan pengaruh faktor B tetapi tidak ada efek interaksi

Faktor B Bc

A λ+λA+λB λ+λA

Ac λ+λB λ


Frekuensi masing-masing sel

µ22

= exp (λ) sehingg λ = log(µ22

) (4.13)

µ12

= exp (λ+λA) sehingga λA = log(µ12

) - log(µ22

) (4.14)

µ21

= exp (λ+λB) sehingga λB = log(µ21

) - log(µ22

) (4.16)

µ11

= exp (λ+λA+λB) (4.17)

Dapat divisualisasikan dalam Gambar 4.4.berikut

B Bc

A

Ac

Gambar 4.4. Model independen, terdapat pengaruh faktor A dan pengaruh Faktor B.


n = [exp(λ+λA+λB) + exp(λ+λA) + exp(λ+λB) + exp(λ) ]

= exp(λ)[exp(λA+λB) + exp(λA) + exp(λB) + 1]

= exp(λ)[exp(λA)(exp(λB) + 1) + exp(λB) + 1]

= exp(λ)(exp(λB) + 1)(exp(λA) + 1)

e. Terdapat interaksi antara Faktor A dan Faktor B

Interaksi Faktor A dan Faktor B dapat terjadi dalam jika P(A|B) ≠ P(A|Bc)

atau P(B|A) ≠ P(B|Ac). kejadian ini dapat diilustrasikan dalam Tabel 4.8.

Tabel 4.8. Sebaran parameter pada kondisi terdapat pengaruh faktor A dan faktor B

Faktor B Bc

A λ+λA+λB +λAB λ+λA

Ac λ+λB λ


Frekuensi masing-masing sel

µ22

= exp(λ) sehingga λ = log(µ22

) (4.18)

µ12

= exp(λ+λA) sehingga λA = log(µ12

) - log(µ22

) (4.19)

µ21

= exp(λ+λB) sehingga λB = log(µ21

) - log(µ22

) (4.20)

µ11

= exp(λ+λA+λB +λAB) sehingga

λAB = log(µ11

) - log(µ21

) - log(µ12

) + log(µ22

) (4.21)

Dapat divisualisasikan dalam Gambar 4.5.berikut

B Bc

A

Ac

Gambar 4.5. Model lengkap, terdapat pengaruh faktor interaksi AB.


n = [exp(λ+λA+λB+ λAB) + exp(λ+λA) + exp(λ+λB) + exp(λ) ]

= exp(λ)[exp(λA+λB+ λAB) + exp(λA) + exp(λB) + 1]

= exp(λ)[exp(λA)(exp(λB) + 1) + exp(λB) + 1]

Jika hanya mensyaratkan syarat 01

=∑=

b

i

Aiλ , 0

1=∑

=

k

j

Bjλ ,

10

bAB

iji

λ=

=∑ ,

10

kAB

ijj

λ=

=∑ maka pada tebel 2x2 diperoleh nilai pembatas

λ1A = -λ2

A ; λ1B = -λ2

B ; λ11AB = -λ12

AB = = -λ21AB = = λ22

AB.

Struktur parameter pada tabel 2x2 untuk model lengkap adalah

sebagaimana pada Tabel 4.9.


Tabel 4.9. Sebaran parameter pada kondisi terdapat pengaruh faktor interaksi AB

Faktor B Bc

A λ+λA+λB +λAB λ+ λA - λB - λAB

Ac λ - λA+λB - λAB λ- λA - λB +λAB

Diperoleh empat persamaan berikut

i. log(µ11

) = λ + λA + λB +λAB

ii. log(µ12

) = λ + λA - λB - λAB

iii. log(µ21

) = λ - λA + λB - λAB

iv. log(µ22

) = λ - λA - λB +λAB

Menghitung nilai parameter λ, λA, λB, dan λAB dapat digunakan metode eliminasi

atau bisa juga menggunakan persamaan simultan berikut

( )( )( )( )

( )( )( )( )

11

12

21

22

111

12

21

22

1 1 1 11 1 1 11 1 1 11 1 1 1

1 1 1 11 1 1 11 1 1 11 1 1 1

A

B

AB

A

B

AB

loglogloglog

loglogloglog

−

− − = − − − −

− − = − −

λλλλ

λλλ

− − λ

µµµµ

µµµµ

Secara umum dapat dinotasikan menjadi λ = X-1θ dengan λ adalah vektor

memuat parameter, X biasa disebut dengan matrik rancangan dan θ adalah

vector yang memuat nilai logarima natural pada masing-masing sel dalam

tabel kontingensi.

Jika diselesaikan menggunakan metode eliminasi, maka langkah-

langkahnya adalah sebagai berikut

a. Langkah 1. Berdasarkan operasi pengurangan persamaan (ii) dengan

persamaan (iii), diperoleh 2λA - 2λB = log(µ12) - log(µ21)


b. Langkah 2. Berdasarkan operasi pengurangan persamaan (i) dengan

persamaan (iv), diperoleh

2λA + 2λB = log(µ11) - log(µ22)

Sehingga berdasarkan hasil pada langkah 1, diperoleh 4λA = log(µ11) + log(µ12) - log(µ21) - log(µ22)

λA = [log(µ11) + log(µ12) - log(µ21) - log(µ22)]/4 (4.22)

λB = [log(µ11) + log(µ21) - log(µ12) - log(µ22)]/4 (4.23)c. Langkah 3. Berdasarkan operasi penjumlahan persamaan (i) dengan

persamaan (iv), diperoleh2λ +2λAB = log(µ11) + log(µ22)

d. Langkah 4. Berdasarkan operasi penjumlahan persamaan (ii) dengan

persamaan (iii), diperoleh2λ - 2λAB = log(µ12) + log(µ21)

Sehingga berdasarkan hasil pada langkah 3, diperoleh4λ = log(µ11) + log(µ12) + log(µ21) + log(µ22)

λ = [log(µ11) + log(µ12) + log(µ21) + log(µ22)]/4 (4.24)

λAB = [log(µ11) + log(µ22) - log(µ12) - log(µ21)]/4 (4.25)

Hasil pada persamaan 4.22 sampai dengan persamaan 4.25 ini sama dengan

rumus yang telah dinyatakan pada persamaan 4.10 sampai dengan persamaan

4.12.

4.4 Estimasi Parameter dan Uji Goodness of Fit

Distribusi Poisson mempunyai fungsi probabilitas untuk masing-masing sel

(i,j) sebagai berikut

( ) ( );

!

ij ijyij

ij ijij

ef y

y

µ µµ

−

= , untuk y = 0, 1, 2, .. (4.26)

Untuk mengestimasi parameter ijµ dapat digunakan metode maksimum

likelihood (Myers dkk, 2007). Rata – rata ( ijµ ) dalam regresi Poisson

dimodelkan sebagai fungsi dari sejumlah variabel independen. Adapun untuk

mengestimasi parameter yaitu dengan menggunakan fungsi likelihood dan

persamaan yang didasari dari distribusi Poisson


( ) ( )

( )

1 1

1 1

, ,

( ),

!

ij ij

b k

ij iji j

yb kij

i j ij

L y f y

eL y

y

µ

µ µ

µµ

= =

−

= =

=

=

∏∏

∏∏

Fungsi Log-likelihoodnya menjadi

( ) ( )1 1 1 1 1 1

, ( ) !b n b k b k

ij ij ij iji j i j i j

LL y y log log yµ µ µ= = = = = =

= − −∑∑ ∑∑ ∑∑ (4.27)

Jika hanya sebatas mencari penaksir parameter ijµ , maka ( ),

0ij

LL y∂=

∂µ

µuntuk semua i dan

j.

Pada model Saturated, log(µij) = λ + λi

A + λjB + λij

AB i = 1, ..., b dan j=1,....,k.

Derivatif terhadap masing-masing parameter ijµ ,

( ),1

ˆ

ij

ij ij

ij ij

yLL y

y

∂= −

∂

=

µµ µ

µ

(4.28)

Pada model yang tidak memuat efek interaksi,

log(µij) = λ + λiA + λj

B estimatornya adalah

1 1ˆ ˆ ˆ; i jk b

i i j ij j j i ij ij

y yy y y y dan

n+ +

+ + = + + == = = = =∑ ∑µ µ µ (4.29)

Untuk menguji model manakah yang paling sesuai dengan data diantara dua

pilihan model

Model 1 : Model yang tidak memuat efek interaksi (interaksi A dan B tidak

signifikan)

Model 2 : Model Saturated (Interaksi A dan B signifikan)

Model 1 disebut model reduksi karena jumlah parameternya lebih kecil

dibandingkan dengan model saturated. Format pengujian ini disebut uji

goodness of fit dengan hipotesis

H0 : Model 1 sesuai dengan data (interaksi A dan B tidak signifikan)

H1 : Model 2 sesuai dengan data (Interaksi A dan B signifikan)


Statistik uji Chi-square Pearson adalah 2

2

1 1

ˆ( )ˆ

b kij ij

i j ij

y µχ

µ= =

−= ∑∑

(4.30)

Hipotesis tersebut dapat diuji menggunakan statistik likelihood rasio

2

1 12

ˆ

b kij

iji j ij

yG y log

µ= =

=

∑∑ (4.31)

Statistik G2 maupun χ2 mempunyai distribusi mendekati distribusi Chi-square

yang mempunyai derajad bebas sama dengan selisih jumlah parameter dalam

model saturated dan model reduksi. Nilai kedua statistik tersebut sangat

dipengaruhi oleh besar sampel yang digunakan untuk menguji hipotesis.

Misalkan ukuran sampel awal sebesar n, jika dibandingkan dengan ukuran

sampel sebesar c.n maka statistiknya menjadi c.G2 atau c.χ2. Oleh karena itu

semakin besar ukuran sampelnya maka akan berdampak pada kesimpulan,

yaitu kemungkinan menolak H0 semakin besar.

4.4.1 Estimasi Parameter Efek Faktor.

Pada model loglinear log(µij) = λ + λiA + λ

jB + λ

ijAB maka persamaan yang akan

digunakan untuk memperoleh parameter dengan menggunakan metode

MLE adalah:

( ) ( )~ 1 1 1 1 1 1

, ( ) ( ) !b n b k b k

A B AB A B ABij i j ij i j ij ij

i j i j i jLL y y exp log yλ λ λ λ λ λ λ λ λ

= = = = = =

= + + + − + + + −∑∑ ∑∑ ∑∑ (4.32)

Vektor ~λ memuat semua parameter λ, λi

A, λjB, λij

AB untuk semua i dan j.

Metode MLE mensyaratkan( , ) 0LL y λλ

∂=

∂dan matrik Hessian (H) bersifat definit positif. Matrik Hessian tersebut adalah

( )2

~

~ ~

,T

LL yH

λ

λ λ

∂=

∂ ∂

Tidak seperti pada analisis regresi yang biasa, bahwa pada turunan pertama

fungsi log-likelihoodnya tidak dapat langsung diperoleh nilai parameternya,

sehingga salah satu metode untuk menghitung MLE yaitu dengan

menggunakan teknik iteratif.


Beberapa metode yang dapat diusulkan untuk menghitung MLE melalui

teknik iteratif ini, diantaranya adalah metode linierisasi, turunan paling terjal

(steepest descent). Myers (1990) mengusulkan untuk menggunakan metode

yang disebut metode kuadrat terkecil terbobot ulang secara iteratif (Iterative

reweighted least square, IRLS) dan metode Gauss-Newton. Sedangkan metode

yang lebih umum digunakan pada masalah ini adalah metode Newton-

Raphson (Agresti, 2002).

Metode Newton Raphson merupakan salah satu metode untuk

menghitung MLE melalui teknik iteratif dengan metode pendekatan yang

menggunakan satu titik awal.

[ ] )(1)()(

~

)1(

~

tttt gH −+ −= λλ , (4.33)

dimana: ( ) ( )tLL y,

gλ

λ

∂=

∂

dan ( ) ( )2

tT

LL y,H

λ

λ λ

∂=

∂ ∂

.

Indeks t menunjukan hasil iterasi ke-t.

4.4.2 Estimasi Parameter pada Distribusi Multinomial Fungsi likelihood dari distribusi multinomial adalah

1111 11 11

11 21

!( ,..., | ,..., ; ) ...! !... !

bkxybk bk bk

bk

nL y y ny y y

π π π π=


( )11 11

1 111 21

( ,..., | ,..., ; )

! ( )! !... !

bk bk

b k

ij iji i jbk

LL log L y y n

nLL log y logy y y

π π

π= = =

=

= +

∑ ∑


secara langsung, karena terdapat pembatasan bahwa k

ij1 j 1

1b

iπ

= =

=∑∑sebagaimana pada persamaan (4.5). Oleh karena itu perlu digunakan Lagrange

multipliers. k

ij1 j 1

(1 )b

iLLg LL λ π

= =

= + − ∑∑Parameter sesungguhnya yang akan dicari adalah

~λ memuat semua parameter

λ, λiA, λj

B, λijAB untuk semua i dan j yang memiliki persamaan


πij = 1n

exp(λ + λiA + λj

B + λijAB)

Selanjutnya, berdasarkan dengan menggunakan aturan 0~

=∂

∂∂

λπ

πLLg

dan

sifat derivative ke dua (Matrik Hessian H), yaitu

~~

2

λλ ∂∂∂

= T

LLgH

Bersifat definite positif. Sebagaimana pada distribusi Poisson, penyelesaian

persamaan nya menggunakan metode iterasi.

Pendekatan lain yang bisa digunakan adalah sifat invariant dari metode MLE

memiliki sifat invariant, sehingga estimator. Berdasarkan penaksir MLE sebagai

mana pada persamaan (4.28) dan persamaan (4.29) pada model lengkap dan

pada model independen

ˆ ˆ ˆ;i jij i i j j

y yy y

n+ +

+ + + += = =µ µ µdan

dapat disusun penaksir untuk parameter semua parameter λ, λiA, λ

jB, λ

ijAB untuk

semua i dan j seperti disajikan pada Tabel 4.10. Persamaan untuk parameter λ,

{λiA }, {λ

jB } dan {λ

ijAB } yang dihitung berdasarkan asumsi

1 1 1 10, 0, 0, 0

b k b kA B AB AB

i j ij iji j i j

λ λ λ λ= = = =

= = = =∑ ∑ ∑ ∑telah diperoleh sebagaimana pada persamaan (4.6), (4.7), (4.8) untuk

model independen dan persamaan (4.10) , (4.11) dan (4.12) untuk model

lengkap.


Tabel 4.10. Penaksir MLE untu parameter λ, {λiA }, {λ

jB } dan {λ

ijAB }

Parameter Model Independen Model lengkap

λ( )

( )1 1

1 1) l ˆog

lo

ˆ

g

b k

i ji j

logb k

n

+ += =

+

−

∑ ∑µ µ1 1

1 ( )b b

iji i

log ybk = =

∑∑

{λiA}

1

1( ) (ˆ )ˆb

i ii

log logb+ +

=

− ∑µ µ1 1 1

1 1( ) ( )k b b

ij ijj i i

log y log yk bk= = =

−∑ ∑∑

{λjB }

1

1( ) (ˆ )ˆj ji

k

l gk

og lo+ +=

− ∑µ µ1 1 1

1 1( ) ( )b b

ij iji i i

b

log y log ybkb = = =

−∑ ∑∑

{λij

AB } -1 1

1 1

1 1( ) ( ) ( )

1 ( )

k b

ij ij ijj i

b b

iji i

log y log y log yk b

log ybk

= =

= =

− −

+

∑ ∑

∑∑

4.5 Contoh Kasus Tabel 2x2.

Data pengamatan terhadap 2121 orang mengenai kadar Kolesterol (Normal,

Tinggi) dan tekanan darah Diastolik (Normal, Tinggi) diperoleh data pada Tabel

4.11.

Tabel 4.11. Kadar Kolesterol dan tekanan darah Diastolik

Kolesterol Diastolik Total

Normal TinggiNormal 1535 146 1681

Tinggi 393 47 440

Total 1928 193 2121


Berdasarkan observasi tersebut, dapat disusun tabel proporsi sebagaimana

Tabel 4.12.

Tabel 4.12. Proporsi kolesterol dan tekanan darah

Kolesterol Diastolik Total

Normal TinggiNormal 0.723715 0.068835 0.792551

Tinggi 0.18529 0.022159 0.207449

Total 0.909005 0.090995 1

Pada tabel 2x2, model Loglinear yang disusun dengan asumsi independen akan

memiliki tiga parameter yaitu λ, λ1

A dan λ1

B. Berdasarkan nilai proposi pada

tabel Tabel 4.12, untuk model independen dengan menggunakan persamaan

(4.6) sampai dengan persamaan (4.8) diperoleh penaksir parameter masing-

masing

( )

( ) ( ) ( ) ( ) ( )

( ) ( ) ( )

1 1

1

1

1 2

1 1( ) ( ) log

1 1{( log 1681 log 440 } {( log 1928 log 193 } 21212 2

ˆ 5,5107811( ) ( )

1log 1681 {( log 1681 log 440 }2

0,670185 0, 0

ˆ

ˆ

ˆ ˆ 67 185

b k

i ji j

bAi i i

i

A

A A

Bj

log log nb k

log

log logb

l

+ += =

+ +=

λ = µ + µ −

λ = + + + −

λ =

λ = −

λ = − +

λ = λ = −

λ =

∑ ∑

∑

sehingga

µ µ

1

1 2

1( ) ( )

1,150744 1,150744ˆ ˆ

k

j ji

B B

og logk+ +

=

−

λ = λ = −

∑sehingga

µ µ


Untuk model lengkap (saturated), estimasi parameternya dapat dihitung

menggunakan persamaan (4.10) sampai dengan (4.12).

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

11 12 21 22

A11 12 21 22

1

1 2

/ 4

1 {( log 1535 log 146 } ( log 393 log 47 }45.535962

/ 4

1 [ log 1535 log 146 log 393 log 47 ]40.623984 0.623984

ˆ

ˆ

ˆ

ˆ ˆ

A

A A

log log log log

log log log log

µ µ µ µ

µ µ µ µ

λ = + + +

λ = + + +

λ =

λ = + + +

λ = + − −

λ = λ = −

sehingga

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

B11 12 21 22

1

1 2

AB11 12 21 22

1

11

/ 4

1 {log 1535 log } log log 47 }41.

ˆ 393 146

ˆ ˆ

ˆ 47 393

119085 1.119085

/ 4

1 [log 1535 log log log 146 ]40.ˆ

B

B

A

A

B

B

log log log log

log log log log

µ µ µ µ

µ µ µ µ

λ = + − −

λ = + − −

λ = λ = −

λ = + − −

λ = +

− −

=

λ

sehingga

12 21

22

057254 0.057254

0.05

ˆ

ˆ 7 4

ˆ

25

AB AB

AB

λ = λ = −

λ =

sehingga

dan

Berdasarkan nilai estimator ini, dapat digunakan untuk menghitung frekuensi

harapan masing-masing sel yang hasilnya disajikan pada Tabel 4.13.


Tabel 4.13. Nilai frekuensi harapan dan observasi

Baris (i) Kolom (j) yij Model lengkap Model Independen

1 1 1535 1535 1528.0381 2 146 146 152.96232 1 393 393 399.96232 2 47 47 40.03772

Uji goodness of fit dengan hipotesis

H0 : Model yang tidak memuat efek interaksi (interaksi A dan B tidak signifikan)

H1 : Model Saturated (Interaksi A dan B signifikan)

Diperoleh nilai statistik Chi-square Pearson dan Likelihood rasio seperti pada

Tabel 4.14.

Tabel 4.14. Nilai statistik Chi-square Pearson dan Likelihood rasio

Statistik Nilai p-value KesimpulanChi-square Pearson (χ2) 1.680508 0.194857 Gagal tolak H

o

Likelihood rasio (G2) 1.621443 0.202891 Gagal tolak Ho

Pada kasus yang sama sebagaimana data pada Tabel 4.11. jika dianalisis

menggunakan asumsi yang berbeda, yaitu dengan menetapkan λ2

A = 0

demikian juga λ2

B = 0 maka akan menghasilkan nilai penaksir parameter yang

berbeda. Pada model independen, berdasarkan persamaaan (4.13) sampai

dengan persamaan (4.17) diperoleh

i. 22( )

(47) 3.850 48ˆ 1

log

log= =λ

= µλ

ii. 12 22

1

1

)ˆ( ) ( )

(146) (47

1.133459ˆ

A

A

A

log log

log log

λ = µ − µ

=λ

λ

−

=iii. 21 22

1

1

)ˆ( ) ( )

(393) (47

2.123662ˆ

B

B

B

log log

log log

λ = µ − µ

=λ

λ

−

=


Untuk model lengkapnya, berdasarkan persamaan (4.18) sampai dengan

persamaan (4.21) diperoleh penaksir masing-masing parameternya sebagai

berikut (i) λ = log(µ22)

= 3.850148

(ii) λA = log(µ12) - log(µ22)

(iii) λB = log(µ21) - log(µ22)

(iv) λAB = log(µ11) - log(µ21)- log(µ12) + log(µ22)

Hasil ini sesuai dengan perhitungan menggunakan software SPSS. Pada proses

perhitungan di dalam SPSS menetapkan penambahan 0.5 pada masing-

masing sel untuk menghindari ditemukanya sel dengan frekuensi nol.

4.6 Contoh Kasus Tabel bxk.

Penelitian untuk tentang hubungan antara profesi (A1, A2, A3, A4) dan afiliasi

politiknya (B1, B2, B3) di suatu daerah, Hasil survey disajikan pada Tabel 4.15.

Tabel 4.15. Data afiliasi Partai dan Profesi.

ProfesiPartai

JumlahB1 B2 B3

A1 34 61 16 111

A2 31 19 17 67

A3 19 23 16 58

A4 23 39 12 74

Jumlah 107 142 61 310

Uji independensi Faktor Profesi terhadap Faktor Partai dapat dilakukan

menggunakan statistik Pearson dan Likelihood Rasio dengan hipotesis

H0 : Faktor Profesi independen terhadap Faktor Partai

H1 : Faktor Profesi tidak independen terhadap Faktor Partai


Diperoleh nilai

χ2 = 16.161 (p-value = 0.013) dan G2 = 16.390 (p-value = 0.012)

derajad bebasnya sebesar (4-1)(3-1) = 6. Pada tingkat signifikansi α=0.01

mempunyai nilai χ2(6)

= 6.81, sehingga dapat disimpulkan tolak H0 yang

berarti terdapat interaksi antara profesi dan partai. Dengan kata lain, profesi

mempengaruhi afiliasi partai politik.

Namun demikian kita dapat mengeksplorasi secara visual untuk melihat

adanya efek interaksi mengingat nilai statistiknya mendekati titik batas.

Berdasarkan Gambar 4.6. berikut terlihat bahwa pada Profesi A2 memiliki pola

yang berbeda dibandingkan dengan tiga profesi yang lain.

(a) Frekuensi (b) ProporsiGambar 4.6. Grafik profesi dan afiliasi partai

Untuk menggambarkan kondisi populasi, lebih tepat menggunakan Gambar

4.6.a. sedangkan untuk data sampel lebih baik menggunakan Gambar 4.6.b.

Jika Profesi A2 dikeluarkan dari kelompok analisis, maka akan menghasilkan

kesimpulan yang berbeda dengan hasil pengujian sebelumnya, yaitu

Profesi dan afiliasi Partai adalah saling independensi. Dapat ditunjukan dari

perhitungan diperoleh

χ2 = 5.770 (p-value = 0.217) dan G2 = 5.536 (p-value = 0.237)

dengan derajat bebas, db=(3-1)(3-1) = 4. Nilai p-value semakin besar

menjelaskan bahwa semakin yakin untuk menyatakan Faktor Profesi dan

Partai adalah saling independen.

Data pada Tabel 4.15 dapat dianalisis dengan metode yang berbeda yaitu

model loglinear yaitu uji Goodness of Fit. Hipotesis pada model loglinear adalah

H0 : Model (A, B) sesuai dengan data.

H1 : Model Lengkap sesuai dengan dengan data.


Hipotesis ini identik dengan menguji efek interaksi (λij

AB), dengan hipotesis

H0 : λij

AB = 0 untuk semua i=1,…,4. j=1,2,3.

H1 : λij

AB ≠ 0 untuk suatu i=1,…,4. j=1,2,3.

Statistik uji Pearson dan Likelihood Ratio memiliki nilai yang sama dengan uji

independensi pada pengujian sebelumnya, yaitu χ2 = 16.161 (p-value = 0.013)

dan G2 = 16.390 (p-value = 0.012).

Nilai p-value > α=0.05 berarti kesimpulannya tolak H0 yang berarti bahwa

Faktor A dan Faktor B idak independen. Terdapat parameter λij

AB ≠ 0 untuk

suatu i=1,…,4. j=1,2,3.

Estimasi parameter model loglinear pada model lengkap disajikan pada Tabel

4.16.

Tabel 4.16. Estimasi parameter model loglinear pada model lengkap dengan SPSS

Parameter Estimate Std. Error Z Sig.95% Confidence Interval

Lower Bound

Upper Bound

λ 2.526 0.283 8.930 0.000 1.971 3.080λ

1A

0.278 0.375 0.740 0.459 -0.457 1.013λ

2A

0.336 0.370 0.909 0.364 -0.389 1.062λ

3A

0.278 0.375 0.740 0.459 -0.457 1.013λ

1B

0.631 0.350 1.803 0.071 -0.055 1.317λ

2B

1.151 0.325 3.545 0.000 0.515 1.787λ

11AB

0.106 0.461 0.231 0.817 -0.796 1.009λ

12AB

0.165 0.427 0.387 0.699 -0.671 1.002λ

21AB

-0.043 0.460 -0.095 0.925 -0.945 0.858λ

22AB

-1.042 0.462 -2.255 0.024 -1.948 -0.136λ

31AB

-0.464 0.484 -0.959 0.338 -1.413 0.485λ

32AB

-0.797 0.457 -1.745 0.081 -1.692 0.098

Dari hasil estimasi parameter dalam model loglinear sebagaimana disajikan

dalam Tabel 4.16 terlihat dengan jelas bahwa terdapat parameter λAB yang

signifikan yaitu untuk parameter λ22

AB.


Efek faktor utama untuk faktor A tidak ada yang signifikan sementara itu

dilihat dari efek interaksinya signifikan. Hal ini mengindikasikan perlunya

analisis terhadap masing-masing level pada faktor A. Visualisasi pada Gambar

4.6 akan sangat membantu mengenali tingkat faktor yang harus di analisis

secara terpisah yaitu A2.

M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 77

5. MODEL LOGLINEAR PADA TABEL KONTENGENSI MULTIDIMENSI

5.1 Pendahuluan

Model Loglinear (LLM) mempelajari hubungan antara dua atau lebih variabel

diskrit. Sering disebut sebagai analisis frekuensi multi arah. Metode ini

merupakan pengembangan dari uji chi-square yang akrab untuk independensi

dalam tabel kontingensi dua arah. LLM dapat digunakan untuk menganalisis

survei dan kuesioner yang memiliki keterkaitan yang kompleks di antara

pertanyaan-pertanyaan. Meskipun kuesioner sering dianalisis dengan

mempertimbangkan hanya dua pertanyaan pada satu waktu, ini mengabaikan

hubungan tiga arah (dan multi-arah) yang seharusnya penting untuk dianalisis.

Ada beberapa buku teks yang tersedia yang menjelaskan LLM secara rinci.

Kami merekomendasikan buku-buku oleh Tabachnick dan Fidell (1989)

memiliki bab yang sangat baik tentang LLM. Wickens (1989) adalah buku yang

benar-benar difokuskan untuk LLM. LLM hanya memerlukan sedikit asumsi

tentang distribusi populasi dan dapat diterapkan pada hampir setiap keadaan

di mana variabelnya (atau dapat dibuat) diskrit. Bahkan dapat digunakan

untuk menganalisis variabel kontinu yang gagal memenuhi asumsi distribusi

(dengan mengecilkan variabel kontinu menjadi beberapa kategori). Tiga

asumsi dasar harus dipertimbangkan ketika menggunakan LLM.

1. Pengamatan independen satu sama lain. Dalam praktiknya, ini berarti

bahwa setiap pengamatan berasal dari subjek yang berbeda, bahwa

subjek dipilih secara acak dari populasi yang diminati, dan tidak ada

kelompok subjek tertentu yang sengaja dihilangkan.


2. Semua pengamatan memiliki distribusi yang identik. Ini berarti bahwa

objek pengamatan diperoleh dengan cara yang sama. Misalnya, objek

pengamatan yang peroleh dari hasil survei melalui telepon tidak dapat

dicampur dengan dengan survei dari pintu ke pintu.

3. Jumlah pengamatan besar. Karena LLM memanfaatkan perkiraan sampel

besar, maka diperlukan sampel besar. Algoritma LLM dimulai dengan

mengambil logaritma natural dari masing-masing frekuensi sel, jadi sel

yang kosong (yang memiliki frekuensi nol) tidak diperbolehkan.

Analisis LLM membutuhkan dua langkah.

1. Memilih model yang sesuai. Langkah pertama adalah menemukan

model data yang sesuai. Beberapa teknik dapat digunakan untuk

menemukan LLM yang tepat. Salah satu yang paling populer adalah

teknik step-down di mana bagian-bagian yang kompleks dihapus sampai

bagian-bagian yang tersisa menjadi signifikan semua. Pencarian untuk

model yang sesuai ini terbatas pada model-model yang hierarkis. Model

hierarkis adalah model yang memuat semua komponen-komponen

penyusun faktor interaksi. Jika model memuat faktor interaksi maka

komponen-komponenanya juga harus masuk dalam model. Sebagai

contoh, jika model memuat interaksi dua arah (AB), maka komponen

faktor A dan B juga harus disertakan. Sebelum model diterima, harus

mempelajari residu untuk menentukan apakah model tersebut cocok

dengan data dengan cukup baik.

2. Menafsirkan model yang dipilih. Setelah model dipilih, maka model itu

harus ditafsirkan. Ini adalah langkah di mana kita harus menjelaskan apa

yang dikatakan oleh data.

Pada pembahasan model loglinear dimensi banyak ini hanya difokuskan pada

model hirarki. Pembahasan dimulai dari model loglinear untuk tiga dimensi

yang mencakup struktur model, visualisasi dan pemilihan model. Selanjutnya

digeneralisasi untuk model loglinear yang melibatkan lebih banyak variabel.


5.2 Paradoks Simpson

Dalam beberapa kasus seringkali terjadi kesimpulan yang kontradiksi ketika

analisis hanya mempertimbangkan dua faktor (variabel) saja dibandingkan

dengan analisis yang melibatkan tiga variabel. Hasil analisis dengan

mempertimbangkan tiga variabel akan menghasilkan kesimpulan yang lebih

akurat dibandingkan dengan hanya melibatkan dua faktor saja. Kontradiksi

dua kesimpulan ini biasa disebut Simpson Paradox.

Untuk menggambarkan paradox Simpson ini dijelaskan melalui dua contoh

berikut :

Contoh 1. Dua perusahaan elektronik (A dan B) memenangkan tender untuk

mensuplai kebutuhan sebuah institusi. Diketahui A menghasilkan 5% baik

dan B menghasilkan 50% baik. Dari 21100 barang yang akan dibeli institusi

tersebut, 10100 unit disediakan oleh B dan 11.000 unit disediakan oleh A. Pakar

elektronik yang ditunjuk institusi menyarankan untuk menggunakan metode

produksi baru, karena diyakini dapat meningkatkan persentase hasil baik.

Akan tetapi Institusi hanya mewajibkan untuk menggunakan metode baru

minimun 100 buah produk untuk masing masing perusahaan. A menerapkan

metode baru untuk 10000 dan B menerapkan metode baru untuk 100 produk.

Setelah selesai produksi, 21100 produk tersebut diuji, ternyata 46% produk

dengan metode lama “baik”, dan hanya 11% dari metode baru yang “baik”.

Jika dilihat secara keseluruhan, dengan mengabaikan faktor perusahaan

seakan-akan peryataan Pakar tersebut adalah salah sebagaimana ditunjukan

pada data di Tabel 5.1.

Tabel 5.1. Analisis hasil keseluruhan.

LamaMetode produksi

Baru

HasilJelek 5950 9005

Baik 5050 (46%) 1095 (11%)


Namun demikian jika dianalisis lebih seksama, dengan menambahkan faktor

perusahaan, terlihat jelas bahwa pernyataan Pakar tersebut adalah benar. Pada

Tabel 5.2. jika dilihat pada masing-masing perusahaan, persentase hasil baik

pada metode baru meningkat. Pada perusahaan A meningkat dari 5% menjadi

10 % dan pada perusahaan B meningkat dari 50% menjadi 90%.

Tabel 5.2.Analisis produksi menurut perusahaan

PerusahaanA B

Lama Baru Lama Baru

Hasil Jelek 950 9000 5000 5

Baik 50 (5%) 1000 (10%) 5000 (50%) 95 (95%)

Dari analisis masing masing perusahaan terlihat bahwa metode baru lebih

baik sekitar 2 kali lipat, yang berarti pernyataan Pakar adalah benar.

Contoh 2. Terdapat dua perlakukan diberikan kepada dua kelompok pasien

yaitu laki-laki dan perempuan yang hasilnya diklasifikasikan ke dalam sukses

dan gagal. Hasilnya pengamatan disajikan dalam Tabel 5.3.

Tabel 5.3..Data pengamatan sukses menurut jenis kelamin dan perlakuan

Jenis KelaminLaki-laki Perempuan

Sukses Gagal Sukses Gagal

Perlakuan I 60 20 40 80

II 100 50 10 30

Jika diperhatikan pada kelompok laki-laki, probabilitas sukses pada perlakuan

I adalah 60/80 = 0.75. Sedangkan pada perlakukan II, probabilitas suksesnya

sebesar 100/150 = 0.667. Nampak bahwa untuk kelompok laki-laki, probabilitas

sukses pada perlakuan I lebih besar dibandingkan dengan perlakuan II.


Sekarang kita perhatikan pada kelompok perempuan, probabilitas sukses

pada perlakuan I adalah 40/120 = 0.33. Sedangkan pada perlakuan II,

probabilitas suksesnya sebesar 10/40 = 0.25. Nampak bahwa untuk kelompok

perempuan, probabilitas sukses pada perlakuan I lebih besar dibandingkan

dengan perlakuan II. Kesimpulan pada kelompok laki-laki sama dengan pada

kelompok perempuan, yaitu probabilitas sukses pada perlakuan I lebih besar

dibandingkan dengan perlakuan II.

Selanjutnya jika variabel/faktor jenis kelamin tidak diperhatikan, maka hasil

pengamatan dapat disajikan dalam Tabel 5.4.

Tabel 5.4. Data pengamatan sukses menurut kelompok perlakuan

Perlakuan HasilSukses Gagal

I 100 100

II 110 80Probabilitas sukses pada kelompok perlakuan I sebesar 100/200= 0.50,

sedangkan Probabilitas sukses pada kelompok perlakuan II sebesar 110/190=

0.579. Probabilitas sukses pada kelompok perlakuan II hasilnya lebih tinggi

dibandingkan dengan kelompok I. Hasil ini kontradiksi dengan hasil pada

analisis dimasing masing jenis kelamin. Kontradiksi hasil inilah yang disebut

dengan Simpson paradox (Christensen, 1997). Dengan adamya Simpson

paradok ini, menjadi penting untuk melakukan analisis dengan melibatkan

lebih banyak variabel atau faktor.


5.3 Model Loglinier Tiga Dimensi

Dalam model Loglinear dua dimensi (faktor), hanya dua model yang dapat

dipilih yaitu kedua faktor saling independen dan kedua faktor saling berasosiasi

(idak independen). Pada tabel kontigensi tiga dimensi yang melibatkan

tiga faktor. Misalkan Faktor 1 terdiri dari b kelompok, Faktor II terdiri dari k

kelompok dan Faktor III terdiri dari s kelompok, sehingga diperoleh tabel tida

dimensi berukuran bxkxs. Pada percobaan multinomial, sampel random n

akan terdistribusi kedalam bks sel. Probabilitas sebuah observasi jatuh dalam

sel ke-ijk adalah πijk

untuk i = 1, ... , b, j = 1, ... , k dan l= 1, ... , s. Frekuensi sel (i,j,l)

adalah ijlµ , adalah

ijlµ = n ijlπ (5.1)

Total objek yang diamati sebesar ∑∑∑= = =

=b

i

k

j

s

lijlN

1 1 1µ . Stuktur data dan struktur

probabilitas tabel kontingensi berdimensi tiga dapat disajikan pada tabel 5.5.

dan tabel 5.6.

Tabel 5.5. Tabel Kontingensi Tiga dimensi

Faktor A Faktor BFaktor C

JumlahC1 ... Cs

A1

B1

n111

... n11s

n11+

... ... ... ...

Bk

n1k1

... n1ks

n1k+

Jumlah n1+1

... n1+s

n1++

….

B1

ni11

... ni1s

ni1+

... ... ... ...

Bk

nik1

... n1ks

n1k+

Jumlah ni+1

... ni+s

ni++

Ab

B1

nb11

... nb1s

nb1+

... ... ... ...

Bk

nbkl

... nbks

nbk+

Jumlah nb+1

... nb+s

nb++


Tabel 5.6. Struktur Probabilitas Tabel Kontingensi Tiga Dimensi

Faktor A Faktor BFaktor C

JumlahC1 ... Cs

A1

B1

π111

... π11s

π11+

... ... ... ...

Bk

π1k1

... π1ks

π1k+

Jumlah π1+1

... π1+s

π1++

…

B1

πi11

... πi1s

πi1+

... ... ... ...

Bk

πik1

... π1ks

π1k+

Jumlah πi+1

... πi+s

πi++

Ab

B1

πb11

... πb1s

πb1+

... ... ... ...

Bk

πbkl

... πbks

πbk+

Jumlah πb+1

... πb+s

π1++

Pada data sampel maka dalam Tabel 5.5. dan Tabel 5.6., variabel nijl diganti

dengan variabel random yijl

dan parameter πijl diganti dengan statistik p

ijl.

yijl : frekuensi sel (i,j,l)

pijl

: probabalitas sel (i,j,l)

Total data sampel sebesar ∑∑∑

= = =

=b

i

k

j

s

lijlyn

1 1 1 dan ijl

ijl

yp

n= .

Pada model loglinear tiga dimensi ini terdapat beberapa model yang dapat

disusun

1. Model lengkap (saturated)

2. Model Mutual independence

3. Model Partial independence

4. Model Conditional independence

5. Model interaksi dua faktor


5.3.1 Model Model lengkap (saturated)

Persamaan model loglinear pada model lengkap atau dapat juga disebut

model jenuh adalah sebagai berikut log(μijl) = λ + λi

A + λjB + λl

C + λijAB + λil

AC + λjlBC + λijl

ABC (5.2)Model lengkap ini dapat dinyatakan dengan disimbol (ABC). Parameter-

parameternya memenuhi sifat

∑=

=b

i

Ai

10λ , ∑

=

=k

j

Bj

10λ , ∑

=

=s

i

Cj

10λ ,

10

bAB

iji

λ=

=∑ , 1

0k

ABij

jλ

=

=∑ , 1

0b

ACil

iλ

=

=∑ ,

10

sAC

ill

λ=

=∑ , 1

0k

BCjl

jλ

=

=∑ , 1

0s

BCjl

lλ

=

=∑ , ∑=

=b

i

ABCijl

10λ , ∑

=

=k

j

ABCijl

10λ dan

∑=

=s

l

ABCijl

10λ .

Cara pembatasan yang lain adalah salah satu parameter pada masing-masing

efek ditetapkan nilainya nol. Dengan pembatasan ini, maka jumlah parameter

yang dapat diestimasi sebagaimana pada tabel 5.7.

Tabel 5.7. Derajat Bebas untuk Loglinear 3 Dimensi

Parameter Jumlah

λ 1

iλ b-1

jλ k-1

lλ s-1

ijλ (b-1)(k-1)

ilλ (b-1)(s-1)

jlλ (k-1)(s-1)

ijlλ (b-1)(k-1)(s-1)

Total bks


Model lengkap ini dapat divisualisasikan dalam Gambar 5.1

Gambar 5.1. Sketsa model lengkap.

Tanda anak panah dapat menyesuaikan konteks permasalahannya, yaitu bisa

dua arah ataupun satu arah. Dalam model lengkap sebagaimana Gambar 5.1,

menjelaskan bahwa model memuat interaksi dua faktor AC, AB, BC dan interaksi

tiga faktor ABC. Ilustrasi menggunakan Gambar 5.1. ini masih kesulitan untuk

membedakan model lengkap dan model yang memuat interaksi dua faktor

5.3.2 Model Mutual independence

Persamaan model loglinear pada model independen tidak terdapat efek

interaksi adalah sebagai berikut

log (μijl) = λ + λ

iA + λ

jB + λ

lC (5.3)

Tiga variabel A, B dan C saling independen maka fungsi probabilitasnya

memenuhi persamaan

πijl = π

i++.π

+j+.π

++l untuk semua

i,

j dan

l. (5.4)

Model ini dapat dinyatakan dengan disimbol (A,B,C). Derajat bebas dan asumsi

parameternya mengikuti model jenuh. Model indepeneden, antar faktor tidak

saling berasosiasi yang dapat divisualisasikan dalam Gambar 5.2

Gambar 5.2. Sketsa model independen


5.3.3 Model Partial independence

Model Partial Independen, berarti terdapat asosiasi secara parsial. Jika terdapat

interaksi antara faktor A dan Faktor B tetapi Faktor C independen, maka model

nya dapat dinyatakan sebagai berikut

log(μijl) = λ + λ

iA + λ

jB + λ

lC + λ

ijAB (5.5)

Terdapat interaksi variabel A dan B, tetapi variabel C independen dengan yang

lainnya maka fungsi probabilitasnya memenuhi persamaan

πijl = π

ij+. π

++l untuk semua

i,

j dan

l. (5.6)

Model ini dapat dinyatakan dengan disimbol (AB,C).

Jika terdapat interaksi antara faktor A dan Faktor C tetapi Faktor B independen,

maka modelnya dapat dinyatakan sebagai berikut


iA + λ

jB + λ

lC + λ

ilAC (5.7)

Model ini dapat dinyatakan dengan disimbol (AC,B). Terdapat interaksi variabel

A dan C, tetapi variabel B independen dengan yang lainnya maka fungsi

probabilitasnya memenuhi persamaan

πijl = π

i+l. π

+j+ untuk semua

i,

j dan

l. (5.8)

Jika terdapat interaksi antara faktor B dan Faktor C tetapi Faktor A independen,

maka model nya dapat dinyatakan sebagai berikut


iA + λ

jB + λ

lC + λ

jlBC (5.9)

Model ini dapat dinyatakan dengan disimbol (BC,A). Terdapat interaksi variabel

B dan C, tetapi variabel A independen dengan yang lainnya maka fungsi

probabilitasnya memenuhi persamaan πijl = πi++. π+jl untuk semua

i,

j dan

l. (5.10)


Model partial independen ini dapat divisualisasikan dalam Gambar 5.2

a. Model (AB,C) b. Model (AC,B) c. Model (A, BC)

Gambar 5.3. Sketsa model partial independen

5.3.4 Conditional IndependenceModel conditional independen, berarti jika pada salah satu faktor tertentu

maka dua faktor lainya saling indepeden. Misalkan pada Faktor A, maka antara

Faktor B dan C independen. Model ini dapat dituliskan dalam persamaan

berikut


iA + λ

jB + λ

lC + λ

ijAB + λ

ilAC (5.11)

Model ini dapat dinyatakan dengan disimbol (AB, AC). Terdapat interaksi

antara variabel A dan B, dan interaksi antara variabel A dan C maka fungsi

probabilitasnya memenuhi persamaan .ij i l

ijli

π ππ

π+ +

++

= untuk semua i, j dan l. (5.12)

Jika di masing-masing tingkat Faktor B, maka antara Faktor A dan C independen.

Model ini dapat dituliskan dalam persamaan berikut


iA + λ

jB + λ

lC + λ

ijAB + λ

jlBC (5.13)

Model ini dapat dinyatakan dengan disimbol (AB, BC). Terdapat interaksi

antara variabel A dan B, dan interaksi antara variabel B dan C maka fungsi

probabilitasnya memenuhi persamaan .ij jl

ijlj

+ +

+ +

π ππ =

π untuk semua i, j dan l. (5.14)

Jika di masing-masing tingkat Faktor C, maka antara Faktor A dan B independen.

Model ini dapat dituliskan dalam persamaan berikut



iA + λ

jB + λ

lC + λ

ilAC + λ

jlBC (5.15)

Model ini dapat dinyatakan dengan disimbol (AC, BC). Terdapat interaksi

antara variabel A dan C, dan interaksi antara variabel B dan C maka fungsi

probabilitasnya memenuhi persamaan

.ij jlijl

l

+ +

++

π ππ =

π

untuk semua i, j dan l. (5.16)

Model conditional independen ini dapat divisualisasikan dalam Gambar 5.3.

a. Model (AB,AC) b. Model (AC,BC) c. Model (AB, BC)Gambar 5.4. Sketsa model partial independen

5.3.5 Model Interaksi Dua Faktor

Model interaksi dua faktor, adalam model yang memuat semua efek interaksi

dua faktor. Model ini dapat dituliskan dalam persamaan berikut


iA + λ

jB + λ

lC + λ

ijAB + λ

jlBC + λ

ilAC (5.17)

Model ini dapat dinyatakan dengan disimbol (AB, AC, BC).

Visualisasi untuk model interaksi dua faktor dan model jenuh sulit dibedakan,

karena visualisasi hanya mampu menjelaskan adanya asosiasi dua faktor.

Berdasarkan modelnya, pembedanya adalah suku λijl

ABC.

5.3.6 Maximum Likelihood Estimator (MLE)

Pada Tabel kontingensi tiga arah, probabilitas bersamanya berdistribusi

Poisson yaitu

dengan yijl = n

ijl Fungsi log-likelihoodnya adalah


(5.18)

Pada model lengkap, fungsi log-likelihoodnya dapat dinyatakan menjadi

( )

( )

1 11

1 1 1 1 1 1 1 11

1 1 1

b k sA B C

i i j j l lj li

sb k b s b b k sAB AC BC ABC

ij ij i l il jl jl ijl ijli j i l j i j ll

b k sAB AC BC ABCij il jl ijl

i j l

L n y y y

y y y y

exp

++ + + ++= ==

+ + += = = = = = = ==

= = =

µ = + + + + +

+ + +

− λ + λ + λ

λ

+ λ + λ

λ λ

λ λ λ λ

∑ ∑ ∑

∑∑∑ ∑∑ ∑ ∑∑∑

∑∑∑ (5.19)

Karena distribusi Poisson adalah keluarga eksponensial, maka koefisien dari

parameternya merupakan suffisient statistics (Agresti, 2002). Pada model

lengkap, {yijl} adalah koefisien dari parameter { λ

ijlABC}, sehingga tidak ada

reduksi data. Pada model yang lebih sederhana, beberapa parameter yang

terdapat dalam persamaan (5.19) bernilai nol, sehingga persamaan menjadi

lebih sederhana. Misalkan pada model mutual independen atau model (A,B,C),

koefisien yang diperhatikan dalam persamaan (5.19) hanya pada parameter

{λiA }, {λ

jB} dan {λ

lC} sebab koefisien untuk parameter interaksi bernilai nol.

Oleh karena itu suffisient statistics nya adalah {yi++

}, {y+j+

} dan {y++l

}. Tabel 5.8

menyajikan sufficient statistics untuk beberapa model pada tabel kontingensi

berdimensi tiga.


Tabel 5.8. Minimal Sufficient Statistics pada Model Loglinear

Model Sufficient Statistic(A,B,C) {y

i++}, {y

+j+}, {y

++l}.

(AB, C) {yij+

},{y++l

}

(AC, B) {yi+j

},{y+j+

}

(A, BC) {yi++

},{y+jl

}

(AB,AC) {yij+

},{y+jl

}

(AC, BC) {yi+l

},{y+jl

}

(BC, BA) {yij+

},{y+jl

}

(AB,AC, BC) {yij+

},{y+jl

}, {yi+l

}

(ABC) {yijl}

Untuk menjelaskan bagaimana penyelesaian persamaan likelihood, misalkan

untuk model (AB,BC). Dari persamaan probabilitas (5.14)

.ij jlijl

j

+ +

+ +

π ππ =

π untuk semua i, j dan l.

Pada sampling Poisson, ijl

ijl nµ

π = sehingga pada model (AB,BC)

..

. . ...

ij jlijl ijl

j

ij jlijl

j

ij jlijl

j

n n

n nn

+ +

+ +

+ +

+ +

+ +

+ +

π πµ = π =

π

π πµ =

π

µ µµ =

µ

MLE untuk masing-masing parameter tersebut adalah,

ˆ ˆ ˆ,ij ij ij jl j jy y y+ + + + + +µ = µ = µ =dan . sehingga MLE nya adalah

ˆ ˆ. .ˆ

ˆij jl ij jl

ijlj j

y yy

+ + + +

+ + + +

µ µµ = =

µ

Penyelesaian ini dapat menjelaskan bahwa untuk model (AB, BC), sufficient

statistic nya adalah yij+

dan y+jl

. Tabel 5.9 menyajikan MLE untuk masing masing

model yang dapat digunakan untuk uji kecocokan model.


Tabel 5.9. MLE untuk parameter pada masing masing model.

Model Fungsi Probabilitas ˆ ijlµ

(A,B,C) πijl = πi++.π+j+.π++l

2

. .i j ly y yn

++ + + ++

(AB, C) πijl = πij+. π++l .i jly yn

++ +

(AC, B) πijl = πi+l. π+j+ .ij i l

i

y yy+ +

++

(A, BC) πijl = πi++. π+jl .ij ly yn

+ ++

(AB,AC) .ij i lijl

i

+ +

++

π ππ =

π

.ij i l

i

y yy+ +

++

(AC, BC) .ij jlijl

j

+ +

+ +

π ππ =

π

.i l jl

l

y yy+ +

++

(BC, BA) .i l jlijl

l

+ +

++

π ππ =

π

.ij ij

j

y yy+ +

+ +

(AB,AC, BC) - metode iterasi

(ABC) - yijl

Khusus model (AB,AC,BC), penaksir MLE nya tidak dapat dihitung secara

langsung dan harus dicari dengan menggunakan metode iteratif. Walaupun

penaksir MLE dalam tabel 5.9 dapat dihitung secara langsung, namun dalam

praktek perhitungan di software semuanya dihitung menggunakan metode

iteratif.


5.3.7 Uji Goodness of Fit

Pada masing-masing model dapat dilakukan uji kecocokan model (uji

goodness of fit) menggunan hipotesis sebagai berikut

H0 : Model yang diuji sesuai dengan data

H1 : Model lengkap (saturated) sesuai dengan data

Statistik uji yang digunakan adalah :

∑∑∑= = =

−=

b

i

k

j

s

l ijl

ijlijly

1 1 1

22

ˆ)ˆ(

µµ

χ (5.20)

atau

∑∑∑= = =

=

b

i

k

j

s

l ijl

ijlijl

ylogyG

1 1 1

2

ˆ2

µ (5.21)

Parameter ijlµ̂ dihitung pada asumsi Ho benar, jadi diestimasi menggunakan

model yang dinyatakan dalam H0. Statistik G2 maupun

2χ mempunyai

distribusi mendekati distribusi Chi-squared dengan derajad bebas (db) sesuai

model yang diuji atau model yang dinyatakan dalam H0. H

0 ditolak jika nilai

statistik G2 maupun 2χ lebih besar dari nilai tabel Chi-square dengan derajad

bebas db (χ2 (α;db)). Derajad bebas masing-masing model dalam model loglinear

dimensi tiga dapat dilihat pada Tabel 5.10. Model yang baik adalah dalam

pengujian ini menghasilkan kesimpulan gagal tolak H0.


Tabel 5.10. Hipotesis dan Derajat Bebas untuk Loglinear 3 Dimensi

Model Hipotesis Ho ˆ ijlµ

Derajad Bebas (db)

(A,B,C) πijl = πi++.π+j+.π++l

2

. .i j ly y yn

++ + + ++

bkl-b-k-s+2

(AB, C) πijl = πij+. π++l .ij ly yn

+ ++(bk-1)(s-1)

(AC, B) πijl = πi+l. π+j+ .i l jy yn

+ + +(bs-1)(k-1)

(A, BC) πijl = πi++. π+jl .i jly yn

++ +(b-1)(ks-1)

(AB,AC) .ij i lijl

i

+ +

++

π ππ =

π

.ij i l

i

y yy+ +

++

b(k-1)(s-1)

(AC, BC) .ij jlijl

j

+ +

+ +

π ππ =

π

.i l jl

l

y yy+ +

++

s(b-1)(k-1)

(BC, BA) .i l jlijl

l

+ +

++

π ππ =

π

.ij ij

j

y yy+ +

+ +

k(s-1)(b-1)

(AB,AC, BC) - metode iterasi (b-1)(k-1)(s-1)

(ABC) - yijl 0

Disamping meenggunakan pengujian hipotesis diatas, kecocokan sebuah

model dapat juga dilihat dengan menggunakan nilai Akaike Information

Criterion (AIC). yaitu

( )( )ˆ2 AIC Log L db= − µ − (5.22)


Nilai AIC dapat juga dinyatakan sebagai

AIC = G2 - 2dbNilai AIC ini dapat digunakan untuk membandingkan beberapa model

sekaligus. Model yang terbaik adalah model dengan nilai AIC terendah.

Pengujian menggunakan statistik G2 didasarkan pada asumsi sampel

besar. Statistik Pearson dan Likelihood Ratio sangat tergantung pada ukuran

sampelnya. Pada ukuran sampel yang besar, akan mengakibatkan semakin

besar kemungkinan model sesuai dengan data. Statistik yang bermanfaat

untuk melihat kesesuaian data dan model adalah ukuran dissimilarity index

(DI) yaitu ˆ ˆ| | | |

2ijl ijl ijl ijly p

DIn nµ π− −

= =∑ ∑ (5.23)

dengan yijl adalah frekuensi observasi pada sel (i,j,l) dan ijlijl nπµ ˆˆ = adalah

frekuensi harapan berdasarkan modelnya. Nilai DI terletak antara 0 dan 1. Jika

DI mendekati 0 mengindikasikan model cocok dengan data. Statistik DI ini

sudah tidak tergantung pada jumlah sampelnya tidak seperti statistik G2 dan

χ2.

5.3.8 Pemilihan Model Terbaik

Sebagaimana dijelaskan diatas, bahwa dari tabel kontigensi tiga arah

terdapat beberapa model yang dapat diuji atau dibandingkan, seperti (ABC),

(AB,AC,BC),....,(A,B,C). Setelah dilakukan pengujian satu-persatu, sekarang kita

harus melakukan evaluasi “model mana yang paling baik, yaitu paling baik

menurut kriteria statistik dan secara subtansi maupun teoritis model ini dapat

diterima?”. Setelah diperoleh model yang diyakini, secara statistik (kuantitatif )

atau data sampel dan secara teoritis, maka berdasarkan model tersebut

dilakukan pengujian “model mana yang paling baik?”. Pengujian dilakukan

dengan membandingkan model 1 dan model 2. Jika Model 2 adalah model

yang lebih lengkap dibandingkan model 1 berarti semua parameter dalam

model 1 ada pada model 2. Selanjutnya model dua diletakan dalam H1 dan H

0

memuat model 1.


Ho : Model 1 cocok dengan data

H1 : Model 2 cocok dengan data

Statistik uji menggunakan nilai devians (D) yang diperoleh dari selisih nilai

G2 untuk masing masing-masing model yang diuji. Statistik G2 untuk masing-

masing model dihitung menggunkan rumus dalam persamaan (5.21). Nilai

deviannya adalah2 2

1 2D G G= − (5.24)

adalah nilai G2 untuk model 1 dengan derajad bebas db1 dan adalah nilai G2

untuk model 2 dengan derajad bebas db2. Statistik D berdistribusi Chi-square

mempunyai derajad bebas sama dengan selisih banyaknya parameter dalam

model 1 dan model 2 (selisih db1 dan db

2) , yaitu

db = (db1 – db

2).

H0 ditolak jika nilai D lebih besar dari nilai tabel Chi-square. Misalkan akan

membandingkan model (A,B,C) dan model (AB, C). Karena model (AB, C) lebih

lengkap dibandingkan dengan model (A, B, C) maka hopotesisnya adalah

Ho : Model (A,B,C) cocok dengan data

H1 : Model (AB, C) cocok dengan data

Dari model (A,B,C) diperoleh nilai G1

2 dengan derajad bebas, db1= bkl-b-k-s+2.

Dari model (AB, C) diperoleh nilai G2

2 dengan derajad bebas, db2= (bk-1)(s-1).

Nilai deviannya adalah 2 2

1 2D G G= − dan db = (bkl-b-k-s+2) – (bk-1)(s-1).

Jika kita perkatikan model (A,B,C) memuat parameter {λ}, {λiA }, {λ

jB} dan

{λlC} sedangkan model (AB, C) memuat parameter {λ }, {λ

iA }, {λ

jB} {λ

lC}, {λ

ijAB }.

Perbedaan kedua model adalah parameter {λij

AB }, sehingga perbandingan dua

model (A, B, C) dan (AB, C) adalah identik dengan hipotesis

H0 : {λ

ijAB } = 0 untuk semua i dan j.

H1 : Terdapat {λ

ijAB } ≠ 0 untuk suatu i dan j.


5.3.9 Contoh Kasus 1.

Data pengamatan terhadap 2121 pasien mengenai Tipe Personality (A dan

B) , Cholesterol (Normal da Tinggi), dan Tekanan darah Diastolic (Nomal dan

Tinggi) yang terdapat dalam Christensen (1997). Diperoleh data sebagaimana

dalam Tabel 5.11.

Tabel 5.11. Data observasi pasien

Personality (P) Cholesterol (C)Diastolic (D)

Normal TinggiP1 Normal 716 79

Tinggi 207 25

P2 Normal 819 67

Tinggi 186 22

Pada model independen memenuhi sifat

2 ,ˆ. .i j l

ijl

y y yy

n++ + + ++=

diperoleh nilai harapan untuk masing-masing sel disajikan pada Tabel 5.12.

Tabel 5.12. Nilai harapan pada model independen

Personality (P) Cholesterol (C)Diastolic (D)

Normal TinggiP1 Normal 739.9 74.07

Tinggi 193.7 19.39

P2 Normal 788.2 78.90

Tinggi 206.3 20.65

Berdasarkan Data Tabel 5.11. dan Tabel 5.12 dapat dihitung statistic Pearson

( ) ( )2 22 716 739.9 22 20.65

739.9 20.65− −

χ = +…+

χ2 = 8.730 dengan p-value = 0.068214125


dan statistik Rasio Likelihoodnya adalah

2

2

716 222 716log ... 22 log739.9 20.65

8.723

G

G

= + + = dengan p - value = 0.068408635

Kedua statististik berdistribusi Chi-square dengan derajad bebas

Db= (2)(2)(2)-2-2-2+2 = 4.

Karena χ2(0.95;4)

= 9.49, maka pada α=0.05 disimpulkan gagal tolak H0 yang

berarti ketiga variabel P, D dan C saling independen.

Model selanjutnya yang diuji adalah C dan D saling indepneden pada masing-

masing level P. Model tersebut dapat dtuliskan dengan symbol (CP, DP). Data

dapat dikelompokan menjadi dua sebagaimana pada Tabel 5.13 dan Tabel

5.14.

Tabel 5.13. Data Cholesterol dan Diastolic pada P1

Personality P1Cholesterol (C) Diastolic (D)

Normal TinggiNormal 739.9 74.07

Tinggi 193.7 19.39

Tabel 5.14. Data Cholesterol dan Diastolic pada P2

Personality P2Cholesterol (C) Diastolic (D)

Normal TinggiNormal 788.2 78.90

Tinggi 206.3 20.65

Masing-masing tabel mempunyai derajad bebas,

db=(2-1)(2-1)=1


Sehingga secara bersama-sama mempunyai derajad bebas, db=2(2-1)(2-1)=2.

Model ini memenuhi sifat

ˆ

.

.

ij i lijl

i

ij i lijl

i

y yy

+ +

++

+ +

++

π ππ =

π

µ =

Nilai harapan untuk model ini dihitung menggunakan disajikan dalam Tabel

5.16.

Tabel 5.15. Nilai Harapan Model (CP, DP).

Personality (P) Cholesterol (C) Diastolic (D)Normal Tinggi

P1 Normal 714.5 80.51

Tinggi 208.5 23.49

P2 Normal 813.9 72.08

Tinggi 191.1 16.92

Berdasarkan Data Tabel 5.11. dan Tabel 5.15 dapat dihitung statistik Pearson

dan statistik Rasio Likelihoodnya, yang disajikan dalam Tabel 5.16.

Tabel 5.16. Statistic Pearson dan Rasio Likelihood

Statistik db p-valueX2 = 2.188 2 0.334874314G2 = 2.062 2 0.356650132

Dibandingkan dengan model (C, D, P), maka model (CP, DP) lebih baik, karena

mempunyai nilai p-value yang lebih besar.

Kedua model dapat dilakukan perbandingan dengan hipotesis

H0 : Model (C, D, P) sesuai dengan data.

H1 : model (CP, DP) sesuai dengan data.

Statistik ujinya adalah dengan menggunakan nilai Devians

D = 8.723-2.062 = 6.661

Statistik D berdistribusi Chi-square dengan derajad bebas, db = 4-2. Sehingga

nilai χ2(0.05;2)

= 5.991464547 atau mempunyai nilai p-value = 0.035775213.


Kesimpulannya adalah tolah H0 yang berarti model (CP, DP) lebih sesuai

dengan data dibandingkan dengan model (P,C, D).

Hasil pengujian goodness of fit untuk semua kemungkinan disajikan pada

Tabel 5.17.

Tabel 5.17. Hasil uji Goodness of Fit

Model db χ2 G2 p-value

(PC, PD,CD) 1 0.617 0.613 0.434

(PC,PD) 2 2.188 2.062 0.358

(PC,CD) 2 2.985 2.980 0.224

(PD,CD) 2 4.566 4.563 0.100

(P,CD) 3 7.102 7.101 0.067

(C,PD) 3 6.189 6.184 0.102

(D,PC) 3 4.543 4.601 0.207

(P,C,D) 1 8.730 8.723 0.067

Menggunakan kriteria α = 0.05 maka semua model sesuai dengan data. Kita

dapat membandingkan beberapa model yang memiliki hubungan hirarki.

Misalkan menguji medel (PC,D) terhadap model (PC,PD),

G2 = 4.601 – 2.062

db = 3 – 2 = 1

χ2(0.95;1)

= 3.84

p-value = 0.050043521

Kesimpulan, gagal tolak H0

, sehingga lebih baik menggunakan model (PC,D)

dibanding dengan model (PC,PD).

Misalkan menguji model (PC,D) terhadap model (PC,PD,CD),

G2 = 4.601 – 0.613 = 3.988

db = 3 – 1 = 2

χ2(0.95;2)

= 5.99

p-value = 0.136149736

Kesimpulan, gagal tolak H0

, sehingga lebih baik menggunakan model (PC,D)

dibanding dengan model (PC,PD. CD).


5.3.10 Contoh Kasus 2.

Penelitian terhadap 1823 kasus kecelakaan kerja di sebuah perusahaan yang

diambil dari Nisak (2017). Variabel yang diamati adalah Status penanganan

kecelakaan (A), Klasifikasi (B) dan Lokasi (C). Data hasil pengamatan sebagai

berikut

Tabel 5.18.Penanganan Kecelakaan Kerja Status, Klasifikasi dan Lokasi

Status (A) Klasifi-kasi (B)

Lokasi (C)

Bengkel Kantor LabSP/

SPU/PPP

Sumur Gudang

Completed Action 38 121 44 28 195 30

Condition 44 219 30 91 267 76

Uncompleted Action 27 67 32 13 82 15

condition 20 118 16 46 141 63

Jika dilakukan analisis uji independensi secara parsial antar variabel A terhadap

dua variabel yang lain diperoleh hasil bahwa kedua pasangan variabel tersebut

independen sebagaimana pada Tabel 5.19.

Tabel 5.19. Hasil uji Chi-Square

AtributPearson Chi-Square

Value db p-valueKlasifikasi (B) 0.492 1 0.483

Lokasi (C) 7.610 5 0.179

Diperoleh nilai estimasi frekuensi harapan untuk masing-masing model yang

dapat disusun untuk tiga faktor A, B dan C disajikan pada Tabel 5.20.


Tabel 5.20. Estimasi Frekuensi Harapan


Lokasi (C)

Model Loglinear

(ABC) (A,B,C) (AB,AC,BC) (AB,C) (AC,B)

Completed

Action

1 38 31.8 41.9 32.3 42.2

2 121 129.3 123.7 131.3 122.0

3 44 30.1 46.6 30.5 49.3

4 28 43.8 27.9 44.5 26.6

5 195 168.7 189.4 171.3 179.8

6 30 45.3 26.5 46.0 29.2

Condition

1 44 17.2 40.1 51.4 41.5

2 219 70.0 216.3 209.4 218.7

3 30 16.3 27.4 48.7 29.9

4 91 23.7 91.1 71.0 88.9

5 267 91.3 272.6 273.2 264.8

6 76 24.5 79.5 73.4 90.2

Uncom-pleted

action

1 27 51.9 23.1 16.7 22.8

2 67 211.4 64.3 68.0 66.0

3 32 49.1 29.4 15.8 26.7

4 13 71.7 13.1 23.0 14.4

5 82 275.8 87.6 88.7 97.2

6 15 74.1 18.5 23.8 15.8

condition

1 20 28.1 23.9 28.6 22.5

2 118 114.3 120.7 116.3 118.3

3 16 26.6 18.6 27.0 16.1

4 46 38.8 45.9 39.4 48.1

5 141 149.2 135.4 151.8 143.2

6 63 40.1 59.5 40.8 48.8


Tabel 5.21. Estimasi Frekuensi Harapan (lanjutan)


Lokasi (C)

Model Loglinear

(BC,A) (AB,AC) (AB,BC) (AC,BC)

Completed

action

1 31.1 31.6 42.8 41.3

2 129.1 131.1 123.9 121.8

3 28.1 28.5 50.1 46.1

4 45.2 45.9 27.0 27.4

5 175.4 178.1 182.5 186.8

6 40.2 40.9 29.7 25.9

condition

1 50.9 50.4 41.1 40.7

2 210.9 208.9 216.6 218.2

3 45.9 45.5 29.6 27.9

4 73.8 73.1 88.1 91.6

5 286.6 283.9 262.3 275.2

6 65.8 65.1 89.3 80.1

Uncom-pleted

action

1 17.8 17.3 22.2 23.7

2 70.2 68.2 64.1 66.2

3 18.2 17.7 25.9 29.9

4 22.4 21.8 14.0 13.6

5 84.6 82.2 94.5 90.2

6 29.6 28.8 15.3 19.1

condition

1 29.2 29.7 22.9 23.3

2 114.8 116.8 120.4 118.8

3 29.8 30.3 16.4 18.1

4 36.6 37.2 48.9 45.4

5 138.4 140.8 145.7 132.8

6 48.4 49.2 49.7 58.9

Berdasarkan nilai estimasi harapan masing-masing model log linear diatas,

terlihat bahwa model (AC,B) adalah model paling cocok dengan data sampel

dibandingkan dengan model yang lain. Hal tersebut dapat dibuktikan karena

selisih antara nilai harapan model (ABC) dengan model yang lain sangat jauh


dan selisih nilai harapan model (AC,B) dengan model (ABC) sangat sedikit.

Untuk mengetahui model terbaik yang terbentuk, dilakukan uji goodness of

fit (kecocokan) dengan melihat dari nilai statistik Likelihood Ratio Square (G2),

derajat bebas (db), dan p-value untuk masing masing model sebagaigaiman

pada Tabel 5.22.

Tabel 5.22. Uji goodness of fit model Log Linear

No Model Db G2 p-value1. A,B,C 16 87.4 7.6e-12

2. AB,C 15 86.8797 3.775e-12

3. AC,B 11 13.59435 0.25626

4. BC,A 11 79.86904 1.564e-12

5. AB,AC 10 79.3757 6.654e-13

6. AB,BC 10 13.1010 0.328785

7. AC,BC 6 6.0904 0.413144

8. AB,AC,BC 5 5.5734 0.34996

9. ABC 0 0 1

Tabel 5.22 menyajikan hasil dari uji goodness of fit beberapa model. Jika nilai

p-value semakin kecil berarti model semakin tidak baik. Dilihat dari nilai

p-value, terlihat bahwa terdapat 4 model yang layak digunakan (memiliki

p-value lebih besar dari 0.05) yaitu model (AB,AC,BC), (AC,BC), (AB,BC) dan

(AC,B). Ke-empat model tersebut dapat dilakukan perbandingan untuk

memilih model terbaiknya.

a. Model (AB,AC,BC) dan Model (AC,BC)

Nilai Devians = 6.0904 - 5,5734 = 0.517

Derajad bebas = 6 – 5 = 1

p-value = 0.47214

Kesimpulan: kedua model tidak terdapat perbedaan yang singnifikan.

Sehingga model yang baik adalah model yang lebih sederhana yaitu

Model (AC,BC).


b. Model (AB,AC,BC) dan Model (AB,BC)

Nilai Devians = 13.1010 – 5.5734 = 7.5276


p-value = 0.184264



Model (AB,BC).

c. Model (AB,AC,BC) dan Model (AC,B)

Nilai Devians = 13.59435 - 5.5734 = 8.02095


p-value = 0.236572



Model (AC,B).

d. Model (AC,BC) dan Model (AC,B)

Nilai Devians = 13.59435 – 6.0904 =7.50395

Derajad bebas =11- 6 = 5

p-value = 0.185776



Model (AC,B).

e. Model (AB,BC) dan Model (AC,B)

Nilai Devians = 13.59435 – 13.101 = 0.4933


p-value = 0.482437



Model (AC,BC).


Model (AB,AC,BC), (AC,BC) dan (AC,B), ketiganya memuat efek interaksi AC dan

tidak ada perbedaan yang signifikan, sehingga disimpulkan model yang terbaik

adalah model (AC,B). Model (AC, B) merupakan model partial independent,

yang berarti bahwa asosiasi secara parsial antara A dan C. Namun demikian

model (AB,BC) ini juga layak digunakan, yaitu merupakan model conditional

independent. Model (AB,BC) menjelaskan bahwa pada masing-masing level B,

faktor A dan faktor C saling independen.

Jika kita hendak menguji apakah efek interaksi dua faktor signifikan dapat

dilakukan dengan mengambil dua model yang sesuai untuk mendapatkan

nilai Devians.

a. Menguji interaksi A dan B

H0 : λ

ijAB = 0 untuk semua i dan j (faktor A dan faktor B saling independen)

Dari model (A,B,C) dan model (C,AB) diperoleh statistik D = 87.4 – 86.9 =

0.5 dengan db = 16 – 15 = 1. Dari tabel Chi-square pada α = 0.05 dengan

derajad bebas 1 diperoleh X2(1;0,05)

= 3.841. Oleh karena D < 3.841 , maka

kesimpulannya gagal tolak H0 yang berarti bahwa faktor A dan faktor B

saling independen.

b. Menguji interaksi A dengan C

H0 : λ

ikAC = 0 untuk semua i dan k (faktor A dan faktor C saling independen)

Dari beberapa model (C, AB) dan (AB, AC) diperoleh statistik D = 86.9

– 13.1 = 73.8 dengan db = 15 – 10 = 5. Dari tabel Chi-square pada α =

0.05 dengan derajad bebas 5 diperoleh X2(5;0,05)

= 11.070. Oleh karena D >

11.070, maka kesimpulannya tolak H0 yang berarti faktor A dan faktor C

tidak independen.

c. Menguji interaksi B dengan C

H0 : λjk

BC = 0 untuk semua j dan k (faktor B dan faktor C saling independen)

Dari model (B,AC) dan model (AC, BC) diperoleh statistik D = 13.6 – 6 =

7.6 dengan db = 11 – 6 = 5. Dari tabel Chi-square, X2(5;0,05)

= 11.070 dan

D < 11.070, sehingga kesimpulannya adalah gagal tolak H0 yang berarti

bahwa faktor B dan faktor C saling independen.


Model yang terbaik untuk data yaitu model (AC,B), sehingga dilakukan

analisis lebih lanjut yaitu analisis residual. Tujuan dari analisis residual adalah

untuk mengukur sisa variabilitas data pengamatan. Residual adalah frekuensi

pengamatan dikurang dengan frekuensi harapan. Residual yang diperoleh

ditulis pada Tabel 5.23 sebagai berikut :

Tabel 5.23. Analisis Residual

Status Klasifikasi Lokasi Frekuensi Harapan Residual

Completed

action

1 38 42.2 4.2

2 121 122.0 1.0

3 44 49.3 5.3

4 28 26.6 -1.4

5 195 179.8 -15.2

6 30 29.2 -0.8

condition

1 44 41.5 -2.5

2 219 218.7 -0.3

3 30 29.9 -0.1

4 91 88.9 -2.1

5 267 264.8 -2.2

6 76 90.2 14.2

Uncom-pleted

action

1 27 22.8 -4.2

2 67 66.0 -1.0

3 32 26.7 -5.3

4 13 14.4 1.4

5 82 97.2 15.2

6 15 15.8 0.8

condition

1 20 22.5 2.5

2 118 118.3 0.3

3 16 16.1 0.1

4 46 48.1 2.1

5 141 143.2 2.2

6 63 48.8 -14.2

Tabel 5.23 merupakan tabel residual dari masing-masing kategori

disetiap variabel pada data. Residual yang diperoleh tidak ada yang sama. Nilai

residual positif mempunyai arti bahwa frekuensi pengamatan lebih besar dari


pada frekuensi harapan. Sebaliknya, jika frekuensi harapan lebih besar dari

frekuensi pengamatan maka nilai residual negatif. Semakin kecil nilai residual

maka nilai estimasi mendekati nilai pengamatan.

Gambar 5.5. Scatterplot Nilai Residual berdasarkan Nilai Estimasi Frekuensi Harapan

Berdasarkan Gambar 5.5 diatas menunjukkan bahwa nilai residualnya relatif

kecil (mendekati nol), sehingga model (AC,B) adalah model terbaik untuk

mewakili data. Berdasarkan hasil analisis menggunakan model log linear,

didapatkan model terbaik yakni (AC, B) sehingga dapat disimpulkan bahwa

faktor Status saling berpengaruh terhadap faktor Lokasi dalam kejadian

kecelakaan kerja.

5.4 Membangun model

Pada model loglinear 2 faktor terdapat 3 kemungkinan model yang

dapat disusun, sedangkan untuk model loglinear 3 faktor akan terdapat 9

model. Semakin banyak faktor yang dilibatkan akan berdampak pada jumlah

kemungkinan model yang perlu dievaluasi. Pada bab sebelumnya telah

dijelaskan metode goodness of fit untuk menguji apakah model layak atau

sesuai dengan data. Pengujian ini menjadi tahap awal untuk memilih model

yang layak untuk dipilih. Langkah selanjutnya adalah membandingkan semua

model yang memenuhi kriteria goodness of fit, yaitu model yang memiliki nilai

p-value lebih besar dari nilai.

Statistik Devians sebagaimana pada persamaan 5.24 dapat digunakan

untuk membandingkan dua model yang memiliki hubungan hirarki. Namun


demikian statistik G2 sangat dipengaruhi oleh ukuran sampelnya. Statistik

Akaike information criterion (AIC) dan dissimilarity index (DI) dapat digunakan

untuk memilih model terbaik. Rumus untuk menghitung kedua statistik

tersebut sebagaimana dalam persamaan 5.22 dan persamaan 5.23. Model

terbaik adalah model yang memiliki nilai AIC dan DI terkecil. Kedua statistik

statistik ini sudah tidak tergantung pada ukuran sampelnya.

Secara ringkas beberapa langkah yang harus dilakukan dalam memilih model

yang terbaik adalah sebagai berikut

1. Lakukan uji goodness of fit pada masing-masing model.

2. Membandingkan model dengan menggunakan nilai devians

3. Menghitung nilai AIC dan DI untuk memilih model terbaik.

Terdapat prosedur yang lebih terstruktur dalam menseleksi variabel

yang layak dimasukan ke dalam, yaitu prosedur Stepwise. Secara garis besar,

prosesnya adalah menggunakan aturan menambahkan dan mengurangi

samapai diperoleh model final. Prosedur Stepwise dapat dikelompokan ke

dalam tiga cara, yaitu forward selection, backward elimination dan composite

methods.

Forward selection dimulai dari model yang paling sederhana dan

dilanjutkan dengan menambahkan secara berurutan suku-suku yang belum

terdapat dalam model. Urutan memasukan suku didasarkan pada urutan nilai

statistik dari yang paling signifikan. Proses berhenti ketika sudah tidak ada

suku yang signifikan.

Backward elimination dimulai dari model yang paling lengkap dan

dilanjutkan dengan mengeluarkan atau membuang secara berurutan

suku-suku yang tidak signifikan. Proses mengeluarkan suku diurutkan dari

yang paling tidak signifikan. Composite methods adalah kombinasi dua

metode Forward selection dan Backward elimination.

Pendekatan lain untuk memberikan gambaran secara lebih cepat dapat

dibuat tabel pengujian untuk masing masing tingkat interaksi. Misalkan untuk

model logliniar empat faktor, maka dapat disusun hipotesis sebagai mana

dalam Tabel 5.24.


Tabel 5.24. Uji Simultan untuk masing-masing level interaksi.

Model Pernyataan H0

(A,B,C,D) Efek utama tidak signifikan

(AB,AC, AD, BC, BD, CD) Efek interaksi dua faktor tidak singsifikan

(ABC, ABD, ACD, BCD) Efek interaksi dua faktor tidak singsifikan

(ABCD) Efek interaksi empat faktor tidak signifikan

Prosedur pembentukan model menggunakan metode Stepwise tersebut diatas

semata-mata hanya mempertimbangkan tingkat signifikansi. Hal lain yang

harus diperhatikan dalam proses membentukan model adalah kesesuaian

dengan konsep teoritis yang melandasi pola hubungan variabel-variabel

yang diteliti. Oleh karena itu landasan subtansi dan teoritis harus diperhatikan

dalam menyusun modelnya.

5.5 Model Loglinear pada Tabel Kontingensi 4 Dimensi.

Seperti disebutkan dalam Bagian sebelumnya, semua prinsip umum pengujian

dan estimasi yang disajikan untuk tabel tiga faktor juga berlaku untuk jumlah

faktor yang lebih banyak. Perbedaan utama dalam ketika bekerja dengan

tabel dimensi yang lebih tinggi adalah pola hubungan menjadi lebih rumit.

Pertama, ada banyak model tipe ANOVA yang perlu dipertimbangkan.

Misalnya, dalam tabel empat faktor, ada 113 model ANOVA yang mencakup

semua efek utama. Dalam tabel lima faktor, ada beberapa ribu model yang

perlu dipertimbangkan. Kedua, banyak sekali model memerlukan metode

berulang untuk mendapatkan perkiraan kemungkinan maksimum. Akhirnya,

interpretasi model dimensi yang lebih tinggi menjadi lebih sulit. Dalam bab

ini, dibahas interpretasi model untuk empat dan lebih tinggi tabel dimensi,

model grafis, kondisi yang memungkinkan tabel untuk dipersempit.


5.5.1 Interpretasi Model

Bagian ini menyediakan alat untuk menafsirkan model Loglinear untuk tabel

dimensi yang lebih tinggi. Interpretasi didasarkan pada independensi dan

independensi kondisional. Metode yang digunakan untuk interpretasi model

loglinear dimensi banyak didasarkan pada metode yang digunakan pada

tabel tiga dimensi. Dalam bab ini juga dibahas metode alternatif berdasarkan

teori graph dan independensi bersyarat.

Untuk mempermudah notasi, misalkan pada model empat faktor, notasi (ABC,

AD, BD) merepresentasi kan model yang memuai sebuah interaksi tiga faktor

(Faktor A, Faktor B dan Faktor C) dan dua buak interaksi dua faktor yaitu AD

dan BD. Karena diasumsikan model nya adalah model hirarki, berarti Notasi

(ABC) dalam model tersebut secara otomatis memuat 3 efek utama (A, B, C)

dan tiga efek interaksi dua faktor (AB, AC, BC) serta efek interaksi tiga faktor

intu sendiri (ABC). Demikian juga notasi (AD) berarti model memuat dua efek

utama (A, D) dan satu efek interaksi (AD).

Model (ABC, AD, BD) dapat diinterpretasikan pada masing-masing level A

(bersyarat A), Faktor D independen terhadap BC. Dalam hal ini tidak ada

pembatasan mengenai hubungan Antara Faktor B dan Faktor C. Di dalam

model juga memuat informasi pada masing-masing level B (bersyarat B),

Faktor A independen terhadap BC. Pada masing-masing level D (bersyarat D),

Faktor A independen terhadap B. Dengan cara interpretasi tersebut, mudah

dijelaskan makna notasi (ABC, D) yaitu Faktor D independen terhadap Faktor

A, B dan C. Tidak ada hubungan spesifik ketiga faktor A, B dan C.

Kemanfaatan lain atas interpretasi ini adalah dalam hal mengitrepretasikan

model yang lebih besar. Jika model yang khusus atau spesifik adalah benar

maka sebarang model yang lebih besar juga benar. Jika dalam model yang

besar menginformasikan independen maka model yang lebih kecil juga

menginformasikan yang sama. Sebagai contoh untuk model tiga faktor (AB,C)

dan (AB,BC). Pada model yang lebih kecil yaitu (AB, C) menginformasikan Faktor

C independen terhadap A dan B. Pada model yang lebih besar yaitu (AB, BC),

Faktor A dan C saling independen pada masing-masing level C. Interpretasi

pada model yang besar valid maka interpreasi pada model yang lebih kecil

juga valid. Jika kedua model tersebut valid ,maka model yang lebih kecil

intrepretasinya lebih power full. Sehingga model yang lebih kecil (sederhana)


yang direkomendasikan penggunaanya.

Pada model dimensi empat, mmodel (AB, AC, AD) dan model yang lebih besar

yaitu (ABC, AD). Faktor BC independen terhadap D pada masing-masing level

A (bersyarat A). Contoh lain untuk model (AB, ACD) dan model (AC, ABD).

Dari model ini menginformasikan bahwa dengan bersyarat faktor A, tiga

faktor yang lain adalah saling independen. Untuk Model (AB, AC, AD), faktor

A terdapat dalam ketiga suku yang memberikan interpretasi bahwa dengan

bersyarat A maka ketiga faktor yang lain akan saling independen.

Pada model 3 faktor, model (AB, AC, BC) mempunyai makna yang berbeda

dengan model (ABC). Sedang kan pada model 4 faktor, model (AB, AC, AD,

BC) dapat diringkas menjadi model (ABC, AD). Pernyataan model menjadi

(ABC, AD) akan lebih mudah diinterpretasikan. Beberapa interpretasi moldel

loglinear dimensi empat disajikan dalam Tabel 5.25.

Tabel 5.25. Interpretasi model loglinear dimensi empat

Model Interpretasi

(ABC,ABD) Pada masing-masing faktor A dan B, Faktor C dan D independen

(ABC,AD, BD) Pada masing-masing faktor A dan B, Faktor C dan D independen

(ABC,AD) Pada masing-masing Faktor A, Faktor D independen terhadap Faktor B dan C.

(AB,AC,AD,BC) Pada masing-masing Faktor A, Faktor D independen terhadap Faktor B dan C

(ABC, D) Faktor D independen dengan Faktor A, B dan C

(AB,BC,CD,DA) Pada masing-masing Faktor B dan D, FAktor A dan C independen. Pada masing-masing Faktor A dan C, FAktor B dan D independen.

(AB,AC,AD) Pada masing-masing Faktor A, ketiga faktor lain (B, C dan D) saling independen.

(AB,AC,BD) Pada masing-masing Faktor A, faktor C independen terhadap Faktor B dan D. Pada masing-masing Faktor B, faktor D independen terhadap Faktor A dan C.

(AB,CD) Faktor A dan B independen terhadap faktor C dan D.

(AB,AC,D) Faktor D independen terhadap faktor A, B dan C. PAda MAsing-masing faktor A, Faktor B independen terhadap faktor C

(AB,C,D) FAktor C independen terhadap FAktor A, B dan D. Faktor D independen terhadap faktor A, B dan C.

(A,B,C,D) Semua Faktor saling independen.


5.5.2 Visualisasi Grafis

Visualisasi hubungan antar faktor ini menggunakan Teori Graph. Edwards

dan Kreiner (1983) memberikan penjelasan penggunaan grafik ini pada

model loglinear. Selanjutnya Edwards (2000) memberikan penjelasan yang

lebih lengkap penggunaan model grafik dalam analisis statistik termasuk

kemanfaatannya dalam model lain selain loglinear. Penjelasan lain dapat

ditemukan dalam buku yang ditulis oleh Whittaker (1990) dan Lauritzen (1996)

serta Gauraha (2017). Model yang dinotasikan sebagaimana pada Tabel 5.11.

dapat divisualisasikan secara gafis seperti pada Gambar 5.12.

a. Model (AB,BC,CD,DA) b. Model (ABC,ACD)

c. Model (ABD,CD) d. Model (AB,CD)

e. Model (ABD,BCD) f. Model (AB,AC,BD)

g. Model (AB,C,D) h. Model (ABC,D)

Gambar 5.6. Visualisasi model loglinear empat dimensi.


Misalkan yijlr

adalah frekuensi sel (i,j,l,r) yaitu banyaknya objek yang memiliki

sifat Ai, B

j, C

l dan D

r untuk i=1,…,a; j=1,…,b; l=1,…,c dan r=1,…,d. Total

observasi sebanyak n.

Nilai harapan untuk masing-masing model beserta derajad bebasnya untuk

beberapa model loglinear empat dimensi disajikan dalam Tabel 5.26.

Tabel 5.26. Nilai harapan model loglinear empat dimensi

Model Nilai Harapan ( Derajat bebas(A,B,C,D)

3i j l ry y y y

n+++ + ++ ++ + +++

abcd – a – b – c – d + 3

(AB,C,D)2

ij l ry y yn

++ ++ + +++abcd –ab – c – d + 2

(AB,AC,D)ij i l r

i

y y yy n

++ + + +++

+++

abcd – ab – ac – d + a + 1

(AB,CD)ij lry y

n++ ++

(ab-1)(cd –1)

(AB,AC,BD)ij i l j r

i j

y y yy y+ + + + +

+++ + ++

abcd – ab – ac – bd + a + b

(AB,AC,AD)

( )2ij i l i r

i

y y y

y+ + + ++

+++

abcd-ab-ac-ad+2a

(ABC,D)ijl ry y

n+ +++

(abc – 1)(d-1)

(ABC,AD)ijl i r

i

y yy+ ++

+++

a(bc-1)(d-1)

(ABC,ABD)ijl ij r

ij

y yy+ +

++

ab(c-1)(d-1)

Persamaan untuk menghitung nilai harapan sebagaimana pada Tabel 5.12.

dapat digunakan untuk menghitung statistik Pearson maupun Likelihood


Ratio untuk digunakan uji goodness of fit. Kedua statistik tersebut berdistribusi

Chi-square dengan derajad bebas sesuai dengan model yang diuji.

5.5.3 Contoh Kasus Model Loglinear Empat Dimensi.

Tabel 5.27. adalah data kecelakaan mobil di sebuah propinsi sebanyak 68694

penumpang yang diklasifikasikan menurut gender (G), Lokasi (L), penggunaan

sabuk pengaman (S) dan luka (I).

Tabel 5.27. Data kecelakaan.

Gender Lokasi SabukLuka

Tidak YaWanita Urban Tidak 7287 996

Ya 11587 759

Rural Tidak 3246 973

Ya 6137 757

Laki Urban Tidak 10381 812

Ya 10969 380

Rural Tidak 6123 1084

Ya 6693 513

Beberapa hasil perhitungan statistik G2 untuk beberapa model loglinear

disajikan dalam Tabel 5.28. Model yang sesuai dengan data adalah model 3

dan Model 6 masing-masing nilai p-valuenya lebih besar dari α.

Tabel 5.28. Nilai G2 pada beberapa model Loglinear

No Model G2 df P-Value

1 (G,I,L,S) 2792.771 11 0

2 (GI,GL,GS,IL,IS,LS) 23.35099 5 0.000289199

3 (GIL,GIS,GLS,ILS) 1.325317 1 0.2496401

4 (GIL,GS,IS,LS) 18.56932 4 0.009548040

5 (GIS,GL,IL,LS) 22.84677 4 0.0001358713

6 (GLS,GI,IL,IS) 7.464480 4 0.1132858

7 (ILS,GI,GL,GS) 20.63338 4 0.0003743159

8 (GILS) 0 0 1


Model 3, yaitu (GIL,GIS,GLS,ILS) adalah model yang memuat efek interaksi tiga

factor, sedangkan Model 6 yaitu (GLS,GI,IL,IS) adalah model yang memuat efek

interaksi dua faktor ditambah efek interaksi GIL. Sehingga kedua model letak

perbedaannya pada efek interaksi tiga faktor selain GIL, yaitu GIS,GLS,ILS. Dapat

dilakukan inferensi terhadap masing efek interaksi tiga faktor GIS,GLS,ILS.

Uji perbandingan antara model (GIL,GIS,GLS,ILS) dan model (GLS,GI,IL,IS)

menggunakan nilai Devians dengan hipotesisnya sebagai berikut :

H0 : Model (GLS,GI,IL,IS) sesuai dengan data

H1 : Model (GIL,GIS,GLS,ILS) sesuai dengan data

Diperoleh Devians

D = 7.464480 – 1.325317

= 6.139163

dengan df = 4 -1 =3. Nilai p-value = 0.105032 sehingga pada α=0.05

kesimpulannya adalah gagal tolak H0 yang berarti bahwa Model (GLS,GI,IL,IS)

lebih cocok dengan data.

Jika kita tertarik untuk melihat efek interaksi tiga faktor, maka dapat

dilakukan dengan menggunakan nilai Devians berdasarkan dua model yang

sesuai. Tabel 5.29 menyajikan hasil pengujian efek interaksi tiga faktor.

Tabel 5.29. Inferensi efek interaksi tiga faktor

Efek Interaksi H0 H1 Devians db p-value Kesimpulan

pada α=0.05

GIL (GI,GL,GS,IL,IS,LS) (GIL,GS,IS,LS) 4.78167 1 0.028764 Tolak H0

GIS (GI,GL,GS,IL,IS,LS) (GIS,GL,IL,LS) 0.50422 1 0.477652 Gagal tolak H0

GLS (GI,GL,GS,IL,IS,LS) (GLS,GI,IL,IS) 15.8865 1 6.73E-05 Tolak H0

ILS (GI,GL,GS,IL,IS,LS) (ILS,GI,GL,GS) 2.71761 1 0.099247 Gagal tolak H0

Berdasarkan hasil perhitungan yang disajikan pada tabel 5.15, pada tingkat

signifikansi α=0.05 efek interaksi yang signifikan adalah GIL dan GLS. Dari

pengujian interaksi tiga faktor ini diperoleh kesimpulan yang sama dengan uji

goodness of fit yaitu model (GLS,GI,IL,IS) adalah model yang layak digunakan.

Namun kita perlu menguji apakah model dengan memasukan efek interaksi

GLS. Sehingga perlu menguji Model (GIL,GLS,IS) layak digunakan.


Dari hasil uji goodness of fit diperoleh G2 = 3.591447 dengan db=3 sehingga

nilai p-value = 0.3090940. Dapat disimpulkan bahwa Model (GIL,GLS,IS)

layak digunakan. Selanjutnya jika model ini dibandingkan dengan model

(GLS,GI,IL,IS) dengan hipotesis

H0 : Model (GLS,GI,IL,IS) layak digunakan

H1 : Model (GIL,GLS,IS) layak digunakan

Didapatkan nilai Devians

D = 7.464480 - 3.591447

= 3.873033

Dengan derajad bebas db = 4 – 3 = 1 sehingga diperoleh nilai p-value =

0.049068. Pada α=0.05 kesimpulannya adalah gagal tolak H0 yang berarti

bahwa Model (GIL,GLS, IS) lebih cocok dengan data dibandingkan dengan

model (GLS,GI,IL,IS). Walaupun nilai p-value mendekati ambang batas 0.05.

Pengujian menggunakan statistik G2 didasarkan pada asumsi sampel besar.

Statistik yang bermanfaat untuk melihat kesesuaian data dan model adalah

ukuran dissimilarity index yaitu

ˆ ˆ| | | |2

i i i in pDIn nµ π− −

= =∑ ∑

dengan ni adalah frekuensi observasi ke-i dan ii nπµ ˆˆ = adalah frekuensi

harapan berdasarkan modelnya. Nilai DI terletak antara 0 dan 1. Jika DI

mendekati 0 mengindikasikan model cocok dengan data. Model (GLS,GI,IL,IS)

mempunyai nilai DI= 0.002507358 dan pada model (GIL.GLS, IS) mempunyai

nilai DI= 0.0001590224. Kedua nilai DI sangat kecil. Biasanya dalam praktek,

jika DI kurang dari 1% model dikatakan sesuai.

M E N G E L O L A D A N M E N G A N A L I S I S D A TA K A T E G O R I K M E N G G U N A K A N S O F T W A R E R 117

6. MENGELOLA DAN MENGANALISIS DATA KATEGORIK MENGGUNAKAN SOFTWARE R

6.1 Pendahuluan

R merupakan suatu sistem analisis statistika yang relatif lengkap, yang

merupakan hasil dari kolaborasi riset berbagai statistisi di seluruh dunia. Versi

paling awal R dibuat tahun 1992 di Universitas Aucland, New Zealand oleh

Ross Ihaka dan Robert Gentleman (yang mungkin menjelaskan asal muasal

akronim nama R untuk software ini). Program R adalah program statistika yang

didistribusikan melalui internet di bawah GPL (General Public License), hal ini

memungkinkan untuk digunakan secara bebas. Artinya untuk menggunakan

R tidak diperlukan pembayaran lisensi.

R dapat diperoleh secara bebas di CRAN-archive (The Comprehensive R Archive

Network) pada alamat http:/CRAN.r-project.org. Server utama CRAN berlokasi

di Universitas Teknologi Vienna, Austria dan di mirror world-wide tersebar di

banyak negara, ternasuk di Indonesia yaitu di Badan Pengkajian dan Penerapan

Teknologi (BPPT). Karena R adalah sebuah bahasa pemrograman, sebagian

besar fungsi-fungsi tersedia dalam bentuk library (kadang-kadang disebut

paket) yang diperoleh dari situs R. Kita dapat menginstal library sesuai dengan

keinginan. Daftar library terkompresi siap untuk di-download di http:/CRAN.r-

project.org. Tabel 6.1. merupakan sebagai daftar package yang dapat diakses

secara bebas dalam link tersebut (https://repo.bppt.go.id/cran/). Daftar ini

senantiasa berkembang setiap saat. Jika kita menggunakan GUI, mulai R dan

klik “install package from local directory” yang terletak di “package”, kemudian

pilih file yang dipilih untuk diunduh.


Tabel 6.1. Paket yang tersedia dalam situs r-project.

Tanggal Package Nama

2019-07-15 aws.ec2metadata Get EC2 Instance Metadata

2019-07-15 AzureContainers Interface to ‘Container Instances’, ‘Docker Registry’

and ‘Kubernetes’ in ‘Azure’

2019-07-15 CautiousLearning Control Charts with Guaranteed In-Control

Performance and Cautious Parameters Learning

2019-07-15 coalitions Bayesian “Now-Cast” Estimation of Event

Probabilities in Multi-Party Democracies

2019-07-15 damr Interface to Drosophila Activity Monitor System

Result Files

2019-07-15 DescToolsAddIns Interactive Functions to be Used as Shortcuts in

‘RStudio’

2019-07-15 deSolve Solvers for Initial Value Problems of Differential

Equations (‘ODE’, ‘DAE’, ‘DDE’)

2019-07-15 durmod Mixed Proportional Hazard Competing Risk Model

2019-07-15 DVHmetrics Analyze Dose-Volume Histograms and Check

Constraints

2019-07-15 DynamicGP Modelling and Analysis of Dynamic Computer

Experiments

2019-07-15 exuber Econometric Analysis of Explosive Time Series

2019-07-15 GetTDData Get Data for Brazilian Bonds (Tesouro Direto)

…. …. ….

2008-11-08 foba greedy variable selection

2008-10-28 kzs Kolmogorov-Zurbenko Spatial Smoothing and

Applications

2008-10-02 expert Modeling without data using expert opinion

2008-09-08 pack Convert values to/from raw vectors

2008-08-13 RM2 Revenue Management and Pricing Package

2008-06-23 SASPECT Significant AnalysiS of PEptide CounTs

2008-06-09 LDtests Exact tests for Linkage Disequilibrium and Hardy-

Weinberg Equilibrium

2008-04-29 poilog Poisson lognormal and bivariate Poisson

lognormal distribution


2007-10-16 fuzzyFDR Exact calculation of fuzzy decision rules for multiple

testing

2006-05-24 allelic A fast, unbiased and exact allelic exact test

2006-03-30 BayesValidate Bayes Validate Package

2006-03-15 coxrobust Robust Estimation in Cox Model

Dalam bab ini akan dibahas bagaimana mengatur data mulau dari input,

transformasi/manipulasi, impor dan menyimpan data dalam dalam berbagai

format.

6.2 Input Data

R memungkinkan kita untuk membuat berbagai jenis objek penyimpanan

data, seperti angka, vektor, matrik, string, dan dataframes. Perintah untuk

menciptakan atau mendefinisikan sebuah objek menggunakan perintah

> x <- 7

yang berarti menciptakan objek numerik yang disebut x, yang berisi nilai 7.

Objek yang dibuat dapat menyimpan lebih dari satu nilai. Perintah c( ) adalah

fungsi generik yang dapat digunakan untuk membuat vektor pada berbagai

jenis data.

> A<- c(7,10,5)

Objek A memuat tiga nilai dengan nilai 7, 10 dan 5. Operasi-operasi vektor

dapat dilakukan terhadap objek A.

a. Transpose, menggunakan perintah t( ).

> F <- t(A) #F adalah transpose dari matrik A

b. Penggabungan baris dan kolom dengan menggunakan perintah cbind ()

dan rbind().

> data1 <- cbind(c(7,6,5),c(1,2,3))> data2 <- rbind(c(7,6,5),c(1,2,3))


Hasil atas operasi ini

> data1 [,1] [,2][1,] 7 1[2,] 6 2[3,] 5 3> data2 [,1] [,2] [,3][1,] 7 6 5

[2,] 1 2 3

Elemen dalam vektor dan jenis data yang sama diindeks menggunakan tanda

kurung siku. Pada tipe data multidimensi, seperti matrik dan data frames,

meninggalkan indeks kosong merujuk kepada seluruh kolom atau baris yang

sesuai dengan indeks.

> A[2][1] 10> F[3][1] 5> data1[,1][1] 7 6 5> data1[2,1][1] 6> data1[2,][1] 6 2

Ringkasan statistik pada data dapat dilakukan menggunakan summary ( ).

Untuk menentukan dimensi data menggunakan perintah nrow( ), dan ncol(

). Lebih umum, kita dapat menggunakan perintah dim( ) untuk mengetahui

dimensi dari objek.


> nrow(data2) #jumlah baris[1] 2> ncol(data2) #jumlah kolom[1] 3> dim(data2) #dimensi[1] 2 3> summary(data2) V1 V2 V3 Min. :1.0 Min. :2 Min. :3.0 1st Qu.:2.5 1st Qu.:3 1st Qu.:3.5 Median :4.0 Median :4 Median :4.0 Mean :4.0 Mean :4 Mean :4.0 3rd Qu.:5.5 3rd Qu.:5 3rd Qu.:4.5 Max. :7.0 Max. :6 Max. :5.0

Jika kita ingin mengekstrak atau mencetak hanya baris atau kolom tertentu,

kita dapat menggunakan operator singkatan. Mengambil kolom 2 dan kolom

3 pada objek data2.

> data2[,c(2,3)]

[,1] [,2]

[1,] 6 5

[2,] 2 3

Menghapus kolom tertentu, misalkan kolom ke 3 pada data2,

> data2[,-c(3)]

[,1] [,2]

[1,] 7 6

[2,] 1 2


Demikian juga untuk mengambil baris tertentu ataupun menghapus baris

tertentu.

> data2[c(1),] #mengambil baris ke-1

[1] 7 6 5

> data2[-c(1),] #menghapus baris ke-1

[1] 1 2 3

Kita dapat juga menggunakan operator perbandingan untuk mengekstrak

kolom atau baris tertentu. Misalkan mengambil kolom yang memenuhi syarat

nilai pada baris ke-1 lebih besar atau sama dengan 6.

> data2[,data2[1,]>=6]

[,1] [,2]

[1,] 7 6

[2,] 1 2

>data2[data2[1,]>1,]

Kita juga dapat menyusun ulang data dengan mengurutkan data.

> data1[order(data1[,1])] #mengambil nilai pada

kolom ke-1 dan mengurutkan

[1] 5 6 7

> data1[order(data1[1,])] #mengambil nilai pada

baris ke-1 dan mengurutkan

[1] 6 7

6.3 Vektor

Hal yang paling mendasar dalam R adalah vektor yang biasanya dalam

bentuk vektor kolom, tetapi vektor dapat juga dipandang sebagai vektor baris.

Misalkan dipunyai dua buah vektor

a<-c(1,2,3)

b<-c(4,6,8)


Sekarang kita dapat membuat sebuah matrik dengan menumpuk secara

vertikal maupun horizontal dan R dapat memperlakukan masing-masing

vektor sebagai vektor baris ataupun vektor kolom.

> cbind(a,b)

a b

[1,] 1 4

[2,] 2 6

[3,] 3 8

> rbind(a,b)

[,1] [,2] [,3]

a 1 2 3

b 4 6 8

Dalam operasi aljabar linear, vektor perlu dikorversi ke dalam matrik

menggunakan perintah as.matrix ( ) dan perintah as.vector( ) untuk membuat

vektor.

6.4 Array dan Matrik

Dalam R, data multivariat yang homogen (semua elemen adalah tipe yang

sama) dapat disimpan sebagai sebuah array atau matrik. Sebuah matrik

memiliki dua dimensi, sedangkan array dapat dari banyak dimensi. Data

dengan tipe ini tidak memiliki atribut khusus untuk memberi nama kolom

atau baris dan hanya dapat menyimpan data numerik. Perhatikan bahwa

orang tidak dapat membuat sebuah matrik, array, atau vektor dari dua jenis

data yang berbeda (numerik dan karakter, misalnya). Jika tidak memenuhi

hal tersebut, akan terjadi error. Untuk membuat matrik berdimensi axb dapat

digunakan perintah matrix(,a,b).

> matrix(c(1,2,3,4,5,6),3,2)

[,1] [,2]

[1,] 1 4

[2,] 2 5

[3,] 3 6


Array merupakan generalisasi dari matrik (dimensinya lebih dari 2). Misalkan

membuat array dengan demensi tiga, dapat menggunakan perintah

array(,c(a,b,c)).

> array(c(1:12),c(2,3,2))

, , 1

[,1] [,2] [,3]

[1,] 1 3 5

[2,] 2 4 6

, , 2

[,1] [,2] [,3]

[1,] 7 9 11

[2,] 8 10 12

6.5 Frame

Sebagian besar data dalam ekonometrika merupakan bentuk data frame.

Sebuah data frame adalah kumpulan vektor (sebagai kolom) yang berisi data,

yang tidak harus dari tipe yang sama, tetapi masing-masing kolom harus

memiliki jumlah elemen yang sama. Data frame memuat data pengamatan

individu pada barisnya dan variabel-variabel pada masing-masing kolom.

Setiap kolom memiliki judul atau nama yang spesifik. Misalkan akan disusun

data frame dari vektor Nama, Mtk dan Bhs.

> Nama<-c(“Anton”,”Bobo”,”Roni”)

> Mtk<-c(9,7,10)

> Bhs<-c(3,4,8)

> Daftar.Nilai<-data.frame(Nama,Mtk,Bhs)

> Daftar.Nilai

Nama Mtk Bhs

1 Anton 9 3

2 Bobo 7 4

3 Roni 10 8

Daftar.Nilai adalah data frame yang memuat tiga variabel (Nama,Mtk,Bhs)

atas pengamatan tiga orang. Jika kita hanya mengambil variabel tertentu saja

maka kolom Nama maka dapat digunakan perintah:


> Daftar.Nilai$Nama

[1] Anton Bobo Roni

Levels: Anton Bobo Roni

> Daftar.Nilai$Mtk

[1] 9 7 10

Untuk melihat nama-nama kolom dalam Daftar.Nilai

> names(Daftar.Nilai)

[1] “Nama” “Mtk” “Bhs”

Operasi matematika dapat dilakukan pada dataframe pada kolom yang

bertipe numerik.

Misalkan

> jml.nilai<-Daftar.Nilai$Mtk + Daftar.Nilai$Bhs

> jml.nilai

[1] 12 11 18

menciptakan variabel Rata yang merupakan nilai rata-rata nilai Mtk dan Bhs.

> Daftar.Nilai$Rata<-Daftar.Nilai$Mtk + Daftar.

Nilai$Bhs

> Daftar.Nilai

Nama Mtk Bhs Rata

1 Anton 9 3 12

2 Bobo 7 4 11

3 Roni 10 8 18

> summary(Daftar.Nilai) #mendiskripsikan data frame

Nama Mtk Bhs Rata

Anton:1 Min. : 7.000 Min. :3.0 Min. :11.00

Bobo :1 1st Qu.: 8.000 1st Qu.:3.5 1st u.:11.50

Roni :1 Median : 9.000 Median :4.0 Median 12.00

Mean : 8.667 Mean :5.0 Mean :13.67

3rd Qu.: 9.500 3rd Qu.:6.0 3rd u.:15.00

Max. :10.000 Max. :8.0 Max. :18.00


Untuk memeriksa struktur data dapat digunakan perintah str( ).

> str(Daftar.Nilai)

‘data.frame’: 3 obs. of 4 variables:

$ Nama: Factor w/ 3 levels “Anton”,”Bobo”,..: 1 2 3

$ Mtk : num 9 7 10

$ Bhs : num 3 4 8

$ Rata: num 12 11 18

6.6 Membuat dan Memanipulasi Tabel Frekuensi

R menyediakan banyak metode untuk membuat tabel frekuensi dan

kontingensi. Beberapa dijelaskan di bawah ini. Dalam contoh di bawah ini, kami

menggunakan beberapa contoh nyata dan beberapa yang anonim, di mana

variabel A, B, dan C mewakili variabel kategori, dan X mewakili sebarang objek

data R. Hal pertama yang perlu Anda ketahui adalah bahwa data kategorikal

dapat direpresentasikan dalam tiga bentuk berbeda dalam R, dan kadang-

kadang diperlukan untuk mengkonversi dari satu formulir ke formulir lainnya,

untuk melakukan tes statistik, menyesuaikan model, atau memvisualisasikan

hasil. Setelah objek data ada di R, Anda dapat memeriksa struktur lengkapnya

dengan fungsi str( ), atau melihat nama komponennya dengan fungsi names

( ).

Penulisan data dapat disusun dalam beberapa format yang sangat dipengaruhi

oleh format data pada saat observasi di lapangan. Beberapa format data

meliputi Case Form, Frequency Form, Table Form.

6.6.1 Case form

Case form adalah data yang berisi pengamatan individu, dengan satu atau lebih

faktor, digunakan sebagai variabel klasifikasi. Dalam bentuk kasus, mungkin

ada kovariat numerik. Jumlah total pengamatan adalah nrow (X), dan jumlah

variabel adalah ncol (X).

Sebagai contoh data Arthritis yang diambil dari vcd package adalah contoh data

dalam format case form. Terdapat dua faktor (variabel kategori) yaitu Treatment

dan Sex. Dua variabel lain, yaitu Age adalah variabel eksplanatori yang bersifat

numeric dan Improved sebagai variabel respons yang berupa data ordinal

(dengan urutan None < Some < Marked). Berdasarkan data tersebut dapat


disusun tabel kontingensi dengan faktor Treatment, Sex dan Improved yang

berupa tabel 2 × 2 × 3.

> names(Arthritis) # show the variables[1] “ID” “Treatment” “Sex” “Age” “Improved”> str(Arthritis) # show the structure> head(Arthritis,5) # first 5 observations, same as Arthritis[1:5,]

ID Treatment Sex Age Improved1 57 Treated Male 27 Some2 46 Treated Male 29 None3 77 Treated Male 30 None4 17 Treated Male 32 Marked5 36 Treated Male 46 Marked

6.6.2 Frequency form

Frequency form adalah data yang mengandung satu atau lebih faktor, dan

variabel frekuensi, sering disebut Frek atau hitung. Beberapa perintah yang

biasa digunakan dalam tabel kontingensi:

sum(X $ Frek) : Jumlah total pengamatan atau beberapa bentuk yang setara.

nrow (X) : Jumlah sel dalam tabel.

Perintah yang biasa digunakan Sum(X [, “Frek”]). Untuk Menyusun table

kontingensi yang berasal dari pengamatan yang sudah dalam format frekuensi

dapat menggunakan perintah

expand.grid() : untuk mendefinisikan nama faktor.

c() : menyusun daftar frekuensi/nilai dalam sebuah vektor.

Misalkan diambil dari data 1991 General Social Survey dalam Agresti (2002).

Responden diklasifikasikan berdarasarkan faktor sex dan party.

> # Agresti (2002)

> GSS <- data.frame(

+ expand.grid(sex=c(“female”, “male”),

+ party=c(“dem”, “indep”, “rep”)),

+ count=c(279,165,73,47,225,191))

GSS <- data.frame(expand.grid(sex=c(“female”,

“male”), party=c(“dem”, “indep”, “rep”)),

count=c(279,165,73,47,225,191))

> GSS


sex party count

1 female dem 279

2 male dem 165

3 female indep 73

4 male indep 47

5 female rep 225

6 male rep 191

> names(GSS)

[1] “sex” “party” “count”

> str(GSS)

> sum(GSS$count)

[1] 980

6.6.3 Table form.

Table form adalah data berbentuk matriks, array atau objek tabel, yang elemen-

elemennya adalah frekuensi dalam tabel n-way. Beberapa peritah dalam

format ini :

dimnames (X) : untuk menegetahui Nama variabel (faktor)

dan levelnya.

Sum(X) : Jumlah total pengamatan.

length(dimnames(X)) : Jumlah dimensi dari tabel

sapply(dimnames(X), length) : ukuran-ukuran tabel

Dari Data “HairEyeColor” yang dapat diperoleh dari package vcd adalah contoh

data dalam format tabel.

> str(HairEyeColor) # show the structure

> sum(HairEyeColor) # number of cases

[1] 592

> sapply(dimnames(HairEyeColor), length) # tabel

dimension sizes

Hair Eye Sex

4 4 2


Data frekuensi juga dapat dinyatakan dalam format matrik. Berdasarkan data

“Job Satisfaction” dalam Agresti (2002), dapat disusun tabel menggunakan

perintah matrix() sebagai

> ## A 4 x 4 tabel Agresti (2002, Table 2.8, p. 57)

Job Satisfaction

> JobSat <- matrix(c(1,2,1,0, 3,3,6,1, 10,10,14,9,

6,7,12,11), 4, 4)

> dimnames(JobSat) = list(income=c(“< 15k”,

“15-25k”, “25-40k”, “> 40k”),

+ satisfaction=c(“VeryD”, “LittleD”, “ModerateS”,

“VeryS”))

> JobSat

satisfaction

income VeryD LittleD ModerateS VeryS

< 15k 1 3 10 6

15-25k 2 3 10 7

25-40k 1 6 14 12

> 40k 0 1 9 11

JobSat adalah sebuah matrix, bukan sebuah objek class(“table”), dan beberapa

fungsi lebih disukai menggunakan tabel daripada matrik. Mengkonversi

format matrik menjadi tabel dapat menggunakan fungsi as.table( ),

> JobSat <- as.table(JobSat)

> str(JobSat)

6.6.4 Fungsi structable( )

Untuk tabel tiga dimensi (3-arah) dan lebih besar lagi, fungsi structable ( ) yang

dapat diperoleh dapat package vcd menyediakan tampilan tabel yang nyaman

dan fleksibel. Variabel yang letakan ke baris dan kolom tampilan dua arah

dapat ditentukan oleh rumus model.

> structable(HairEyeColor) # show the table: default> structable(Hair+Sex ~ Eye, HairEyeColor) # specify col ~ row


6.6.5 Fungsi table( )

Tabel frekuensi yang melibatkan beberapa faktor menggunakan fungsi table( ),

tabel proporsi menggunakan fungsi prop.table () dan untuk mencari frekuensi

marginal menggunakan fungsi margin.table().

> n=500

> A <- factor(sample(c(“a1”,”a2”), n, rep=TRUE))

> B <- factor(sample(c(“b1”,”b2”), n, rep=TRUE))

> C <- factor(sample(c(“c1”,”c2”), n, rep=TRUE))

> mydata <- data.frame(A,B,C)

> # 2-Way Frequency Table

> attach(mydata)

> mytable <- table(A,B) # A will be rows, B will

be columns

> mytable # print table

> margin.table(mytable, 1) # A frequencies (summed

over B)

> margin.table(mytable, 2) # B frequencies (summed

over A)

> prop.table(mytable) # cell percentages

> prop.table(mytable, 1) # row percentages

> prop.table(mytable, 2) # column percentages

Fungsi table( ) dapat juga digunakan untuk menyusun tabel multidimensi

(lebih dari 3 variabel kategorik. Dalam kasus ini dapat menggunakan fungsi

ftable( ) atau structable( ).


> mytable <- table(A, B, C)

> ftable(mytable)


6.6.6 Fungsi xtabs( )

Fungsi xtabs() dapat digunakan untuk membuat cross tabulations berdasarkan

data dalam format case-form yang disediakan dalam data frame atau matrix.

Hasilnya berupa tabel kontingensi dengan format array dengan dimensi

sebesar banyaknya suku disebelah kanan rumus (~).


> mytable <- xtabs(~A+B+C, data=mydata)

> ftable(mytable) # print table

> summary(mytable) # chi-square test of indepedence

Jika sebuah variabel dimasukan dalam rumus sebelah kiri, maka variabel

tersebut merupakan sebuah vektor frekuensi dan data sudah dalam format

frekuensi.

> (GSStab <- xtabs(count ~ sex + party, data=GSS))

> summary(GSStab)

6.6.7 Tabel Marginal

Seringkali dalam menganalisis tabel kontingensi yang melibatkan banyak

faktor, dapat dilakukan analisis untuk sebagian faktor saja atau beberapa

faktor diabaikan. Misalkan sebuah tabel memuat 4 Faktor yaitu A, B, C dan D,

sehingga tabelnya berdimensi 4. Jika peneliti hanya menganalisis dua faktor

saja, misalkan faktor A dan B sedangkan faktor C dan D diabaikan, maka tabel

nya menjadi berdimensi dua. Pada data yang memiliki format data frame baik

dalam case-form dan frequency form untuk menyusun tabel marginal dapat

menggunakan fungsi aggregate(). Sedangkan jika data mempinyai format

tabel maka dapat menggunakan fungsi margin.table() atau apply().

Contoh dari Data DaytonSurvey dalam vcdExtra package mempunyai format

data Frame yang terdiri dari 5 faktor dan masing-masing mempunyai level

2 sehingga tabelnya berdimensi 25. Lima faktor tersebut adalah pertanyaan

terkait penggunaan alcohol, cigarettes dan marijuana pada kelompok siswa

SLTA yang diklasifikasikan berdasarkan variabel sex dan race.


> str(DaytonSurvey)

> head(DaytonSurvey)

cigarette alcohol marijuana sex race Freq

1 Yes Yes Yes female white 405

2 No Yes Yes female white 13

3 Yes No Yes female white 1

4 No No Yes female white 1

5 Yes Yes No female white 268

6 No Yes No female white 218

Dilakukan analisis yang lebih fokus pada asosiasi variabel alcohol, cigarettes

dan marijuana sedangkan variabel sex dan race diabaikan.

> # data in frequency form

> # collapse over sex and race

> Dayton.ACM.df <- aggregate(Freq ~

cigarette+alcohol+marijuana,

+ data=DaytonSurvey, FUN=sum)

> Dayton.ACM.df

cigarette alcohol marijuana Freq

1 Yes Yes Yes 911

2 No Yes Yes 44

3 Yes No Yes 3

4 No No Yes 2

5 Yes Yes No 538

6 No Yes No 456

7 Yes No No 43

8 No No No 279

Ketika data mempunyai format tabel, maka fungsi yang dapat digunakan

adalah apply() atau fungsi margin.table(). Sebagai contoh, data DaytonSurvey

yang mempunyai format data frame menjadi format tabel 25 menggunakan

fungsi xtabs(),


> # in table form

> Dayton.tab <- xtabs(Freq~cigarette+alcohol+marij

uana+sex+race, data=DaytonSurvey)

> structable(cigarette+alcohol+marijuana ~

sex+race, data=Dayton.tab)

Menggunakan fungsi apply() pada data Dayton.tab menjadi tabel 23 dengan

mengabaikan variabel sex dan race.

> # collapse over sex and race

> Dayton.ACM.tab <- apply(Dayton.tab, MARGIN=1:3, FUN=sum)

> Dayton.ACM.tab <- margin.table(Dayton.tab, 1:3) # same result

> structable(cigarette+alcohol ~ marijuana, data=Dayton.ACM.tab)

6.6.8 Pengurangan Level Tabel.

Salah satu permasalahan yang sering terjadi dalam mengelola tabel atau array

adalah mengurangi atau menggabung beberapa level pada masing-masing

faktor sehingga frekuensinya ikut menyesuaikan. Untuk melakukan reduksi

level ini dapat digunakan fungsi collapse.table() dalam package vcdExtra.

Contoh penggabungan kelompok usia 10-year ke dalam kelompok 20-year

berdasarkan tabel 2 × 6 × 3 yang berdistribusi Poisson. Data dibangkitkan

padam mean 100.


> sex <- c(“Male”, “Female”)

> age <- c(“10-19”, “20-29”, “30-39”, “40-49”,

“50-59”, “60-69”)

> education <- c(“low”, “med”, “high”)

> data <- expand.grid(sex=sex, age=age,

education=education)

> counts <- rpois(36, 100)

> data <- cbind(data, counts)

> # membuat tabel dimensi tiga

> t1 <- xtabs(counts ~ sex + age + education,

data=data)

> structable(t1)

Misalkan dari tabel yang terbentuk dilakukan penggabungan untuk kelompok

age “10-19” digabung ke kelompok age “20-29” sehingga intervalnya menjadi

“10-29”. Demikian juga kelompok education menjadi dua kelompok saja yaitu

“<high” dan “high”.

> t2 <- collapse.table(t1,

+ age=c(“10-29”, “10-29”, “30-49”, “30-49”, “50-69”,

“50-69”),

+ education=c(“<high”, “<high”, “high”))

> structable(t2)

6.6.9 Konversi Format Data.

Tabel 6.2. berikut menyajikan perintah-perintah yang digunakan untuk

mengkonversi format data menjadi format lain.

Tabel 6.2. Konversi format data

Format asal Format tujuan

Case form Frequency form Table form

Case form - Xtabs(~A+B) Table(A,B)

Frequency form Expand.dft(X) - Xtabs(count~A+B)

Table form Expand.dft(X) As.data.frame(X) -


Misalkan diambil dari data 1991 General Social Survey dalam Agresti (2002).

Mengkonversi data GSStab yang mempunyai format table form menjadi data.

frame yang mempunyai format frequency form.

> as.data.frame(GSStab)

Contoh berikutnya dari data Arthritis yang diambil dari vcd package yang

mempunyai format case form dikonversi menjadi tabel kontingensi tiga

dimensi Treatment×Sex×Improved.

> Art.tab <-with(Arthritis, table(Treatment, Sex,

Improved))

> str(Art.tab)

> ftable(Art.tab)

Sebaliknya, dapat mengkonversi dari format table form yaitu Art.tab yang

telah diperoleh dari data Arthritis untuk dikembalikan lagi menjadi case form,

dengan faktor-faktornya Treatment, Sex dan Improved. Fungsi yang digunakan

adalah expand.dft( ) yang terdapat dalam package vcdExtra.

> Art.df <- expand.dft(Art.tab)

> str(Art.df)

6.7 Impor Data dalam R

Program R mampu mengimpor dan mengespor data dalam berbagai ekstensi

file seperti Text(.txt), Excel (.xlsx, .scv), SPSS (.sav), Minitab(.mtp). Dalam

subbab ini dibahas bagaimana mengimpor dan mengekspor dalam beberapa

file ekstensi tersebut.

1. Impor data dari Microsoft Excel.

Data dalam program Excel mempunyai dua jenis ektensi, yaitu *.xlsx dan

*.scv. Untuk membuka/membaca dan menyimpan data tersebut dalam

program R dapat menggunakan perintah yaitu langsung dengan read.csv(file,

header=TRUE) atau menggunakan package xlsx. Misalkan dimiliki data sebagai

mana dalam table 7. yang disimpan folder D:/Dataku/Data Sekolah.xlsx.


Tabel 6.3. Data Sekolah

Provinsi APTSRasio Guru-

SiswaRasio Sekolah-

Siswa Persentase

KK Rata-Rata Jumlah Anggota Keluarga

Rasio Jenis Kelamin

Persentase Penduduk Miskin

ACEH 0.0178 0.0817 0.0043 0.5463 4.2000 99.7000 3.1300 SUMATERA UTARA 0.0213 0.0444 0.0026 0.5545 4.3000 99.6000 5.0900 SUMATERA BARAT 0.0203 0.0587 0.0027 0.5123 4.2000 98.8000 1.3300 RIAU 0.0176 0.0520 0.0029 0.5907 4.2000 105.6000 1.8600 JAMBI 0.0145 0.0527 0.0036 0.5672 4.0000 104.2000 1.0500 SUMATERA SELATAN 0.0197 0.0617 0.0028 0.6001 4.1000 103.3000 4.0600 BENGKULU 0.0184 0.0594 0.0035 0.5469 4.0000 104.1000 1.1800 LAMPUNG 0.0207 0.0516 0.0025 0.6358 3.9000 105.3000 0.5400 KEP. BANGKA BELITUNG 0.0209 0.0391 0.0034 0.5865 3.9000 108.0000 0.2500 KEP. RIAU 0.0134 0.0434 0.0030 0.3778 3.8000 104.6000 0.4600 DKI JAKARTA 0.0093 0.0367 0.0020 0.3362 3.8000 101.3000 1.5400 JAWA BARAT 0.0182 0.0288 0.0013 0.6361 3.8000 102.9000 15.8600 JAWA TENGAH 0.0159 0.0272 0.0012 0.6333 3.7000 98.4000 17.0700 DI YOGYAKARTA 0.0091 0.0384 0.0021 0.4615 3.3000 97.7000 1.9900 JAWA TIMUR 0.0153 0.0354 0.0017 0.5616 3.6000 97.4000 17.7700 BANTEN 0.0197 0.0326 0.0017 0.5779 4.1000 104.1000 2.4300 BALI 0.0105 0.0414 0.0019 0.4528 3.8000 101.4000 0.7300 NUSA TENGGARA BARAT 0.0283 0.0623 0.0030 0.4722 3.6000 94.2000 3.0600 NUSA TENGGARA TIMUR 0.0237 0.0550 0.0031 0.5188 4.6000 98.2000 3.7100 KALIMANTAN BARAT 0.0241 0.0496 0.0035 0.5319 4.3000 103.9000 1.4300 KALIMANTAN TENGAH 0.0271 0.0613 0.0058 0.5729 3.9000 109.2000 0.5600 KALIMANTAN SELATAN 0.0222 0.0461 0.0032 0.5906 3.7000 102.7000 0.7100 KALIMANTAN TIMUR 0.0191 0.0373 0.0031 0.4539 4.0000 110.3000 0.9500 SULAWESI UTARA 0.0183 0.0453 0.0042 0.5123 3.9000 104.2000 0.7400 SULAWESI TENGAH 0.0267 0.0463 0.0039 0.6058 4.2000 104.5000 1.4500 SULAWESI SELATAN 0.0194 0.0500 0.0025 0.5331 4.4000 95.4000 3.0200 SULAWESI TENGGARA 0.0341 0.0639 0.0041 0.4797 4.4000 100.9000 1.1800 GORONTALO 0.0342 0.0369 0.0033 0.5208 4.3000 100.4000 0.7300 SULAWESI BARAT 0.0227 0.0352 0.0037 0.5436 4.5000 100.6000 0.5800 MALUKU 0.0152 0.0695 0.0050 0.4899 4.8000 101.8000 1.1500 MALUKU UTARA 0.0221 0.0643 0.0060 0.5166 4.8000 104.3000 0.3200 PAPUA BARAT 0.0273 0.0587 0.0052 0.3581 4.5000 111.5000 0.8400 PAPUA 0.0163 0.0539 0.0049 0.3844 4.3000 111.9000 3.2300

Untuk menggunakan perintah read.csv( ), filenya harus disimpan dengan

ekstensi *.csv dari program excel. Setelah file tersimpan dalam format csv,

dapat menggunakan perintah berikut dalam program R :

#Format csv dengan nama dan lokasi file diketahui

> Data.csv <- read.csv(“D:/Dataku/Data Sekolah.

csv”,header=TRUE);

> names(Data.csv)

[1]“Provinsi” “APTS”

[3]“Rasio.Guru.Siswa” “Rasio.Sekolah.Siswa”

[5]“Persentase.KK” “Rata.Rata.Jumlah.Anggota.

Keluarga”

[7]“Rasio.Jenis.Kelamin” “Persentase.Penduduk.

Miskin”


Jika belum tahu nama file dan lokasi penyimpanya, maka dapat menggunakan

perintah

#Format csv dengan nama dan lokasi file belum diketahui

> Data.csv <- read.csv(file.choose(),header=TRUE);

Akan muncul windows yang dapat digunakan untuk mencari dan memilih file

yang sesuai. Cara kedua adalah menggunakan menggunakan package xlsx

yang dapat digunakan secara langsung untuk membaca file dengan ekstensi

*.xlsx.

>library(xlsx)

> Data.excel <- read.xlsx(“D:/Dataku/Data Sekolah.

xlsx”, sheetName=”Sheet1”);

2. Impor data dari Text ke R.

Data sebaiknya tidak berupa “kalimat yang memuat spasi”

> Data.txt <- read.table(“D:/Dataku/Data Sekolah2.

txt”);

> names(Data.txt);

[1] “V1” “V2” “V3” “V4” “V5” “V6” “V7”

3. Impor data dari SPSS ke R.

>library(memisc)

> Data.spss <- as.data.set(spss.system.file(‘D:/

Dataku/Data Sekolah.sav’));

4. Impor data dari Minitab ke R.

Data harus disimpan dalam format minitab protable atau mempunyai ektensi

*.mtp.

>library(foreign)

> Data.minitab <- read.mtp(“D:/Dataku/Data Sekolah.

mtp”);

5. Impor data ke R dengan cara COPY-PASTE

Data yang akan di-“Copy” memiliki farmat sebagaimana dalam Tabel 6.3.

Diblok selanjutnya jalankan perintah


>Data,copypaste <-read.delim(“clipboard”);

> names(Data.copypaste);

[1] “Provinsi” “APTS”

[3] “Rasio.Guru.Siswa” “Rasio.Sekolah.Siswa”

[5] “Persentase.KK” “Rata.Rata.Jumlah.

Anggota.Keluarga”

[7] “Rasio.Jenis.Kelamin” “Persentase.Penduduk.

Miskin”

6.8 Grafik Distribusi Chi-square

Berikut ini adalah cara membuat grafik berdasarkan fungsi distribusi Chi-square

yang dapat diperoleh menggunakan perintah

>fx<-function (x)dchisq(x,df=5)

>curve(fx,0,40,type = “l”,ylab=”Probability

Density”)

>fx1<-function (x)dchisq(x,df=1)>curve(fx1,type = “l”,add=TRUE)


0 10 20 30 40

0.00

0.05

0.10

0.15

x

Pro

babi

lity

Den

sity

6.9 Uji Independensi dalam Tabel Kontingensi Menggunakan R

Pada Bab 3 telah dibahas uji independensi untuk tabel kontingensi. Berikut ini

beberapa operasi yang digunakan untuk keperluan uji independensi dalam

software R.

1. Uji Eksak Fisher’s

Uji Eksak Fisher’s dalam program R dapat diakses melalui fungsi fisher.

test.

> teh <- matrix(c(3,1,1,3),ncol=2)

> fisher.test(teh)

Fisher’s Exact Test for Count Data

data: teh

p-value = 0.4857

alternative hypothesis: true odds ratio is not

equal to 1

95 percent confidence interval:

0.2117329 621.9337505

sample estimates:

odds ratio

6.408309


> fisher.test(teh,alternative=”greater”)

Fisher’s Exact Test for Count Data

data: teh

p-value = 0.2429

alternative hypothesis: true odds ratio is

greater than 1

95 percent confidence interval:

0.3135693 Inf

sample estimates:

odds ratio

6.408309

Pengujian independensi dua faktor secara eksak dapat juga diimplementasikan

pada tabel dua arah yang berukuran axb dengan menggunakan fungsi fisher.

test tersebut. Pengujian ini merupakan generalisasi dari Fisher’s exact test

pada tabel 2 x 2.

> library(ctest)

2. Statistik Pearson

Dalam program R, untuk menghitung statistik Pearson’s Chi-Kuadrat dapat

digunakan fungsi chisq.test

> gender <- matrix(c(762,327,468,484,239,477),byro

w=TRUE,nrow=2)

>dimnames(gender) <- list(Gender=c(“Wanita”,”Laki”),

Party=c(“Demokrat”,”Agama”,”Republik”))

> chisq.test(gender)

Pearson’s Chi-squared test

data: gender

X-squared = 30.0701, df = 2, p-value = 2.954e-07

Dalam beberapa kasus, nilai P-value dapat didekati menggunakan simulasi.

> chisq.test(gender,simulate.p.value=TRUE,B=10000)

Pearson’s Chi-squared test with simulated

p-value (based on 10000 replicates)


data: gender

X-squared = 30.0701, df = NA, p-value = 1e-04

3. Cochran–Mantel–Haenszel (CMH)

Langkah-langkah analisis menggunakan program R adalah :> dp <- c(19, 132, 0,9,11,52,6,97)> dp <- array(dp, dim=c(2,2,2))> dimnames(dp) <- list(Hukum.Mati=c(“ya”,”tidak”),Korban=c(“Suku A”,” Suku B “), Terdakwa=c(“Suku A”,” Suku B”))> mantelhaen.test(dp)Mantel-Haenszel chi-squared test with continuity correctiondata: dp Mantel-Haenszel X-squared = 5.8062, df = 1, p-value = 0.01597alternative hypothesis: true common odds ratio is not equal to 1 95 percent confidence interval: 1.397771 11.381078 sample estimates:common odds ratio 3.988502> mantelhaen.test(dp,correct=FALSE)Mantel-Haenszel chi-squared test without continuity correctiondata: dp Mantel-Haenszel X-squared = 6.9964, df = 1, p-value = 0.008168alternative hypothesis: true common odds ratio is not equal to 1 95 percent confidence interval: 1.397771 11.381078 sample estimates:common odds ratio

3.988502


6.10 Model Loglinear

Dalam Bab 4 dan Bab 5 telah dibahas analisis model loglinear pada tabel

kontingensi. Pada subbab ini dibahas cara penggunaan software R untuk

membantu perhitungan dalam model loglinear. Dalam software R telah tersedia

paket analisis untuk model loglinear, yaitu menggunakan menggunakan

library (MASS) yang didalamnya terdapat fungsi loglm.

loglm(formula, data, subset, na.action, ...)

formula : struktur model loglinear yang dianalisis

data : Numeric array atau data frame.

Subset : mengkhususkan baris tertentu dalam data frame yang

digunakan. Defaultnya adalah semua data.

na.action : menspesifikan metode untuk mengatasi missing observations.

Fungsi loglm membutuhkan input berupa tabel yang diperoleh dari fungsi

table() atau dari array.

Output fungsi loglm dapat digunakan untuk melakukan inferensi terhadap

modelnya seperti menggunkan argument summary, deviance, fitted, coef, resid,

anova. Statistik log-likelihood ratio dapat diperoleh menggunkan anova. Nilai

deviance merupakan selisih statistik likelihood rasio dari model yang diuji dan

model saturated.

Berikut ini adalah aplikasi program R dalam analisis model loglinear. Data

diambil dari beberapa contoh di bab 4 dan bab 5.

>tabel.pasien<-data.frame(expand.grid( Kolesterol=factor(c(“Normal”,”Tinggi”),levels= c(“Normal”,”Tinggi”)), Diastolik=factor(c(“Normal”,”Tinggi”), levels= c(“Normal”,”Tinggi”))), count=c(1535,393,146,47)) > tabel.pasien Kolesterol Diastolik count1 Normal Normal 15352 Tinggi Normal 3933 Normal Tinggi 1464 Tinggi Tinggi 47>library(MASS) >fit.Saturated<-loglm(count~Kolesterol*Diastolik,data= tabel.pasien,param=T,fit=T) # Kolesterol*Diastolik> fit.SaturatedCall:loglm(formula = count ~ Kolesterol * Diastolik, data


= tabel.pasien, param = T, fit = T)Statistics: X^2 df P(> X^2)Likelihood Ratio 0 0 1Pearson 0 0 1>fit.Model<-loglm(count~Kolesterol+Diastolik,data= tabel.pasien,param=T,fit=T)> fit.ModelCall:loglm(formula = count ~ Kolesterol + Diastolik, data = tabel.pasien, param = T, fit = T)Statistics: X^2 df P(> X^2)Likelihood Ratio 1.621443 1 0.2028907Pearson 1.680508 1 0.1948570

Untuk membandingkan beberapa model, yaitu agar diperoleh nilai Devians dapat digunakan perintah berikut ini

> anova(fit.Saturated,fit.Model)LR tests for hierarchical log-linear modelsModel 1: count ~ Kolesterol + Diastolik Model 2: count ~ Kolesterol * Diastolik Deviance df Delta(Dev) Delta(df) P(> Delta(Dev)Model 1 1.621443 1 Model 2 0.000000 0 1.621443 1 0.20289Saturated 0.000000 0 0.000000 0 1.00000

Untuk mendapatkan nilai penaksir untuk parameter-parameter dalam model loglinear digunakan perintah berikut ini:

> coef(fit.Model)$`(Intercept)`[1] 5.510781$Kolesterol Normal Tinggi 0.6701847 -0.6701847 $Diastolik Normal Tinggi 1.150774 -1.150774 > coef(fit.Saturated)$`(Intercept)`[1] 5.535962


$Kolesterol Normal Tinggi 0.6239838 -0.6239838 $Diastolik Normal Tinggi 1.119085 -1.119085 $Kolesterol.Diastolik DiastolikKolesterol Normal Tinggi Normal 0.05725426 -0.05725426 Tinggi -0.05725426 0.05725426

Berikut ini perintah dalam R untuk kasus kecelakaan kerja pada studi kasus

tabel kontingensi tiga dimensi yang telah dibahas dalam Bab 5.

> #A: lokasi

> #B: klasifikasi

> #C: status

> library(MASS)

> table.kecelakaan<-data.frame(expand.grid(lok

asi=c(“1”,”2”,”3”,”4”,”5”,”6”),

+ klasifikasi=c(“act”,”cond”),status=c(“complete”,

”late”)),

+ Count=c(38,121,44,28,195,30,44,219,30,91,267,76,

27,67,32,13,82 ,15,20,118,16,46,141,63))

#Model (ABC)

> fit.ABC<-loglm(count~status*klasifikasi*lokasi,dat

a=table.kecelakaan,param=T,fit=T)

#Model (A, B, C)

> fit.A.B.C<-loglm(count~status+klasifikasi+lokasi,

data=table.kecelakaan,param=T,fit=T)

#Model (AB,AC,BC)

> fit.AB.AC.BC<-update(fit.ABC,.~.-

status:klasifikasi:lokasi)

#Model (AB,C)

> fit.AB.C<-update(fit.A.B.C,.~.+lokasi:klasifikasi)

#Model (AC,B)

> fit.AC.B<-update(fit.A.B.C,.~.+lokasi:status)


#Model (BC,A)

> fit.BC.A<-update(fit.A.B.C,.~.+klasifikasi:status)

#Model (AB,AC)

> fit.AB.AC<-update(fit.AB.AC.BC,.~.-

klasifikasi:status)

#Model (AC,BC)

> fit.AC.BC<-update(fit.AB.AC.BC,.~.-

lokasi:klasifikasi)

#Model (AB,BC)

> fit.AB.BC<-update(fit.AB.AC.BC,.~.-lokasi:status)

> fit.AB.BC

Call:loglm(formula = count ~ status + klasifikasi + lokasi + status:klasifikasi + klasifikasi:lokasi, data = table.kecelakaan, param = T, fit = T)Statistics: X^2 df P(> X^2)Likelihood Ratio 13.10102 10 0.2180785Pearson 13.31919 10 0.2063688> fit.AB.AC.BCCall:loglm(formula = count ~ status + klasifikasi + lokasi + status:klasifikasi + status:lokasi + klasifikasi:lokasi, data = table.kecelakaan, param = T, fit = T)Statistics: X^2 df P(> X^2)Likelihood Ratio 5.612484 5 0.3457692Pearson 5.573430 5 0.3499611

> #Tabel nilai harapan masing-masing model

> data.frame(table.kecelakaan[,-4]

, A B C = c ( a p e r m ( f i t t e d ( f i t . A B C ) ) ) , A B .

AC.BC=c(aperm(fitted(fit.AB.AC.BC))) ,AB.

A C = c ( a p e r m ( f i t t e d ( f i t . A B . A C ) ) ) , A B .

BC=c(aperm(fitted(fit.AB.BC)))

,AC.BC=c(aperm(fitted(fit.AC.BC))),A.B.C=c(aperm(fitt

ed(fit.A.B.C))))


No Lokasi klasifikasi status ABC AB.AC.BC AB.AC AB.BC AC.BC A.B.C

1 1 Act complete 38 41.85299 41.31783 42.83237 31.60778 31.77658

2 2 Act complete 121 123.7196 121.7524 123.8844 131.0566 129.3233

3 3 Act complete 44 46.58926 46.09836 50.08092 28.52409 30.05227

4 4 Act complete 28 27.90785 27.41011 27.01734 45.86982 43.84676

5 5 Act complete 195 189.4127 186.8234 182.5318 178.0828 168.7361

6 6 Act complete 30 26.51705 25.92391 29.65318 40.85883 45.32474

7 1 cond complete 44 40.14701 40.68217 41.13882 50.39222 51.93543

8 2 cond complete 219 216.2804 218.2476 216.6216 208.9434 211.3651

9 3 cond complete 30 27.41074 27.90164 29.56852 45.47591 49.11723

10 4 cond complete 91 91.09215 91.58989 88.06278 73.13018 71.66284

11 5 cond complete 267 272.5873 275.1766 262.26 283.9172 275.7812

12 6 cond complete 76 79.48296 80.07609 89.34836 65.14117 74.07844

13 1 Act late 27 23.14701 23.68217 22.16763 17.33125 17.19105

14 2 Act late 67 64.28036 66.24762 64.11561 68.21875 69.96358

15 3 Act late 32 29.41074 29.90164 25.91908 17.7 16.2582

16 4 Act late 13 13.09215 13.58989 13.98266 21.75625 23.72099

17 5 Act late 82 87.58735 90.17664 94.46821 82.23125 91.28582

18 6 Act late 15 18.48295 19.07609 15.34682 28.7625 24.52057

19 1 cond late 20 23.85299 23.31783 22.86118 29.66875 28.09694

20 2 cond late 118 120.7196 118.7524 120.3784 116.7813 114.348

21 3 cond late 16 18.58926 18.09836 16.43148 30.3 26.5723

22 4 cond late 46 45.90785 45.41011 48.93722 37.24375 38.76941

23 5 cond late 141 135.4127 132.8234 145.7401 140.7688 149.1969

24 6 cond late 63 59.51704 58.92391 49.65164 49.2375 40.07625

Program berikut berdasar data kecelakaan lalu lintas pada studi kasus tabel

kontingensi empat dimensi yang telah dibahas dalam Bab 5.

>table.kecelakaan<-data.frame(expand.grid(bel

t=c“Ya”,”Tidak”),location=c(“Urban”,”Rural”),

gender=c(“Wanita”,”Laki”), injury= c(“ya”, ”tidak”)),

count=c(7287,11587,3246,6134,10381,10969,6123,

6693,996, 759, 973, 757, 812, 380, 1084, 513))

>library(MASS)


Uji Goodness of Fit untuk model (G,I,L,S):

>fitG.I.L.S<-loglm(count~., data = table.kecelakaan, fit=T, param=T)> fitG.I.L.SCall:loglm(formula = count~., data = table.kecelakaan, fit = T, param = T)Statistics: X^2 df P(> X^2)Likelihood Ratio 2792.771 11 0Pearson 2758.341 11 0

Uji Goodness of Fit untuk model (GI,GL,GS,IL,IS,LS):

>fitGI.GL.GS.IL.IS.LS<-update(fitG.I.L.S, .~.^2, data= table.kecelakaan, fit=T, param=T) > fitGI.GL.GS.IL.IS.LSCall:loglm(formula = count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury, data = table.kecelakaan, fit = T, param = T)

Statistics: X^2 df P(> X^2)Likelihood Ratio 23.35099 5 0.000289199Pearson 23.37517 5 0.000286131

Uji Goodness of Fit untuk model (GIL,GIS,GLS,ILS) :

>fitGIL.GIS.GLS.ILS<-update(fitG.I.L.S, .~.^3, data= table.kecelakaan, fit=T, param=T) > fitGIL.GIS.GLS.ILSCall:loglm(formula = count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + belt:location:gender + belt:location:injury + belt:gender:injury + location:gender:injury, data = table.kecelakaan, fit = T, param = T)



Uji Goodness of Fit untuk model (GI,GL,GS,IL,IS,LS) :

>fitGI.GL.GS.IL.IS.LS<- loglm(formula = count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury, data = table.kecelakaan, fit = T, param = T)> fitGI.GL.GS.IL.IS.LSCall:loglm(formula = count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury, data = table.kecelakaan, fit = T, param = T)


Uji Goodness of Fit untuk model (GIL,GS,IS,LS) :

>fitGIL.GS.IS.LS<- loglm(formula = count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + gender:injury: location , data = table.kecelakaan, fit = T, param = T)> fitGIL.GS.IS.LSCall:loglm(formula = count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + gender:injury:location, data = table.kecelakaan, fit = T, param = T)



Uji Goodness of Fit untuk model (GIS,GL,IL,LS) :

> fitGIS.GL.IL.LS<- loglm(formula = count ~ belt +location + gender + injury + belt:location +belt:gender + belt:injury + location:gender +location:injury + gender:injury + gender:injury:belt , data = table.kecelakaan, fit = T, param = T)> fitGIS.GL.IL.LSCall:loglm(formula = count ~ belt + location + gender +injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + gender:injury:belt, data = table.kecelakaan, fit = T, param = T)


Uji Goodness of Fit untuk model (GLS,GI,IL,IS):

>fitGLS.GI.IL.IS<- loglm(formula = count ~ belt +location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + gender:belt:location , data= table.kecelakaan, fit = T, param = T)


Uji Goodness of Fit untuk model (ILS,GI,GL,GS) :

>fitILS.GI.GL.GS<- loglm(formula = count ~ belt +location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + injury:location:belt , data= table.kecelakaan, fit = T, param = T)> fitGLS.GI.IL.ISCall:loglm(formula = count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + gender:belt:location, data = table.kecelakaan, fit = T, param = T)


Uji Goodness of Fit untuk model (GIL,GLS,IS) :

>fitGIL.GLS.IS<- loglm(formula = count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + injury:location:belt + gender:belt:location , data = table.kecelakaan, fit = T, param = T)> fitGIL.GLS.ISCall:loglm(formula = count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + injury:location:belt + gender:belt:location, data = table.kecelakaan, fit = T, param = T)



Untuk menghitung dissimilarity index dapat digunakan perintah sebagai berikut :

>fit.array.GLS<-fitted(fitGLS.GI.IL.IS)>Fitted.values.GLS <- c(fit.array.GLS) >D.GLS <- sum(abs(table.kecelakaan $count - Fitted.values.GLS))/(2* sum(table.kecelakaan $count))

> D.GLS # dissimilarity index model (GLS.GI.IL.IS)[1] 0.002507358

>fit.array.GIL.GLS<-fitted(fitGIL.GLS.IS)>Fitted.values.GIL.GLS <- c(fit.array.GIL.GLS) >D.GIL.GLS <- sum(abs(table.kecelakaan $count - Fitted.values.GIL.GLS))/(2* sum(table.kecelakaan $count))

> D.GIL.GLS # dissimilarity index model (GIL.GLS.IS)[1] 0.001590224

Statistik Devians yang dipakai untuk membandingkan dua model dapat diperoleh menggunakan perintah berikut :

>anova(fitG.I.L.S, fitGI.GL.GS.IL.IS.LS, fitGIL.GIS.GLS.ILS) LR tests for hierarchical log-linear models Model 1: count ~ belt + location + gender + injury Model 2: count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury Model 3: count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + belt:location:gender + belt:location:injury + belt:gender:injury + location:gender:injury

Deviance df Delta(Dev) Delta(df) P(> Delta(Dev)

Model 1 2792.76245 11 Model 2 23.35137 5 2769.41113 6 0.00000 Model 3 1.32489 1 22.02648 4 0.00020


Saturated 0.00000 0 1.32489 1 0.24972

Statistik Odds Ratio untuk pada model loglinear dapat diperoleh menggunakan perintah berikut ini : >fitted(fitGI.IL.IS.GLS) >fit.array.GLS<-fitted(fitGI.IL.IS.GLS) >odds.ratio<-function(x) x[1,1]*x[2,2]/(x[2,1]*x[1,2]) >apply(fit.array,c(1,4),odds.ratio)) injury belt Tidak Ya Tidak 1.326766 1.326766 Ya 1.166682 1.166682 >apply(fit.array,c(2,4),odds.ratio) injury location Tidak Ya Urban 0.6614758 0.6614758 Rural 0.5816641 0.5816641 >apply(fit.array,c(3,4),odds.ratio) injury gender Tidak Ya Wanita 1.170603 1.170603 Laki 1.029362 1.029362 >apply(fit.array,c(1,2),odds.ratio) Urban Rural Tidak 0.5799410 0.5799411 Ya 0.5799411 0.5799412 >apply(fit.array,c(1,3),odds.ratio) Wanita Laki Tidak 2.134127 2.134127 Ya 2.134127 2.134127 >apply(fit.array,c(2,3),odds.ratio) Wanita Laki Urban 0.4417123 0.4417123 Rural 0.4417122 0.4417123


REFERENSI

Agresti, A. (1984). Analysis of Ordinal Categorical Data. New York: Wiley.

Agresti, A. (2002). Categorical Data Analysis (2nd ed.). New York, NY: Wiley-

Interscience. doi: 10.1002/0471249688

Bishop, Y. M., Fienberg, S. E., dan Holland, P. W. (1989). Discrete Multivariate

Analysis: Theory and Practice. Cambridge, MA: MIT Press.

Campbell, I. (2007), Chi-squared and Fisher-Irwin ests of two-by-two tables with

small sample recommendations. Statistics in Medicine, 26, 3661-3675,

Christensen, R. (1997). Log-linear Models and Logistic Regression (2nd ed.). New

York, NY: Springer. doi: 10.1007/b97647

Cochran, W. G. (1952). The χ 2 test of goodness-of-fit. Ann. Math. Statist. 23:

315-345.

Cochran, W. G. (1954). Some methods of strengthening the common χ 2 tests.

Biometrics 10:

417-451.

Davis, L. J. (1968). Exact tests for 2 × 2 contingency tables. The American

Statistician, 40(2), 139-141. doi: 10.2307/2684874

Edwards, D. (2000). Introduction to Graphical Modeling (2nd ed.). New York, NY:

Springer-Verlag. doi: 10.1007/978-1-4612-0493-0

Edwards, D. dan Kreiner, S. (1983). The analysis of contingency tables by

graphical models. Biometrika, 70, 553-565.

Fisher, R.A. (1922). On the mathematical foundations of theoretical statistics.

Philosophical Transactions of the Royal Society A: Mathematical, Physical and

Engineering Sciences, 222 (594-604), 309-368. doi:10.1098/rsta.1922.0009

Fisher, R.A. (1925). Statistical Methods for Research Workers. New York: Hafner

Press.


Fisher, Ronald A. (1936). The use of multiple measurements in taxonomic

problems. Annals of Eugenics, 7, 179-188.

Friendly, M. (2017 ). Working with categorical data with R and the vcd and

vcdExtra packages,

https://cran.r-project.org › vignettes › vcd-tutorial diakses tanggal 12 Mei 2019.

Gauraha, N. (2017). Graphical log-linear models: fundamental concepts and

applications. Journal of Modern Applied Statistical Methods, 16(1), 545-577.

doi: 10.22237/jmasm/1493598000

Goodman, L. A. (1970). The multivariate analysis of qualitative data: Interaction

among multiple classifications. Journal of the American Statistical

Association, 65(329), 226-256. doi: 10.2307/2283589

Goodman, L. A. (1971a). The analysis of multidimensional contingency

tables: Stepwise procedures and direct estimation methods for building

models for multiple classifications. Technometrics, 13(1), 31-66. doi:

10.2307/1267074

Goodman, L. A. (1971b). The partitioning of chi-square, the analysis of marginal

contingency tables, and the estimation of expected frequencies in

multidimensional contingency tables. Journal of the American Statistical

Association, 66(334), 339-344. doi: 10.2307/2283933

Goodman, L. A., dan Kruskal W.H. (1979). Measures of Association for Cross

Classifications. New York: Springer-Verlag Ž

Irwin, J.O. (1949). A note on the subdivision of χ2 into components. Biometrika:

36, 130-134.

Kendall, M. G. (1945). The treatment of ties in rank problems. Biometrika :33,

239-251.

Kendall, M., dan A. Stuart. (1979). The Ad®anced Theory of Statistics, Vol. 2;

Inference and Relationship, 4th ed. New York: Macmillan.

Kruskal, W. H. (1958). Ordinal measures of association. J. Amer. Statist. Assoc. 53:

814-861.


Lauritzen, S. L. (1996). Graphical models (2nd ed.). New York, NY: Oxford

University Press, Inc.

Myers, R.H. (1990) Classical and Modern Regression with Applications.

PWS-Kent Publishing, Boston.

Meyer D, Zeileis A, dan Hornik K, (2007),The Strucplot Framework: Visualizing

Multi-way Contingency Tables with vcd, Journal of Statistical Software, Vol

17. Issue 3. doi: 10.18637/jss.v017.i03

Nisak S.K. (2017). Penerapan Klasifikasi Decision Tree dan Model Log Linear

Dalam Penanganan Kecelakaan Kerja. Skripsi, FMIPA Universitas Islam

Indonesia.

Pearson, K. (1904). Mathematical Contributions to the Theory of Evolution.

London, UK: Dulau and Co.

Pearson, K. (1913). On the probable error of a correlation coefficient as found

from a fourfold table. Biometrika 9: 22-27.

Tabachnick, B. G., dan Fidell, L. S. (1989). Using Multivariate Statistics. New York

Harper & Row, Publishers, Inc.

Wickens, T.D. (1989). Multiway Contingency Tables Analysis for the Social Sciences.

Hillsdale, NJ: Lawrence Erlbaum.

Whittaker, J. (1990). Graphical Models in Applied Multivariate Statistics. New

York: John Wiley and Sons.

Yates F. (1984), Tests of significance for 2 × 2 contingency tables (with discussion)

Journal of the Royal Statistical Society Series A: 147: 426-463.

Yule, G.U. (1900). On the association of attributes in statistics: With illustration

from the material of the childhood society, etc. Philosophical Transactions

of the Royal Society, Series A, 194, 257-319.

Yule, G. U. (1912). On the methods of measuring association between two

attributes. J. Roy. Statist. Soc. 75: 579-642.


GLOSARIUM

Data : “keterangan“ yang berhasil dicatat atau direkam mengenai suatu hal

Fungsi likelihood : merupakan probabilitas yang didefinisikan sebagai fungsi dari parameter

Maximum Likelihood Estimator

: metode untuk mencari penaksir parameter yang dengan memaksimumkan fungsi likelihood berdasarkan data sampel

matrik Hessian : matrik definet negative yang elemen-elemenya merupakan derivative kedua fungsi log likelihood

Parameter : sebarang nilai yang menjelaskan ciri populasiPopulasi : keseluruhan objek pengamatan yang menjadi

perhatian yang jumlahnya bisa tak terhingga maupun terhingga

P-value : nilai probababilitas kesalahan tipe I terkecil sedemikian hingga dapat menolak hipotesis nol

Sampel : suatu himpunan bagian dari populasiStatistik : sebarang nilai yang menjelaskan ciri sampelTabel kontingensi : merupakan satu bentuk distribusi frekuensi untuk

dua variabel atau lebihVariabel : suatu karakteristik yang nilainya antar objek

pengamatan atau antar waktu pada objek yang sama bisa berbeda beda

Variabel diskrit : variabel yang mempunyai kemungkinan nilai terbatas (anggota domainnya terbatas)

Variabel kontinu : variabel yang kemungkinan nilainya tak terhitung (bagian dari bilangan real)

Variabel dependen : variabel yang nilainya dipengaruhi oleh variabel yang lain. yaitu variabel independen

Variabel independen

: variabel yang nilainya berpengaruh terhadap nilai variabel yang lain.

Variabel random : Variabel yang nilai berupa bilangan real dan mengacu pada fungsi probabilitas yang merupakan observasi dari suatu eksperimen

Ukuran asosisi : Untuk mengetahui derajad keeratan hubungan antara dua faktor


INDEKS SUBJEK

Binomial, 17, 18

Cochran–Mantel–Haenszel, 28, 29, 92

d Somers, 31

dissimilarity, 62, 70, 76, 98, 99

fungsi densitas, 11, 12

fungsi distribusi, 18

fungsi peluang, 13

Generalized Linear Model, 32

Goodman-Kruskal, 30, 31

goodness-of-fit, 25

Koefisien kontigensi Kendall-Stuart, 29

Koefisien kontigensi kuadrat tengah, 29

Koefisien kontigensi Pearson, 29

Koefisien kontigensi tau-Kendall, 30

likelihood ratio, 25

matrik Hessian, 104

Maximum Likelihood Estimator, 8, 11, 104

model jenuh, 37

parameter, 7, 8, 9, 10, 11, 12, 26, 27, 35, 37, 62, 104

Pearson Chi-Kuadrat, 25

Poisson, 15, 17, 18


Probabilitas bersama, 20

Probabilitas bersyarat, 21

Probabilitas marginal, 20, 21

P-value, 23, 75, 92, 104

saling independen, 25, 26, 34

sampel, 8, 9, 11, 12, 20, 26, 29, 62, 76

Statistik Rasio Likelihood, 27

statistika, 77

tabel kontigensi, ii, 5, 20, 25, 28, 29, 30, 32, 33, 62

tabulasi silang, 23, 24

Uji Eksak Fisher’s, 91

Uji Goodness of Fit, 43, 61, 96, 97, 98

Ukuran Assosiasi, 29

variabel, ii, 19, 21, 23, 25, 26, 30, 31, 32, 37, 81, 104

variabel random, 14, 16, 17

analisis tabel kontingensi menggunakan model

Documents