analisis tabel kontingensi menggunakan model
TRANSCRIPT
ANALISIS TABEL KONTINGENSI MENGGUNAKAN MODEL LOGLINEAR
DR. Jaka Nugraha M.Si
Penerbit:
2019
Penulis:
Kampus Terpadu UIIJl. Kaliurang Km 14,5 Yogyakarta 55584 Tel. (0274) 898 444 Ext. 2301; Fax. (0274) 898 444 psw 2091http://gerai.uii.ac.id;e-mail: [email protected]
Anggota IKAPI, Yogyakarta
Penerbit:
ANALISIS TABEL KONTINGENSI MENGGUNAKAN MODEL LOGLINEAR
©2019 Penulis
Hak cipta dilindungi Undang-Undang.Dilarang memperbanyak atau memindahkan seluruh atau sebagian isi buku ini dalam bentuk apapun, baik secara elektronik ataupun mekanik termasuk memfotokopi, tanpa izin dari Penulis.
Cetakan IDesember 2019 M / Jumadil awal 1441 H
Penulis: Jaka Nugraha
ISBN : 978-602-450-437-3E-ISBN : 978-602-450-436-6
Ukuran : 16 x 23Jumlah Halaman : xiv + 156
v
KATA PENGANTAR
Model Loglinear merupakan model statistik yang paling populer dan penting
untuk analisis data kategorikal. memiliki aplikasi dalam banyak bidang ilmiah,
mulai dari ilmu sosial dan biologi, hingga masalah kedokteran, penambangan
data, pemrosesan bahasa, dan genetika. Popularitas model Loglinear telah
meningkat pesat dalam beberapa dekade terakhir karena meningkatnya
kebutuhan untuk menganalisis data dalam bentuk tabel kontingensi yang
besar.
Analisis dengan model log linear dilakukan untuk mempelajari pola
assosiasi antara sekelompok variabel. Disamping itu juga digunakan untuk
memperkirakan banyaknya observasi yang diharapkan dalam tiap sel tabel
kontingensi. Selanjutnya berdasarkan nilai harapan itu dapat dihitung
beberapa statistik penting seperti proporsi, statistik rasio kecenderungan.
Analisis Loglinear merupakan pengembangan dari analisis tabel kontingensi.
Model Loglinear dapat digunakan untuk menganalisa hubungan antara
beberapa variabel kategori Analisis dengan model Loglinear dilakukan untuk
mempelajari pola assosiasi antara sekelompok variabel
Dalam buku ini, pembahasan diawali dengan penjelasan data kategorik
dan penyajian datanya. Dalam Bab 2, dijelaskan distribusi probabilitas
yang menjadi dasar inferensi model Loglinear. Model Loglinear merupakan
pengembangan dari analisis Crosstab, sehingga pada Bab 3 dibahas uji
independensi pada tabel kontingensi dimensi dua. Pembahasan Loglinear
untuk tabel kontingensi dimensi dua disampaikan pada Bab 4. Pembahasan
model Loglinear dilanjutkan pada Bab 5 untuk tabel kontingensi multidimensi.
Pada Bab 6 berisi penjelasan bagaimana menggunakan software R untuk
membantu perhitungan dalam rangka analisis data kategorik, khususnya
analisis menggunakan model Loglinear.
Pembaca harus memiliki pemahaman yang cukup yang meliputi materi
metode statistika yang mencakup estimasi parameter dan uji signifikansi
vi
dan model regresi. Buku ini akan membantu peneliti melakukan analisis
yang berkaitan dengan respon kategorik yang banyak ditemukan di bidang
sosial, perilaku, dan ilmu-ilmu biomedis, serta dalam kesehatan masyarakat,
pemasaran, pendidikan, ilmu biologi dan pertanian, dan kontrol kualitas
industri.
Penulis mengucapkan terimakasih kepada Kementrian Riset, Teknologi dan
Pendidikan Tinggi atas dukungan berupa hibah Penelitian Dasar Unggulan
Perguruan Tingg (PDUPT) tahun 2019. Terima kasih juga untuk Universitas
Islam Indonesia yang telah memfasilitasi penerbitan buku ini. Semoga buku
ini membantu mahasiswa dalam memahami analisis data kategorik dan
membantu para peneliti yang berkaitan dengan data kategori.
Yogyakarta, 16 Oktober 2019
Penulis
Jaka Nugraha
Jurusan Statistika UII
vii
DAFTAR ISI
KATA PENGANTAR .................................................................................v
DAFTAR ISI ..............................................................................................vii
DAFTAR TABEL .......................................................................................x
DATA KATEGORIK DAN TABEL KONTINGENSI .....................................11.1 Data dan Variabel ..................................................................................1
1.2 Data Kategori dan Data Numerik .....................................................2
1.3 Data per Kasus dan Data Frekuensi ...............................................3
1.4 Variabel Eksplanatori dan Variabel Respon..................................5
1.5 Tabel Kontingensi ..................................................................................6
DISTRIBUSI BINOMIAL, MULTINOMIAL DAN POISSON .......................112.1 Distribusi Binomial ...............................................................................11
2.2 Pendekatan Distribusi Normal atas Distribusi Binomial ..........16
2.3 Distribusi Multinomial ..........................................................................19
2.4 Distribusi Poisson ...................................................................................22
2.4.1 Pendekatan Distribusi Poisson untuk Distribusi
Binomial ........................................................................................24
2.4.2 Menghitung Nilai Peluang Menggunakan Excel dan
Program R .....................................................................................24
UJI INDEPENDENSI PADA TABEL DIMENSI DUA ...................................273.1 Struktur Data dan Probabilitas pada Tabel 2x2 ..........................28
3.2 Statistik Uji Independen pada Tabel 2x2 ......................................31
3.3 Analisis Tabel Kontingensi bxk ........................................................33
3.4 Struktur Data dan Probabilitas Tabel Kontingensi bxk ............35
3.4.1 Statistik Pearson Chi-square ..................................................37
3.4.2 Statistik Rasio Likelihood ........................................................39
3.4.3 Uji Independensi Pendekatan Distribusi Normal ...........39
3.4.4 Contoh Data Tabel bxk .............................................................40
3.5 Uji Cochran-Mantel-Haenszel untuk Tabel 2x2xJ .......................41
3.6 Ukuran Assosiasi .....................................................................................42
viii
MODEL LOGLINEAR PADA TABEL KONTINGENSI DIMENSI DUA .........474.1 Pendahuluan ..........................................................................................47
4.2 Struktur Tabel Kontingensi Dua Arah .............................................48
4.3 Struktur Model Loglinear Dua Faktor ............................................51
4.3.1 Model Independen ...................................................................51
4.3.2 Model Lengkap ...........................................................................54
4.3.3 Visualisasi Model pada Tabel 2x2 .........................................56
4.4 Estimasi Parameter dan Uji Goodness of Fit .................................. 63
4.4.1 Estimasi Parameter Efek Faktor. ...........................................65
4.4.2 Estimasi Parameter pada Distribusi Multinomial ..........66
4.5 Contoh Kasus Tabel 2x2. ....................................................................68
4.6 Contoh Kasus Tabel bxk. ....................................................................71
MODEL LOGLINEAR PADA TABEL KONTENGENSI MULTIDIMENSI .....755.1 Pendahuluan ..........................................................................................75
5.2 Paradoks Simpson ................................................................................76
5.3 Model Loglinier Tiga Dimensi ............................................................79
5.3.1 Model Model lengkap (saturated) .......................................81
5.3.2 Model Mutual independence ................................................82
5.3.3 Model Partial independence .................................................. 82
5.3.4 Conditional Independence ....................................................84
5.3.5 Model Interaksi Dua Faktor ....................................................85
5.3.6 Maximum Likelihood Estimator (MLE) ..................................85
5.3.7 Uji Goodness of Fit .....................................................................87
5.3.8 Pemilihan Model Terbaik .........................................................90
5.3.9 Contoh Kasus 1. .........................................................................91
5.3.10 Contoh Kasus 2. ........................................................................95
5.4 Membangun model ..............................................................................102
5.5 Model Loglinear pada Tabel Kontingensi 4 Dimensi. ................104
5.5.1 Interpretasi Model .....................................................................104
5.5.2 Visualisasi Grafis ........................................................................106
5.5.3 Contoh Kasus Model Loglinear Empat Dimensi. ...........108
MENGELOLA DAN MENGANALISIS DATA KATEGORIKMENGGUNAKAN SOFTWARE R .............................................................113
6.1 Pendahuluan............................................................................................113
ix
6.2 Input Data ................................................................................................115
6.3 Vektor .........................................................................................................118
6.4 Array dan Matrik ....................................................................................118
6.5 Frame ..........................................................................................................119
6.6 Membuat dan Memanipulasi Tabel Frekuensi ...........................124
6.6.1 Case form ......................................................................................125
6.6.2 Frequency form .........................................................................126
6.6.3 Table form. ...................................................................................127
6.6.4 Fungsi structable( ) ....................................................................128
6.6.5 Fungsi table( ) ........................................................................... 129
6.6.6 Tabel Marginal ...........................................................................130
6.6.7 Pengurangan Level Tabel. ......................................................132
6.6.8 Konversi Format Data. .............................................................133
6.7 Impor Data dalam R ..............................................................................134
6.8 Grafik Distribusi Chi-square ................................................................137
6.9 Uji Independensi dalam Tabel Kontingensi Menggunakan
R ...................................................................................................................139
6.10 Model Loglinear ......................................................................................142
REFERENSI ..............................................................................................159
GLOSARIUM ...........................................................................................162
INDEKS SUBJEK ......................................................................................164
x
DAFTAR TABEL
Tabel 1.1 Tipe-tipe variabel kategori .......................................................................... 2
Tabel 1.3. Data dengan format Frekuensi, ................................................................ 5
Tabel 1.4. Data Kasus 1 .................................................................................................... 6
Tabel 1.5 Data Kasus 2 ..................................................................................................... 6
Tabel 1.6. Tabel kontingensi dua arah ....................................................................... 7
Tabel 1.7. Proporsi pada tabel kontingensi dua arah ........................................... 8
Tabel 2.1. Menghitung probabilitas dalam program Excel ................................ 25
Tabel 2.2. Operasi distribusi dalam program R ....................................................... 25
Tabel 3.1. Tabel kontingensi Faktor A dan Faktor B .............................................. 28
Tabel 3.2. Struktur parameter π .................................................................................... 29
Tabel 3.3. Struktur statistik p ......................................................................................... 29
Tabel 3.4. Tabel kontingensi Faktor A dan Faktor B .............................................. 32
Tabel 3.5. Tabel kontingensi dua dimensi untuk Faktor A dan Faktor B ........ 35
Tabel 3.6. Proporsi pada tabel kontingensi dua arah ........................................... 36
Tabel 3.7. Data gender dan partai afiliasi .................................................................. 40
Tabel 3.8. Tabel kontingensi 2x2xJ untuk faktor A, B dan C ............................... 41
Tabel 4.1.Tabel kontingensi bxk Faktor A dan Faktor B untuk data
populasi ........................................................................................................... 49
Tabel 4.2.Tabel distribusi bersama Faktor A dan Faktor B untuk data
populasi ........................................................................................................... 49
Tabel 4.3. Tabel kontingensi bxk Faktor A dan Faktor B untuk data
sampel ............................................................................................................. 50
Tabel 4.4. Sebaran parameter pada kondisi tidak ada pengaruh faktor A
dan B. ................................................................................................................ 56
Tabel 4.5. Sebaran parameter pada kondisi tidak ada pengaruh faktor A
dan terdapat pengaruh B........................................................................ 57
Tabel 4.6. Sebaran parameter pada kondisi terdapat pengaruh faktor A
dan tidak terdapat pengaruh B ............................................................. 58
Tabel 4.7. Terdapat pengaruh faktor A dan pengaruh faktor B tetapi tidak
ada efek interaksi ......................................................................................... 59
xi
Tabel 4.8. Sebaran parameter pada kondisi terdapat pengaruh faktor
A dan faktor B ................................................................................................ 60
Tabel 4.9. Sebaran parameter pada kondisi terdapat pengaruh faktor
interaksi AB .................................................................................................... 62
Tabel 4.10. Penaksir MLE untuk parameter λ, {λiA }, {λ
jB } dan {λ
ijAB }.................. 67
Tabel 4.11. Kadar Kolesterol dan tekanan darah Diastolik ................................. 68
Tabel 4.12. Proporsi kolesterol dan tekanan darah ............................................... 68
Tabel 4.13. Nilai frekuensi harapan dan observasi ............................................... 69
Tabel 4.14. Nilai statistik Chi-square Pearson dan Likelihood rasio ................ 70
Tabel 4.15. Data afiliasi Partai dan Profesi................................................................. 71
Tabel 4.16. Estimasi parameter model loglinear pada model lengkap
dengan SPSS .................................................................................................. 73
Tabel 5.1. Analisis hasil keseluruhan. .......................................................................... 77
Tabel 5.2.Analisis produksi menurut perusahaan .................................................. 77
Tabel 5.3.Data pengamatan sukses menurut jenis kelamin dan
perlakuan ........................................................................................................ 78
Tabel 5.4. Data pengamatan sukses menurut kelompok perlakuan .............. 78
Tabel 5.5. Tabel Kontingensi Tiga dimensi ............................................................... 79
Tabel 5.6. Struktur Probabilitas Tabel Kontingensi Tiga Dimensi .................... 80
Tabel 5.7. Derajat Bebas untuk Loglinear 3 Dimensi ............................................ 81
Tabel 5.8. Minimal Sufficient Statistics pada Model Loglinear ............................ 86
Tabel 5.9. MLE untuk parameter pada masing masing model. ........................ 87
Tabel 5.10. Hipotesis dan Derajat Bebas untuk Loglinear 3 Dimensi ............. 88
Tabel 5.11. Data observasi pasien ............................................................................... 90
Tabel 5.12. Nilai harapan pada model independen ............................................. 91
Tabel 5.13. Data Cholesterol dan Diastolic pada P1 ............................................. 91
Tabel 5.14. Data Cholesterol dan Diastolic pada P2 .............................................. 92
Tabel 5.15. Nilai Harapan Model (CP, DP). ................................................................. 92
Tabel 5.16. Statistic Pearson dan Rasio Likelihood ............................................... 92
Tabel 5.17. Hasil uji Goodness of Fit ........................................................................... 93
Tabel 5.18.Penanganan Kecelakaan Kerja Status, Klasifikasi dan Lokasi ....... 94
Tabel 5.19. Hasil uji Chi-Square .................................................................................... 94
Tabel 5.20. Estimasi Frekuensi Harapan .................................................................... 95
Tabel 5.21. Estimasi Frekuensi Harapan (lanjutan) ............................................... 95
Tabel 5.22. Uji goodness of fit model Log Linear ................................................... 97
xii
Tabel 5.23. Analisis Residual .......................................................................................... 99
Tabel 5.24. Uji Simultan untuk masing-masing level interaksi. ......................... 102
Tabel 5.25. Interpretasi model loglinear dimensi empat .................................... 105
Tabel 5.26. Nilai harapan model loglinear empat dimensi ................................ 107
Tabel 5.27. Data kecelakaan. ........................................................................................ 107
Tabel 5.28. Nilai G2 pada beberapa model Loglinear ........................................... 108
Tabel 5.29. Inferensi efek interaksi tiga faktor ......................................................... 109
Tabel 6.1. Paket yang tersedia dalam situs r-project. ........................................... 115
Tabel 6.2. Konversi format data .................................................................................... 133
Tabel 6.3. Data Sekolah ................................................................................................... 134
xiii
DAFTAR GAMBAR
Gambar 2.1. Grafik fungsi likelihood ............................................................................14
Gambar 2.2. Grafik fungsi densitas dari distribusi Normal ...................................17
Gambar 2.3. Grafik fungsi densitas dari distribusi Normal Standar ..................18
Gambar 2.4. Distribusi Binomial pada p=0.2 dan beberapa ukuran
n (a) n=10 (b) n=30 (c) n=100 (d) n=100............................................19
Gambar 2.5. Grafik distribusi Poisson pada nilai λ=0.5, λ=1 dan λ=4 ...............23
Gambar 3.1. Distribusi Chi-square .................................................................................38
Gambar 4.1. Model independen, tidak ada pengaruh faktor A dan
Faktor B. .........................................................................................................57
Gambar 4.2. Model independen, tidak ada pengaruh faktor A dan
Faktor B. .........................................................................................................58
Gambar 4.3. Model independen, terdapat pengaruh faktor A tetapi
tidak terdapat pengaruh Faktor B. .......................................................59
Gambar 4.4. Model independen, terdapat pengaruh faktor A dan
pengaruh Faktor B. ....................................................................................60
Gambar 4.5. Model lengkap, terdapat pengaruh faktor interaksi AB. ..............61
Gambar 4.6. Grafik profesi dan afiliasi partai .............................................................72
Gambar 5.1. Sketsa model lengkap. ..........................................................................82
Gambar 5.2. Sketsa model independen ......................................................................82
Gambar 5.3. Sketsa model partial independen ......................................................83
Gambar 5.4. Sketsa model partial independen ......................................................84
Gambar 5.5. Scatterplot Nilai Residual berdasarkan Nilai Estimasi
Frekuensi Harapan .....................................................................................102
Gambar 5.6. Visualisasi model loglinear empat dimensi. .....................................107
D ata k at e g o r i k d a n ta b e l k o n t i n g e n s i 1
1. DATA KATEGORIK DAN TABEL KONTINGENSI
Dalam Kamus Besar Bahasa Indonesia (KBBI), kategori diartikan sebagai
bagian dari sistem klasifikasi (golongan, jenis pangkat, dan sebagainya).
Kategori mempunyai makna yang berbeda dalam kontek yang berbeda. Akan
dijelaskan dulu makna kategori yang berkaitan dengan data. Dalam bab ini
dibahas (a) tipe variabel kategori yaitu: biner, nominal dan ordinal. (b) data
per kasus dan data frekuensi (c) perbedaan antara variabel eksplanatori dan
variabel respons.
1.1 Data dan Variabel
Hasil pengamatan terhadap suatu objek tertentu jika dicatat atau direkam
maka akan diperoleh data terkait dengan objek tersebut. Data merupakan
“keterangan“ yang berhasil dicatat atau direkam mengenai suatu objek
pengamatan. Masing-masing objek dilakukan pengamatan terhadap atribut
yang dimiliki oleh objek tersebut. Atribut atas objek yang diamati inilah
yang biasa disebut dengan variabel. Jadi data merupakan kumpulan hasil
pengamatan terhadap objek mengenai atribut-atribut yang dimiliki oleh
masing-masing objek. Objek dan variabel yang diamati ditentukan oleh
peneliti. Misalnya
a. Data Mahasiswa,
Objeknya adalah mahasiswa pada program studi atau universitas tertentu.
Atribut atau variabel yang dapat diamati misalnya alamat, usia, agama,
nilai matakuliah, Indeks Prestasi Semester (IPS) dan lain sebagainya.
b. Data Kependudukan.
Objeknya adalah desa. Variabel yang diamati adalah jumlah penduduk,
jumlah laki-laki, jumlah wanita, jumlah kelahiran, jumlah kematian dan
lain sebagainya
2 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
c. Data Hasil Pemilihan Umum 2019.
Objeknya adalah tempat pemiliha suara (TPS). Variabel yang diamati
misanya jumlah pemilih, jumlah pemilih syah, jumlah pemilih masing-
masing kandidat, alamat TPS dan lain sebagainya.
Variabel-variabel inilah yang memuat data-data yang akan digunakan untuk
keperluan analisis dan mendeskripsikan populasi, dan diintrepetasikan dalam
laporan atau publikasi.
1.2 Data Kategori Dan Data Numerik
Variabel kategori adalah variabel yang kemungkinan hasil pengukurannya
berupa klasifikasi atas objek tersebut, dapat dikelompokan, dapat berurut
maupun tidak berurutan. Variabel numerik adalah variabel yang kemungkinan
hasil pengukurannya berupa numerik atau bilangan real.
Tabel 1.1 Tipe-tipe variabel kategori
Variabel Kemungkinan hasil pengamatan TipeJenis Kelamin (Gender) “Laki-laki”, “Perempuan” Biner
Agama“Islam”, “Kristen”, “Katolik”, “Hindu”, “Budha”, “Khonghucu”
Nominal
Pendidikan “SD”, “SMP”, “SLTA”, “PT” Ordinal
Jumlah Anak Bilangan cacah : 0, 1, 2 ,…. Cacah
Tinggi Badan Bilangan real positif atau 0<Real Kontinu
Variabel kategori dapat dibedakan lagi menjadi
a. Variabel biner : hasil pengamatan hanya dapat diklasifikasikan
menjadi dua kelompok atau jenis. Contohnya pengamatan sukses/
gagal, siang/malam, laki/perempuan. Variabel biner umumnya
dikodekan dengan angka “0” dan “1”.
b. Vaiabel nominal : hasil pengamatan dapat diklasifikasikan menjadi
lebih dari dua kelompok atau jenis. Variabel nominal merupakan
pengembangan dari variabel biner. Kelas atau kelompok tersebut
hanya mempunyai makna membedakan, tidak mempunyai makna
peringkat. Contohnya pengamatan asal daerah, agama, warna,
moda transportasi.
D ata k at e g o r i k d a n ta b e l k o n t i n g e n s i 3
c. Variabel ordinal : : hasil pengamatan dapat diklasifikasikan menjadi
lebih dari dua kelompok atau jenis dan mempunyai makna urutan.
Contohnya pengamatan mengenai ukuran baju (S, M, L, XL), jenjang
pendidikan (Dasar, Menengah, Atas, Sarjana, Magister, Doktor).
1.3 Data per Kasus dan Data Frekuensi
Penyajian data hasil pengamatan terhadap objek untuk variabel kategorik
dapat dituliskan dalam bentuk
1. Farmat per kasus (Case form), berisi catatan hasil pengamatan
masing-masing objek per individu
2. Format Frekuensi (Frekuensi form), berisi akumulasi pada masing-masing
kategorik. Penyajian data tidak dilakukan per individu, tetapi diklasifikasi
pada masing-masing kategorinya. Pada masing-masing kategori dihitung
jumlah objek yang memililiki sifat anggotanya.
Contoh data dengan format per kasusData rekam medis 100 pasien rawat inap yang menderita kanker leher rahim di
RSUD XXX. Variabel yang diamati
a. Stadium adalah tingkat keparahan penyakit kanker leher rahim
yang diderita oleh pasien yang dibagi menjadi tiga kategori, yaitu
1 : Stadium I, yaitu kanker telah tumbuh dalam leher rahim
namun belum menyebar kemanapun.
2 : Stadium II, yaitu kanker berada dibagian dekat leher rahim
tapi bukan di luar panggul.
3 : Stadium III, yaitu kanker telah menyebar ke jaringan lunak
sekitar vagina dan leher rahim sepanjang dinding panggul, mungkin
juga dapar menghambat aliran urin ke kandung kemih.
b. Usia Pasien (dalam tahun)
c. Paritas, yaitu jumlah kelahiran yang pernah dialami pasien, baik
lahir hidup maupun lahir mati. Paritas dibagi menjadi dua kategori,
yaitu :
0 : Paritas ≤ 3 kali, yaitu jumlah kelahiran kurang dari samadengan
tiga kali.
1 : Paritas > 3 kali (1) yaitu jumlah kelahiran lebih dari tiga kali.
4 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
d. Penyakit Anemia, adalah penyakit yang disebabkan oleh terlalu
banyaknya darah yang keluar atau pendarahan. Anemia dibagi
menjadi dua kategori, yaitu :
0 : Tidak menderita anemia
1 : Menderita anemia
e. Pendidikan, dibagi menjadi dua kelompok kategori :
1 : SD
2 : SMP
3 : SLTA
4 : Diploma/Sarjana
Tabel 1.2 Data rekam medis 100 pasien rawat inap yang menderita kanker leher rahim
No Stadium Usia Paritas Anemia Pendidikan
1 3 54 1 1 2
2 2 53 0 0 3
3 3 48 1 1 1
4 2 35 0 0 1
5 3 60 0 1 3
6 3 55 0 1 3
7 3 59 1 1 2
8 2 44 1 0 4
9 3 75 0 1 1
10 3 43 0 1 1
11 1 47 0 0 2
12 3 57 0 1 2
13 2 40 0 0 4
14 1 48 0 1 3
15 2 53 0 1 1
16 3 59 1 1 3
17 2 52 1 1 2
18 2 45 0 0 1
…. …. …. …. …. ….
94 1 50 0 0 3
95 2 53 0 0 2
D ata k at e g o r i k d a n ta b e l k o n t i n g e n s i 5
96 3 57 1 1 3
97 2 60 1 0 2
98 3 48 0 1 2
99 3 48 0 1 2
100 3 68 1 1 2
Contoh data dengan format frekuensi.
Data pada Tabel 1.2, dapat disajikan dalam format frekuensi untuk variabel
Stadium dan Paritas.
Tabel 1.3. Data dengan format Frekuensi,
No Stadium Paritas Frekuensi
1 1 0 9
2 1 1 1
3 2 0 19
4 2 1 10
5 3 0 21
6 3 1 40
1.4 Variabel Eksplanatori dan Variabel Respon
Dalam pemodelan statistika, variabel dibedakan menjadi dua yaitu variabel
respon (variabel dependen) dan varaibel eksplanatori (independen atau
variabel prediktor). Dalam model linear klasik seperti dalam analisis regresi
dan analisis variansi (ANOVA), variabel respon harus berupa data kontinu.
Ketika variabel respon bukan data kontinu maka analisis regresi klasik tidak
dapat diterapkan dan oleh karena itu metode analis lain dapat digunakan
seperti analisis regresi logistik. Ketika pengamatan melibatkan yang variabel
independennya bersifat kategori dan variabel dependenya bersifat kontinu
maka data hasil pengamatan dapat disajikan sebagaimana pada Tabel 5. Perlu
dibedakan tabel penyajian data pada data kategori (Tabulasi silang) dan data
dengan variabel respon kontinu yang biasa dipakai dalam analisis variansi.
6 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Contoh data kategori vs Kontinu.Kasus 1 (data Kategori): Sebagaimana dalam contoh pada Tabel 1.2, hasil
pengamatan 100 objek dengan variabel teramati yaitu Stadium (A) dan
variabel Paritas (B) yang masing masing merupakan variabel kategori. Variabel
A terdiri darai 3 klasifikasi (A1, A2, A3) dan variabel B terdiri dari 2 klasifikasi
yaitu B1 (“≤ 3 kali” ) dan B2 (“>3 kali”). Hasil pengamatan disajikan dalam Tabel
1.4.
Kasus 2 (data Kontinu): pengamatan untuk mengetahui kekuatan benang
dilihat dari jenis dan kondisi. Variabel Jenis yang diklasifikasikan menjadi tiga
level yaitu A1, A2 dan A3, sedangkan variabel Kondisi diklasifikasikan menjadi
2 level yaitu basah (B1) dan kering (B2). Hasil disajikan dalam Tabel 1.5.
Tabel 1.4. Data Kasus 1 Tabel 1.5 Data Kasus 2
A B
B1 B2
A1 9 1
A2 19 10
A3 21 40
A B
B1 B2
A1 9 1
A2 19 10
A3 21 40
Dalam contoh dikedua tabel, Tabel 1.4 dan Tabel 1.5 disengaja mempunyai
faktor yang sama dan nilai setiap selnya memiliki angka yang sama,
sebenarnya memiliki makna yang berbeda, Pada Tabel 1.4, angka-angka
dalam sel merupakan bilangan cacah yaitu merupakan frekuensi objek yang
memiliki sifat sesuai posisi sel tersebut. Misal fij adalah frekuensi pada baris
ke-i dan kolom ke-j yang berarti cacah objek yang memiliki sifat Ai dan sifat
Bj. Cohtohnya f
21= 19 adalah cacah objek (pasien) yang yang memiliki sifat A2
(stadium II) dan sifat B1 (paritasnya ≤ 3 kali).
Pada Tabel 1.5, angka-angka dalam sel adalah bilangan kontinu (real) yang
merupakan hasil pengukuran Variabel kekuatan benang. Data pada sel (2,
1) sebesar y21
= 9 adalah kekuatan benang jenis A2 dengan kondisi B1. Oleh
karena itu pada kasus 1 (Tabel 4) pengamatan hanya melibatkan dua variabel
kategorik, sedangkan pada kasus 2 (Tabel 5) pengamatannya melibatkan dua
variabel kategori dan satu variabel kontinu. Metode ANOVA dapat diterapkan
D ata k at e g o r i k d a n ta b e l k o n t i n g e n s i 7
pada kasus 2, sedangkan pada kasus 1 ANOVA tidak dapat digunakan sehingga
harus menggunakan analisis data kategori.
1.5 Tabel Kontingensi
Tabel kontingensi biasa disebut juga tabulasi silang (cross tab) adalah distribusi
frekuensi bersama beberapa variabel (lebih dari dua). Data tabel kontingensi
diperoleh dari pengamatan terhadap variabel–variabel dari objek-objek yang
bersifat kategorik. Jika variable yang diamati sebanyak dua buah maka data
hasil pengamatan dapat disajikan dalam bentuk tabel kontingensi dua arah
atau dimensi dua. Misalkan variabel pertama terdiri dari b kategori dan variable
kedua terdiri dari k kategori, maka data hasil pengamatan dapat ditampilkan
pada sebagaimana Tabel 1.6.
Tabel 1.6. Tabel kontingensi dua arah
Baris Kolom Jumlah
1 2 … k
1 n11
n12
… n1k
n1+
2 n21
n22
… n2k
n2+
… … … … …
b nb1
nb2
… nbk
nb+
Jumlah n+1
n+2
… n+k
n
Kuantitas dalam sel, nij adalah frekuensi (banyaknya) objek yang memiliki
sifat atau klasifikasi ke-i untuk variabel baris dan klasifikasi ke-j untuk variabel
kolom, i=1,…,b dan j=1,…,k.
, = n n n n n n+ = = == =∑ ∑ ∑ ∑k b b kj j ij i+ i ij i j ij=1 1 1 1dan
(1.1)
Pada uji kesamaan proporsi, masing-masing baris mewakili hasil pengamatan
dari populasi lasi terntentu. Baris ke-i menyatakan populasi ke-i sehingga ni+
merupakan ukuran sampel yang diambil dari populasi ke-i.
Pada pembahasan-pembahasan dalam bab berikutnya, diasumsikan sampel
diambil dari satu populasi dengan ukuran sampel sebesar n. Oleh karena
itu distribusi atas data pengamatan tersebut adalah distribusi multinomial
8 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
atau bisa juga berdistribusi Poisson. Pada percobaan Multinomial, ukuran
sampel sebesar n ditetapkan sebelum dilakukan pengamatan, sedangkan
pada percobaan Poisson peneliti belum mengetahui berapa besar ukuran
sampelnya sebelum penelitian berakhir. Batasan objek penelitian pada
percobaan Poisson dapat berupa waktu, wilayah atau lokasi.
Dari data pengamatan pada Tabel 1.6, jika didasarkan pada percobaan
Multinomial, maka dapat disusun parameter proporsi untuk masing-masing
sel sebagaimana disajikan dalam Tabel 1.7.
Tabel 1.7. Proporsi pada tabel kontingensi dua arah
Baris Kolom Jumlah
1 2 … k
1 π11
π12
… π1k
π1+
2 π21
π21
… π2k
π2+
… … … … …
b πb1
πb1
… πbk
πb+
Jumlah π+1
π+2
… π+k
1
Parameter sebagaimana terdapat dalam ditribusi multinomial (Tabel 2.2)
dapat dilakukan menggunakan metode Maximum Likelihood Estimator (MLE).
Fungsi likelihood dari distribusi multinomial adalah
( ) 11 1 1
1 2
x xkk k k
k
n!L ,..., | x ,...,x ;n ,...,x ! x ! ...x
π π π π= (1.2)
Fungsi log-likelihoodnya adalah
( )1 1( ,..., | ,..., ; )k kLL log L x x nπ π=
( )11 2
k
j jjk
n!LL log x logx ! x ! ...x !
π=
= +
∑ (1.3)
Dalam mencari nilai π yang memaksimalkan fungsi LL tidak dapat dilakukan
secara langsung, karena terdapat pembatasan bahwa 1k
1jj =∑
=
π sebagaimana
pada persamaan (1.3). Oleh karena itu perlu digunakan Lagrange multipliers.
D ata k at e g o r i k d a n ta b e l k o n t i n g e n s i 9
11
k
jj
LLg LL λ π=
= + −
∑ (1.4)
Jika nj >0 untu j=1,…,k dan dengan adanya syarat 0< π
j <1 dan 1
1kjj
π=
=∑
maka Selanjutnya,
berdasarkan dengan menggunakan aturan 0=∂
∂π
LLg , maksimum fungsi
f (π1, ... , π
k ) akan dicapai pada titik ( π
1, ... , π
k ) = ( p
1, ... , p
k )dengan
1,..., kj
j j
xp j
nπ = = =untuk . (1.5)
Permasalahan yang dapat dibahas pada pengamatan seperti ini adalah
melakukan pengujian apakah terdapat asosiasi (hubungan) atau pengaruh
antar variabel baris dan variabel kolom.
D I S T R I B U S I B I N O M I A L , M U LT I N O M I A L D A N P O I S S O N 11
2. DISTRIBUSI BINOMIAL, MULTINOMIAL DAN POISSON
Parameter proporsi ditemukan dalam pengamatan yang menggunakan
variabel kategorik. Perhitungan proporsi didasarkan pada banyaknya objek
pada masing-masing klasifikasi dari variabel kategoriknya. Parameter proporsi
dapat ditemukan pada distribusi Binomial dan Multinomial. Distribusi Poisson
adalah distribusi data yang lain yang didasarkan pada banyaknya objek
(frekuensi kejadian).
2.1 Distribusi Binomial
Pengamatan atas kejadian yang dapat diklasifikasikan ke dalam dua sifat
yang umumnya disebut “sukses” dan “gagal”. Variabel random X menyatakan
hasil pengamatan (sukses atau gagal). Hasil sukses dinyatakan dengan X=1
dan hasil gagal dinyatakan dengan X = 0. Peluang sukses dinyatakan dengan
parameter π, sehingga P(X = 1) = π. Peluang gagal, dapat dinyatakan sebagai
P (X = 0) = 1- π. Variabel random X mempunyai distribusi Bernouli yang dapat
dinyakan dalam fungsi
1(1 ) ; x 0, 1( )
0 ;
x x
P X x−π − π =
= = untuk x yang lainnya (2.1)
dengan 10 ≤≤ π .
Seringkali dijumpai rangkaian pengamatan Bernoulli yang saling independen
dan yang menjadi perhatian adalah banyaknya sukses atas semua pengamatan
tersebut.
Pengamatan sebanyak n kali dapat diperoleh dari n objek masing-masing
diamati sekali atau sebuah objek diamati sebanyak n kali. Hasil setiap
pengamatan dapat diklasifikasikan ke dalam dua sifat yang umumnya disebut
“sukses” dan “gagal”. Percobaan yang masuk dikelompokan kedalam distribusi
Binomial jika memiliki ciri-ciri
12 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
a. percobaan terdiri atas n ulangan
b. ulangan-ulangan itu bersifat bebas satu sama lain
c. dalam setiap ulangan hasilnya dapat digolongkan sebagai berhasil atau
gagal
d. peluang berhasil dilambangkan π dan untuk setiap ulangan adalah sama
(tidak berubah-ubah)
Sebaran peluang binom dapat nyatakan ke dalam rumus:
(1 ) ; x 0, 1, ...., n( )
0 ;untuk x yang lainnya
x n xnP X x x
− π − π = = =
(2.2)
dengan 10 ≤≤ π .Persamaan 2.2. biasa dinyatakan dalam bentuk
!( ) (1 )( )! !
x n xnP X xn x x
−= = π − π−
.
Variabel random X berdistribusi Binomial dengan proporsi sukses sebesar π
dari n pengamatan dapat tuliskan sebagai X ~ BIN(n, π)
Rata-rata (mean), E(X) = nπ dan variansinya adalah Var(X) = nπ(1-π). Bukti
perhitungannya sebagai berikut
0
1
1 ( 1) ( 1)
1
( 1)
0
1
( ) (1 )
1(1 )
1
1(1 )
1
1(1 )
( (1 ))
nx n x
x
nx n x
x
nx n x
x
nk n k
k
n
nE X x
x
nn
x
nn n
x
nn n
x
n n
−
=
−
=
− − − −
=
− −
=
−
= π − π
−
= π − π − −
= π π − π − −
= π π − π
= π π + − π = π
∑
∑
∑
∑
D I S T R I B U S I B I N O M I A L , M U LT I N O M I A L D A N P O I S S O N 13
[ ]
2 2
0
( )
0
( )
2
( )
2
( )
2
2
( ) (1 )
( 1) (1 )
( 1) (1 )
( 1) (1 ) ( )
2( 1) (1 ) ( )
2
2( 1) (1
nx n x
x
nx n x
x
nx n x
x
nx n x
x
nx n x
x
x
nE X x
x
nx x x
x
nx x
x
nx x E X
x
nn n E X
x
nn n
k
−
=
−
=
−
=
−
=
−
=
= π − π
= − + π − π
= − π − π
= − π − π +
− = − π − π + −
− = − π π − π
∑
∑
∑
∑
∑
( 2)
2
2 2
2
2 2 2
) ( )
( 1) ( (1 ))( 1)
nn k
k
n
E X
n n nn n nn n n
− −
=
−
+
= − π π + − π + π
= − π + π
= π − π + π
∑
[ ]22
2 2 2 2
2
( ) ( ) ( )
( )
(1 )
Var X E X E X
n n n nn nn
= −
= π − π + π − π
= π − π= π − π
Jika Xi berdistribusi Bernouli dengan peluang sukses π dan saling independen,
maka Y=1 i
nX
i =∑ berdistribusi Binomial dengan mean E(Y) = nπ dan variansi
Var(Y) = nπ(1-π).Dalam praktek, nilai parameter dalam distribusi binomial tidak diketahui.
Estimasi parameter dilakukan menggunakan data sampel Salah satu metode
yang digunakan untuk mengestimasi parameter adalah Maximum Likelihood
Estimator (MLE). Fungsi likelihood dari distribusi Bernouli dan Binomial yang
merupakan fungsi dari parameter π. Jika X1, ...,X
n masing-masing merupakan
variabel random yang saling independen dan berdistribusi Bernouli dengan
peluang sukses sebesar π maka X=X1+...+X
n berdistribusi Binomial(n, π). X
14 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
sering disebut banyaknya sukses dari n pengamatan. Dari sampel random
berukuran n tersebut dapat disusun fungsi likelihood sebagai berikut
L(π) = πx(1-π)n-x dengan 1ni ix x== ∑ dan x
i=0,1,...., n. (2.3)
Jika X adalah variabel random berdistribusi Binomial(n, π), dengan n diketahui
dan π adalah parameter yang akan diestimasi, maka fungsi likekehoodnya
adalah
!( ) (1 ) 0,1,..., n
( )! !x n xnL x
n x x−π = π − π =
−dengan (2.4)
Grafik fungsi L(π) dapat dilihat pada Gambar 2.1.
Gambar 2.1. Grafik fungsi likelihood
MLE adalah sebuah nilai penaksir dari parameter π (yaitu p) yang
memaksimumkan fungsi likelihood berdasarkan data sampel (x). L(p)
merupakan nilai maksimun atas fungsi L(π). Untuk mendapatkan MLE, langkah
pertama adalah menyusun fungsi log-likelihood. Untuk distribusi Bernoulli,
fungsi likelihoodnya adalah
log(L(π))=LL(π) = xlog(π) + (1-x)log(1-π) dengan x=0,1 Untuk distribusi Binomial, fungsi likelihoodnya adalah
log(L(π))=LL(π) = !( )( )! !
nlogn x x−
+ xlog(π) + (n-x)log(1-π)untuk x=1,...,n. (2.5)
Operasi log dibaca ”logaritma natura (ln)”. Suku !( )( )! !
nlogn x x−
pada persamaan
(2.5) tidak berpengaruh pada proses penentuan titik maksimum. Langkah
selanjutnya adalah mencari nilai π yang memaksimumkan fungsi LL(π). Caranya
adalah dengan menggunakan aturan derivatif,
2
2
( ) ( )0 0LL LL∂ π ∂ π= <
∂π ∂πdan
D I S T R I B U S I B I N O M I A L , M U LT I N O M I A L D A N P O I S S O N 15
Syarat pertama adalah mencari nilai π sedemikian hingga
( ) ( )( 1)(1 )
(1 ) ( )(1 ) (1 )
(1 )
(1 )
LL y n y
y n y
y y n y
y n
y n
∂ π − −= +
∂π π − π− π π −
= −π − π π − π
− π − π + π=
π − π− π
=π − π
= − π
Diperoleh persamaan y - πn = 0 sehingga
nxp ==π̂
Syarat ke-dua adalah menunjukan bahwa 2
2
( ) 0p
LLπ=
∂ π<
∂π
( )
( )( )( )
( )( )( )
( )
( )
2
2
22
2 2
2 22 2
2 2 2
22
2
22
( )(1 )
( )1
11 1
2
1
21
n xLL x
x n x
x n x
x x x n x
x x x
− ∂ π ∂ ∂ = − ∂π ∂π π ∂π − π −
= − −π − π
− π − π= − −
π − π π − π
− + π − π − π − π=
π − π
− + π − π=
π − π
Diketahui bahwa
π2(1-π)2 > 0dan
16 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
22
2
2 2
2
1 0
p
x xx x n x x nn n
x xxn n
xxn
xxn
π=
− + π − π = − + −
= − + −
= − +
= − <
sehingga terpenuhi sifat 2
2
( ) 0p
LL
π=
∂ π<
∂π . Dapat disimpulkan bahwa MLE
untuk parameter π pada distribusi binomial adalah
nxp ==π̂ (2.6)
Penaksir parameter π pada pengamatan kejadian binomial yang didasarkan
dari sampel berukuran n=10 diperoleh sukses y=6, MLE parameter π sama
dengan 6ˆ 0.6
10π = =
Pada proses estimasi ini, yaitu menduga karakteristik populasi (parameter)
menggunakan data sampel (statistik) akan menghasilkan ketidakpastian nilai.
Pada umumnya nilai parameter dalam distribusi binomial tidak diketahui
sehingga perlu diestimasi dengan menggunakan data sampel. Salah satu
metode yang digunakan untuk mengestimasi parameter adalah Maximum
Likelihood Estimator (MLE).
D I S T R I B U S I B I N O M I A L , M U LT I N O M I A L D A N P O I S S O N 17
2.2 Pendekatan Distribusi Normal atas Distribusi Binomial
Pada distribusi Normal terdapat dua parameter yaitu nilai rata-rata µ dan
variansi σ2 . Persamaan fungsi kepadatan peluang adalah
2
2
1 1( ) ( )22
xf x exp − µ = − σ πσ (2.7)
dalam hal ini π = 3.14159 dan e = 2.71828. Variabel random X yang mempunyai
distribusi Normal mempunyai dua parameter yaitu µ (baca “mu”) dan variansi
σ2 (baca “siqma kuadrat”) biasa dituliskan menjadi X~ N(µ, σ2). Gambar 2.2.
adalah grafik fungsi densitas dari distribusi Normal N(1;9) dan N(2;4).
Gambar 2.2. Grafik fungsi densitas dari distribusi Normal
Sifat-sifat kurva distribusi Normal, adalah :
i. simetris terhadap µ=x
ii. mempunyai titik belok pada σµ ±=x
iii. memotong sumbu x secara asimtotis di ∞− dan ∞+
iv. Luas daerah di bawah kurva dan di atas sumbu x sama dengan satu.
18 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Luas di bawah kurva distribusi Normal menunjukkan peluang harga x diantara
nilai a dan b, yaitu :
( )( )2
2212
xb
a
P a x b e dxµ
σ
σ π
−−
≤ ≤ = ∫Distribusi Normal ini merupakan salah satu distribusi yang sangat penting,
baik dalam statistika teori maupun statistika terapan, khususnya distribusi
Normal standar (Baku). distribusi Normal standar mempunyai mean µ = 0
dan variansi 2σ = 1, ditulis dengan notasi N(0,1). Fungsi kepadatan peluanya
adalah
( ) ∞<<∞−=
−
zezz
;21 2
2
πφ (2.8)
Gambar 2.3. adalah grafik fungsi densitas Normal standar (µ=0 dan σ=1).
Gambar 2.3. Grafik fungsi densitas dari distribusi Normal Standar
Pada distribusi binomial, MLE untuk parameter π adalah p=x/n. Distribusi
sampling untuk proporsi sampel p mempunyai mean dan deviasi standar
π=)( pE dan n
pVar )1()( ππ −= (2.9)
Semakin besar n maka Var(p) mendekati nol, yang berarti bahwa sampel
proporsi p cukup dekat dengan parameter π. Bedasarkan Gambar 2.4. dapat
memberikan visualisasi pengaruh ukuran n terhadap kesesuaian dengan
distribusi Normal. Semakin besar n, maka pendekatan distribusi normal akan
semakin akurat yaitu kurva distribusinya berbetuk simetris di titik rata-rata
(nπ).
D I S T R I B U S I B I N O M I A L , M U LT I N O M I A L D A N P O I S S O N 19
(a) (b)
(c) (d)Gambar 2.4. Distribusi Binomial pada p=0.2 dan beberapa ukuran n (a) n=10 (b) n=30 (c) n=100
(d) n=100
Namun demikian jika π 0 atau π 1 maka agar diperoleh pendekatan
distribusi Normal yang baik, diperlukan jumlah sampel lebih besar
dibandingkan dengan kondisi π 0.5. Hal ini cukup terlihat jelas pada
Gambar 2.4 yang menjelaskan grafik Ditribusi Binomial pada beberapa nilai π.
Distribusi Binomial pada π=0.5 akan selalu menghasilkan grafik yang simetris
pada ukuran sampel kecil maupun besar. Pada ukuran sampel kecil dan π<0.5
maka grafik akan menceng ke kiri sebaliknya jika π>0.5 maka menceng ke
kanan (Lihat Gambar 2.4. a). Distribusi binomial pada n yang cukup besar
(lebih dari 100) berbentuk simetrik pada semuai nilai π=0.5, π= 0.2 maupun
π=0.8 (lihat Gambar 2.4. c dan Gambar 2.4. c).
20 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
2.3 Distribusi Multinomial
Variabel random X menyatakan banyaknya sukses dari n pengamatan .
P(X) merupakan fungsi peluang sebab
a. 0 ≤ P(X) ≤ 1 b. ( )0 1n
x P x= =∑
Kejadian binomial hanya terdapat dua kemungkinan hasil (sukses atau gagal).
Jika terdapat lebih dari dua kemungkinan hasil maka termasuk kejadian
multinomial. Ciri-ciri selengkapnya
a. Percobaan terdiri atas n ulangan
b. ulangan-ulangan itu bersifat bebas satu sama lain
c. dalam setiap ulangan hasilnya dapat digolongkan kedalam beberapa sifat
(misal k sifat). Setiap objek hanya memiliki satu sifat (mutually exclusive).
d. peluang berhasil untuk sifat ke-i dilambangkan πi dan untuk setiap
ulangan besarnya sama (tidak berubah-ubah)
Sebaran peluang multinom dapat nyatakan ke dalam rumus:
xkk
x
kkk xx
nnxxP ππππ ,...,
,...,);,...,;,...,( 1
11
11
= (2.10)
1 ,x0 n, xdengan k
1iii
k
1ii =≤≤= ∑∑
==
πn dan 10 ≤≤ π . Variabel random Xi
adalah banyaknya objek yang mempunyai sifat ke-i dari n pengamatan.
Dengan adanya syarat
1dan n x k
1ii
k
1ii == ∑∑
==
π (2.11)
maka dari k sifat akan terdapat (k-1) variabel random yaitu X1,...,X
k-1 dan
(k-1) parameter yaitu π1,..., π
k-1. Nilai X
k dan π
k dapat dihitung menggunakan
persamaan
∑∑==
==1-k
1iik
1-k
1iik -1 dan x-n x ππ
D I S T R I B U S I B I N O M I A L , M U LT I N O M I A L D A N P O I S S O N 21
Persamaan (2.8) dapat dijuga dinyatakan dalam bentuk
111 1 1
1 2
( ,..., ; ,..., ; ) ,...,! !... !
x xkk k k
k
nP x x nx x x
π π π π= (2.12)
Variabel X= (X1,...,X
k-1) berdistribusi Multinomial peluang masing-masing
sebesar -sukses sebesar π1,..., π
k-1 dari n pengamatan dapat tuliskan sebagai
X~MULT(n, π1,..., π
k-1). Distribusi Multinomial merupakan bentuk distribusi
bersama karena memuat beberapa variabel random. Distribusi marginalnya
dapat berupa distribusi Multinomial ataupun distribusi Binomial.
Jika (X1,X
2) ~MULT(n, π
1, π
2) maka X
1 ~BIN(n, π
1) dan X
2~BIN(n, π
2). Pembuktian
atas sifat ini dapat ditunjukan dengan mencari fungsi desitas marginal dari
densitas gabungan.
( ) ( ) ( )
[ ]( )
( )
( ) ( ) ( )
( )
1
1 1 1 2 1 22 2 0
1 2211 2 1 21
12 01 2 1 2
1 1 211 21 2 1 2
2 0 21 1
( 1)11 2 1 2
1
11
1
, ,
( )! (1 )!! ! !
! 1! !
1
1
n x
x x
n x xXn xx
x
n x n x xx x
x
n xx
x
f x f x x f x x
n xnx x n x x
n xnxx n x
nx
nx
−
=
− −−
=
− − −
=
−
= =
− π − π − π= π
− − −
= π π − π − π −
= π π + − π − π
= π − π
∑ ∑
∑
∑
( )( )11
n x−
Jika hanya diperhatikan satu variabel random xi saja, maka x
i berdistribusi
binomial dengan parameter πi. Oleh karena itu mean dan variansinya adalah
E(Xi) = nπ
i dan Var(X
i) = nπ
i(1-π
i) (2.13)
Kovariansi dua variabel random Xi dan X
j dengan i≠j adalah
Cov(Xi, X
j) = -nπ
iπ
j (2.14)
Antar variabel random Xi tidak saling independen sebab
x-n x1-k
1iik ∑
=
=
22 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Dalam percobaan Multinomial, dianggap satu populasi dan setiap objek
diklasikasi dalam faktor baris dan kolom. Sampel sebesar n ditetapkan sebelum
penelitian. Jumlah variabel random dapat dihitung menggunakan persamaan
jumlah variabel random = jumlah baris x jumlah kolom – 1.
Dalam percobaan Poisson, dianggap satu populasi dan setiap objek diklasikasi
dalam faktor baris dan kolom. banyaknya sampel tidak ditetapkan, bahkan
tidak diketahui. Yang ditetapkan adalah pengamatan pada interval waktu atau
daerah tertentu. Jumlah variabel random = baris x kolom.
Fungsi likelihood dari distribusi multinomial adalah
111 1 1
1 2
( ,..., | ,..., ; ) ,...,! !... !
x xkk k k
k
nL x x nx x x
π π π π= (2.15)
Fungsi log-likelihoodnya adalah
( )1 1( ,..., | ,..., ; )k kLL log L x x nπ π=
11 2
! ( )! ! ... !
k
i iik
nLL log x logx x x
π=
= +
∑ (2.16)
Dalam mencari nilai π yang memaksimalkan fungsi LL tidak dapat dilakukan
secara langsung, karena terdapat pembatasan bahwa 1k
1ii =∑
=
π sebagaimana
pada persamaan (2.11). Oleh karena itu perlu digunakan Lagrange multipliers.
11
k
ii
LLg LL λ π=
= + −
∑Selanjutnya, berdasarkan dengan menggunakan aturan 0=
∂∂
πLLg
diperoleh
MLE untuk masing-masing parameter πi adalah
1 1ixp
nπ = = . (2.17)
D I S T R I B U S I B I N O M I A L , M U LT I N O M I A L D A N P O I S S O N 23
2.4 Distribusi Poisson
Percobaan Poisson memiliki ciri-ciri sebagai berikut
a. banyaknya hasil percobaan yang terjadi dalam selang waktu atau
suatu daerah tertentu, tidak tergantung pada banyaknya hasil
percobaan yang terjadi pada selang waktu atau daerah lain yang
terpisah
b. peluang terjadinya suatu hasil percobaan selama suatu selang
waktu yang singkat sekali atau dalam suatu daerah yang kecil,
sebanding dengan panjang selang waktu atau besarnya daerah
tersebut, dan tidak tergantung pada banyaknya hasil percobaan
yang terjadi diluar selang waktu atau daerah tersebut.
c. peluang bahwa lebih dari satu hasil percobaan akan terjadi dalam
selang waktu yang singkat tersebut atau dalam daerah yang kecil
tersebut, dapat diabaikan.
Distribusi Poisson dapat dituliskan ke dalam rumus
( ) ; 0,1,...!
0 untuk x yang lainnya
xe xP x x
λλ−==
(2.18)
e = 2.71828... dan λ merupakan parameter rata-rata banyaknya hasil percobaan
yanga terjadi selama selang waktu atau dalam daerah yang dinyatakan.
Fungsi log-likelihood untuk variabel random X1,…,X
n yang berdistribusi
Poisson adalah
( ) ( ) ( )( )
( ) ( ) ( )1
1 1
n
i ii
n ni ii i
LL X log log X !
LL log X n log X !
λ λ λ
λ λ λ=
= =
= − −
= − −
∑
∑ ∑
(2.19)
Selanjutnya, berdasarkan dengan menggunakan aturan 0LLλ
∂=
∂ diperoleh
1
1 0n
ii
LL x nλ λ =
∂= − =
∂ ∑
24 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
MLE parameter λ adalah
1ni ix
xn=λ = = ∑ .
(2.20)
Distribusi variabel random X pada nilai λ=0.5, λ=1 dan λ=4 dapat dilihat pada
Gambar 2.5.
(a) λ=0.5 (b) λ=1
(c) λ=4Gambar 2.5. Grafik distribusi Poisson pada nilai λ=0.5, λ=1 dan λ=4
2.4.1 Pendekatan Distribusi Poisson untuk Distribusi Binomial
Sebaran Binomial dan sebaran Poisson memiliki histogram yang hampir sama
bila n besar dan p kecil ( mendekati nol). Oleh karena itu, bila kedua kondisi
itu dipenuhi, maka sebaran Binomial dapat didekati menggunakan sebaran
Poisson dengan λ=np. Syarat p kecil equivalen dengan persyaratan p besar
(mendekati 1) yaitu dengan mepertukarkan definisi sukses-gagal.
( )lim 1 0,1,2,....!
xn xxn e x
x x
−λ−
π→∞
λπ − π = =
D I S T R I B U S I B I N O M I A L , M U LT I N O M I A L D A N P O I S S O N 25
Pembuktian persamaan tersebut adalah sebagai berikut
( ) ( )!1 1
! !
1 1... 1!
x n xn xx
xx
n nx x n x n n
n n n xx n n n n
−−
−
λ λ π − π = − −
λ − − + λ = −
Selanjutnya dengan menggunkan sifat limit berikut
( )
lim 1 lim 1 1
lim 1!
n x
x
xn xx
en n
n ex x
−λ
π→∞ →∞
λ−
π→∞
λ λ − = − =
λπ − π =
dan
Maka terbukti
2.4.2 Menghitung Nilai Peluang Menggunakan Excel dan Program R
Perhitungan nilai probabilitas beserta funsgi distribusi menggunakan Excel
disajikan pada Tabel 2.1.
Tabel 2.1. Menghitung probabilitas dalam program Excel
No Distribusi Variabel Random
Parameter P(X) = f(x) F(x) = P(X≤x)
1 Binomial X P BINOM.DIST(n;x;p;false)
BINOM.DIST(n;x;p;True)
2 Poisson X µ POISSON.DIST(x; µ;false)
POISSON.DIST(x; µ;true)
3 Hipergeometrik X - HYPGEOM.DIST
(x;k;n;N;false)
HYPGEOM.DIST(x;k;n;N;true)
4 Binomial negatif
X P NEGBINOM.DIST((x-
k);k;p;false)
NEGBINOM.DIST((x-
k);k;p;true)
26 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Perhitungan nilai probabilitas beserta fungsi distribusi menggunakan R
disajikan pada Tabel 2.2.
Tabel 2.2. Operasi distribusi dalam program R
No Distribusi Variabel
Random
Parameter P(X) = f(x) F(x) = P(X≤x)
1 Binomial X P dbinom(x,n,p) pbinom(x, n, p)
2 Poisson X µ dpois(x, µ) ppois(x, µ)
3 Hipergeometrik X - dhyper(x,k,N-k,n)
dhyper(x,k,N-k,n)
4 Binomial negatif X P dnbinom((x-k), k,p)
pnbinom((x-k), k,p)
U J I I N D E P E N D E N S I P A D A TA B E L D I M E N S I D U A 27
3. UJI INDEPENDENSI PADA TABEL DIMENSI DUA
Orang-orang lebih suka mengelompokkan berbagai hal ke dalam kategori.
Hampir setiap proyek penelitian. Data hasil pengamatan dikelompokan ke
dalam spesifikasi tertentu seperti kelompok kecil seperti: pria atau wanita;
status pernikahan; rusak atau tidak rusak; kecil, sedang, atau besar; ras pasien;
dengan atau tanpa operasi amandel; dan seterusnya. Dalam penelitian ilmu
sosial dan biologi, data hasil pengamatan seringkali disajikan dalam tabel
kontingensi.
Variabel kategorikal biasanya diklasifikasikan sebagai dua tipe dasar: nominal
dan ordinal. Variabel nominal melibatkan kategori yang tidak memiliki urutan
tertentu seperti warna rambut, ras, atau lokasi klinik, sedangkan kategori yang
terkait dengan variabel ordinal memiliki beberapa urutan bawaan (kategori
status sosial ekonomi, dll.). Para ahli statistik telah menemukan sejumlah cara
untuk menganalisis dan menjelaskan data kategorik. Analisis tabel kontingensi
digunakan untuk menguji hubungan antara dua variabel kategori. Uji
goodness-of-fit digunakan untuk mengukur apakah kelompok hitungan yang
diamati cocok dengan pola teoretis.
Sementara itu untuk menguji adanya asosiasi dalam tabel kontingensi,
khususnya tabel 2x2 tidak ada kata sepakat dalam menetapkan uji yang
paling sesuai. Perdebatan mengenai ukuran asosiasi tersebut dimulai oleh
ahli statistik pada awal abad 20 seperti Pearson (1913) dan Yule (1912).
Pearson (1904, 1913) telah membahas dengan pendekatan distribusi kontinu
bivariat. Dia menyakini bahwa dapat dilukiskan assosiasi antar faktor dengan
menggunakan ukuran seperti korelasi sebagaimana data kontinu. Ukuran
tersebut dikenal dengan sebagai Pearson’s contigency coefficient. Person
berpendapat bahwa koefisien yang disarankan oleh Yule (1900, 1912) untuk
28 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
tabel 2x2 yang disebut odds ratio tidaklah cocok. Untuk menguji independensi
antara dua faktor, Pearson (1904, 1913) mengusulkan Uji Pearson Chi-square.
Statistik uji yang lain yang diusulkan oleh Fisher (1922, 1925,1936) dan Irwin
(1949) adalah Fisher’s exact test. Yates (1934) mengusulkan suatu koreksi atas
statistik Pearson yang memberikan p-value yang lebih baik dibandingkan
pendekatan distribusi hipergeometrik dalam Fisher’s exact test. Goodman dan
Kruskal (1959) telah menjelaskan sejarah perkembangan ukuran asosiasi pada
tabel kontingensi. Ukuran-ukuran lain yang didasarkan pada konkordan dan
diskordan diusulkan oleh Kendall (1945), Kruskal (1958) dan Agresti (1984)
meneliti tentang assosiasi ordinal.
3.1 Struktur Data dan Probabilitas pada Tabel 2x2
Tabel kontingensi 2x2 merupakan klasifikasi objek pengamatan berdasar
dua variabel dan masing masing variabel diklasifikasikan menjadi dua
kelompok. Tabel 3.1. merupakan penyajikan n objek yang diklasifikasikan
menuruk variabel baris (Faktor A) dan variabel kolom (Faktor B). Dalam tabel
kontingensi, istilah variabel seringkali digantikan dengan istilah faktor. Hal
ini dikarenakan variabel yang dimaksud bersifat nominal sehingga dapat
disebut sebagai faktor. Penamaan variabel baris dan variabel kolom tidak
lepas dari penempatan kedua variabel tersebut. Faktor A sebagai variabel baris
berarti letaknya pada baris, demikian juga jika disebut variabel kolom berarti
diletakkan pada kolom.
Tabel 3.1. Tabel kontingensi Faktor A dan Faktor B
Faktor AVariabel Kolom (Faktor B)
TotalB1 B2
A1
n11
n12
n1+
= n11
+ n12
A2
n21
n22
n2+
= n21
+ n22
Total n+1
= n11
+ n21
n+2
= n12
+ n22
n
Diasumsikan bahwa masing-masing objek memiliki salah satu sifat/klasifikasi
A dan salah satu sifat B.
U J I I N D E P E N D E N S I P A D A TA B E L D I M E N S I D U A 29
Nilai pada masing-masing sel merepresentasikan distribusi bersama yaitu
berdistribusi multinomial dengan empat kategori. Nilai pada kolom terakhir
dan baris terakhir merepresentasikan distribusi marginal yang berdistribusi
Binomial. Struktur distribusi multinomial dapat disajikan pada Tabel 3.2.
Tabel 3.2. Struktur parameter π
Faktor AFaktor B
TotalB1 B2
A1 π11
π12
π1+
= π11
+ π12
A2 π21
π22
π2+
= π21
+ π22
Total π+1
=π11
+ π21
π+2
=π12
+ π22
1
Jika data pada Tabel 3.1 merupakan data populasi, maka
11 12 21 2211 12 21 22; ; ; .n n n n
n n n nπ = π = π = π =
Biasanya data yang dimiliki merupakan data sampel. Parameter πij masing-
masing diestimasi berdasarkan data sampel, yaitu menggunakan pij. Struktur
parameter proporsi untuk data sampel dapat disajikan pada Tabel 3.3.
Tabel 3.3. Struktur statistik p
Faktor AFaktor B
TotalB1 B2
A1
p11
p12
p1+
= p11
+ p12
A2
p21
p22
p2+
= p21
+ p22
Total p+1
=p11
+ p21
p+2
=p12
+ p22
1
Statistik pij dihitung menggunakan data sampel dengan persamaan sebagai
berikut
11 12 21 2211 12 21 22, , , .n n n np p p p
n n n n= = = =
Nilai pada masing-masing sel merepresentasikan distribusi bersama yaitu
berdistribusi multinomial dengan empat kategori. Nilai pada kolom terakhir
dan baris terakhir merepresentasikan distribusi marginal yang berdistribusi
Binomial.
30 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Probabilitas dalam tabel kontingensi dapat dikelompokan menjadi 3
jenis, yaitu
a. Probabilitas bersama.
Pada Tabel 3.2, probabilitas bersama merupakan distribusi multinomial
yang terdiri atas 4 kelompok (sel). Masing-masing sel mempunyai
probabilitas
P(A1∩B1) = π11, P(A1∩B2) = π12, P(A2∩B1) = π21, P(A2∩B2) =π22.
b. Probabilitas marginal.
Pada tabel kontingensi dua arah (baris dan kolom) terdapat dua distribusi
marginal. Dari Tabel 3.2, probabilitas marginalnya merupakan distribusi
Binomial karena hanya terdapat dua kemungkinan hasil (dua kelompok).
Nilai probabilitas untuk distribusi marginal baris adalah
P(A1) = π1+ dan P(A2) = π2+ Nilai probabilitas untuk distribusi marginal adalah
P(B1) = π+1 dan P(B2) =π+2
Probabilitas marginal kolom dihitung pada masing-masing kolom tanpa
memperhatikan variabel baris.
c. Probabilitas bersyarat (conditional)
Probabilitas bersyarat dapat diterapkan pada kasus sifat objek yang
dimatai sudah diketahui memiliki sifat tertentu. Jika diketahui objek
memiliki sifat A dan hendak dihitung peluangnya atas sifat B maka dapat
dinyatakan menjadi
( )( | )
( )j i
j ii
P B AP B A
P A∩
=
111 1
1
( | )P B B A A ππ +
= = = dan 122 1
1
( | )P B B A A ππ +
= = =
Sehingga
2 1 2 1( | ) ( | ) 1P B B A A P B B A A= = + = = =
Demikian juga
211 2
2
( | )P B B A A ππ +
= = = dan 222 2
2
( | )P B B A A ππ +
= = =
U J I I N D E P E N D E N S I P A D A TA B E L D I M E N S I D U A 31
Sehingga
2 2 2 2( | ) ( | ) 1P B B A A P B B A A= = + = = =
Dua variabel dikatakan independen secara statistik jika distribusi bersyarat
untuk variabel A pada semua level B adalah indentik. Ketika dua variabel
independen, maka
)|()|( 2121 AABBPAABBP =====
Berdasarkan distribusi bersama, maka A dan B independen jika
πij = πi+π+j (3.1)
Sifat ini dapat dipakai menguji apakah Variabel A dan B saling independen.
Hipotesis nya adalah
H0 : π
ij = π
i+π
+j untuk semua i dan j (Variabel baris dan variabel kolom saling
independen) untuk i,j=1,2.
H0 : π
ij ≠ π
i+π
+j untuk suatu i dan j (Variabel baris dan variabel kolom tidak
independen)
Terdapat beberapa statistik uji untuk hipotesis tersebut diantaranya yang
popular adalah
1. Pearson’s Chi-Squared test
2. Yates’s Chi-Squared test
3. Likelihood Ratio test
4. ‘N - 1’ Chi-Squared test.
Ke-empat statistik ini merupakan uji pendekatan menggunakan distribusi
Normal. Pada kasus sampel kecil, dapat diterapkan uji Eksak Fisher.
3.2 Statistik Uji Independen pada Tabel 2x2
Tabel kontingensi 2 × 2 adalah struktur paling elemental yang mengarah
ke ide-ide asosiasi yang dimulai dari masalah perbandingan dua parameter
Binomial. Beberapa konsensus terkait dengan analisis tabel kontingensi yang
menggunakan uji Chi-square adalah jumlah minimum yang diharapkan pada
masing-masing sel minimal 5.
32 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Statistik Chi-Square adalah statistik utama yang digunakan untuk menguji
apakah kedua variabel tersebut independen atau tidak dari tabel tabulasi
silang. Uji Chi-square didasarkan pada distribusi pendekatan dan akan valid jika
frekuensi yang diharapkan cukup besar. Tidak ada frekuensi yang diharapkan
harus kurang dari 1 dan nilai harapan masing-masing sel yang besarnya kurang
dari 5 jumlahnya tidak lebih dari 20% dari total sel yang ada. Untuk tabel yang
lebih besar dari 2x2, distribusi Chi-square dengan derajat kebebasan yang
sesuai memberikan perkiraan yang baik untuk distribusi sampling dengan
statistik Pearson dan Likelihood Ratio. Kedua statistik berdistribusi Chi-Square,
namun distribusi pendekatan ini akan memburuk dengan frekuensi yang
diharapkan kecil. Aturan umumnya adalah bahwa frekuensi yang diharapkan
terkecil harus setidaknya lima. Namun Cochran (1952, 1954), yang umumnya
dianggap sebagai sumber aturan ini, mengakui bahwa angka “5” tampaknya
dipilih tanpa didasari perhitungan secara eksak.
Uji Chi-square sering dikenal sebagai Chi-square Pearson, berasal dari
makalah oleh Karl Pearson pada awal 1900-an. Uji ini berfungsi baik sebagai
tes “good-of-fit”, di mana data dikategorikan dalam satu dimensi, dan sebagai
tes untuk “tabel kontingensi” yang lebih umum, di mana kategorisasi berada di
dua dimensi atau lebih. Statistik Chi-square Pearson untuk tabel Kontingensi
2x2 sebagaimana disajikan pada Tabel 3.4 didefinisikan sebagai berikut Χ 2
( )22
1 2 1 2
n ad bcm m n n
χ−
=
(3.2)
Tabel 3.4. Tabel kontingensi Faktor A dan Faktor B
Faktor AFaktor B
TotalB1 B2
A1
a b n1
A2
c d n2
Total m1
m2
n
Statistik Likelihood rasio yang diperoleh dari fungsi likelihood didefinisikan
sebagai berikut
2
1 1 1 1 1 1 1 1
2 .log .log .log .logan bn cn dna b c dm n m n m n m n
χ = + + +
(3.3)
U J I I N D E P E N D E N S I P A D A TA B E L D I M E N S I D U A 33
Jika nilai harapan kurang dari 5, maka dapat digunakan statistic uji Yates
correction (Yates’s Chi-Squared test ) and the N - 1 Chi-square test. Yates’
correction (Yates, 1934) adalah sama dengan statistik Pearson’s Chi-square
tetapi ditambahkan adanya komponen koreksi yaitu 2
2
1 2 1 2
| |2nn ad bc
m m n n
− − χ =
(3.4)
Sebagaimana disampaikan Campbell (2007), jika nilai harapan setiap
selnya minimal sama dengan 1 maka statistik “N – 1” Chi-square lebih baik
dibandingkan dengan Chi-square Pearson. Statistik “N – 1” chi-square
didefinikan sebagai berikut
( )2
1 2 1 2
( 1)n ad bcm m n n
− −χ =
(3.5)
Ketika n kecil apalagi kurang dari 1, lebih baik menggunakan distribusi eksak
dibanding dengan pendekatan sampel besar. Untuk uji eksak dikemukakan
oleh Fisher (Davis, 1968). Didasarkan atas sampling tanpa pengembalian
dari distribusi hipergeometrik. H0 benar (kedua pengamatan independen),
peluang komposisi pengamatan seperti Tabel 3.1 (dengan asumsi jumlah
margin tetap ) adalah
( )
21
1 1 2 1 211
1
! !m m !! !c!d!n!
nnm aa n nP n an a bm
− = = =
(3.6)
P-value merupakan jumlah semua nilai probabilitas P(n11
) yang mendukung
H1. Selanjutnya H
0 ditolak jika P-value lebih kecil dari α. Statistik uji ini disebut
uji eksak Fisher’s yang disampaikan oleh R. A. Fisher pada tahun 1934.
Campbell (2007) telah memberikan bukti baru dan menyempurnakan
pedoman yang dibuat oleh Cochran. Pembuktian dilakukan dengan simulasi
terhadap empat metode yaitu (1) uji Chi-square Pearson (2) uji Chi-square
Pearson dengan “Yate Correction” (3) Chi square “N-1” (4) uji Fisher-Irwin .
Berdasarkan pengujian secara simulasi terhadap empat metode, tersebut
disimpulkan bahwa
34 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
i. Jika nilai harapan semua sel minimal sebesar 1 maka sebaiknya
digunakan uji ‘N–1’ Chi-square.
ii. Jika nilai harapan kurang dari 1 maka sebaiknya digunakan uji
Fisher-Irwin.
3.3 Analisis Tabel Kontingensi bxk
Dalam suatu penelitian, observasi terhadap obyek penelitian tidak hanya satu
variabel akan tetapi bisa lebih dari satu variabel. Jika setiap obyek dilakukan
observasi lebih dari satu variabel kategori, maka data hasil observasi dapat
disajikan dalam bentuk tabel yang disebut tabel tabulasi silang atau tabel
kontingensi. Misalkan observasi terhadap karyawan perusahaan, variabel
kategori yang dapat diobservasi adalah jenis kelamin, status perkawinan,
pendidikan dan lain-lain.
Analisis tabel kontingensi adalah metode umum untuk menganalisis hubungan
antara dua variabel kategori. Variabel kategori yang pertama diklasifikasikan
menjadi b respon kategori dan variabel kategori lain memiliki kemungkinan
hasil sebanyak k. Dalam hal ini, ada bxk kemungkinan untuk kedua variabel
ini. Tabel kontingensi bxk memiliki b baris dan kolom k yang terdiri dari sel
sebanya bk yang berisi jumlah yang diamati (frekuensi) untuk masing-masing
sel.
Analisis ini disebut analisis tabel kontingensi dan biasanya dilakukan dengan
menggunakan statistik Chi-square yang membandingkan jumlah yang diamati
dengan yang akan diharapkan jika tidak ada hubungan antara kedua variabel.
Berikut ini adalah beberapa contoh situasi di mana analisis tabel kontingensi
chi-square akan sesuai.
i. Sebuah studi membandingkan jenis-jenis kejahatan dan klasifikasi
apakah penjahat itu peminum.
ii. Analisis dilakukan untuk menentukan apakah ada preferensi gender
antara kandidat yang mencalonkan diri sebagai gubernur.
iii. Lembaga pelatihan ingin mengetahui apakah tingkat drop out dua
metode pelatihan kerja besarnya sama.
U J I I N D E P E N D E N S I P A D A TA B E L D I M E N S I D U A 35
iv. Bagian riset pemasaran ingin mengetahui apakah ada perbedaan
dalam tingkat respons di antara perusahaan kecil, menengah, dan
besar dalam mengembalikan kuesioner yang dikirimkan.
Pada Tabel tabulasi silang, terdapat dua uji yang ditentukan oleh proses
pengambilan sampelnya yaitu Uji Independensi dan Uji Homogenitas.
Walaupun proses pengambilan samplenya berbeda, tetapi seakan-akan data
yang dihasilkan sama.
i. Uji Independensi.
Sampel pengamatan acak tunggal dipilih dari populasi yang diamati dan
data dikategorikan berdasarkan dua variabel. Misalnya, dalam contoh riset
pemasaran di atas, strategi pengambilan sampel ini akan menunjukkan
bahwa sampel acak tunggal perusahaan dipilih, dan setiap perusahaan
yang dipilih dikategorikan berdasarkan ukuran (kecil, sedang, atau besar)
dan apakah perusahaan itu mengembalikan survei.
ii. Uji Homogenitas.
Sampel acak terpisah diambil dari masing-masing dua atau lebih
populasi untuk menentukan apakah respon yang terkait dengan variabel
kategori mengasilkan proporsi yang konsisten di seluruh populasi. Dalam
contoh riset pemasaran di atas, strategi pengambilan sampel ini akan
memperhatikan tiga populasi perusahaan (berdasarkan ukuran), dan
sampel dipilih dari masing-masing populasi ini. Selanjutnya pengujian
dilakukan untuk menentukan apakah terdapat perbedaan tingkat
respons di antara ketiga jenis perusahaan.
Tabel dua arah yang dihasilkan dari dua pengujian ini adalah sama, walaupun
strategi pengambilan sampelnya berbeda. Yang membedakan satu dengan
yang lainnya adalah dalam pernyataan hipotesis dan kesimpulan.
Validitas uji Chi-square tergantung pada ukuran sampel dan jumlah sel.
Beberapa aturan praktis telah disarankan untuk menunjukkan apakah analisis
menggunakan Chi-square mengasilkan kesimpulan yang baik atau tidak.
36 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Satu aturan seperti yang disarankan oleh Cochran (1954) mengatakan bahwa
perkiraannya memadai jika tidak ada frekuensi sel yang diharapkan kurang
dari satu dan tidak lebih dari 20% kurang dari lima. Ketika aturan tetang
frekuensi harapan ini tidak terpenuhi maka dapat dilakukan penggabungan
kategori pada faktor tertentu.
3.4 Struktur Data dan Probabilitas Tabel Kontingensi bxk
Bentuk tabel tabulasi silang dari suatu observasi yang melibatkan dua variabel
kategori dapat disajikan dalam tabel kontingensi sebagaimana Tabel 3.5.
Tabel 3.5. Tabel kontingensi dua dimensi untuk Faktor A dan Faktor B
Faktor AFaktor B
JumlahB1 B2 ..... Bk
A1
n11
n12
..... n1k
n1+
A2
n21
n22
...... n1k
n2+
.
...........
.....
...............
.....
................
Ab
nb1
nb2
nbk
nb+
Jumlah n+1 n
+2 ........n
+kn
Proporsi masing-masing sel disajikan dalam Tabel 3.6.
Tabel 3.6. Proporsi pada tabel kontingensi dua arah
Faktor AFaktor B
JumlahB1 B2 ..... Bk
A1
π11
π12
… π1k
π1+
A2
π21
π21
… π2k
π2+
.
.… … … …
Ab
πb1
πb1
… πbk
πb+
Jumlah π+1
π+2
… π+k
1
Dalam tabel kontingensi dua arah dengan probabilitas bersama πij , hipotesis
nol untuk menguji independensi dua variabel (baris dan kolom). Dengan
U J I I N D E P E N D E N S I P A D A TA B E L D I M E N S I D U A 37
asumsi independen, berarti distribusi bersama (joint distribution) dapat
dihitung menggunakan distribusi marginalnya. Probabilitas dua kejadian
yang saling independen mempunyai sifat P(A ∩ B) = P(A).P(B).
Dengan kata lain, Jika faktor A dan Faktor B saling bebas, maka nilai proporsi
baris ke i kolom ke j atau sel (i,j) adalah perkalian proporsi baris ke-i dengan
proporsi kolom ke-j,
πij =πi+ π+j untuk i=1,…,b dan j=1,…,k.
. jiij
nnn n
++π = (3.7)
Kita ingin menguji apakah Faktor A dan Faktor B saling independen yang dapat
dihipotesiskan sebagai berikut :
H0 : π
ij = π
i+π
+j untuk semui i dan j (Faktor A dan Faktor B saling independen)
H1 : π
ij ≠ π
i+π
+j untuk suatu i dan j ( Faktor A dan Faktor B tidak independen)
Nilai harapan dihitung dengan asumsi H0 benar atau Faktor A dan Faktor B
saling independen.
Nilai πi+
dan π+j
tidak diketahui, sehingga pada data sampel jika sifat independen
terpenuhi maka frekuensi sel yang diharapkan (eij) dihitung menggunakan
persamaan j i ji
ij i j
n n nne np p nn n n
+ + +++ += = = (3.8)
Nilai frekuensi harapan (eij) dihitung berdasarkan asumsi bahwa variabel baris
(grup) dan variabel kolom saling independen.
Dalam tabel kontingensi dua arah, Chi-square dapat digunakan untuk
menguji independensi dua variabel marginal. Uji Chi-square sering dinamakan
goodness-of-fit test tetapi sebenarnya yang diuji adalah badness-of-fit test,
karena besarnya nilai Chi-square mengindikasikan ketidak sesuaian antar
frekuensi observasi (nij) dan frekuensi harapan (e
ij). Terdapat dua statistik
Chi-square yaitu Pearson Chi-square (χ2) dan Likelihood Ratio Chi-square (G2).
38 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
3.4.1 Statistik Pearson Chi-square
Persamaan statistik Pearson Chi-square adalah 2
2
1 1
( )b kij ij
i j ij
n µχ
µ= =
−= ∑∑
dan µij = nπij. (3.9)
nij adalah frekuensi observasi sel pada baris ke-i dan kolom ke-j. µ
ij merupakan
parameter dari rata rata frekuensi sel (i,j) pada baris ke-i dan kolom ke-j. Statistik
χ2 digunakan untuk menguji H0 (variabel baris dan kolom saling independen),
Statistik ini disampaikan pada tahun 1900 oleh Karl Pearson. Statistik χ2
mempunyai nilai minimum nol ketika nij = µ
ij . Pada sampel terbatas, besarnya
nilai selisih (nij − µ
ij) menghasilkan nilai χ2 yang besar dan bertentangan dengan
H0. Oleh karena itu nilai χ2 yang besar mengindikasikan bahwa sampel tidak
sesuai dengan H0. Pada sampel besar χ2 mempunyai distribusi mendekati
distribusi Chi-square dengan derajad bebas (b-1)(k-1). Pendekatan ini akan
baik jika µij semakin besar dan µ
ij ≥ 5. Distribusi Chi-Square mempunyai mean
sama dengan derajat bebasnya (df = degrees of freedom) dan variansinya
sama dengan 2 kali df. Semakin besar df maka semakin mendekati distribusi
Normal. Sebagaimana dalam Gambar 3.1. berikut merupakan grafik distribusi
Chi-square pada df = 1, 5, 10, dan 20.
Gambar 3.1. Distribusi Chi-square
U J I I N D E P E N D E N S I P A D A TA B E L D I M E N S I D U A 39
Berdasarkan data sampel, dengan asumsi kondisi H0 terpenuhi maka µ
ij
diestimasi dengan eij. Statistik uji untuk χ2 adalah
22
1 1
( )b kij ij
i j ij
n ee
χ= =
−= ∑∑
(3.10)
Statistik ini mempunyai distribusi Chi-square dengan derajad bebas sama
dengan (b-1)(k-1). Rumus di atas dapat disajikan dalam bentuk :2 2 21 22
1 1 11 2
1 1 1... 1k k k
j j bj
j j jj j b j
n n nn
n n n n n nχ
= = =+ + + + + +
= + + + −
∑ ∑ ∑
(3.11)
Derajad bebas ini merupakan selisih banyaknya parameter dalam H0 dan H
1.
Pada variabel baris diketahui bahwa ∑=
+ =b
ii
11π sehingga terdapat (b-1) dari
πi+
yang nilainya bebas dipilih. Demikian juga pada variabel kolom diketahui
bahwa ∑=
+ =k
jj
11π sehingga terdapat (k-1) dari π
i+ yang nilainya bebas dipilih.
Jadi dibawah H0 benar, terdapat parameter sebanyak ((b-1) + (k-1)). Pada
hipotesis alternatif (H1) menyatakan variabel baris dan variabel kolom tidak
independen. Dari sel sebanyak bk dan 1 1
1b k
iji j
π= =
=∑∑ terdapat derajad bebas
(bk -1). Derajad bebas adalah selisih banyaknya parameter dalam H0 dan H
1
yaitu
df = (bk − 1) − [(b − 1) + (k − 1)] = bk − b − k + 1 = (b − 1)(k − 1)
3.4.2 Statistik Rasio Likelihood
Uji rasio likelihood menentukan nilai parameter yang memaksimumkan fungsi
likelihood dibawah asumsi H0 benar. Statistik ujinya merupakan logaritma dari
rasio fungsi likelihood
2
1 12 log
b kij
iji j ij
nG n
e= =
=
∑∑
(3.12)
Statistik uji ini mempunyai nilai non negatif dan berdistribusi Chi-Square
dengan derajad bebas (b-1)(k-1). G2 disebut statistik likelihood-ratio Chi-Square
yang bernilai besar ketika H0 salah. G2 mempunyai nilai minimum nol ketika
nij = µ
ij. Besarnya nilai G2 menandakan besarnya kecenderungan menolak H
0.
Ketika H0 benar dan µ
ij besar, statistik χ2 dan G2 mempunyai distribusi yang
sama yaitu Chi-square dan nilainyapun juga relatif sama.
40 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
3.4.3 Uji Independensi Pendekatan Distribusi Normal
Fisher (1936) dan Yates (1934) membuktikan bahwa jika derajat bebas cukup
besar , (b-1)(k-1) > 30, ternyata bentuk 22χ mendekati distribusi Normal
dengan rataan 2( 1)( 1) 1b k− − − dan simpangan baku 1. Oleh karena itu
( )( )22 2 1 1 1Z X b k= − − − − (3.13)
Z berdistribusi Normal standar. Pendekatan ini hanya dapat dipertanggung-
jawabkan jika eij cukup besar. Jika e
ij harganya kecil-kecil maka dapat digunakan
pendekatan lain yaitu jika derajat babas cukup besar (lebih dari 30) dan harga
eij kecil-kecil, maka statistik χ2 mendekati distribusi Normal dengan rata-rata
( 1)( 1)1
n b kn
− −µ =
−
sedangkan variansinya
22
1 1 2 2 1 22 ( )( )
3 1n nn n
n nσ µ µ µ µ= − − +
− −
dengan
1 2
( 1)( ) ( 1)( ),( 1) ( 1)
b n b b n kn nn n
− − − −= =
− −
)2(
1 2
11 −
−
=∑
= +
n
bn
nb
i iµ, )2(
11
2
2 −
−
=∑
= +
n
kn
nk
j jµ
Selanjutnya pengujian berdasar statistik z yang berdistribusi Normal standar
σµχ −
=2
z (3.14)
3.4.4 Contoh Data Tabel bxk
Akan diuji apakah jenis kelamin (Gender) berasosiasi dengan partai yang
dianut (Demokrat, Agama, Republik). Dari responden sebanyak 2757, dapat
diklasifikasikan sebagai berikut
U J I I N D E P E N D E N S I P A D A TA B E L D I M E N S I D U A 41
Tabel 3.7. Data gender dan partai afiliasi
GenderPartai
P1 P2 P3 Total
Wanita 762 327 4681557
(703.7) (319.6) (533.7)
Laki 484 239 4771200
(542.3) (246.4) (411.3)
Total 1246 566 945 2757
Frekuensi harapan dinyatakan dalam tanda kurung pada masing-masing sel
yang bersesuaian.
Hipotesis dari permasalahan tersebut adalah
Ho : Variabel Gender dan variabel Partai saling independen
H1 : Variabel Gender dan variabel Partai tidak saling independen
Untuk menguji hipotesis tersebut, dapat digunakan statistik Pearson’s
Chi-square. Dalam program R, untuk menghitung statistik Pearson’s Chi-square
dapat digunakan fungsi chisq.test
> gender <- matrix(c(762,327,468,484,239,477),byrow=TRUE,nrow=2)
>dimnames(gender) <- list(Gender=c(“Wanita”,”Laki”),
Party=c(“P1”,”P2”,”P3”))
> chisq.test(gender)
Pearson’s Chi-squared test
data: gender
X-squared = 30.0701, df = 2, p-value = 2.954e-07
Dari perhitungan tersebut, diperoleh statistik Pearson Chi-square, χ2 =
30.0701 dengan derajad bebas (df )=(2-1)(3-1) = 2 dan p-value = 2.954e-07.
Dapat disimpulkan tolak H0 yang berarti bahwa faktor Gender berpengaruh
terhadap Partai.
42 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
3.5 Uji Cochran-Mantel-Haenszel untuk Tabel 2x2xJ
Cochran–Mantel–Haenszel (CMH) test adalah salah satu alternatif uji
independensi dua faktor bersyarat dalam tabel kontingensi 2x2xJ.
Tabel 3.8. Tabel kontingensi 2x2xJ untuk faktor A, B dan C
Faktor C Faktor B faktor A Jumlah
A1 A2C1 B1 n
111n
121n
1+1
B2 n211
n221
n2+1
Jumlah n+11
n+21
n++1
.... .... .... ...Cj B1 n
11jn
12jn
1+j
B2 n21j
n22j
n2+j
jumlah n+1j
n+2j
n++j
.... .... .... ....CJ B1 n
11Jn
12Jn
1+J
B2 n21J
n22J
n2+J
jumlah n+1J
n+2J
n++J
Uji independensi dilakukan pada masing-masing tabel kontingensi 2x2
untuk faktor C tertentu. H0 merupakan hipotesis bahwa faktor A dan faktor B
independen untuk semua level C, atau dapat dinyatakan sebagai
H0 : 1 1
11j j
jj
n ne
n+ +
++
= untuk semua j=1,...,J
Statistik uji yang digunakan adalah 2
11 111
111
( )
( )
J
j jj
J
jj
n eCMH
Var n
=
=
−
=∑
∑
dengan 1 2 1 2
11 2( )( 1)
j j j jj
j j
n n n nVar n
n n+ + + +
++ ++
=−
(3.15)
Untuk sampel yang sangat besar, statistik CMH mendekati distribusi Chi-Square
dengan derajat bebas satu (df=1).
Cochran–Mantel–Haenszel (CMH) test dapat dikembangkan untuk tabel bxkxJ
U J I I N D E P E N D E N S I P A D A TA B E L D I M E N S I D U A 43
(Cochran, 1954). Uji independensi tabel kontingensi bxk untuk semua j=1,...,J.
Misalkan
nj = (n
11j , n
12j , ... , n
1(k-1)j , ... , n
(b-1)(k-1)j )’
merupakan vektor dari sel observasi dan
( ) ( )( )1 1 1 2 1 11
1 , ,..., 'j j j j j b j k jj
n n n n n nn + + + + − + + −
+
=m
yang merupakan nilai ekspektasi. Cochran-Mantel-Haenszel test telah
diimplementasikan dalam program R menggunakan fungsi mantelhaen.test
dalam ctest library.
3.6 Ukuran Assosiasi
Untuk mengetahui derajad keeratan hubungan antara dua faktor dapat
digunakan beberapa ukuran asosiasi berikut yang didasarkan pada statistik
Chi-square.
a. Koefisien kontingensi kuadrat tengah (Φ2)
n
22 χ
=Φ , 0 < Φ2 < ∞ (3.16)
b. Koefisien kontingensi Pearson (P)
)1( 2
22
nn
χχ+
=Ρ , 0 < P < 1 (3.17)
P= 0 menyatakan adanya independen sempurna dan P = 1 adanya
dependensi.
c. Koefisien kontingensi Kendall-Stuart (K) (Kendall dan Stuart,1979)2 /
( 1)( 1)nK
b kχ
=− −
, 0 < K < 1 (3.18)
K = 0 berarti independen sempurna dan K = 1 berarti dependen sempurna
hanya jika (b=k). Jika b≠k angka 1 tak pernah tercapai.
d. Koefisien kontingensi Cramer (C)
{ }2 /
( 1);( 1)nC
min b kχ
=− −
(3.19)
Jika b = k maka C = K, sedangkan jika b≠k maka C > K.
44 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
e. Koefisien kontingensi Tau-Kendall
Ukuran asosiasi ini diturunkan dari data peringkat. Langkah pertama
adalah dicari banyaknya pengamatan yang dibentuk oleh pasangan
kategori dengan peringkat searah/serasi (yang disebut pasangan
konkordan) dan pasangan kategori dengan peringkat berlawanan arah
(yang disebut diskonkordan). Jumlah pasangan konkordan dinyatakan
dengan M dan jumlah pasangan diskonkordan dinyatakan dengan N.
Selanjutnya
Q = M-N
Dari Q dturunkan tiga macam statistik tau (ukuran tau-Kendall)
NnnQ
a )1(2
−=τ (3.20)
2( )( )b
QM N X M N Y+ +
τ =+ + + +
(3.21)
dengan
X+ : jumlah pengamatan seri hanya pada variabel pertama
Y+ : jumlah pengamatan seri hanya pada variabel kedua
( )2
21a
Qn m
τ =−
(3.22)
dengan m = min(b;k). τa tidak berlaku jika terdapat pengamatan seri,
karena itu tidak berlaku untuk tabel kontingensi. Sedangkan τb dan τ
c
untuk menghitung assosiasi dua variabel dengan kategori peringkat.
Kelima ukuran ini tidak memiliki pengertian probabilistik, seperti halnya
koefisien korelasi. Ukuran assosiasi yang memiliki pengertian probabilistik
sehingga dapat digunakan untuk prediktif adalah
a. Lambda Goodman-Kruskal (Goodman dan Kruskal, 1979)
Identifikasi dahulu faktor prediktornya. Jika faktor baris sebagai perediktor
maka ukuran assosiasinya λB sedangkan faktor kolom sebagai Prediktor
maka ukuran assosiasinya λK
( ) ( )
( )1
k
ij ij
Bi
max n max n
n max nλ
+=
+
−=
−
∑ ,
( ) ( )( )
1
b
ij ji
Kj
max n max n
n max nλ
+=
+
−=
−
∑ (3.23)
0 < λB< 1 demikian juga 0 < λK< 1. Ukuran simetri (koefisien simetri)
U J I I N D E P E N D E N S I P A D A TA B E L D I M E N S I D U A 45
( ) ( ) ( ) ( )
( ) ( )1 1
2
b k
ij j j ii j
j i
max n max n max n max n
n max n max nλ
+ + += =
+ +
+ − −=
− −
∑ ∑ (3.24)
b. Gamma Goodman-Kruskal (Goodman, 1970, 1971)
Ukuran assosiasi ini diturunkan dari statistik Q dalam statistik Tau-Kendall.
Rumusnya :
)( NMQ+=γ (3.25)
γ = 1 terjadi dependensi sempurna dan γ=0 terjadi independensi
sempurna.
c. d Somers
Jika kita mempunyai dua variabel yang satu sebagai prediktor dan
yang lain sebagai respon , masing-masing variabel kategori peringkat,
maka ukuran assosiasinya dihitung dengan statistik d Somers. X sebagai
prediktor dan Y sebagai respon , statistik ini dinotasikan
( )YXQd
M N X +
=+ +
(3.26)
Y sebagai prediktor dan X sebagai respon, statistik ini dinotasikan
( )XYQd
M N Y+
=+ +
(3.27)
Antara tau kendal (τ2b ) dengan d Somers berlaku persamaan
τ2b = 4dxy
dyx
(3.28)
M O D E L L O G L I N E A R P A D A TA B E L K O N T I N G E N S I D I M E N S I D U A 47
4. MODEL LOGLINEAR PADA TABEL KONTINGENSI DIMENSI DUA
4.1 Pendahuluan
Sampai akhir 1960-an, tabel kontingensi atau tabel dua arah yang dibentuk
oleh klasifikasi variabel baris dan variabel kolom, biasanya dianalisis
menggunakan statistik Chi-square untuk pengujian kebebasan antara variabel
baris dan kolom. Ketika tabel terdiri dari lebih dari dua variabel, peneliti akan
menghitung statistik Chi-square untuk tabel dua arah dan kemudian kembali
untuk beberapa sub-tabel terbentuk dalam rangka untuk menentukan apakah
ada asosiasi atau interaksi yang terjadi antara variabel-variabel tersebut. Pada
tahun 1970-an analisis tabel kontingensi berubah cukup dramatis dengan
munculnya model loglinear oleh L. A. Goodman (1970, 1971). Sekarang ini,
aplikasi model linear sudah sangat luas dan banyak software yang sudah
memuat analisis loglinear.
Model Loglinear bisa dibilang model statistik yang paling populer dan penting
untuk analisis data kategorikal; lihat, misalnya, Bishop, Fienberg dan Holland
(1975), Christensen (1997). Model-model yang kuat, yang termasuk sebagai
kasus khusus model grafis [lihat, misalnya, Lauritzen (1996)] serta banyak
model logit [lihat, misalnya, Agresti (2002), Bishop, Fienberg dan Holland
(1975)], memiliki aplikasi dalam banyak bidang ilmiah, mulai dari ilmu sosial
dan biologi, hingga masalah kedokteran, penambangan data, pemrosesan
bahasa, dan genetika. Popularitas model Loglinear telah meningkat pesat
dalam beberapa dekade terakhir karena meningkatnya kebutuhan untuk
menganalisis data dalam bentuk tabel kontingensi yang besar dan sebagian
besar entri sel sangat kecil atau nol. Terlepas dari meluasnya penggunaan
model-model ini, penerapan dan sifat statistik dari model Loglinear masih
sangat kurang dipahami. Akibatnya, meskipun tabel kontingensi dimensi
tinggi merupakan jenis data yang umum dalam praktik.
48 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Model loglinear adalah salah satu kasus khusus dari Generalized Linear Model
(GLM). Analisis loglinear merupakan pengembangan dari analisis tabel
kontingensi dua arah atau lebih. Walaupun model loglinear dapat digunakan
untuk menganalisa hubungan antara dua variabel kategori (tabel kontingensi
dua arah), tetapi biasanya digunakan untuk mengevaluasi multi arah dari
tabel kontingensi yang melibatkan tiga atau lebih variabel. Dalam analisis ini
tidak membedakan antara variabel respon dan prediktornya. Model loglinear
hanya menunjukkan hubungan antara variabel-variabel. Jika satu atau lebih
variabel diperlakukan sebagai variabel dependen dan variabel lain sebagai
variabel independen, maka regresi logistik akan lebih tepat digunakan.
Analisis dengan model log linear dilakukan untuk mempelajari pola
assosiasi antara sekelompok variabel. Disamping itu juga digunakan untuk
memperkirakan banyaknya observasi yang diharapkan dalam tiap sel tabel
kontingensi. Selanjutnya berdasarkan nilai harapan itu dapat dihitung
beberapa statistik penting seperti proporsi, statistik rasio kecenderungan.
Analisis Loglinear merupakan pengembangan dari analisis tabel kontingensi.
Model Loglinear dapat digunakan untuk menganalisa hubungan antara
beberapa variabel kategori Analisis dengan model Loglinear dilakukan untuk
mempelajari pola assosiasi antara sekelompok variabel. Dalam analisis ini tidak
membedakan antara variabel respon (dependen) dan prediktor (independen).
Jika satu atau lebih variabel diperlakukan sebagai variabel dependen dan
variabel lain sebagai variabel independen, maka regresi logistik akan lebih
tepat digunakan.
Model Loglinear digunakan untuk memperkirakan banyaknya observasi
yang diharapkan dalam tiap sel tabel kontingensi. Selanjutnya berdasarkan
nilai harapan itu dapat dihitung beberapa statistik penting seperti proporsi,
statistik rasio kecenderungan.
4.2 Struktur Tabel Kontingensi Dua Arah
Hasil pengamatan yang melibatkan dua variabel kategorik, misalkan variabel
A yang memiliki b jenis dan variabel B yang memiliki k jenis dapat disajikan
dalam tabel kontingesi tabel kontingensi dua arah berukuran bxk sebagaimana
sebagaimana Tabel 4.1.
M O D E L L O G L I N E A R P A D A TA B E L K O N T I N G E N S I D I M E N S I D U A 49
Tabel 4.1.Tabel kontingensi bxk Faktor A dan Faktor B untuk data populasi
Variabel A Variabel B JumlahB
1B
2..... B
k
A1
µ11
µ12
....... µ1k
µ1+
A2
µ21
µ22
.......... µ2k
µ2+
... ...... ...... ....... ...... ......
Ab
µb1
µb2
........ µbk
µb+
Jumlah µ+1
µ+2
........ µ+k
N
µij adalah jumlah objek yang memiliki sifat A
i dan B
j, yang merupakan sel (i,j)
untuk data populasi.
µi0
adalah jumlah objek yang memiliki sifat Ai atau total frekuensi baris ke-i,
µ0j
adalah jumlah objek yang memiliki sifat Bj atau total frekuensi kolom ke-j,
N adalah total objek dalam populasi,
Dalam struktur probabilitas penyajian datanya adalah sebagai berikut
Tabel 4.2.Tabel distribusi bersama Faktor A dan Faktor B untuk data populasi
Variabel A Variabel B JumlahB1 B2 ..... Bk
A1
π11
π 12
....... π 1k
π 1+
A2
π 21
π 22
.......... π 2k
π 2+
... ...... ...... ....... ...... ......
Ab
π b1
π b2
........ π bk
π b+
Jumlah π +1
π +2
........ π +k
1
Dari Tabel 4.1. dan Tabel 4.2. dapat dibuat persamaan µij = Nπ
ij atau π
ij = µ
ij/N.
Simbol µ merupakan parameter rata-rata yang terdapat dalam distribusi
Poisson, sedangkan π merupakan parameter proporsi yang dapat ditemukan
dalam distribusi Binomial dan Multinomial.
πij adalah proporsi objek yang memiliki sifat A
i dan B
j, yang merupakan sel (i,j)
untuk data populasi
πi+
adalah proporsi objek yang memiliki sifat Ai atau
π+j
adalah proporsi objek yang memiliki sifat Bj atau
50 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Hasil pengamatan atas sampel random berukuran n dapat disajikan dalam
Tabel 4.3.
Tabel 4.3. Tabel kontingensi bxk Faktor A dan Faktor B untuk data sampel
Variabel A Variabel B JumlahB1 B2
... Bk
A1
y11
y12
... y1k
y1+
A2
y21
y22
... y2k
y2+
... ... ... ... ... ...
Ab
yb1
yb2
... ybk
yb+
Jumlah y+1
y+2
... y+k
n
yij adalah variabel random yang merupakan frekuensi untuk sel ke-(
i,j
) dimana
i=1,...,b dan j=1,...,k.
Data dalam tabel kontingensi dalam proses pengambilan sampel
diklasifikasikan menjadi dua yaitu (a) Randomisasi pada masing-masing baris
atau kolom (b) Randomisasi secara bersamaan antara baris dan kolom.
Proses randomisasi pada masing-masing baris atau kolom dilakukan dengan
menganggap bahwa setiap baris atau kolom mewakili kelompok atau populasi
tertentu. Proses randomisasinya dlakukan pada masing-masing baris tersebut.
Jumlah pengamatan pada setiap barisnya (yi+
) sudah ditentukan setiap baris.
Percobaan atau pengamatan yang terdiri terdiri dari b populasi dan masing-
masing populasi diambil sampel secara random sebesar Y1+
,...,Yb+
. Dengan
demikian derajad bebasnya sebesar b(k-1).
Proses randomisasi yang kedua adalah terjadi pada masing-masing sel( i,j )
karena randomisasi dilakukan secara besama-sama atara baris dan kolom.
Pengamatan seperti ini mempunyai asumsi bahwa objek penelitian hanya
berasal dari satu populasi. Proses ini mengakibakan jumlah pengamatan pada
setiap barisnya (Yi+
) ataupun pada setiap kolomnya (Y+j
) belum diketahui. Jika
total pengamatan (n) sudah ditetapkan maka disebut percobaan Multinomial
dengan struktur parameter seperti pada Tabel 4.1. Jika total pengamatan (n)
tidak ditetapkan dan pengamatan dibatasi oleh interval waktu atau luasan
M O D E L L O G L I N E A R P A D A TA B E L K O N T I N G E N S I D I M E N S I D U A 51
tertentu, maka disebut percobaan Poisson dengan struktur parameter seperti
pada Tabel 4.2. Pada percobaan multinomial, jumlah derajad bebasnya sebesar
(bk-1). Sedangan pada percobaan Poisson, derajad bebasnya sebesar bk.
Model Loglinear mempunyai asumsi bahwa unit percobaan/pengamatan
berasal dari satu populasi, sehingga randomisasi tidak dibatasi oleh total
pengamatan setiap baris maupun kolom. Yang perlu ditetapkan peneliti adalah
menggunakan percobaan Multinomial atau percobaan Poisson. Perbedaan
percobaan ini akan memberikan konsekuensi pada jumlah parameter yang
dapat diestimasi. Jumlah parameter yang dapat diestimasi pada percobaan
Poisson lebih besar dibandingkan dengan percobaan Multinomial.
4.3 Struktur Model Loglinear Dua Faktor
4.3.1 Model Independen
Berdasarkan sifat independensi dua kejadi A dan B, berlaku sifat
∩P(A B)=P(A).P(B). Jika Faktor A dan Faktor B saling independen, maka
peluang pengamatan jatuh pada sel (i,j) yaitu πij sama dengan perkalian
peluang margin baris ke-i (π
i+) dengan peluang margin kolom ke-
j (π
+j),
πij = π
i+. π
+j (4.1)
log πij = log π
i+ + log π
+j (log dibaca ”ln: logaritma natural)”)
Berdasarkan frekuensi teoritis (frekuensi data populasi),
µij = nπij ; µi+ = nπi+ ; µ+j = nπ+j (4.2)
Sehingga, jika asumsi independen terpenuhi maka berlaku sifat sebagai
berikutlog (µij)= log (nπij) dengan syarat µij > 0
= log (nπi+π+j) = log (πi+) + log (π+j) + log (n) (4.3)
atau bisa juga dinyatakan dalam parameter µ berikut log (µij)= log ([nπi+][nπ+j]/n)
= log (nπi+) + log (nπ+j) – log (n)= log (µi+) + log (µ+j) – log (n) (4.4)
52 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Berdasarkan persamaan (4.3) dengan mengambil
( ) ( )
( ) ( )
( ) ( )
1 1
1
1
1log log
1
1
b k
i ji j
bAi i i
ik
Bi j j
i
n logb
log logb
log logk
+ += =
+ +=
+ +=
λ = + π + π
λ = π − π
λ = π − π
∑ ∑
∑
∑
dapat disusun model loglinear independenlog (µij)= λ + λi
A + λjB atau µij = exp(λ + λi
A + λjB) (4.5)
Persamaan (4.5) disebut model Loglinear independen untuk dua Faktor A dan
B yang memuat parameter-parameter
µij : frekuensi yang diharapkan dalam setiap sel (i,j) dengan i = 1, ..., b dan
j=1,....,kλ : parameter rata-rata
λiA : parameter pengaruh tingkat ke-i faktor pertama (A)
λjB : parameter pengaruh tingkat ke-j faktor kedua (B)
Nilai parameter λiA →0 untuk semua i berarti tidak ada efek faktor A (Faktor
baris), hal ini menunjukan total frekuensi antar baris relatif sama. Demikian
juga Nilai parameter λjB →0 untuk semua j berari tidak ada efek faktor B (Faktor
kolom), hal ini menunjukan total frekuensi antar kolom relatif sama.
Untuk kepentingan estimasi parameter, perlu ditambahkan persyaratan
01
=∑=
b
i
Aiλ , 0
1=∑
=
k
j
Bjλ . Persyaratan atau lebih tepatnya pembatasan ini
dimaksudkan untuk menjamin parameternya dapat diestimasi. Parameter {λiA}
dan {λiB} merupakan nilai deviasi terhadap mean λ dan memenuhi sifat
01
=∑=
b
i
Aiλ , 0
1=∑
=
k
j
Bjλ .Dengan batasan ini, maka untuk parameter {λ
iA} yang
independen sebanyak (b-1) sehingga yang mesti dihitung hanya i=1,…,(b-1).
Demikian juga untuk parameter {λiB} yang independen sebanyak (k-1) sehingga
yang mesti dihitung hanya j=1,…,(k-1). Dengan adanya batasan ini maka
jumlah parameter dalam persamaan (4.5) sebanyak
M O D E L L O G L I N E A R P A D A TA B E L K O N T I N G E N S I D I M E N S I D U A 53
{1 + (b-1) + (k-1)} = b + k - 1. Cara pembatasan lain adalah dengan menetapkan salah satu parameter pada
masing-masing faktor diberikan nilai nol sebagaimana dalam sofware SPSS
dilakukan dengan cara menetapkan λb
A = 0 demikian juga λk
B = 0. Parameter
yang ditetapkan nilai menjadi nol ini dapat dipandang sebagai titik acuan
standar besaran efek sehingga nilai parameternya besarnya relatif terhadap
parameter standar.
Persamaan (4.5) dapat juga disajikan dalam parameter berdasarkan
persamaan (4.4)
a) ( )
( )
1 1
1 1
( ) ( ) ( ) b log
1 1( ) ( ) ( ) log
b bi ij i i j
b b
ij i ji i
log blog n
log log log nb b
= = + +
+ += =
µ = µ + µ −
µ = µ + µ −
∑ ∑
∑ ∑
b) ( )
( )
1 1
1 1
( ) ( ) ( ) log
1 1( ) ( ) ( ) log
k kj
k k
ij i j j
ij i ji i
log k log log k n
nk k
log log
= + = +
+ += =
= + −
= + −
∑ ∑
∑ ∑
µ µ µ
µ µ µ
c) ( )
( ) ( ) ( ) ( )
1 1 1 1 1
1 1 1
1 1 1 1
( ) log
( ) log( )
1 1 1 log
b k b k bi j ij i j i i
k b kj j i j
b k b k
ij i ji j i j
log
log n
log log log nbk b k
= = = = + =
= + = =
+ += = = =
= +
−
= + −
∑ ∑ ∑ ∑ ∑∑ ∑ ∑
∑∑ ∑ ∑
µ µ
µ
µ µ µ
Berdasarkan persamaan (a), (b) dan (c),
( ) ( ) ( )
( ) ( ) ( )
jj j
ii i
log log log log nn
log log log log nn
++ +
++ +
π = = −
π = = −
µµ
µ µ
54 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
maka
a) (4.6)
b) (4.7)
c) (4.8)
Persamaan (4.5) adalah model Loglinearnya dengan asumsi Faktor A dan
Faktor B independen. Susunan model Loglinear identik dengan analisis
variansi (ANOVA : Analysis of Variance). Perbedaannya adalah dalam ANOVA
diasumsikan data berdistribusi Normal sedangkan dalam Loglinear data
berbentuk cacah (frekuensi). Dengan Mengadopsi model ANOVA, dapat
disusun model yang memuat efek interaksi antara Faktor A dan Faktor B.
4.3.2 Model Lengkap
Andaikan Faktor A dan Faktor B tidak independen, model Loglinear untuk dua
variabel dapat disajikan sebagai
log(µij) = λ + λiA + λj
B + λijAB i = 1, ..., b dan j=1,....,k (4.9)
M O D E L L O G L I N E A R P A D A TA B E L K O N T I N G E N S I D I M E N S I D U A 55
µij : frekuensi yang diharapkan dalam setiap sel (i,j) dengan syarat µ
ij > 0
λ : parameter rata-rata umum
λiA : parameter pengaruh tingkat ke-i faktor pertama (A)
λjB : parameter pengaruh tingkat ke-j faktor kedua (B)
λij
AB : parameter pengaruh faktor interaksi pada sel (i,j)
dengan syarat 01
=∑=
b
i
Aiλ , 0
1=∑
=
k
j
Bjλ ,
10
bAB
iji
λ=
=∑ ,1
0.k
ABij
jλ
=
=∑ Model yang
memuat semua faktor interaksi sebagaimana persamaan (4.9 )disebut model
lengkap (Saturated Model). Pada model lengkap ini jumlah parameter dalam
persamaan (4.9) sebanyak
{1 + (b-1) + (k-1) + (b-1)(k-1)} = bk.
{λij
AB } menggambarkan tingkat hubungan antara faktor A dan faktor B. Jika {λij
AB}
nilainya mendekati nol berarti faktor A dan faktor B cenderung independen.
Dengan adanya syarat 1
0b
ABij
iλ
=
=∑ dan 1
0k
ABij
jλ
=
=∑ jumlah parameter yang
independen sebanyak (b-1)(k-1). Nilai parameter { λij
AB } yang dihitung cukup
pada sel pada baris ke-1 sampai dengan baris ke-(b-1) dan sel pada kolom ke-1
sampai dengan ke-(k-1).
{ λij
AB } untuk i=1,...,(b-1) dan j=1,...,k.
Parameter {λiA} dan {λ
jB} merupakan nilai deviasi terhadap mean dan memenuhi
sifat 01
=∑=
b
i
Aiλ , 0
1=∑
=
k
j
Bjλ . Dengan batasan ini, maka untuk parameter
{λiA} yang independen sebanyak (b-1) sehingga yang mesti dihitung hanya
i=1,…,(b-1). Demikian juga untuk parameter {λjB} yang independen sebanyak
(k-1) sehingga yang mesti dihitung hanya j=1,…,(k-1).
Misal terdapat dependensi antara faktor baris dan faktor kolom serta untuk
semua i dan
j , . Misalkan
1
1 1 1
1( ); ;
1 1;
kij ij i ijj
b b bj ij iji i i
logk
b bk
θ µ θ θ
θ θ θ θ
+ =
+ ++= = =
= =
= =
∑
∑ ∑ ∑
56 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Nilai parameter-parameter yang terdapat dalam persamaan (4.9) dapat
dihitung menggunakan persamaan berikut ini (Agresti, 2002)
i.
1 1 1 1
1 1 ( )b k b k
ij iji j i j
logbk bk
++
= = = =
λ
λ =
= =∑∑ ∑∑
θ
θ µ
(4.10)
ii.
1 1 1 1 1 1
1 1 1( ) ( )1
Ai i
k b k k b k
ij ij ij ijj i j j i j
iA log log
k bk bkk
+ ++
= = = = = =
λ
λ = − =
=
∑ ∑∑ ∑ ∑∑
θ θ
θ θ µ
−
µ
(4.11)
iii.
1 1 1 1 1 1
1 1 1( ) ( )1
Bj j
b k b k
ij ij j ij iji
B
i j j i
b b
j
log logbk bkb b
+ ++
= = = = = =
λ
=
=
λ −− =∑ ∑∑ ∑ ∑∑
θ
θ
− θ
θ µ µ
(4.12)
iv.
1 1 1 1
1 1 1 1
1 1
1 1 1( ) ( ) ( )
1
) (
k
ABj ij i j
b
j
k
ij ij ij ijj j i j
k b b
bAB
b
ij ij ij ii
j
ABj
j i i
bk
g
k
log log log lok b b
b
k
+ + ++
= = = =
= = = =
+
λ = − − +
λ
λ =
− − +=
∑ ∑ ∑∑
∑ ∑ ∑∑
θ θ θ θ
θ θ θ
−
µ
−
θ
µ µ µ
(4.13)
Pada frekuensi sel (i,j), model Poisson µij = exp(λ + λ
iA + λ
jB + λ
ijAB) dapat
dikonversi menjadi model Multinomial. Probabilitas sel (i,j) adalah
( )( )
1 1
1 1
exp
exp
ijij k b
j i ij
A B ABi i ij
ij k b A B ABj i i i ij
= =
= =
π =
λ + λ + λ + λπ =
λ + λ + λ + λ
∑ ∑
∑ ∑
µµ
M O D E L L O G L I N E A R P A D A TA B E L K O N T I N G E N S I D I M E N S I D U A 57
4.3.3 Visualisasi Model pada Tabel 2x2
Pada tabel 2x2, parameter λ, λA , λB dan λAB dapat divisualisasikan pada kondisi
λ2
A = λ2
B = 0 demikian juga λ12
AB=λ21
AB=λ22
AB=0. λA menjelaskan efek faktor A
terhadap sebaran frekuensi. λB menjelaskan efek faktor B terhadap sebaran
frekuensi dan λAB menjelaskan efek faktor interaksi AB terhadap sebaran
frekuensi.
a. Tidak ada pengaruh faktor A dan B
Jika tidak ada pengaruh faktor A maupun B maka λA =0 dan λB = 0.
Sehingga tabel sebaran nilai pengaruh menjadi sebagaimana Tabel
4.4.dan dapat divisualkan pada Gambar 4.1.
Tabel 4.4. Sebaran parameter pada kondisi tidak ada pengaruh faktor A dan B.
Faktor B Bc
A λ λ
Ac λ λ
Total pengamatan sebesar N tersebar secara merata di empat sel,
sehingga berdasarkan persamaan (4.5)
n = 4exp(λ) atau λ = log (n/4)
Pada kondisi ini, µ11
= µ12
= µ21
= µ22
= n/4. Visualisasinya seperti pada
Gambar 4.1.
B Bc
A
Ac
Gambar 4.1. Model independen, tidak ada pengaruh faktor A dan Faktor B.
58 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
b. Tidak ada pengaruh faktor A dan ada pengaruh faktor B
Pada keadaan tidak ada pengaruh faktor A (λA=0) dan ada pengaruh faktor
B (λB≠0), terdapat dua kemungkinan yaitu frekuensi pada B lebih tinggi
dibandingkan dengan Bc atau sebaliknya frekuensi pada Bc lebih tinggi
dibandingkan dengan B. Dengan menetapkan λB > 0 pada Bc bernilai nol
(λB = 0), keadaan ini dapat diilustrasikan dalam Tabel 4.5.
Tabel 4.5. Sebaran parameter pada kondisi tidak ada pengaruh faktor A dan terdapat
pengaruh B
Faktor B Bc
A λ+λB λ
Ac λ+λB λ
Tidak ada pengaruh faktor A berarti bahwa frekuensi pada baris A sama
dengan frekuensi pada baris Ac.
µ11
= µ21
dan µ12
= µ22
Parameter-parameternya dapat dihitung menggunakan persamaan
λ = log (µ12) atau λ = log (µ22) λB = log (µ11) - log (µ21) atau λB = log (µ21) - log (µ22)Total pengamatan sebesar n, sehingga berdasarkan persamaan (4.5)
pada keadaan 1 diperoleh persamaan
n = 2[exp(λ+λB) + exp(λ)]
= 2exp(λ)[exp(λB) + 1]
M O D E L L O G L I N E A R P A D A TA B E L K O N T I N G E N S I D I M E N S I D U A 59
Visualisasi seperti pada Gambar 4.2.
B Bc
A
Ac
Gambar 4.2. Model independen, tidak ada pengaruh faktor A dan Faktor B.
c. Ada pengaruh faktor A dan tidak ada pengaruh faktor B
Pada keadaan ada pengaruh faktor A (λA≠0) dan tidak ada pengaruh
faktor B (λB=0), terdapat dua kemungkinan yaitu (1) Keadaan 1 : frekuensi
pada A lebih tinggi dibandingkan dengan Ac (2) Keadaan 2 : frekuensi
pada Ac lebih tinggi dibandingkan dengan A. Dengan menetapkan λA
pada Ac bernilai nol (λA = 0), kedua keadaan ini dapat diilustrasikan dalam
Tabel 4.6.
Tabel 4.6. Sebaran parameter pada kondisi terdapat pengaruh faktor A dan tidak terdapat
pengaruh B
Faktor B Bc
A λ+λA λ+λA
Ac λ λ
Tidak ada pengaruh faktor B berarti bahwa frekuensi pada kolom B
sama dengan frekuensi pada kolom Bc.
µ11
= µ12
dan µ21
= µ22
Parameter-parameternya dapat dihitung menggunakan persamaan
λ = log (µ22
) atau λ = log (µ21
)
λA = log (µ11
) - log (µ22
) atau λA = log (µ12
) - log (µ22
)
60 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Total pengamatan sebesar n, sehingga berdasarkan persamaan (4.5)
diperoleh persamaan
n = 2[exp(λ+λA) + exp(λ)]
= 2exp(λ)[exp(λA) + 1]
Visualisasi keadaan 1 diilustrasikan pada Gambar 4.3.
B Bc
A
Ac
Gambar 4.3. Model independen, terdapat pengaruh faktor A tetapi tidak terdapat pengaruh
Faktor B.
d. Terdapat pengaruh faktor A dan faktor B tetapi tidak ada efek interaksi
Pada keadaan ada pengaruh faktor A (λA≠0) dan ada pengaruh faktor B
(λB≠0), terdapat empat kemungkinan keadaan, (1) empat sel memiliki
frekuensi yang berbeda-beda (2) salah satunya adalah Keadaan 1 :
frekuensi pada A lebih tinggi dibandingkan dengan Ac dan frekuensi
pada B lebih tinggi dibandingkan dengan Bc. Dengan menetapkan λ pada
Ac dan pada Bc bernilai nol (λ2
A =λ2
B = 0), Keadaan 1 ini dapat diilustrasikan
dalam Tabel 4.7.
Tabel 4.7. Terdapat pengaruh faktor A dan pengaruh faktor B tetapi tidak ada efek interaksi
Faktor B Bc
A λ+λA+λB λ+λA
Ac λ+λB λ
M O D E L L O G L I N E A R P A D A TA B E L K O N T I N G E N S I D I M E N S I D U A 61
Frekuensi masing-masing sel
µ22
= exp (λ) sehingg λ = log(µ22
) (4.13)
µ12
= exp (λ+λA) sehingga λA = log(µ12
) - log(µ22
) (4.14)
µ21
= exp (λ+λB) sehingga λB = log(µ21
) - log(µ22
) (4.16)
µ11
= exp (λ+λA+λB) (4.17)
Dapat divisualisasikan dalam Gambar 4.4.berikut
B Bc
A
Ac
Gambar 4.4. Model independen, terdapat pengaruh faktor A dan pengaruh Faktor B.
Total pengamatan sebesar n, sehingga berdasarkan persamaan (4.5)
n = [exp(λ+λA+λB) + exp(λ+λA) + exp(λ+λB) + exp(λ) ]
= exp(λ)[exp(λA+λB) + exp(λA) + exp(λB) + 1]
= exp(λ)[exp(λA)(exp(λB) + 1) + exp(λB) + 1]
= exp(λ)(exp(λB) + 1)(exp(λA) + 1)
e. Terdapat interaksi antara Faktor A dan Faktor B
Interaksi Faktor A dan Faktor B dapat terjadi dalam jika P(A|B) ≠ P(A|Bc)
atau P(B|A) ≠ P(B|Ac). kejadian ini dapat diilustrasikan dalam Tabel 4.8.
Tabel 4.8. Sebaran parameter pada kondisi terdapat pengaruh faktor A dan faktor B
Faktor B Bc
A λ+λA+λB +λAB λ+λA
Ac λ+λB λ
62 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Frekuensi masing-masing sel
µ22
= exp(λ) sehingga λ = log(µ22
) (4.18)
µ12
= exp(λ+λA) sehingga λA = log(µ12
) - log(µ22
) (4.19)
µ21
= exp(λ+λB) sehingga λB = log(µ21
) - log(µ22
) (4.20)
µ11
= exp(λ+λA+λB +λAB) sehingga
λAB = log(µ11
) - log(µ21
) - log(µ12
) + log(µ22
) (4.21)
Dapat divisualisasikan dalam Gambar 4.5.berikut
B Bc
A
Ac
Gambar 4.5. Model lengkap, terdapat pengaruh faktor interaksi AB.
Total pengamatan sebesar n, sehingga berdasarkan persamaan (4.5)
n = [exp(λ+λA+λB+ λAB) + exp(λ+λA) + exp(λ+λB) + exp(λ) ]
= exp(λ)[exp(λA+λB+ λAB) + exp(λA) + exp(λB) + 1]
= exp(λ)[exp(λA)(exp(λB) + 1) + exp(λB) + 1]
Jika hanya mensyaratkan syarat 01
=∑=
b
i
Aiλ , 0
1=∑
=
k
j
Bjλ ,
10
bAB
iji
λ=
=∑ ,
10
kAB
ijj
λ=
=∑ maka pada tebel 2x2 diperoleh nilai pembatas
λ1A = -λ2
A ; λ1B = -λ2
B ; λ11AB = -λ12
AB = = -λ21AB = = λ22
AB.
Struktur parameter pada tabel 2x2 untuk model lengkap adalah
sebagaimana pada Tabel 4.9.
M O D E L L O G L I N E A R P A D A TA B E L K O N T I N G E N S I D I M E N S I D U A 63
Tabel 4.9. Sebaran parameter pada kondisi terdapat pengaruh faktor interaksi AB
Faktor B Bc
A λ+λA+λB +λAB λ+ λA - λB - λAB
Ac λ - λA+λB - λAB λ- λA - λB +λAB
Diperoleh empat persamaan berikut
i. log(µ11
) = λ + λA + λB +λAB
ii. log(µ12
) = λ + λA - λB - λAB
iii. log(µ21
) = λ - λA + λB - λAB
iv. log(µ22
) = λ - λA - λB +λAB
Menghitung nilai parameter λ, λA, λB, dan λAB dapat digunakan metode eliminasi
atau bisa juga menggunakan persamaan simultan berikut
( )( )( )( )
( )( )( )( )
11
12
21
22
111
12
21
22
1 1 1 11 1 1 11 1 1 11 1 1 1
1 1 1 11 1 1 11 1 1 11 1 1 1
A
B
AB
A
B
AB
loglogloglog
loglogloglog
−
− − = − − − −
− − = − −
λλλλ
λλλ
− − λ
µµµµ
µµµµ
Secara umum dapat dinotasikan menjadi λ = X-1θ dengan λ adalah vektor
memuat parameter, X biasa disebut dengan matrik rancangan dan θ adalah
vector yang memuat nilai logarima natural pada masing-masing sel dalam
tabel kontingensi.
Jika diselesaikan menggunakan metode eliminasi, maka langkah-
langkahnya adalah sebagai berikut
a. Langkah 1. Berdasarkan operasi pengurangan persamaan (ii) dengan
persamaan (iii), diperoleh 2λA - 2λB = log(µ12) - log(µ21)
64 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
b. Langkah 2. Berdasarkan operasi pengurangan persamaan (i) dengan
persamaan (iv), diperoleh
2λA + 2λB = log(µ11) - log(µ22)
Sehingga berdasarkan hasil pada langkah 1, diperoleh 4λA = log(µ11) + log(µ12) - log(µ21) - log(µ22)
λA = [log(µ11) + log(µ12) - log(µ21) - log(µ22)]/4 (4.22)
λB = [log(µ11) + log(µ21) - log(µ12) - log(µ22)]/4 (4.23)c. Langkah 3. Berdasarkan operasi penjumlahan persamaan (i) dengan
persamaan (iv), diperoleh2λ +2λAB = log(µ11) + log(µ22)
d. Langkah 4. Berdasarkan operasi penjumlahan persamaan (ii) dengan
persamaan (iii), diperoleh2λ - 2λAB = log(µ12) + log(µ21)
Sehingga berdasarkan hasil pada langkah 3, diperoleh4λ = log(µ11) + log(µ12) + log(µ21) + log(µ22)
λ = [log(µ11) + log(µ12) + log(µ21) + log(µ22)]/4 (4.24)
λAB = [log(µ11) + log(µ22) - log(µ12) - log(µ21)]/4 (4.25)
Hasil pada persamaan 4.22 sampai dengan persamaan 4.25 ini sama dengan
rumus yang telah dinyatakan pada persamaan 4.10 sampai dengan persamaan
4.12.
4.4 Estimasi Parameter dan Uji Goodness of Fit
Distribusi Poisson mempunyai fungsi probabilitas untuk masing-masing sel
(i,j) sebagai berikut
( ) ( );
!
ij ijyij
ij ijij
ef y
y
µ µµ
−
= , untuk y = 0, 1, 2, .. (4.26)
Untuk mengestimasi parameter ijµ dapat digunakan metode maksimum
likelihood (Myers dkk, 2007). Rata – rata ( ijµ ) dalam regresi Poisson
dimodelkan sebagai fungsi dari sejumlah variabel independen. Adapun untuk
mengestimasi parameter yaitu dengan menggunakan fungsi likelihood dan
persamaan yang didasari dari distribusi Poisson
M O D E L L O G L I N E A R P A D A TA B E L K O N T I N G E N S I D I M E N S I D U A 65
( ) ( )
( )
1 1
1 1
, ,
( ),
!
ij ij
b k
ij iji j
yb kij
i j ij
L y f y
eL y
y
µ
µ µ
µµ
= =
−
= =
=
=
∏∏
∏∏
Fungsi Log-likelihoodnya menjadi
( ) ( )1 1 1 1 1 1
, ( ) !b n b k b k
ij ij ij iji j i j i j
LL y y log log yµ µ µ= = = = = =
= − −∑∑ ∑∑ ∑∑ (4.27)
Jika hanya sebatas mencari penaksir parameter ijµ , maka ( ),
0ij
LL y∂=
∂µ
µuntuk semua i dan
j.
Pada model Saturated, log(µij) = λ + λi
A + λjB + λij
AB i = 1, ..., b dan j=1,....,k.
Derivatif terhadap masing-masing parameter ijµ ,
( ),1
ˆ
ij
ij ij
ij ij
yLL y
y
∂= −
∂
=
µµ µ
µ
(4.28)
Pada model yang tidak memuat efek interaksi,
log(µij) = λ + λiA + λj
B estimatornya adalah
1 1ˆ ˆ ˆ; i jk b
i i j ij j j i ij ij
y yy y y y dan
n+ +
+ + = + + == = = = =∑ ∑µ µ µ (4.29)
Untuk menguji model manakah yang paling sesuai dengan data diantara dua
pilihan model
Model 1 : Model yang tidak memuat efek interaksi (interaksi A dan B tidak
signifikan)
Model 2 : Model Saturated (Interaksi A dan B signifikan)
Model 1 disebut model reduksi karena jumlah parameternya lebih kecil
dibandingkan dengan model saturated. Format pengujian ini disebut uji
goodness of fit dengan hipotesis
H0 : Model 1 sesuai dengan data (interaksi A dan B tidak signifikan)
H1 : Model 2 sesuai dengan data (Interaksi A dan B signifikan)
66 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Statistik uji Chi-square Pearson adalah 2
2
1 1
ˆ( )ˆ
b kij ij
i j ij
y µχ
µ= =
−= ∑∑
(4.30)
Hipotesis tersebut dapat diuji menggunakan statistik likelihood rasio
2
1 12
ˆ
b kij
iji j ij
yG y log
µ= =
=
∑∑ (4.31)
Statistik G2 maupun χ2 mempunyai distribusi mendekati distribusi Chi-square
yang mempunyai derajad bebas sama dengan selisih jumlah parameter dalam
model saturated dan model reduksi. Nilai kedua statistik tersebut sangat
dipengaruhi oleh besar sampel yang digunakan untuk menguji hipotesis.
Misalkan ukuran sampel awal sebesar n, jika dibandingkan dengan ukuran
sampel sebesar c.n maka statistiknya menjadi c.G2 atau c.χ2. Oleh karena itu
semakin besar ukuran sampelnya maka akan berdampak pada kesimpulan,
yaitu kemungkinan menolak H0 semakin besar.
4.4.1 Estimasi Parameter Efek Faktor.
Pada model loglinear log(µij) = λ + λiA + λ
jB + λ
ijAB maka persamaan yang akan
digunakan untuk memperoleh parameter dengan menggunakan metode
MLE adalah:
( ) ( )~ 1 1 1 1 1 1
, ( ) ( ) !b n b k b k
A B AB A B ABij i j ij i j ij ij
i j i j i jLL y y exp log yλ λ λ λ λ λ λ λ λ
= = = = = =
= + + + − + + + −∑∑ ∑∑ ∑∑ (4.32)
Vektor ~λ memuat semua parameter λ, λi
A, λjB, λij
AB untuk semua i dan j.
Metode MLE mensyaratkan( , ) 0LL y λλ
∂=
∂dan matrik Hessian (H) bersifat definit positif. Matrik Hessian tersebut adalah
( )2
~
~ ~
,T
LL yH
λ
λ λ
∂=
∂ ∂
Tidak seperti pada analisis regresi yang biasa, bahwa pada turunan pertama
fungsi log-likelihoodnya tidak dapat langsung diperoleh nilai parameternya,
sehingga salah satu metode untuk menghitung MLE yaitu dengan
menggunakan teknik iteratif.
M O D E L L O G L I N E A R P A D A TA B E L K O N T I N G E N S I D I M E N S I D U A 67
Beberapa metode yang dapat diusulkan untuk menghitung MLE melalui
teknik iteratif ini, diantaranya adalah metode linierisasi, turunan paling terjal
(steepest descent). Myers (1990) mengusulkan untuk menggunakan metode
yang disebut metode kuadrat terkecil terbobot ulang secara iteratif (Iterative
reweighted least square, IRLS) dan metode Gauss-Newton. Sedangkan metode
yang lebih umum digunakan pada masalah ini adalah metode Newton-
Raphson (Agresti, 2002).
Metode Newton Raphson merupakan salah satu metode untuk
menghitung MLE melalui teknik iteratif dengan metode pendekatan yang
menggunakan satu titik awal.
[ ] )(1)()(
~
)1(
~
tttt gH −+ −= λλ , (4.33)
dimana: ( ) ( )tLL y,
gλ
λ
∂=
∂
dan ( ) ( )2
tT
LL y,H
λ
λ λ
∂=
∂ ∂
.
Indeks t menunjukan hasil iterasi ke-t.
4.4.2 Estimasi Parameter pada Distribusi Multinomial Fungsi likelihood dari distribusi multinomial adalah
1111 11 11
11 21
!( ,..., | ,..., ; ) ...! !... !
bkxybk bk bk
bk
nL y y ny y y
π π π π=
Fungsi log-likelihoodnya adalah
( )11 11
1 111 21
( ,..., | ,..., ; )
! ( )! !... !
bk bk
b k
ij iji i jbk
LL log L y y n
nLL log y logy y y
π π
π= = =
=
= +
∑ ∑
Dalam mencari nilai π yang memaksimalkan fungsi LL tidak dapat dilakukan
secara langsung, karena terdapat pembatasan bahwa k
ij1 j 1
1b
iπ
= =
=∑∑sebagaimana pada persamaan (4.5). Oleh karena itu perlu digunakan Lagrange
multipliers. k
ij1 j 1
(1 )b
iLLg LL λ π
= =
= + − ∑∑Parameter sesungguhnya yang akan dicari adalah
~λ memuat semua parameter
λ, λiA, λj
B, λijAB untuk semua i dan j yang memiliki persamaan
68 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
πij = 1n
exp(λ + λiA + λj
B + λijAB)
Selanjutnya, berdasarkan dengan menggunakan aturan 0~
=∂
∂∂
λπ
πLLg
dan
sifat derivative ke dua (Matrik Hessian H), yaitu
~~
2
λλ ∂∂∂
= T
LLgH
Bersifat definite positif. Sebagaimana pada distribusi Poisson, penyelesaian
persamaan nya menggunakan metode iterasi.
Pendekatan lain yang bisa digunakan adalah sifat invariant dari metode MLE
memiliki sifat invariant, sehingga estimator. Berdasarkan penaksir MLE sebagai
mana pada persamaan (4.28) dan persamaan (4.29) pada model lengkap dan
pada model independen
ˆ ˆ ˆ;i jij i i j j
y yy y
n+ +
+ + + += = =µ µ µdan
dapat disusun penaksir untuk parameter semua parameter λ, λiA, λ
jB, λ
ijAB untuk
semua i dan j seperti disajikan pada Tabel 4.10. Persamaan untuk parameter λ,
{λiA }, {λ
jB } dan {λ
ijAB } yang dihitung berdasarkan asumsi
1 1 1 10, 0, 0, 0
b k b kA B AB AB
i j ij iji j i j
λ λ λ λ= = = =
= = = =∑ ∑ ∑ ∑telah diperoleh sebagaimana pada persamaan (4.6), (4.7), (4.8) untuk
model independen dan persamaan (4.10) , (4.11) dan (4.12) untuk model
lengkap.
M O D E L L O G L I N E A R P A D A TA B E L K O N T I N G E N S I D I M E N S I D U A 69
Tabel 4.10. Penaksir MLE untu parameter λ, {λiA }, {λ
jB } dan {λ
ijAB }
Parameter Model Independen Model lengkap
λ( )
( )1 1
1 1) l ˆog
lo
ˆ
g
b k
i ji j
logb k
n
+ += =
+
−
∑ ∑µ µ1 1
1 ( )b b
iji i
log ybk = =
∑∑
{λiA}
1
1( ) (ˆ )ˆb
i ii
log logb+ +
=
− ∑µ µ1 1 1
1 1( ) ( )k b b
ij ijj i i
log y log yk bk= = =
−∑ ∑∑
{λjB }
1
1( ) (ˆ )ˆj ji
k
l gk
og lo+ +=
− ∑µ µ1 1 1
1 1( ) ( )b b
ij iji i i
b
log y log ybkb = = =
−∑ ∑∑
{λij
AB } -1 1
1 1
1 1( ) ( ) ( )
1 ( )
k b
ij ij ijj i
b b
iji i
log y log y log yk b
log ybk
= =
= =
− −
+
∑ ∑
∑∑
4.5 Contoh Kasus Tabel 2x2.
Data pengamatan terhadap 2121 orang mengenai kadar Kolesterol (Normal,
Tinggi) dan tekanan darah Diastolik (Normal, Tinggi) diperoleh data pada Tabel
4.11.
Tabel 4.11. Kadar Kolesterol dan tekanan darah Diastolik
Kolesterol Diastolik Total
Normal TinggiNormal 1535 146 1681
Tinggi 393 47 440
Total 1928 193 2121
70 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Berdasarkan observasi tersebut, dapat disusun tabel proporsi sebagaimana
Tabel 4.12.
Tabel 4.12. Proporsi kolesterol dan tekanan darah
Kolesterol Diastolik Total
Normal TinggiNormal 0.723715 0.068835 0.792551
Tinggi 0.18529 0.022159 0.207449
Total 0.909005 0.090995 1
Pada tabel 2x2, model Loglinear yang disusun dengan asumsi independen akan
memiliki tiga parameter yaitu λ, λ1
A dan λ1
B. Berdasarkan nilai proposi pada
tabel Tabel 4.12, untuk model independen dengan menggunakan persamaan
(4.6) sampai dengan persamaan (4.8) diperoleh penaksir parameter masing-
masing
( )
( ) ( ) ( ) ( ) ( )
( ) ( ) ( )
1 1
1
1
1 2
1 1( ) ( ) log
1 1{( log 1681 log 440 } {( log 1928 log 193 } 21212 2
ˆ 5,5107811( ) ( )
1log 1681 {( log 1681 log 440 }2
0,670185 0, 0
ˆ
ˆ
ˆ ˆ 67 185
b k
i ji j
bAi i i
i
A
A A
Bj
log log nb k
log
log logb
l
+ += =
+ +=
λ = µ + µ −
λ = + + + −
λ =
λ = −
λ = − +
λ = λ = −
λ =
∑ ∑
∑
sehingga
µ µ
1
1 2
1( ) ( )
1,150744 1,150744ˆ ˆ
k
j ji
B B
og logk+ +
=
−
λ = λ = −
∑sehingga
µ µ
M O D E L L O G L I N E A R P A D A TA B E L K O N T I N G E N S I D I M E N S I D U A 71
Untuk model lengkap (saturated), estimasi parameternya dapat dihitung
menggunakan persamaan (4.10) sampai dengan (4.12).
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
11 12 21 22
A11 12 21 22
1
1 2
/ 4
1 {( log 1535 log 146 } ( log 393 log 47 }45.535962
/ 4
1 [ log 1535 log 146 log 393 log 47 ]40.623984 0.623984
ˆ
ˆ
ˆ
ˆ ˆ
A
A A
log log log log
log log log log
µ µ µ µ
µ µ µ µ
λ = + + +
λ = + + +
λ =
λ = + + +
λ = + − −
λ = λ = −
sehingga
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
B11 12 21 22
1
1 2
AB11 12 21 22
1
11
/ 4
1 {log 1535 log } log log 47 }41.
ˆ 393 146
ˆ ˆ
ˆ 47 393
119085 1.119085
/ 4
1 [log 1535 log log log 146 ]40.ˆ
B
B
A
A
B
B
log log log log
log log log log
µ µ µ µ
µ µ µ µ
λ = + − −
λ = + − −
λ = λ = −
λ = + − −
λ = +
− −
=
λ
sehingga
12 21
22
057254 0.057254
0.05
ˆ
ˆ 7 4
ˆ
25
AB AB
AB
λ = λ = −
λ =
sehingga
dan
Berdasarkan nilai estimator ini, dapat digunakan untuk menghitung frekuensi
harapan masing-masing sel yang hasilnya disajikan pada Tabel 4.13.
72 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Tabel 4.13. Nilai frekuensi harapan dan observasi
Baris (i) Kolom (j) yij Model lengkap Model Independen
1 1 1535 1535 1528.0381 2 146 146 152.96232 1 393 393 399.96232 2 47 47 40.03772
Uji goodness of fit dengan hipotesis
H0 : Model yang tidak memuat efek interaksi (interaksi A dan B tidak signifikan)
H1 : Model Saturated (Interaksi A dan B signifikan)
Diperoleh nilai statistik Chi-square Pearson dan Likelihood rasio seperti pada
Tabel 4.14.
Tabel 4.14. Nilai statistik Chi-square Pearson dan Likelihood rasio
Statistik Nilai p-value KesimpulanChi-square Pearson (χ2) 1.680508 0.194857 Gagal tolak H
o
Likelihood rasio (G2) 1.621443 0.202891 Gagal tolak Ho
Pada kasus yang sama sebagaimana data pada Tabel 4.11. jika dianalisis
menggunakan asumsi yang berbeda, yaitu dengan menetapkan λ2
A = 0
demikian juga λ2
B = 0 maka akan menghasilkan nilai penaksir parameter yang
berbeda. Pada model independen, berdasarkan persamaaan (4.13) sampai
dengan persamaan (4.17) diperoleh
i. 22( )
(47) 3.850 48ˆ 1
log
log= =λ
= µλ
ii. 12 22
1
1
)ˆ( ) ( )
(146) (47
1.133459ˆ
A
A
A
log log
log log
λ = µ − µ
=λ
λ
−
=iii. 21 22
1
1
)ˆ( ) ( )
(393) (47
2.123662ˆ
B
B
B
log log
log log
λ = µ − µ
=λ
λ
−
=
M O D E L L O G L I N E A R P A D A TA B E L K O N T I N G E N S I D I M E N S I D U A 73
Untuk model lengkapnya, berdasarkan persamaan (4.18) sampai dengan
persamaan (4.21) diperoleh penaksir masing-masing parameternya sebagai
berikut (i) λ = log(µ22)
= 3.850148
(ii) λA = log(µ12) - log(µ22)
(iii) λB = log(µ21) - log(µ22)
(iv) λAB = log(µ11) - log(µ21)- log(µ12) + log(µ22)
Hasil ini sesuai dengan perhitungan menggunakan software SPSS. Pada proses
perhitungan di dalam SPSS menetapkan penambahan 0.5 pada masing-
masing sel untuk menghindari ditemukanya sel dengan frekuensi nol.
4.6 Contoh Kasus Tabel bxk.
Penelitian untuk tentang hubungan antara profesi (A1, A2, A3, A4) dan afiliasi
politiknya (B1, B2, B3) di suatu daerah, Hasil survey disajikan pada Tabel 4.15.
Tabel 4.15. Data afiliasi Partai dan Profesi.
ProfesiPartai
JumlahB1 B2 B3
A1 34 61 16 111
A2 31 19 17 67
A3 19 23 16 58
A4 23 39 12 74
Jumlah 107 142 61 310
Uji independensi Faktor Profesi terhadap Faktor Partai dapat dilakukan
menggunakan statistik Pearson dan Likelihood Rasio dengan hipotesis
H0 : Faktor Profesi independen terhadap Faktor Partai
H1 : Faktor Profesi tidak independen terhadap Faktor Partai
74 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Diperoleh nilai
χ2 = 16.161 (p-value = 0.013) dan G2 = 16.390 (p-value = 0.012)
derajad bebasnya sebesar (4-1)(3-1) = 6. Pada tingkat signifikansi α=0.01
mempunyai nilai χ2(6)
= 6.81, sehingga dapat disimpulkan tolak H0 yang
berarti terdapat interaksi antara profesi dan partai. Dengan kata lain, profesi
mempengaruhi afiliasi partai politik.
Namun demikian kita dapat mengeksplorasi secara visual untuk melihat
adanya efek interaksi mengingat nilai statistiknya mendekati titik batas.
Berdasarkan Gambar 4.6. berikut terlihat bahwa pada Profesi A2 memiliki pola
yang berbeda dibandingkan dengan tiga profesi yang lain.
(a) Frekuensi (b) ProporsiGambar 4.6. Grafik profesi dan afiliasi partai
Untuk menggambarkan kondisi populasi, lebih tepat menggunakan Gambar
4.6.a. sedangkan untuk data sampel lebih baik menggunakan Gambar 4.6.b.
Jika Profesi A2 dikeluarkan dari kelompok analisis, maka akan menghasilkan
kesimpulan yang berbeda dengan hasil pengujian sebelumnya, yaitu
Profesi dan afiliasi Partai adalah saling independensi. Dapat ditunjukan dari
perhitungan diperoleh
χ2 = 5.770 (p-value = 0.217) dan G2 = 5.536 (p-value = 0.237)
dengan derajat bebas, db=(3-1)(3-1) = 4. Nilai p-value semakin besar
menjelaskan bahwa semakin yakin untuk menyatakan Faktor Profesi dan
Partai adalah saling independen.
Data pada Tabel 4.15 dapat dianalisis dengan metode yang berbeda yaitu
model loglinear yaitu uji Goodness of Fit. Hipotesis pada model loglinear adalah
H0 : Model (A, B) sesuai dengan data.
H1 : Model Lengkap sesuai dengan dengan data.
M O D E L L O G L I N E A R P A D A TA B E L K O N T I N G E N S I D I M E N S I D U A 75
Hipotesis ini identik dengan menguji efek interaksi (λij
AB), dengan hipotesis
H0 : λij
AB = 0 untuk semua i=1,…,4. j=1,2,3.
H1 : λij
AB ≠ 0 untuk suatu i=1,…,4. j=1,2,3.
Statistik uji Pearson dan Likelihood Ratio memiliki nilai yang sama dengan uji
independensi pada pengujian sebelumnya, yaitu χ2 = 16.161 (p-value = 0.013)
dan G2 = 16.390 (p-value = 0.012).
Nilai p-value > α=0.05 berarti kesimpulannya tolak H0 yang berarti bahwa
Faktor A dan Faktor B idak independen. Terdapat parameter λij
AB ≠ 0 untuk
suatu i=1,…,4. j=1,2,3.
Estimasi parameter model loglinear pada model lengkap disajikan pada Tabel
4.16.
Tabel 4.16. Estimasi parameter model loglinear pada model lengkap dengan SPSS
Parameter Estimate Std. Error Z Sig.95% Confidence Interval
Lower Bound
Upper Bound
λ 2.526 0.283 8.930 0.000 1.971 3.080λ
1A
0.278 0.375 0.740 0.459 -0.457 1.013λ
2A
0.336 0.370 0.909 0.364 -0.389 1.062λ
3A
0.278 0.375 0.740 0.459 -0.457 1.013λ
1B
0.631 0.350 1.803 0.071 -0.055 1.317λ
2B
1.151 0.325 3.545 0.000 0.515 1.787λ
11AB
0.106 0.461 0.231 0.817 -0.796 1.009λ
12AB
0.165 0.427 0.387 0.699 -0.671 1.002λ
21AB
-0.043 0.460 -0.095 0.925 -0.945 0.858λ
22AB
-1.042 0.462 -2.255 0.024 -1.948 -0.136λ
31AB
-0.464 0.484 -0.959 0.338 -1.413 0.485λ
32AB
-0.797 0.457 -1.745 0.081 -1.692 0.098
Dari hasil estimasi parameter dalam model loglinear sebagaimana disajikan
dalam Tabel 4.16 terlihat dengan jelas bahwa terdapat parameter λAB yang
signifikan yaitu untuk parameter λ22
AB.
76 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Efek faktor utama untuk faktor A tidak ada yang signifikan sementara itu
dilihat dari efek interaksinya signifikan. Hal ini mengindikasikan perlunya
analisis terhadap masing-masing level pada faktor A. Visualisasi pada Gambar
4.6 akan sangat membantu mengenali tingkat faktor yang harus di analisis
secara terpisah yaitu A2.
M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 77
5. MODEL LOGLINEAR PADA TABEL KONTENGENSI MULTIDIMENSI
5.1 Pendahuluan
Model Loglinear (LLM) mempelajari hubungan antara dua atau lebih variabel
diskrit. Sering disebut sebagai analisis frekuensi multi arah. Metode ini
merupakan pengembangan dari uji chi-square yang akrab untuk independensi
dalam tabel kontingensi dua arah. LLM dapat digunakan untuk menganalisis
survei dan kuesioner yang memiliki keterkaitan yang kompleks di antara
pertanyaan-pertanyaan. Meskipun kuesioner sering dianalisis dengan
mempertimbangkan hanya dua pertanyaan pada satu waktu, ini mengabaikan
hubungan tiga arah (dan multi-arah) yang seharusnya penting untuk dianalisis.
Ada beberapa buku teks yang tersedia yang menjelaskan LLM secara rinci.
Kami merekomendasikan buku-buku oleh Tabachnick dan Fidell (1989)
memiliki bab yang sangat baik tentang LLM. Wickens (1989) adalah buku yang
benar-benar difokuskan untuk LLM. LLM hanya memerlukan sedikit asumsi
tentang distribusi populasi dan dapat diterapkan pada hampir setiap keadaan
di mana variabelnya (atau dapat dibuat) diskrit. Bahkan dapat digunakan
untuk menganalisis variabel kontinu yang gagal memenuhi asumsi distribusi
(dengan mengecilkan variabel kontinu menjadi beberapa kategori). Tiga
asumsi dasar harus dipertimbangkan ketika menggunakan LLM.
1. Pengamatan independen satu sama lain. Dalam praktiknya, ini berarti
bahwa setiap pengamatan berasal dari subjek yang berbeda, bahwa
subjek dipilih secara acak dari populasi yang diminati, dan tidak ada
kelompok subjek tertentu yang sengaja dihilangkan.
78 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
2. Semua pengamatan memiliki distribusi yang identik. Ini berarti bahwa
objek pengamatan diperoleh dengan cara yang sama. Misalnya, objek
pengamatan yang peroleh dari hasil survei melalui telepon tidak dapat
dicampur dengan dengan survei dari pintu ke pintu.
3. Jumlah pengamatan besar. Karena LLM memanfaatkan perkiraan sampel
besar, maka diperlukan sampel besar. Algoritma LLM dimulai dengan
mengambil logaritma natural dari masing-masing frekuensi sel, jadi sel
yang kosong (yang memiliki frekuensi nol) tidak diperbolehkan.
Analisis LLM membutuhkan dua langkah.
1. Memilih model yang sesuai. Langkah pertama adalah menemukan
model data yang sesuai. Beberapa teknik dapat digunakan untuk
menemukan LLM yang tepat. Salah satu yang paling populer adalah
teknik step-down di mana bagian-bagian yang kompleks dihapus sampai
bagian-bagian yang tersisa menjadi signifikan semua. Pencarian untuk
model yang sesuai ini terbatas pada model-model yang hierarkis. Model
hierarkis adalah model yang memuat semua komponen-komponen
penyusun faktor interaksi. Jika model memuat faktor interaksi maka
komponen-komponenanya juga harus masuk dalam model. Sebagai
contoh, jika model memuat interaksi dua arah (AB), maka komponen
faktor A dan B juga harus disertakan. Sebelum model diterima, harus
mempelajari residu untuk menentukan apakah model tersebut cocok
dengan data dengan cukup baik.
2. Menafsirkan model yang dipilih. Setelah model dipilih, maka model itu
harus ditafsirkan. Ini adalah langkah di mana kita harus menjelaskan apa
yang dikatakan oleh data.
Pada pembahasan model loglinear dimensi banyak ini hanya difokuskan pada
model hirarki. Pembahasan dimulai dari model loglinear untuk tiga dimensi
yang mencakup struktur model, visualisasi dan pemilihan model. Selanjutnya
digeneralisasi untuk model loglinear yang melibatkan lebih banyak variabel.
M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 79
5.2 Paradoks Simpson
Dalam beberapa kasus seringkali terjadi kesimpulan yang kontradiksi ketika
analisis hanya mempertimbangkan dua faktor (variabel) saja dibandingkan
dengan analisis yang melibatkan tiga variabel. Hasil analisis dengan
mempertimbangkan tiga variabel akan menghasilkan kesimpulan yang lebih
akurat dibandingkan dengan hanya melibatkan dua faktor saja. Kontradiksi
dua kesimpulan ini biasa disebut Simpson Paradox.
Untuk menggambarkan paradox Simpson ini dijelaskan melalui dua contoh
berikut :
Contoh 1. Dua perusahaan elektronik (A dan B) memenangkan tender untuk
mensuplai kebutuhan sebuah institusi. Diketahui A menghasilkan 5% baik
dan B menghasilkan 50% baik. Dari 21100 barang yang akan dibeli institusi
tersebut, 10100 unit disediakan oleh B dan 11.000 unit disediakan oleh A. Pakar
elektronik yang ditunjuk institusi menyarankan untuk menggunakan metode
produksi baru, karena diyakini dapat meningkatkan persentase hasil baik.
Akan tetapi Institusi hanya mewajibkan untuk menggunakan metode baru
minimun 100 buah produk untuk masing masing perusahaan. A menerapkan
metode baru untuk 10000 dan B menerapkan metode baru untuk 100 produk.
Setelah selesai produksi, 21100 produk tersebut diuji, ternyata 46% produk
dengan metode lama “baik”, dan hanya 11% dari metode baru yang “baik”.
Jika dilihat secara keseluruhan, dengan mengabaikan faktor perusahaan
seakan-akan peryataan Pakar tersebut adalah salah sebagaimana ditunjukan
pada data di Tabel 5.1.
Tabel 5.1. Analisis hasil keseluruhan.
LamaMetode produksi
Baru
HasilJelek 5950 9005
Baik 5050 (46%) 1095 (11%)
80 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Namun demikian jika dianalisis lebih seksama, dengan menambahkan faktor
perusahaan, terlihat jelas bahwa pernyataan Pakar tersebut adalah benar. Pada
Tabel 5.2. jika dilihat pada masing-masing perusahaan, persentase hasil baik
pada metode baru meningkat. Pada perusahaan A meningkat dari 5% menjadi
10 % dan pada perusahaan B meningkat dari 50% menjadi 90%.
Tabel 5.2.Analisis produksi menurut perusahaan
PerusahaanA B
Lama Baru Lama Baru
Hasil Jelek 950 9000 5000 5
Baik 50 (5%) 1000 (10%) 5000 (50%) 95 (95%)
Dari analisis masing masing perusahaan terlihat bahwa metode baru lebih
baik sekitar 2 kali lipat, yang berarti pernyataan Pakar adalah benar.
Contoh 2. Terdapat dua perlakukan diberikan kepada dua kelompok pasien
yaitu laki-laki dan perempuan yang hasilnya diklasifikasikan ke dalam sukses
dan gagal. Hasilnya pengamatan disajikan dalam Tabel 5.3.
Tabel 5.3..Data pengamatan sukses menurut jenis kelamin dan perlakuan
Jenis KelaminLaki-laki Perempuan
Sukses Gagal Sukses Gagal
Perlakuan I 60 20 40 80
II 100 50 10 30
Jika diperhatikan pada kelompok laki-laki, probabilitas sukses pada perlakuan
I adalah 60/80 = 0.75. Sedangkan pada perlakukan II, probabilitas suksesnya
sebesar 100/150 = 0.667. Nampak bahwa untuk kelompok laki-laki, probabilitas
sukses pada perlakuan I lebih besar dibandingkan dengan perlakuan II.
M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 81
Sekarang kita perhatikan pada kelompok perempuan, probabilitas sukses
pada perlakuan I adalah 40/120 = 0.33. Sedangkan pada perlakuan II,
probabilitas suksesnya sebesar 10/40 = 0.25. Nampak bahwa untuk kelompok
perempuan, probabilitas sukses pada perlakuan I lebih besar dibandingkan
dengan perlakuan II. Kesimpulan pada kelompok laki-laki sama dengan pada
kelompok perempuan, yaitu probabilitas sukses pada perlakuan I lebih besar
dibandingkan dengan perlakuan II.
Selanjutnya jika variabel/faktor jenis kelamin tidak diperhatikan, maka hasil
pengamatan dapat disajikan dalam Tabel 5.4.
Tabel 5.4. Data pengamatan sukses menurut kelompok perlakuan
Perlakuan HasilSukses Gagal
I 100 100
II 110 80Probabilitas sukses pada kelompok perlakuan I sebesar 100/200= 0.50,
sedangkan Probabilitas sukses pada kelompok perlakuan II sebesar 110/190=
0.579. Probabilitas sukses pada kelompok perlakuan II hasilnya lebih tinggi
dibandingkan dengan kelompok I. Hasil ini kontradiksi dengan hasil pada
analisis dimasing masing jenis kelamin. Kontradiksi hasil inilah yang disebut
dengan Simpson paradox (Christensen, 1997). Dengan adamya Simpson
paradok ini, menjadi penting untuk melakukan analisis dengan melibatkan
lebih banyak variabel atau faktor.
82 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
5.3 Model Loglinier Tiga Dimensi
Dalam model Loglinear dua dimensi (faktor), hanya dua model yang dapat
dipilih yaitu kedua faktor saling independen dan kedua faktor saling berasosiasi
(idak independen). Pada tabel kontigensi tiga dimensi yang melibatkan
tiga faktor. Misalkan Faktor 1 terdiri dari b kelompok, Faktor II terdiri dari k
kelompok dan Faktor III terdiri dari s kelompok, sehingga diperoleh tabel tida
dimensi berukuran bxkxs. Pada percobaan multinomial, sampel random n
akan terdistribusi kedalam bks sel. Probabilitas sebuah observasi jatuh dalam
sel ke-ijk adalah πijk
untuk i = 1, ... , b, j = 1, ... , k dan l= 1, ... , s. Frekuensi sel (i,j,l)
adalah ijlµ , adalah
ijlµ = n ijlπ (5.1)
Total objek yang diamati sebesar ∑∑∑= = =
=b
i
k
j
s
lijlN
1 1 1µ . Stuktur data dan struktur
probabilitas tabel kontingensi berdimensi tiga dapat disajikan pada tabel 5.5.
dan tabel 5.6.
Tabel 5.5. Tabel Kontingensi Tiga dimensi
Faktor A Faktor BFaktor C
JumlahC1 ... Cs
A1
B1
n111
... n11s
n11+
... ... ... ...
Bk
n1k1
... n1ks
n1k+
Jumlah n1+1
... n1+s
n1++
….
B1
ni11
... ni1s
ni1+
... ... ... ...
Bk
nik1
... n1ks
n1k+
Jumlah ni+1
... ni+s
ni++
Ab
B1
nb11
... nb1s
nb1+
... ... ... ...
Bk
nbkl
... nbks
nbk+
Jumlah nb+1
... nb+s
nb++
M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 83
Tabel 5.6. Struktur Probabilitas Tabel Kontingensi Tiga Dimensi
Faktor A Faktor BFaktor C
JumlahC1 ... Cs
A1
B1
π111
... π11s
π11+
... ... ... ...
Bk
π1k1
... π1ks
π1k+
Jumlah π1+1
... π1+s
π1++
…
B1
πi11
... πi1s
πi1+
... ... ... ...
Bk
πik1
... π1ks
π1k+
Jumlah πi+1
... πi+s
πi++
Ab
B1
πb11
... πb1s
πb1+
... ... ... ...
Bk
πbkl
... πbks
πbk+
Jumlah πb+1
... πb+s
π1++
Pada data sampel maka dalam Tabel 5.5. dan Tabel 5.6., variabel nijl diganti
dengan variabel random yijl
dan parameter πijl diganti dengan statistik p
ijl.
yijl : frekuensi sel (i,j,l)
pijl
: probabalitas sel (i,j,l)
Total data sampel sebesar ∑∑∑
= = =
=b
i
k
j
s
lijlyn
1 1 1 dan ijl
ijl
yp
n= .
Pada model loglinear tiga dimensi ini terdapat beberapa model yang dapat
disusun
1. Model lengkap (saturated)
2. Model Mutual independence
3. Model Partial independence
4. Model Conditional independence
5. Model interaksi dua faktor
84 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
5.3.1 Model Model lengkap (saturated)
Persamaan model loglinear pada model lengkap atau dapat juga disebut
model jenuh adalah sebagai berikut log(μijl) = λ + λi
A + λjB + λl
C + λijAB + λil
AC + λjlBC + λijl
ABC (5.2)Model lengkap ini dapat dinyatakan dengan disimbol (ABC). Parameter-
parameternya memenuhi sifat
∑=
=b
i
Ai
10λ , ∑
=
=k
j
Bj
10λ , ∑
=
=s
i
Cj
10λ ,
10
bAB
iji
λ=
=∑ , 1
0k
ABij
jλ
=
=∑ , 1
0b
ACil
iλ
=
=∑ ,
10
sAC
ill
λ=
=∑ , 1
0k
BCjl
jλ
=
=∑ , 1
0s
BCjl
lλ
=
=∑ , ∑=
=b
i
ABCijl
10λ , ∑
=
=k
j
ABCijl
10λ dan
∑=
=s
l
ABCijl
10λ .
Cara pembatasan yang lain adalah salah satu parameter pada masing-masing
efek ditetapkan nilainya nol. Dengan pembatasan ini, maka jumlah parameter
yang dapat diestimasi sebagaimana pada tabel 5.7.
Tabel 5.7. Derajat Bebas untuk Loglinear 3 Dimensi
Parameter Jumlah
λ 1
iλ b-1
jλ k-1
lλ s-1
ijλ (b-1)(k-1)
ilλ (b-1)(s-1)
jlλ (k-1)(s-1)
ijlλ (b-1)(k-1)(s-1)
Total bks
M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 85
Model lengkap ini dapat divisualisasikan dalam Gambar 5.1
Gambar 5.1. Sketsa model lengkap.
Tanda anak panah dapat menyesuaikan konteks permasalahannya, yaitu bisa
dua arah ataupun satu arah. Dalam model lengkap sebagaimana Gambar 5.1,
menjelaskan bahwa model memuat interaksi dua faktor AC, AB, BC dan interaksi
tiga faktor ABC. Ilustrasi menggunakan Gambar 5.1. ini masih kesulitan untuk
membedakan model lengkap dan model yang memuat interaksi dua faktor
5.3.2 Model Mutual independence
Persamaan model loglinear pada model independen tidak terdapat efek
interaksi adalah sebagai berikut
log (μijl) = λ + λ
iA + λ
jB + λ
lC (5.3)
Tiga variabel A, B dan C saling independen maka fungsi probabilitasnya
memenuhi persamaan
πijl = π
i++.π
+j+.π
++l untuk semua
i,
j dan
l. (5.4)
Model ini dapat dinyatakan dengan disimbol (A,B,C). Derajat bebas dan asumsi
parameternya mengikuti model jenuh. Model indepeneden, antar faktor tidak
saling berasosiasi yang dapat divisualisasikan dalam Gambar 5.2
Gambar 5.2. Sketsa model independen
86 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
5.3.3 Model Partial independence
Model Partial Independen, berarti terdapat asosiasi secara parsial. Jika terdapat
interaksi antara faktor A dan Faktor B tetapi Faktor C independen, maka model
nya dapat dinyatakan sebagai berikut
log(μijl) = λ + λ
iA + λ
jB + λ
lC + λ
ijAB (5.5)
Terdapat interaksi variabel A dan B, tetapi variabel C independen dengan yang
lainnya maka fungsi probabilitasnya memenuhi persamaan
πijl = π
ij+. π
++l untuk semua
i,
j dan
l. (5.6)
Model ini dapat dinyatakan dengan disimbol (AB,C).
Jika terdapat interaksi antara faktor A dan Faktor C tetapi Faktor B independen,
maka modelnya dapat dinyatakan sebagai berikut
log(μijl) = λ + λ
iA + λ
jB + λ
lC + λ
ilAC (5.7)
Model ini dapat dinyatakan dengan disimbol (AC,B). Terdapat interaksi variabel
A dan C, tetapi variabel B independen dengan yang lainnya maka fungsi
probabilitasnya memenuhi persamaan
πijl = π
i+l. π
+j+ untuk semua
i,
j dan
l. (5.8)
Jika terdapat interaksi antara faktor B dan Faktor C tetapi Faktor A independen,
maka model nya dapat dinyatakan sebagai berikut
log(μijl) = λ + λ
iA + λ
jB + λ
lC + λ
jlBC (5.9)
Model ini dapat dinyatakan dengan disimbol (BC,A). Terdapat interaksi variabel
B dan C, tetapi variabel A independen dengan yang lainnya maka fungsi
probabilitasnya memenuhi persamaan πijl = πi++. π+jl untuk semua
i,
j dan
l. (5.10)
M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 87
Model partial independen ini dapat divisualisasikan dalam Gambar 5.2
a. Model (AB,C) b. Model (AC,B) c. Model (A, BC)
Gambar 5.3. Sketsa model partial independen
5.3.4 Conditional IndependenceModel conditional independen, berarti jika pada salah satu faktor tertentu
maka dua faktor lainya saling indepeden. Misalkan pada Faktor A, maka antara
Faktor B dan C independen. Model ini dapat dituliskan dalam persamaan
berikut
log(μijl) = λ + λ
iA + λ
jB + λ
lC + λ
ijAB + λ
ilAC (5.11)
Model ini dapat dinyatakan dengan disimbol (AB, AC). Terdapat interaksi
antara variabel A dan B, dan interaksi antara variabel A dan C maka fungsi
probabilitasnya memenuhi persamaan .ij i l
ijli
π ππ
π+ +
++
= untuk semua i, j dan l. (5.12)
Jika di masing-masing tingkat Faktor B, maka antara Faktor A dan C independen.
Model ini dapat dituliskan dalam persamaan berikut
log(μijl) = λ + λ
iA + λ
jB + λ
lC + λ
ijAB + λ
jlBC (5.13)
Model ini dapat dinyatakan dengan disimbol (AB, BC). Terdapat interaksi
antara variabel A dan B, dan interaksi antara variabel B dan C maka fungsi
probabilitasnya memenuhi persamaan .ij jl
ijlj
+ +
+ +
π ππ =
π untuk semua i, j dan l. (5.14)
Jika di masing-masing tingkat Faktor C, maka antara Faktor A dan B independen.
Model ini dapat dituliskan dalam persamaan berikut
88 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
log(μijl) = λ + λ
iA + λ
jB + λ
lC + λ
ilAC + λ
jlBC (5.15)
Model ini dapat dinyatakan dengan disimbol (AC, BC). Terdapat interaksi
antara variabel A dan C, dan interaksi antara variabel B dan C maka fungsi
probabilitasnya memenuhi persamaan
.ij jlijl
l
+ +
++
π ππ =
π
untuk semua i, j dan l. (5.16)
Model conditional independen ini dapat divisualisasikan dalam Gambar 5.3.
a. Model (AB,AC) b. Model (AC,BC) c. Model (AB, BC)Gambar 5.4. Sketsa model partial independen
5.3.5 Model Interaksi Dua Faktor
Model interaksi dua faktor, adalam model yang memuat semua efek interaksi
dua faktor. Model ini dapat dituliskan dalam persamaan berikut
log(μijl) = λ + λ
iA + λ
jB + λ
lC + λ
ijAB + λ
jlBC + λ
ilAC (5.17)
Model ini dapat dinyatakan dengan disimbol (AB, AC, BC).
Visualisasi untuk model interaksi dua faktor dan model jenuh sulit dibedakan,
karena visualisasi hanya mampu menjelaskan adanya asosiasi dua faktor.
Berdasarkan modelnya, pembedanya adalah suku λijl
ABC.
5.3.6 Maximum Likelihood Estimator (MLE)
Pada Tabel kontingensi tiga arah, probabilitas bersamanya berdistribusi
Poisson yaitu
dengan yijl = n
ijl Fungsi log-likelihoodnya adalah
M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 89
(5.18)
Pada model lengkap, fungsi log-likelihoodnya dapat dinyatakan menjadi
( )
( )
1 11
1 1 1 1 1 1 1 11
1 1 1
b k sA B C
i i j j l lj li
sb k b s b b k sAB AC BC ABC
ij ij i l il jl jl ijl ijli j i l j i j ll
b k sAB AC BC ABCij il jl ijl
i j l
L n y y y
y y y y
exp
++ + + ++= ==
+ + += = = = = = = ==
= = =
µ = + + + + +
+ + +
− λ + λ + λ
λ
+ λ + λ
λ λ
λ λ λ λ
∑ ∑ ∑
∑∑∑ ∑∑ ∑ ∑∑∑
∑∑∑ (5.19)
Karena distribusi Poisson adalah keluarga eksponensial, maka koefisien dari
parameternya merupakan suffisient statistics (Agresti, 2002). Pada model
lengkap, {yijl} adalah koefisien dari parameter { λ
ijlABC}, sehingga tidak ada
reduksi data. Pada model yang lebih sederhana, beberapa parameter yang
terdapat dalam persamaan (5.19) bernilai nol, sehingga persamaan menjadi
lebih sederhana. Misalkan pada model mutual independen atau model (A,B,C),
koefisien yang diperhatikan dalam persamaan (5.19) hanya pada parameter
{λiA }, {λ
jB} dan {λ
lC} sebab koefisien untuk parameter interaksi bernilai nol.
Oleh karena itu suffisient statistics nya adalah {yi++
}, {y+j+
} dan {y++l
}. Tabel 5.8
menyajikan sufficient statistics untuk beberapa model pada tabel kontingensi
berdimensi tiga.
90 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Tabel 5.8. Minimal Sufficient Statistics pada Model Loglinear
Model Sufficient Statistic(A,B,C) {y
i++}, {y
+j+}, {y
++l}.
(AB, C) {yij+
},{y++l
}
(AC, B) {yi+j
},{y+j+
}
(A, BC) {yi++
},{y+jl
}
(AB,AC) {yij+
},{y+jl
}
(AC, BC) {yi+l
},{y+jl
}
(BC, BA) {yij+
},{y+jl
}
(AB,AC, BC) {yij+
},{y+jl
}, {yi+l
}
(ABC) {yijl}
Untuk menjelaskan bagaimana penyelesaian persamaan likelihood, misalkan
untuk model (AB,BC). Dari persamaan probabilitas (5.14)
.ij jlijl
j
+ +
+ +
π ππ =
π untuk semua i, j dan l.
Pada sampling Poisson, ijl
ijl nµ
π = sehingga pada model (AB,BC)
..
. . ...
ij jlijl ijl
j
ij jlijl
j
ij jlijl
j
n n
n nn
+ +
+ +
+ +
+ +
+ +
+ +
π πµ = π =
π
π πµ =
π
µ µµ =
µ
MLE untuk masing-masing parameter tersebut adalah,
ˆ ˆ ˆ,ij ij ij jl j jy y y+ + + + + +µ = µ = µ =dan . sehingga MLE nya adalah
ˆ ˆ. .ˆ
ˆij jl ij jl
ijlj j
y yy
+ + + +
+ + + +
µ µµ = =
µ
Penyelesaian ini dapat menjelaskan bahwa untuk model (AB, BC), sufficient
statistic nya adalah yij+
dan y+jl
. Tabel 5.9 menyajikan MLE untuk masing masing
model yang dapat digunakan untuk uji kecocokan model.
M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 91
Tabel 5.9. MLE untuk parameter pada masing masing model.
Model Fungsi Probabilitas ˆ ijlµ
(A,B,C) πijl = πi++.π+j+.π++l
2
. .i j ly y yn
++ + + ++
(AB, C) πijl = πij+. π++l .i jly yn
++ +
(AC, B) πijl = πi+l. π+j+ .ij i l
i
y yy+ +
++
(A, BC) πijl = πi++. π+jl .ij ly yn
+ ++
(AB,AC) .ij i lijl
i
+ +
++
π ππ =
π
.ij i l
i
y yy+ +
++
(AC, BC) .ij jlijl
j
+ +
+ +
π ππ =
π
.i l jl
l
y yy+ +
++
(BC, BA) .i l jlijl
l
+ +
++
π ππ =
π
.ij ij
j
y yy+ +
+ +
(AB,AC, BC) - metode iterasi
(ABC) - yijl
Khusus model (AB,AC,BC), penaksir MLE nya tidak dapat dihitung secara
langsung dan harus dicari dengan menggunakan metode iteratif. Walaupun
penaksir MLE dalam tabel 5.9 dapat dihitung secara langsung, namun dalam
praktek perhitungan di software semuanya dihitung menggunakan metode
iteratif.
92 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
5.3.7 Uji Goodness of Fit
Pada masing-masing model dapat dilakukan uji kecocokan model (uji
goodness of fit) menggunan hipotesis sebagai berikut
H0 : Model yang diuji sesuai dengan data
H1 : Model lengkap (saturated) sesuai dengan data
Statistik uji yang digunakan adalah :
∑∑∑= = =
−=
b
i
k
j
s
l ijl
ijlijly
1 1 1
22
ˆ)ˆ(
µµ
χ (5.20)
atau
∑∑∑= = =
=
b
i
k
j
s
l ijl
ijlijl
ylogyG
1 1 1
2
ˆ2
µ (5.21)
Parameter ijlµ̂ dihitung pada asumsi Ho benar, jadi diestimasi menggunakan
model yang dinyatakan dalam H0. Statistik G2 maupun
2χ mempunyai
distribusi mendekati distribusi Chi-squared dengan derajad bebas (db) sesuai
model yang diuji atau model yang dinyatakan dalam H0. H
0 ditolak jika nilai
statistik G2 maupun 2χ lebih besar dari nilai tabel Chi-square dengan derajad
bebas db (χ2 (α;db)). Derajad bebas masing-masing model dalam model loglinear
dimensi tiga dapat dilihat pada Tabel 5.10. Model yang baik adalah dalam
pengujian ini menghasilkan kesimpulan gagal tolak H0.
M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 93
Tabel 5.10. Hipotesis dan Derajat Bebas untuk Loglinear 3 Dimensi
Model Hipotesis Ho ˆ ijlµ
Derajad Bebas (db)
(A,B,C) πijl = πi++.π+j+.π++l
2
. .i j ly y yn
++ + + ++
bkl-b-k-s+2
(AB, C) πijl = πij+. π++l .ij ly yn
+ ++(bk-1)(s-1)
(AC, B) πijl = πi+l. π+j+ .i l jy yn
+ + +(bs-1)(k-1)
(A, BC) πijl = πi++. π+jl .i jly yn
++ +(b-1)(ks-1)
(AB,AC) .ij i lijl
i
+ +
++
π ππ =
π
.ij i l
i
y yy+ +
++
b(k-1)(s-1)
(AC, BC) .ij jlijl
j
+ +
+ +
π ππ =
π
.i l jl
l
y yy+ +
++
s(b-1)(k-1)
(BC, BA) .i l jlijl
l
+ +
++
π ππ =
π
.ij ij
j
y yy+ +
+ +
k(s-1)(b-1)
(AB,AC, BC) - metode iterasi (b-1)(k-1)(s-1)
(ABC) - yijl 0
Disamping meenggunakan pengujian hipotesis diatas, kecocokan sebuah
model dapat juga dilihat dengan menggunakan nilai Akaike Information
Criterion (AIC). yaitu
( )( )ˆ2 AIC Log L db= − µ − (5.22)
94 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Nilai AIC dapat juga dinyatakan sebagai
AIC = G2 - 2dbNilai AIC ini dapat digunakan untuk membandingkan beberapa model
sekaligus. Model yang terbaik adalah model dengan nilai AIC terendah.
Pengujian menggunakan statistik G2 didasarkan pada asumsi sampel
besar. Statistik Pearson dan Likelihood Ratio sangat tergantung pada ukuran
sampelnya. Pada ukuran sampel yang besar, akan mengakibatkan semakin
besar kemungkinan model sesuai dengan data. Statistik yang bermanfaat
untuk melihat kesesuaian data dan model adalah ukuran dissimilarity index
(DI) yaitu ˆ ˆ| | | |
2ijl ijl ijl ijly p
DIn nµ π− −
= =∑ ∑ (5.23)
dengan yijl adalah frekuensi observasi pada sel (i,j,l) dan ijlijl nπµ ˆˆ = adalah
frekuensi harapan berdasarkan modelnya. Nilai DI terletak antara 0 dan 1. Jika
DI mendekati 0 mengindikasikan model cocok dengan data. Statistik DI ini
sudah tidak tergantung pada jumlah sampelnya tidak seperti statistik G2 dan
χ2.
5.3.8 Pemilihan Model Terbaik
Sebagaimana dijelaskan diatas, bahwa dari tabel kontigensi tiga arah
terdapat beberapa model yang dapat diuji atau dibandingkan, seperti (ABC),
(AB,AC,BC),....,(A,B,C). Setelah dilakukan pengujian satu-persatu, sekarang kita
harus melakukan evaluasi “model mana yang paling baik, yaitu paling baik
menurut kriteria statistik dan secara subtansi maupun teoritis model ini dapat
diterima?”. Setelah diperoleh model yang diyakini, secara statistik (kuantitatif )
atau data sampel dan secara teoritis, maka berdasarkan model tersebut
dilakukan pengujian “model mana yang paling baik?”. Pengujian dilakukan
dengan membandingkan model 1 dan model 2. Jika Model 2 adalah model
yang lebih lengkap dibandingkan model 1 berarti semua parameter dalam
model 1 ada pada model 2. Selanjutnya model dua diletakan dalam H1 dan H
0
memuat model 1.
M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 95
Ho : Model 1 cocok dengan data
H1 : Model 2 cocok dengan data
Statistik uji menggunakan nilai devians (D) yang diperoleh dari selisih nilai
G2 untuk masing masing-masing model yang diuji. Statistik G2 untuk masing-
masing model dihitung menggunkan rumus dalam persamaan (5.21). Nilai
deviannya adalah2 2
1 2D G G= − (5.24)
adalah nilai G2 untuk model 1 dengan derajad bebas db1 dan adalah nilai G2
untuk model 2 dengan derajad bebas db2. Statistik D berdistribusi Chi-square
mempunyai derajad bebas sama dengan selisih banyaknya parameter dalam
model 1 dan model 2 (selisih db1 dan db
2) , yaitu
db = (db1 – db
2).
H0 ditolak jika nilai D lebih besar dari nilai tabel Chi-square. Misalkan akan
membandingkan model (A,B,C) dan model (AB, C). Karena model (AB, C) lebih
lengkap dibandingkan dengan model (A, B, C) maka hopotesisnya adalah
Ho : Model (A,B,C) cocok dengan data
H1 : Model (AB, C) cocok dengan data
Dari model (A,B,C) diperoleh nilai G1
2 dengan derajad bebas, db1= bkl-b-k-s+2.
Dari model (AB, C) diperoleh nilai G2
2 dengan derajad bebas, db2= (bk-1)(s-1).
Nilai deviannya adalah 2 2
1 2D G G= − dan db = (bkl-b-k-s+2) – (bk-1)(s-1).
Jika kita perkatikan model (A,B,C) memuat parameter {λ}, {λiA }, {λ
jB} dan
{λlC} sedangkan model (AB, C) memuat parameter {λ }, {λ
iA }, {λ
jB} {λ
lC}, {λ
ijAB }.
Perbedaan kedua model adalah parameter {λij
AB }, sehingga perbandingan dua
model (A, B, C) dan (AB, C) adalah identik dengan hipotesis
H0 : {λ
ijAB } = 0 untuk semua i dan j.
H1 : Terdapat {λ
ijAB } ≠ 0 untuk suatu i dan j.
96 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
5.3.9 Contoh Kasus 1.
Data pengamatan terhadap 2121 pasien mengenai Tipe Personality (A dan
B) , Cholesterol (Normal da Tinggi), dan Tekanan darah Diastolic (Nomal dan
Tinggi) yang terdapat dalam Christensen (1997). Diperoleh data sebagaimana
dalam Tabel 5.11.
Tabel 5.11. Data observasi pasien
Personality (P) Cholesterol (C)Diastolic (D)
Normal TinggiP1 Normal 716 79
Tinggi 207 25
P2 Normal 819 67
Tinggi 186 22
Pada model independen memenuhi sifat
2 ,ˆ. .i j l
ijl
y y yy
n++ + + ++=
diperoleh nilai harapan untuk masing-masing sel disajikan pada Tabel 5.12.
Tabel 5.12. Nilai harapan pada model independen
Personality (P) Cholesterol (C)Diastolic (D)
Normal TinggiP1 Normal 739.9 74.07
Tinggi 193.7 19.39
P2 Normal 788.2 78.90
Tinggi 206.3 20.65
Berdasarkan Data Tabel 5.11. dan Tabel 5.12 dapat dihitung statistic Pearson
( ) ( )2 22 716 739.9 22 20.65
739.9 20.65− −
χ = +…+
χ2 = 8.730 dengan p-value = 0.068214125
M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 97
dan statistik Rasio Likelihoodnya adalah
2
2
716 222 716log ... 22 log739.9 20.65
8.723
G
G
= + + = dengan p - value = 0.068408635
Kedua statististik berdistribusi Chi-square dengan derajad bebas
Db= (2)(2)(2)-2-2-2+2 = 4.
Karena χ2(0.95;4)
= 9.49, maka pada α=0.05 disimpulkan gagal tolak H0 yang
berarti ketiga variabel P, D dan C saling independen.
Model selanjutnya yang diuji adalah C dan D saling indepneden pada masing-
masing level P. Model tersebut dapat dtuliskan dengan symbol (CP, DP). Data
dapat dikelompokan menjadi dua sebagaimana pada Tabel 5.13 dan Tabel
5.14.
Tabel 5.13. Data Cholesterol dan Diastolic pada P1
Personality P1Cholesterol (C) Diastolic (D)
Normal TinggiNormal 739.9 74.07
Tinggi 193.7 19.39
Tabel 5.14. Data Cholesterol dan Diastolic pada P2
Personality P2Cholesterol (C) Diastolic (D)
Normal TinggiNormal 788.2 78.90
Tinggi 206.3 20.65
Masing-masing tabel mempunyai derajad bebas,
db=(2-1)(2-1)=1
98 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Sehingga secara bersama-sama mempunyai derajad bebas, db=2(2-1)(2-1)=2.
Model ini memenuhi sifat
ˆ
.
.
ij i lijl
i
ij i lijl
i
y yy
+ +
++
+ +
++
π ππ =
π
µ =
Nilai harapan untuk model ini dihitung menggunakan disajikan dalam Tabel
5.16.
Tabel 5.15. Nilai Harapan Model (CP, DP).
Personality (P) Cholesterol (C) Diastolic (D)Normal Tinggi
P1 Normal 714.5 80.51
Tinggi 208.5 23.49
P2 Normal 813.9 72.08
Tinggi 191.1 16.92
Berdasarkan Data Tabel 5.11. dan Tabel 5.15 dapat dihitung statistik Pearson
dan statistik Rasio Likelihoodnya, yang disajikan dalam Tabel 5.16.
Tabel 5.16. Statistic Pearson dan Rasio Likelihood
Statistik db p-valueX2 = 2.188 2 0.334874314G2 = 2.062 2 0.356650132
Dibandingkan dengan model (C, D, P), maka model (CP, DP) lebih baik, karena
mempunyai nilai p-value yang lebih besar.
Kedua model dapat dilakukan perbandingan dengan hipotesis
H0 : Model (C, D, P) sesuai dengan data.
H1 : model (CP, DP) sesuai dengan data.
Statistik ujinya adalah dengan menggunakan nilai Devians
D = 8.723-2.062 = 6.661
Statistik D berdistribusi Chi-square dengan derajad bebas, db = 4-2. Sehingga
nilai χ2(0.05;2)
= 5.991464547 atau mempunyai nilai p-value = 0.035775213.
M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 99
Kesimpulannya adalah tolah H0 yang berarti model (CP, DP) lebih sesuai
dengan data dibandingkan dengan model (P,C, D).
Hasil pengujian goodness of fit untuk semua kemungkinan disajikan pada
Tabel 5.17.
Tabel 5.17. Hasil uji Goodness of Fit
Model db χ2 G2 p-value
(PC, PD,CD) 1 0.617 0.613 0.434
(PC,PD) 2 2.188 2.062 0.358
(PC,CD) 2 2.985 2.980 0.224
(PD,CD) 2 4.566 4.563 0.100
(P,CD) 3 7.102 7.101 0.067
(C,PD) 3 6.189 6.184 0.102
(D,PC) 3 4.543 4.601 0.207
(P,C,D) 1 8.730 8.723 0.067
Menggunakan kriteria α = 0.05 maka semua model sesuai dengan data. Kita
dapat membandingkan beberapa model yang memiliki hubungan hirarki.
Misalkan menguji medel (PC,D) terhadap model (PC,PD),
G2 = 4.601 – 2.062
db = 3 – 2 = 1
χ2(0.95;1)
= 3.84
p-value = 0.050043521
Kesimpulan, gagal tolak H0
, sehingga lebih baik menggunakan model (PC,D)
dibanding dengan model (PC,PD).
Misalkan menguji model (PC,D) terhadap model (PC,PD,CD),
G2 = 4.601 – 0.613 = 3.988
db = 3 – 1 = 2
χ2(0.95;2)
= 5.99
p-value = 0.136149736
Kesimpulan, gagal tolak H0
, sehingga lebih baik menggunakan model (PC,D)
dibanding dengan model (PC,PD. CD).
100 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
5.3.10 Contoh Kasus 2.
Penelitian terhadap 1823 kasus kecelakaan kerja di sebuah perusahaan yang
diambil dari Nisak (2017). Variabel yang diamati adalah Status penanganan
kecelakaan (A), Klasifikasi (B) dan Lokasi (C). Data hasil pengamatan sebagai
berikut
Tabel 5.18.Penanganan Kecelakaan Kerja Status, Klasifikasi dan Lokasi
Status (A) Klasifi-kasi (B)
Lokasi (C)
Bengkel Kantor LabSP/
SPU/PPP
Sumur Gudang
Completed Action 38 121 44 28 195 30
Condition 44 219 30 91 267 76
Uncompleted Action 27 67 32 13 82 15
condition 20 118 16 46 141 63
Jika dilakukan analisis uji independensi secara parsial antar variabel A terhadap
dua variabel yang lain diperoleh hasil bahwa kedua pasangan variabel tersebut
independen sebagaimana pada Tabel 5.19.
Tabel 5.19. Hasil uji Chi-Square
AtributPearson Chi-Square
Value db p-valueKlasifikasi (B) 0.492 1 0.483
Lokasi (C) 7.610 5 0.179
Diperoleh nilai estimasi frekuensi harapan untuk masing-masing model yang
dapat disusun untuk tiga faktor A, B dan C disajikan pada Tabel 5.20.
M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 101
Tabel 5.20. Estimasi Frekuensi Harapan
Status (A) Klasifi-kasi (B)
Lokasi (C)
Model Loglinear
(ABC) (A,B,C) (AB,AC,BC) (AB,C) (AC,B)
Completed
Action
1 38 31.8 41.9 32.3 42.2
2 121 129.3 123.7 131.3 122.0
3 44 30.1 46.6 30.5 49.3
4 28 43.8 27.9 44.5 26.6
5 195 168.7 189.4 171.3 179.8
6 30 45.3 26.5 46.0 29.2
Condition
1 44 17.2 40.1 51.4 41.5
2 219 70.0 216.3 209.4 218.7
3 30 16.3 27.4 48.7 29.9
4 91 23.7 91.1 71.0 88.9
5 267 91.3 272.6 273.2 264.8
6 76 24.5 79.5 73.4 90.2
Uncom-pleted
action
1 27 51.9 23.1 16.7 22.8
2 67 211.4 64.3 68.0 66.0
3 32 49.1 29.4 15.8 26.7
4 13 71.7 13.1 23.0 14.4
5 82 275.8 87.6 88.7 97.2
6 15 74.1 18.5 23.8 15.8
condition
1 20 28.1 23.9 28.6 22.5
2 118 114.3 120.7 116.3 118.3
3 16 26.6 18.6 27.0 16.1
4 46 38.8 45.9 39.4 48.1
5 141 149.2 135.4 151.8 143.2
6 63 40.1 59.5 40.8 48.8
102 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Tabel 5.21. Estimasi Frekuensi Harapan (lanjutan)
Status (A) Klasifi-kasi (B)
Lokasi (C)
Model Loglinear
(BC,A) (AB,AC) (AB,BC) (AC,BC)
Completed
action
1 31.1 31.6 42.8 41.3
2 129.1 131.1 123.9 121.8
3 28.1 28.5 50.1 46.1
4 45.2 45.9 27.0 27.4
5 175.4 178.1 182.5 186.8
6 40.2 40.9 29.7 25.9
condition
1 50.9 50.4 41.1 40.7
2 210.9 208.9 216.6 218.2
3 45.9 45.5 29.6 27.9
4 73.8 73.1 88.1 91.6
5 286.6 283.9 262.3 275.2
6 65.8 65.1 89.3 80.1
Uncom-pleted
action
1 17.8 17.3 22.2 23.7
2 70.2 68.2 64.1 66.2
3 18.2 17.7 25.9 29.9
4 22.4 21.8 14.0 13.6
5 84.6 82.2 94.5 90.2
6 29.6 28.8 15.3 19.1
condition
1 29.2 29.7 22.9 23.3
2 114.8 116.8 120.4 118.8
3 29.8 30.3 16.4 18.1
4 36.6 37.2 48.9 45.4
5 138.4 140.8 145.7 132.8
6 48.4 49.2 49.7 58.9
Berdasarkan nilai estimasi harapan masing-masing model log linear diatas,
terlihat bahwa model (AC,B) adalah model paling cocok dengan data sampel
dibandingkan dengan model yang lain. Hal tersebut dapat dibuktikan karena
selisih antara nilai harapan model (ABC) dengan model yang lain sangat jauh
M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 103
dan selisih nilai harapan model (AC,B) dengan model (ABC) sangat sedikit.
Untuk mengetahui model terbaik yang terbentuk, dilakukan uji goodness of
fit (kecocokan) dengan melihat dari nilai statistik Likelihood Ratio Square (G2),
derajat bebas (db), dan p-value untuk masing masing model sebagaigaiman
pada Tabel 5.22.
Tabel 5.22. Uji goodness of fit model Log Linear
No Model Db G2 p-value1. A,B,C 16 87.4 7.6e-12
2. AB,C 15 86.8797 3.775e-12
3. AC,B 11 13.59435 0.25626
4. BC,A 11 79.86904 1.564e-12
5. AB,AC 10 79.3757 6.654e-13
6. AB,BC 10 13.1010 0.328785
7. AC,BC 6 6.0904 0.413144
8. AB,AC,BC 5 5.5734 0.34996
9. ABC 0 0 1
Tabel 5.22 menyajikan hasil dari uji goodness of fit beberapa model. Jika nilai
p-value semakin kecil berarti model semakin tidak baik. Dilihat dari nilai
p-value, terlihat bahwa terdapat 4 model yang layak digunakan (memiliki
p-value lebih besar dari 0.05) yaitu model (AB,AC,BC), (AC,BC), (AB,BC) dan
(AC,B). Ke-empat model tersebut dapat dilakukan perbandingan untuk
memilih model terbaiknya.
a. Model (AB,AC,BC) dan Model (AC,BC)
Nilai Devians = 6.0904 - 5,5734 = 0.517
Derajad bebas = 6 – 5 = 1
p-value = 0.47214
Kesimpulan: kedua model tidak terdapat perbedaan yang singnifikan.
Sehingga model yang baik adalah model yang lebih sederhana yaitu
Model (AC,BC).
104 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
b. Model (AB,AC,BC) dan Model (AB,BC)
Nilai Devians = 13.1010 – 5.5734 = 7.5276
Derajad bebas = 10 – 5 = 5
p-value = 0.184264
Kesimpulan: kedua model tidak terdapat perbedaan yang singnifikan.
Sehingga model yang baik adalah model yang lebih sederhana yaitu
Model (AB,BC).
c. Model (AB,AC,BC) dan Model (AC,B)
Nilai Devians = 13.59435 - 5.5734 = 8.02095
Derajad bebas = 11 – 5 = 6
p-value = 0.236572
Kesimpulan: kedua model tidak terdapat perbedaan yang singnifikan.
Sehingga model yang baik adalah model yang lebih sederhana yaitu
Model (AC,B).
d. Model (AC,BC) dan Model (AC,B)
Nilai Devians = 13.59435 – 6.0904 =7.50395
Derajad bebas =11- 6 = 5
p-value = 0.185776
Kesimpulan: kedua model tidak terdapat perbedaan yang singnifikan.
Sehingga model yang baik adalah model yang lebih sederhana yaitu
Model (AC,B).
e. Model (AB,BC) dan Model (AC,B)
Nilai Devians = 13.59435 – 13.101 = 0.4933
Derajad bebas = 11 – 10 = 1
p-value = 0.482437
Kesimpulan: kedua model tidak terdapat perbedaan yang singnifikan.
Sehingga model yang baik adalah model yang lebih sederhana yaitu
Model (AC,BC).
M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 105
Model (AB,AC,BC), (AC,BC) dan (AC,B), ketiganya memuat efek interaksi AC dan
tidak ada perbedaan yang signifikan, sehingga disimpulkan model yang terbaik
adalah model (AC,B). Model (AC, B) merupakan model partial independent,
yang berarti bahwa asosiasi secara parsial antara A dan C. Namun demikian
model (AB,BC) ini juga layak digunakan, yaitu merupakan model conditional
independent. Model (AB,BC) menjelaskan bahwa pada masing-masing level B,
faktor A dan faktor C saling independen.
Jika kita hendak menguji apakah efek interaksi dua faktor signifikan dapat
dilakukan dengan mengambil dua model yang sesuai untuk mendapatkan
nilai Devians.
a. Menguji interaksi A dan B
H0 : λ
ijAB = 0 untuk semua i dan j (faktor A dan faktor B saling independen)
Dari model (A,B,C) dan model (C,AB) diperoleh statistik D = 87.4 – 86.9 =
0.5 dengan db = 16 – 15 = 1. Dari tabel Chi-square pada α = 0.05 dengan
derajad bebas 1 diperoleh X2(1;0,05)
= 3.841. Oleh karena D < 3.841 , maka
kesimpulannya gagal tolak H0 yang berarti bahwa faktor A dan faktor B
saling independen.
b. Menguji interaksi A dengan C
H0 : λ
ikAC = 0 untuk semua i dan k (faktor A dan faktor C saling independen)
Dari beberapa model (C, AB) dan (AB, AC) diperoleh statistik D = 86.9
– 13.1 = 73.8 dengan db = 15 – 10 = 5. Dari tabel Chi-square pada α =
0.05 dengan derajad bebas 5 diperoleh X2(5;0,05)
= 11.070. Oleh karena D >
11.070, maka kesimpulannya tolak H0 yang berarti faktor A dan faktor C
tidak independen.
c. Menguji interaksi B dengan C
H0 : λjk
BC = 0 untuk semua j dan k (faktor B dan faktor C saling independen)
Dari model (B,AC) dan model (AC, BC) diperoleh statistik D = 13.6 – 6 =
7.6 dengan db = 11 – 6 = 5. Dari tabel Chi-square, X2(5;0,05)
= 11.070 dan
D < 11.070, sehingga kesimpulannya adalah gagal tolak H0 yang berarti
bahwa faktor B dan faktor C saling independen.
106 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Model yang terbaik untuk data yaitu model (AC,B), sehingga dilakukan
analisis lebih lanjut yaitu analisis residual. Tujuan dari analisis residual adalah
untuk mengukur sisa variabilitas data pengamatan. Residual adalah frekuensi
pengamatan dikurang dengan frekuensi harapan. Residual yang diperoleh
ditulis pada Tabel 5.23 sebagai berikut :
Tabel 5.23. Analisis Residual
Status Klasifikasi Lokasi Frekuensi Harapan Residual
Completed
action
1 38 42.2 4.2
2 121 122.0 1.0
3 44 49.3 5.3
4 28 26.6 -1.4
5 195 179.8 -15.2
6 30 29.2 -0.8
condition
1 44 41.5 -2.5
2 219 218.7 -0.3
3 30 29.9 -0.1
4 91 88.9 -2.1
5 267 264.8 -2.2
6 76 90.2 14.2
Uncom-pleted
action
1 27 22.8 -4.2
2 67 66.0 -1.0
3 32 26.7 -5.3
4 13 14.4 1.4
5 82 97.2 15.2
6 15 15.8 0.8
condition
1 20 22.5 2.5
2 118 118.3 0.3
3 16 16.1 0.1
4 46 48.1 2.1
5 141 143.2 2.2
6 63 48.8 -14.2
Tabel 5.23 merupakan tabel residual dari masing-masing kategori
disetiap variabel pada data. Residual yang diperoleh tidak ada yang sama. Nilai
residual positif mempunyai arti bahwa frekuensi pengamatan lebih besar dari
M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 107
pada frekuensi harapan. Sebaliknya, jika frekuensi harapan lebih besar dari
frekuensi pengamatan maka nilai residual negatif. Semakin kecil nilai residual
maka nilai estimasi mendekati nilai pengamatan.
Gambar 5.5. Scatterplot Nilai Residual berdasarkan Nilai Estimasi Frekuensi Harapan
Berdasarkan Gambar 5.5 diatas menunjukkan bahwa nilai residualnya relatif
kecil (mendekati nol), sehingga model (AC,B) adalah model terbaik untuk
mewakili data. Berdasarkan hasil analisis menggunakan model log linear,
didapatkan model terbaik yakni (AC, B) sehingga dapat disimpulkan bahwa
faktor Status saling berpengaruh terhadap faktor Lokasi dalam kejadian
kecelakaan kerja.
5.4 Membangun model
Pada model loglinear 2 faktor terdapat 3 kemungkinan model yang
dapat disusun, sedangkan untuk model loglinear 3 faktor akan terdapat 9
model. Semakin banyak faktor yang dilibatkan akan berdampak pada jumlah
kemungkinan model yang perlu dievaluasi. Pada bab sebelumnya telah
dijelaskan metode goodness of fit untuk menguji apakah model layak atau
sesuai dengan data. Pengujian ini menjadi tahap awal untuk memilih model
yang layak untuk dipilih. Langkah selanjutnya adalah membandingkan semua
model yang memenuhi kriteria goodness of fit, yaitu model yang memiliki nilai
p-value lebih besar dari nilai.
Statistik Devians sebagaimana pada persamaan 5.24 dapat digunakan
untuk membandingkan dua model yang memiliki hubungan hirarki. Namun
108 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
demikian statistik G2 sangat dipengaruhi oleh ukuran sampelnya. Statistik
Akaike information criterion (AIC) dan dissimilarity index (DI) dapat digunakan
untuk memilih model terbaik. Rumus untuk menghitung kedua statistik
tersebut sebagaimana dalam persamaan 5.22 dan persamaan 5.23. Model
terbaik adalah model yang memiliki nilai AIC dan DI terkecil. Kedua statistik
statistik ini sudah tidak tergantung pada ukuran sampelnya.
Secara ringkas beberapa langkah yang harus dilakukan dalam memilih model
yang terbaik adalah sebagai berikut
1. Lakukan uji goodness of fit pada masing-masing model.
2. Membandingkan model dengan menggunakan nilai devians
3. Menghitung nilai AIC dan DI untuk memilih model terbaik.
Terdapat prosedur yang lebih terstruktur dalam menseleksi variabel
yang layak dimasukan ke dalam, yaitu prosedur Stepwise. Secara garis besar,
prosesnya adalah menggunakan aturan menambahkan dan mengurangi
samapai diperoleh model final. Prosedur Stepwise dapat dikelompokan ke
dalam tiga cara, yaitu forward selection, backward elimination dan composite
methods.
Forward selection dimulai dari model yang paling sederhana dan
dilanjutkan dengan menambahkan secara berurutan suku-suku yang belum
terdapat dalam model. Urutan memasukan suku didasarkan pada urutan nilai
statistik dari yang paling signifikan. Proses berhenti ketika sudah tidak ada
suku yang signifikan.
Backward elimination dimulai dari model yang paling lengkap dan
dilanjutkan dengan mengeluarkan atau membuang secara berurutan
suku-suku yang tidak signifikan. Proses mengeluarkan suku diurutkan dari
yang paling tidak signifikan. Composite methods adalah kombinasi dua
metode Forward selection dan Backward elimination.
Pendekatan lain untuk memberikan gambaran secara lebih cepat dapat
dibuat tabel pengujian untuk masing masing tingkat interaksi. Misalkan untuk
model logliniar empat faktor, maka dapat disusun hipotesis sebagai mana
dalam Tabel 5.24.
M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 109
Tabel 5.24. Uji Simultan untuk masing-masing level interaksi.
Model Pernyataan H0
(A,B,C,D) Efek utama tidak signifikan
(AB,AC, AD, BC, BD, CD) Efek interaksi dua faktor tidak singsifikan
(ABC, ABD, ACD, BCD) Efek interaksi dua faktor tidak singsifikan
(ABCD) Efek interaksi empat faktor tidak signifikan
Prosedur pembentukan model menggunakan metode Stepwise tersebut diatas
semata-mata hanya mempertimbangkan tingkat signifikansi. Hal lain yang
harus diperhatikan dalam proses membentukan model adalah kesesuaian
dengan konsep teoritis yang melandasi pola hubungan variabel-variabel
yang diteliti. Oleh karena itu landasan subtansi dan teoritis harus diperhatikan
dalam menyusun modelnya.
5.5 Model Loglinear pada Tabel Kontingensi 4 Dimensi.
Seperti disebutkan dalam Bagian sebelumnya, semua prinsip umum pengujian
dan estimasi yang disajikan untuk tabel tiga faktor juga berlaku untuk jumlah
faktor yang lebih banyak. Perbedaan utama dalam ketika bekerja dengan
tabel dimensi yang lebih tinggi adalah pola hubungan menjadi lebih rumit.
Pertama, ada banyak model tipe ANOVA yang perlu dipertimbangkan.
Misalnya, dalam tabel empat faktor, ada 113 model ANOVA yang mencakup
semua efek utama. Dalam tabel lima faktor, ada beberapa ribu model yang
perlu dipertimbangkan. Kedua, banyak sekali model memerlukan metode
berulang untuk mendapatkan perkiraan kemungkinan maksimum. Akhirnya,
interpretasi model dimensi yang lebih tinggi menjadi lebih sulit. Dalam bab
ini, dibahas interpretasi model untuk empat dan lebih tinggi tabel dimensi,
model grafis, kondisi yang memungkinkan tabel untuk dipersempit.
110 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
5.5.1 Interpretasi Model
Bagian ini menyediakan alat untuk menafsirkan model Loglinear untuk tabel
dimensi yang lebih tinggi. Interpretasi didasarkan pada independensi dan
independensi kondisional. Metode yang digunakan untuk interpretasi model
loglinear dimensi banyak didasarkan pada metode yang digunakan pada
tabel tiga dimensi. Dalam bab ini juga dibahas metode alternatif berdasarkan
teori graph dan independensi bersyarat.
Untuk mempermudah notasi, misalkan pada model empat faktor, notasi (ABC,
AD, BD) merepresentasi kan model yang memuai sebuah interaksi tiga faktor
(Faktor A, Faktor B dan Faktor C) dan dua buak interaksi dua faktor yaitu AD
dan BD. Karena diasumsikan model nya adalah model hirarki, berarti Notasi
(ABC) dalam model tersebut secara otomatis memuat 3 efek utama (A, B, C)
dan tiga efek interaksi dua faktor (AB, AC, BC) serta efek interaksi tiga faktor
intu sendiri (ABC). Demikian juga notasi (AD) berarti model memuat dua efek
utama (A, D) dan satu efek interaksi (AD).
Model (ABC, AD, BD) dapat diinterpretasikan pada masing-masing level A
(bersyarat A), Faktor D independen terhadap BC. Dalam hal ini tidak ada
pembatasan mengenai hubungan Antara Faktor B dan Faktor C. Di dalam
model juga memuat informasi pada masing-masing level B (bersyarat B),
Faktor A independen terhadap BC. Pada masing-masing level D (bersyarat D),
Faktor A independen terhadap B. Dengan cara interpretasi tersebut, mudah
dijelaskan makna notasi (ABC, D) yaitu Faktor D independen terhadap Faktor
A, B dan C. Tidak ada hubungan spesifik ketiga faktor A, B dan C.
Kemanfaatan lain atas interpretasi ini adalah dalam hal mengitrepretasikan
model yang lebih besar. Jika model yang khusus atau spesifik adalah benar
maka sebarang model yang lebih besar juga benar. Jika dalam model yang
besar menginformasikan independen maka model yang lebih kecil juga
menginformasikan yang sama. Sebagai contoh untuk model tiga faktor (AB,C)
dan (AB,BC). Pada model yang lebih kecil yaitu (AB, C) menginformasikan Faktor
C independen terhadap A dan B. Pada model yang lebih besar yaitu (AB, BC),
Faktor A dan C saling independen pada masing-masing level C. Interpretasi
pada model yang besar valid maka interpreasi pada model yang lebih kecil
juga valid. Jika kedua model tersebut valid ,maka model yang lebih kecil
intrepretasinya lebih power full. Sehingga model yang lebih kecil (sederhana)
M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 111
yang direkomendasikan penggunaanya.
Pada model dimensi empat, mmodel (AB, AC, AD) dan model yang lebih besar
yaitu (ABC, AD). Faktor BC independen terhadap D pada masing-masing level
A (bersyarat A). Contoh lain untuk model (AB, ACD) dan model (AC, ABD).
Dari model ini menginformasikan bahwa dengan bersyarat faktor A, tiga
faktor yang lain adalah saling independen. Untuk Model (AB, AC, AD), faktor
A terdapat dalam ketiga suku yang memberikan interpretasi bahwa dengan
bersyarat A maka ketiga faktor yang lain akan saling independen.
Pada model 3 faktor, model (AB, AC, BC) mempunyai makna yang berbeda
dengan model (ABC). Sedang kan pada model 4 faktor, model (AB, AC, AD,
BC) dapat diringkas menjadi model (ABC, AD). Pernyataan model menjadi
(ABC, AD) akan lebih mudah diinterpretasikan. Beberapa interpretasi moldel
loglinear dimensi empat disajikan dalam Tabel 5.25.
Tabel 5.25. Interpretasi model loglinear dimensi empat
Model Interpretasi
(ABC,ABD) Pada masing-masing faktor A dan B, Faktor C dan D independen
(ABC,AD, BD) Pada masing-masing faktor A dan B, Faktor C dan D independen
(ABC,AD) Pada masing-masing Faktor A, Faktor D independen terhadap Faktor B dan C.
(AB,AC,AD,BC) Pada masing-masing Faktor A, Faktor D independen terhadap Faktor B dan C
(ABC, D) Faktor D independen dengan Faktor A, B dan C
(AB,BC,CD,DA) Pada masing-masing Faktor B dan D, FAktor A dan C independen. Pada masing-masing Faktor A dan C, FAktor B dan D independen.
(AB,AC,AD) Pada masing-masing Faktor A, ketiga faktor lain (B, C dan D) saling independen.
(AB,AC,BD) Pada masing-masing Faktor A, faktor C independen terhadap Faktor B dan D. Pada masing-masing Faktor B, faktor D independen terhadap Faktor A dan C.
(AB,CD) Faktor A dan B independen terhadap faktor C dan D.
(AB,AC,D) Faktor D independen terhadap faktor A, B dan C. PAda MAsing-masing faktor A, Faktor B independen terhadap faktor C
(AB,C,D) FAktor C independen terhadap FAktor A, B dan D. Faktor D independen terhadap faktor A, B dan C.
(A,B,C,D) Semua Faktor saling independen.
112 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
5.5.2 Visualisasi Grafis
Visualisasi hubungan antar faktor ini menggunakan Teori Graph. Edwards
dan Kreiner (1983) memberikan penjelasan penggunaan grafik ini pada
model loglinear. Selanjutnya Edwards (2000) memberikan penjelasan yang
lebih lengkap penggunaan model grafik dalam analisis statistik termasuk
kemanfaatannya dalam model lain selain loglinear. Penjelasan lain dapat
ditemukan dalam buku yang ditulis oleh Whittaker (1990) dan Lauritzen (1996)
serta Gauraha (2017). Model yang dinotasikan sebagaimana pada Tabel 5.11.
dapat divisualisasikan secara gafis seperti pada Gambar 5.12.
a. Model (AB,BC,CD,DA) b. Model (ABC,ACD)
c. Model (ABD,CD) d. Model (AB,CD)
e. Model (ABD,BCD) f. Model (AB,AC,BD)
g. Model (AB,C,D) h. Model (ABC,D)
Gambar 5.6. Visualisasi model loglinear empat dimensi.
M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 113
Misalkan yijlr
adalah frekuensi sel (i,j,l,r) yaitu banyaknya objek yang memiliki
sifat Ai, B
j, C
l dan D
r untuk i=1,…,a; j=1,…,b; l=1,…,c dan r=1,…,d. Total
observasi sebanyak n.
Nilai harapan untuk masing-masing model beserta derajad bebasnya untuk
beberapa model loglinear empat dimensi disajikan dalam Tabel 5.26.
Tabel 5.26. Nilai harapan model loglinear empat dimensi
Model Nilai Harapan ( Derajat bebas(A,B,C,D)
3i j l ry y y y
n+++ + ++ ++ + +++
abcd – a – b – c – d + 3
(AB,C,D)2
ij l ry y yn
++ ++ + +++abcd –ab – c – d + 2
(AB,AC,D)ij i l r
i
y y yy n
++ + + +++
+++
abcd – ab – ac – d + a + 1
(AB,CD)ij lry y
n++ ++
(ab-1)(cd –1)
(AB,AC,BD)ij i l j r
i j
y y yy y+ + + + +
+++ + ++
abcd – ab – ac – bd + a + b
(AB,AC,AD)
( )2ij i l i r
i
y y y
y+ + + ++
+++
abcd-ab-ac-ad+2a
(ABC,D)ijl ry y
n+ +++
(abc – 1)(d-1)
(ABC,AD)ijl i r
i
y yy+ ++
+++
a(bc-1)(d-1)
(ABC,ABD)ijl ij r
ij
y yy+ +
++
ab(c-1)(d-1)
Persamaan untuk menghitung nilai harapan sebagaimana pada Tabel 5.12.
dapat digunakan untuk menghitung statistik Pearson maupun Likelihood
114 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Ratio untuk digunakan uji goodness of fit. Kedua statistik tersebut berdistribusi
Chi-square dengan derajad bebas sesuai dengan model yang diuji.
5.5.3 Contoh Kasus Model Loglinear Empat Dimensi.
Tabel 5.27. adalah data kecelakaan mobil di sebuah propinsi sebanyak 68694
penumpang yang diklasifikasikan menurut gender (G), Lokasi (L), penggunaan
sabuk pengaman (S) dan luka (I).
Tabel 5.27. Data kecelakaan.
Gender Lokasi SabukLuka
Tidak YaWanita Urban Tidak 7287 996
Ya 11587 759
Rural Tidak 3246 973
Ya 6137 757
Laki Urban Tidak 10381 812
Ya 10969 380
Rural Tidak 6123 1084
Ya 6693 513
Beberapa hasil perhitungan statistik G2 untuk beberapa model loglinear
disajikan dalam Tabel 5.28. Model yang sesuai dengan data adalah model 3
dan Model 6 masing-masing nilai p-valuenya lebih besar dari α.
Tabel 5.28. Nilai G2 pada beberapa model Loglinear
No Model G2 df P-Value
1 (G,I,L,S) 2792.771 11 0
2 (GI,GL,GS,IL,IS,LS) 23.35099 5 0.000289199
3 (GIL,GIS,GLS,ILS) 1.325317 1 0.2496401
4 (GIL,GS,IS,LS) 18.56932 4 0.009548040
5 (GIS,GL,IL,LS) 22.84677 4 0.0001358713
6 (GLS,GI,IL,IS) 7.464480 4 0.1132858
7 (ILS,GI,GL,GS) 20.63338 4 0.0003743159
8 (GILS) 0 0 1
M O D E L L O G L I N E A R P A D A TA B E L K O N T E N G E N S I M U LT I D I M E N S I 115
Model 3, yaitu (GIL,GIS,GLS,ILS) adalah model yang memuat efek interaksi tiga
factor, sedangkan Model 6 yaitu (GLS,GI,IL,IS) adalah model yang memuat efek
interaksi dua faktor ditambah efek interaksi GIL. Sehingga kedua model letak
perbedaannya pada efek interaksi tiga faktor selain GIL, yaitu GIS,GLS,ILS. Dapat
dilakukan inferensi terhadap masing efek interaksi tiga faktor GIS,GLS,ILS.
Uji perbandingan antara model (GIL,GIS,GLS,ILS) dan model (GLS,GI,IL,IS)
menggunakan nilai Devians dengan hipotesisnya sebagai berikut :
H0 : Model (GLS,GI,IL,IS) sesuai dengan data
H1 : Model (GIL,GIS,GLS,ILS) sesuai dengan data
Diperoleh Devians
D = 7.464480 – 1.325317
= 6.139163
dengan df = 4 -1 =3. Nilai p-value = 0.105032 sehingga pada α=0.05
kesimpulannya adalah gagal tolak H0 yang berarti bahwa Model (GLS,GI,IL,IS)
lebih cocok dengan data.
Jika kita tertarik untuk melihat efek interaksi tiga faktor, maka dapat
dilakukan dengan menggunakan nilai Devians berdasarkan dua model yang
sesuai. Tabel 5.29 menyajikan hasil pengujian efek interaksi tiga faktor.
Tabel 5.29. Inferensi efek interaksi tiga faktor
Efek Interaksi H0 H1 Devians db p-value Kesimpulan
pada α=0.05
GIL (GI,GL,GS,IL,IS,LS) (GIL,GS,IS,LS) 4.78167 1 0.028764 Tolak H0
GIS (GI,GL,GS,IL,IS,LS) (GIS,GL,IL,LS) 0.50422 1 0.477652 Gagal tolak H0
GLS (GI,GL,GS,IL,IS,LS) (GLS,GI,IL,IS) 15.8865 1 6.73E-05 Tolak H0
ILS (GI,GL,GS,IL,IS,LS) (ILS,GI,GL,GS) 2.71761 1 0.099247 Gagal tolak H0
Berdasarkan hasil perhitungan yang disajikan pada tabel 5.15, pada tingkat
signifikansi α=0.05 efek interaksi yang signifikan adalah GIL dan GLS. Dari
pengujian interaksi tiga faktor ini diperoleh kesimpulan yang sama dengan uji
goodness of fit yaitu model (GLS,GI,IL,IS) adalah model yang layak digunakan.
Namun kita perlu menguji apakah model dengan memasukan efek interaksi
GLS. Sehingga perlu menguji Model (GIL,GLS,IS) layak digunakan.
116 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Dari hasil uji goodness of fit diperoleh G2 = 3.591447 dengan db=3 sehingga
nilai p-value = 0.3090940. Dapat disimpulkan bahwa Model (GIL,GLS,IS)
layak digunakan. Selanjutnya jika model ini dibandingkan dengan model
(GLS,GI,IL,IS) dengan hipotesis
H0 : Model (GLS,GI,IL,IS) layak digunakan
H1 : Model (GIL,GLS,IS) layak digunakan
Didapatkan nilai Devians
D = 7.464480 - 3.591447
= 3.873033
Dengan derajad bebas db = 4 – 3 = 1 sehingga diperoleh nilai p-value =
0.049068. Pada α=0.05 kesimpulannya adalah gagal tolak H0 yang berarti
bahwa Model (GIL,GLS, IS) lebih cocok dengan data dibandingkan dengan
model (GLS,GI,IL,IS). Walaupun nilai p-value mendekati ambang batas 0.05.
Pengujian menggunakan statistik G2 didasarkan pada asumsi sampel besar.
Statistik yang bermanfaat untuk melihat kesesuaian data dan model adalah
ukuran dissimilarity index yaitu
ˆ ˆ| | | |2
i i i in pDIn nµ π− −
= =∑ ∑
dengan ni adalah frekuensi observasi ke-i dan ii nπµ ˆˆ = adalah frekuensi
harapan berdasarkan modelnya. Nilai DI terletak antara 0 dan 1. Jika DI
mendekati 0 mengindikasikan model cocok dengan data. Model (GLS,GI,IL,IS)
mempunyai nilai DI= 0.002507358 dan pada model (GIL.GLS, IS) mempunyai
nilai DI= 0.0001590224. Kedua nilai DI sangat kecil. Biasanya dalam praktek,
jika DI kurang dari 1% model dikatakan sesuai.
M E N G E L O L A D A N M E N G A N A L I S I S D A TA K A T E G O R I K M E N G G U N A K A N S O F T W A R E R 117
6. MENGELOLA DAN MENGANALISIS DATA KATEGORIK MENGGUNAKAN SOFTWARE R
6.1 Pendahuluan
R merupakan suatu sistem analisis statistika yang relatif lengkap, yang
merupakan hasil dari kolaborasi riset berbagai statistisi di seluruh dunia. Versi
paling awal R dibuat tahun 1992 di Universitas Aucland, New Zealand oleh
Ross Ihaka dan Robert Gentleman (yang mungkin menjelaskan asal muasal
akronim nama R untuk software ini). Program R adalah program statistika yang
didistribusikan melalui internet di bawah GPL (General Public License), hal ini
memungkinkan untuk digunakan secara bebas. Artinya untuk menggunakan
R tidak diperlukan pembayaran lisensi.
R dapat diperoleh secara bebas di CRAN-archive (The Comprehensive R Archive
Network) pada alamat http:/CRAN.r-project.org. Server utama CRAN berlokasi
di Universitas Teknologi Vienna, Austria dan di mirror world-wide tersebar di
banyak negara, ternasuk di Indonesia yaitu di Badan Pengkajian dan Penerapan
Teknologi (BPPT). Karena R adalah sebuah bahasa pemrograman, sebagian
besar fungsi-fungsi tersedia dalam bentuk library (kadang-kadang disebut
paket) yang diperoleh dari situs R. Kita dapat menginstal library sesuai dengan
keinginan. Daftar library terkompresi siap untuk di-download di http:/CRAN.r-
project.org. Tabel 6.1. merupakan sebagai daftar package yang dapat diakses
secara bebas dalam link tersebut (https://repo.bppt.go.id/cran/). Daftar ini
senantiasa berkembang setiap saat. Jika kita menggunakan GUI, mulai R dan
klik “install package from local directory” yang terletak di “package”, kemudian
pilih file yang dipilih untuk diunduh.
118 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Tabel 6.1. Paket yang tersedia dalam situs r-project.
Tanggal Package Nama
2019-07-15 aws.ec2metadata Get EC2 Instance Metadata
2019-07-15 AzureContainers Interface to ‘Container Instances’, ‘Docker Registry’
and ‘Kubernetes’ in ‘Azure’
2019-07-15 CautiousLearning Control Charts with Guaranteed In-Control
Performance and Cautious Parameters Learning
2019-07-15 coalitions Bayesian “Now-Cast” Estimation of Event
Probabilities in Multi-Party Democracies
2019-07-15 damr Interface to Drosophila Activity Monitor System
Result Files
2019-07-15 DescToolsAddIns Interactive Functions to be Used as Shortcuts in
‘RStudio’
2019-07-15 deSolve Solvers for Initial Value Problems of Differential
Equations (‘ODE’, ‘DAE’, ‘DDE’)
2019-07-15 durmod Mixed Proportional Hazard Competing Risk Model
2019-07-15 DVHmetrics Analyze Dose-Volume Histograms and Check
Constraints
2019-07-15 DynamicGP Modelling and Analysis of Dynamic Computer
Experiments
2019-07-15 exuber Econometric Analysis of Explosive Time Series
2019-07-15 GetTDData Get Data for Brazilian Bonds (Tesouro Direto)
…. …. ….
2008-11-08 foba greedy variable selection
2008-10-28 kzs Kolmogorov-Zurbenko Spatial Smoothing and
Applications
2008-10-02 expert Modeling without data using expert opinion
2008-09-08 pack Convert values to/from raw vectors
2008-08-13 RM2 Revenue Management and Pricing Package
2008-06-23 SASPECT Significant AnalysiS of PEptide CounTs
2008-06-09 LDtests Exact tests for Linkage Disequilibrium and Hardy-
Weinberg Equilibrium
2008-04-29 poilog Poisson lognormal and bivariate Poisson
lognormal distribution
M E N G E L O L A D A N M E N G A N A L I S I S D A TA K A T E G O R I K M E N G G U N A K A N S O F T W A R E R 119
2007-10-16 fuzzyFDR Exact calculation of fuzzy decision rules for multiple
testing
2006-05-24 allelic A fast, unbiased and exact allelic exact test
2006-03-30 BayesValidate Bayes Validate Package
2006-03-15 coxrobust Robust Estimation in Cox Model
Dalam bab ini akan dibahas bagaimana mengatur data mulau dari input,
transformasi/manipulasi, impor dan menyimpan data dalam dalam berbagai
format.
6.2 Input Data
R memungkinkan kita untuk membuat berbagai jenis objek penyimpanan
data, seperti angka, vektor, matrik, string, dan dataframes. Perintah untuk
menciptakan atau mendefinisikan sebuah objek menggunakan perintah
> x <- 7
yang berarti menciptakan objek numerik yang disebut x, yang berisi nilai 7.
Objek yang dibuat dapat menyimpan lebih dari satu nilai. Perintah c( ) adalah
fungsi generik yang dapat digunakan untuk membuat vektor pada berbagai
jenis data.
> A<- c(7,10,5)
Objek A memuat tiga nilai dengan nilai 7, 10 dan 5. Operasi-operasi vektor
dapat dilakukan terhadap objek A.
a. Transpose, menggunakan perintah t( ).
> F <- t(A) #F adalah transpose dari matrik A
b. Penggabungan baris dan kolom dengan menggunakan perintah cbind ()
dan rbind().
> data1 <- cbind(c(7,6,5),c(1,2,3))> data2 <- rbind(c(7,6,5),c(1,2,3))
120 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Hasil atas operasi ini
> data1 [,1] [,2][1,] 7 1[2,] 6 2[3,] 5 3> data2 [,1] [,2] [,3][1,] 7 6 5
[2,] 1 2 3
Elemen dalam vektor dan jenis data yang sama diindeks menggunakan tanda
kurung siku. Pada tipe data multidimensi, seperti matrik dan data frames,
meninggalkan indeks kosong merujuk kepada seluruh kolom atau baris yang
sesuai dengan indeks.
> A[2][1] 10> F[3][1] 5> data1[,1][1] 7 6 5> data1[2,1][1] 6> data1[2,][1] 6 2
Ringkasan statistik pada data dapat dilakukan menggunakan summary ( ).
Untuk menentukan dimensi data menggunakan perintah nrow( ), dan ncol(
). Lebih umum, kita dapat menggunakan perintah dim( ) untuk mengetahui
dimensi dari objek.
M E N G E L O L A D A N M E N G A N A L I S I S D A TA K A T E G O R I K M E N G G U N A K A N S O F T W A R E R 121
> nrow(data2) #jumlah baris[1] 2> ncol(data2) #jumlah kolom[1] 3> dim(data2) #dimensi[1] 2 3> summary(data2) V1 V2 V3 Min. :1.0 Min. :2 Min. :3.0 1st Qu.:2.5 1st Qu.:3 1st Qu.:3.5 Median :4.0 Median :4 Median :4.0 Mean :4.0 Mean :4 Mean :4.0 3rd Qu.:5.5 3rd Qu.:5 3rd Qu.:4.5 Max. :7.0 Max. :6 Max. :5.0
Jika kita ingin mengekstrak atau mencetak hanya baris atau kolom tertentu,
kita dapat menggunakan operator singkatan. Mengambil kolom 2 dan kolom
3 pada objek data2.
> data2[,c(2,3)]
[,1] [,2]
[1,] 6 5
[2,] 2 3
Menghapus kolom tertentu, misalkan kolom ke 3 pada data2,
> data2[,-c(3)]
[,1] [,2]
[1,] 7 6
[2,] 1 2
122 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Demikian juga untuk mengambil baris tertentu ataupun menghapus baris
tertentu.
> data2[c(1),] #mengambil baris ke-1
[1] 7 6 5
> data2[-c(1),] #menghapus baris ke-1
[1] 1 2 3
Kita dapat juga menggunakan operator perbandingan untuk mengekstrak
kolom atau baris tertentu. Misalkan mengambil kolom yang memenuhi syarat
nilai pada baris ke-1 lebih besar atau sama dengan 6.
> data2[,data2[1,]>=6]
[,1] [,2]
[1,] 7 6
[2,] 1 2
>data2[data2[1,]>1,]
Kita juga dapat menyusun ulang data dengan mengurutkan data.
> data1[order(data1[,1])] #mengambil nilai pada
kolom ke-1 dan mengurutkan
[1] 5 6 7
> data1[order(data1[1,])] #mengambil nilai pada
baris ke-1 dan mengurutkan
[1] 6 7
6.3 Vektor
Hal yang paling mendasar dalam R adalah vektor yang biasanya dalam
bentuk vektor kolom, tetapi vektor dapat juga dipandang sebagai vektor baris.
Misalkan dipunyai dua buah vektor
a<-c(1,2,3)
b<-c(4,6,8)
M E N G E L O L A D A N M E N G A N A L I S I S D A TA K A T E G O R I K M E N G G U N A K A N S O F T W A R E R 123
Sekarang kita dapat membuat sebuah matrik dengan menumpuk secara
vertikal maupun horizontal dan R dapat memperlakukan masing-masing
vektor sebagai vektor baris ataupun vektor kolom.
> cbind(a,b)
a b
[1,] 1 4
[2,] 2 6
[3,] 3 8
> rbind(a,b)
[,1] [,2] [,3]
a 1 2 3
b 4 6 8
Dalam operasi aljabar linear, vektor perlu dikorversi ke dalam matrik
menggunakan perintah as.matrix ( ) dan perintah as.vector( ) untuk membuat
vektor.
6.4 Array dan Matrik
Dalam R, data multivariat yang homogen (semua elemen adalah tipe yang
sama) dapat disimpan sebagai sebuah array atau matrik. Sebuah matrik
memiliki dua dimensi, sedangkan array dapat dari banyak dimensi. Data
dengan tipe ini tidak memiliki atribut khusus untuk memberi nama kolom
atau baris dan hanya dapat menyimpan data numerik. Perhatikan bahwa
orang tidak dapat membuat sebuah matrik, array, atau vektor dari dua jenis
data yang berbeda (numerik dan karakter, misalnya). Jika tidak memenuhi
hal tersebut, akan terjadi error. Untuk membuat matrik berdimensi axb dapat
digunakan perintah matrix(,a,b).
> matrix(c(1,2,3,4,5,6),3,2)
[,1] [,2]
[1,] 1 4
[2,] 2 5
[3,] 3 6
124 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Array merupakan generalisasi dari matrik (dimensinya lebih dari 2). Misalkan
membuat array dengan demensi tiga, dapat menggunakan perintah
array(,c(a,b,c)).
> array(c(1:12),c(2,3,2))
, , 1
[,1] [,2] [,3]
[1,] 1 3 5
[2,] 2 4 6
, , 2
[,1] [,2] [,3]
[1,] 7 9 11
[2,] 8 10 12
6.5 Frame
Sebagian besar data dalam ekonometrika merupakan bentuk data frame.
Sebuah data frame adalah kumpulan vektor (sebagai kolom) yang berisi data,
yang tidak harus dari tipe yang sama, tetapi masing-masing kolom harus
memiliki jumlah elemen yang sama. Data frame memuat data pengamatan
individu pada barisnya dan variabel-variabel pada masing-masing kolom.
Setiap kolom memiliki judul atau nama yang spesifik. Misalkan akan disusun
data frame dari vektor Nama, Mtk dan Bhs.
> Nama<-c(“Anton”,”Bobo”,”Roni”)
> Mtk<-c(9,7,10)
> Bhs<-c(3,4,8)
> Daftar.Nilai<-data.frame(Nama,Mtk,Bhs)
> Daftar.Nilai
Nama Mtk Bhs
1 Anton 9 3
2 Bobo 7 4
3 Roni 10 8
Daftar.Nilai adalah data frame yang memuat tiga variabel (Nama,Mtk,Bhs)
atas pengamatan tiga orang. Jika kita hanya mengambil variabel tertentu saja
maka kolom Nama maka dapat digunakan perintah:
M E N G E L O L A D A N M E N G A N A L I S I S D A TA K A T E G O R I K M E N G G U N A K A N S O F T W A R E R 125
> Daftar.Nilai$Nama
[1] Anton Bobo Roni
Levels: Anton Bobo Roni
> Daftar.Nilai$Mtk
[1] 9 7 10
Untuk melihat nama-nama kolom dalam Daftar.Nilai
> names(Daftar.Nilai)
[1] “Nama” “Mtk” “Bhs”
Operasi matematika dapat dilakukan pada dataframe pada kolom yang
bertipe numerik.
Misalkan
> jml.nilai<-Daftar.Nilai$Mtk + Daftar.Nilai$Bhs
> jml.nilai
[1] 12 11 18
menciptakan variabel Rata yang merupakan nilai rata-rata nilai Mtk dan Bhs.
> Daftar.Nilai$Rata<-Daftar.Nilai$Mtk + Daftar.
Nilai$Bhs
> Daftar.Nilai
Nama Mtk Bhs Rata
1 Anton 9 3 12
2 Bobo 7 4 11
3 Roni 10 8 18
> summary(Daftar.Nilai) #mendiskripsikan data frame
Nama Mtk Bhs Rata
Anton:1 Min. : 7.000 Min. :3.0 Min. :11.00
Bobo :1 1st Qu.: 8.000 1st Qu.:3.5 1st u.:11.50
Roni :1 Median : 9.000 Median :4.0 Median 12.00
Mean : 8.667 Mean :5.0 Mean :13.67
3rd Qu.: 9.500 3rd Qu.:6.0 3rd u.:15.00
Max. :10.000 Max. :8.0 Max. :18.00
126 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Untuk memeriksa struktur data dapat digunakan perintah str( ).
> str(Daftar.Nilai)
‘data.frame’: 3 obs. of 4 variables:
$ Nama: Factor w/ 3 levels “Anton”,”Bobo”,..: 1 2 3
$ Mtk : num 9 7 10
$ Bhs : num 3 4 8
$ Rata: num 12 11 18
6.6 Membuat dan Memanipulasi Tabel Frekuensi
R menyediakan banyak metode untuk membuat tabel frekuensi dan
kontingensi. Beberapa dijelaskan di bawah ini. Dalam contoh di bawah ini, kami
menggunakan beberapa contoh nyata dan beberapa yang anonim, di mana
variabel A, B, dan C mewakili variabel kategori, dan X mewakili sebarang objek
data R. Hal pertama yang perlu Anda ketahui adalah bahwa data kategorikal
dapat direpresentasikan dalam tiga bentuk berbeda dalam R, dan kadang-
kadang diperlukan untuk mengkonversi dari satu formulir ke formulir lainnya,
untuk melakukan tes statistik, menyesuaikan model, atau memvisualisasikan
hasil. Setelah objek data ada di R, Anda dapat memeriksa struktur lengkapnya
dengan fungsi str( ), atau melihat nama komponennya dengan fungsi names
( ).
Penulisan data dapat disusun dalam beberapa format yang sangat dipengaruhi
oleh format data pada saat observasi di lapangan. Beberapa format data
meliputi Case Form, Frequency Form, Table Form.
6.6.1 Case form
Case form adalah data yang berisi pengamatan individu, dengan satu atau lebih
faktor, digunakan sebagai variabel klasifikasi. Dalam bentuk kasus, mungkin
ada kovariat numerik. Jumlah total pengamatan adalah nrow (X), dan jumlah
variabel adalah ncol (X).
Sebagai contoh data Arthritis yang diambil dari vcd package adalah contoh data
dalam format case form. Terdapat dua faktor (variabel kategori) yaitu Treatment
dan Sex. Dua variabel lain, yaitu Age adalah variabel eksplanatori yang bersifat
numeric dan Improved sebagai variabel respons yang berupa data ordinal
(dengan urutan None < Some < Marked). Berdasarkan data tersebut dapat
M E N G E L O L A D A N M E N G A N A L I S I S D A TA K A T E G O R I K M E N G G U N A K A N S O F T W A R E R 127
disusun tabel kontingensi dengan faktor Treatment, Sex dan Improved yang
berupa tabel 2 × 2 × 3.
> names(Arthritis) # show the variables[1] “ID” “Treatment” “Sex” “Age” “Improved”> str(Arthritis) # show the structure> head(Arthritis,5) # first 5 observations, same as Arthritis[1:5,]
ID Treatment Sex Age Improved1 57 Treated Male 27 Some2 46 Treated Male 29 None3 77 Treated Male 30 None4 17 Treated Male 32 Marked5 36 Treated Male 46 Marked
6.6.2 Frequency form
Frequency form adalah data yang mengandung satu atau lebih faktor, dan
variabel frekuensi, sering disebut Frek atau hitung. Beberapa perintah yang
biasa digunakan dalam tabel kontingensi:
sum(X $ Frek) : Jumlah total pengamatan atau beberapa bentuk yang setara.
nrow (X) : Jumlah sel dalam tabel.
Perintah yang biasa digunakan Sum(X [, “Frek”]). Untuk Menyusun table
kontingensi yang berasal dari pengamatan yang sudah dalam format frekuensi
dapat menggunakan perintah
expand.grid() : untuk mendefinisikan nama faktor.
c() : menyusun daftar frekuensi/nilai dalam sebuah vektor.
Misalkan diambil dari data 1991 General Social Survey dalam Agresti (2002).
Responden diklasifikasikan berdarasarkan faktor sex dan party.
> # Agresti (2002)
> GSS <- data.frame(
+ expand.grid(sex=c(“female”, “male”),
+ party=c(“dem”, “indep”, “rep”)),
+ count=c(279,165,73,47,225,191))
GSS <- data.frame(expand.grid(sex=c(“female”,
“male”), party=c(“dem”, “indep”, “rep”)),
count=c(279,165,73,47,225,191))
> GSS
128 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
sex party count
1 female dem 279
2 male dem 165
3 female indep 73
4 male indep 47
5 female rep 225
6 male rep 191
> names(GSS)
[1] “sex” “party” “count”
> str(GSS)
> sum(GSS$count)
[1] 980
6.6.3 Table form.
Table form adalah data berbentuk matriks, array atau objek tabel, yang elemen-
elemennya adalah frekuensi dalam tabel n-way. Beberapa peritah dalam
format ini :
dimnames (X) : untuk menegetahui Nama variabel (faktor)
dan levelnya.
Sum(X) : Jumlah total pengamatan.
length(dimnames(X)) : Jumlah dimensi dari tabel
sapply(dimnames(X), length) : ukuran-ukuran tabel
Dari Data “HairEyeColor” yang dapat diperoleh dari package vcd adalah contoh
data dalam format tabel.
> str(HairEyeColor) # show the structure
> sum(HairEyeColor) # number of cases
[1] 592
> sapply(dimnames(HairEyeColor), length) # tabel
dimension sizes
Hair Eye Sex
4 4 2
M E N G E L O L A D A N M E N G A N A L I S I S D A TA K A T E G O R I K M E N G G U N A K A N S O F T W A R E R 129
Data frekuensi juga dapat dinyatakan dalam format matrik. Berdasarkan data
“Job Satisfaction” dalam Agresti (2002), dapat disusun tabel menggunakan
perintah matrix() sebagai
> ## A 4 x 4 tabel Agresti (2002, Table 2.8, p. 57)
Job Satisfaction
> JobSat <- matrix(c(1,2,1,0, 3,3,6,1, 10,10,14,9,
6,7,12,11), 4, 4)
> dimnames(JobSat) = list(income=c(“< 15k”,
“15-25k”, “25-40k”, “> 40k”),
+ satisfaction=c(“VeryD”, “LittleD”, “ModerateS”,
“VeryS”))
> JobSat
satisfaction
income VeryD LittleD ModerateS VeryS
< 15k 1 3 10 6
15-25k 2 3 10 7
25-40k 1 6 14 12
> 40k 0 1 9 11
JobSat adalah sebuah matrix, bukan sebuah objek class(“table”), dan beberapa
fungsi lebih disukai menggunakan tabel daripada matrik. Mengkonversi
format matrik menjadi tabel dapat menggunakan fungsi as.table( ),
> JobSat <- as.table(JobSat)
> str(JobSat)
6.6.4 Fungsi structable( )
Untuk tabel tiga dimensi (3-arah) dan lebih besar lagi, fungsi structable ( ) yang
dapat diperoleh dapat package vcd menyediakan tampilan tabel yang nyaman
dan fleksibel. Variabel yang letakan ke baris dan kolom tampilan dua arah
dapat ditentukan oleh rumus model.
> structable(HairEyeColor) # show the table: default> structable(Hair+Sex ~ Eye, HairEyeColor) # specify col ~ row
130 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
6.6.5 Fungsi table( )
Tabel frekuensi yang melibatkan beberapa faktor menggunakan fungsi table( ),
tabel proporsi menggunakan fungsi prop.table () dan untuk mencari frekuensi
marginal menggunakan fungsi margin.table().
> n=500
> A <- factor(sample(c(“a1”,”a2”), n, rep=TRUE))
> B <- factor(sample(c(“b1”,”b2”), n, rep=TRUE))
> C <- factor(sample(c(“c1”,”c2”), n, rep=TRUE))
> mydata <- data.frame(A,B,C)
> # 2-Way Frequency Table
> attach(mydata)
> mytable <- table(A,B) # A will be rows, B will
be columns
> mytable # print table
> margin.table(mytable, 1) # A frequencies (summed
over B)
> margin.table(mytable, 2) # B frequencies (summed
over A)
> prop.table(mytable) # cell percentages
> prop.table(mytable, 1) # row percentages
> prop.table(mytable, 2) # column percentages
Fungsi table( ) dapat juga digunakan untuk menyusun tabel multidimensi
(lebih dari 3 variabel kategorik. Dalam kasus ini dapat menggunakan fungsi
ftable( ) atau structable( ).
> # 3-Way Frequency Table
> mytable <- table(A, B, C)
> ftable(mytable)
M E N G E L O L A D A N M E N G A N A L I S I S D A TA K A T E G O R I K M E N G G U N A K A N S O F T W A R E R 131
6.6.6 Fungsi xtabs( )
Fungsi xtabs() dapat digunakan untuk membuat cross tabulations berdasarkan
data dalam format case-form yang disediakan dalam data frame atau matrix.
Hasilnya berupa tabel kontingensi dengan format array dengan dimensi
sebesar banyaknya suku disebelah kanan rumus (~).
> # 3-Way Frequency Table
> mytable <- xtabs(~A+B+C, data=mydata)
> ftable(mytable) # print table
> summary(mytable) # chi-square test of indepedence
Jika sebuah variabel dimasukan dalam rumus sebelah kiri, maka variabel
tersebut merupakan sebuah vektor frekuensi dan data sudah dalam format
frekuensi.
> (GSStab <- xtabs(count ~ sex + party, data=GSS))
> summary(GSStab)
6.6.7 Tabel Marginal
Seringkali dalam menganalisis tabel kontingensi yang melibatkan banyak
faktor, dapat dilakukan analisis untuk sebagian faktor saja atau beberapa
faktor diabaikan. Misalkan sebuah tabel memuat 4 Faktor yaitu A, B, C dan D,
sehingga tabelnya berdimensi 4. Jika peneliti hanya menganalisis dua faktor
saja, misalkan faktor A dan B sedangkan faktor C dan D diabaikan, maka tabel
nya menjadi berdimensi dua. Pada data yang memiliki format data frame baik
dalam case-form dan frequency form untuk menyusun tabel marginal dapat
menggunakan fungsi aggregate(). Sedangkan jika data mempinyai format
tabel maka dapat menggunakan fungsi margin.table() atau apply().
Contoh dari Data DaytonSurvey dalam vcdExtra package mempunyai format
data Frame yang terdiri dari 5 faktor dan masing-masing mempunyai level
2 sehingga tabelnya berdimensi 25. Lima faktor tersebut adalah pertanyaan
terkait penggunaan alcohol, cigarettes dan marijuana pada kelompok siswa
SLTA yang diklasifikasikan berdasarkan variabel sex dan race.
132 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
> str(DaytonSurvey)
> head(DaytonSurvey)
cigarette alcohol marijuana sex race Freq
1 Yes Yes Yes female white 405
2 No Yes Yes female white 13
3 Yes No Yes female white 1
4 No No Yes female white 1
5 Yes Yes No female white 268
6 No Yes No female white 218
Dilakukan analisis yang lebih fokus pada asosiasi variabel alcohol, cigarettes
dan marijuana sedangkan variabel sex dan race diabaikan.
> # data in frequency form
> # collapse over sex and race
> Dayton.ACM.df <- aggregate(Freq ~
cigarette+alcohol+marijuana,
+ data=DaytonSurvey, FUN=sum)
> Dayton.ACM.df
cigarette alcohol marijuana Freq
1 Yes Yes Yes 911
2 No Yes Yes 44
3 Yes No Yes 3
4 No No Yes 2
5 Yes Yes No 538
6 No Yes No 456
7 Yes No No 43
8 No No No 279
Ketika data mempunyai format tabel, maka fungsi yang dapat digunakan
adalah apply() atau fungsi margin.table(). Sebagai contoh, data DaytonSurvey
yang mempunyai format data frame menjadi format tabel 25 menggunakan
fungsi xtabs(),
M E N G E L O L A D A N M E N G A N A L I S I S D A TA K A T E G O R I K M E N G G U N A K A N S O F T W A R E R 133
> # in table form
> Dayton.tab <- xtabs(Freq~cigarette+alcohol+marij
uana+sex+race, data=DaytonSurvey)
> structable(cigarette+alcohol+marijuana ~
sex+race, data=Dayton.tab)
Menggunakan fungsi apply() pada data Dayton.tab menjadi tabel 23 dengan
mengabaikan variabel sex dan race.
> # collapse over sex and race
> Dayton.ACM.tab <- apply(Dayton.tab, MARGIN=1:3, FUN=sum)
> Dayton.ACM.tab <- margin.table(Dayton.tab, 1:3) # same result
> structable(cigarette+alcohol ~ marijuana, data=Dayton.ACM.tab)
6.6.8 Pengurangan Level Tabel.
Salah satu permasalahan yang sering terjadi dalam mengelola tabel atau array
adalah mengurangi atau menggabung beberapa level pada masing-masing
faktor sehingga frekuensinya ikut menyesuaikan. Untuk melakukan reduksi
level ini dapat digunakan fungsi collapse.table() dalam package vcdExtra.
Contoh penggabungan kelompok usia 10-year ke dalam kelompok 20-year
berdasarkan tabel 2 × 6 × 3 yang berdistribusi Poisson. Data dibangkitkan
padam mean 100.
134 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
> sex <- c(“Male”, “Female”)
> age <- c(“10-19”, “20-29”, “30-39”, “40-49”,
“50-59”, “60-69”)
> education <- c(“low”, “med”, “high”)
> data <- expand.grid(sex=sex, age=age,
education=education)
> counts <- rpois(36, 100)
> data <- cbind(data, counts)
> # membuat tabel dimensi tiga
> t1 <- xtabs(counts ~ sex + age + education,
data=data)
> structable(t1)
Misalkan dari tabel yang terbentuk dilakukan penggabungan untuk kelompok
age “10-19” digabung ke kelompok age “20-29” sehingga intervalnya menjadi
“10-29”. Demikian juga kelompok education menjadi dua kelompok saja yaitu
“<high” dan “high”.
> t2 <- collapse.table(t1,
+ age=c(“10-29”, “10-29”, “30-49”, “30-49”, “50-69”,
“50-69”),
+ education=c(“<high”, “<high”, “high”))
> structable(t2)
6.6.9 Konversi Format Data.
Tabel 6.2. berikut menyajikan perintah-perintah yang digunakan untuk
mengkonversi format data menjadi format lain.
Tabel 6.2. Konversi format data
Format asal Format tujuan
Case form Frequency form Table form
Case form - Xtabs(~A+B) Table(A,B)
Frequency form Expand.dft(X) - Xtabs(count~A+B)
Table form Expand.dft(X) As.data.frame(X) -
M E N G E L O L A D A N M E N G A N A L I S I S D A TA K A T E G O R I K M E N G G U N A K A N S O F T W A R E R 135
Misalkan diambil dari data 1991 General Social Survey dalam Agresti (2002).
Mengkonversi data GSStab yang mempunyai format table form menjadi data.
frame yang mempunyai format frequency form.
> as.data.frame(GSStab)
Contoh berikutnya dari data Arthritis yang diambil dari vcd package yang
mempunyai format case form dikonversi menjadi tabel kontingensi tiga
dimensi Treatment×Sex×Improved.
> Art.tab <-with(Arthritis, table(Treatment, Sex,
Improved))
> str(Art.tab)
> ftable(Art.tab)
Sebaliknya, dapat mengkonversi dari format table form yaitu Art.tab yang
telah diperoleh dari data Arthritis untuk dikembalikan lagi menjadi case form,
dengan faktor-faktornya Treatment, Sex dan Improved. Fungsi yang digunakan
adalah expand.dft( ) yang terdapat dalam package vcdExtra.
> Art.df <- expand.dft(Art.tab)
> str(Art.df)
6.7 Impor Data dalam R
Program R mampu mengimpor dan mengespor data dalam berbagai ekstensi
file seperti Text(.txt), Excel (.xlsx, .scv), SPSS (.sav), Minitab(.mtp). Dalam
subbab ini dibahas bagaimana mengimpor dan mengekspor dalam beberapa
file ekstensi tersebut.
1. Impor data dari Microsoft Excel.
Data dalam program Excel mempunyai dua jenis ektensi, yaitu *.xlsx dan
*.scv. Untuk membuka/membaca dan menyimpan data tersebut dalam
program R dapat menggunakan perintah yaitu langsung dengan read.csv(file,
header=TRUE) atau menggunakan package xlsx. Misalkan dimiliki data sebagai
mana dalam table 7. yang disimpan folder D:/Dataku/Data Sekolah.xlsx.
136 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Tabel 6.3. Data Sekolah
Provinsi APTSRasio Guru-
SiswaRasio Sekolah-
Siswa Persentase
KK Rata-Rata Jumlah Anggota Keluarga
Rasio Jenis Kelamin
Persentase Penduduk Miskin
ACEH 0.0178 0.0817 0.0043 0.5463 4.2000 99.7000 3.1300 SUMATERA UTARA 0.0213 0.0444 0.0026 0.5545 4.3000 99.6000 5.0900 SUMATERA BARAT 0.0203 0.0587 0.0027 0.5123 4.2000 98.8000 1.3300 RIAU 0.0176 0.0520 0.0029 0.5907 4.2000 105.6000 1.8600 JAMBI 0.0145 0.0527 0.0036 0.5672 4.0000 104.2000 1.0500 SUMATERA SELATAN 0.0197 0.0617 0.0028 0.6001 4.1000 103.3000 4.0600 BENGKULU 0.0184 0.0594 0.0035 0.5469 4.0000 104.1000 1.1800 LAMPUNG 0.0207 0.0516 0.0025 0.6358 3.9000 105.3000 0.5400 KEP. BANGKA BELITUNG 0.0209 0.0391 0.0034 0.5865 3.9000 108.0000 0.2500 KEP. RIAU 0.0134 0.0434 0.0030 0.3778 3.8000 104.6000 0.4600 DKI JAKARTA 0.0093 0.0367 0.0020 0.3362 3.8000 101.3000 1.5400 JAWA BARAT 0.0182 0.0288 0.0013 0.6361 3.8000 102.9000 15.8600 JAWA TENGAH 0.0159 0.0272 0.0012 0.6333 3.7000 98.4000 17.0700 DI YOGYAKARTA 0.0091 0.0384 0.0021 0.4615 3.3000 97.7000 1.9900 JAWA TIMUR 0.0153 0.0354 0.0017 0.5616 3.6000 97.4000 17.7700 BANTEN 0.0197 0.0326 0.0017 0.5779 4.1000 104.1000 2.4300 BALI 0.0105 0.0414 0.0019 0.4528 3.8000 101.4000 0.7300 NUSA TENGGARA BARAT 0.0283 0.0623 0.0030 0.4722 3.6000 94.2000 3.0600 NUSA TENGGARA TIMUR 0.0237 0.0550 0.0031 0.5188 4.6000 98.2000 3.7100 KALIMANTAN BARAT 0.0241 0.0496 0.0035 0.5319 4.3000 103.9000 1.4300 KALIMANTAN TENGAH 0.0271 0.0613 0.0058 0.5729 3.9000 109.2000 0.5600 KALIMANTAN SELATAN 0.0222 0.0461 0.0032 0.5906 3.7000 102.7000 0.7100 KALIMANTAN TIMUR 0.0191 0.0373 0.0031 0.4539 4.0000 110.3000 0.9500 SULAWESI UTARA 0.0183 0.0453 0.0042 0.5123 3.9000 104.2000 0.7400 SULAWESI TENGAH 0.0267 0.0463 0.0039 0.6058 4.2000 104.5000 1.4500 SULAWESI SELATAN 0.0194 0.0500 0.0025 0.5331 4.4000 95.4000 3.0200 SULAWESI TENGGARA 0.0341 0.0639 0.0041 0.4797 4.4000 100.9000 1.1800 GORONTALO 0.0342 0.0369 0.0033 0.5208 4.3000 100.4000 0.7300 SULAWESI BARAT 0.0227 0.0352 0.0037 0.5436 4.5000 100.6000 0.5800 MALUKU 0.0152 0.0695 0.0050 0.4899 4.8000 101.8000 1.1500 MALUKU UTARA 0.0221 0.0643 0.0060 0.5166 4.8000 104.3000 0.3200 PAPUA BARAT 0.0273 0.0587 0.0052 0.3581 4.5000 111.5000 0.8400 PAPUA 0.0163 0.0539 0.0049 0.3844 4.3000 111.9000 3.2300
Untuk menggunakan perintah read.csv( ), filenya harus disimpan dengan
ekstensi *.csv dari program excel. Setelah file tersimpan dalam format csv,
dapat menggunakan perintah berikut dalam program R :
#Format csv dengan nama dan lokasi file diketahui
> Data.csv <- read.csv(“D:/Dataku/Data Sekolah.
csv”,header=TRUE);
> names(Data.csv)
[1]“Provinsi” “APTS”
[3]“Rasio.Guru.Siswa” “Rasio.Sekolah.Siswa”
[5]“Persentase.KK” “Rata.Rata.Jumlah.Anggota.
Keluarga”
[7]“Rasio.Jenis.Kelamin” “Persentase.Penduduk.
Miskin”
M E N G E L O L A D A N M E N G A N A L I S I S D A TA K A T E G O R I K M E N G G U N A K A N S O F T W A R E R 137
Jika belum tahu nama file dan lokasi penyimpanya, maka dapat menggunakan
perintah
#Format csv dengan nama dan lokasi file belum diketahui
> Data.csv <- read.csv(file.choose(),header=TRUE);
Akan muncul windows yang dapat digunakan untuk mencari dan memilih file
yang sesuai. Cara kedua adalah menggunakan menggunakan package xlsx
yang dapat digunakan secara langsung untuk membaca file dengan ekstensi
*.xlsx.
>library(xlsx)
> Data.excel <- read.xlsx(“D:/Dataku/Data Sekolah.
xlsx”, sheetName=”Sheet1”);
2. Impor data dari Text ke R.
Data sebaiknya tidak berupa “kalimat yang memuat spasi”
> Data.txt <- read.table(“D:/Dataku/Data Sekolah2.
txt”);
> names(Data.txt);
[1] “V1” “V2” “V3” “V4” “V5” “V6” “V7”
3. Impor data dari SPSS ke R.
>library(memisc)
> Data.spss <- as.data.set(spss.system.file(‘D:/
Dataku/Data Sekolah.sav’));
4. Impor data dari Minitab ke R.
Data harus disimpan dalam format minitab protable atau mempunyai ektensi
*.mtp.
>library(foreign)
> Data.minitab <- read.mtp(“D:/Dataku/Data Sekolah.
mtp”);
5. Impor data ke R dengan cara COPY-PASTE
Data yang akan di-“Copy” memiliki farmat sebagaimana dalam Tabel 6.3.
Diblok selanjutnya jalankan perintah
138 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
>Data,copypaste <-read.delim(“clipboard”);
> names(Data.copypaste);
[1] “Provinsi” “APTS”
[3] “Rasio.Guru.Siswa” “Rasio.Sekolah.Siswa”
[5] “Persentase.KK” “Rata.Rata.Jumlah.
Anggota.Keluarga”
[7] “Rasio.Jenis.Kelamin” “Persentase.Penduduk.
Miskin”
6.8 Grafik Distribusi Chi-square
Berikut ini adalah cara membuat grafik berdasarkan fungsi distribusi Chi-square
yang dapat diperoleh menggunakan perintah
>fx<-function (x)dchisq(x,df=5)
>curve(fx,0,40,type = “l”,ylab=”Probability
Density”)
>fx1<-function (x)dchisq(x,df=1)>curve(fx1,type = “l”,add=TRUE)
M E N G E L O L A D A N M E N G A N A L I S I S D A TA K A T E G O R I K M E N G G U N A K A N S O F T W A R E R 139
>fx2<-function (x)dchisq(x,df=10)>curve(fx2,type = “l”,add=TRUE)
>fx3<-function (x)dchisq(x,df=20)>curve(fx3,type = “l”,add=TRUE)
140 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
0 10 20 30 40
0.00
0.05
0.10
0.15
x
Pro
babi
lity
Den
sity
6.9 Uji Independensi dalam Tabel Kontingensi Menggunakan R
Pada Bab 3 telah dibahas uji independensi untuk tabel kontingensi. Berikut ini
beberapa operasi yang digunakan untuk keperluan uji independensi dalam
software R.
1. Uji Eksak Fisher’s
Uji Eksak Fisher’s dalam program R dapat diakses melalui fungsi fisher.
test.
> teh <- matrix(c(3,1,1,3),ncol=2)
> fisher.test(teh)
Fisher’s Exact Test for Count Data
data: teh
p-value = 0.4857
alternative hypothesis: true odds ratio is not
equal to 1
95 percent confidence interval:
0.2117329 621.9337505
sample estimates:
odds ratio
6.408309
M E N G E L O L A D A N M E N G A N A L I S I S D A TA K A T E G O R I K M E N G G U N A K A N S O F T W A R E R 141
> fisher.test(teh,alternative=”greater”)
Fisher’s Exact Test for Count Data
data: teh
p-value = 0.2429
alternative hypothesis: true odds ratio is
greater than 1
95 percent confidence interval:
0.3135693 Inf
sample estimates:
odds ratio
6.408309
Pengujian independensi dua faktor secara eksak dapat juga diimplementasikan
pada tabel dua arah yang berukuran axb dengan menggunakan fungsi fisher.
test tersebut. Pengujian ini merupakan generalisasi dari Fisher’s exact test
pada tabel 2 x 2.
> library(ctest)
2. Statistik Pearson
Dalam program R, untuk menghitung statistik Pearson’s Chi-Kuadrat dapat
digunakan fungsi chisq.test
> gender <- matrix(c(762,327,468,484,239,477),byro
w=TRUE,nrow=2)
>dimnames(gender) <- list(Gender=c(“Wanita”,”Laki”),
Party=c(“Demokrat”,”Agama”,”Republik”))
> chisq.test(gender)
Pearson’s Chi-squared test
data: gender
X-squared = 30.0701, df = 2, p-value = 2.954e-07
Dalam beberapa kasus, nilai P-value dapat didekati menggunakan simulasi.
> chisq.test(gender,simulate.p.value=TRUE,B=10000)
Pearson’s Chi-squared test with simulated
p-value (based on 10000 replicates)
142 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
data: gender
X-squared = 30.0701, df = NA, p-value = 1e-04
3. Cochran–Mantel–Haenszel (CMH)
Langkah-langkah analisis menggunakan program R adalah :> dp <- c(19, 132, 0,9,11,52,6,97)> dp <- array(dp, dim=c(2,2,2))> dimnames(dp) <- list(Hukum.Mati=c(“ya”,”tidak”),Korban=c(“Suku A”,” Suku B “), Terdakwa=c(“Suku A”,” Suku B”))> mantelhaen.test(dp)Mantel-Haenszel chi-squared test with continuity correctiondata: dp Mantel-Haenszel X-squared = 5.8062, df = 1, p-value = 0.01597alternative hypothesis: true common odds ratio is not equal to 1 95 percent confidence interval: 1.397771 11.381078 sample estimates:common odds ratio 3.988502> mantelhaen.test(dp,correct=FALSE)Mantel-Haenszel chi-squared test without continuity correctiondata: dp Mantel-Haenszel X-squared = 6.9964, df = 1, p-value = 0.008168alternative hypothesis: true common odds ratio is not equal to 1 95 percent confidence interval: 1.397771 11.381078 sample estimates:common odds ratio
3.988502
M E N G E L O L A D A N M E N G A N A L I S I S D A TA K A T E G O R I K M E N G G U N A K A N S O F T W A R E R 143
6.10 Model Loglinear
Dalam Bab 4 dan Bab 5 telah dibahas analisis model loglinear pada tabel
kontingensi. Pada subbab ini dibahas cara penggunaan software R untuk
membantu perhitungan dalam model loglinear. Dalam software R telah tersedia
paket analisis untuk model loglinear, yaitu menggunakan menggunakan
library (MASS) yang didalamnya terdapat fungsi loglm.
loglm(formula, data, subset, na.action, ...)
formula : struktur model loglinear yang dianalisis
data : Numeric array atau data frame.
Subset : mengkhususkan baris tertentu dalam data frame yang
digunakan. Defaultnya adalah semua data.
na.action : menspesifikan metode untuk mengatasi missing observations.
Fungsi loglm membutuhkan input berupa tabel yang diperoleh dari fungsi
table() atau dari array.
Output fungsi loglm dapat digunakan untuk melakukan inferensi terhadap
modelnya seperti menggunkan argument summary, deviance, fitted, coef, resid,
anova. Statistik log-likelihood ratio dapat diperoleh menggunkan anova. Nilai
deviance merupakan selisih statistik likelihood rasio dari model yang diuji dan
model saturated.
Berikut ini adalah aplikasi program R dalam analisis model loglinear. Data
diambil dari beberapa contoh di bab 4 dan bab 5.
>tabel.pasien<-data.frame(expand.grid( Kolesterol=factor(c(“Normal”,”Tinggi”),levels= c(“Normal”,”Tinggi”)), Diastolik=factor(c(“Normal”,”Tinggi”), levels= c(“Normal”,”Tinggi”))), count=c(1535,393,146,47)) > tabel.pasien Kolesterol Diastolik count1 Normal Normal 15352 Tinggi Normal 3933 Normal Tinggi 1464 Tinggi Tinggi 47>library(MASS) >fit.Saturated<-loglm(count~Kolesterol*Diastolik,data= tabel.pasien,param=T,fit=T) # Kolesterol*Diastolik> fit.SaturatedCall:loglm(formula = count ~ Kolesterol * Diastolik, data
144 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
= tabel.pasien, param = T, fit = T)Statistics: X^2 df P(> X^2)Likelihood Ratio 0 0 1Pearson 0 0 1>fit.Model<-loglm(count~Kolesterol+Diastolik,data= tabel.pasien,param=T,fit=T)> fit.ModelCall:loglm(formula = count ~ Kolesterol + Diastolik, data = tabel.pasien, param = T, fit = T)Statistics: X^2 df P(> X^2)Likelihood Ratio 1.621443 1 0.2028907Pearson 1.680508 1 0.1948570
Untuk membandingkan beberapa model, yaitu agar diperoleh nilai Devians dapat digunakan perintah berikut ini
> anova(fit.Saturated,fit.Model)LR tests for hierarchical log-linear modelsModel 1: count ~ Kolesterol + Diastolik Model 2: count ~ Kolesterol * Diastolik Deviance df Delta(Dev) Delta(df) P(> Delta(Dev)Model 1 1.621443 1 Model 2 0.000000 0 1.621443 1 0.20289Saturated 0.000000 0 0.000000 0 1.00000
Untuk mendapatkan nilai penaksir untuk parameter-parameter dalam model loglinear digunakan perintah berikut ini:
> coef(fit.Model)$`(Intercept)`[1] 5.510781$Kolesterol Normal Tinggi 0.6701847 -0.6701847 $Diastolik Normal Tinggi 1.150774 -1.150774 > coef(fit.Saturated)$`(Intercept)`[1] 5.535962
M E N G E L O L A D A N M E N G A N A L I S I S D A TA K A T E G O R I K M E N G G U N A K A N S O F T W A R E R 145
$Kolesterol Normal Tinggi 0.6239838 -0.6239838 $Diastolik Normal Tinggi 1.119085 -1.119085 $Kolesterol.Diastolik DiastolikKolesterol Normal Tinggi Normal 0.05725426 -0.05725426 Tinggi -0.05725426 0.05725426
Berikut ini perintah dalam R untuk kasus kecelakaan kerja pada studi kasus
tabel kontingensi tiga dimensi yang telah dibahas dalam Bab 5.
> #A: lokasi
> #B: klasifikasi
> #C: status
> library(MASS)
> table.kecelakaan<-data.frame(expand.grid(lok
asi=c(“1”,”2”,”3”,”4”,”5”,”6”),
+ klasifikasi=c(“act”,”cond”),status=c(“complete”,
”late”)),
+ Count=c(38,121,44,28,195,30,44,219,30,91,267,76,
27,67,32,13,82 ,15,20,118,16,46,141,63))
#Model (ABC)
> fit.ABC<-loglm(count~status*klasifikasi*lokasi,dat
a=table.kecelakaan,param=T,fit=T)
#Model (A, B, C)
> fit.A.B.C<-loglm(count~status+klasifikasi+lokasi,
data=table.kecelakaan,param=T,fit=T)
#Model (AB,AC,BC)
> fit.AB.AC.BC<-update(fit.ABC,.~.-
status:klasifikasi:lokasi)
#Model (AB,C)
> fit.AB.C<-update(fit.A.B.C,.~.+lokasi:klasifikasi)
#Model (AC,B)
> fit.AC.B<-update(fit.A.B.C,.~.+lokasi:status)
146 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
#Model (BC,A)
> fit.BC.A<-update(fit.A.B.C,.~.+klasifikasi:status)
#Model (AB,AC)
> fit.AB.AC<-update(fit.AB.AC.BC,.~.-
klasifikasi:status)
#Model (AC,BC)
> fit.AC.BC<-update(fit.AB.AC.BC,.~.-
lokasi:klasifikasi)
#Model (AB,BC)
> fit.AB.BC<-update(fit.AB.AC.BC,.~.-lokasi:status)
> fit.AB.BC
Call:loglm(formula = count ~ status + klasifikasi + lokasi + status:klasifikasi + klasifikasi:lokasi, data = table.kecelakaan, param = T, fit = T)Statistics: X^2 df P(> X^2)Likelihood Ratio 13.10102 10 0.2180785Pearson 13.31919 10 0.2063688> fit.AB.AC.BCCall:loglm(formula = count ~ status + klasifikasi + lokasi + status:klasifikasi + status:lokasi + klasifikasi:lokasi, data = table.kecelakaan, param = T, fit = T)Statistics: X^2 df P(> X^2)Likelihood Ratio 5.612484 5 0.3457692Pearson 5.573430 5 0.3499611
> #Tabel nilai harapan masing-masing model
> data.frame(table.kecelakaan[,-4]
, A B C = c ( a p e r m ( f i t t e d ( f i t . A B C ) ) ) , A B .
AC.BC=c(aperm(fitted(fit.AB.AC.BC))) ,AB.
A C = c ( a p e r m ( f i t t e d ( f i t . A B . A C ) ) ) , A B .
BC=c(aperm(fitted(fit.AB.BC)))
,AC.BC=c(aperm(fitted(fit.AC.BC))),A.B.C=c(aperm(fitt
ed(fit.A.B.C))))
M E N G E L O L A D A N M E N G A N A L I S I S D A TA K A T E G O R I K M E N G G U N A K A N S O F T W A R E R 147
No Lokasi klasifikasi status ABC AB.AC.BC AB.AC AB.BC AC.BC A.B.C
1 1 Act complete 38 41.85299 41.31783 42.83237 31.60778 31.77658
2 2 Act complete 121 123.7196 121.7524 123.8844 131.0566 129.3233
3 3 Act complete 44 46.58926 46.09836 50.08092 28.52409 30.05227
4 4 Act complete 28 27.90785 27.41011 27.01734 45.86982 43.84676
5 5 Act complete 195 189.4127 186.8234 182.5318 178.0828 168.7361
6 6 Act complete 30 26.51705 25.92391 29.65318 40.85883 45.32474
7 1 cond complete 44 40.14701 40.68217 41.13882 50.39222 51.93543
8 2 cond complete 219 216.2804 218.2476 216.6216 208.9434 211.3651
9 3 cond complete 30 27.41074 27.90164 29.56852 45.47591 49.11723
10 4 cond complete 91 91.09215 91.58989 88.06278 73.13018 71.66284
11 5 cond complete 267 272.5873 275.1766 262.26 283.9172 275.7812
12 6 cond complete 76 79.48296 80.07609 89.34836 65.14117 74.07844
13 1 Act late 27 23.14701 23.68217 22.16763 17.33125 17.19105
14 2 Act late 67 64.28036 66.24762 64.11561 68.21875 69.96358
15 3 Act late 32 29.41074 29.90164 25.91908 17.7 16.2582
16 4 Act late 13 13.09215 13.58989 13.98266 21.75625 23.72099
17 5 Act late 82 87.58735 90.17664 94.46821 82.23125 91.28582
18 6 Act late 15 18.48295 19.07609 15.34682 28.7625 24.52057
19 1 cond late 20 23.85299 23.31783 22.86118 29.66875 28.09694
20 2 cond late 118 120.7196 118.7524 120.3784 116.7813 114.348
21 3 cond late 16 18.58926 18.09836 16.43148 30.3 26.5723
22 4 cond late 46 45.90785 45.41011 48.93722 37.24375 38.76941
23 5 cond late 141 135.4127 132.8234 145.7401 140.7688 149.1969
24 6 cond late 63 59.51704 58.92391 49.65164 49.2375 40.07625
Program berikut berdasar data kecelakaan lalu lintas pada studi kasus tabel
kontingensi empat dimensi yang telah dibahas dalam Bab 5.
>table.kecelakaan<-data.frame(expand.grid(bel
t=c“Ya”,”Tidak”),location=c(“Urban”,”Rural”),
gender=c(“Wanita”,”Laki”), injury= c(“ya”, ”tidak”)),
count=c(7287,11587,3246,6134,10381,10969,6123,
6693,996, 759, 973, 757, 812, 380, 1084, 513))
>library(MASS)
148 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Uji Goodness of Fit untuk model (G,I,L,S):
>fitG.I.L.S<-loglm(count~., data = table.kecelakaan, fit=T, param=T)> fitG.I.L.SCall:loglm(formula = count~., data = table.kecelakaan, fit = T, param = T)Statistics: X^2 df P(> X^2)Likelihood Ratio 2792.771 11 0Pearson 2758.341 11 0
Uji Goodness of Fit untuk model (GI,GL,GS,IL,IS,LS):
>fitGI.GL.GS.IL.IS.LS<-update(fitG.I.L.S, .~.^2, data= table.kecelakaan, fit=T, param=T) > fitGI.GL.GS.IL.IS.LSCall:loglm(formula = count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury, data = table.kecelakaan, fit = T, param = T)
Statistics: X^2 df P(> X^2)Likelihood Ratio 23.35099 5 0.000289199Pearson 23.37517 5 0.000286131
Uji Goodness of Fit untuk model (GIL,GIS,GLS,ILS) :
>fitGIL.GIS.GLS.ILS<-update(fitG.I.L.S, .~.^3, data= table.kecelakaan, fit=T, param=T) > fitGIL.GIS.GLS.ILSCall:loglm(formula = count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + belt:location:gender + belt:location:injury + belt:gender:injury + location:gender:injury, data = table.kecelakaan, fit = T, param = T)
M E N G E L O L A D A N M E N G A N A L I S I S D A TA K A T E G O R I K M E N G G U N A K A N S O F T W A R E R 149
Statistics: X^2 df P(> X^2)Likelihood Ratio 1.325317 1 0.2496401Pearson 1.324618 1 0.2497650
Uji Goodness of Fit untuk model (GI,GL,GS,IL,IS,LS) :
>fitGI.GL.GS.IL.IS.LS<- loglm(formula = count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury, data = table.kecelakaan, fit = T, param = T)> fitGI.GL.GS.IL.IS.LSCall:loglm(formula = count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury, data = table.kecelakaan, fit = T, param = T)
Statistics: X^2 df P(> X^2)Likelihood Ratio 23.35099 5 0.000289199Pearson 23.37517 5 0.000286131
Uji Goodness of Fit untuk model (GIL,GS,IS,LS) :
>fitGIL.GS.IS.LS<- loglm(formula = count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + gender:injury: location , data = table.kecelakaan, fit = T, param = T)> fitGIL.GS.IS.LSCall:loglm(formula = count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + gender:injury:location, data = table.kecelakaan, fit = T, param = T)
150 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Statistics: X^2 df P(> X^2)Likelihood Ratio 18.56932 4 0.0009548040Pearson 18.53911 4 0.0009679115
Uji Goodness of Fit untuk model (GIS,GL,IL,LS) :
> fitGIS.GL.IL.LS<- loglm(formula = count ~ belt +location + gender + injury + belt:location +belt:gender + belt:injury + location:gender +location:injury + gender:injury + gender:injury:belt , data = table.kecelakaan, fit = T, param = T)> fitGIS.GL.IL.LSCall:loglm(formula = count ~ belt + location + gender +injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + gender:injury:belt, data = table.kecelakaan, fit = T, param = T)
Statistics: X^2 df P(> X^2)Likelihood Ratio 22.84677 4 0.0001358713Pearson 22.82497 4 0.0001372396
Uji Goodness of Fit untuk model (GLS,GI,IL,IS):
>fitGLS.GI.IL.IS<- loglm(formula = count ~ belt +location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + gender:belt:location , data= table.kecelakaan, fit = T, param = T)
M E N G E L O L A D A N M E N G A N A L I S I S D A TA K A T E G O R I K M E N G G U N A K A N S O F T W A R E R 151
Uji Goodness of Fit untuk model (ILS,GI,GL,GS) :
>fitILS.GI.GL.GS<- loglm(formula = count ~ belt +location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + injury:location:belt , data= table.kecelakaan, fit = T, param = T)> fitGLS.GI.IL.ISCall:loglm(formula = count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + gender:belt:location, data = table.kecelakaan, fit = T, param = T)
Statistics: X^2 df P(> X^2)Likelihood Ratio 7.464480 4 0.1132858Pearson 7.487383 4 0.1122669
Uji Goodness of Fit untuk model (GIL,GLS,IS) :
>fitGIL.GLS.IS<- loglm(formula = count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + injury:location:belt + gender:belt:location , data = table.kecelakaan, fit = T, param = T)> fitGIL.GLS.ISCall:loglm(formula = count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + injury:location:belt + gender:belt:location, data = table.kecelakaan, fit = T, param = T)
Statistics: X^2 df P(> X^2)Likelihood Ratio 3.591447 3 0.3090940Pearson 3.580121 3 0.3105184
152 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Untuk menghitung dissimilarity index dapat digunakan perintah sebagai berikut :
>fit.array.GLS<-fitted(fitGLS.GI.IL.IS)>Fitted.values.GLS <- c(fit.array.GLS) >D.GLS <- sum(abs(table.kecelakaan $count - Fitted.values.GLS))/(2* sum(table.kecelakaan $count))
> D.GLS # dissimilarity index model (GLS.GI.IL.IS)[1] 0.002507358
>fit.array.GIL.GLS<-fitted(fitGIL.GLS.IS)>Fitted.values.GIL.GLS <- c(fit.array.GIL.GLS) >D.GIL.GLS <- sum(abs(table.kecelakaan $count - Fitted.values.GIL.GLS))/(2* sum(table.kecelakaan $count))
> D.GIL.GLS # dissimilarity index model (GIL.GLS.IS)[1] 0.001590224
Statistik Devians yang dipakai untuk membandingkan dua model dapat diperoleh menggunakan perintah berikut :
>anova(fitG.I.L.S, fitGI.GL.GS.IL.IS.LS, fitGIL.GIS.GLS.ILS) LR tests for hierarchical log-linear models Model 1: count ~ belt + location + gender + injury Model 2: count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury Model 3: count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + belt:location:gender + belt:location:injury + belt:gender:injury + location:gender:injury
Deviance df Delta(Dev) Delta(df) P(> Delta(Dev)
Model 1 2792.76245 11 Model 2 23.35137 5 2769.41113 6 0.00000 Model 3 1.32489 1 22.02648 4 0.00020
M E N G E L O L A D A N M E N G A N A L I S I S D A TA K A T E G O R I K M E N G G U N A K A N S O F T W A R E R 153
Saturated 0.00000 0 1.32489 1 0.24972
Statistik Odds Ratio untuk pada model loglinear dapat diperoleh menggunakan perintah berikut ini : >fitted(fitGI.IL.IS.GLS) >fit.array.GLS<-fitted(fitGI.IL.IS.GLS) >odds.ratio<-function(x) x[1,1]*x[2,2]/(x[2,1]*x[1,2]) >apply(fit.array,c(1,4),odds.ratio)) injury belt Tidak Ya Tidak 1.326766 1.326766 Ya 1.166682 1.166682 >apply(fit.array,c(2,4),odds.ratio) injury location Tidak Ya Urban 0.6614758 0.6614758 Rural 0.5816641 0.5816641 >apply(fit.array,c(3,4),odds.ratio) injury gender Tidak Ya Wanita 1.170603 1.170603 Laki 1.029362 1.029362 >apply(fit.array,c(1,2),odds.ratio) Urban Rural Tidak 0.5799410 0.5799411 Ya 0.5799411 0.5799412 >apply(fit.array,c(1,3),odds.ratio) Wanita Laki Tidak 2.134127 2.134127 Ya 2.134127 2.134127 >apply(fit.array,c(2,3),odds.ratio) Wanita Laki Urban 0.4417123 0.4417123 Rural 0.4417122 0.4417123
D I S T R I B U S I B I N O M I A L , M U LT I N O M I A L D A N P O I S S O N 155
REFERENSI
Agresti, A. (1984). Analysis of Ordinal Categorical Data. New York: Wiley.
Agresti, A. (2002). Categorical Data Analysis (2nd ed.). New York, NY: Wiley-
Interscience. doi: 10.1002/0471249688
Bishop, Y. M., Fienberg, S. E., dan Holland, P. W. (1989). Discrete Multivariate
Analysis: Theory and Practice. Cambridge, MA: MIT Press.
Campbell, I. (2007), Chi-squared and Fisher-Irwin ests of two-by-two tables with
small sample recommendations. Statistics in Medicine, 26, 3661-3675,
Christensen, R. (1997). Log-linear Models and Logistic Regression (2nd ed.). New
York, NY: Springer. doi: 10.1007/b97647
Cochran, W. G. (1952). The χ 2 test of goodness-of-fit. Ann. Math. Statist. 23:
315-345.
Cochran, W. G. (1954). Some methods of strengthening the common χ 2 tests.
Biometrics 10:
417-451.
Davis, L. J. (1968). Exact tests for 2 × 2 contingency tables. The American
Statistician, 40(2), 139-141. doi: 10.2307/2684874
Edwards, D. (2000). Introduction to Graphical Modeling (2nd ed.). New York, NY:
Springer-Verlag. doi: 10.1007/978-1-4612-0493-0
Edwards, D. dan Kreiner, S. (1983). The analysis of contingency tables by
graphical models. Biometrika, 70, 553-565.
Fisher, R.A. (1922). On the mathematical foundations of theoretical statistics.
Philosophical Transactions of the Royal Society A: Mathematical, Physical and
Engineering Sciences, 222 (594-604), 309-368. doi:10.1098/rsta.1922.0009
Fisher, R.A. (1925). Statistical Methods for Research Workers. New York: Hafner
Press.
156 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Fisher, Ronald A. (1936). The use of multiple measurements in taxonomic
problems. Annals of Eugenics, 7, 179-188.
Friendly, M. (2017 ). Working with categorical data with R and the vcd and
vcdExtra packages,
https://cran.r-project.org › vignettes › vcd-tutorial diakses tanggal 12 Mei 2019.
Gauraha, N. (2017). Graphical log-linear models: fundamental concepts and
applications. Journal of Modern Applied Statistical Methods, 16(1), 545-577.
doi: 10.22237/jmasm/1493598000
Goodman, L. A. (1970). The multivariate analysis of qualitative data: Interaction
among multiple classifications. Journal of the American Statistical
Association, 65(329), 226-256. doi: 10.2307/2283589
Goodman, L. A. (1971a). The analysis of multidimensional contingency
tables: Stepwise procedures and direct estimation methods for building
models for multiple classifications. Technometrics, 13(1), 31-66. doi:
10.2307/1267074
Goodman, L. A. (1971b). The partitioning of chi-square, the analysis of marginal
contingency tables, and the estimation of expected frequencies in
multidimensional contingency tables. Journal of the American Statistical
Association, 66(334), 339-344. doi: 10.2307/2283933
Goodman, L. A., dan Kruskal W.H. (1979). Measures of Association for Cross
Classifications. New York: Springer-Verlag Ž
Irwin, J.O. (1949). A note on the subdivision of χ2 into components. Biometrika:
36, 130-134.
Kendall, M. G. (1945). The treatment of ties in rank problems. Biometrika :33,
239-251.
Kendall, M., dan A. Stuart. (1979). The Ad®anced Theory of Statistics, Vol. 2;
Inference and Relationship, 4th ed. New York: Macmillan.
Kruskal, W. H. (1958). Ordinal measures of association. J. Amer. Statist. Assoc. 53:
814-861.
D I S T R I B U S I B I N O M I A L , M U LT I N O M I A L D A N P O I S S O N 157
Lauritzen, S. L. (1996). Graphical models (2nd ed.). New York, NY: Oxford
University Press, Inc.
Myers, R.H. (1990) Classical and Modern Regression with Applications.
PWS-Kent Publishing, Boston.
Meyer D, Zeileis A, dan Hornik K, (2007),The Strucplot Framework: Visualizing
Multi-way Contingency Tables with vcd, Journal of Statistical Software, Vol
17. Issue 3. doi: 10.18637/jss.v017.i03
Nisak S.K. (2017). Penerapan Klasifikasi Decision Tree dan Model Log Linear
Dalam Penanganan Kecelakaan Kerja. Skripsi, FMIPA Universitas Islam
Indonesia.
Pearson, K. (1904). Mathematical Contributions to the Theory of Evolution.
London, UK: Dulau and Co.
Pearson, K. (1913). On the probable error of a correlation coefficient as found
from a fourfold table. Biometrika 9: 22-27.
Tabachnick, B. G., dan Fidell, L. S. (1989). Using Multivariate Statistics. New York
Harper & Row, Publishers, Inc.
Wickens, T.D. (1989). Multiway Contingency Tables Analysis for the Social Sciences.
Hillsdale, NJ: Lawrence Erlbaum.
Whittaker, J. (1990). Graphical Models in Applied Multivariate Statistics. New
York: John Wiley and Sons.
Yates F. (1984), Tests of significance for 2 × 2 contingency tables (with discussion)
Journal of the Royal Statistical Society Series A: 147: 426-463.
Yule, G.U. (1900). On the association of attributes in statistics: With illustration
from the material of the childhood society, etc. Philosophical Transactions
of the Royal Society, Series A, 194, 257-319.
Yule, G. U. (1912). On the methods of measuring association between two
attributes. J. Roy. Statist. Soc. 75: 579-642.
158 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
GLOSARIUM
Data : “keterangan“ yang berhasil dicatat atau direkam mengenai suatu hal
Fungsi likelihood : merupakan probabilitas yang didefinisikan sebagai fungsi dari parameter
Maximum Likelihood Estimator
: metode untuk mencari penaksir parameter yang dengan memaksimumkan fungsi likelihood berdasarkan data sampel
matrik Hessian : matrik definet negative yang elemen-elemenya merupakan derivative kedua fungsi log likelihood
Parameter : sebarang nilai yang menjelaskan ciri populasiPopulasi : keseluruhan objek pengamatan yang menjadi
perhatian yang jumlahnya bisa tak terhingga maupun terhingga
P-value : nilai probababilitas kesalahan tipe I terkecil sedemikian hingga dapat menolak hipotesis nol
Sampel : suatu himpunan bagian dari populasiStatistik : sebarang nilai yang menjelaskan ciri sampelTabel kontingensi : merupakan satu bentuk distribusi frekuensi untuk
dua variabel atau lebihVariabel : suatu karakteristik yang nilainya antar objek
pengamatan atau antar waktu pada objek yang sama bisa berbeda beda
Variabel diskrit : variabel yang mempunyai kemungkinan nilai terbatas (anggota domainnya terbatas)
Variabel kontinu : variabel yang kemungkinan nilainya tak terhitung (bagian dari bilangan real)
Variabel dependen : variabel yang nilainya dipengaruhi oleh variabel yang lain. yaitu variabel independen
Variabel independen
: variabel yang nilainya berpengaruh terhadap nilai variabel yang lain.
Variabel random : Variabel yang nilai berupa bilangan real dan mengacu pada fungsi probabilitas yang merupakan observasi dari suatu eksperimen
Ukuran asosisi : Untuk mengetahui derajad keeratan hubungan antara dua faktor
D I S T R I B U S I B I N O M I A L , M U LT I N O M I A L D A N P O I S S O N 159
INDEKS SUBJEK
Binomial, 17, 18
Cochran–Mantel–Haenszel, 28, 29, 92
d Somers, 31
dissimilarity, 62, 70, 76, 98, 99
fungsi densitas, 11, 12
fungsi distribusi, 18
fungsi peluang, 13
Generalized Linear Model, 32
Goodman-Kruskal, 30, 31
goodness-of-fit, 25
Koefisien kontigensi Kendall-Stuart, 29
Koefisien kontigensi kuadrat tengah, 29
Koefisien kontigensi Pearson, 29
Koefisien kontigensi tau-Kendall, 30
likelihood ratio, 25
matrik Hessian, 104
Maximum Likelihood Estimator, 8, 11, 104
model jenuh, 37
parameter, 7, 8, 9, 10, 11, 12, 26, 27, 35, 37, 62, 104
Pearson Chi-Kuadrat, 25
Poisson, 15, 17, 18
160 A N a l i s i s ta b e l k o n t i n g e r n s m e n g g u n a k a n m o d e l l o g l i n e a r
Probabilitas bersama, 20
Probabilitas bersyarat, 21
Probabilitas marginal, 20, 21
P-value, 23, 75, 92, 104
saling independen, 25, 26, 34
sampel, 8, 9, 11, 12, 20, 26, 29, 62, 76
Statistik Rasio Likelihood, 27
statistika, 77
tabel kontigensi, ii, 5, 20, 25, 28, 29, 30, 32, 33, 62
tabulasi silang, 23, 24
Uji Eksak Fisher’s, 91
Uji Goodness of Fit, 43, 61, 96, 97, 98
Ukuran Assosiasi, 29
variabel, ii, 19, 21, 23, 25, 26, 30, 31, 32, 37, 81, 104
variabel random, 14, 16, 17