uji measurement invariance pada culture fair...
TRANSCRIPT
UJI MEASUREMENT INVARIANCE PADA CULTURE FAIR
INTELLIGENCE TEST MENGGUNAKAN PENDEKATAN
MULTIPLE-GROUP CONFIRMATORY
FACTOR ANALYSIS
Skripsi
Diajukan untuk memenuhi Persyaratan Memperoleh
Gelar Sarjana Psikologi (S.Psi)
Disusun oleh
Bobby Suwandi
NIM : 1110070000077
FAKULTAS PSIKOLOGI
UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH
JAKARTA
1436/2015
v
MOTTO
Belajar adalah perjuangan. Perjuangan adalah pengorbanan. Dan
pengorbanan adalah dengan meninggalkan hal-hal yang
menyenangkan.
–Jahja Umar, Ph.D
It would be very healthy if more researchers abandon thinking of
and using terms such as cause and effect.
–Dr. Bengt O. Muthén
When you base your expectations only on what you see, you blind
yourself to the possibilities of a new reality.
-Zaheer
vi
Abstrak
A) Fakultas Psikologi
B) October 2015
C) Bobby Suwandi
D) Uji measurement invariance pada Culture Fair Intelligence Test (CFIT)
menggunakan pendekatan multiple-group confirmatory factor analysis.
E) xviii + 156 pages
F) Alat tes psikologi sering digunakan dalam berbagai aspek kehidupan
manusia untuk membuat perbandingan, penilaian, dan penelitian tentang
individu. Kemudian, tes psikologi sering juga digunakan untuk
pengambilan keputusan tentang individu yang akan mempengaruhi
kehidupan individu yang menempuhnya. Berdasarkan hal tersebut penting
sekali menguji asumsi apakah sebuah alat ukur psikologi dapat mengukur
dengan adil di seluruh kelompok budaya sehingga hasil pengukuran dapat
bermakna jika ditafsirkan.
Tujuan dari penelitian ini adalah untuk menguji apakah alat tes intelijensi
CFIT dapat berlaku adil dan mengukur hal yang sama di kelompok jenis
kelamin. Alat tes yang dapat ditafsirkan secara sama di seluruh kelompok
disebut dengan istilah measurement invariance/measurement equivalence.
Dengan kata lain, menguji measurement invariance pada sebuah alat tes
dapat berfungsi untuk mendeteksi apakah sebuah alat ukur mengandung
bias pengukuran.
Pengujian measurement invariance dalam penelitian ini menggunakan
pendekatan structural equation modeling atau lebih spesifik disebut
dengan multiple-group confirmatory factor analysis. Data yang digunakan
adalah data hasil tes CFIT sebanyak 873 responden (wanita=501
pria=372). Analisis terbagi menjadi dua tahap, yaitu pada tingkat subtes
dan tingkat tes.
Hasil penelitian menunjukkan bahwa tes CFIT terbukti secara empiris
memenuhi situasi measurement invariance, baik pada tingkat subtes dan
tingkat tes di kelompok jenis kelamin. Dengan catatan, item tes CFIT yang
semula berjumlah 50 item berkurang menjadi hanya 29 item di akhir
analisis. Hal ini dikarenakan ada sebanyak 21 item yang memiliki
koefisien muatan faktor negatif dan tidak signifikan sehingga harus di
drop. Dengan demikian, 29 item yang tersisa pada tes CFIT terbukti secara
empiris mengukur konstruk yang sama di kelompok perempuan dan laki-
laki. Dengan kata lain, tes CFIT tidak mengandung bias pengukuran.
G) Referensi: 29 buku + 32 jurnal + 3 thesis
vii
Abstract
A) Faculty of Psychology
B) October 2015
C) Bobby Suwandi
D) Testing measurement invariance of Culture Fair Intelligence Test (CFIT)
using multiple-group confirmatory factor analysis framework.
E) xiii + 157 pages + 62 attachment
F) Psychological test often used for comparing, assessing, and investigating
about individual differences. Then, psychological test often used for decision
making about people that would affect people’s life directly. According to that
facts, it’s really critical issue to testing assumption that psychological
instrument measure the same psychological construct in all group, so that the
result of measurement can be meaningfully interpreted.
The aim of this investigation is testing assumption whether the CFIT measure
the same psychological construct in sex group (female vs male). If this
assumption satisfied, the instrument can be called measurement invariance /
measurement equivalence. In other words, testing measurement invariance in
psychological test useful for detecting measurement bias.
In this research, researcher using structural equation modeling framework to
investigating measurement invariance. Specifically, researcher using multiple-
group confirmatory factor analysis framework for data analysis. Sample size
in this investigation is 873 participants (female=501 male=372). The analysis
divided into two phases, the first is in each subtest phase and the second is in
the test phase.
Result indicate that the CFIT proven empirically measurement invariance in
each subtest phase and in the test phase. Noted, the CFIT’s items is 50 item
before analysis and decrease to be 29 item in the final analysis. This happen
because there were 21 item who has negative coefficient factor loading and
must be droped. Therefore, the remain 29 item left in the CFIT proven
empirically measure the same construct in sex group or in other words the
CFIT has no measurement bias.
G) References: 29 book + 32 journal + 3 thesis
viii
KATA PENGANTAR
Puji syukur penulis ucapkan ke hadirat Allah SWT atas segala rahmat,
hidayah, dan kasih sayang-Nya sehingga penulis dapat menyelesaikan skripsi
yang berjudul “UJI MEASUREMENT INVARIANCE PADA CULTURE FAIR
INTELLIGENCE TEST (CFIT) MENGGUNAKAN PENDEKATAN
MULTIPLE-GROUP CONFIRMATORY FACTOR ANALYSIS”.
Skripsi ini dapat selesai tidak terlepas dari dukungan berbagai pihak, baik
dalam bentuk bantuan pikiran, tenaga, dan waktu. Oleh karenanya dengan segala
kerendahan hati penulis ingin mengucapkan terima kasih kepada nama-nama
berikut ini:
1. Prof. Dr. Abdul Mujib, M.Ag, M.Si, Dekan Fakultas Psikologi UIN Syarif
Hidayatullah Jakarta. Wakil Dekan 1 bidang akademik Dr. Abdurahman
Saleh, M.Si. Wakil Dekan 2 bidang kemahasiswaan Dra. Diana Mutiah, M.Si.
Wakil Dekan 3 bidang keuangan Ikhwan Luthfi, M.Si.
2. Jahja Umar, Ph.D yang sudah menjadi lebih dari sekedar dosen pembimbing
bagi penulis, tetapi juga inspirator, motivator, dan role model. Lima tahun
belajar bersama beliau membuat penulis memiliki minat mempelajari tentang
konsep statistika seperti: Confirmatory Factor Analysis dan Item Response
Theory. Merupakan sebuah keberuntungan yang akan selalu penulis syukuri
pernah dibimbing ahli psikometri dan Structural Equation Modeling di
Indonesia seperti beliau. Hormat saya.
ix
3. Bahrul Hayat, Ph.D selaku dosen mata kuliah Item Response Theory. Penulis
merasa beruntung sekali karena dapat belajar langsung dari sedikit ahli IRT di
Indonesia seperti beliau. Di tengah kesibukannya sebagai Sekretaris Jenderal
Departemen Agama RI, beliau masih menyempatkan memberikan nasihat,
motivasi, wawasan, saran, kritik dan diskusi yang sangat berarti bagi penulis.
4. Baidhowi, M.Si selaku dosen pembimbing 2 penulis, terima kasih atas
keramahan, diskusi, saran dan masukannya. Dengan sabarnya memberikan
penjelasan pada penulis dalam proses pembuatan skripsi ini, terutama saat
analisis data dan teknis pengolahan data.
5. Dra. Zahrotun Nihayah, M.Si selaku ketua Pusat Layanan Psikologi UIN
Syarif Hidayatullah Jakarta untuk kebaikan dan kesediaaannya memberikan
data untuk penulis olah menjadi data skripsi. Dan ibu Neneng Tati Sumiati,
M.Psi selaku kepala bagian riset PLP yang dengan keramahannya menolong
penulis memberikan saran serta kesediaannya memberikan data yang
diperlukan bagi penulis.
6. Ibu Deasy Wati, Bapak Suwandi, nenek penulis Hj. Ati Suryati, kakak
penulis Devi Wati, adik penulis Bella Suwandi. Skripsi ini khusus penulis
persembahkan untuk mereka.
7. Akhmad Baidun, M.Si selaku pembimbing akademik penulis yang selama 5
tahun telah memberikan saran yang sangat bermanfaat bagi perkuliahan
penulis.
8. Ibu Nia Tresniasari, M.Si dosen statistika pertama yang mengajarkan arti
bekerja keras pada penulis. Serta Puti Febrayosi, M.Si dan Adiyo R., M.Si
x
yang sudah merupakan seperti mentor bagi penulis. Terima kasih atas diskusi,
saran dan ilmu yang dibagikan selama ini..
9. Sahabat-sahabat penulis: Adila Purwani (editor penulis, terima kasih
persaudaraannya selama 5 tahun ini!), Muhammad Dwirifqi Kharisma Putra,
Nashwa Oelfy, Muhammad Hilmi Oksadela, Amirra Nur’Indah Triwardhani,
Muhammad Haris Abidin, Didik Eko Wahyudi, Danar Dwidya, Estu Putri,
Katty Maulida, Retno Handayani, Gian Sugianto, Lailatul Ikromah, Ajeng
Fitri Adani, Anita Yuniarti, Azkya Milfa Laensadi, Aditya Pratama, Rian
Badai Lasvalmas, Meidya Farahdiba, dan Mayang Sariningbumi. Terima
kasih untuk kegilaan dan kebahagiaannya.
10. Majelis Sabuk Hitam Nekapora. Persembahan untuk pelatih, guru sekaligus
orangtua penulis Ir. Dedi Suharto. Saudara-saudara NKP. Muhammad
Qoribudin, Rima Rahayu, Bingar Annisya, Jaya Dixon Saragi, Rizki
Rukyanti, Ari Septianingsih, Andi Mulya, Sani Nuraida, Neni Apriliani, Ajri
Fathurahman, Runie Besty Teta Putri, Abdurrahim Hidayat, Renda
Bhimantara, Yuniar Ananda Ningrum, Evan Permana, Bulan Suci, Rhaudya
Maurizka, Selviani, Anggi Suji, Fauzan Alwan, Agung Prabowo, Salma
Pathul.
11. Kelas Psikologi B 2010: Sundus, Aini, Ainun, Putri, Sabrina, Herwinda, Vini,
Kurrota, Annisya Ayub, Isnia, Tyyas, Fadhila, Syifa, Niken, Shintia,
Istiqomah, Nisaul, Gina, Khoirunnisa, Deri, dan Yulian. Terima kasih atas
persaudaraan dan kebahagiaan selama 5 tahun ini.
xi
12. Psychometrics Corner 2010: Fadhila Rachmah Gustina, Muhammad Haris
Abidin, Salman Farisy, Ferdiansah Daulay, Ani Muflihah, Kurrota A’Yuni,
Deri Satria, dan Shovia Lintina. Sebagai “anak bungsu” yang terakhir lulus,
penulis ingin mengatakan suatu kehormatan bisa masuk sepeminatan diantara
orang-orang hebat seperti kalian!
13. Psikologi 2010: Amelia Paramitha, Intan, Azka, Dick Hurry, Denny, Nurani,
Soleh, Mae, Lily, Palupi, Izhar, Jamal, Ey, Leo, Udin, Azhari, Echa, Turfa,
Alfi, Dwi, Reza, Nadia, Ais, Fidia, Afif, Fadli, Muja, Ridho, Copi, Dian,
Laras, Irvan, Faiz. Kakak dan adik-adik kelas selama di UIN, Restu
Nurfadhilah, Fathannisa Isnani, Ichsan, Jasran, Intan Prawesti, Fitria, Siescha,
Jojo, Mega, Rahmi Kamilah, Faisal, Imeh, Aqil, Ulfa Hanani, Firas, Nina,
Hendra, Damas, Ulfa.
14. Poetri Primagita, terima kasih atas semua dukungan dan motivasinya. Skripsi
ini tidak akan selesai tanpa bantuannya.
Semoga segala kebaikan pihak-pihak diatas dibalas dengan kebaikan yang
berlipat ganda oleh Allah SWT.
xii
DAFTAR ISI
HALAMAN JUDUL ................................................................................................... i
LEMBAR PERSETUJUAN ..................................................................................... ii
LEMBAR PENGESAHAN ...................................................................................... iii
PERNYATAAN ORISINALITAS .......................................................................... iv
MOTTO DAN PERSEMBAHAN ............................................................................ v
ABSTRAK ................................................................................................................ vi
KATA PENGANTAR ............................................................................................ viii
DAFTAR ISI ............................................................................................................ xii
DAFTAR TABEL .................................................................................................. xiv
DAFTAR GAMBAR ............................................................................................. xvii
BAB 1 PENDAHULUAN .................................................................................... 1-12
1.1 Latar Belakang ...................................................................................... 1
1.2 Pembatasan dan Perumusan Masalah .................................................. 10
1.2.1 Pembatasan masalah ................................................................ 10
1.2.2 Perumusan masalah .................................................................. 10
1.3 Tujuan dan Manfaat Penelitian ............................................................ 11
1.3.1 Tujuan penelitian ...................................................................... 11
1.3.2 Manfaat penelitian .................................................................... 12
BAB 2 KAJIAN PUSTAKA .............................................................................. 13-52
2.1 Inteligensi ............................................................................................. 13
2.1.1 Pengertian inteligensi ............................................................... 13
2.1.2 Teori – teori inteligensi ............................................................ 16
2.2 Konstruksi Tes ..................................................................................... 26
2.2.1 Validitas ................................................................................... 26
2.2.2 Reliabilitas ............................................................................... 27
2.3 Teori – Teori Pengukuran .................................................................... 30
2.3.1 Classical test theory (Teori tes klasik) ..................................... 30
2.3.2 Item response theory (Rasch model) ........................................ 34
2.3.3 Structural equation modeling (confirmatory factor analysis) . 41
2.4 Konsep Measurement Invariance ........................................................ 46
2.5 Gambaran Culture Fair Intelligence Test (CFIT) ................................ 49
2.6 Kerangka Berpikir ................................................................................ 50
2.7 Hipotesis Penelitian ............................................................................. 51
xiii
BAB 3 METODE PENELITIAN ...................................................................... 53-68
3.1 Data Penelitian ..................................................................................... 53
3.2 Instrumen Penelitian ............................................................................ 54
3.3 Metode Analisis Data ........................................................................... 55
3.4 Prosedur Penelitian .............................................................................. 65
BAB 4 HASIL PENELITIAN ......................................................................... 69-143
4.1 Multiple-group Confirmatory Factor Analysis Tingkat Subtes ........... 69
4.1.1 MGCFA subtes series pada kelompok gender ......................... 69
4.1.2 MGCFA subtes classification pada kelompok gender ............. 88
4.1.3 MGCFA Subtes Matrice pada kelompok gender ................... 104
4.1.4 MGCFA subtes topology pada kelompok gender .................. 118
4.2 Multi-group Confirmatory Factor Analysis Tingkat Second Order .. 130
BAB 5 KESIMPULAN, DISKUSI DAN SARAN ....................................... 144-155
5.1 Kesimpulan ........................................................................................ 144
5.2 Diskusi ............................................................................................... 148
5.3 Saran Penelitian ................................................................................. 153
5.3.1 Saran praktis ........................................................................... 153
5.3.2 Saran teoritis .......................................................................... 155
DAFTAR PUSTAKA ............................................................................................ 157
LAMPIRAN
xiv
DAFTAR TABEL
Tabel 2.1 Kategorisasi indeks item difficulty .................................................. 31
Tabel 2.2 Kategorisasi indeks item discrimination ......................................... 33
Tabel 3.1 Tabel analisis MGCFA 1st order dan 2nd model order kelompok
gender ............................................................................................. 67
Tabel 4.1 Tabel koefisien muatan faktor subtes series .................................. 72
Tabel 4.2 Tabel koefisien muatan faktor subtes series di kelompok perempuan
equal lambda .................................................................................. 75
Tabel 4.3 Tabel koefisien muatan faktor subtes series di kelompok laki-laki
equal lambda .................................................................................. 77
Tabel 4.4 Koefisien muatan faktor dan threshold subtes series scalar
invariance (unstandardized) .......................................................... 79
Tabel 4.5 Koefisien muatan faktor dan threshold subtes series scalar
invariance (standardized) .............................................................. 80
Tabel 4.6 Koefisien muatan faktor dan threshold subtes series scalar
invariance equal lambda (unstandardized) ................................... 83
Tabel 4.7 Koefisien muatan faktor dan threshold subtes series scalar
invariance equal lambda (Standardized) ....................................... 84
Tabel 4.8 Coefficient, threshold dan error subtes series error variance
invariance ....................................................................................... 87
Tabel 4.9 Koefisien muatan faktor, threshold dan residual variance subtes
series error variance invariance (standardized) ........................... 87
Tabel 4.10 Koefisien muatan faktor subtes classification ................................. 91
Tabel 4.11 Tabel koefisien muatan faktor subtes classification di kelompok
perempuan equal lambda ............................................................... 93
Tabel 4.12 Tabel koefisien muatan faktor subtes classification di kelompok laki-
laki equal lambda ........................................................................... 95
Tabel 4.13 Koefisien muatan faktor dan threshold subtes classification scalar
invariance (unstandardized) .......................................................... 97
Tabel 4.14 Koefisien muatan faktor dan threshold subtes classification scalar
invariance (Standardized) .............................................................. 98
Tabel 4.15 Koefisien muatan faktor dan threshold subtes classification scalar
invariance equal lambda (Unstandardized) .................................. 100
Tabel 4.16 Koefisien muatan faktor dan threshold subtes classification scalar
invariance equal lambda (standardized) ....................................... 101
Tabel 4.17 Koefisien muatan faktor, threshold, error variance subtes
classification error variance invariance (Unstandardized) .......... 102
xv
Tabel 4.18 Koefisien muatan faktor, threshold, error variance subtes
classification error variance invariance (Standardized) .............. 103
Tabel 4.19 Koefisien muatan faktor subtes matrice ........................................ 107
Tabel 4.20 Tabel koefisien muatan faktor subtes matrice di kelompok
perempuan equal lambda .............................................................. 109
Tabel 4.21 Tabel koefisien muatan faktor subtes matrice di kelompok
perempuan equal lambda .............................................................. 110
Tabel 4.22 Koefisien muatan faktor dan threshold subtes matrice scalar
invariance (unstandardized) ......................................................... 112
Tabel 4.23 Koefisien muatan faktor dan threshold subtes matrice scalar
invariance (standardized) ............................................................. 113
Tabel 4.24 Koefisien muatan faktor dan threshold subtes matrice scalar
invariance dan equal lambda (unstandardized) ............................ 114
Tabel 4.25 Koefisien muatan faktor dan threshold subtes matrice scalar
invariance dan equal lambda (standardized) ................................ 115
Tabel 4.26 Koefisien muatan faktor, threshold, residual variance subtes matrice
error variance invariance (unstandardized) ................................. 116
Tabel 4.27 Koefisien muatan faktor, threshold, residual variance subtes matrice
error variance invariance (standardized) ..................................... 117
Tabel 4.28 Tabel muatan faktor subtes topology ............................................ 120
Tabel 4.29 Tabel muatan faktor subtes topology perempuan ......................... 121
Tabel 4.30 Tabel muatan faktor subtes topology di kelompok laki-laki ......... 123
Tabel 4.31 Koefisien muatan faktor dan threshold subtes topology scalar
invariance (unstandardized) ......................................................... 124
Tabel 4.32 Koefisien muatan faktor dan threshold subtes topology scalar
invariance (standardized) ............................................................. 125
Tabel 4.33 Koefisien muatan faktor dan threshold subtes topology scalar
invariance equal lambda (unstandardized) .................................. 126
Tabel 4.34 Koefisien muatan faktor dan threshold subtes topology scalar
invariance (standardized) ............................................................. 127
Tabel 4.35 Koefisien muatan faktor, threshold, residual variance subtes
topology error variance invariance (unstandardized) .................. 128
Tabel 4.36 Koefisien muatan faktor, threshold, residual variance subtes
topology error variance invariance (standardized) ...................... 129
Tabel 4.37 Tabel koefisien muatan faktor tes fluid intelligence equal lambda 132
Tabel 4.38 Tabel koefisien muatan faktor tes fluid intelligence female equal
lambda ........................................................................................... 134
Tabel 4.39 Tabel koefisien muatan faktor tes fluid intelligence male equal
lambda ........................................................................................... 136
Tabel 4.40 Koefisien muatan faktor dan intercept tes fluid intelligence scalar
invariance (unstandardized) ......................................................... 138
Tabel 4.41 Koefisien muatan faktor dan intercept tes fluid intelligence scalar
invariance (standardized) ............................................................. 139
xvi
Tabel 4.42 Koefisien muatan faktor dan intercept tes fluid intelligence scalar
invariance (unstandardized) ......................................................... 140
Tabel 4.43 Koefisien muatan faktor dan intercept tes fluid intelligence scalar
invariance (standardized) ............................................................. 141
Tabel 4.44 Koefisien muatan faktor dan intercept tes fluid intelligence error
variance invariance (unstandardized) .......................................... 142
Tabel 4.45 Koefisien muatan faktor dan threshold tes fluid intelligence error
variance invariance (standardized) .............................................. 143
Tabel 5.1 Tabel model fit subtes ................................................................... 145
Tabel 5.2 Tabel model fit Second order model ............................................. 146
xvii
DAFTAR GAMBAR
Gambar 2.1 Persamaan ICC pada rasch model ................................................. 37
Gambar 2.2 Ilustrasi item characteristic curve ................................................... 38
Gambar 2.3 Item characteristic curve pada item yang baik (using M-Plus) ...... 39
Gambar 2.4 Item characteristic curve pada item kurang baik ............................ 40
Gambar 2.5 Item characteristic curve pada item negatif (using M-Plus) ........... 40
Gambar 2.6 Model teori 1 faktor dengan 5 item ................................................. 43
Gambar 2.7 Persamaan dasar confirmatory factor analysis ............................... 44
Gambar 2.8 Kerangka berpikir ............................................................................ 51
Gambar 3.1 Jumlah subtes dan item tes CFIT .................................................... 55
Gambar 4.1 Path diagram subtes series (RMSEA=0.055, 90 % C.I=
0.047 -0.062) ................................................................................... 72
Gambar 4.2 Path diagram subtes series di kelompok perempuan equal lambda
(RMSEA = 0.042 dan 90% C.I = 0.029 – 0.059) ............................ 74
Gambar 4.3 Path diagram subtes series di kelompok laki-laki equal lambda
(RMSEA = 0.054 dan 90% C.I = 0.040 – 0.068) ............................ 77
Gambar 4.4 Path diagram subtes series scalar invariance (RMSEA=0.028) ... 79
Gambar 4.5 Path diagram subtes series scalar invariance equal lambda
(RMSEA=0.045) ............................................................................. 82
Gambar 4.6 Path diagram subtes series error variance invariance
(RMSEA = 0.045) .......................................................................... 85
Gambar 4.7 Path diagram subtes classification fit (RMSEA = 0.058 dan 90% C.I
= 0.047 – 0.070) .............................................................................. 90
Gambar 4.8 Path diagram subtes classification kelompok perempuan (RMSEA =
0.053 dan 90% C.I = 0.043 – 0.076) ............................................... 92
Gambar 4.9 Path diagram subtes classification kelompok laki-laki (RMSEA =
0.058 dan 90% C.I = 0.038 – 0.078) ............................................... 94
Gambar 4.10 Path diagram subtes classification scalar invariance (RMSEA =
0.042) ............................................................................................... 96
Gambar 4.11 Path diagram subtes classification scalar invariance equal lambda
(RMSEA = 0.055 dan 90% C.I = 0.042 – 0.068) ............................ 99
Gambar 4.12 Path diagram subtes classification error variance invariance (RMSEA
= 0.058 dan 90% C.I = 0.046 – 0.070) .......................................... 102
Gambar 4.13 Path diagram subtes matrice fit (RMSEA = 0.027) ..................... 106
Gambar 4.14 Path diagram subtes matrice di kelompok perempuan (p-value =
0.0513 dan RMSEA = 0.042) ........................................................ 108
Gambar 4.15 Path diagram subtes matrice di kelompok laki-laki (P-value = 0.0729
dan RMSEA = 0.036) .................................................................... 110
xviii
Gambar 4.16 Path diagram subtes matrice scalar invariance (p-value = 0.1216 dan
RMSEA = 0.032) .......................................................................... 112
Gambar 4.17 Path diagram subtes matrice scalar invariance dan equal lambda
(RMSEA = 0.045) ......................................................................... 114
Gambar 4.18 Path diagram dari subtes matrice error variance invariance
(RMSEA = 0.045 dan 90% C.I = 0.023 – 0.066) .......................... 116
Gambar 4.19 Path diagram subtes topology fit .................................................. 119
Gambar 4.20 Path diagram subtes topology di kelompok perempuan (RMSEA =
0.042) ............................................................................................ 121
Gambar 4.21 Path diagram dari subtes topology di kelompok laki-laki (P-value =
0.0813) .......................................................................................... 122
Gambar 4.22 Path diagram dari subtes topology scalar invariance (RMSEA =
0.046) ............................................................................................ 124
Gambar 4.23 Path diagram subtes topology scalar invariance equal lambda
(RMSEA = 0.056 dan 90% C.I = 0.038 – 0.073) .......................... 126
Gambar 4.24 Path diagram dari subtes topology error variance invariance
(RMSEA = 0.051 dan 90% C.I = 0.035 – 0.068) .......................... 129
Gambar 4.25 Path diagram fluid intelligence equal lambda (RMSEA = 0.035) 131
Gambar 4.26 4.26 Path diagram tes fluid intelligence female equal lambda
(RMSEA = 0.032) ......................................................................... 133
Gambar 4.27 Path diagram tes fluid intelligence kelompok laki – laki equal
lambda (RMSEA = 0.028) ............................................................ 135
Gambar 4.28 Path diagram fluid intelligence scalar invariance (RMSEA =
0.024) ............................................................................................ 138
Gambar 4.29 Path diagram tes fluid intelligence scalar invariance dan equal
lambda (RMSEA = 0.030) ............................................................ 140
Gambar 4.30 Path diagram fluid intelligence error variance invariance (RMSEA
= 0.030) ......................................................................................... 142
1
BAB 1
PENDAHULUAN
1.1 Latar Belakang
Perkembangan ilmu psikologi tidak dapat dilepaskan dari berkembangnya ilmu
pengukuran dan alat tes psikologi. Hal ini relevan karena ilmu pengukuran dan
alat tes psikologi yang membedakan psikologi tradisional sebagai cabang ilmu
filsafat dengan psikologi sebagai ilmu pasti tentang perilaku. Tes psikologis
merupakan sebuah alat dalam ilmu psikologi yang hakikatnya bertujuan untuk
membuat ukuran baku tentang sample of behavior (Urbina, 2014). Dalam
perkembangannya, tes psikologis telah menjadi inti dari bidang psikologi terapan
pada saat ini. Meskipun aplikasi dan panduan penggunaan tes terus berubah,
perkembangan tes psikologis relatif tetap stabil (Embretson & Reise, 2000).
Tes psikologis telah banyak digunakan pada berbagai setting kehidupan
manusia, seperti sekolah dan perguruan tinggi, bisnis dan industri, klinik dan
pusat konseling, organisasi pemerintahan dan militer, serta untuk kepentingan
penelitian ilmu psikologi itu sendiri. Secara umum, fungsi dari tes psikologis
adalah untuk mengukur perbedaan antara individu dan mengukur perbedaan reaksi
individu yang sama terhadap situasi yang berbeda. Tujuan utama dari tes
psikologis adalah untuk menilai perilaku, kemampuan mental, dan karakteristik
pribadi lainnya dalam rangka membantu pembuatan penilaian, prediksi, serta
keputusan tentang individu (Anastasi & Urbina, 1997).
2
Menurut Murphy dan Davidshofer (1994) tes digunakan sebagai landasan
acuan untuk membuat keputusan tentang individu. Sebagai contoh, perguruan
tinggi menggunakan hasil tes untuk memutuskan apakah akan menerima atau
menolak seorang pelamar. Kemudian, psikolog menggunakan berbagai tes untuk
memutuskan tindakan yang tepat untuk masing-masing kliennya. Sedangkan di
dunia militer tes psikologis digunakan sebagai alat bantu dalam menentukan
penempatan anggota militer. Tes psikologis juga digunakan dalam setting industri
dan organisasi seperti dalam pemilihan anggota tim, sertifikasi profesional, dan
lisensi.
Menurut Aiken (1997) tes psikologis dapat digunakan untuk berbagai
keperluan, yaitu sebagai berikut ini:
1. Seleksi calon karyawan dan calon peserta pendidikan.
2. Klasifikasi dan penempatan karyawan maupun untuk pendidikan.
3. Konsultasi dan panduan pendidikan serta penjurusan.
4. Mempertahankan, memberhentikan, promosi dan rotasi karyawan atau peserta
dalam program pendidikan.
5. Diagnosa dan menentukan resep perawatan psikologis maupun fisik di klinik
dan rumah sakit .
6. Evaluasi perubahan kognitif, intrapersonal, dan interpersonal sebagai hasil
pendidikan, psikoterapi, atau program intervensi perilaku lainnya.
7. Meneliti perubahan perilaku dari waktu ke waktu, dan evaluasi efektivitas
program.
3
Dengan memahami banyaknya manfaat dari alat tes psikologis, maka
dapat dipahami pentingnya melakukan uji validitas pada alat tes tersebut. Uji
validitas dilakukan untuk menguji apakah item pada alat tes tersebut mengukur
konstruk yang hendak diniatkan untuk diukur. Uji validitas harus dilakukan pada
setiap alat ukur karena penting sekali memiliki sebuah alat tes yang memiliki
norma, valid, dan terstandarisasi (Anastasi & Urbina , 1997).
Uji validitas pada alat tes psikologis merupakan sebuah prosedur yang
wajib dilakukan karena penelitian dalam ilmu psikologi seringkali akan
membandingkan karakteristik individu di kelompok yang berbeda. Uji validitas
juga bermanfaat untuk memeriksa apakah sebuah item di kelompok tertentu dapat
diterjemahkan dan diadministrasikan sama pada kelompok yang berbeda. Namun,
hal ini berbanding terbalik dengan fakta yang ada di lapangan. Ketika peneliti
memberikan sebuah tes pada sekelompok individu (misalnya tes inteligensi),
seringkali peneliti hanya berasumsi bahwa item pada alat tes mengukur konstruk
yang sama di semua kelompok. Padahal merupakan hal yang berbahaya jika
asumsi ini diterapkan tanpa diuji secara empiris terlebih dahulu. Konsekuensi
paling buruk yang dapat terjadi adalah hasil penelitian menjadi keliru dan tidak
bermakna. Berdasarkan hal tersebut penting sekali menguji secara empiris asumsi
yang sering diabaikan oleh para peneliti ini (Vandenberg & Lance, 2000;
Borsboom, 2006; Milfont & Fischer, 2010).
Asumsi bahwa item tes mengukur konstruk yang sama di kelompok yang
berbeda harus diuji secara empiris karena data yang dikumpulkan penelitian
psikologi sering menghasilkan data yang tidak reliabel dikarenakan bias dalam
4
pengukuran (misalnya: self-report, skala likert). Lebih khusus, ketika data yang
dikumpulkan berasal dari dua kelompok yang berbeda, dan data itu digunakan
untuk membandingkan kelompok tersebut (Reise, Widaman & Pugh, 1993; Van
de Vijver & Leung, 2000). Peneliti harus menguji apakah tes yang
dikembangkannya valid dan berfungsi dengan adil lintas gender (laki-laki dan
perempuan), lintas ras (kaukasian dan asia), lintas agama (muslim dan non
muslim), dan lintas budaya (budaya melayu dan budaya eropa). Prosedur menguji
apakah seluruh item pada tes memang mengukur konstruk yang hendak diukur
dan berlaku sama di kelompok berbeda disebut testing measurement invariance
(Bollen, 1989; Millsap, 2011; Kline, 2011).
Seiring berkembangnya ilmu psikologi dalam beberapa tahun terakhir,
menguji measurement invariance dari alat tes telah menjadi masalah penting pada
bidang pengukuran ilmu psikologi (Steenkamp & Baumgartner, 1998; Van de
Vijver & Leung, 2000). Menguji measurement invariance pada sebuah alat tes
sangat bermanfaat karena peneliti dapat menguji apakah individu dari kelompok
yang berbeda, seperti pria dan wanita atau budaya yang berbeda seperti siswa
Brazil dan siswa Jerman, dapat memaknai sama maksud dari item pada alat tes.
Lebih khusus, peneliti dapat mengecek apakah indeks psikometri pada item
memiliki nilai yang sama di kelompok berbeda (Milfont & Fischer, 2010).
Hal ini didukung oleh Nye dan Drasgow (2011) yang menyatakan bahwa
alat tes yang baik harus menghasilkan pengukuran yang ekuivalen di kelompok
dan budaya manapun. Kemudian Kankaras dan Moors (2011) menyatakan item
pada tes harus ditafsirkan dengan makna yang sama oleh individu dari negara
5
manapun, agar tidak ada pihak yang dirugikan dalam menempuh tes tersebut.
Meskipun secara bahasa item pada alat tes tersebut telah diterjemahkan dengan
baik dan sempurna, peneliti harus tetap menguji secara statistik apakah setiap item
ditafsirkan dengan makna yang sama oleh masing-masing budaya.
Menurut Van de Vijver (dalam Spielberger, 2002) sebuah tes psikologis
perlu diuji apakah diterjemahkan dengan makna yang sama di budaya yang
berbeda. Karena tidak ada jaminan sebuah tes atau item yang dikembangkan di
budaya tertentu (misalkan budaya eropa) dapat diterjemahkan dan diterapkan di
budaya lain tanpa ada masalah. Contohnya, subtes kosakata pada tes kemampuan
dapat menjadi lebih mudah atau lebih sulit bagi kelompok budaya tertentu.
Penelitian Van de Vijver (1997) di Belanda yang melibatkan anak-anak
imigran asal Turki dan Maroko yang mayoritas beragama Islam dengan anak-anak
penduduk asli Belanda yang mayoritas beragama non-islam. Hasilnya ditemukan
bahwa kata “daging babi” merupakan kata yang sulit bagi anak dari kelompok
imigran. Hal ini terjadi diduga karena memakan dan membicarakan daging babi
merupakan hal tabu dalam agama Islam. Berdasarkan penelitian tersebut dapat
disimpulkan bahwa asumsi item pada alat tes mengukur konstruk yang sama di
kelompok berbeda harus diuji secara empiris dan tidak boleh hanya sekedar
menjadi asumsi (Spielberger, 2002).
Menguji measurement invariance pada alat tes psikologis merupakan hal
yang sangat penting karena setiap hasil pengukuran tes psikologis dihitung
berdasarkan probabilistic inference. Dengan kata lain, dalam pengukuran ilmu
psikologi akan selalu ada peluang untuk mendapatkan hasil yang keliru. Dan hasil
6
keliru yang didapatkan dari tes psikologis akan selalu berdampak langsung pada
kehidupan seseorang, baik di bidang industri, klinis, sosial dan pendidikan.
Berdasarkan hal tersebut penting sekali mengurangi peluang kesalahan pada alat
tes, sehingga setiap orang yang menjalani tes diperlakukan secara adil. Meskipun
tidak mungkin menghindari error sepenuhnya, tetap sangat penting
mengusahakan dan mengembangkan alat tes yang tidak bias agar tidak merugikan
kelompok tertentu (Boorsbom, Romeijn, & Wicherts, 2008).
Pengujian measurement invariance telah sering dilakukan dan terbukti
bermanfaat untuk menguji equivalensi dari tes yang digunakan lintas budaya
(Wasti et al., 2000; Mungas et al., 2011), lintas ras (Nair, White, & Knight, 2009;
Li et al., 2009; Widaman, Reed, & Farias, 2011), lintas gender (South, Krueger, &
Iacono, 2009; Ogg et al., 2010), lintas bahasa (Newman, Limbers, & Varni, 2010),
dan penelitian longitudinal (Willoughby, Wirth, & Blair, 2011). Lebih khusus,
prosedur ini telah banyak membantu validasi alat tes psikologis seperti tes
inteligensi (Wicherts et al., 2004; Golay & Lecerf, 2011), tes berpikir kreatif
(Kuhn & Holling, 2009), skala sikap (Kankaras & Moors, 2011), skala depresi
(Rivera-Medina et al., 2010; Gomez, Vance & Gomez, 2011), skala agresi
(Nocentini et al., 2011), skala persepsi (Hildebrandt et al., 2010), skala citra tubuh
(Maiano et al., 2010), skala perilaku konsumen (Steenkamp & Baumgartner,
1998) dan skala pelecehan seksual (Wasti et al., 2000).
Perkembangan ilmu pengukuran psikologi yang semakin berkembang
pesat memungkinkan peneliti menguji secara empiris apakah alat tes yang
dimilikinya dapat berlaku sama di semua kelompok budaya. Setidaknya terdapat
7
dua metode populer yang sering digunakan untuk menguji measurement
invariance pada alat tes psikologis. Pendekatan pertama, berdasarkan metode
linier structural equation modeling atau lebih spesifik disebut confirmatory factor
analysis. Pendekatan kedua, berdasarkan metode non-linier menggunakan item
response theory satu parameter logistik atau Rasch Model (Reise et al., 1993;
Raju, Laffitte, & Byrne, 2002; Meade & Lautenschlager, 2004).
Sebagai contoh, alat tes psikologis yang sering digunakan untuk
mengambil keputusan tentang individu adalah tes inteligensi. Tes inteligensi
merupakan tes yang sering digunakan pada tahap seleksi awal dalam bidang
pendidikan dan industri untuk menerima atau menolak pelamar (Boorsbom et al,
2008). Menurut Kaufman dan Lichtenberger (2006), salah satu keunggulan tes
inteligensi dalam dunia pendidikan adalah dapat digunakan untuk memprediksi
perilaku di masa mendatang, misalnya prestasi akademik. Kemudian menurut
Sternberg (2003), tes inteligensi dapat digunakan untuk mengklasifikasikan siswa
ke dalam kategori tertentu dengan tujuan membantu dan membatasi siswa
memilih jurusan studinya.
Salah satu tes inteligensi yang sering digunakan oleh psikolog dan
lembaga psikologi di Indonesia adalah Culture Fair Intelligence Test (CFIT). Tes
CFIT populer digunakan di kalangan praktisi karena proses administrasinya yang
relatif tidak memakan waktu, yaitu hanya sekitar 30 menit. Tes inteligensi CFIT
dikembangkan pertama kali oleh Raymond B. Cattell pada tahun 1940. Menurut
Cattell (1969) inteligensi terbagi menjadi 2 komponen, yaitu fluid dan crystallized
intelligence. Fluid intelligence merupakan kecerdasan yang bersifat bawaan
8
(hereditas). Sedangkan crystallized intelligence adalah kecerdasan yang sudah
dipengaruhi oleh lingkungan, misalnya oleh sekolah.
Tes CFIT telah sering digunakan untuk mengetes tingkat inteligensi
individu di seluruh dunia. Namun, sangat terbatas sekali penelitian yang dilakukan
untuk menguji validitas measurement invariance pada tes CFIT. Dari sedikit yang
dapat ditemukan, penelitian yang dilakukan untuk menguji measurement
invariance tes CFIT adalah penelitian yang dilakukan oleh Nenty dan Dinero
tahun 1981 di Amerika Serikat. Teknik analisis yang digunakan pada penelitian
ini adalah item response theory satu parameter logistik (Nenty & Dinero, 1981).
Nenty dan Dinero (1981) membandingkan data tes CFIT dari 803 siswa
Nigeria dengan 600 siswa kulit putih Amerika yang memiliki perbedaan dalam
ras, budaya, dan tipe pengajaran di sekolah. Selain kelompok budaya, pada
penelitian ini dibandingkan juga kelompok gender, usia, dan tingkatan kelas.
Hasil menunjukkan seluruh item tes inteligensi CFIT fit dengan model di dua
budaya berbeda. Penelitian ini menyarankan agar penelitian selanjutnya dilakukan
dengan menggunakan metode confirmatory factor analysis sebagai metode
pembanding. Namun, penelitian ini merupakan penelitian lama sehingga perlu
sekali dilakukan penelitian kembali.
Berbeda dengan di Amerika Serikat, meskipun tes CFIT telah sering
digunakan psikolog dan lembaga psikologi di Indonesia, peneliti belum pernah
menemukan penelitian yang menguji validitas measurement invariance pada tes
CFIT. Baik itu menggunakan pendekatan item response theory atau pendekatan
confirmatory factor analysis. Padahal berbahaya sekali menggunakan tes yang
9
belum divalidasi lintas budaya dan lintas kelompok. Jika sebuah alat tes tidak
terbukti memenuhi situasi measurement invariance, maka kesimpulan hasil
pengukuran yang didapatkan dari alat tes tersebut akan menjadi sangat ambigu,
keliru dan tidak bermakna (Bollen, 1989; Reise et al., 1993; Steenkamp &
Baumgartner, 1998).
Fakta di atas menunjukkan penting sekali bagi psikolog dan lembaga
psikologi di Indonesia untuk menguji measurement invariance dari tes CFIT.
Penting sekali menghasilkan skor pengukuran yang dapat dipercaya sehingga
pengambilan keputusan terhadap peserta tes akan lebih adil dan tidak merugikan
pihak dari kelompok tertentu. Dengan demikian, isu tentang measurement
invariance pada alat tes psikologis telah menjadi permasalahan yang penting
dalam pengukuran ilmu psikologi di dunia maupun di Indonesia.
Berdasarkan fenomena yang sangat krusial di atas dimana tes CFIT selalu
digunakan untuk menentukan keputusan terhadap individu, namun belum pernah
ada uji validitas pada tes CFIT di Indonesia. Maka peneliti terdorong untuk
melakukan penelitian tentang uji validitas pada tes CFIT. Lebih khusus, peneliti
tertarik untuk melakukan penelitian tentang uji validitas measurement invariance
pada tes CFIT menggunakan pendekatan multiple-group confirmatory factor
analysis.
10
1.2 Pembatasan dan Perumusan Masalah
1.2.1 Pembatasan masalah
Culture Fair Intelligence Test adalah instrumen inteligensi yang terdiri dari 50
item dan terbagi ke dalam empat subtes, yaitu sebagai berikut ini: subtes series,
subtes clasification, subtes matrice, dan subtes topology.
1.2.2 Perumusan masalah
1. Apakah item pada subtes series memenuhi tahapan measurement invariance
(configural invariance, metric invariance, scalar invariance, dan error
variance invariance)?
2. Apakah item pada subtes classification memenuhi tahapan measurement
invariance (configural invariance, metric invariance, scalar invariance, dan
error variance invariance)?
3. Apakah item pada subtes matrice memenuhi tahapan measurement invariance
(configural invariance, metric invariance, scalar invariance, dan error
variance invariance)?
4. Apakah item pada subtes topology memenuhi tahapan measurement
invariance (configural invariance, metric invariance, scalar invariance, dan
error variance invariance)?
5. Apakah seluruh subtes pada tes inteligensi CFIT memenuhi tahapan
measurement invariance (configural invariance, metric invariance, scalar
invariance, dan error variance invariance)?
11
1.3 Tujuan dan Manfaat Penelitian
1.3.1 Tujuan penelitian
Penelitian ini bertujuan untuk menguji validitas konstruk dari alat tes inteligensi
CFIT, agar para psikolog dan lembaga psikologi yang menggunakan tes CFIT
lebih maksimal dalam menghasilkan skor IQ seseorang, sehingga skor IQ tersebut
dapat dijadikan dasar untuk membuat keputusan yang lebih bisa dipercaya.
Penelitian ini bertujuan juga untuk menguji validitas measurement
invariance pada tes CFIT. Sehingga, peneliti dapat memeriksa apakah tes CFIT
mengukur konstruk yang sama di semua kelompok, dalam hal ini kelompok
gender (laki-laki dan perempuan), kelompok ability (IQ di atas rata-rata dan IQ di
bawah rata-rata), dan kelompok random (nomor urut ganjil dan nomor urut
genap).
1.3.2 Manfaat penelitian
Secara teoritik, manfaat penelitian ini diharapkan dapat memperkaya literatur
dalam ilmu psikologi, khususnya psikometri. Lebih jauh lagi peneliti berharap
penelitian ini dapat mendorong peneliti lain untuk selalu menguji dan
mempertanyakan apakah alat ukur yang digunakannya benar-benar dapat
dimaknai sama di kelompok yang berbeda. Karena jika alat ukur psikologi yang
tidak memenuhi situasi measurement invariance atau malah terjadi bias, maka
tafsiran seluruh hasil penelitian atau pengukuran tersebut menjadi tidak bermakna.
Kemudian peneliti berharap penelitian ini menjadi pemicu agar lebih banyak lagi
dilakukan penelitian yang mendalam tentang topik measurement invariance pada
alat tes dan bias pengkuran di Indonesia.
12
Secara praktis, penelitian ini bertujuan untuk menguji apakah tes
inteligensi CFIT tetap valid jika diberikan pada kelompok budaya yang berbeda.
Kelompok budaya yang dimaksud pada penelitian ini adalah kelompok gender,
kelompok ability, dan kelompok random. Hal ini dilakukan agar lembaga
psikologi dapat mengetahui apakah item dari tes inteligensi CFIT ada yang
menguntungkan pada salah satu kelompok tertentu. Kemudian hasil penelitian ini
bermanfaat bagi pihak PLP dan pengguna tes CFIT, karena dapat menghasilkan
skor tes yang lebih valid dan lebih dapat dipercaya. Sehingga dapat digunakan
sebagai bahan rujukan pengambilan keputusan tentang peserta tes yang lebih baik.
13
BAB 2
KAJIAN PUSTAKA
2.1 Inteligensi
2.1.1 Pengertian inteligensi
Flanagan, Genshaft, dan Harrison (1997) (dalam Marnat, 2006) menyatakan
bahwa sejarah pengetesan inteligensi memiliki sejarah kontroversi dan
kesalahpahaman yang cukup panjang. Hal ini timbul karena pandangan moral
masyarakat yang menentang pelabelan individu, bias budaya, dan tuduhan akan
penyalahgunaan dari skor tes inteligensi itu sendiri. Meski kritik ini sangat masuk
akal dan dapat dijadikan alasan kuat untuk menentang pengetesan inteligensi,
namun tetap tidak dapat dipungkiri pula pengetesan inteligensi memiliki banyak
manfaat dan kegunaan.
Salah satu manfaat utama mengetahui tingkat inteligensi dari individu
adalah karena ketepatannya untuk memprediksi perilaku di masa depan. Banyak
sekali penelitian yang dilakukan hingga saat ini mendukung bahwa skor
inteligensi mampu memprediksi berbagai variabel psikologis. Contohnya, dalam
ruang lingkup dunia pendidikan skor IQ merupakan prediktor yang baik untuk
memprediksi prestasi akademik, dan dalam dunia industri memprediksi kinerja
karyawan (Marnat, 2006).
Inteligensi adalah sebuah konsep abstrak yang didefinisikan berbeda-beda
bergantung nilai-nilai sosial pada sebuah masyarakat dan peradaban. Bahkan
14
sebenarnya hingga saat ini belum ada definisi inteligensi yang disepakati bersama
oleh para ilmuan. Namun, definisi modern inteligensi merujuk pada berbagai
macam kemampuan mental, termasuk kemampuan bernalar, merencanakan,
menyelesaikan masalah, berpikir abstrak, memahami ide-ide rumit, belajar dengan
cepat tentang hal baru, dan belajar dari pengalaman (Strickland, 2001).
Berikut ini pemaparan dari beberapa ahli mengenai definisi inteligensi
dalam Sattler (1992) dan Sternberg (2003):
1. Peterson
“Mekanisme biologis yang dipengaruhi stimulus kompleks yang terjadi
bersama-sama kemudian bersatu mempengaruhi perilaku pada individu.”
2. Haggerty
“Sensasi, persepsi, asosiasi, memori, imajinasi, diskriminasi, penilaian, dan
penalaran”.
3. Binet & Simon
“Penilaian, akal sehat, akal praktis, inisiatif, kemampuan beradaptasi individu
pada keadaan tertentu untuk memberi penilaian dengan baik, untuk memahami
dengan baik, untuk berpikir dengan baik.”
4. Stodard
“Kemampuan untuk melakukan kegiatan yang bercirikan (1) kesulitan, (2)
kompleksitas, (3) keabstrakan, (4) ekonomi, (5) beradaptasi pada suatu tujuan,
(6) nilai sosial, dan (7) menunjukkan keaslian (original), dan untuk
mempertahankan kegiatan tersebut di bawah kondisi yang menuntut
konsentrasi, energi dan ketahanan terhadap tekanan.”
15
5. Freeman
“Penyesuaian, atau adaptasi individu terhadap keseluruhan lingkungannya, atau
aspek-aspek tertentu dari lingkungan. Kemampuan untuk mengorganisasikan
kembali pola perilaku individu sehingga dapat bertindak lebih efektif dan lebih
tepat dalam situasi baru. Kemampuan untuk belajar dan kemampuan untuk
berfikir abstrak.”
6. Das
“Kemampuan untuk merencanakan dan menyusun perilaku individu dengan
tujuan tertentu.”
7. Humphreys
“Hasil proses memperoleh, menyimpan dalam memori, mengambil,
menggabungkan, membandingkan dan menggunakan konteks informasi yang
baru dan keterampilan konseptual.”
8. Gardner
“Kompetensi intelektual manusia harus berhubungan dengan seperangkat
keterampilan untuk pemecahan masalah yang memungkinkan individu untuk
menyelesaikan masalah atau kesulitan yang ditemukannya, dan bila
memungkinkan, untuk menciptakan produk yang efektif dan juga harus
memerlukan potensi untuk menemukan atau menciptakan masalah dengan
demikian meletakkan dasar untuk memperoleh pengetahuan baru.”
16
2.1.2 Teori-teori inteligensi
A. Psychometrics Models
Pada tahun 1900 revolusi ilmu sosial dan perilaku terjadi ketika seorang psikolog
dari perancis bernama Alfred Binet menciptakan ukuran kemampuan intelektual
yang menjadi pelopor tes inteligensi modern. Tes inteligensi yang bernama Binet-
Simon Test ini dikembangkan Binet bersama asistennya Theodore Simon. Meski
tes inteligensi yang dikembangan Binet dan Simon merupakan penemuan yang
sangat krusial dalam ilmu psikologi. Namun masih terdapat banyak perdebatan
diantara para ahli karena para ilmuan masih berbeda pendapat tentang
mendefinisikan tentang inteligensi dan bagaimana metode ilmiah yang tepat untuk
mengukurnya (Thompson, 2004).
Pada masa yang penuh perdebatan ini, para psikolog dan ilmuan berharap
dapat menguji pandangan mereka yang beragam secara empiris menggunakan
metode analisis yang tepat. Untuk mengatasi masalah ini, Charles Spearman
(1904) mengembangkan dan memperkenalkan sebuah metode analisis yang saat
ini terkenal dengan nama analisis faktor (factor analysis). Lebih lanjut, berbagai
macam pengembangan metode statistika dalam analisis faktor semakin banyak
dilakukan, sehingga para ilmuan diberikan banyak pilihan yang beragam untuk
memilih metode yang akan digunakan sebagai alat analisis (Thompson, 2004).
Terlepas dari sejarah perdebatan panjang yang terjadi pada masa awal
dikembangkannya. Analisis faktor merupakan sebuah alat analisis yang memiliki
kontribusi yang sangat besar dan tidak terbantahkan pada perkembangan teori
17
inteligensi. Berikut ini merupakan teori-teori inteligensi yang lahir karena
kontribusi analisis faktor atau sering disebut pula dengan psychometrics models.
1. Spearman’s two-factor theory
Charles Spearman (1904) (dalam Sternberg, 2003) mengajukan model two-
factor theory of intelligence, sebuah teori yang sampai saat ini masih diakui
sebagai teori awal tentang inteligensi. Teori ini menyatakan bahwa setiap
individu memiliki general factor (g) yang berlaku umum pada semua tugas
yang membutuhkan inteligensi. Karakteristik dari faktor “g” adalah sebagai
berikut: (1) merupakan bawaan sejak lahir, (2) bersifat konstan, (3)
dipergunakan dalam setiap kegiatan individu, (4) jumlah faktor “g” setiap
individu berbeda-beda, (5) semakin besar jumlah faktor “g” semakin besar
peluang individu untuk sukses dalam menyelesaikan tugas. Lalu ada yang
dinamakan Spearman specific factor (s), yaitu faktor yang berlaku unik pada
setiap tugas yang berbeda. Apabila faktor “s” individu dalam bidang tertentu
dominan, maka individu tersebut akan menonjol dalam bidang tersebut.
Karakteristik dari faktor “s” adalah sebagai berikut: (1) dapat dipelajari dan
didapatkan dari lingkungan, (2) bervariasi dari kegiatan satu dengan lainnya
dari individu yang sama, (3) jumlahnya berbeda-beda pada setiap individu.
Dengan demikian, Spearman menyatakan setiap individu memiliki 2 faktor
inteligensi.
Spearman mendapatkan ide ini dari hasil proses analisis data yang
dikembangkan olehnya sendiri, yaitu analisis faktor. Analisis faktor mencoba
mengidentifikasi variabel laten pada individu berdasarkan item pada tes
18
kemampuan. Ketika Spearman melakukan analisis faktor pada matriks korelasi
data, dua macam faktor muncul, general factor yang berlaku umum pada
semua tes dan specific factor yang berlaku unik pada setiap tes.
Pada tahun 1927 Spearman mengakui bahwa tidak begitu yakin pada
basis psikologis dari g-factor, Spearman hanya memberi rujukan bahwa hal itu
mungkin adalah energi mental (istilah ini tidak pernah didefinisikannya dengan
jelas). Meski begitu, teori ini merupakan basis utama untuk tes kemampuan
dan inteligensi dalam menjelaskan perbedaan individu di masa yang akan
datang.
2. Thurstone’s theory of primary mental abilities
Sternberg (2003) menyatakan Louis Thurstone adalah ilmuan yang juga
menggunakan analisis faktor sebagai metode untuk mengungkap variabel laten
yang mendasari berkorelasinya item pada tes kemampuan. Menurut Thurstone
ada tujuh kemampuan mental primer, yaitu:
1. Verbal comprehension, kemampuan untuk memahami materi verbal.
Kemampuan ini diukur menggunakan tes kosakata dan pemahaman
membaca.
2. Verbal fluency, kemampuan untuk dengan cepat menghasilkan kata-kata,
kalimat, dan materi verbal lainnya. Kemampuan ini diukur dengan cara
meminta penempuh tes menghasilkan kata-kata sebanyak mungkin dalam
jangka waktu dengan waktu yang relatif singkat.
3. Number, kemampuan berhitung dengan cepat. Kemampuan ini diukur
dengan tes mencari solusi dari masalah aritmatika sederhana.
19
4. Memori, kemampuan untuk mengingat kata-kata, huruf, angka, simbol atau
item. Kemampuan ini diuji dengan serangkaian tes mengingat kembali.
5. Perceptual speed, kemampuan mengenali huruf, angka, atau simbol dengan
cepat. Kemampuan ini diuji dengan cara tes yang meminta penempuh tes
memberikan tanda silang pada huruf tertentu (misalnya huruf A) pada
serangkaian huruf.
6. Inductive reasoning, kemampuan untuk bernalar dari khusus ke umum.
Kemapuan ini diuji melalui tes serangkaian huruf. Misalnya, “Huruf apakah
yang akan muncul berikutnya pada seri berikut ini? B, d, g, k, ...”.
7. Spatial visualization, kemampuan untuk memvisualisasi bentuk, rotasi,
objek, dan bagaimana kepingan dari sebuah puzzle akan melengkapi satu
sama lain. Kemampuan ini diuji dengan tes yang memerlukan mental
rotation atau objek geometri yang bisa dimanipulasi.
B. Hierarchical Theories
Kelompok teori lain yang mencoba menjelaskan inteligensi adalah hierarchical
theories. Teori-teori ini berasumsi bahwa kemampuan dapat diurutkan
berdasarkan tingkatan keumumannya. Para ahli hierarchical theories berargumen
daripada memperdebatkan kemampuan mana yang paling penting, mereka
menyatakan bahwa setiap kemampuan memiliki tempat pada hirarki kemampuan
dari umum sampai dengan ke khusus. Berikut adalah teori-teori yang merupakan
teori hirarki:
20
1. Burt’s theory
Sir Cyril Burt (1949) dikenal karena karyanya tentang heritabilitas inteligensi.
Burt mengajukan hirarki lima tingkatan yang dapat menjelaskan inteligensi.
Pada hirarki teratas Burt mengajukan “pikiran manusia.” Pada tingkat kedua
“tingkatan relasi.” Pada tingkatan ketiga adalah asosiasi. Pada tingkatan
keempat adalah persepsi. Dan pada tingkatan kelima adalah sensasi. Model
teori ini terbukti tidak bertahan lama dan kurang dijadikan rujukan saat ini
(Sternberg, 2003).
2. Vernon theory of verbal: Educational and spatial: Mechanical abilities
Model teori hirarki yang cukup terkenal diajukan oleh Vernon (1971). Teori
ini menyatakan bahwa general factor berada pada hirarki teratas. Di bawah g-
factor terdapat dua kelompok faktor, yaitu v:ed dan k:m. Nama pertama
merujuk kepada kemampuan verbal-educational yang diukur berdasarkan tes
kemampuan yang konvensional. Nama kedua merujuk pada kemampuan
spatial-mechanical (Sternberg, 2003)
3. Cattell’s theory of fluid and crystallized intelligence
Sternberg (2003) menyatakan teori yang lebih banyak diterima dibanding
teori-teori sebelumnya adalah teori yang dikemukakan oleh Raymond Cattell
(1971) yang sepintas terlihat mirip dengan teori yang dikembangkan Vernon.
Cattell mengajukan bahwa general ability berada di hirarki teratas dan dua
kemampuan di bawahnya, fluid ability, atau gf, dan crystallized ability, atau
gc. Fluid ability adalah kemampuan untuk berpikir secara fleksibel dan
bernalar secara abstrak. Kemampuan ini diukur oleh tes serial angka dan
21
gambar analogi. Crystallized ability adalah kumpulan pengetahuan
berdasarkan pengembangan dan penerapan sepanjang hidup dari fluid ability.
Kemampuan ini diukur berdasarkan tes kosakata dan wawasan umum.
Studi terbaru menunjukkan bahwa fluid ability sangat sulit dibedakan
secara statistik dengan general ability. Tes yang digunakan untuk mengukur
fluid ability seringkali identik dengan tes yang dimaksudkan untuk mengukur
general ability. Contohnya, tes Raven Progressive Matrice yang mengukur
bagian matriks yang hilang terdiri dari gambar.
Horn (1994) memperluas teori hirarki yang awalnya dikembangkan
oleh Cattell. Horn merujuk bahwa general factor dapat dibagi kedalam tiga
faktor lagi di bawah fluid dan crystallized ability. Ketiga faktor ini antara lain
visual thinking (gv), auditory thinking (ga), dan speed (gs). Faktor visual
thinking kemungkinan mendekati faktor k:m yang dikembangkan oleh
Vernon daripada fluid ability milik Cattell.
4. Carroll’s three-stratum theory
Teori yang dikemukakan oleh Carroll (1993) kemungkinan merupakan teori
hirarki yang paling banyak diterima saat ini. Pada hirarki teratas adalah
general ability, lalu pada hirarki tengah terdapat berbagai macam kemampuan
yang luas, termasuk fluid dan crystallized ability, proses belajar dan proses
ingatan, persepsi visual dan auditory, facile production, dan kecepatan. Pada
hirarki paling paling bawah merupakan kemampuan-kemampuan yang
spesifik (Sternberg, 2003).
22
5. Guilford’s structure of intellect model
J.P Guilford (1971) mengajukan model inteligensi dengan 120 kemampuan
yang berbeda. Pada awalnya Guilford mengajukan sebanyak 180
kemampuan, kemudian direvisi menjadi 150 kemampuan, dan yang terakhir
menjadi 120 kemampuan. Teori Guilford’s structure of intellect model
meliputi tiga dimensi, yaitu: operasional (operation), produk (product), dan
isi (content). Guilford menyatakan terdapat lima operasi, enam produk, dan
empat isi. Kelima bentuk operasi adalah kognisi, memori, berpikir divergen,
berpikir, konvergen, dan evaluasi. Lalu bentuk keenam produk adalah unit,
kelas, relasi, sistem, transformasi, dan implikasi. Dan keempat bentuk dari isi
adalah figural, simbol, semantik, dan perilaku. Karena seluruh dimensi-
dimensi ini berinteraksi satu sama lain, maka terdapat 5 X 6 X 4 atau 120
kemampuan berbeda (Sternberg, 2003).
C. Piaget’s Cognitive Model
Penelitian tentang teori inteligensi tidak hanya berkembang melalui analisis faktor
dan metode psikometri. Para ilmuan eksperimental dan psikologi perkembangan
merumuskan gagasan tentang perkembangan belajar, berpikir, pemecahan
masalah, dan proses kognitif lainnya. Ilustrasi dari upaya ini adalah teori
perkembangan kognitif yang dikembangkan Jean Piaget.
Menurut Piaget (Aiken, 1997) anak mengetahui dan memahami
lingkungan dengan berinteraksi dengan suatu hal dan beradaptasi dengan hal
tersebut, proses ini disebut sebagai adaptasi atau equilibrasi. Equilibrasi
melibatkan asimilasi dan akomodasi. Asimilasi merupakan proses penyesuaian
23
pengalaman baru kedalam struktur mental yang sudah ada sebelumnya (schemata)
dan akomodasi adalah proses modifikasi dari schemata sebagai hasil dari
pengalaman.
Piaget (Miller, 1989) menyatakan bahwa perkembangan kognitif yang
terjadi karena proses asimilasi dan akomodasi terjadi dalam empat urutan tahap
atau periode. Tahapan ini merupakan hirarki perkembangan dimana proses
equilibrasi yang berhasil pada tahap sebelumnya diperlukan individu untuk
berhasil pada tahap perkembangan selanjutnya. Tahap perkembangan yang
diajukan oleh Piaget adalah sebagai berikut:
1. Tahap pertama, disebut tahap sensori-motori yang terjadi antara masa
kelahiran hingga individu berusia 2 tahun. Pada tahap ini anak belajar untuk
melatih refleks sederhana dan mengkordinasikan berbagai persepsi.
2. Tahap kedua, disebut dengan tahap pra-operasional yang terjadi antara 2
sampai 7 tahun. Pada tahap ini anak mendapatkan kemampuan berbahasa dan
representasi simbol lainnya mengenai realita, hal ini sangat penting karena
merupakan tahap egosentris dari perkembangan.
3. Tahap ketiga, disebut tahap operasi konkrit yang terjadi antara 7 sampai 11
tahun. Pada tahap ini anak mengembangkan sistem operasi yang terorganisir
dengan proses interaksi sosial, dan pengurangan terhadap pemusatan diri
sendiri.
4. Tahap keempat atau terakhir, disebut tahap operasi formal yang terjadi antara
11 sampai 15 tahun. Pada tahap ini anak sudah bisa menggunakan logika dan
penalaran verbal yang lebih tinggi, dan operasi nalar yang lebih abstrak.
24
D. Teori Pemrosesan Informasi
Perkembangan dunia teknologi komputer dan sistem informasi yang pesat dalam
beberapa tahun terakhir telah menyebabkan lahirnya konsep yang menyamakan
otak manusia dengan komputer. Studi di bidang neurofisiologi dan psikologi
kognitif juga memberikan kontribusi pada model pengolahan informasi dalam
proses pemecahan masalah dan berpikir manusia. Model ini menekankan pada
proses atau operasi identifikasi dimana informasi dikodekan, disimpan, diambil,
dan dimanfaatkan oleh otak dalam melaksanakan tugas-tugas kognitif seperti pada
tes inteligensi (Gardner, 2011)
Model komputer melihat otak manusia sebagai pengolah sistem informasi
yang memiliki kapasitas penyimpanan yang besar. Penyimpanan sendiri berisi
antara lain program kompleks atau strategi yang dapat ditimbulkan oleh input
stimulus tertentu. Dalam model ini inteligensi dianalisis sebagai variabel seperti
kapasitas penyimpanan, kecepatan melakukan operasi dasar, dan kecepatan ke
akses ke penyimpanan.
1. Sternberg’s triarchic theory
Salah satu contoh model teori yang menggunakan dasar pemrosesan
informasi adalah teori yang diajukan oleh Sternberg (Aiken, 1997). Terdapat
komponen dalam proses berpikir manusia yaitu: componential, experiental,
dan contextual. Pada tahap componential terjadi proses memperoleh
pengetahuan dan pemecahan masalah. Bagian kedua adalah tahap experiental,
inti pada tahap ini adalah kemampuan individu untuk menciptakan ide baru
dengan cara menggabungkan fakta-fakta yang cenderung tidak berhubungan.
25
Bagian ketiga adalah contextual, inti tahap ini adalah kemampuan untuk
beradaptasi dengan kondisi lingkungan sehingga kemampuan individu dapat
maksimal dan meminimalisir kesalahan (Kaufman & Grigorenko, 2009).
Sternberg (dalam Aiken, 1997) merevisi teorinya dengan mengusulkan
konsep mental self-government yang merupakan upaya untuk
menggabungkan konsep inteligensi dengan kepribadian. Cara dimana tiga
jenis inteligensi digambarkan oleh teori komponen triarchic digunakan untuk
menghadapi masalah sehari-hari yang ditandai dalam teori ini sebagai gaya
intelektual.
2. Gardner’s Multiple-Intelligence
Gardner (2011) mengusulkan teori multiple intelligences berdasarkan
penelitiannya mengenai hubungan otak dengan perilaku. Gardner berpendapat
bahwa kekhasan kognisi manusia dan pengolahan informasi melibatkan
pengerahan berbagai sistem simbol yang merupakan karakteristik persepsi,
memori, dan pembelajaran. Dengan demikian, individu mungkin akan baik
dalam bahasa, tetapi tidak pada musik, memanipulasi lingkungan spasial, atau
interaksi interpersonal.
Gardner menjabarkan terdapat tujuh bentuk inteligensi yaitu
linguistik, logika-matematika, spasial, musikal, kinestetik tubuh, dan dua
bentuk inteligensi personal (intrapersonal dan interpersonal). Tiga bentuk
pertama dari daftar ini diukur dengan tes inteligensi konvensional, tapi empat
terakhir lebih seperti bakat istimewa daripada inteligensi. Inteligensi
kinestetik dapat terlihat lebih banyak pada atlit, pengrajin, penari, dan ahli
26
bedah. Inteligensi spasial diperlukan untuk pematung, dan inteligensi musikal
oleh komposer, musisi, dan penyanyi. Inteligensi intrapersonal adalah ketika
individu dapat mendeteksi suasana hati individu lain dan untuk memimpin,
memahami perasaan diri sendiri, dan menggunakan pengetahuan diri secara
produktif.
2.2 Konstruksi Tes
Terdapat dua istilah yang sering diterapkan dalam pengembangan dan pengujian
alat tes psikologis, yaitu konsep tentang validitas (validity) dan reliabilitas
(reliability).
2.2.1 Validitas
Bollen (1989) menyatakan validitas adalah istilah yang merujuk pada sejauh mana
alat ukur memang mengukur pada konstruk yang hendak diniatkan untuk diukur.
Validitas suatu tes menerangkan apa yang diukur oleh tes dan sejauh mana tes
tersebut mengukurnya. Terdapat tiga tipe dari validitas, yaitu:
A. Validitas Isi (Content Validity)
Validitas isi adalah tipe validitas yang menggunakan pendekatan kualitatif
sebagai cara mengujinya. Validitas isi berkaitan dengan penelitian yang
sistematis pada isi tes untuk menentukan apakah isi tes mencakup sampel
representatif dari domain tingkah laku yang diukur. Seringkali validitas isi
dilakukan dari penilaian ahli di bidang yang akan diuji (expert judgment).
B. Validitas Kriterion (Criterion Validity)
Validitas kriterion adalah validitas yang diuji dengan mengkorelasikan skor
tes dengan sebuah kriteria tertentu. Misalnya, nilai skor tes potensi akademik
27
pada seleksi masuk perguruan tinggi dikorelasikan dengan nilai indeks
prestasi (IP) di akhir semester. Ketika kriteria yang akan dipakai sebagai
pembanding ada pada saat yang sama dengan alat ukur, validitas ini
seringkali disebut dengan concurrent validity. Sedangkan jika kriteria yang
akan digunakan sebagai pembanding harus menunggu waktu terlebih dahulu
di masa yang akan datang, validitas ini sering juga disebut predictive validity.
Perbedaan antara validitas prediktif dan validitas konkuren bukan
berdasarkan waktu, tetapi pada tujuan tes.
C. Validitas Konstruk (Construct Validity)
Validitas konstruk menguji sejauh mana skor hasil pengukuran pada alat ukur
menggambarkan konstruk teoritis yang hendak diukur oleh alat ukur tersebut.
Dalam konteks ilmu sosial banyak sekali konsep yang sangat sulit
dirumuskan menggunakan validitas isi. Sehingga melakukan uji validitas
konstruk sangat relevan dilakukan di bidang ilmu sosial, terutama dalam ilmu
psikologi. Karena variabel dalam ilmu psikologi sebagian besar merupakan
entitas yang tidak dapat diobservasi dan diukur secara langsung.
2.2.2 Reliabilitas
Istilah reliabilitas dapat merujuk pada konsep tingkat kepercayaan. Dalam konteks
skor sebuah hasil tes, pengguna tes harus yakin bahwa skor yang dihasilkan tes
dapat dipercaya. Ketika dihubungkan dengan tes dan pengukuran, reliabilitas
didasarkan pada konsistensi dan ketepatan pada hasil proses pengukuran. Agar
mendapat tingkat kepercayaan pada skor yang dihasilkan, pengguna tes
28
memerlukan bukti bahwa skor yang didapat dari tes akan konsisten jika tes
diulang kembali pada kelompok atau individu yang sama (Urbina, 2014).
Sattler (1982) menyatakan reliabilitas (r) adalah sebuah indeks yang
menunjukkan sejauh mana konsistensi skor tes yang didapatkan dari pengukuran
jika tes tersebut diulang. Koefisien reliabilitas memiliki rentang nilai dari 0.00-
1.00. Koefisien reliabilitas yang memiliki nilai mendekati 1.00 menunjukkan
reliabilitas skor tes yang sangat baik, sedangkan koefisien reliabilitas yang
memiliki nilai mendekati 0.00 menunjukkan reliabilitas yang sangat buruk dari
sebuah skor tes. Terdapat tiga tipe dari reliabilitas, yaitu: test-retest, alternate
form, dan internal consistency.
A. Pendekatan Test-Retest
Test-retest merupakan indeks dari stabilitas. Prosedur yang biasa dilakukan
untuk mendapatkan koefisien reliabilitas test-retest adalah dengan memberikan
tes yang sama pada kelompok yang sama pada dua kesempatan yang berbeda,
biasanya dalam jeda waktu yang pendek (misalnya, dua minggu sampai satu
bulan). Korelasi yang didapat sering disebut dengan koefisien stabilitas yang
menggambarkan sejauh mana tes konsisten sepanjang waktu. Kekurangan
koefisien test-retest adalah peserta tes mungkin bisa mengingat dan belajar dari
jeda waktu yang diberikan. Secara teoritis, semakin pendek jeda waktu yang
diberikan, akan semakin tinggi koefisien reliabilitasnya.
29
B. Pendekatan Alternate Form
Pendekatan ini sering pula disebut equivalent atau parallel form reliability.
Indeks koefisiennya didapatkan dengan cara memberikan dua tes yang
equivalen pada kelompok yang sama. Sebuah tes dikatakan equivalen ketika
memiliki nilai rata-rata (mean), varians, dan reliabilitas yang tinggi. Jika tidak
ada kesalahan dalam pengukuran, peserta tes seharusnya mendapatkan skor tes
yang sama pada kedua bentuk tes yang disajikan.
C. Pendekatan Internal Consistency
Pendekatan reliabilitas internal consistency didapat berdasarkan skor dalam
sekali melakukan tes. Salah satu tipe koefisien reliabilitas internal consistency
didapat dengan cara membagi tes menjadi dua bentuk yang equivalen (split-
half reliability). Cara lain untuk mendapatkan koefisien internal consistency
adalah dengan menggunakan interkorelasi diantara semua bagian tes yang bisa
dibandingkan. Rumus-rumus seperti Alpha Cronbach dan Kuder-Richardson
formula 20 berfungsi mengukur homogenitas dari seluruh item pada tes. Secara
umum pendekatan internal consistency lebih sering digunakan karena lebih
mudah dan praktis dalam praktek penggunaannya. Karena untuk mendapatkan
koefisien reliabilitas internal consistency cukup hanya melakukan sekali
pengetesan.
Menurut Umar (2012) dalam konteks teori tes klasik (CTT) penggunaan
konsep reliabilitas harus didahului dengan memenuhi beberapa asumsi. Setelah
seluruh asumsinya dipenuhi, barulah seluruh indeks reliabilitas sah untuk
30
digunakan dan bermakna tafsirannya. Asumsi-asumsi tersebut adalah sebagai
berikut:
1. Asumsi unidimensionality, artinya tes yang diujikan sudah terbukti hanya
mengukur satu konstruk, trait, kemampuan.
2. Asumsi local independent, artinya peluang menjawab dengan benar pada
suatu item tidak dipengaruhi oleh jawaban pada item sebelumnya.
3. Asumsi parallel, artinya setiap item pada tes memiliki tingkat kesukaran,
daya pembeda dan kesalahan pengukuran yang sama.
2.3 Teori-Teori Pengukuran
Stevens (1951) (dalam Chadha, 2009) menyatakan pengukuran adalah pemberian
angka atau kuantifikasi pada suatu objek atau peristiwa berdasarkan aturan
tertentu. Terdapat tiga teori tentang pengukuran yang sering digunakan dalam
konstruksi tes dalam pengukuran dalam ilmu psikologi, yaitu: classical test theory
(teori tes klasik), item response theory (Rasch model), dan structural equation
modeling (confirmatory factor analysis).
2.3.1 Classical test theory (Teori tes klasik)
Classical test theory (CTT) adalah teori pengukuran yang diajukan oleh psikolog
Inggris Charles Spearman dengan menggunakan konsep korelasi. Sejak tahun
1904 hingga 1913 Spearman mempublikasikan argumen matematis bahwa skor
tes adalah ukuran yang dapat menguji tentang traits tertentu pada individu.
Spearman mengajukan sebuah gagasan dan fondasi dasar dari CTT yang
kemudian didukung oleh banyak ilmuan seperti Guilford (1936), Gulliksen
(1950), Magnusson (1967), Lord dan Novick (1968) (Crocker & Algina, 2008).
31
Menurut Crocker dan Algina (2008) inti dari model yang diajukan
Spearman adalah skor observasi (observed score) terbagi menjadi dua komponen
di dalamnya, yaitu true score dan random error. Hal ini dapat diilustrasikan
melalui persamaan matematis sebagai berikut ini:
Keterangan:
X = Skor observasi (observed score)
T = Skor sebenarnya (true score)
E = Error/kesalahan pengukuran
A. Item Analysis
Item analysis adalah sebuah istilah yang merujuk pada sebuah cara untuk
mengembangkan karakteristik dari sebuah tes dan berfungsi meningkatkan
pemahaman peneliti terhadap tes yang dikembangkannya. Pengujian yang
komprehensif pada sebuah alat tes sangat penting dilakukan karena berguna
untuk memahami mengapa sebuah tes menunjukkan level validitas dan
reliabilitas tertentu. Item analysis menjadi sangat berguna ketika sebuah tes
tidak reliabel atau gagal menunjukkan level validitas yang diharapkan. Item
analysis dapat menunjukkan mengapa sebuah tes reliabel (atau tidak reliabel)
dan membantu peneliti memahami mengapa skor tes dapat digunakan atau
tidak digunakan untuk memprediksi sebuah variabel (Murphy & Davidshofer,
1994).
Sedangkan menurut Urbina (2014) item analysis merujuk pada teknik-
teknik yang digunakan untuk menilai karakteristik item dari tes dan
X = T + E
32
mengevaluasinya selama proses pengembangan serta konstruksi tes. Item
analysis melibatkan prosedur kualitatif dan kuantitatif. Prosedur kualitatif
item analysis merujuk pada 3 kriteria berikut ini, yaitu: (a) kelayakan dari
format dan konten dari tes untuk siapa tes ini dibuat, (b) kejelasan dalam
pengekspresian, dan (c) keakuratan secara ejaan penulisan.
Terdapat tiga hal yang perlu diperhatikan dalam item analysis prosedur
kuantitatif, yaitu item difficulty (tingkat kesukaran), item discrimination (daya
pembeda), dan distractor (pengecoh).
1. Item Difficulty
Menurut Urbina (2014), pada tes dengan item dengan bentuk skor
dikotomi (benar-salah), indeks item difficulty (tingkat kesukaran) merujuk
pada jumlah proporsi atau persentase individu yang mampu menjawab
dengan jawaban benar pada sebuah item. Indeks tingkat kesukaran
memiliki rentang nilai dari 0.00 sampai dengan 1.00. Semakin tinggi
indeks dari tingkat kesukaran, semakin mudah item tersebut. Sebaliknya
semakin rendah indeks tingkat kesukaran, semakin sulit item tersebut.
Norma tingkat kesukaran dapat dilihat melalui tabel 2.1 sebagai berikut:
Tabel 2.1
Kategorisasi indeks item difficulty
Indeks Kategori
<0.30 Sulit
0.31 – 0.70 Sedang
>0.70 Mudah
33
2. Item Discrimination
Menurut Crocker dan Algina (2008), tujuan dari tes adalah menghasilkan
informasi tentang perbedaan individu dalam sebuah konstruk tertentu.
Atau dengan kata lain item pada sebuah tes seharusnya memiliki
kemampuan memberikan informasi untuk dapat memisahkan antara
individu yang mampu dengan tidak mampu. Dalam sebuah tes terdapat
sebuah parameter tentang item yang indeksnya bertujuan untuk
membedakan antara individu yang memiliki kemampuan tinggi dengan
individu yang memiliki kemampuan rendah pada konstruk yang diukur.
Indeks tersebut adalah item discrimination atau sering pula disebut sebagai
daya pembeda. Indeks daya pembeda yang sering digunakan adalah point
biserial, artinya mengkorelasikan skor item dengan skor jumlah jawaban
benar pada tes. Indeks daya pembeda nilainya terbentang antara 0.00 –
1.00, dapat dilihat pada tabel 2.2 sebagai berikut:
Tabel 2.2
Kategorisasi indeks item discrimination
Indeks Kategori
Pointbiserial >0.30 Diterima
0.10 ≤ Pointbiserial ≤ 0.30 Direvisi/dicek kembali
Pointbiserial ≤ 0.10 Ditolak
3. Distractor
Pada tes berbasis pilihan ganda, pilihan yang salah, pengecoh, atau disebut
juga distraktor memiliki pengaruh yang besar pada tingkat kesukaran.
Banyaknya distraktor akan secara langsung mempengaruhi indeks tingkat
kesukaran karena peluang untuk peserta tes menebak dengan benar pada
34
sebuah item menjadi tinggi ketika distraktor yang disediakan jumlahnya
sedikit. Sebagai catatan, tingkat kesukaran sangat dipengaruhi oleh
kualitas dari distraktor. Item pilihan ganda yang baik syaratnya adalah (a)
jawaban benar dapat dijawab oleh yang mengetahui jawabannya dan (b)
distraktor muncul sebagai pilihan yang nyaris masuk akal bagi yang tidak
mengetahui jawabannya. Jika masih dalam tahap pengembangan,
distraktor yang tidak berfungsi dengan baik, misalnya distraktor yang tidak
satu pun dari peserta tes yang memilihnya atau distraktor yang sering
dipilih oleh peserta tes yang berkemampuan tinggi harus diganti (Urbina,
2014).
2.3.2 Item response theory (Rasch model)
Sejarah item response theory (IRT) dapat ditelusuri pada seorang matematikawan
Denmark yang bernama Georg Rasch (1960). Rasch diberi tugas oleh pemerintah
Denmark untuk mengembangkan sebuah model yang dapat diaplikasikan untuk
mengukur kemampuan membaca dan pengembangan tes untuk digunakan
kepentingan militer. Rasch tertarik untuk mengembangkan model pengukuran
(measurement model) dimana ia menyatakan bahwa kemampuan individu (ability)
dan parameter item dapat dipisahkan dalam model yang diusulkannya ini
(Embretson & Reise, 2000).
Dalam perjalanan mengembangkan teorinya, Rasch menginspirasi dua ahli
psikometri lain yang akhirnya mengembangkan dan menyebarluaskan gagasan
dari Rasch model. Di Eropa, Gerhard Fischer (1973) dari Universitas Vienna yang
mengembangkan Rasch model untuk binary data. Lalu yang kedua adalah ahli
35
psikometri yang bernama Benjamin Wright yang pada akhirnya mengajarkan
prinsip-prinsip pengukuran Rasch model di Amerika Serikat (Embretson & Reise,
2000).
Rasch mengunjungi University of Chicago dimana Wright adalah profesor
di departemen pendidikan, disana ia memberikan serangkaian perkuliahan tentang
prinsip pengukuran Rasch model. Karena hal tersebut, banyak sekali mahasiswa
doktoral tertarik untuk mendalami Rasch model di bawah bimbingan Wright.
Beberapa mahasiswa doktoral yang pada akhirnya memberikan kontribusi untuk
perkembangan Rasch model adalah Graham Douglas (1977), David Andrich
(1978), Geoffrey Masters (1982), dan Mark Wilson (1989) (Embretson & Reise,
2000).
Setelah penyebaran IRT yang menjadi semakin populer pada akhir tahun
1970, dunia pengukuran dan konstruksi alat tes berubah secara dramatis.
Meskipun CTT telah menjadi acuan pengembangan tes selama beberapa dekade
terakhir, IRT dengan cepat menjadi arus utama dalam basis teori dunia
pengukuran dan pengembangan tes. Terlebih, tes-tes yang dikembangkan melalui
pendekatan IRT lebih terstandarisasi, karena secara teoritis prinsip-prinsip
pengukurannya dapat diuji dan memiliki peluang lebih besar menyelesaikan
masalah-masalah dalam dunia pengukuran yang tidak mampu diselesaikan oleh
classical test theory (Embretson & Reise, 2000).
Menurut Hambleton, Swaminathan dan Rogers (1991) IRT berlandaskan
atas dua postulat, yaitu:
36
1. Performa dari individu dalam menempuh sebuah item tes dapat diprediksi
atau dijelaskan oleh sebuah faktor yang disebut traits, latent traits, atau
kemampuan (ability).
2. Hubungan antara performa penempuh tes pada suatu item dengan traits yang
mendasari performa item dapat digambarkan dengan fungsi yang terus
menanjak secara monotonik yang disebut item characteristic curve (ICC).
Sebelum melakukan analisis terhadap item menggunakan Rasch Model, ada
sejumlah asumsi yang harus dipenuhi terlebih dahulu oleh pembuat tes. Menurut
Hambleton et al. (1991) asumsi tersebut adalah sebagai berikut:
1. Asumsi unidimensionality, artinya bahwa item-item yang akan dianalisis
hanya mengukur satu traits, ability, atau latent traits.
2. Asumsi local independent, artinya peluang individu untuk menjawab benar
suatu item tidak dipengaruhi oleh jawaban item sebelumnya.
Setelah asumsi dasar terpenuhi, maka peneliti dapat melakukan analisis
terhadap item. Menurut Embretson & Reise (2000) bentuk yang paling umum dari
IRT adalah model satu parameter logistik. Esensi dari Rasch model dapat
dijelaskan melalui persamaan berikut:
Gambar 2.1 Persamaan ICC pada rasch model
(Sumber: Embretson & Reise, 2000)
37
Keterangan:
Θ = Kemampuan/ability
β = Tingkat kesukaran item
Hayat (1994) menyatakan berdasarkan penjabaran persamaan di atas dapat
dipahami bahwa “peluang individu untuk menjawab dengan benar pada sebuah
item ditentukan oleh hasil interaksi antara kemampuan (ability) dengan tingkat
kesukaran item (item difficulty)”. Secara sederhana dapat dipahami bahwa peluang
menjawab benar individu pada sebuah item dapat digambarkan melalui selisih
jarak antara kemampuan dengan tingkat kesukaran item. Penjelasan lebih lanjut
adalah sebagai berikut:
1. Jika Θ > β (kemampuan > tingkat kesukaran), maka peluang individu untuk
mendapat jawaban benar pada item tersebut adalah > 0,5 atau di atas 50%.
2. Jika Θ < β (kemampuan < tingkat kesukaran), maka peluang individu untuk
mendapat jawaban benar pada item tersebut adalah < 0,5 atau di bawah 50%.
3. Jika Θ = β (kemampuan = tingkat kesukaran), maka peluang individu untuk
mendapat jawaban benar pada item tersebut adalah = 0,5 atau sama dengan
50%.
Sebuah tes dirancang bertujuan untuk mengukur suatu atribut, kemampuan
atau traits tertentu pada individu, misalnya kemampuan verbal, inteligensi, atau
konstruk lainnya. Semakin individu memiliki kemampuan atau atribut tersebut,
maka semakin tinggi pula seharusnya peluang individu untuk menjawab dengan
benar item-item pada tes. Untuk dapat lebih memahami logika di dalam IRT ini,
akan lebih mudah apabila peneliti memahami konsep dasar yang disebut item
38
characteristic curve (ICC). ICC merupakan rangkuman secara visual berbagai
konsep penting dalam IRT, seperti parameter tingkat kesukaran, daya pembeda,
dan peluang individu menjawab dengan benar karena menebak (guessing)
(Murphy & Davidshofer, 1994).
Memahami konsep IRT melalui ICC jauh akan lebih mudah dibandingkan
dengan melalui cara menghitung dan mengestimasi seluruh nilai parameter
tersebut. Karena untuk mendapatkan nilai seluruh parameter pada IRT
membutuhkan analisis matematika dengan besaran sampel besar dan algoritma
komputer modern. Namun dengan memahami ICC, pengembang tes dapat
memahami peluang individu untuk memilih jawaban yang benar pada sebuah item
merupakan sebuah fungsi dari seberapa tinggi kemampuan atau atribut yang
dimiliki individu tersebut (Murphy & Davidshofer, 1994). Berikut ini pada
gambar 2.2 adalah visualisasi dari ICC.
Gambar 2.2 Ilustrasi item characteristic curve
(Sumber: Embretson & Reise, 2000)
Gambar 2.3 berikut ini adalah contoh ICC item yang baik pada sebuah tes
kemampuan (ability). Secara teoritis grafik ICC di bawah ini menunjukan peluang
39
individu untuk menjawab dengan benar pada sebuah item ditentukan tinggi
rendahnya kemampuan individu tersebut. Semakin kemampuan meningkat,
peluang individu untuk menjawab dengan benar meningkat secara dramatis. Hasil
ICC seperti ini menunjukan bahwa item-item tersebut sangat baik dalam
mengukur atribut atau kemampuan yang dimaksud.
Gambar 2.3 Item characteristic curve pada item yang baik (using M-Plus)
Jika item pada sebuah tes tidak memiliki kemampuan membedakan yang baik
(antara individu yang mampu dengan yang tidak mampu), maka grafik ICC yang
akan terjadi adalah sebagai berikut. Gambar 2.4 berikut menunjukan sebuah item
yang memiliki kemampuan membedakan yang buruk. Perhatikan bahwa semakin
kemampuan individu meningkat, hanya sedikit sekali perubahan peningkatan
yang terjadi pada peluang untuk menjawab benar individu di item tersebut.
Individu yang memiliki kemampuan tinggi hanya memiliki peluang sedikit lebih
tinggi pada item ini, dibandingkan dengan individu yang kemampuannya lebih
rendah. Jika dibandingkan pada gambar 2.3 dimana item-itemnya memiliki
kemampuan membedakan yang sangat baik, jelas sekali bahwa item pada gambar
2.4 kurang memiliki kemampuan membedakan dan memberi informasi tentang
individu (Murphy & Davidshofer, 1994).
40
Gambar 2.4 Item characteristic curve pada item kurang baik
(Sumber: Murphy & Davidshofer, 1994)
Kemudian pada gambar 2.5 menunjukan contoh item dengan arah daya pembeda
yang negatif, artinya semakin tinggi kemampuan yang dimiliki individu, peluang
untuk menjawab dengan benar pada item tersebut justru semakin rendah.
Sebaliknya, semakin rendah kemampuan yang dimiliki oleh individu, peluang
untuk menjawab dengan benar pada item semakin tinggi. Jika menemukan item
dengan perilaku seperti ini, peneliti harus mengecek kembali kunci jawaban
karena dikhawatirkan kunci jawaban pada item tersebut salah. Namun jika kunci
jawaban sudah benar, maka artinya item tersebut tidak boleh dipakai (tidak valid).
Gambar 2.5 Item characteristic curve pada item negatif (using M-Plus)
41
Jika dalam tahap pengembangan tes ada item yang menunjukan perilaku seperti
gambar 2.4 dan gambar 2.5, maka item-item seperti itu harus di drop dan
dikeluarkan dari tes. Dan jika dalam tes yang sudah baku, ditemukan perilaku
item seperti gambar 2.4 dan gambar 2.5, maka item-item tersebut tidak boleh ikut
diskoring.
2.3.3 Structural equation modeling (confirmatory factor analysis)
Sejarah structural equation modeling (SEM) dapat ditelusuri sampai kepada ahli
biologi Sewall Wright yang juga merupakan pengembang path analysis. Lalu
kemudian Karl Joreskog yang mengembangkan metode statistika yang disebut
confirmatory factor analysis (CFA), sebuah penerapan estimasi maximum
likelihood pada analisis faktor yang didahului oleh model teori yang spesifik
terlebih dahulu. Puncak perkembangan SEM modern terjadi ketika Joreskog
mengembangkan uji chi-square, sebuah uji signifikan yang membandingkan pola
korelasi variabel yang didapatkan dari data observasi dengan pola korelasi dari
model yang ditetapkan sebelumnya. Pada akhirnya, ketika path analysis yang
dikembangkan Wright dan CFA yang dikembangkan Joreskog digabungkan, saat
itulah SEM lahir (Hancock & Mueller, 2006; Bollen, 1989).
Menurut Ullman dan Bentler (dalam Schinka & Velicer, 2003) SEM adalah
sekumpulan teknik statistika untuk menguji hubungan sebab akibat satu atau lebih
independent variable (IV), satu atau lebih dependent variable (DV), baik variabel
itu berbentuk kontinum atau kategorik. IV dan DV dalam SEM dapat berbentuk
variabel manifes atau variabel laten. SEM dapat pula merujuk pada istilah causal
modeling, causal analysis, simultaneous equation modeling, analysis of
42
covariance structures, path analysis, atau confirmatory factor analysis. Sebagai
informasi tambahan, dua nama terakhir sebenarnya merupakan kasus khusus
(special case) dari SEM.
SEM terbagi menjadi dua bagian, yaitu: model pengukuran (measurement
model) dan model struktural (structural model). Dalam hal ini CFA adalah model
yang termasuk dalam model pengukuran. Baik CFA dan SEM adalah sebuah
model regressi multivariat (multivariate regression model) yang menggambarkan
hubungan kausal antara seperangkat variabel manifes dan seperangkat variabel
laten yang kontinum. Variabel manifes sering disebut dengan indikator faktor
(factor indicator) dan variabel laten yang kontinum disebut juga dengan faktor
(Pedhazur, 1997; Muthen & Muthen, 2012).
CFA sering digunakan ketika variabel yang akan diteliti tidak bisa diukur
dengan baik secara langsung (indirectly observable). Misalnya, ketika ada
seperangkat item yang diteorikan peneliti untuk mengukur sebuah konstruk
(contohnya, inteligensi). Variabel laten atau faktor dapat pula ditafsirkan sebagai
konstruk, trait, atau “true” variables yang mendasari item-item yang diukur dan
menyebabkan saling berkorelasinya item-item tersebut (Hesketh, Skrondal &
Pickles, 2004).
Menurut Brown (2006) CFA telah menjadi prosedur statistika yang
memiliki berbagai macam kegunaan dalam berbagai konteks dan pertanyaan
penelitian. Berikut ini adalah kegunaan dari CFA:
1. Alat evaluasi psikometrika untuk pengembangan alat tes.
2. Alat validasi konstruk pada ilmu sosial.
43
3. Alat untuk melihat pengaruh langsung dan tidak langsung.
4. Alat untuk menguji measurement invariance, artinya apakah suatu
teori/model/alat ukur tetap berlaku sama baiknya ketika ditempuh oleh
kelompok berbeda (ras, jenis kelamin, agama, suku).
Bollen (1989) menyatakan untuk melakukan analisis menggunakan CFA
peneliti harus menetapkan model teori yang spesifik terlebih dahulu (model
specification). Seperti menetapkan banyaknya item, menetapkan jumlah faktor,
dan memasangkan setiap item dengan faktor yang diteorikan oleh peneliti. Setelah
model dibuat, model tersebut diuji dengan data yang didapat oleh peneliti dari
observasi lapangan. Gambar 2.6 berikut merupakan ilustrasi dari sebuah model
teori dimana terdapat 5 item yang diteorikan mengukur satu faktor (model
unidimensional).
Gambar 2.6 Model teori 1 faktor dengan 5 item.
Setelah peneliti memiliki model yang spesifik, maka model teori tersebut diuji
dengan data yang didapatkan dari observasi lapangan. Secara matematis dapat
44
diekspresikan dalam persamaan yang disajikan dapat melalui gambar 2.7 berikut
ini:
Gambar 2.7 Persamaan dasar confirmatory factor analysis
Keterangan:
∑ = Matriks korelasi yang dihasilkan dari teori/model
Λ = Matriks lambda (koefisien muatan faktor)
Φ = Matriks korelasi antar faktor
Λ’ = Matriks lambda yang di transpose
θ = Matriks kesalahan pengukuran/error/residual
Menurut Umar (2015) berdasarkan persamaan di atas dapat disimpulkan
hal-hal sebagai berikut ini, yaitu:
1. Dengan data yang dimiliki, peneliti mulai berteori dengan cara mengestimasi
matriks korelasi antar item jika memang model unidimensional/hanya
mengukur satu hal, dalam hal ini faktor. Matriks korelasi ini disebut sigma
(Σ), kemudian dibandingkan dengan matriks yang diperoleh dari data
observasi lapangan yang disebut matriks S. Jika teori yang dibuat peneliti
sebelumnya tersebut benar (unidimensional/hanya mengukur satu faktor)
maka tentu tidak ada perbedaan antara matriks Σ dengan matriks S, atau
secara matematis dapat juga diekspresikan dengan Σ - S = 0.
2. Pernyataan tersebut dijadikan hipotesis nihil yang kemudian diuji dengan chi-
square test. Jika nilai chi-square tidak signifikan (p > 0,05), maka hipotesis
∑= Λ.Φ.Λ’ + θ
45
nihil yang menyatakan: “tidak ada perbedaan antara matriks S dan Σ” tidak
ditolak. Artinya teori peneliti yang menyatakan bahwa seluruh item pada tes
semuanya mengukur konstruk yang sama, dapat diterima kebenarannya
(didukung data). Sebaliknya, jika nilai Chi-square yang diperoleh signifikan
(p < 0,05), maka hipotesis nihil Σ - S = 0 ditolak. Artinya teori peneliti
tersebut tidak didukung data (ditolak).
3. Jika teori diterima (model fit), langkah selanjutnya adalah menguji tentang
signifikan tidaknya masing-masing item dalam mengukur apa yang hendak
diukur. Item yang baik (valid) harus memiliki koefisien muatan faktor yang
bermuatan positif. Jika didapat koefisien muatan faktor bermuatan negatif,
item harus langsung di drop. Jika item memiliki koefisien muatan faktor
positif, item harus diuji signifikan atau tidaknya dengan menggunakan t-test.
Jika nilai t signifikan (t > 1,96), berarti item yang dianalisis signifikan dalam
mengukur apa yang hendak diukur (valid). Dengan cara ini, dapat diketahui
item mana yang valid dan tidak valid dalam konteks validitas konstruk.
Dengan kata lain, sebenarnya confirmatory factor analysis adalah pengujian
hipotesis nihil (H0): Σ - S = 0. Ini berarti, peneliti berkeinginan tidak ada
perbedaan antara matriks korelasi yang didapatkan oleh teori dengan matriks
korelasi yang didapatkan dari data empiris. Atau peneliti ingin tidak ada
perbedaan antara teori yang diajukan sebelumnya dengan data yang didapat
dari observasi lapangan (kenyataan).
Dalam situasi khusus tertentu, contohnya ketika indikator faktor (item) pada
CFA berbentuk kategorik, misalnya dikotomi (benar-salah), sebenarnya CFA
46
dapat juga merujuk pada item response theory. Hanya saja di dalam CFA peneliti
mampu menguji asumsi unidimensionalitas sebuah model secara empiris, berbeda
dalam IRT yang asumsi unidimensionalitasnya hanya sebatas asumsi (Muthen &
Muthen, 2012).
2.4 Konsep Measurement Invariance
Testing measurement invariance adalah prosedur ketika peneliti menguji asumsi
apakah suatu alat ukur dapat tetap valid dan mengukur konstruk yang sama di
kelompok yang berbeda. Lebih khusus lagi apakah indeks psikometri pada item
(lambda, intercept, dan residual) tetap memiliki nilai yang sama meski item
ditempuh oleh individu yang berasal dari kelompok yang berbeda. Kelompok
berbeda yang dimaksud dapat berarti kelompok budaya (etnis, suku, gender,
agama, tingkat pendidikan dan variabel demografi lainnya), waktu pengukuran
yang berbeda (Survey TIMS 2003 dan Survey TIMS 2007), metode administrasi
tes yang berbeda (tes berbasis administrasi komputer vs tes berbasis pensil dan
kertas). Dengan kata lain menguji measurement invariance dapat berfungsi pula
untuk mendeteksi bias pada suatu alat ukur (Bollen, 1989; Millsap, 2011; Kline,
2011).
Measurement invariance dapat dibagi menjadi beberapa tingkatan, yaitu
configural invariance, metric invariance (lambda invariance), scalar invariance
(intercept invariance) dan error variance invariance. Karena sangat banyak
istilah yang digunakan dalam konteks measurement invariance, maka peneliti
akan memaparkan tahapan dalam measurement invariance sebagai hirarki berikut
47
ini (Byrne, Shavelson & Muthen, 1989; Vandenberg & Lance, 2000; Brown,
2006):
1. Configural Invariance (Pattern Invariance)
Configural invariance sering pula disebut pattern invariance atau equal form.
Configural invariance adalah menguji apakah pola faktor dan item pada
model alat ukur di suatu kelompok dapat berpola sama di kelompok yang
berbeda. Configural invariance adalah standar minimum yang harus dicapai
sebuah alat ukur agar dapat ditafsirkan di kelompok yang berbeda.
2. Metric Invariance (Lambda Invariance)
Setelah alat ukur terbukti memenuhi configural invariance, tahap selanjutnya
adalah menguji tahap metric invariance atau sering disebut lambda
invariance atau equal factor loading. Metric invariance artinya menguji
apakah nilai koefisien lambda (daya pembeda) pada model pengukuran
memiliki nilai yang sama di kelompok berbeda. Jika suatu alat ukur
memenuhi tahapan metric invariance, maka alat ukur tersebut dapat
dikatakan weak measurement invariance.
3. Scalar Invariance (Intercepts Invariance)
Jika sebuah alat ukur sudah terbukti configural dan metric invariance, maka
tahap selanjutnya adalah menguji tahapan scalar invariance atau equal
intercepts. Scalar invariance artinya menguji apakah indeks intercepts pada
item tes (tingkat kesukaran/T) memiliki nilai yang sama di kelompok
berbeda. Jika suatu alat ukur dapat memenuhi sampai pada tahap scalar
48
invariance, maka alat ukur tersebut dapat dikatakan strong measurement
invariance.
4. Error Variance Invariance (Residual Invariance)
Tahapan terakhir dari measurement invariance adalah menguji error variance
invariance. Menguji error variance invariance artinya setelah seluruh
tahapan sebelumnya tercapai (configural invariance, metric invariance,
scalar invariance), peneliti menguji apakah indeks varian error (unique
variance) pada setiap item tes memiliki nilai yang sama di kelompok berbeda.
Perlu diketahui bahwa tahapan terakhir ini jarang sekali dapat terjadi dan sulit
sekali dicapai. Apabila ada suatu alat ukur dapat mencapai dan memenuhi
tahap error variance invariance, maka artinya alat ukur tersebut sangat baik
dan ideal. Istilah lain untuk menyebut situasi tersebut adalah strict
measurement invariance. Namun, sulitnya mendapatkan model yang strict
measurement invariance menjadikan tahapan ini menjadi opsional, dan tidak
menjadi prasyarat mutlak ke tahapan analisis selanjutnya.
Peneliti dapat pula menguji tahapan lebih lanjut dari sebuah alat ukur, yaitu
tahapan yang disebut structural invariance. Tahapan structural invariance ini
terbagi menjadi beberapa tipe, yaitu sebagai berikut:
1. Factor Variance and Covariance Invariance
Jika sebuah model pengukuran terdiri lebih dari satu faktor (motivasi internal
dan motivasi eksternal) dan model tersebut sudah terbukti memenuhi
configural dan metric invariance, maka tahap selanjutnya adalah menguji
factor variance and covariance invariance. Artinya apakah varian dan
49
kovarian dari faktor model memiliki nilai yang sama di kelompok yang
berbeda. Melakukan uji factor and covariance invariance ini menjadi relevan
dilakukan ketika terdapat lebih dari satu faktor di dalam model yang akan
diuji (multifactor).
2. Latent Mean Invariance
Jika sebuah model sudah terbukti teruji configural, metric, dan scalar
invariance, maka tahap selanjutnya adalah menguji latent mean invariance.
Artinya apakah nilai indeks mean faktor bernilai sama di kelompok berbeda.
Perlu diingat bahwa analisis terhadap latent mean akan bermakna hanya jika
alat ukur sudah terbukti memenuhi sampai tahapan strong measurement
invariance (equal intercept).
2.5 Gambaran Culture Fair Intelligence Test (CFIT)
Colom & Francisco (dalam Salkind, 2007) menyatakan Culture Fair Intelligence
Test adalah tes inteligensi yang dikembangkan oleh Raymond B. Cattell sebagai
tes non verbal untuk mengukur fluid intelligence (Gf). Tes CFIT terbagi menjadi
tiga jenis skala, yaitu: skala 1 untuk usia 4 sampai 8 tahun, skala 2 untuk usia 8
sampai 13 tahun, dan skala 3 untuk individu dengan kecerdasan di atas rata-rata.
Skala 2 dan 3 memiliki bentuk paralel (A dan B) yang dapat digunakan untuk
pengetesan kembali. Mayoritas dari tes-tes ini dapat diberikan secara kolektif pada
sekelompok individu, kecuali beberapa subtes dari skala 1. Tes CFIT memerlukan
instruksi verbal yang detil dan cepat dalam penyajiannya.
Skala 1 memiliki delapan subtes, namun hanya separuhnya yang benar-
benar adil secara budaya. Skala 1 tidak direkomendasikan karena beberapa subtes
50
harus diadministrasikan secara individual, dan membutuhkan instruksi yang rumit.
Skala 2 dan 3 tes CFIT mirip satu sama lain, yang membedakan hanya tingkat
kesukarannya. Skala ini terdiri dari 4 subtes, yaitu:
1. Series terdiri dari 13 item, peserta diminta melanjutkan gambar secara logis
dari 3 gambar yang telah disajikan sebelumnya.
2. Classification terdiri dari 14 item, peserta diminta mencocokan 2 gambar
mana dari setiap seri yang cocok dipasangkan bersama.
3. Matrice terdiri dari 13 item, peserta diminta menentukan mana dari 5
alternatif yang paling logis untuk melengkapi pola matriks yang disajikan.
4. Topology terdiri dari 10 item, peserta diminta mencari aturan umum dimana
titik ditempatkan dengan menyimpulkan aturan dan memilih gambar yang
berlaku.
Masing-masing skala, baik skala 2 dan 3 membutuhkan waktu sekitar 30
menit untuk diadministrasikan.
2.6 Kerangka Berpikir
Tes CFIT adalah alat tes psikologi yang berfokus pada pengukuran inteligensi
individu. Tes CFIT terdiri dari 4 subtes dalam tes inteligensi CFIT, yaitu: Subtes
series, subtes classification, subtes matrice, dan subtes topology. Setiap subtes
memberikan kontribusi pada skor inteligensi. Semakin tinggi nilai signifikansi
maka semakin tinggi kontribusi item pada subtes dan begitu pula subtes pada skor
inteligensi.
Fokus penelitian ini adalah melakukan uji measurement invariance pada
tes CFIT karena tes ini diasumsikan culture fair atau bebas bias budaya, jenis
51
Intelligence
Series
Item 1
Item 13
Classification
Item 1
Item 14
Matrice
Item 1
Item 13
Topology
Item 1
Item 10
kelamin dan antar bahasa. Dan dalam penelitian ini peneliti menggunakan
pendekatan multi-group confirmatory factor analysis karena selain belum pernah
ada penelitian di Indonesia yang menguji measurement invariance pada tes CFIT,
pendekatan multi-group adalah pendekatan yang paling generic dalam menguji
measurement invariance pada suatu alat tes psikologi.
Gambar 2.8 Kerangka berpikir
2.7 Hipotesis Penelitian
1. Seluruh item pada subtes series fit dengan data jika diuji tahapan configural
invariance, metric invariance, scalar invariance dan error variance
invariance di kelompok gender?
2. Seluruh item pada subtes classification fit dengan data jika diuji tahapan
configural invariance, metric invariance, scalar invariance dan error
variance invariance di kelompok gender?
52
3. Seluruh item pada subtes matrice fit dengan data jika diuji tahapan configural
invariance, metric invariance, scalar invariance dan error variance
invariance di kelompok gender?
4. Seluruh item pada subtes topology fit dengan data jika diuji tahapan
configural invariance, metric invariance, scalar invariance dan error
variance invariance di kelompok gender?
5. Seluruh subtes pada tes CFIT fit dengan data jika diuji tahapan configural
invariance, metric invariance, scalar invariance dan error variance
invariance di kelompok gender?
53
BAB 3
METODE PENELITIAN
3.1 Data Penelitian
Penelitian ini bertujuan menguji measurement invariance pada tes inteligensi
Culture Fair Intelligence Test (CFIT). Oleh karena itu peneliti akan kembali
menekankan bahwa penelitian ini dilakukan untuk menguji item-item pada subtes
tes CFIT, dan bukan tentang menguji peserta tes CFIT. Untuk menguji item-item
tersebut digunakan pendekatan uji validitas konstruk yang akan menentukan
apakah semua subtes tersebut benar-benar mengukur fluid intelligence di semua
kelompok.
Data mentah yang digunakan adalah data hasil tes inteligensi CFIT yang
disediakan oleh Pusat Layanan Psikologi (PLP) Universitas Islam Negeri Syarif
Hidayatullah Jakarta. Pelaksanaan tes dilakukan pada tahun 2010 dengan total
sebanyak 873 peserta. Dan yang menjadi sampel dalam penelitian ini adalah item-
item dari tes CFIT, sehingga menjadi kurang relevan jika membahas tentang
teknik pengambilan sampel.
Adapun karakteristik peserta tes CFIT pada data sekunder ini adalah sebagai
berikut:
a. Siswa Sekolah Menengah Pertama (SMP).
b. Rentang usia 13-16 tahun.
c. Peserta terdiri dari 371 laki-laki dan 501 perempuan.
54
Intelligence
Series Item 1
Item 13
Classification
Item 1
Item 14
Matrice Item 1
Item 13
Topology Item 1
Item 10
3.2 Instrumen Penelitian
Culture Fair Intelligence Test (CFIT) adalah tes inteligensi yang dikembangkan
oleh Raymond B. Cattell sebagai tes non verbal untuk mengukur fluid intelligence
(Gf) dan terdiri dari 4 subtes, yaitu:
1. Subtes series terdiri dari 13 item, peserta diminta melanjutkan gambar secara
logis dari 3 gambar yang telah disajikan sebelumnya.
2. Subtes clasification terdiri dari 14 item, peserta diminta mencocokan 2
gambar mana dari setiap seri yang cocok dipasangkan bersama.
3. Subtes matrice terdiri dari 13 item, peserta diminta menentukan mana dari 5
alternatif yang paling logis untuk melengkapi pola matriks yang disajikan.
4. Subtes topology terdiri dari 10 item, peserta diminta mencari aturan umum
dimana titik ditempatkan dengan menyimpulkan aturan dan memilih gambar
yang berlaku.
Untuk proses skoring pada tes CFIT, jawaban yang benar akan diberi skor 1
dan jawaban yang salah akan diberi skor 0. Diagram berikut adalah penjelasan
tentang jumlah item tes inteligensi CFIT.
Gambar 3.1 Jumlah subtes dan item tes CFIT
55
3.3 Metode Analisis Data
Pada bagian ini peneliti akan memaparkan landasan argumen pemilihan metode
analisis yang akan digunakan untuk menguji validitas measurement invariance
pada tes CFIT. Setidaknya terdapat dua pendekatan yang umum digunakan untuk
menguji validitas measurement invariance pada alat tes psikologis. Pertama,
melalui pendekatan item response theory satu parameter logistik atau Rasch
model). Kedua, melalui pendekatan structural equation modeling atau populer
disebut confirmatory factor analysis (Reise, Widaman & Pugh, 1993; Raju,
Laffitte, & Byrne, 2002; Meade & Lautenschlager, 2004).
Pada penelitian ini peneliti memutuskan untuk menggunakan pendekatan
structural equation modeling (CFA). Peneliti memilih pendekatan CFA karena
pendekatan tersebut memiliki beberapa keunggulan dibandingkan metode IRT,
diantaranya adalah sebagai berikut ini (Reise et al., 1993; Raju et al., 2002; Meade
& Lautenschlager, 2004):
1. Lebih mudah digunakan (user friendly) dan lebih mudah diimplementasikan.
2. Pendekatan CFA memiliki jumlah indeks model fit (test goodness of fit) yang
lebih bervariasi, sehingga peneliti memiliki banyak opsi untuk menentukan
kriteria model fit (chi-square, RMSEA, GFI, CFI, Gamma Hat, McD NCI,
NFI).
3. Untuk melakukan uji measurement invariance pada alat tes yang itemnya
berbentuk dikotomi (benar-salah), sebenarnya pendekatan IRT lebih tepat
untuk digunakan. Namun ketika item yang akan dianalisis jumlahnya sangat
banyak, pendekatan CFA juga dapat dipercaya dan layak digunakan.
56
4. Pendekatan CFA sangat baik mengatasi situasi ketika peneliti harus menguji
model lebih dari satu faktor (multi-factor model) di populasi berbeda (multi-
population) secara simultan. Berbeda dengan pendekatan IRT yang hanya
terbatas pada analisis model unidimensional saja (model satu faktor).
Hal di atas didukung oleh penelitian Nenty dan Dinero (1981) yang
melakukan uji measurement invariance pada tes CFIT menggunakan pendekatan
IRT (Rasch model). Hasil penelitian tersebut menyarankan agar penelitian
selanjutnya menggunakan pendekatan SEM (CFA) sebagai pembanding dari
pendekatan IRT. Berdasarkan argumen tersebut peneliti memilih pendekatan SEM
(CFA) sebagai metode analisis.
Selanjutnya dilanjutkan dengan pemaparan definisi dari CFA yang
didahului dengan penjelasan tentang factor analysis (analisis faktor) terlebih
dahulu. Analisis faktor adalah metode statistika yang sering digunakan untuk
menentukan banyaknya dimensi yang mendasari berkorelasinya seperangkat
observed variable (item) dan untuk mengidentifikasi pola hubungan seperangkat
variabel yang sesuai untuk setiap dimensi. Dimensi yang mendasari merujuk pada
istilah yang dikenal dengan continuous latent variables atau sering juga disebut
factor (Muthen & Muthen, 2012).
Menurut Kaplan (2004) terdapat dua jenis analisis faktor, yaitu: Pertama,
unrestricted model yang sering disebut pula dengan exploratory factor analysis.
Kemudian yang kedua, restricted model yang sering pula disebut dengan
confirmatory factor analysis. EFA pertama kali diperkenalkan oleh Charles
Spearman pada tahun 1904. Dalam EFA, peneliti tidak memiliki model teori
57
(hipotesis) atau ekspektasi tertentu tentang jumlah atau sifat faktor yang
mendasari konstruk. Sebaliknya peneliti ingin membangun sebuah model atau
teori dari data yang ada.
Metode analisis faktor yang lebih modern disebut confirmatory factor
analysis (CFA). Metode ini dikembangkan oleh Joreskog pada tahun 1970
(Hancock & Mueller, 2006). Menurut Bollen (1989) tidak seperti EFA yang
berfungsi untuk membangun sebuah teori, sebaliknya CFA bertujuan untuk
menguji apakah dimensi dan pola dari muatan faktor yang sudah diteorikan di
awal fit dengan data empiris yang dimiliki. Sehingga CFA menjadi sangat relevan
digunakan untuk menguji sebuah model teori, dalam hal ini teori pengukuran.
Untuk itu di dalam CFA, peneliti harus memiliki gambaran yang spesifik
tentang model teori yang akan diuji (model Specification) yaitu: (a) jumlah faktor,
(b) variabel yang mencerminkan suatu faktor, dan (c) faktor-faktor yang saling
berkorelasi. Kegiatan awal dari CFA diawali dengan merumuskan model teori
tentang pengukuran variabel laten, kemudian model itu diuji kebenarannya secara
statistik menggunakan data (Bollen, 1989).
CFA tepat untuk menguji teori karena (a) langsung menguji teori dan (b)
tingkat model fit dapat diukur dengan berbagai cara. Menurut Umar (2015) tujuan
dari CFA adalah sebagai berikut:
1. Untuk menguji hipotesis tentang satu atau lebih faktor (contohnya inteligensi)
serta saling keterkaitan antara faktor tersebut sesuai model teori yang telah
ditetapkan.
58
2. Untuk menguji validitas dari setiap indikator yang digunakan untuk
mengukur faktor/kostruk tersebut (item atau subtes).
CFA sering digunakan untuk memverifikasi jumlah dimensi yang mendasari
instrumen dengan pola hubungan item dengan faktor (factor loading). Hasil
analisis CFA dapat menghasilkan bukti kuat dari validitas konvergen dan
diskriminan dari sebuah konstruk teoritis. Adapun logika dari CFA adalah sebagai
berikut (Umar, 2015):
1. Bahwa ada sebuah konstruk, variabel laten atau trait berupa kemampuan yang
dapat didefinisikan secara operasional sehingga dapat disusun pertanyaan
atau pernyataan untuk mengukurnya. Kemampuan ini disebut faktor,
sedangkan pengukuran terhadap faktor ini dilakukan melalui analisis terhadap
respon atas item-itemnya.
2. Diteorikan setiap item hanya mengukur satu faktor saja, begitupun juga tiap
subtes hanya mengukur satu faktor juga. Artinya, baik item maupun subtes
bersifat unidimensional.
3. Dengan data yang tersedia, dapat diestimasi matriks korelasi antar item yang
seharusnya diperoleh jika memang unidimensional. Matriks korelasi ini
disebut sigma (Σ), kemudian dibandingkan dengan matriks dari data empiris,
yang disebut matriks S. Jika teori tersebut benar (unidimensional) maka
tentunya tidak ada perbedaan antara matriks korelasi Σ dan matriks korelasi S,
atau secara matematis dapat juga dinyatakan melalui persamaan Σ - S = 0.
4. Pernyataan tersebut dijadikan hipotesis nihil yang kemudian diuji dengan chi-
square tes. Jika nilai chi-square tidak signifikan (p > 0,05), maka hipotesis
59
nihil yang menyatakan: “tidak ada perbedaan antara matriks korelasi S
dengan matriks korelasi Σ” tidak ditolak. Dengan kata lain, teori yang
menyatakan bahwa seluruh item pada subtes semuanya hanya mengukur satu
hal (faktor), dapat diterima kebenarannya (didukung oleh data). Sebaliknya,
jika nilai chi-square yang diperoleh signifikan, maka hipotesis nihil Σ - S = 0
ditolak. Artinya, teori tersebut tidak didukung data (ditolak).
5. Jika teori diterima (model fit), langkah selanjutnya adalah menguji hipotesis
tentang signifikan tidaknya masing-masing item dalam mengukur apa yang
hendak diukur. Uji hipotesis ini dilakukan dengan t-test. Jika nilai t
signifikan, berarti item yang dianalisis signifikan dalam mengukur apa yang
hendak diukur. Dengan cara ini dapat diketahui item mana yang valid dan
tidak valid dalam konteks validitas konstruk. Dengan kata lain, confirmatory
factor analysis dalam hal ini adalah pengujian hipotesis nihil (H0): Σ - S = 0.
Ini berarti, tidak ada perbedaan antara matriks korelasi yang didapatkan dari
teori dengan matriks korelasi yang didapatkan dari observasi lapangan (teori
sama dengan kenyataan).
6. Persamaan matematis pada butir di atas adalah persamaan regresi untuk setiap
butir soal dalam hubungannya dengan faktor yang diukur.
X1=λ1.F+δ1
Keterangan:
X1 = Skor yang diperoleh pada item nomer 1
F = Faktor
60
λ1 = Koefisien Regresi untuk item nomer 1 dalam mengukur F, disebut juga
koefisien muatan faktor
δ1 = Segala hal yang mempengaruhi varians X1 (selain F), disebut juga
kesalahan pengukuran
Menurut Umar (2015) langkah-langkah yang harus dilakukan agar
mendapat hasil analisis model yang baik adalah sebagai berikut:
1. Uji validitas model fit pada CFA dapat dilakukan dengan menggunakan chi-
square test. Jika nilai chi-square yang dihasilkan tidak signifikan (p > 0.05),
artinya seluruh item yang diteorikan di awal memang hanya mengukur satu
faktor saja.
2. Jika nilai chi-square signifikan (p < 0.05), maka harus dilakukan modifikasi
terhadap model teori dengan cara membebaskan parameter korelasi kesalahan
pengukuran. Artinya, suatu item selain mengukur konstruk yang diniatkan
diukur, item tersebut juga mengukur hal lain (multidimensional). Setelah
membebaskan beberapa kesalahan pengukuran untuk saling berkorelasi dan
akhirnya didapatkan model fit, maka model teori ini ini yang akan digunakan
pada analisis selanjutnya.
3. Setelah didapat model fit, maka selanjutnya adalah melakukan analisis pada
tingkat item dengan melihat apakah muatan faktor item tersebut signifikan
dan memiliki muatan koefisien positif. Taraf signifikansi item ini dapat
dilihat lewat indeks t-value koefisien muatan faktor item. Jika t > 1.96 maka
item tersebut signifikan dan valid. Jika muatan faktor bermuatan positif,
61
tetapi t-value yang didapatkan t < 1.96, maka item tersebut juga harus di drop
atau tidak boleh dipakai (tidak valid).
4. Jika ditemukan item yang bermuatan faktor negatif, dalam hal ini pernyataan
negatif. Maka ketika dilakukan skoring pada item, arah skoringnya harus
diubah menjadi positif. Jika setelah diubah arah skoringnya masih terdapat
item bermuatan faktor negatif, maka item tersebut harus di drop.
5. Jika kesalahan pengukuran pada item terlalu banyak berkorelasi dengan
kesalahan pengukuran item lain, maka item ini pun harus di drop karena
bersifat multidimensional.
Menurut Brown (2006) untuk menguji measurement invariance dari sebuah
alat tes peneliti harus melakukan konstrain pada parameter-parameter yang ada
pada model pengukuran (Σ), yaitu parameter Λ (koefisien factor
loading/lambda), parameter T (indicator intercept/threshold), dan parameter Θ
(error variance/residual). Logika yang disajikan berikut ini menggunakan
kelompok gender (laki-laki vs perempuan) sebagai ilustrasi. Penjelasan lebih
lanjut tentang logika measurement invariance adalah sebagai berikut:
1. Configural Invariance (Pattern Invariance / Equal Form)
Configural invariance sering pula disebut pattern invariance atau equal form.
Configural invariance artinya peneliti berteori bahwa pola faktor dan item (Σ)
pada model pengukuran di suatu kelompok memiliki pola model yang sama
di kelompok lain. Sedangkan parameter lainnya seperti Λ, T, dan Θ, menjadi
parameter yang nilainya diperbolehkan untuk bervariasi (free parameter). Hal
ini dapat dilihat melalui ilustrasi berikut ini.
62
Σlaki-laki = Σperempuan......... Σk
(k = Kelompok peserta)
Persamaan di atas dijadikan hipotesis nihil yang berbunyi, ”H0: tidak ada
perbedaan model teori yang ada di kelompok laki-laki dengan model teori
yang ada di kelompok perempuan”. Kemudian hipotesis nihil tersebut diuji
dengan data observasi lapangan. Jika nilai chi-square yang didapatkan tidak
signifikan (p > 0,05), artinya hipotesis nihil yang diuji tadi “tidak ditolak”
(didukung data). Dengan kata lain model teori yang diuji memang memiliki
pola hubungan faktor dan item yang sama di kedua kelompok. Tetapi jika
nilai chi-square yang didapatkan signifikan (p < 0,05), artinya hipotesis nihil
yang diuji tadi “ditolak” (tidak didukung data). Dengan kata lain, pola faktor
dengan item di kelompok laki-laki berbeda dengan pola faktor yang ada di
kelompok perempuan.
2. Metric Invariance (Lambda Invariance / Equal Factor Loading)
Tahap selanjutnya adalah menguji tahap metric invariance yang sering
disebut lambda invariance atau equal factor loading. Metric invariance
artinya peneliti berteori atau mengkonstrain nilai parameter Λ (lambda/daya
pembeda) seluruh item tes memiliki nilai yang sama (equal) di kelompok
berbeda. Hal ini dapat dilihat melalui ilustrasi berikut ini.
Λ1.laki-laki = Λ1.perempuan......... Λ1.k
(1 = Nomor item, k = Kelompok peserta)
Persamaan di atas dijadikan hipotesis nihil yang berbunyi, ”H0: tidak ada
perbedaan antara nilai koefisien lambda pada item nomor 1 di kelompok laki-
63
laki dengan nilai koefisien lambda pada item nomor 1 di kelompok
perempuan”. Kemudian hipotesis nihil tersebut diuji dengan data observasi
lapangan. Jika nilai chi-square yang didapatkan tidak signifikan (p > 0,05),
artinya hipotesis nihil yang diuji tadi “tidak ditolak”. Dengan kata lain nilai
koefisien lambda pada item nomor 1 di kelompok laki-laki memiliki nilai
yang sama dengan koefisien lambda pada item nomor 1 di kelompok
perempuan (didukung data). Tetapi jika nilai chi-square yang didapatkan
signifikan (p < 0,05), artinya hipotesis nihil yang diuji tadi “ditolak”. Dengan
kata lain, nilai koefisien lambda pada item nomor 1 di kelompok laki-laki
memang memiliki nilai yang berbeda dengan koefisien lambda pada item
nomor 1 di kelompok perempuan (tidak didukung data).
3. Scalar Invariance (Intercepts Invariance / Equal Intercept)
Tahap selanjutnya adalah menguji scalar invariance atau equal intercepts.
Scalar invariance artinya peneliti berteori nilai parameter T (indikator
intercepts) seluruh item tes di satu kelompok memiliki nilai yang sama
(equal) di kelompok berbeda. Hal ini dapat dilihat melalui ilustrasi berikut
ini.
T1.laki-laki = T1.perempuan........T1.k
(1 = Nomor item, k = Kelompok peserta)
Persamaan di atas dijadikan hipotesis nihil yang berbunyi, ”H0: tidak ada
perbedaan antara nilai indikator intercepts pada item nomor 1 di kelompok
laki-laki dengan nilai indikator intercepts pada item nomor 1 di kelompok
perempuan”. Kemudian hipotesis nihil tersebut diuji dengan data observasi
64
lapangan. Jika nilai chi-square yang didapatkan tidak signifikan (p > 0,05),
artinya hipotesis nihil yang diuji tadi “tidak ditolak”. Dengan kata lain nilai
indikator intercepts pada item nomor 1 di kelompok laki-laki memang
memiliki nilai yang sama dengan indikator intercepts pada item nomor 1 di
kelompok perempuan (didukung data). Tetapi jika nilai chi-square yang
didapatkan signifikan (p < 0,05), artinya hipotesis nihil yang diuji tadi
“ditolak”. Dengan kata lain, nilai indikator intercepts pada item nomor 1 di
kelompok laki-laki memang memiliki nilai yang berbeda dengan indikator
intercepts pada item nomor 1 di kelompok perempuan (tidak didukung data).
4. Error Variance Invariance (Equal Residual)
Tahapan terakhir dari measurement invariance suatu tes adalah menguji error
variance invariance. Menguji error variance invariance artinya peneliti
berteori apakah nilai parameter Θ (varian error/unique variance) pada setiap
item tes di satu kelompok memiliki nilai yang sama (equal) di kelompok
berbeda. Pada kenyataannya tahap terakhir ini sulit untuk dicapai sehingga
seringkali menjadi bersifat opsional. Namun, pada penelitian ini peneliti akan
tetap menguji model equal residual ini. Hal ini dapat dilihat melalui ilustrasi
berikut ini.
Θ1.laki-laki = Θ1.perempuan........... Θ1.k
(1 = Nomor item, k = Kelompok peserta)
Persamaan di atas dijadikan hipotesis nihil yang berbunyi, ”H0: tidak ada
perbedaan antara nilai residual pada item nomor 1 di kelompok laki-laki
dengan nilai residual pada item nomor 1 di kelompok perempuan”.
65
Kemudian hipotesis nihil tersebut diuji dengan data observasi lapangan. Jika
nilai chi-square yang didapatkan tidak signifikan (p > 0,05), artinya hipotesis
nihil yang diuji tadi “tidak ditolak”. Dengan kata lain nilai residual pada item
nomor 1 di kelompok laki-laki memang memiliki nilai yang sama dengan
residual pada item nomor 1 di kelompok perempuan (didukung data). Tetapi
jika nilai chi-square yang didapatkan signifikan (p < 0,05), artinya hipotesis
nihil yang diuji tadi “ditolak”. Dengan kata lain, nilai residual pada item
nomor 1 di kelompok laki-laki memang memiliki nilai yang berbeda dengan
nilai residual pada item nomor 1 di kelompok perempuan (tidak didukung
data).
3.4 Prosedur Penelitian
Penelitian dimulai dengan mengumpulkan data yang diperlukan untuk
kepentingan analisis. Setelah didapatkan 873 orang hasil tes CFIT, maka tahap
selanjutnya adalah mengelompokan 873 orang ini berdasarkan jenis kelaminnya.
Kelompok gender terdiri dari 372 orang laki-laki dan 501 perempuan.
Setelah pembagian kelompok selesai dilakukan, tahap selanjutnya adalah
menentukan metode analisis yang akan digunakan. Dalam hal ini peneliti
memutuskan menggunakan pendekatan structural equation modeling atau lebih
spesifik menggunakan multiple-group confirmatory factor analysis. Multiple-
group confirmatory factor analysis (MGCFA) adalah suatu prosedur dimana
sebuah model teori diuji fit atau tidaknya setidaknya dari dua sampel berbeda
secara simultan, misalnya kelompok laki-laki dan kelompok perempuan (Kline,
66
2011). Untuk selanjutnya peneliti akan terus menggunakan istilah MGCFA pada
penelitian ini.
Selanjutnya, tahap pertama peneliti melakukan analisis faktor konfirmatorik
pada seluruh subtes untuk mengecek dan menyeleksi apakah ada item yang
bermuatan koefisien faktor negatif serta tidak signifikan. Setelah didapatkan
hanya item yang bermuatan faktor positif dan signifikan, kemudian peneliti
melakukan uji measurement invariance pada setiap subtes tes CFIT, yaitu series,
classification, matrice, dan topology. Prosedur pengujian setiap adalah sebagai
berikut ini:
1. Peneliti melakukan analisis MGCFA pada subtes pertama yaitu subtes series.
Subtes series diuji apakah fit dengan data dan dapat memenuhi empat
tingkatan dari measurement invariance seperti configural invariance, metric
invariance, scalar invariance, dan error variance invariance.
2. Peneliti melakukan analisis MGCFA pada subtes kedua yaitu subtes
classification. Subtes classification diuji apakah fit dengan data dan dapat
memenuhi empat tingkatan dari measurement invariance seperti configural
invariance, metric invariance, scalar invariance, dan error variance
invariance.
3. Peneliti melakukan analisis MGCFA pada subtes ketiga yaitu subtes matrice.
Subtes matrice diuji apakah fit dengan data dan memenuhi empat tingkatan
dari measurement invariance seperti configural invariance, metric
invariance, scalar invariance, dan error variance invariance.
67
4. Peneliti melakukan analisis MGCFA pada subtes keempat yaitu subtes
topology. Subtes topology diuji apakah fit dengan data dan memenuhi empat
tingkatan dari measurement invariance seperti configural invariance, metric
invariance, scalar invariance, dan error variance invariance.
Untuk lebih memahami prosedur pada penelitian pada model 1st order ini
dapat dilihat melalui tabel yang disajikan seperti berikut ini.
Tabel 3.1
Tabel analisis MGCFA 1st order dan 2nd model order kelompok gender
Model Configural Metric Scalar Error
1st order series V V V V
1st order class V V V V
1st order matrice V V V V
1st order topology V V V V
2nd oder fluid intell V V V V
Tabel 3.1 di atas menunjukan bahwa pada data tes CFIT di kelompok gender
terdiri dari empat subtes yang setiap subtes akan diuji apakah memenuhi empat
tahap measurement invariance (fit dengan data). Selanjutnya, setelah analisis
MGCFA pada tingkat first order dilakukan, peneliti akan menguji measurement
invariance pada tingkat second order model, artinya, peneliti menguji model
apakah keempat subtes pada tes CFIT (series, classification, matrice, dan
topology) berkontribusi secara signifikan dalam mengukur fluid intelligence (fit
dengan data). Model akan diuji apakah memenuhi empat tingkatan dari
measurement invariance, yaitu configural invariance, metric invariance, scalar
invariance, dan error variance invariance.
Sebagai informasi tambahan perlu diketahui bahwa software statistika
MPLUS 7.0 memiliki default melakukan MGCFA langsung pada tahap scalar
68
invariance. Artinya, MPLUS mulai melakukan analisis pada model yang paling
ideal kemudian membebaskan konstrain satu per satu jika model tidak fit. Namun,
jika model fit, artinya tahapan configural dan metric invariance telah terpenuhi.
Sehingga dapat dilakukan analisis yang lebih tinggi tingkatannya, contohnya error
variance invariance. Metode ini seringkali disebut dengan metode step-down
(Brown, 2006).
69
BAB 4
HASIL PENELITIAN
Pada bagian ini akan dilakukan uji validitas konstruk menggunakan multiple-
group confirmatory factor analysis untuk mengetahui. Uji validitas ini terdiri dari
dua tahap, yaitu:
1. Menguji hipotesis tentang model teori yang mengatakan bahwa item pada
masing-masing subtes hanya mengukur satu faktor di dua kelompok berbeda.
Pengujian ini dilakukan dengan melihat apakah ada perbedaan yang signifikan
antara matriks korelasi yang didapatkan dari teori dengan matriks korelasi
yang didapatkan dari data.
2. Menguji hipotesis apakah setiap item memberikan informasi yang sama di
kelompok yang berbeda. Dalam hal ini apakah indeks koefisien muatan faktor,
thresholds dan error variance pada setiap item memiliki nilai yang sama di
dua kelompok berbeda.
4.1 Multiple-group Confirmatory Factor Analysis Tingkat Subtes
4.1.1 MGCFA subtes series pada kelompok gender
Model teori pada subtes ini terdiri dari 13 item dengan satu faktor yang diteorikan
mengukur subtes series. Jumlah total responden adalah sebanyak 873 orang yang
terdiri 501 perempuan dan 372 laki-laki. Pertama peneliti melakukan analisis
faktor tingkat subtes yang melibatkan keseluruhan responden, yaitu sebanyak 873
responden. Tujuan dari analisis awal ini untuk mengecek apakah ada item yang
70
memiliki koefisien muatan faktor negatif dan item yang tidak signifikan. Setelah
peneliti melakukan analisis didapatkan model dengan nilai chi-square = 142.730,
df = 65, p-value = 0.0000, RMSEA = 0.037, 90 % C.I=0.029 – 0.045.
Jika dilihat melalui nilai chi-square model ini belum fit karena nilai chi-
square masih signifikan (p<0.05). Namun, karena indeks chi-square sangat
sensitif terhadap ukuran sampel maka peneliti mempertimbangkan indeks model
fit yang lain seperti RMSEA dan 90 % C.I. Dapat dilihat jika berdasarkan nilai
indeks RMSEA model sudah fit (RMSEA < 0.05). Kemudian nilai 90 % confident
interval dari RMSEA yang didapatkan berkisar antara 0.029 – 0.045. Artinya, jika
penelitian diulang ribuan kali, nilai indeks RMSEA terkecil yang akan didapatkan
sebesar 0.029 dan paling besar sebesar 0.045. Berdasarkan hal tersebut model
sudah dapat dikatakan fit.
Setelah model fit, peneliti mengecek item pada subtes series dan
menemukan item 13 memiliki koefisien muatan faktor negatif (-0.045). Tes CFIT
merupakan tes kemampuan, sehingga tidak diperbolehkan ada item yang memiliki
koefisien muatan faktor negatif. Jika ada item memiliki koefisien muatan faktor
negatif artinya semakin tinggi kemampuan individu, peluang individu tersebut
untuk menjawab dengan benar pada item semakin rendah. Maka item tersebut
harus didrop dari model dan tidak boleh ikut dianalisis.
Kemudian, peneliti kembali melakukan analisis faktor konfirmatorik
setelah mengeluarkan item nomer 13 dari model. Model terdiri dari 12 item
dengan satu faktor yang kemudian didapatkan nilai chi-square = 131.265, df = 54,
p-value = 0.0000, RMSEA = 0.040, 90 % C.I = 0.032 – 0.049. Hasil tersebut
71
menunjukan bahwa model sudah fit karena nilai RMSEA sudah signifikan
(RMSEA < 0.05). Kemudian nilai 90 % confident interval dari RMSEA yang
didapatkan berkisar antara 0.032 – 0.049. Artinya, jika penelitian diulang ribuan
kali, nilai indeks RMSEA terkecil yang akan didapatkan sebesar 0.032 dan paling
besar sebesar 0.049. Berdasarkan hal tersebut model sudah dapat dikatakan fit.
Ketika model fit telah tercapai, peneliti melakukan analisis pada tingkat
item untuk mengecek apakah masih ada item dengan koefisien muatan faktor
negatif atau item yang tidak signifikan. Ternyata, seluruh item yang berjumlah 12
item memiliki koefisien muatan faktor positif dan signifikan. Model dengan 12
item dengan satu faktor dapat diterima kebenarannya, meskipun nilai koefisien
muatan faktor dari item masih bervariasi. Tes seperti ini dapat disebut sebagai
congeneric test. Artinya, ketika sebuah tes memiliki item-item yang valid namun
nilai koefisien muatan faktor dari masing-masing item masih bervariasi.
Kemudian, peneliti meningkatkan konstrain teori dengan menjadikan
seluruh nilai koefisien muatan faktor pada item setara (equal lambda). Dari hasil
analisis didapatkan nilai chi-square = 233.607, p-value = 0.0000, df = 66,
RMSEA = 0.055, 90 % C.I = 0.047 – 0.062. Dapat dilihat bahwa nilai RMSEA
signifikan (RMSEA < 0.05). Hal ini didukung dengan nilai confident interval
RMSEA yang berkisar antara 0.047 – 0.062. Artinya, jika penelitian diulang
ribuan kali, nilai indeks RMSEA terkecil yang akan didapatkan sebesar 0.047 dan
paling besar sebesar 0.062. Berdasarkan hal tersebut model sudah dapat dikatakan
fit. Gambar 4.1 berikut merupakan path diagram dari subtes series.
72
Gambar 4.1 Path diagram subtes series (RMSEA=0.055, 90 % C.I=0.047 -
0.062)
Tabel 4.1
Tabel koefisien muatan faktor subtes series
Item Standardized Coefficient Standard Error P-value Keterangan
1 0.490 0.020 0.000 V
2 0.490 0.020 0.000 V
3 0.490 0.020 0.000 V
4 0.490 0.020 0.000 V
5 0.490 0.020 0.000 V
6 0.490 0.020 0.000 V
7 0.490 0.020 0.000 V
8 0.490 0.020 0.000 V
9 0.490 0.020 0.000 V
10 0.490 0.020 0.000 V
11 0.490 0.020 0.000 V
12 0.490 0.020 0.000 V
Keterangan: V=Valid, X=Tidak Valid
Setelah peneliti mendapatkan 12 item valid, kemudian peneliti melakukan analisis
faktor konfirmatorik pada masing-masing kelompok gender secara terpisah, yaitu
kelompok perempuan dan kelompok laki-laki. Hal ini dilakukan untuk mengecek
73
apakah ada perbedaan struktur teori yang ada pada kelompok perempuan dan
kelompok laki-laki. Dengan kata lain, peneliti ingin mengecek apakah ada item
yang hanya valid di kelompok perempuan atau di kelompok laki-laki.
Pada kelompok perempuan peneliti melakukan analisis faktor
konfirmatorik 12 item dengan satu faktor dengan hasil nilai chi-square = 67.442,
p-value = 0.1034, df = 54, RMSEA = 0.022, 90% C.I = 0.000 – 0.038. Dapat
dilihat model sudah fit karena nilai chi-square sudah tidak signifikan (p > 0.05)
dan didukung dengan nilai RMSEA yang sudah kurang dari 0.05 (RMSEA <
0.05). Kemudian nilai 90% C.I yang berkisar antara 0.000 – 0.038 yang artinya,
jika penelitian diulang ribuan kali, nilai indeks RMSEA terkecil yang akan
didapatkan sebesar 0.000 dan paling besar sebesar 0.038.
Setelah model fit, peneliti mengecek item pada subtes series di kelompok
perempuan dan menemukan item 10 memiliki koefisien muatan faktor yang tidak
signifikan dengan nilai t-value hanya sebesar 1.125 (t < 1.96). Item yang tidak
signifikan tersebut item tersebut harus didrop dari model dan tidak boleh ikut
dianalisis. Kemudian peneliti melakukan analisis faktor konfirmatorik kembali
setelah mendrop item 10 untuk mengecek masih adakah item yang harus di drop.
Model 11 item dengan satu faktor pada subtes series di kelompok
perempuan menunjukan hasil chi-square = 54.434, p-value = 0.1347, df = 44,
RMSEA = 0.022, 90% C.I = 0.000 – 0.039. Dapat dilihat model sudah fit karena
nilai chi-square sudah tidak signifikan (p > 0.05) dan didukung dengan nilai
RMSEA yang sudah kurang dari 0.05 (RMSEA < 0.05). Kemudian nilai 90% C.I
yang berkisar antara 0.000 – 0.039 yang artinya, jika penelitian diulang ribuan
74
kali, nilai indeks RMSEA terkecil yang akan didapatkan sebesar 0.000 dan paling
besar sebesar 0.039. Setelah model fit, peneliti melakukan analisis pada tingkat
item untuk mengecek apakah masih ada item yang memiliki koefisien muatan
faktor negatif atau item yang tidak signifikan. Dan ternyata seluruh item subtes
series di kelompok perempuan sudah valid.
Setelah didapatkan 11 item valid, peneliti meningkatkan konstrain teori
dengan menjadikan seluruh nilai koefisien muatan faktor pada item setara (equal
lambda). Dari hasil analisis didapatkan nilai chi-square = 100.999, p-value =
0.0001, df = 54, RMSEA = 0.042, 90 % C.I = 0.029 – 0.054. Dapat dilihat bahwa
nilai RMSEA sudah lebih kecil dari 0.05 (RMSEA < 0.05). Hal ini didukung
dengan nilai confident interval RMSEA yang berkisar antara 0.029 – 0.054.
Artinya, jika penelitian diulang ribuan kali, nilai indeks RMSEA terkecil yang
akan didapatkan sebesar 0.029 dan paling besar sebesar 0.054. Berdasarkan hal
tersebut model sudah dapat dikatakan fit. Gambar 4.2 berikut merupakan path
diagram dari subtes series di kelompok perempuan yang terbukti equal lambda.
Gambar 4.2 Path diagram subtes series di kelompok perempuan equal lambda
(RMSEA = 0.042 dan 90% C.I = 0.029 – 0.059)
75
Tabel 4.2
Tabel koefisien muatan faktor subtes series di kelompok perempuan equal
lambda
Item Standardized Coefficient Standard Error P-value Keterangan
1 0.526 0.027 0.000 V
2 0.526 0.027 0.000 V
3 0.526 0.027 0.000 V
4 0.526 0.027 0.000 V
5 0.526 0.027 0.000 V
6 0.526 0.027 0.000 V
7 0.526 0.027 0.000 V
8 0.526 0.027 0.000 V
9 0.526 0.027 0.000 V
11 0.526 0.027 0.000 V
12 0.526 0.027 0.000 V
Keterangan: V=Valid, X=Tidak Valid
Setelah analisis dilakukan pada kelompok perempuan, peneliti kembali
melakukan analisis faktor konfirmatorik pada kelompok laki-laki yang berjumlah
372 responden. Hasil analisis menunjukan nilai chi-square = 90.958, p-value =
0.0012, df = 54, RMSEA = 0.043, 90% C.I = 0.027 – 0.058. . Dapat dilihat bahwa
nilai RMSEA sudah lebih kecil dari 0.05 (RMSEA < 0.05). Hal ini didukung
dengan nilai confident interval RMSEA yang berkisar antara 0.027 – 0.058.
Artinya, jika penelitian diulang ribuan kali, nilai indeks RMSEA terkecil yang
akan didapatkan sebesar 0.027 dan paling besar sebesar 0.058. Berdasarkan hal
tersebut model sudah dapat dikatakan fit.
Setelah model fit, peneliti mengecek item pada subtes series di kelompok
laki-laki dan menemukan item 12 memiliki koefisien muatan faktor yang tidak
signifikan dengan nilai t-value hanya sebesar 0.151 (t < 1.96). Item yang tidak
signifikan tersebut item tersebut harus didrop dari model dan tidak boleh ikut
76
dianalisis. Kemudian peneliti melakukan analisis faktor konfirmatorik kembali
setelah mendrop item 12 untuk mengecek masih adakah item yang harus di drop.
Model 11 item dengan satu faktor pada subtes series di kelompok laki-laki
menunjukan hasil chi-square = 72.768, p-value = 0.0041, df = 44, RMSEA =
0.042, 90% C.I = 0.024 – 0.059. Dapat dilihat model sudah fit karena nilai
RMSEA yang sudah kurang dari 0.05 (RMSEA < 0.05). Kemudian nilai 90% C.I
yang berkisar antara 0.024 – 0.059 yang artinya, jika penelitian diulang ribuan
kali, nilai indeks RMSEA terkecil yang akan didapatkan sebesar 0.024 dan paling
besar sebesar 0.059. Setelah model fit, peneliti melakukan analisis pada tingkat
item untuk mengecek apakah masih ada item yang memiliki koefisien muatan
faktor negatif atau item yang tidak signifikan. Dan ternyata seluruh item subtes
series di kelompok laki-laki sudah valid.
Setelah didapatkan 11 item valid, peneliti meningkatkan konstrain teori
dengan menjadikan seluruh nilai koefisien muatan faktor pada item setara (equal
lambda). Dari hasil analisis didapatkan nilai chi-square = 112.703, p-value =
0.0000, df = 54, RMSEA = 0.054, 90 % C.I = 0.040 – 0.068. Dapat dilihat bahwa
nilai RMSEA sudah hampir mendekati signifikan (RMSEA < 0.05). Kemudian
hal ini didukung dengan nilai confident interval RMSEA yang berkisar antara
0.040 – 0.068. Artinya, jika penelitian diulang ribuan kali, nilai indeks RMSEA
terkecil yang akan didapatkan sebesar 0.040 dan paling besar sebesar 0.068.
Berdasarkan hal tersebut model sudah dapat dikatakan fit. Gambar 4.3 berikut
merupakan path diagram dari subtes series di kelompok laki-laki yang terbukti
equal lambda.
77
Gambar 4.3 Path diagram subtes series di kelompok laki-laki equal lambda
(RMSEA = 0.054 dan 90% C.I = 0.040 – 0.068)
Tabel 4.3
Tabel koefisien muatan faktor subtes series di kelompok laki-laki equal
lambda
Item Standardized Coefficient Standard Error P-value Keterangan
1 0.493 0.031 0.000 V
2 0.493 0.031 0.000 V
3 0.493 0.031 0.000 V
4 0.493 0.031 0.000 V
5 0.493 0.031 0.000 V
6 0.493 0.031 0.000 V
7 0.493 0.031 0.000 V
8 0.493 0.031 0.000 V
9 0.493 0.031 0.000 V
10 0.493 0.031 0.000 V
11 0.493 0.031 0.000 V
Keterangan: V=Valid, X=Tidak Valid
Setelah data dianalisis pada masing-masing kelompok gender, ditemukan bahwa
pada kelompok perempuan item nomor 10 tidak valid. Sedangkan, pada kelompok
laki-laki item 12 yang tidak valid. Karena analisis berikutnya adalah analisis
multi-group confirmatory factor analysis (MGCFA), peneliti hanya akan
menggunakan item yang terbukti valid di kedua kelompok. Oleh karena itu,
78
peneliti mendrop item 10 dan item 12 karena kedua item tersebut hanya valid
pada salah satu kelompok saja.
Setelah didapatkan 10 item yang terbukti valid pada dua kelompok gender,
peneliti akan melakukan MGCFA pada kelompok laki-laki dan perempuan secara
simultan. Pada model 10 item dengan satu faktor peneliti akan menguji tahapan
scalar invariance, artinya apakah nilai threshold dan koefisien muatan faktor pada
item subtes series memiliki nilai yang sama di kedua kelompok gender kemudian
fit dengan data. Sebagai tambahan scalar invariance merupakan tahapan yang
lebih tinggi dibandingkan configural invariance (pattern invariance) dan metric
invariance (lambda invariance). Artinya jika model fit dicapai pada tahap scalar
invariance, maka tahapan measurement invariance sebelumnya juga telah
terpenuhi.
Model 10 item dengan satu faktor dianalisis dan diuji dengan data
didapatkan model dengan nilai chi-square total = 106.384, nilai chi-square di
kelompok perempuan = 47.292, nilai chi-square di kelompok laki-laki = 59.092,
df = 79, p-value = 0.0217, RMSEA = 0.028, 90% C.I = 0.011 – 0.041. Dapat
dilihat model belum fit jika dilihat dari nilai chi-square (p < 0.05). Namun, karena
indeks chi-square sangat sensitif terhadap ukuran sampel, maka peneliti
mempertimbangkan indeks model fit lain seperti RMSEA. Dapat dilihat
berdasarkan nilai indeks RMSEA model sudah fit (p < 0.05). Kemudian hal ini
didukung dengan nilai confident interval RMSEA yang berkisar antara 0.011 –
0.041. Artinya, jika penelitian diulang ribuan kali, nilai indeks RMSEA terkecil
yang akan didapatkan sebesar 0.011 dan paling besar sebesar 0.041. Berdasarkan
79
hal tersebut model sudah dapat dikatakan fit. Gambar 4.4 berikut merupakan path
diagram dari subtes series yang terbukti scalar invariance.
Gambar 4.4 Path diagram subtes series scalar invariance (RMSEA=0.028)
Tabel 4.4
Koefisien muatan faktor dan threshold subtes series scalar invariance
(unstandardized)
Item Unstandardized
Coefficient
Unstandardized
Threshold T-value P-value Ket.
Item 1 0.591 -1.638 6.563 0.000 V
0.591 -1.638 6.563 0.000 V
Item 2 0.854 -1.947 9.340 0.000 V
0.854 -1.947 9.340 0.000 V
Item 3 0.818 -1.621 9.956 0.000 V
0.818 -1.621 9.956 0.000 V
Item 4 0.571 -1.278 7.412 0.000 V
0.571 -1.278 7.412 0.000 V
Item 5 0.579 -1.032 8.659 0.000 V
0.579 -1.032 8.659 0.000 V
Item 6 0.462 -0.435 7.211 0.000 V
0.462 -0.435 7.211 0.000 V
Item 7 0.554 -0.394 9.575 0.000 V
0.554 -0.394 9.575 0.000 V
Item 8 0.508 0.176 8.538 0.000 V
0.508 0.176 8.538 0.000 V
Item 9 0.421 0.865 9.003 0.000 V
0.421 0.865 9.003 0.000 V
Item 11 0.237 1.557 4.506 0.000 V
0.237 1.557 4.506 0.000 V
Keterangan: FEMALE
MALE
80
Pada tabel di atas dapat dilihat semua item pada subtes series memiliki nilai
indeks koefisien muatan faktor dan threshold yang sama baik di kelompok
perempuan dan di kelompok laki-laki. Agar setiap indeks pada item subtes series
dapat dibandingkan, maka peneliti melampirkan tabel 4.5 yang berisi indeks item
yang sudah dalam skala baku (standardized).
Tabel 4.5
Koefisien muatan faktor dan threshold subtes series scalar invariance
(standardized)
Item Standardized
Coefficient
Standardized
Threshold T-value P-value Ket.
Item 1 0.591 -1.638 6.563 0.000 V
0.657 -1.822 6.391 0.000 V
Item 2 0.854 -1.947 9.340 0.000 V
0.775 -1.766 8.691 0.000 V
Item 3 0.818 -1.621 9.956 0.000 V
0.845 -1.674 12.092 0.000 V
Item 4 0.571 -1.278 7.412 0.000 V
0.587 -1.313 8.380 0.000 V
Item 5 0.579 -1.032 8.659 0.000 V
0.600 -1.069 8.807 0.000 V
Item 6 0.462 -0.435 7.211 0.000 V
0.449 -0.423 6.289 0.000 V
Item 7 0.554 -0.394 9.575 0.000 V
0.466 -0.331 6.078 0.000 V
Item 8 0.508 0.176 8.538 0.000 V
0.459 0.159 6.331 0.000 V
Item 9 0.421 0.865 9.003 0.000 V
0.427 0.876 6.951 0.000 V
Item 11 0.237 1.557 4.506 0.000 V
0.206 1.353 4.202 0.000 V
Keterangan:
Ketika subtes series telah mencapai tahapan scalar invariance, maka subtes series
tersebut dapat juga dikatakan telah mencapai tahapan strong measurement
invariance. Artinya, tidak ada perbedaan makna dan tingkat kesukaran antara item
FEMALE
MALE
81
yang ditempuh kelompok perempuan dengan yang ditempuh kelompok laki-laki.
Dengan kata lain, item-item yang ada di subtes series berlaku sama di kelompok
laki-laki maupun di kelompok perempuan.
Sebagai contoh, nilai koefisien muatan faktor pada item 8 di kelompok
perempuan adalah 0.508 dan di kelompok laki-laki 0.508. Kemudian nilai
threshold pada item 8 di kelompok laki-laki adalah 0.176 dan di kelompok wanita
sebesar 0.176. Artinya, item 8 memiliki tingkat kesukaran yang sama jika
ditempuh oleh kelompok laki-laki dan kelompok perempuan. Sehingga tidak ada
kelompok yang dirugikan oleh item 8 tersebut. Dengan kata lain, item 8 memang
mengukur apa yang hendak diukur secara adil baik di kelompok laki-laki dan di
kelompok perempuan. Adapun perbedaan nilai pada indeks standardized terjadi
bukan karena perbedaan sebenarnya, melainkan karena perbedaan distribusi
sampling dan standar deviasi yang disebabkan perbedaan ukuran sampel di kedua
kelompok.
Setelah subtes series terbukti scalar invariance, peneliti meningkatkan
konstrain teori dengan mengkonstrain koefisien muatan faktor setara pada seluruh
item di setiap kelompok. Model ini dianalisis kembali menggunakan MGCFA dan
didapatkan nilai chi-square total = 164.372, nilai chi-square di kelompok
perempuan = 81.979, nilai chi-square di kelompok laki-laki = 82.972, df = 88, p-
value = 0.0000, RMSEA = 0.045, 90% C.I = 0.034 – 0.055. Dapat dilihat model
belum fit jika dilihat dari nilai chi-square (p < 0.05). Namun, karena indeks chi-
square sangat sensitif terhadap ukuran sampel, maka peneliti mempertimbangkan
indeks model fit lain seperti RMSEA. Dapat dilihat berdasarkan nilai indeks
82
RMSEA model sudah fit (p < 0.05). Kemudian hal ini didukung dengan nilai
confident interval RMSEA yang berkisar antara 0.034 – 0.055. Artinya, jika
penelitian diulang ribuan kali, nilai indeks RMSEA terkecil yang akan didapatkan
sebesar 0.034 dan paling besar sebesar 0.055. Berdasarkan hal tersebut model
sudah dapat dikatakan fit. Gambar 4.5 berikut merupakan path diagram dari
subtes series yang terbukti scalar invariance dan equal lambda.
Gambar 4.5 Path diagram subtes series scalar invariance equal lambda
(RMSEA=0.045)
83
Tabel 4.6
Koefisien muatan faktor dan threshold subtes series scalar invariance equal
lambda (unstandardized)
Item Unstandardized
Coefficient
Unstandardized
Threshold T-value P-value Ket.
Item 1 0.548 -1.636 22.858 0.000 V
0.548 -1.636 22.858 0.000 V
Item 2 0.548 -1.857 22.858 0.000 V
0.548 -1.857 22.858 0.000 V
Item 3 0.548 -1.557 22.858 0.000 V
0.548 -1.557 22.858 0.000 V
Item 4 0.548 -1.273 22.858 0.000 V
0.548 -1.273 22.858 0.000 V
Item 5 0.548 -1.041 22.858 0.000 V
0.548 -1.041 22.858 0.000 V
Item 6 0.548 -0.475 22.858 0.000 V
0.548 -0.475 22.858 0.000 V
Item 7 0.548 -0.416 22.858 0.000 V
0.548 -0.416 22.858 0.000 V
Item 8 0.548 0.152 22.858 0.000 V
0.548 0.152 22.858 0.000 V
Item 9 0.548 0.884 22.858 0.000 V
0.548 0.884 22.858 0.000 V
Item 11 0.548 1.642 22.858 0.000 V
0.548 1.642 22.858 0.000 V
Keterangan:
Pada tabel di atas dapat dilihat semua item pada subtes series memiliki nilai
indeks koefisien muatan faktor yang setara pada setiap item (equal lambda) dan
threshold yang sama baik di kelompok perempuan dan di kelompok laki-laki.
Agar setiap indeks pada item subtes series dapat dibandingkan, maka peneliti
melampirkan tabel 4.7 yang berisi indeks item yang sudah dalam skala baku
(standardized).
FEMALE
MALE
84
Tabel 4.7
Koefisien muatan faktor dan threshold subtes series scalar invariance equal
lambda (Standardized)
Item Standardized
Coefficient
Standardized
Threshold T-value P-value Ket.
Item 1 0.548 -1.636 22.858 0.000 V
0.649 -1.939 9.482 0.000 V
Item 2 0.548 -1.857 22.858 0.000 V
0.593 -2.010 10.216 0.000 V
Item 3 0.548 -1.557 22.858 0.000 V
0.666 -1.893 14.028 0.000 V
Item 4 0.548 -1.273 22.858 0.000 V
0.605 -1.408 11.125 0.000 V
Item 5 0.548 -1.041 22.858 0.000 V
0.606 -1.152 10.637 0.000 V
Item 6 0.548 -0.475 22.858 0.000 V
0.494 -0.428 6.852 0.000 V
Item 7 0.548 -0.416 22.858 0.000 V
0.493 -0.375 6.291 0.000 V
Item 8 0.548 0.152 22.858 0.000 V
0.439 0.122 6.258 0.000 V
Item 9 0.548 0.884 22.858 0.000 V
0.483 0.780 8.801 0.000 V
Item 11 0.548 1.642 22.858 0.000 V
0.400 1.198 9.834 0.000 V
Keterangan:
Setelah subtes series terbukti memenuhi tahapan scalar invariance, kemudian
peneliti melakukan uji validitas pada tahap measurement invariance yang lebih
tinggi, yaitu tahapan error variance invariance. Model 10 item dengan satu faktor
diuji dengan data yang kemudian menghasilkan nilai chi-square total = 181.381,
nilai chi-square di kelompok perempuan = 74.741, nilai chi-square di kelompok
laki-laki = 106.640, df = 97, p-value = 0.0000, RMSEA = 0.045, 90% Confident
interval = 0.034 – 0.055.
Dapat dilihat pada hasil analisis di atas bahwa model sudah fit karena nilai
indeks RMSEA sudah signifikan (RMSEA < 0.05). Kemudian hal ini didukung
dengan nilai confident interval RMSEA yang berkisar antara 0.034 – 0.055.
FEMALE
MALE
85
Artinya, jika penelitian diulang ribuan kali, nilai indeks RMSEA terkecil yang
akan didapatkan sebesar 0.034 dan paling besar sebesar 0.055. Berdasarkan hal
tersebut model sudah dapat dikatakan fit. Gambar 4.6 berikut merupakan path
diagram dari subtes series yang terbukti error variance invariance.
Gambar 4.6 Path diagram subtes series error variance invariance (RMSEA =
0.045)
Berikut pada tabel 4.8 dan 4.9 akan dilampirkan nilai koefisien muatan faktor,
threshold dan varians residual pada subtes series yang terbukti error variance
invariance.
86
Tabel 4.8
Coefficient, threshold dan error subtes series error variance invariance
Item Unstandardized
Coefficient
Unstandardized
Threshold
Unstandardized
Residual P-value Ket.
Item 1 0.644 -2.025 1.000 0.000 V
0.644 -2.025 1.098 0.000 V
Item 2 0.644 -2.270 1.000 0.000 V
0.644 -2.270 1.098 0.000 V
Item 3 0.644 -1.998 1.000 0.000 V
0.644 -1.998 1.098 0.000 V
Item 4 0.644 -1.555 1.000 0.000 V
0.644 -1.555 1.098 0.000 V
Item 5 0.644 -1.257 1.000 0.000 V
0.644 -1.257 1.098 0.000 V
Item 6 0.644 -0.499 1.000 0.000 V
0.644 -0.499 1.098 0.000 V
Item 7 0.644 -0.430 1.000 0.000 V
0.644 -0.430 1.098 0.000 V
Item 8 0.644 0.223 1.000 0.000 V
0.644 0.223 1.098 0.000 V
Item 9 0.644 1.072 1.000 0.000 V
0.644 1.072 1.098 0.000 V
Item 11 0.644 1.817 1.000 0.000 V
0.644 1.817 1.098 0.000 V
Keterangan:
Pada tabel 4.8 di atas dapat dilihat semua item pada subtes series memiliki nilai
indeks muatan faktor, threshold dan error variance yang sama baik di kelompok
perempuan dan di kelompok laki-laki. Agar setiap indeks pada item subtes series
dapat dibandingkan, maka peneliti melampirkan tabel 4.9 yang berisi indeks item
yang sudah dalam skala baku (standardized).
FEMALE
MALE
87
Tabel 4.9
Koefisien muatan faktor, threshold dan residual variance subtes series error
variance invariance (standardized)
Item Standardized
Coefficient
Standardized
Threshold
Std Residual
Variance P-value Ket.
Item 1 0.542 -1.702 0.707 0.000 V
0.524 -1.646 0.726 0.000 V
Item 2 0.542 -1.908 0.707 0.000 V
0.524 -1.845 0.726 0.000 V
Item 3 0.542 -1.680 0.707 0.000 V
0.524 -1.624 0.726 0.000 V
Item 4 0.542 -1.308 0.707 0.000 V
0.524 -1.264 0.726 0.000 V
Item 5 0.542 -1.057 0.707 0.000 V
0.524 -1.022 0.726 0.000 V
Item 6 0.542 -0.419 0.707 0.000 V
0.524 -0.405 0.726 0.000 V
Item 7 0.542 -0.361 0.707 0.000 V
0.524 -0.349 0.726 0.000 V
Item 8 0.542 0.187 0.707 0.000 V
0.524 0.181 0.726 0.000 V
Item 9 0.542 0.901 0.707 0.000 V
0.524 0.872 0.726 0.000 V
Item 11 0.542 1.528 0.707 0.000 V
0.524 1.477 0.726 0.000 V
Keterangan:
Ketika subtes series telah mencapai tahapan error variance invariance, maka
subtes series tersebut dapat juga dikatakan telah mencapai tahapan strict
measurement invariance. Tahapan strict measurement invariance merupakan
tahapan yang lebih ideal dibandingkan tahapan strong measurement invariance.
Selain tidak ada perbedaan makna dan tingkat kesukaran pada item, tetapi juga
tidak ada perbedaan varian error antara item yang ditempuh di kelompok
perempuan dengan yang ditempuh di kelompok laki-laki. Dengan kata lain, item-
item yang ada di subtes series berlaku sama dan adil di kelompok laki-laki
maupun di kelompok perempuan.
FEMALE
MALE
88
Sebagai contoh, nilai koefisien muatan faktor pada item 8 di kelompok
laki-laki adalah sebesar 0.524 dan di kelompok perempuan 0.542. Kemudian, nilai
threshold pada item 8 di kelompok laki-laki adalah 0.181 dan di kelompok wanita
sebesar 0.187. Sedangkan nilai varian error item 8 di kelompok laki-laki 0.726
dan di kelompok perempuan 0.707. Artinya, item 8 memiliki kadar tingkat
kesukaran dan varian error yang sama jika ditempuh oleh kelompok laki-laki dan
kelompok perempuan. Sehingga tidak ada kelompok yang dirugikan oleh item 8
tersebut. Dengan kata lain, item 8 memang mengukur apa yang hendak diukur
secara adil baik di kelompok laki-laki dan di kelompok perempuan. Adapun
perbedaan nilai pada indeks standardized terjadi bukan karena perbedaan
sebenarnya, melainkan karena perbedaan distribusi sampling dan standar deviasi
yang disebabkan perbedaan ukuran sampel di kedua kelompok.
4.1.2 MGCFA subtes classification pada kelompok gender
Model teori pada subtes ini terdiri dari 14 item yang diteorikan mengukur subtes
classification. Pertama peneliti melakukan analisis faktor tingkat subtes yang
melibatkan keseluruhan responden dalam satu kelompok saja, yaitu sebanyak 873
orang. Ketika pertama kali dilakukan analisis didapatkan model dengan indeks
nilai chi-square = 375.069, df = 77, p-value = 0.0000, RMSEA = 0.067, 90%
confident interval = 0.060 – 0.073.
Dapat dilihat model ini belum fit karena nilai chi-square masih signifikan
(p<0.05). Kemudian indeks RMSEA dari model juga belum menunjukan model
fit. Oleh karena itu peneliti kembali melihat spesifikasi model dari teori yang diuji
di awal. Kemudian, peneliti menemukan empat item yang memiliki koefisien
89
muatan faktor negatif dan dua item dengan koefisien muatan faktor positif tetapi
tidak signifikan. Item-item tersebut adalah item 7 (-0.411), item 8 (-0.058), item
10 (-0.544), item 12 (0.012), item 13 (0.100) dan item 14 (-0.218).
Peneliti mengeluarkan seluruh item bermuatan faktor negatif dan item
yang tidak signifikan dari model sehingga tersisa 8 item. Lalu peneliti kembali
menganalisis model 8 item dengan satu faktor yang kemudian menghasilkan nilai
chi-square = 46.555, df = 20, p-value = 0.0007, RMSEA = 0.039, 90% confident
interval = 0.024 – 0.054. Dapat dilihat model masih belum juga fit dengan melihat
p-value yang masih 0.0007. Namun, indeks RMSEA mengalami penurunan dari
semula 0.067 menjadi 0.039. Kemudian hal ini didukung dengan nilai confident
interval RMSEA yang berkisar antara 0.024 – 0.054. Artinya, jika penelitian
diulang ribuan kali, nilai indeks RMSEA terkecil yang akan didapatkan sebesar
0.034 dan paling besar sebesar 0.055. Berdasarkan hal tersebut model sudah dapat
dikatakan fit (RMSEA < 0.05).
Setelah model fit tercapai, peneliti menambah konstrain pada model
dengan membuat koefisien muatan faktor untuk semua item setara (equal
lambda). Hasil yang didapatkan adalah nilai chi-square = 129.493, p-value =
0.0000, df = 27, RMSEA = 0.066, 90% confident interval = 0.055 – 0.078. Dapat
dilihat model belum fit karena nilai chi-square yang masih signifikan (p < 0.05).
Nilai RMSEA yang didapat pun masih di atas 0.05 (RMSEA > 0.05). Oleh karena
itu peneliti kembali melihat model teori dan mencari penyebab model tidak fit.
Setelah peneliti mengecek model teori, peneliti menemukan bahwa
terdapat terdapat korelasi kesalahan pengukuran antara item 2 dengan item 1.
90
Setelah peneliti mengijinkan korelasi kesalahan pengukuran antara item 2 dengan
item 1 didapatkan hasil chi-square = 103.360, p-value = 0.0000, df = 26, indeks
RMSEA = 0.058, 90% confident interval = 0.047 – 0.070. Dapat dilihat hasil di
atas menunjukan model sudah fit dengan melihat indeks RMSEA yang hampir
mendekati 0.05. Kemudian hal ini didukung dengan nilai confident interval
RMSEA yang berkisar antara 0.047 – 0.070. Artinya, jika penelitian diulang
ribuan kali, nilai indeks RMSEA terkecil yang akan didapatkan sebesar 0.047 dan
paling besar sebesar 0.070. Berdasarkan hal tersebut model sudah dapat dikatakan
fit (RMSEA < 0.05). Gambar 4.7 berikut merupakan path diagram dari subtes
classification yang terbukti fit.
Gambar 4.7 Path diagram subtes classification fit (RMSEA = 0.058 dan 90%
C.I = 0.047 – 0.070)
91
Tabel 4.10
Koefisien muatan faktor subtes classification
Item Unstandardized
Coefficient
Standardized
Coefficient T-value
P-value
Ket.
Item 1 0.643 0.643 39.935 0.000 V
Item 2 0.643 0.643 39.935 0.000 V
Item 3 0.643 0.643 39.935 0.000 V
Item 4 0.643 0.643 39.935 0.000 V
Item 5 0.643 0.643 39.935 0.000 V
Item 6 0.643 0.643 39.935 0.000 V
Item 9 0.643 0.643 39.935 0.000 V
Item 11 0.643 0.643 39.935 0.000 V
Keterangan: V=Valid, X=Tidak Valid
Kemudian, setelah peneliti mendapatkan 8 item valid di subtes classification,
kemudian peneliti melakukan analisis faktor konfirmatorik pada masing-masing
kelompok gender secara terpisah. Pada kelompok perempuan didapatkan nilai chi-
square = 21.884, p-value = 0.3490, df = 20, RMSEA = 0.014, 90% confident
interval = 0.000 – 0.042. Dapat dilihat hasil di atas menunjukan model sudah fit
dengan melihat nilai chi-square yang sudah tidak signifikan (p > 0.05) dan indeks
RMSEA yang sudah di bawah 0.05. Kemudian hal ini didukung dengan nilai
confident interval RMSEA yang berkisar antara 0.000 – 0.042. Artinya, jika
penelitian diulang ribuan kali, nilai indeks RMSEA terkecil yang akan didapatkan
sebesar 0.000 dan paling besar sebesar 0.042. Berdasarkan hal tersebut model
sudah dapat dikatakan fit.
Setelah subtes classification di kelompok perempuan terbukti fit dengan
data, peneliti meningkatkan konstrain teori dengan membuat koefisien muatan
faktor pada seluruh item setara (equal lambda). Hasil analisis model menunjukan
nilai chi-square = 109.287, p-value = 0.0000, df = 27, RMSEA = 0.078, 90%
confident interval = 0.063 – 0.094. Dapat dilihat hasil di atas menunjukan model
92
belum fit dengan melihat chi-square yang masih signifikan (p < 0.05). Kemudian
indeks RMSEA yang masih di atas 0.05. Oleh karena itu, peneliti kembali
mengecek model teori dan mencari penyebab model tidak fit.
Setelah peneliti mengecek kembali model ditemukan bahwa terdapat
korelasi kesalahan pengukuran antara item 1 dengan item 2 dan item 9 dengan
item 4. Peneliti akhirnya mengijinkan agar kesalahan pengukuran antar item
saling berkorelasi dan kemudian didapatkan model dengan nilai chi-square =
68.781, p-value = 0.0000, df = 25, RMSEA = 0.053, 90% C.I = 0.043 – 0.076.
Meskipun nilai chi-square belum menunjukan model fit, tetapi indeks RMSEA
sudah mendekati 0.05. Kemudian hal ini didukung dengan nilai confident interval
RMSEA yang berkisar antara 0.043 – 0.076. Artinya, jika penelitian diulang
ribuan kali, nilai indeks RMSEA terkecil yang akan didapatkan sebesar 0.043 dan
paling besar sebesar 0.076. Berdasarkan hal tersebut model sudah dapat dikatakan
fit.
Gambar 4.8 Path diagram subtes classification kelompok perempuan
(RMSEA = 0.053 dan 90% C.I = 0.043 – 0.076)
93
Tabel 4.11
Tabel koefisien muatan faktor subtes classification di kelompok perempuan
equal lambda
Item Standardized Coefficient Standard Error P-value Keterangan
1 0.638 0.021 0.000 V
2 0.638 0.021 0.000 V
3 0.638 0.021 0.000 V
4 0.638 0.021 0.000 V
5 0.638 0.021 0.000 V
6 0.638 0.021 0.000 V
9 0.638 0.021 0.000 V
11 0.638 0.021 0.000 V
Keterangan: V=Valid, X=Tidak Valid
Setelah analisis dilakukan pada kelompok perempuan, peneliti kembali
melakukan analisis faktor konfirmatorik pada subtes classification di kelompok
laki-laki yang berjumlah 372 responden. Hasil analisis menunjukan nilai chi-
square = 22.861, p-value = 0.2957, df = 20, RMSEA = 0.020, 90% C.I = 0.000 –
0.050. Dapat dilihat bahwa nilai chi-square sudah tidak signifikan (p > 0.05) dan
nilai RMSEA sudah lebih kecil dari 0.05 (RMSEA < 0.05). Hal ini didukung
dengan nilai confident interval RMSEA yang berkisar antara 0.000 – 0.050.
Artinya, jika penelitian diulang ribuan kali, nilai indeks RMSEA terkecil yang
akan didapatkan sebesar 0.027 dan paling besar sebesar 0.058. Berdasarkan hal
tersebut model sudah dapat dikatakan fit.
Setelah subtes classification di kelompok laki-laki terbukti fit dengan data,
peneliti meningkatkan konstrain teori dengan membuat koefisien muatan faktor
pada seluruh item setara (equal lambda). Hasil analisis model menunjukan nilai
chi-square = 78.227, p-value = 0.0000, df = 27, RMSEA = 0.071, 90% confident
interval = 0.053 – 0.090. Dapat dilihat hasil di atas menunjukan model belum fit
94
dengan melihat chi-square yang masih signifikan (p < 0.05). Kemudian indeks
RMSEA yang masih di atas 0.05. Oleh karena itu, peneliti kembali mengecek
model teori dan mencari penyebab model tidak fit.
Setelah peneliti mengecek kembali model ditemukan bahwa terdapat
korelasi kesalahan pengukuran antara item 4 dengan item 3. Peneliti akhirnya
mengijinkan agar kesalahan pengukuran antar item saling berkorelasi dan
kemudian didapatkan model dengan nilai chi-square = 58.572, p-value = 0.0003,
df = 26, RMSEA = 0.058, 90% C.I = 0.038 – 0.078. Meskipun nilai chi-square
belum menunjukan model fit, tetapi indeks RMSEA sudah mendekati 0.05.
Kemudian hal ini didukung dengan nilai confident interval RMSEA yang berkisar
antara 0.038 – 0.078. Artinya, jika penelitian diulang ribuan kali, nilai indeks
RMSEA terkecil yang akan didapatkan sebesar 0.048 dan paling besar sebesar
0.078. Berdasarkan hal tersebut model sudah dapat dikatakan fit.
Gambar 4.9 Path diagram subtes classification kelompok laki-laki (RMSEA
= 0.058 dan 90% C.I = 0.038 – 0.078)
95
Tabel 4.12
Tabel koefisien muatan faktor subtes classification di kelompok laki-laki
equal lambda
Item Standardized
Coefficient
Standard
Error P-value Keterangan
1 0.503 0.039 0.000 V
2 0.503 0.039 0.000 V
3 0.503 0.039 0.000 V
4 0.503 0.039 0.000 V
5 0.503 0.039 0.000 V
6 0.503 0.039 0.000 V
9 0.503 0.039 0.000 V
11 0.503 0.039 0.000 V
Keterangan: V=Valid, X=Tidak Valid
Setelah data dianalisis pada masing-masing kelompok gender, peneliti akan
melakukan MGCFA pada kelompok laki-laki dan perempuan secara simultan.
Pada model 8 item dengan satu faktor peneliti akan menguji tahapan scalar
invariance, artinya apakah nilai threshold dan koefisien muatan faktor pada item
subtes classification memiliki nilai yang sama di kedua kelompok gender
kemudian fit dengan data. Sebagai tambahan scalar invariance merupakan
tahapan yang lebih tinggi dibandingkan configural invariance (pattern
invariance) dan metric invariance (lambda invariance). Artinya jika model fit
dicapai pada tahap scalar invariance, maka tahapan measurement invariance
sebelumnya juga telah terpenuhi.
Model 8 item dengan satu faktor dianalisis dan diuji dengan data
didapatkan model dengan nilai chi-square total = 83.929, nilai chi-square di
kelompok perempuan = 30.972, nilai chi-square di kelompok laki-laki = 52.957,
df = 47, p-value = 0.0007, RMSEA = 0.042, 90% C.I = 0.027 – 0.057. Dapat
96
dilihat model belum fit jika dilihat dari nilai chi-square (p < 0.05). Namun, karena
indeks chi-square sangat sensitif terhadap ukuran sampel, maka peneliti
mempertimbangkan indeks model fit lain seperti RMSEA. Dapat dilihat
berdasarkan nilai indeks RMSEA model sudah fit (RMSEA < 0.05). Kemudian
hal ini didukung dengan nilai confident interval RMSEA yang berkisar antara
0.027 – 0.057. Artinya, jika penelitian diulang ribuan kali, nilai indeks RMSEA
terkecil yang akan didapatkan sebesar 0.027 dan paling besar sebesar 0.057.
Berdasarkan hal tersebut model sudah dapat dikatakan fit. Gambar 4.10 berikut
merupakan path diagram dari subtes series yang terbukti scalar invariance.
Gambar 4.10 Path diagram subtes classification scalar invariance
(RMSEA = 0.042)
97
Tabel 4.13
Koefisien muatan faktor dan threshold subtes classification scalar invariance
(unstandardized)
Item Unstandardized
Coefficient
Unstandardize
d Threshold T-value P-value Ket.
Item 1 0.737 -0.843 17.681 0.000 V
0.737 -0.843 17.681 0.000 V
Item 2 0.800 -1.297 17.282 0.000 V
0.800 -1.297 17.282 0.000 V
Item 3 0.679 -1.148 13.074 0.000 V
0.679 -1.148 13.074 0.000 V
Item 4 0.784 -0.513 17.604 0.000 V
0.784 -0.513 17.604 0.000 V
Item 5 0.460 -0.641 8.576 0.000 V
0.460 -0.641 8.576 0.000 V
Item 6 0.508 -0.675 9.266 0.000 V
0.508 -0.675 9.266 0.000 V
Item 9 0.765 0.184 15.211 0.000 V
0.765 0.184 15.211 0.000 V
Item 11 0.523 0.450 10.017 0.000 V
0.523 0.450 10.017 0.000 V
Keterangan:
Pada tabel di atas dapat dilihat semua item pada subtes classification memiliki
nilai indeks koefisien muatan faktor dan threshold yang sama baik di kelompok
perempuan dan di kelompok laki-laki. Agar setiap indeks pada item subtes
classification dapat dibandingkan, maka peneliti melampirkan tabel 4.14 yang
berisi indeks item yang sudah dalam skala baku (standardized).
FEMALE
MALE
98
Tabel 4.14
Koefisien muatan faktor dan threshold subtes classification scalar invariance
(Standardized)
Item Standardized
Coefficient
Standardized
Threshold T-value P-value Ket.
Item 1 0.737 -0.843 17.681 0.000 V
0.792 -0.905 14.112 0.000 V
Item 2 0.800 -1.297 17.282 0.000 V
0.823 -1.334 14.797 0.000 V
Item 3 0.679 -1.148 13.074 0.000 V
0.767 -1.298 13.886 0.000 V
Item 4 0.784 -0.513 17.604 0.000 V
0.706 -0.462 12.579 0.000 V
Item 5 0.460 -0.641 8.576 0.000 V
0.557 -0.775 9.752 0.000 V
Item 6 0.508 -0.675 9.266 0.000 V
0.534 -0.709 9.228 0.000 V
Item 9 0.765 0.184 15.211 0.000 V
0.576 0.139 8.708 0.000 V
Item 11 0.523 0.450 10.017 0.000 V
0.462 0.397 8.771 0.000 V
Keterangan:
Ketika subtes classification telah mencapai tahapan scalar invariance, maka
subtes classification tersebut dapat juga dikatakan telah mencapai tahapan strong
measurement invariance. Artinya, tidak ada perbedaan makna dan tingkat
kesukaran antara item yang ditempuh kelompok perempuan dengan yang
ditempuh kelompok laki-laki. Dengan kata lain, item-item yang ada di subtes
series berlaku sama di kelompok laki-laki maupun di kelompok perempuan.
Setelah subtes classification terbukti scalar invariance, peneliti
meningkatkan konstrain teori dengan mengkonstrain koefisien muatan faktor
setara pada seluruh item di setiap kelompok. Model ini dianalisis kembali
menggunakan MGCFA dan didapatkan nilai chi-square total = 160.752, nilai chi-
square di kelompok perempuan = 122.645, nilai chi-square di kelompok laki-laki
FEMALE
MALE
99
= 38.107, df = 54, p-value = 0.0000, RMSEA = 0.067, 90% C.I = 0.055 – 0.079.
Dapat dilihat model belum fit jika dilihat dari nilai chi-square (p < 0.05).
Kemudian nilai indeks RMSEA model masih di atas 0.05 (RMSEA > 0.05). Oleh
karena itu peneliti kembali mengecek model teori dan mencari penyebab model
tidak fit.
Setelah peneliti mengecek kembali model ditemukan bahwa terdapat
korelasi kesalahan pengukuran antara item 1 dengan item 2 dan item 4 dengan
item 9. Peneliti akhirnya mengijinkan agar kesalahan pengukuran antar item
saling berkorelasi dan kemudian didapatkan model dengan nilai chi-square =
115.571, p-value = 0.0000, df = 50, RMSEA = 0.055, 90% C.I = 0.042 – 0.068.
Meskipun nilai chi-square belum menunjukan model fit, tetapi indeks RMSEA
sudah mendekati 0.05. Kemudian hal ini didukung dengan nilai confident interval
RMSEA yang berkisar antara 0.042 – 0.068. Artinya, jika penelitian diulang
ribuan kali, nilai indeks RMSEA terkecil yang akan didapatkan sebesar 0.042 dan
paling besar sebesar 0.068. Berdasarkan hal tersebut model sudah dapat dikatakan
fit. Gambar 4.11 berikut merupakan path diagram subtes classification scalar
invariance dan equal lambda.
Gambar 4.11 Path diagram subtes classification scalar invariance equal lambda
(RMSEA = 0.055 dan 90% C.I = 0.042 – 0.068)
100
Tabel 4.15
Koefisien muatan faktor dan threshold subtes classification scalar invariance
equal lambda (Unstandardized)
Item Unstandardized
Coefficient
Unstandardized
Threshold T-value P-value Ket.
Item 1 0.639 -0.822 32.635 0.000 V
0.639 -0.822 32.635 0.000 V
Item 2 0.639 -1.230 32.635 0.000 V
0.639 -1.230 32.635 0.000 V
Item 3 0.639 -1.133 32.635 0.000 V
0.639 -1.133 32.635 0.000 V
Item 4 0.639 -0.482 32.635 0.000 V
0.639 -0.482 32.635 0.000 V
Item 5 0.639 -0.733 32.635 0.000 V
0.639 -0.733 32.635 0.000 V
Item 6 0.639 -0.734 32.635 0.000 V
0.639 -0.734 32.635 0.000 V
Item 9 0.639 0.160 32.635 0.000 V
0.639 0.160 32.635 0.000 V
Item 11 0.639 0.466 32.635 0.000 V
0.639 0.466 32.635 0.000 V
Keterangan:
Pada tabel di atas dapat dilihat semua item pada subtes classification memiliki
nilai indeks koefisien muatan faktor dan threshold yang sama baik di kelompok
perempuan dan di kelompok laki-laki. Agar setiap indeks pada item subtes
classification dapat dibandingkan, maka peneliti melampirkan tabel 4.16 yang
berisi indeks item yang sudah dalam skala baku (standardized).
FEMALE
MALE
101
Tabel 4.16
Koefisien muatan faktor dan threshold subtes classification scalar invariance
equal lambda (standardized)
Item Standardized
Coefficient
Standardized
Threshold T-value P-value Ket.
Item 1 0.639 -0.822 32.635 0.000 V
0.761 -0.980 13.183 0.000 V
Item 2 0.639 -1.230 32.635 0.000 V
0.752 -1.449 13.966 0.000 V
Item 3 0.639 -1.133 32.635 0.000 V
0.762 -1.352 15.084 0.000 V
Item 4 0.639 -0.482 32.635 0.000 V
0.708 -0.534 12.755 0.000 V
Item 5 0.639 -0.733 32.635 0.000 V
0.625 -0.718 11.397 0.000 V
Item 6 0.639 -0.734 32.635 0.000 V
0.581 -0.667 10.139 0.000 V
Item 9 0.639 0.160 32.635 0.000 V
0.581 0.146 8.372 0.000 V
Item 11 0.639 0.466 32.635 0.000 V
0.474 0.346 9.258 0.000 V
Keterangan:
Setelah subtes classification terbukti memenuhi tahapan scalar invariance,
kemudian peneliti melakukan uji validitas pada tahap measurement invariance
yang lebih tinggi, yaitu tahapan error variance invariance. Model 8 item dengan
satu faktor diuji dengan data yang kemudian menghasilkan nilai chi-square total =
141.121, nilai chi-square di kelompok perempuan = 74.469, nilai chi-square di
kelompok laki-laki = 66.652, df = 57, p-value = 0.0000, RMSEA = 0.058, 90%
Confident interval = 0.046 – 0.070.
Dapat dilihat pada hasil analisis di atas bahwa model sudah fit karena nilai
indeks RMSEA mendekati 0.05. Kemudian hal ini didukung dengan nilai
confident interval RMSEA yang berkisar antara 0.046 – 0.070. Artinya, jika
penelitian diulang ribuan kali, nilai indeks RMSEA terkecil yang akan didapatkan
FEMALE
MALE
102
sebesar 0.046 dan paling besar sebesar 0.070. Berdasarkan hal tersebut model
sudah dapat dikatakan fit. Gambar 4.12 berikut merupakan path diagram dari
subtes classification yang terbukti error variance invariance.
Gambar 4.12 Path diagram subtes classification error variance invariance
(RMSEA = 0.058 dan 90% C.I = 0.046 – 0.070)
Tabel 4.17
Koefisien muatan faktor, threshold, error variance subtes classification error
variance invariance (Unstandardized)
Item Unstandardized
Coefficient
Unstandardized
Threshold
Unstdandardized
Residual P-value
Ket
.
Item 1 0.828 -1.092 1.000 0.000 V
0.828 -1.092 0.934 0.000 V
Item 2 0.828 -1.665 1.000 0.000 V
0.828 -1.665 0.934 0.000 V
Item 3 0.828 -1.538 1.000 0.000 V
0.828 -1.538 0.934 0.000 V
Item 4 0.828 -0.611 1.000 0.000 V
0.828 -0.611 0.934 0.000 V
Item 5 0.828 -0.899 1.000 0.000 V
0.828 -0.899 0.934 0.000 V
Item 6 0.828 -0.876 1.000 0.000 V
0.828 -0.876 0.934 0.000 V
Item 9 0.828 0.228 1.000 0.000 V
0.828 0.228 0.934 0.000 V
Item 11 0.828 0.558 1.000 0.000 V
0.828 0.558 0.934 0.000 V
FEMALE
MALE Keterangan:
103
Pada tabel 4.17 di atas dapat dilihat semua item pada subtes classification
memiliki nilai indeks muatan faktor, threshold dan error variance yang sama baik
di kelompok perempuan dan di kelompok laki-laki. Agar setiap indeks pada item
subtes classification dapat dibandingkan, maka peneliti melampirkan tabel 4.18
yang berisi indeks item yang sudah dalam skala baku (standardized).
Tabel 4.18
Koefisien muatan faktor, threshold, error variance subtes classification error
variance invariance (Standardized)
Item Standardized
Coefficient
Standardized
Threshold
Standardized
Residual P-value Ket.
Item 1 0.638 -0.841 0.593 0.000 V
0.651 -0.858 0.576 0.000 V
Item 2 0.638 -1.282 0.593 0.000 V
0.651 -1.308 0.576 0.000 V
Item 3 0.638 -1.184 0.593 0.000 V
0.651 -1.208 0.576 0.000 V
Item 4 0.638 -0.471 0.593 0.000 V
0.651 -0.480 0.576 0.000 V
Item 5 0.638 -0.693 0.593 0.000 V
0.651 -0.707 0.576 0.000 V
Item 6 0.638 -0.675 0.593 0.000 V
0.651 -0.688 0.576 0.000 V
Item 9 0.638 0.175 0.593 0.000 V
0.651 0.179 0.576 0.000 V
Item 11 0.638 0.430 0.593 0.000 V
0.651 0.438 0.576 0.000 V
Keterangan:
Ketika subtes classification telah mencapai tahapan error variance invariance,
maka subtes classification tersebut dapat juga dikatakan telah mencapai tahapan
strict measurement invariance. Tahapan strict measurement invariance
merupakan tahapan yang lebih ideal dibandingkan tahapan strong measurement
invariance. Selain tidak ada perbedaan makna dan tingkat kesukaran pada item,
tetapi juga tidak ada perbedaan varian error antara item yang ditempuh di
FEMALE
MALE
104
kelompok perempuan dengan yang ditempuh di kelompok laki-laki. Dengan kata
lain, item-item yang ada di subtes classification berlaku sama dan adil di
kelompok laki-laki maupun di kelompok perempuan.
Sebagai contoh, nilai koefisien muatan faktor pada item 11 di kelompok
laki-laki adalah sebesar 0.651 dan di kelompok perempuan 0.638. Kemudian, nilai
threshold pada item 11 di kelompok laki-laki adalah 0.438 dan di kelompok
wanita sebesar 0.576. Sedangkan nilai varian error item 8 di kelompok laki-laki
0.726 dan di kelompok perempuan 0.593. Artinya, item 11 memiliki kadar tingkat
kesukaran dan varian error yang sama jika ditempuh oleh kelompok laki-laki dan
kelompok perempuan. Sehingga tidak ada kelompok yang dirugikan oleh item 11
tersebut. Dengan kata lain, item 11 memang mengukur apa yang hendak diukur
secara adil baik di kelompok laki-laki dan di kelompok perempuan. Adapun
perbedaan nilai pada indeks standardized terjadi bukan karena perbedaan
sebenarnya, melainkan karena perbedaan distribusi sampling dan standar deviasi
yang disebabkan perbedaan ukuran sampel di kedua kelompok.
4.1.3 MGCFA Subtes Matrice pada kelompok gender
Model teori pada subtes ini terdiri dari 13 item yang diteorikan mengukur subtes
matrice. Pertama peneliti melakukan analisis faktor tingkat subtes yang
melibatkan keseluruhan responden dalam satu kelompok saja, yaitu sebanyak 873
orang. Ketika pertama kali dilakukan analisis didapatkan model dengan indeks
nilai chi-square = 80.714, df = 65, p-value = 0.0904, RMSEA = 0.017, 90% C.I =
0.000 – 0.027.
105
Dapat dilihat model ini belum fit karena nilai chi-square masih signifikan
(p<0.05). Ketika model dilihat dari indeks RMSEA, CFI dan TLI belum tercapai
juga model fit. Untuk itu kembali peneliti melihat spesifikasi model dari teori
yang diuji di awal. Dan peneliti menemukan dua item yang memiliki koefisien
muatan faktor negatif dan empat item dengan koefisien muatan faktor positif
tetapi tidak signifikan. Item-item tersebut adalah item 5 (0.028), item 8 (0.113),
item 9 (0.033), item 10 (-0.032), item 12 (0.114) dan item 13 (-0.351).
Peneliti mengeluarkan seluruh item bermuatan faktor negatif dan yang tidak
signifikan dari sehingga tersisa 7 item. Lalu peneliti kembali menganalisis model
7 item dengan satu faktor yang kemudian menghasilkan nilai chi-square = 16.626,
df = 14, p-value = 0.2767, RMSEA = 0.015, 90% C.I = 0.000 – 0.037. Dapat
dilihat model sudah fit dengan melihat p-value yang 0.2767. Dapat juga dilihat
nilai chi-square mengalami penurunan semakin mendekati 0.00. Nilai chi-square
yang semula 95.318 mengalami penurunan menjadi 16.625. Nilai p-value yang
semula bernilai 0.0102 mengalami kenaikan menjadi 0.2767 ( p> 0.05). Kemudian
indeks RMSEA menunjukan bahwa model sudah fit dengan nilai 0.015 (RMSEA
< 0.05).
Hasil test goodness of fit di atas mengindikasikan model semakin fit setelah
peneliti mendrop 6 item yang bermuatan faktor negatif dan tidak signifikan. Dapat
dilihat model 7 item dengan satu faktor akhirnya fit dengan data. Artinya,
hipotesis yang menyatakan bahwa 7 item tersebut hanya mengukur satu faktor
dapat diterima kebenarannya. Gambar 4.7 berikut merupakan path diagram dari
model teori pada subtes matrice yang sudah fit
106
Setelah didapatkan 7 item valid, peneliti meningkatkan konstrain teori
dengan membuat koefisien muatan faktor pada seluruh item setara (equal
lambda). Kemudian hasil analisis model menunjukan nilai chi-square = 32.671, p-
value = 0.0367, df = 20, RMSEA = 0.027, 90% C.I = 0.007 – 0.043. Dapat dilihat
model sudah fit dengan nilai RMSEA yang sudah di bawah 0.05 (RMSEA <
0.05). Kemudian didukung nilai 90% confident interval yang menunjukan nilai
antara 0.007 – 0.043. Artinya, jika penelitian diulang ribuan kali, nilai RMSEA
terkecil yang akan didapatkan adalah sebesar 0.007 dan nilai RMSEA terbesar
yang akan didapat adalah sebesar 0.043. Dengan demikian, model sudah dapat
dikatakan fit. Gambar 4.13 berikut merupakan path diagram subtes matrice.
Gambar 4.13 Path diagram subtes matrice fit (RMSEA = 0.027)
107
Tabel 4.19
Koefisien muatan faktor subtes matrice
Item Standardized Coeficient P-value Ket.
Item 1 0.467 16.409 V
Item 2 0.467 16.409 V
Item 3 0.467 16.409 V
Item 4 0.467 16.409 V
Item 6 0.467 16.409 V
Item 7 0.467 16.409 V
Item 11 0.467 16.409 V
Keterangan: V=Valid, X=Tidak Valid
Kemudian, setelah peneliti mendapatkan 7 item valid di subtes matrice, kemudian
peneliti melakukan analisis faktor konfirmatorik pada masing-masing kelompok
gender secara terpisah. Pada kelompok perempuan didapatkan nilai chi-square =
15.461, p-value = 0.3474, df = 14, RMSEA = 0.014, 90% confident interval =
0.000 – 0.047. Dapat dilihat hasil di atas menunjukan model sudah fit dengan
melihat nilai chi-square yang sudah tidak signifikan (p > 0.05) dan indeks
RMSEA yang sudah di bawah 0.05 (RMSEA). Berdasarkan hal tersebut model
sudah dapat dikatakan fit.
Ketika model fit berhasil didapatkan, peneliti melanjutkan analisis pada
tingkat item dan menemukan 2 item yang tidak signifikan. Item-item tersebut
adalah item 6 dan item 11. Item-item yang tidak signifikan tersebut harus didrop
dan tidak boleh ikut dianalisis. Kemudian peneliti kembali melakukan analisis
faktor konfirmatorik pada 5 item tersisa dan didapatkan nilai chi-square = 5.313,
p-value = 3789, df = 5, RMSEA = 0.011, 90% C.I = 0.000 – 0.064. Dapat dilihat
model sudah fit dengan nilai chi-square yang sudah tidak signifikan (p > 0.05).
Kemudian didukung nilai RMSEA yang sudah di bawah 0.05 (RMSEA , 0.05).
108
Setelah subtes matrice di kelompok perempuan terbukti fit dengan data,
peneliti meningkatkan konstrain teori dengan membuat koefisien muatan faktor
pada seluruh item setara (equal lambda). Hasil analisis model menunjukan nilai
chi-square = 16.839, p-value = 0.0513, df = 9, RMSEA = 0.042, 90% confident
interval = 0.000 – 0.072. Dapat dilihat hasil di atas menunjukan model sudah fit
dengan melihat chi-square yang sudah tidak signifikan (p > 0.05). Kemudian
indeks RMSEA yang sudah di bawah 0.05. Gambar 4.14 berikut merupakan path
diagram dari subtes matrice di kelompok perempuan.
Gambar 4.14 Path diagram subtes matrice di kelompok perempuan (p-value =
0.0513 dan RMSEA = 0.042)
109
Tabel 4.20
Tabel koefisien muatan faktor subtes matrice di kelompok perempuan equal
lambda
Item Standardized Coefficient Standard Error P-value Keterangan
1 0.504 0.042 0.000 V
2 0.504 0.042 0.000 V
3 0.504 0.042 0.000 V
4 0.504 0.042 0.000 V
7 0.504 0.042 0.000 V
Keterangan: V=Valid, X=Tidak Valid
Setelah analisis dilakukan pada kelompok perempuan, peneliti kembali
melakukan analisis faktor konfirmatorik pada kelompok laki-laki yang berjumlah
372 responden. Hasil analisis menunjukan nilai chi-square = 17.694, p-value =
0.2215, df = 14, RMSEA = 0.027, 90% C.I = 0.000 – 0.060. . Dapat dilihat bahwa
model sudah fit dengan melihat nilai chi-square yang sudah tidak signifikan (p >
0.05). Kemudian nilai RMSEA yang sudah lebih kecil dari 0.05 (RMSEA < 0.05).
Hal ini didukung dengan nilai confident interval RMSEA yang berkisar antara
0.000 – 0.060. Artinya, jika penelitian diulang ribuan kali, nilai indeks RMSEA
terkecil yang akan didapatkan sebesar 0.000 dan paling besar sebesar 0.060.
Berdasarkan hal tersebut model sudah dapat dikatakan fit.
Setelah didapatkan 7 item valid, peneliti meningkatkan konstrain teori
dengan menjadikan seluruh nilai koefisien muatan faktor pada item setara (equal
lambda). Dari hasil analisis didapatkan nilai chi-square = 29.817, p-value =
0.0729, df = 20, RMSEA = 0.036, 90 % C.I = 0.000 – 0.062. Dapat dilihat bahwa
sudah fit dengan melihat nilai chi-square yang sudah tidak signifikan (p > 0.05).
Kemudian nilai RMSEA sudah di bawah 0.05 (RMSEA < 0.05). Berdasarkan hal
110
tersebut model sudah dapat dikatakan fit. Gambar 4.15 berikut merupakan path
diagram dari subtes matrice di kelompok laki-laki yang terbukti equal lambda.
Gambar 4.15 Path diagram subtes matrice di kelompok laki-laki (P-value =
0.0729 dan RMSEA = 0.036)
Tabel 4.21
Tabel koefisien muatan faktor subtes matrice di kelompok perempuan equal
lambda
Item Standardized Coefficient Standard Error P-value Keterangan
1 0.489 0.036 0.000 V
2 0.489 0.036 0.000 V
3 0.489 0.036 0.000 V
4 0.489 0.036 0.000 V
6 0.489 0.036 0.000 V
7 0.489 0.036 0.000 V
11 0.489 0.036 0.000 V
Keterangan: V=Valid, X=Tidak Valid
111
Setelah data dianalisis pada masing-masing kelompok gender, peneliti akan
melakukan MGCFA pada kelompok laki-laki dan perempuan secara simultan.
Namun, sebagai catatan ditemukan item 6 dan item 11 tidak valid di kelompok
perempuan. Sedangkan, item 6 dan item 11 valid di kelompok laki-laki. Untuk itu,
peneliti akan mendrop item 6 dan item 11, karena item tersebut hanya valid pada
salah satu kelompok.
Pada model 5 item dengan satu faktor peneliti akan menguji tahapan
scalar invariance, artinya apakah nilai threshold dan koefisien muatan faktor pada
item subtes classification memiliki nilai yang sama di kedua kelompok gender
kemudian fit dengan data. Sebagai tambahan scalar invariance merupakan
tahapan yang lebih tinggi dibandingkan configural invariance (pattern
invariance) dan metric invariance (lambda invariance). Artinya jika model fit
dicapai pada tahap scalar invariance, maka tahapan measurement invariance
sebelumnya juga telah terpenuhi.
Model 5 item dengan satu faktor dianalisis dan diuji dengan data
didapatkan model dengan nilai chi-square total = 20.277, nilai chi-square di
kelompok perempuan = 8.394, nilai chi-square di kelompok laki-laki = 11.884, df
= 14, p-value = 0.1216, RMSEA = 0.032, 90% C.I = 0.000 – 0.061. Dapat dilihat
model sudah fit jika dilihat dari nilai chi-square yang sudah tidak signifikan (p >
0.05). Kemudian, nilai RMSEA yang sudah di bawah 0.05 (RMSEA < 0.05).
Berdasarkan hal tersebut model sudah dapat dikatakan fit. Gambar 4.16 berikut
merupakan path diagram dari subtes matrice yang terbukti scalar invariance.
112
Gambar 4.16 Path diagram subtes matrice scalar invariance (p-value =
0.1216 dan RMSEA = 0.032)
Tabel 4.22
Koefisien muatan faktor dan threshold subtes matrice scalar invariance
(unstandardized)
Item Unstandardized
Coefficient
Unstandardized
Threshold T-value P-value Ket.
Item 1 0.642 -1.494 6.331 0.000 V
0.642 -1.494 6.331 0.000 V
Item 2 0.715 -1.344 7.088 0.000 V
0.715 -1.344 7.088 0.000 V
Item 3 0.525 -1.026 6.590 0.000 V
0.525 -1.026 6.590 0.000 V
Item 4 0.365 -0.197 4.238 0.000 V
0.365 -0.197 4.238 0.000 V
Item 7 0.383 -0.576 4.945 0.000 V
0.383 -0.576 4.945 0.000 V
Keterangan:
Pada tabel di atas dapat dilihat semua item pada subtes matrice memiliki nilai
indeks koefisien muatan faktor dan threshold yang sama baik di kelompok
perempuan dan di kelompok laki-laki. Agar setiap indeks pada item subtes
matrice dapat dibandingkan, maka peneliti melampirkan tabel 4.23 yang berisi
indeks item yang sudah dalam skala baku (standardized).
FEMALE
MALE FEMALE
MALE
113
Tabel 4.23
Koefisien muatan faktor dan threshold subtes matrice scalar invariance
(standardized)
Item Standardized
Coefficient
Standardized
Threshold T-value P-value Ket.
Item 1 0.642 -1.494 6.331 0.000 V
0.737 -1.713 7.921 0.000 V
Item 2 0.715 -1.344 7.088 0.000 V
0.714 -1.343 7.367 0.000 V
Item 3 0.525 -1.026 6.590 0.000 V
0.535 -1.046 5.579 0.000 V
Item 4 0.365 -0.197 4.238 0.000 V
0.251 -0.136 2.740 0.000 V
Item 7 0.383 -0.576 4.945 0.000 V
0.412 -0.620 4.922 0.000 V
Keterangan:
Ketika subtes matrice telah mencapai tahapan scalar invariance, maka subtes
matrice tersebut dapat juga dikatakan telah mencapai tahapan strong measurement
invariance. Artinya, tidak ada perbedaan makna dan tingkat kesukaran antara item
yang ditempuh kelompok perempuan dengan yang ditempuh kelompok laki-laki.
Dengan kata lain, item-item yang ada di subtes matrice berlaku sama di kelompok
laki-laki maupun di kelompok perempuan.
Setelah subtes matrice terbukti scalar invariance, peneliti meningkatkan
konstrain teori dengan mengkonstrain koefisien muatan faktor setara pada seluruh
item di setiap kelompok. Model ini dianalisis kembali menggunakan MGCFA dan
didapatkan nilai chi-square total = 33.590, nilai chi-square di kelompok
perempuan = 17.008, nilai chi-square di kelompok laki-laki = 16.583, df = 18, p-
value = 0.0141, RMSEA = 0.045, 90% C.I = 0.020 – 0.068. Dapat dilihat model
sudah fit yaitu nilai indeks RMSEA model sudah di bawah 0.05 (RMSEA < 0.05).
FEMALE
MALE
114
Gambar 4.17 berikut merupakan path diagram subtes matrice scalar invariance
dan equal lambda.
Gambar 4.17 Path diagram subtes matrice scalar invariance dan equal lambda
(RMSEA = 0.045)
Tabel 4.24
Koefisien muatan faktor dan threshold subtes matrice scalar invariance dan
equal lambda (unstandardized)
Item Unstandardized
Coefficient
Unstandardized
Threshold T-value P-value Ket.
Item 1 0.515 -1.474 13.370 0.000 V
0.515 -1.474 13.370 0.000 V
Item 2 0.515 -1.317 13.370 0.000 V
0.515 -1.317 13.370 0.000 V
Item 3 0.515 -1.025 13.370 0.000 V
0.515 -1.025 13.370 0.000 V
Item 4 0.515 -0.205 13.370 0.000 V
0.515 -0.205 13.370 0.000 V
Item 7 0.515 -0.591 13.370 0.000 V
0.515 -0.591 13.370 0.000 V
Keterangan:
Pada tabel di atas dapat dilihat semua item pada subtes matrice memiliki nilai
indeks koefisien muatan faktor dan threshold yang sama baik di kelompok
perempuan dan di kelompok laki-laki. Agar setiap indeks pada item subtes
FEMALE
MALE FEMALE
MALE
115
matrice dapat dibandingkan, maka peneliti melampirkan tabel 4.25 yang berisi
indeks item yang sudah dalam skala baku (standardized).
Tabel 4.25
Koefisien muatan faktor dan threshold subtes matrice scalar invariance dan
equal lambda (standardized)
Item Standardized
Coefficient
Standardized
Threshold T-value P-value Ket.
Item 1 0.642 -1.494 6.331 0.000 V
0.618 -1.769 11.342 0.000 V
Item 2 0.715 -1.344 7.088 0.000 V
0.550 -1.405 10.821 0.000 V
Item 3 0.525 -1.026 6.590 0.000 V
0.535 -1.064 8.572 0.000 V
Item 4 0.365 -0.197 4.238 0.000 V
0.305 -0.122 3.082 0.000 V
Item 7 0.383 -0.576 4.945 0.000 V
0.528 -0.606 6.483 0.000 V
Keterangan:
Setelah subtes matrice terbukti memenuhi tahapan scalar invariance, kemudian
peneliti melakukan uji validitas pada tahap measurement invariance yang lebih
tinggi, yaitu tahapan error variance invariance. Model 5 item dengan satu faktor
diuji dengan data yang kemudian menghasilkan nilai chi-square total = 41.267,
nilai chi-square di kelompok perempuan = 16.750, nilai chi-square di kelompok
laki-laki = 24.517, df = 22, p-value = 0.0077, RMSEA = 0.045, 90% Confident
interval = 0.023 – 0.066.
Dapat dilihat pada hasil analisis di atas bahwa model sudah fit karena nilai
indeks RMSEA mendekati 0.05. Kemudian hal ini didukung dengan nilai
confident interval RMSEA yang berkisar antara 0.023 – 0.066. Artinya, jika
penelitian diulang ribuan kali, nilai indeks RMSEA terkecil yang akan didapatkan
sebesar 0.023 dan paling besar sebesar 0.066. Berdasarkan hal tersebut model
FEMALE
MALE
116
sudah dapat dikatakan fit. Gambar 4.18 berikut merupakan path diagram dari
subtes matrice yang terbukti error variance invariance.
Gambar 4.18 Path diagram dari subtes matrice error variance invariance
(RMSEA = 0.045 dan 90% C.I = 0.023 – 0.066)
Tabel 4.26
Koefisien muatan faktor, threshold, residual variance subtes matrice error
variance invariance (unstandardized)
Item Unstandardized
Coefficient
Unstandardized
Threshold
Unstandardized
Residual P-value Ket.
Item 1 0.560 -1.783 1.000 0.000 V
0.560 -1.783 0.848 0.000 V
Item 2 0.560 -1.520 1.000 0.000 V
0.560 -1.520 0.848 0.000 V
Item 3 0.560 -1.171 1.000 0.000 V
0.560 -1.171 0.848 0.000 V
Item 4 0.560 -0.196 1.000 0.000 V
0.560 -0.196 0.848 0.000 V
Item 7 0.560 -0.675 1.000 0.000 V
0.560 -0.675 0.848 0.000 V
Keterangan:
Pada tabel 4.26 di atas dapat dilihat semua item pada subtes matrice memiliki
nilai indeks muatan faktor, threshold dan error variance yang sama baik di
FEMALE
MALE FEMALE
MALE
117
kelompok perempuan dan di kelompok laki-laki. Agar setiap indeks pada item
subtes matrice dapat dibandingkan, maka peneliti melampirkan tabel 4.27 yang
berisi indeks item yang sudah dalam skala baku (standardized).
Tabel 4.27
Koefisien muatan faktor, threshold, residual variance subtes matrice error
variance invariance (standardized)
Item Standardized
Coefficient
Standardized
Threshold
Standardized
Residual P-value Ket.
Item 1 0.489 -1.555 0.761 0.000 V
0.520 -1.654 0.730 0.000 V
Item 2 0.489 -1.326 0.761 0.000 V
0.520 -1.410 0.730 0.000 V
Item 3 0.489 -1.021 0.761 0.000 V
0.520 -1.086 0.730 0.000 V
Item 4 0.489 -0.171 0.761 0.000 V
0.520 -0.182 0.730 0.000 V
Item 7 0.489 -0.589 0.761 0.000 V
0.520 -0.626 0.730 0.000 V
Keterangan:
Ketika subtes matrice telah mencapai tahapan error variance invariance, maka
subtes matrice tersebut dapat juga dikatakan telah mencapai tahapan strict
measurement invariance. Tahapan strict measurement invariance merupakan
tahapan yang lebih ideal dibandingkan tahapan strong measurement invariance.
Selain tidak ada perbedaan makna dan tingkat kesukaran pada item, tetapi juga
tidak ada perbedaan varian error antara item yang ditempuh di kelompok
perempuan dengan yang ditempuh di kelompok laki-laki. Dengan kata lain, item-
item yang ada di subtes matrice berlaku sama dan adil di kelompok laki-laki
maupun di kelompok perempuan.
Sebagai contoh, nilai koefisien muatan faktor pada item 2 di kelompok
laki-laki adalah sebesar 0.520 dan di kelompok perempuan 0.489. Kemudian, nilai
FEMALE
MALE FEMALE
MALE
118
threshold pada item 2 di kelompok laki-laki adalah -1.410 dan di kelompok
perempuan sebesar -1.326. Sedangkan nilai varian error item 2 di kelompok laki-
laki 0.730 dan di kelompok perempuan 0.761. Artinya, item 2 memiliki kadar
tingkat kesukaran dan varian error yang sama jika ditempuh oleh kelompok laki-
laki dan kelompok perempuan. Sehingga tidak ada kelompok yang dirugikan oleh
item 2 tersebut. Dengan kata lain, item 2 memang mengukur apa yang hendak
diukur secara adil baik di kelompok laki-laki dan di kelompok perempuan.
Adapun perbedaan nilai pada indeks standardized terjadi bukan karena perbedaan
sebenarnya, melainkan karena perbedaan distribusi sampling dan standar deviasi
yang disebabkan perbedaan ukuran sampel di kedua kelompok.
4.1.4 MGCFA subtes topology pada kelompok gender
Model teori pada subtes ini terdiri dari 10 item yang diteorikan mengukur subtes
topology. Pertama peneliti melakukan analisis faktor tingkat subtes yang
melibatkan keseluruhan responden dalam satu kelompok saja, yaitu sebanyak 873
orang. Ketika pertama kali dilakukan analisis didapatkan model dengan indeks
nilai chi-square = 95.631, df = 87, p-value = 0.0000, RMSEA = 0.045 dan 90%
C.I = 0.034 – 0.055. Dapat dilihat model ini sudah fit karena nilai RMSEA sudah
di bawah 0.05 (RMSEA < 0.05). Kemudian didukung oleh 90% C.I = 0.034 –
0.055. Artinya, jika penelitian diulang ribuan kali, maka nilai RMSEA terkecil
yang akan didapatkan sebesar 0.034 dan RMSEA terbesar 0.055. Dengan
demikian model dapat dikatakan fit.
Setelah model fit, peneliti meningkatkan konstrain teori dengan membuat
nilai koefisien muatan faktor pada seluruh item setara (equal lambda). Dari hasil
119
analisis didapatkan model dengan nilai chi-square = 490.252, p-value = 0.0000,
df= 44, RMSEA = 0.108, 90% C.I = 0.099 – 0.116. Dapat dilihat model di atas
belum fit. Untuk itu, peneliti mencari penyebab tidak fitnya model dengan
mengecek kembali model teori.
Setelah mengecek kembali model teori ditemukan item dengan eror
pengukuran terbesar adalah item 1, item 2 dan item 4. Maka, peneliti memutuskan
untuk mendrop ketiga item tersebut. Setelah ketiga item di drop didapatkan model
dengan chi-square = 42.191, p-value = 0.0001, df= 14, RMSEA = 0.048, 90% C.I
= 0.032 – 0.065. Dapat dilihat model di atas sudah fit dengan melihat nilai
RMSEA yang sudah di bawah 0.05 (RMSEA < 0.05). Kemudian didukung oleh
nilai 90% C.I = 0.032 – 0.065. Artinya, jika penelitian diulang ribuan kali, maka
nilai RMSEA terkecil yang dihasilkan sebesar 0.032 dan RMSEA terbesar 0.065.
Dengan demikian model sudah dapat dikatakan fit. Gambar 4.19 merupakan path
diagram dari subtes topology.
Gambar 4.19 Path diagram subtes topology fit
120
Tabel 4.28
Tabel muatan faktor subtes topology
Item Standardized Coefficient T-value P-value Ket.
3 0.410 16.242 0.000 V
5 0.410 16.242 0.000 V
6 0.410 16.242 0.000 V
8 0.410 16.242 0.000 V
9 0.410 16.242 0.000 V
10 0.410 16.242 0.000 V
Keterangan: V=Valid, X=Tidak Valid
Kemudian, setelah peneliti mendapatkan 6 item valid di subtes topology,
kemudian peneliti melakukan analisis faktor konfirmatorik pada masing-masing
kelompok gender secara terpisah. Pada kelompok perempuan didapatkan nilai chi-
square = 17.024, p-value = 0.0483, df = 9, RMSEA = 0.042, 90% confident
interval = 0.004 – 0.073. Dapat dilihat hasil di atas menunjukan model sudah fit
dengan melihat nilai indeks RMSEA yang sudah di bawah 0.05 (RMSEA < 0.05).
Berdasarkan hal tersebut model sudah dapat dikatakan fit.
Setelah subtes topology di kelompok perempuan terbukti fit dengan data,
peneliti meningkatkan konstrain teori dengan membuat koefisien muatan faktor
pada seluruh item setara (equal lambda). Hasil analisis model menunjukan nilai
chi-square = 26.594, p-value = 0.0217, df = 14, RMSEA = 0.042, 90% confident
interval = 0.016 – 0.067. Dapat dilihat hasil di atas menunjukan model sudah fit
dengan melihat nilai chi-square indeks RMSEA yang sudah di bawah 0.05.
Berdasarkan hal tersebut model sudah dapat dikatakan fit. Gambar 4.20 berikut
merupakan path diagram subtes topology di kelompok perempuan.
121
Gambar 4.20 Path diagram subtes topology di kelompok perempuan
(RMSEA = 0.042)
Tabel 4.29
Tabel muatan faktor subtes topology perempuan
Item Standardized Coefficient T-value P-value Ket.
3 0.413 12.656 0.000 V
5 0.413 12.656 0.000 V
6 0.413 12.656 0.000 V
8 0.413 12.656 0.000 V
9 0.413 12.656 0.000 V
10 0.413 12.656 0.000 V
Keterangan: V=Valid, X=Tidak Valid
Setelah analisis dilakukan pada kelompok perempuan, peneliti kembali
melakukan analisis faktor konfirmatorik pada kelompok laki-laki yang berjumlah
372 responden. Hasil analisis menunjukan nilai chi-square = 16.782, p-value =
0.0522, df = 9, RMSEA = 0.048, 90% C.I = 0.000 – 0.084. . Dapat dilihat bahwa
model sudah fit dengan melihat nilai chi-square yang sudah tidak signifikan (p >
0.05). Kemudian nilai RMSEA yang sudah lebih kecil dari 0.05 (RMSEA < 0.05).
122
Hal ini didukung dengan nilai confident interval RMSEA yang berkisar antara
0.000 – 0.084. Artinya, jika penelitian diulang ribuan kali, nilai indeks RMSEA
terkecil yang akan didapatkan sebesar 0.000 dan paling besar sebesar 0.084.
Berdasarkan hal tersebut model sudah dapat dikatakan fit.
Setelah didapatkan 6 item valid, peneliti meningkatkan konstrain teori
dengan menjadikan seluruh nilai koefisien muatan faktor pada item setara (equal
lambda). Dari hasil analisis didapatkan nilai chi-square = 21.872, p-value =
0.0813, df = 14, RMSEA = 0.039, 90 % C.I = 0.000 – 0.069. Dapat dilihat bahwa
model sudah fit dengan melihat nilai chi-square yang sudah tidak signifikan (p >
0.05). Kemudian nilai RMSEA sudah di bawah 0.05 (RMSEA < 0.05).
Berdasarkan hal tersebut model sudah dapat dikatakan fit. Gambar 4.21 berikut
merupakan path diagram dari subtes topology di kelompok laki-laki yang terbukti
equal lambda.
Gambar 4.21 Path diagram dari subtes topology di kelompok laki-laki (P-
value = 0.0813)
123
Tabel 4.30
Tabel muatan faktor subtes topology di kelompok laki-laki
Item Standardized Coefficient T-value P-value Ket.
3 0.504 13.553 0.000 V
5 0.504 13.553 0.000 V
6 0.504 13.553 0.000 V
8 0.504 13.553 0.000 V
9 0.504 13.553 0.000 V
10 0.504 13.553 0.000 V
Keterangan: V=Valid, X=Tidak Valid
Setelah data dianalisis pada masing-masing kelompok gender, peneliti akan
melakukan MGCFA pada kelompok laki-laki dan perempuan secara simultan..
Pada model 6 item dengan satu faktor peneliti akan menguji tahapan scalar
invariance, artinya apakah nilai threshold dan koefisien muatan faktor pada item
subtes topology memiliki nilai yang sama di kedua kelompok gender kemudian fit
dengan data. Sebagai tambahan scalar invariance merupakan tahapan yang lebih
tinggi dibandingkan configural invariance (pattern invariance) dan metric
invariance (lambda invariance). Artinya jika model fit dicapai pada tahap scalar
invariance, maka tahapan measurement invariance sebelumnya juga telah
terpenuhi.
Model 6 item dengan satu faktor dianalisis dan diuji dengan data
didapatkan model dengan nilai chi-square total = 44.266, nilai chi-square di
kelompok perempuan = 23.272, nilai chi-square di kelompok laki-laki = 20.994,
df = 23, p-value = 0.049, RMSEA = 0.046, 90% C.I = 0.025 – 0.066. Dapat dilihat
model sudah fit jika dilihat dari nilai RMSEA yang sudah di bawah 0.05 (RMSEA
< 0.05). Berdasarkan hal tersebut model sudah dapat dikatakan fit. Gambar 4.22
124
berikut merupakan path diagram dari subtes topology yang terbukti scalar
invariance.
Gambar 4.22 Path diagram dari subtes topology scalar invariance (RMSEA =
0.046)
Tabel 4.31
Koefisien muatan faktor dan threshold subtes topology scalar invariance
(unstandardized)
Item Unstandardized
Coefficient
Unstandardized
Threshold T-value P-value Ket.
Item 3 0.607 -0.166 5.779 0.000 V
0.607 -0.166 5.779 0.000 V
Item 5 0.322 0.051 3.741 0.000 V
0.322 0.051 3.741 0.000 V
Item 6 0.557 0.464 6.643 0.000 V
0.557 0.464 6.643 0.000 V
Item 8 0.258 0.626 3.588 0.000 V
0.258 0.626 3.588 0.000 V
Item 9 0.368 0.865 5.299 0.000 V
0.368 0.865 5.299 0.000 V
Item 10 0.195 0.934 2.728 0.000 V
0.195 0.934 2.728 0.000 V
Keterangan:
Pada tabel di atas dapat dilihat semua item pada subtes topology memiliki nilai
indeks koefisien muatan faktor dan threshold yang sama baik di kelompok
FEMALE
MALE FEMALE
MALE
125
perempuan dan di kelompok laki-laki. Agar setiap indeks pada item subtes
topology dapat dibandingkan, maka peneliti melampirkan tabel 4.32 yang berisi
indeks item yang sudah dalam skala baku (standardized).
Tabel 4.32
Koefisien muatan faktor dan threshold subtes topology scalar invariance
(standardized)
Item Standardized
Coefficient
Standardized
Threshold T-value P-value Ket.
Item 3 0.607 -0.166 5.779 0.000 V
0.528 -0.144 6.507 0.000 V
Item 5 0.322 0.051 3.741 0.000 V
0.628 0.100 6.606 0.000 V
Item 6 0.557 0.464 6.643 0.000 V
0.480 0.400 5.424 0.000 V
Item 8 0.258 0.626 3.588 0.000 V
0.225 0.544 3.069 0.000 V
Item 9 0.368 0.865 5.299 0.000 V
0.404 0.949 4.587 0.000 V
Item 10 0.195 0.934 2.728 0.000 V
0.215 1.033 2.502 0.000 V
Keterangan:
Ketika subtes topology telah mencapai tahapan scalar invariance, maka subtes
topology tersebut dapat juga dikatakan telah mencapai tahapan strong
measurement invariance. Artinya, tidak ada perbedaan makna dan tingkat
kesukaran antara item yang ditempuh kelompok perempuan dengan yang
ditempuh kelompok laki-laki. Dengan kata lain, item-item yang ada di subtes
topology berlaku sama di kelompok laki-laki maupun di kelompok perempuan.
Setelah subtes topology terbukti scalar invariance, peneliti meningkatkan
konstrain teori dengan mengkonstrain koefisien muatan faktor setara pada seluruh
item di setiap kelompok. Model 6 item dengan satu faktor dianalisis dan diuji
dengan data didapatkan model dengan nilai chi-square total = 65.971, nilai chi-
square di kelompok perempuan = 29.967, nilai chi-square di kelompok laki-laki =
FEMALE
MALE
126
37.003, df = 28, p-value = 0.049, RMSEA = 0.056, 90% C.I = 0.038 – 0.073.
Dapat dilihat model sudah fit jika dilihat dari nilai RMSEA yang sudah mendekati
0.05. Hal ini didukung oleh oleh nilai confident interval yang berkisar antara
0.038 – 0.073. Artinya, jika penelitian diulang ribuan kali, nilai RMSEA terkecil
yang akan didapatkan adalah 0.038 dan paling besar 0.073. Berdasarkan hal
tersebut model sudah dapat dikatakan fit. Gambar 4.23 berikut merupakan path
diagram dari subtes topology yang terbukti scalar invariance.
Gambar 4.23 Path diagram subtes topology scalar invariance equal lambda
(RMSEA = 0.056 dan 90% C.I = 0.038 – 0.073).
Tabel 4.33
Koefisien muatan faktor dan threshold subtes topology scalar invariance equal
lambda (unstandardized)
Item Unstandardized
Coefficient
Unstandardized
Threshold T-value P-value Ket.
Item 3 0.394 -0.163 13.137 0.000 V
0.394 -0.163 13.137 0.000 V
Item 5 0.394 0.030 13.137 0.000 V
0.394 0.030 13.137 0.000 V
Item 6 0.394 0.425 13.137 0.000 V
0.394 0.425 13.137 0.000 V
Item 8 0.394 0.640 13.137 0.000 V
0.394 0.640 13.137 0.000 V
Item 9 0.394 0.861 13.137 0.000 V
0.394 0.861 13.137 0.000 V
Item 10 0.394 0.976 13.137 0.000 V
0.394 0.976 13.137 0.000 V
Keterangan: FEMALE
MALE FEMALE
MALE
127
Pada tabel di atas dapat dilihat semua item pada subtes topology memiliki nilai
indeks koefisien muatan faktor dan threshold yang sama baik di kelompok
perempuan dan di kelompok laki-laki. Agar setiap indeks pada item subtes
topology dapat dibandingkan, maka peneliti melampirkan tabel 4.34 yang berisi
indeks item yang sudah dalam skala baku (standardized).
Tabel 4.34
Koefisien muatan faktor dan threshold subtes topology scalar invariance
(standardized)
Item Standardized
Coefficient
Standardized
Threshold T-value P-value Ket.
Item 3 0.394 -0.163 13.137 0.000 V
0.500 -0.207 6.172 0.000 V
Item 5 0.394 0.030 13.137 0.000 V
0.567 0.043 5.902 0.000 V
Item 6 0.394 0.425 13.137 0.000 V
0.353 0.381 4.988 0.000 V
Item 8 0.394 0.640 13.137 0.000 V
0.319 0.518 5.264 0.000 V
Item 9 0.394 0.861 13.137 0.000 V
0.420 0.917 7.321 0.000 V
Item 10 0.394 0.976 13.137 0.000 V
0.398 0.985 7.148 0.000 V
Keterangan:
Setelah subtes topology terbukti memenuhi tahapan scalar invariance, kemudian
peneliti melakukan uji validitas pada tahap measurement invariance yang lebih
tinggi, yaitu tahapan error variance invariance. Model 6 item dengan satu faktor
diuji dengan data yang kemudian menghasilkan nilai chi-square total = 70.806,
nilai chi-square di kelompok perempuan = 29.027, nilai chi-square di kelompok
laki-laki = 41.780, df = 33, p-value = 0.0001, RMSEA = 0.051, 90% Confident
interval = 0.035 – 0.068. Dapat dilihat pada hasil analisis di atas bahwa model
sudah fit karena nilai indeks RMSEA mendekati 0.05. Kemudian hal ini didukung
FEMALE
MALE
128
dengan nilai confident interval RMSEA yang berkisar antara 0.035 – 0.068.
Artinya, jika penelitian diulang ribuan kali, nilai indeks RMSEA terkecil yang
akan didapatkan sebesar 0.035 dan paling besar sebesar 0.068. Berdasarkan hal
tersebut model sudah dapat dikatakan fit. Gambar 4.24 berikut merupakan path
diagram dari subtes topology yang terbukti error variance invariance.
Gambar 4.24 Path diagram dari subtes topology error variance invariance
(RMSEA = 0.051 dan 90% C.I = 0.035 – 0.068)
Tabel 4.35
Koefisien muatan faktor, threshold, residual variance subtes topology error
variance invariance (unstandardized)
Item Unstandardized
Coefficient
Unstandardized
Threshold
Unstandardized
Residual P-value Ket.
Item 3 0.433 -0.175 1.000 0.000 V
0.433 -0.175 0.852 0.000 V
Item 5 0.433 0.052 1.000 0.000 V
0.433 0.052 0.852 0.000 V
Item 6 0.433 0.455 1.000 0.000 V
0.433 0.455 0.852 0.000 V
Item 8 0.433 0.656 1.000 0.000 V
0.433 0.656 0.852 0.000 V
Item 9 0.433 0.962 1.000 0.000 V
0.433 0.962 0.852 0.000 V
Item 10 0.433 1.067 1.000 0.000 V
0.433 1.067 0.852 0.000 V
Keterangan: FEMALE
MALE FEMALE
MALE
129
Pada tabel 4.35 di atas dapat dilihat semua item pada subtes topology memiliki
nilai indeks muatan faktor, threshold dan error variance yang sama baik di
kelompok perempuan dan di kelompok laki-laki. Agar setiap indeks pada item
subtes topology dapat dibandingkan, maka peneliti melampirkan tabel 4.36 yang
berisi indeks item yang sudah dalam skala baku (standardized).
Tabel 4.36
Koefisien muatan faktor, threshold, residual variance subtes topology error
variance invariance (standardized)
Item Standardized
Coefficient
Standardized
Threshold
Standardized
Residual P-value Ket.
Item 3 0.397 -0.161 0.842 0.000 V
0.424 -0.172 0.820 0.000 V
Item 5 0.397 0.048 0.842 0.000 V
0.424 0.051 0.820 0.000 V
Item 6 0.397 0.417 0.842 0.000 V
0.424 0.446 0.820 0.000 V
Item 8 0.397 0.602 0.842 0.000 V
0.424 0.644 0.820 0.000 V
Item 9 0.397 0.883 0.842 0.000 V
0.424 0.944 0.820 0.000 V
Item 10 0.397 0.979 0.842 0.000 V
0.424 1.046 0.820 0.000 V
Keterangan: 0.397
Ketika subtes topology telah mencapai tahapan error variance invariance, maka
subtes topology tersebut dapat juga dikatakan telah mencapai tahapan strict
measurement invariance. Tahapan strict measurement invariance merupakan
tahapan yang lebih ideal dibandingkan tahapan strong measurement invariance.
Selain tidak ada perbedaan makna dan tingkat kesukaran pada item, tetapi juga
tidak ada perbedaan varian error antara item yang ditempuh di kelompok
perempuan dengan yang ditempuh di kelompok laki-laki. Dengan kata lain, item-
FEMALE
MALE FEMALE
MALE
130
item yang ada di subtes topology berlaku sama dan adil di kelompok laki-laki
maupun di kelompok perempuan.
Sebagai contoh, nilai koefisien muatan faktor pada item 3 di kelompok
laki-laki adalah sebesar 0.424 dan di kelompok perempuan 0.397. Kemudian, nilai
threshold pada item 3 di kelompok laki-laki adalah -0.172 dan di kelompok
perempuan sebesar -0.161. Sedangkan nilai varian error item 2 di kelompok laki-
laki 0.820 dan di kelompok perempuan 0.842. Artinya, item 3 memiliki kadar
tingkat kesukaran dan varian error yang sama jika ditempuh oleh kelompok laki-
laki dan kelompok perempuan. Sehingga tidak ada kelompok yang dirugikan oleh
item 3 tersebut. Dengan kata lain, item 3 memang mengukur apa yang hendak
diukur secara adil baik di kelompok laki-laki dan di kelompok perempuan.
Adapun perbedaan nilai pada indeks standardized terjadi bukan karena perbedaan
sebenarnya, melainkan karena perbedaan distribusi sampling dan standar deviasi
yang disebabkan perbedaan ukuran sampel di kedua kelompok.
4.2 Multi-group Confirmatory Factor Analysis Tingkat Second Order
Model teori pada subtes ini terdiri dari 29 item, empat dimensi, dengan satu faktor
yang diteorikan mengukur fluid intelligence. Jumlah total responden adalah
sebanyak 873 orang yang terdiri 501 perempuan dan 372 laki-laki. Setelah peneliti
melakukan analisis didapatkan model dengan nilai chi-square = 557.152, df =
377, p-value = 0.0000, RMSEA = 0.024, 90 % C.I = 0.020 – 0.028.
Jika dilihat melalui nilai chi-square model ini belum fit karena nilai chi-
square masih signifikan (p<0.05). Namun, karena indeks chi-square sangat
sensitif terhadap ukuran sampel maka peneliti mempertimbangkan indeks model
131
fit yang lain seperti RMSEA dan 90 % C.I. Dapat dilihat jika berdasarkan nilai
indeks RMSEA model sudah fit (RMSEA < 0.05). Kemudian nilai 90 % confident
interval dari RMSEA yang didapatkan berkisar antara 0.020 – 0.028. Artinya, jika
penelitian diulang ribuan kali, nilai indeks RMSEA terkecil yang akan didapatkan
sebesar 0.020 dan paling besar sebesar 0.028. Berdasarkan hal tersebut model
sudah dapat dikatakan fit.
Ketika model fit telah tercapai, peneliti menaikkan konstrain teori dengan
menjadikan nilai koefisien muatan faktor pada item dan dimensi setara (equal
lambda). Dari hasil analisis didapatkan model dengan nilai chi-square = 709.920,
df = 401, p-value = 0.0000, RMSEA = 0.030, 90 % C.I = 0.026 – 0.033. Dapat
dilihat bahwa nilai RMSEA signifikan (RMSEA < 0.05). Hal ini didukung dengan
nilai confident interval RMSEA yang berkisar antara 0.026 – 0.033. Artinya, jika
penelitian diulang ribuan kali, nilai indeks RMSEA terkecil yang akan didapatkan
sebesar 0.026 dan paling besar sebesar 0.033. Berdasarkan hal tersebut model
sudah dapat dikatakan fit. Gambar 4.25 berikut merupakan path diagram dari tes
fluid intelligence equal lambda.
Gambar 4.25 Path diagram fluid intelligence equal lambda (RMSEA = 0.035)
132
Tabel 4.37
Tabel koefisien muatan faktor tes fluid intelligence equal lambda
Item Standardized Coefficient T-value P-value Keterangan
S1 0.539 25.628 0.000 V
S2 0.539 25.628 0.000 V
S3 0.539 25.628 0.000 V
S4 0.539 25.628 0.000 V
S5 0.539 25.628 0.000 V
S6 0.539 25.628 0.000 V
S7 0.539 25.628 0.000 V
S8 0.539 25.628 0.000 V
S9 0.539 25.628 0.000 V
S11 0.539 25.628 0.000 V
C1 0.653 41.612 0.000 V
C2 0.653 41.612 0.000 V
C3 0.653 41.612 0.000 V
C4 0.653 41.612 0.000 V
C5 0.653 41.612 0.000 V
C6 0.653 41.612 0.000 V
C9 0.653 41.612 0.000 V
C11 0.653 41.612 0.000 V
M1 0.496 15.984 0.000 V
M2 0.496 15.984 0.000 V
M3 0.496 15.984 0.000 V
M4 0.496 15.984 0.000 V
M7 0.496 15.984 0.000 V
T3 0.410 16.242 0.000 V
T5 0.410 16.242 0.000 V
T6 0.410 16.242 0.000 V
T8 0.410 16.242 0.000 V
T9 0.410 16.242 0.000 V
T10 0.410 16.242 0.000 V
SERIES 0.596 14.482 0.000 V
CLASS 0.725 28.659 0.000 V
MATRICE 0.524 8.465 0.000 V
TOPOLOGY 0.303 3.117 0.002 V
Keterangan: V=Valid, X=Tidak Valid
Setelah peneliti mendapatkan 29 item dan 4 dimensi valid, kemudian peneliti
melakukan analisis faktor konfirmatorik pada masing-masing kelompok gender
secara terpisah, yaitu kelompok perempuan dan kelompok laki-laki.
Pada kelompok perempuan peneliti melakukan analisis faktor
konfirmatorik 29 item dan 4 dimensi dengan satu faktor didapatkan nilai chi-
square = 490.767, p-value = 0.0000, df = 373, RMSEA = 0.025, 90% C.I = 0.019
133
– 0.031. Dapat dilihat model sudah fit karena nilai chi-square sudah tidak
signifikan (p > 0.05) dan didukung dengan nilai RMSEA yang sudah kurang dari
0.05 (RMSEA < 0.05). Kemudian nilai 90% C.I yang berkisar antara 0.019 –
0.031 yang artinya, jika penelitian diulang ribuan kali, nilai indeks RMSEA
terkecil yang akan didapatkan sebesar 0.019 dan paling besar sebesar 0.031.
Setelah model fit, peneliti mengecek item pada tes fluid intelligence di
kelompok perempuan dan menemukan seluruh item valid, maka peneliti
meningkatkan konstrain teori pada model dengan menjadikan nilai koefisien
muatan faktor pada seluruh item setara (equal lambda). Dari hasil analisis
didapatkan nilai chi-square = 601.983, p-value = 0.0000, df = 401, RMSEA =
0.032, 90 % C.I = 0.026 – 0.037. Dapat dilihat bahwa nilai RMSEA sudah lebih
kecil dari 0.05 (RMSEA < 0.05). Hal ini didukung dengan nilai confident interval
RMSEA yang berkisar antara 0.026 – 0.037. Artinya, jika penelitian diulang
ribuan kali, nilai indeks RMSEA terkecil yang akan didapatkan sebesar 0.026 dan
paling besar sebesar 0.037. Berdasarkan hal tersebut model sudah dapat dikatakan
fit. Gambar 4.26 berikut merupakan path diagram dari tes fluid intelligence di
kelompok perempuan yang terbukti equal lambda.
Gambar 4.26 Path diagram tes fluid intelligence female equal lambda
(RMSEA = 0.032)
134
Tabel 4.38
Tabel koefisien muatan faktor tes fluid intelligence female equal lambda
Item Standardized Coefficient T-value P-value Keterangan
S1 0.549 19.710 0.000 V
S2 0.549 19.710 0.000 V
S3 0.549 19.710 0.000 V
S4 0.549 19.710 0.000 V
S5 0.549 19.710 0.000 V
S6 0.549 19.710 0.000 V
S7 0.549 19.710 0.000 V
S8 0.549 19.710 0.000 V
S9 0.549 19.710 0.000 V
S11 0.549 19.710 0.000 V
C1 0.665 34.561 0.000 V
C2 0.665 34.561 0.000 V
C3 0.665 34.561 0.000 V
C4 0.665 34.561 0.000 V
C5 0.665 34.561 0.000 V
C6 0.665 34.561 0.000 V
C9 0.665 34.561 0.000 V
C11 0.665 34.561 0.000 V
M1 0.504 12.110 0.000 V
M2 0.504 12.110 0.000 V
M3 0.504 12.110 0.000 V
M4 0.504 12.110 0.000 V
M7 0.504 12.110 0.000 V
T3 0.413 12.656 0.000 V
T5 0.413 12.656 0.000 V
T6 0.413 12.656 0.000 V
T8 0.413 12.656 0.000 V
T9 0.413 12.656 0.000 V
T10 0.413 12.656 0.000 V
SERIES 0.596 13.846 0.000 V
CLASS 0.492 15.319 0.000 V
MATRICE 0.649 11.725 0.000 V
TOPOLOGY 0.791 10.588 0.000 V
Keterangan: V=Valid, X=Tidak Valid
Setelah analisis dilakukan pada kelompok perempuan, peneliti kembali
melakukan analisis faktor konfirmatorik pada kelompok laki-laki yang berjumlah
372 responden. Hasil analisis menunjukan nilai chi-square = 439.137, p-value =
0.0103, df = 373, RMSEA = 0.022, 90% C.I = 0.011 – 0.030. Dapat dilihat bahwa
nilai RMSEA sudah lebih kecil dari 0.05 (RMSEA < 0.05). Hal ini didukung
dengan nilai confident interval RMSEA yang berkisar antara 0.011 – 0.030.
135
Artinya, jika penelitian diulang ribuan kali, nilai indeks RMSEA terkecil yang
akan didapatkan sebesar 0.011 dan paling besar sebesar 0.030. Berdasarkan hal
tersebut model sudah dapat dikatakan fit.
Setelah model fit, peneliti mengecek item pada tes fluid intelligence di
kelompok laki – laki dan menemukan seluruh item valid, maka peneliti
meningkatkan konstrain teori pada model dengan menjadikan nilai koefisien
muatan faktor pada seluruh item setara (equal lambda). Dari hasil analisis
didapatkan nilai chi-square = 518.500, p-value = 0.0001, df = 401, RMSEA =
0.028, 90 % C.I = 0.021 – 0.035. Dapat dilihat bahwa nilai RMSEA sudah lebih
kecil dari 0.05 (RMSEA < 0.05). Hal ini didukung dengan nilai confident interval
RMSEA yang berkisar antara 0.021 – 0.035. Artinya, jika penelitian diulang
ribuan kali, nilai indeks RMSEA terkecil yang akan didapatkan sebesar 0.021 dan
paling besar sebesar 0.035. Berdasarkan hal tersebut model sudah dapat dikatakan
fit. Gambar 4.27 berikut merupakan path diagram dari tes fluid intelligence di
kelompok laki – laki yang terbukti equal lambda.
Gambar 4.27 Path diagram tes fluid intelligence kelompok laki – laki equal
lambda (RMSEA = 0.028)
136
Tabel 4.39
Tabel koefisien muatan faktor tes fluid intelligence male equal lambda
Item Standardized
Coefficient
T-value P-value Keteranga
n
S1 0.511 15.664 0.000 V
S2 0.511 15.664 0.000 V
S3 0.511 15.664 0.000 V
S4 0.511 15.664 0.000 V
S5 0.511 15.664 0.000 V
S6 0.511 15.664 0.000 V
S7 0.511 15.664 0.000 V
S8 0.511 15.664 0.000 V
S9 0.511 15.664 0.000 V
S11 0.511 15.664 0.000 V
C1 0.654 25.925 0.000 V
C2 0.654 25.925 0.000 V
C3 0.654 25.925 0.000 V
C4 0.654 25.925 0.000 V
C5 0.654 25.925 0.000 V
C6 0.654 25.925 0.000 V
C9 0.654 25.925 0.000 V
C11 0.654 25.925 0.000 V
M1 0.500 11.571 0.000 V
M2 0.500 11.571 0.000 V
M3 0.500 11.571 0.000 V
M4 0.500 11.571 0.000 V
M7 0.500 11.571 0.000 V
T3 0.406 10.398 0.000 V
T5 0.406 10.398 0.000 V
T6 0.406 10.398 0.000 V
T8 0.406 10.398 0.000 V
T9 0.406 10.398 0.000 V
T10 0.406 10.398 0.000 V
SERIES 0.729 14.588 0.000 V
CLASS 0.570 16.529 0.000 V
MATRICE 0.746 10.746 0.000 V
TOPOLOGY 0.917 9.701 0.000 V
Keterangan: V=Valid, X=Tidak Valid
Setelah didapatkan 29 item dan empat dimensi yang terbukti valid pada dua
kelompok gender, peneliti akan melakukan MGCFA pada kelompok laki-laki dan
perempuan secara simultan. Pada model 29 item, empat dimensi dengan satu
137
faktor peneliti akan menguji tahapan scalar invariance, artinya apakah nilai
threshold dan koefisien muatan faktor pada item tes fluid intelligence memiliki
nilai yang sama di kedua kelompok gender kemudian fit dengan data. Sebagai
tambahan scalar invariance merupakan tahapan yang lebih tinggi dibandingkan
configural invariance (pattern invariance) dan metric invariance (lambda
invariance). Artinya jika model fit dicapai pada tahap scalar invariance, maka
tahapan measurement invariance sebelumnya juga telah terpenuhi.
Model 29 item, empat dimensi dengan satu faktor dianalisis dan diuji
dengan data didapatkan model dengan nilai chi-square total = 958.729, nilai chi-
square di kelompok perempuan = 510.282, nilai chi-square di kelompok laki-laki
= 448.448, df = 767, p-value = 0.0000, RMSEA = 0.024, 90% C.I = 0.019 –
0.029. Dapat dilihat model belum fit jika dilihat dari nilai chi-square (p < 0.05).
Namun, karena indeks chi-square sangat sensitif terhadap ukuran sampel, maka
peneliti mempertimbangkan indeks model fit lain seperti RMSEA. Dapat dilihat
berdasarkan nilai indeks RMSEA model sudah fit (p < 0.05). Kemudian hal ini
didukung dengan nilai confident interval RMSEA yang berkisar antara 0.019 –
0.029. Artinya, jika penelitian diulang ribuan kali, nilai indeks RMSEA terkecil
yang akan didapatkan sebesar 0.019 dan paling besar sebesar 0.029. Berdasarkan
hal tersebut model sudah dapat dikatakan fit. Gambar 4.28 berikut merupakan
path diagram dari tes fluid intelligence yang terbukti scalar invariance.
138
Gambar 4.28 Path diagram fluid intelligence scalar invariance (RMSEA =
0.024)
Tabel 4.40
Koefisien muatan faktor dan intercept tes fluid intelligence scalar invariance
(unstandardized)
Item Unstandardized
Coefficient
Unstandardized
Intercept T-value P-value Ket.
SERIES 0.444 0.000 4.786 0.000 V
0.403 0.174 3.957 0.000 V
CLASS 0.318 0.000 6.137 0.000 V
0.469 -0.067 6.521 0.000 V
MATRICE 0.361 0.000 3.938 0.000 V
0.346 -0.086 3.467 0.000 V
TOPOLOGY 0.286 0.000 4.079 0.000 V
0.322 0.117 3.462 0.000 V
Keterangan:
Pada tabel di atas dapat dilihat semua item pada tes fluid intelligence memiliki
nilai indeks koefisien muatan faktor dan threshold yang sama baik di kelompok
perempuan dan di kelompok laki-laki. Agar setiap indeks pada item tes fluid
intelligence dapat dibandingkan, maka peneliti melampirkan tabel 4.41 yang
berisi indeks item yang sudah dalam skala baku (standardized).
FEMALE
MALE
139
Tabel 4.41
Koefisien muatan faktor dan intercept tes fluid intelligence scalar invariance
(standardized)
Item Unstandardized
Coefficient
Unstandardized
Intercept T-value P-value Ket.
0.823 1.044 2.163 0.000 V
SERIES 0.708 0.000 4.786 0.000 V
0.456 0.306 3.957 0.000 V
CLASS 0.676 0.000 6.137 0.000 V
0.694 -0.096 6.521 0.000 V
MATRICE 0.779 0.000 3.938 0.000 V
0.779 -0.193 3.467 0.000 V
TOPOLOGY 0.715 0.000 4.079 0.000 V
0.715 0.259 3.462 0.000 V
Keterangan:
Ketika tes fluid intelligence telah mencapai tahapan scalar invariance, maka tes
fluid intelligence tersebut dapat juga dikatakan telah mencapai tahapan strong
measurement invariance. Artinya, tidak ada perbedaan makna dan tingkat
kesukaran antara item yang ditempuh kelompok perempuan dengan yang
ditempuh kelompok laki-laki. Dengan kata lain, item-item yang ada di tes fluid
intelligence berlaku sama di kelompok laki-laki maupun di kelompok perempuan.
Setelah tes fluid intelligence terbukti scalar invariance, peneliti
meningkatkan konstrain teori dengan mengkonstrain koefisien muatan faktor
setara pada seluruh item di setiap kelompok. Model ini dianalisis kembali
menggunakan MGCFA dan didapatkan nilai chi-square total = 1102.682, nilai
chi-square di kelompok perempuan = 649.315, nilai chi-square di kelompok laki-
laki = 453.367, df = 799, p-value = 0.0000, RMSEA = 0.030, 90% C.I = 0.025 –
0.034. Dapat dilihat model belum fit jika dilihat dari nilai chi-square (p < 0.05).
Namun, karena indeks chi-square sangat sensitif terhadap ukuran sampel, maka
peneliti mempertimbangkan indeks model fit lain seperti RMSEA. Dapat dilihat
FEMALE
MALE
140
berdasarkan nilai indeks RMSEA model sudah fit (RMSEA < 0.05). Kemudian
hal ini didukung dengan nilai confident interval RMSEA yang berkisar antara
0.025 – 0.034. Artinya, jika penelitian diulang ribuan kali, nilai indeks RMSEA
terkecil yang akan didapatkan sebesar 0.025 dan paling besar sebesar 0.034.
Berdasarkan hal tersebut model sudah dapat dikatakan fit. Gambar 4.29 berikut
merupakan path diagram dari subtes series yang terbukti scalar invariance dan
equal lambda.
Gambar 4.29 Path diagram tes fluid intelligence scalar invariance dan equal
lambda (RMSEA = 0.030)
Tabel 4.42
Koefisien muatan faktor dan intercept tes fluid intelligence scalar invariance
(unstandardized)
Item Unstandardized
Coefficient
Unstandardized
intercept T-value P-value Ket.
SERIES 0.580 0.000 38.097 0.000 V
0.580 -0.022 38.097 0.000 V
CLASS 0.580 0.000 38.097 0.000 V
0.580 -0.257 38.097 0.000 V
MATRICE 0.580 0.000 38.097 0.000 V
0.580 -0.151 38.097 0.000 V
TOPOLOGY 0.580 0.000 38.097 0.000 V
0.580 0.132 38.097 0.000 V
Keterangan: FEMALE
MALE
141
Pada tabel di atas dapat dilihat semua item pada tes fluid intelligence memiliki
nilai indeks koefisien muatan faktor dan threshold yang sama baik di kelompok
perempuan dan di kelompok laki-laki. Agar setiap indeks pada item tes fluid
intelligence dapat dibandingkan, maka peneliti melampirkan tabel 4.43 yang
berisi indeks item yang sudah dalam skala baku (standardized).
Tabel 4.43
Koefisien muatan faktor dan intercept tes fluid intelligence scalar invariance
(standardized)
Item Unstandardized
Coefficient
Unstandardized
Intercept T-value P-value Ket.
SERIES 0.613 0.000 15.601 0.000 V
0.657 -0.025 12.058 0.000 V
CLASS 0.506 0.000 18.600 0.000 V
0.608 -0.269 11.888 0.000 V
MATRICE 0.667 0.000 12.290 0.000 V
0.726 -0.189 9.276 0.000 V
TOPOLOGY 0.814 0.000 11.372 0.000 V
0.875 0.199 9.376 0.000 V
Keterangan:
Setelah tes fluid intelligence terbukti memenuhi tahapan scalar invariance,
kemudian peneliti melakukan uji validitas pada tahap measurement invariance
yang lebih tinggi, yaitu tahapan error variance invariance. Model 29 item, empat
dimensi dengan satu faktor diuji dengan data yang kemudian menghasilkan nilai
chi-square total = 1110.048, nilai chi-square di kelompok perempuan = 652.233,
nilai chi-square di kelompok laki-laki = 457.814, df = 799, p-value = 0.0000,
RMSEA = 0.030, 90% Confident interval = 0.026 – 0.034. Dapat dilihat pada
hasil analisis di atas bahwa model sudah fit karena nilai indeks RMSEA sudah di
bawah 0.05. Kemudian hal ini didukung dengan nilai confident interval RMSEA
yang berkisar antara 0.026 – 0.034. Artinya, jika penelitian diulang ribuan kali,
FEMALE
MALE
142
nilai indeks RMSEA terkecil yang akan didapatkan sebesar 0.026 dan paling besar
sebesar 0.034. Berdasarkan hal tersebut model sudah dapat dikatakan fit. Gambar
4.30 berikut merupakan path diagram dari tes fluid intelligence yang terbukti
error variance invariance.
Gambar 4.30 Path diagram fluid intelligence error variance invariance
(RMSEA = 0.030)
Tabel 4.44
Koefisien muatan faktor dan intercept tes fluid intelligence error variance
invariance (unstandardized)
Item Unstandardized
Coefficient
Unstandardized
intercept
Unstandardized
Residual P-value Ket.
SERIES 0.635 0.000 1.000 0.000 V
0.635 -0.021 0.526 0.000 V
CLASS 0.635 0.000 1.000 0.000 V
0.635 -0.352 0.825 0.000 V
MATRICE 0.635 0.000 1.000 0.000 V
0.635 -0.140 0.333 0.000 V
TOPOLOGY 0.635 0.000 1.000 0.000 V
0.635 0.120 0.087 0.000 V
Keterangan: FEMALE
MALE
143
Pada tabel di atas dapat dilihat semua item pada tes fluid intelligence memiliki
nilai indeks koefisien muatan faktor dan threshold yang sama baik di kelompok
perempuan dan di kelompok laki-laki. Agar setiap indeks pada item tes fluid
intelligence dapat dibandingkan, maka peneliti melampirkan tabel 4.45 yang
berisi indeks item yang sudah dalam skala baku (standardized).
Tabel 4.45
Koefisien muatan faktor dan threshold tes fluid intelligence error variance
invariance (standardized)
Item Standardized
Coefficient
Standardized
Threshold
Standardized
Residual P-value Ket.
SERIES 0.621 0.000 0.614 0.000 V
0.658 -0.022 0.566 0.000 V
CLASS 0.459 0.000 0.789 0.000 V
0.573 -0.317 0.672 0.000 V
MATRICE 0.698 0.000 0.512 0.000 V
0.740 -0.163 0.453 0.000 V
TOPOLOGY 0.830 0.000 0.310 0.000 V
0.907 0.171 0.177 0.000 V
Keterangan:
Ketika tes fluid intelligence telah mencapai tahapan error variance invariance,
maka tes fluid intelligence tersebut dapat juga dikatakan telah mencapai tahapan
strict measurement invariance. Tahapan strict measurement invariance
merupakan tahapan yang lebih ideal dibandingkan tahapan strong measurement
invariance. Selain tidak ada perbedaan makna dan tingkat kesukaran pada item,
tetapi juga tidak ada perbedaan varian error antara item yang ditempuh di
kelompok perempuan dengan yang ditempuh di kelompok laki-laki. Dengan kata
lain, item-item yang ada di tes fluid intelligence berlaku sama dan adil di
kelompok laki-laki maupun di kelompok perempuan.
FEMALE
MALE
144
BAB 5
KESIMPULAN, DISKUSI DAN SARAN
5.1 Kesimpulan
Hipotesis pada penelitian ini adalah sebagai berikut:
1. Seluruh item pada subtes series fit dengan data jika diuji tahapan configural
invariance, metric invariance, scalar invariance dan error variance
invariance di kelompok gender.
2. Seluruh item pada subtes classification fit dengan data jika diuji tahapan
configural invariance, metric invariance, scalar invariance dan error
variance invariance di kelompok gender.
3. Seluruh item pada subtes matrice fit dengan data jika diuji tahapan configural
invariance, metric invariance, scalar invariance dan error variance
invariance di kelompok gender.
4. Seluruh item pada subtes topology fit dengan data jika diuji tahapan
configural invariance, metric invariance, scalar invariance dan error
variance invariance di kelompok gender.
5. Seluruh subtes tes CFIT fit dengan data jika diuji tahapan configural
invariance, metric invariance, scalar invariance dan error variance
invariance di kelompok gender.
Kesimpulan tentang hasil uji hipotesis 1 hingga hipotesis 4 dapat dilihat
melalui tabel 5.1 berikut ini:
145
Tabel 5.1
Tabel model fit subtes
Subtes Model Test Goodness of fit Keputusan
Series
Scalar Invariance
Chi-square = 164.372 Df = 88
Chi-square female = 81.979
Chi-square male = 82.972
p-value = 0.0000
RMSEA = 0.045
90% C.I = 0.034 – 0.055
Fit
Error Variance
Invariance
Chi-square = 181.381 Df = 97
Chi-square female = 74.741
Chi-square male = 106.640
p-value = 0.0000
RMSEA = 0.045
90% C.I = 0.034 – 0.055
Fit
Classification
Scalar Invariance
Chi-square = 115.571 Df = 50
Chi-square female = 74.469
Chi-square male = 66.652
p-value = 0.0000
RMSEA = 0.055
90% C.I = 0.042 – 0.068
Fit
Error Variance
Invariance
Chi-square = 164.372 Df = 57
Chi-square female = 81.979
Chi-square male = 82.972
p-value = 0.0000
RMSEA = 0.045
90% C.I = 0.034 – 0.055
Fit
Matrice
Scalar Invariance
Chi-square = 33.590 Df = 18
Chi-square female = 17.008
Chi-square male = 16.583
p-value = 0.0141
RMSEA = 0.045
90% C.I = 0.020 – 0.068
Fit
Error Variance
Invariance
Chi-square = 41.267 Df = 22
Chi-square female = 16.750
Chi-square male = 24.517
p-value = 0.049
RMSEA = 0.045
90% C.I = 0.023 – 0.066
Fit
Topology
Scalar Invariance
Chi-square = 65.971 Df = 28
Chi-square female = 29.967
Chi-square male = 37.003
p-value = 0.0000
RMSEA = 0.056
90% C.I = 0.038 – 0.073
Fit
Error Variance
Invariance
Chi-square = 70.806 Df = 33
Chi-square female = 29.027
Chi-square male = 41.780
p-value = 0.0001
RMSEA = 0.051
90% C.I = 0.035 – 0.068
Fit
146
Berikut ini merupakan tabel hasil dari analisis MGCFA pada tingkatan
second order.
Tabel 5.2
Tabel model fit Second order model
Tes Model Test Goodness of fit Keputusan
Fluid Intelligence
Scalar
Invariance
Chi-square = 1102.682 Df = 799
Chi-square female = 649.315
Chi-square male = 453.367
p-value=0.0000
RMSEA=0.030
90% C.I = 0.025 – 0.034
Fit
Error
Variance
Invariance
Chi-square = 1110.048 Df = 799
Chi-square female = 74.741
Chi-square male = 106.640
p-value=0.0000
RMSEA=0.030
90% C.I = 0.026 – 0.034
Fit
Berdasarkan tabel 5.1 dan 5.2 di atas dapat disimpulkan beberapa hal berikut ini,
yaitu:
1. Subtes series fit dengan data dan memenuhi tahapan configural invariance,
metric invariance, scalar invariance, dan error variance invariance. Model fit
tercapai dengan catatan setelah peneliti mengeluarkan tiga item dengan
koefisien muatan faktor negatif dari model, yaitu item 10, 12 dan item 13.
Sehingga subtes series hanya tersisa 10 item.
2. Subtes classification fit dengan data dan memenuhi tahapan configural
invariance, metric invariance, scalar invariance, dan error variance
invariance. Model fit tercapai dengan catatan setelah peneliti mengeluarkan 4
item dengan koefisien muatan faktor negatif dan 2 item yang tidak signifikan
dari model, yaitu item 7, item 8, item 10, item 12, item 13 dan item 14.
Sehingga subtes classification hanya tersisa 8 item.
147
3. Subtes matrice fit dengan data dan memenuhi tahapan configural invariance,
metric invariance, scalar invariance, dan error variance invariance. Model fit
tercapai dengan catatan setelah peneliti mengeluarkan 2 item dengan koefisien
muatan faktor negatif dan 6 item yang tidak signifikan dari model, yaitu item 5,
item 6, item 8, item 9, item 10, item 11, item 12 dan item 13. Sehingga subtes
matrice hanya tersisa 5 item.
4. Subtes topology fit dengan data dan memenuhi tahapan configural invariance,
metric invariance, scalar invariance, dan error variance invariance. Model fit
tercapai setelah peneliti mendrop item 1, item 2, item 4 dan item 7. Sehingga
subtes topology hanya tersisa 6 item.
5. Seluruh subtes tes CFIT fit dengan data dan memenuhi tahapan configural
invariance, metric invariance, scalar invariance, dan error variance
invariance. Lebih khusus, subtes series, classification, matrice dan topology
memang memang mengukur apa yang hendak diukur dengan adil di kelompok
gender berbeda. Dengan catatan, dari 50 item tes CFIT peneliti harus mendrop
21 item terlebih dahulu agar didapatkan model yang memenuhi error variance
invariance.
Hasil analisis MGCFA di kelompok gender menunjukkan bahwa seluruh
subtes pada tes CFIT dapat memenuhi seluruh tahapan dari measurement
invariance, yaitu configural invariance, metric invariance, scalar invariance, dan
error variance invariance. Meskipun situasi di atas tercapai dengan mengeluarkan
item-item yang memiliki muatan faktor negatif. Subtes-subtes tersebut tetap
terbukti fit dengan data atau didukung kebenarannya.
148
Lebih khusus, hasil di atas menunjukkan bahwa alat tes inteligensi CFIT
layak untuk digunakan untuk mengukur fluid intelligence. Namun, perlu
diperhatikan bahwa beberapa item yang memiliki faktor negatif dan tidak
signifikan harus dicek kembali untuk direvisi atau dibuang. Karena tes
kemampuan seperti tes inteligensi harus memiliki koefisien muatan faktor yang
positif agar individu yang memiliki kemampuan tinggi akan memiliki peluang
yang lebih besar untuk menjawab dengan benar.
5.2 Diskusi
Setidaknya ada tiga isu penting yang dapat peneliti paparkan dari hasil penelitian
ini. Isu pertama, tentang model fit configural invariance dan metric invariance
pada masing-masing subtes. Isu kedua, tentang penafsiran dan makna setiap
model fit yang dicapai tes inteligensi CFIT. Isu ketiga, tentang full measurement
invariance vs partial measurement invariance. Oleh karena itu, peneliti akan
memaparkan satu per satu isu-isu tersebut.
Isu pertama, perlu digaris bawahi bahwa tahapan configural invariance
dan metric invariance terpenuhi secara otomatis karena tahapan yang lebih tinggi
yaitu scalar invariance sudah fit dengan data. Hal ini terjadi karena default
software MPLUS 7.0 mulai melakukan analisis dengan model yang ideal terlebih
dahulu (full constrained), yaitu tahapan scalar invariance. Ketika uji model
dimulai dari model yang paling restricted, jika model tersebut tidak fit peneliti
tinggal membebaskan konstrain parameter yang semula di scalar invariance
menjadi metric invariance dan begitu seterusnya.
149
Pada saat model yang ideal atau dengan banyak konstrain sudah fit, maka
tahap di bawahnya secara otomatis fit. Di kalangan metodologis metode ini
dikenal sebagai metode step-down (Brown, 2006). Metode ini sangat dianjurkan
ketika terdapat lebih dari satu faktor dan lebih dari dua kelompok perbandingan.
Meskipun, metode ini dapat pula digunakan pada model yang hanya terdiri dari
satu faktor.
Isu kedua, mengenai penafsiran masing-masing model fit pada subtes tes
CFIT. Berikut ini merupakan interpretasi makna model fit dari masing-masing
model. Pertama, seluruh subtes tes CFIT terbukti dapat memenuhi tahapan
configural invariance. Hal ini berarti seluruh subtes tes CFIT memiliki pola teori
yang sama baik di kelompok perempuan dan di kelompok lain. Dengan kata lain,
jika configural invariance terpenuhi, maka baik laki-laki dan perempuan
mengkonseptualisasikan konstruk pada tes CFIT dengan cara yang sama.
Kedua, seluruh subtes tes CFIT terbukti dapat memenuhi tahapan metric
invariance. Menguji tahapan metric invariance pada sebuah alat tes merupakan
hal yang sangat penting karena tahapan ini menguji apakah sebuah alat tes
memiliki makna dan struktur yang sama di kelompok yang berbeda. Dalam hal ini
dapat kita lihat baik subtes series, classification, matrice dan topology dimaknai
dengan makna yang sama di kelompok yang berbeda (laki-laki vs perempuan).
Tahapan ini merupakan prasyarat yang harus dipenuhi untuk analisis
perbandingan yang lebih tinggi (scalar invariance, equal factor variance, dan
equal factor mean). Situasi dimana tahapan metric invariance telah terpenuhi
seperti pada subtes-subtes tes CFIT ini dapat juga disebut dengan kondisi weak
150
measurement invariance, oleh karena itu perlu analisis pada tahap selanjutnya
agar dapat mengetahui apakah alat tes CFIT ini sudah ideal.
Ketiga, seluruh subtes tes CFIT terbukti dapat memenuhi tahapan scalar
invariance. Tahapan ini merupakan kelanjutan dari tahapan sebelumnya, yaitu
metric invariance. Ketika seluruh subtes CFIT dapat memenuhi tahapan ini,
artinya seluruh item pada subtes tes CFIT memiliki tingkat kesukaran yang sama
baik di kelompok laki-laki dan di kelompok perempuan. Sehingga tidak ada
kelompok yang menemukan item lebih sulit jika dibandingkan kelompok lain.
Jika tahapan scalar invariance tidak terpenuhi, artinya ada salah satu kelompok
yang akan menemukan bahwa pada subtes lebih sulit dibandingkan kelompok
lain.
Konsekuensi dari hal ini tentu saja perbandingan skor tes akan menjadi
tidak comparable karena ada item yang menjadi lebih sulit atau lebih mudah jika
ditempuh jenis kelamin tertentu. Namun, seperti yang dapat dilihat seluruh item
pada seluruh subtes tes CFIT telah memenuhi tahapan scalar invariance sehingga
perbandingan skor tes antara laki-laki dan perempuan menjadi bermakna dan
dapat dibandingkan. Situasi seperti ini dapat disebut pula dengan istilah strong
measurement invariance, dimana tahapan ini merupakan tahap yang sudah cukup
ideal untuk dimiliki sebuah alat tes (Brown, 2006).
Keempat, seluruh subtes tes CFIT terbukti dapat memenuhi tahapan error
variance invariance. Tahapan ini merupakan tahap yang opsional mengingat
tahap scalar invariance sudah cukup ideal dimiliki sebuah alat ukur. Selain itu
tahapan error variance invariance merupakan tahapan yang paling sulit untuk
151
dicapai sehingga banyak ahli beranggapan tidak perlu alat tes sampai pada tahap
ini (Byrne et al., 1989). Oleh karena itu tahap ini sering disebut dengan istilah
strict measurement invariance. Namun, jika sebuah penelitian bertujuan untuk
mengecek fairness dan equity dari sebuah tes, situasi alat tes yang memenuhi
tahap strict measurement invariance sangat diperlukan (Meredith & Teresi, 2006).
Selain kepentingan untuk mengecek fairness dan equity, strict
measurement invariance dapat juga mengindikasikan bahwa sebuah alat tes
memiliki equivalent reliability (Brown, 2006). Seperti yang dapat dilihat pada
hasil uji error variance invariance pada item subtes tes CFIT di atas, reliabilitas
skor tes yang didapatkan pada kelompok perempuan akan sama nilainya dengan
reliabilitas skor tes yang didapatkan pada kelompok laki-laki. Meskipun, situasi
equivalent reliability ini masih memiliki syarat yang harus dipenuhi, yaitu factor
variance pada alat tes CFIT harus invariant atau sama di kelompok yang berbeda
(laki-laki vs perempuan) (Vandenberg & Lance, 2000). Dan peneliti memutuskan
untuk tidak menguji lebih jauh tentang factor variance invariance karena hal
tersebut bukan bagian dari pembahasan measurement invariance, melainkan
bagian dari pembahasan structural invariance. Dengan kata lain, hal tersebut
merupakan di luar konteks pertanyaan pada penelitian ini.
Dan informasi terakhir yang didapatkan saat sebuah alat tes mencapai
tahapan strict measurement invariance, artinya item pada tes tersebut tidak
mengandung bias pengukuran atau measurement bias. Argumen ini dapat dilihat
pada penelitian Milfont dan Fischer (2010). Dalam hal ini tes CFIT yang
dianalisis pada penelitian ini telah terbukti secara empiris memenuhi seluruh
152
tahapan measurement invariance. Sehingga penafsiran dan perbandingan konstruk
di kelompok yang berbeda dapat dilakukan.
Isu terakhir yang patut menjadi perhatian pada penelitian ini adalah isu full
measurement invariance vs partial measurement invariance. Full measurement
invariance adalah situasi ketika model fit tercapai dengan kondisi seluruh
parameter item seperti parameter lambda, threshold dan error variance memiliki
nilai yang sama di kelompok yang berbeda. Sebaliknya, partial measurement
invariance adalah situasi ketika model baru dapat fit setelah ada satu atau dua
parameter item yang dibebaskan nilainya untuk bervariasi di kedua kelompok
(Byrne et al., 1989; Steenkamp & Baumgartner, 1998; Brown, 2006).
Byrne et al., (1989) menyatakan bahwa full measurement invariance
adalah situasi yang sulit dicapai oleh sebuah alat ukur. Sehingga alternatif ketika
full measurement invariance tidak tercapai adalah mengecek apakah mungkin
terjadi partial measurement invariance. Ketika suatu alat ukur masih dapat fit
pada situasi partial measurement invariance, maka alat tes tersebut masih dapat
dikatakan ideal dan baik.
Perlu diperhatikan ketika terjadi partial measurement invariance pada
sebuah alat tes, item dengan nilai parameter berbeda di dua kelompok berbeda
dalam konteks item response theory (IRT) sering disebut dengan istilah
differential item functioning (DIF) (Brown, 2006). DIF juga seringkali mengacu
pada istilah measurement bias, maksudnya ketika ada dua orang dengan
kemampuan yang sama namun memiliki peluang yang berbeda untuk menjawab
benar pada sebuah item. Item seperti ini tentu saja tidak boleh dipakai dalam
153
sebuah alat tes. Dan pada penelitian ini, tes inteligensi CFIT tidak memiliki item
yang mengindikasikan partial measurement invariance. Mengingat seluruh subtes
tercapai dalam situasi full measurement invariance.
Hal yang ingin peneliti sampaikan adalah hasil penelitian ini yang
menunjukkan bahwa seluruh subtes tes CFIT dapat memenuhi seluruh tahapan
measurement invariance dengan nilai parameter item (lambda, threshold, error
variance). Dengan kata lain, seluruh subtes tes CFIT termasuk dalam kondisi full
measurement invariance. Meskipun, situasi ini dicapai dengan terlebih dahulu
harus mendrop item-item yang memiliki koefisien muatan faktor negatif dan item
yang tidak signifikan. Sehaingga item – item pada tes CFIT menjadi lebih sedikit
dibandingkan pada saat awal analisis. Namun, tetap saja situasi full measurement
invariance yang telah tercapai oleh tes CFIT ini perlu diadakan penelitian lanjutan
yang lebih komprehensif untuk memperkuat hasil kesimpulan ini.
5.3 Saran Penelitian
Berdasarkan hasil penelitian, analisis dan kesimpulan dari penelitian ini, maka
peneliti mengajukan beberapa saran seperti berikut ini:
5.3.1 Saran praktis
1. Bagi pengguna dan pengembang alat tes psikologi harus berhati-hati
dalam melakukan adaptasi alat tes psikologi yang diadaptasi dari budaya,
negara, atau bahasa yang berbeda. Karena tidak ada jaminan bahwa alat tes
yang telah diterjemahkan sempurna secara bahasa dapat diterjemahkan ke
bahasa atau konteks budaya lain tanpa ada masalah. Dalam penelitian ini,
tes CFIT yang diadaptasi dari versi Raymond Cattell perlu sekali diuji
154
apakah menguru hal yang sama di budaya berbeda. Terdapat kemungkinan
bahwa setiap alat tes yangg diadaptasi dari budaya luar struktur faktornya
dapat bertambah, berkurang atau berubah sama sekali maknanya. Untuk
itu setiap alat ukur psikologi wajib adanya untuk selalu diuji asumsi
invariance lintas kelompoknya secara empiris.
2. Pengguna alat tes inteligensi CFIT di Indonesia terutama biro psikologi
harus melakukan skoring skor tes hanya dengan item yang sudah terbukti
valid saja. Dan jangan terlalu cepat berpuas diri dengan alasan bahwa tes
CFIT merupakan alat tes yang sudah baku. Tes CFIT harus tetap diuji
validitasnya dan dalam proses skoringnya dianjurkan sekali menggunakan
skor sebenarnya (true score), agar tidak ada orang yang dirugikan dalam
pengambilan keputusan. Seperti yang diketahui bersama tes psikologi
seringkali berpengaruh langsung pada kehidupan seseorang baik dalam
setting klinis, pendidikan, industri, dan sosial.
3. Indonesia merupakan negara yang plural secara budaya, suku dan agama.
Hal ini dapat membuka peluang terjadinya bias pengukuran pada tes CFIT.
Oleh karena itu diharapkan tes CFIT tidak hanya diuji berdasarkan jenis
kelamin saja, tetapi juga berdasarkan variabel demografi lainnya seperti
agama, ras, etnis, suku, domisili, pekerjaan, tingkat pendidikan dan usia.
Hal ini dilakukan agar pengguna tes dan penempuh tes lebih yakin lagi
tentang validitas dari alat tes inteligensi CFIT.
155
5.3.2 Saran teoritis
1. Tidak hanya tes psikologi yang akan digunakan untuk pengambilan
keputusan tentang individu seperti tes CFIT, tes psikologi lain (kuesioner,
instrumen) yang digunakan untuk meneliti hubungan sebab akibat antar
variabel sangat perlu untuk diuji measurement invariance. Hal ini penting
diuji agar tidak terjadi kesalahan interpretasi dalam menerjemahkan hasil
penelitian. Jika alat tes yang dipakai tidak memenuhi situasi measurement
invariance, maka hasil penelitian tersebut akan tidak bermakna atau yang
lebih berbahaya adalah menyesatkan. Sehingga diharapkan penelitian
ilmiah di ilmu psikologi baik skripsi, thesis dan disertasi sudah mulai
melakukan uji measurement invariance pada setiap instrumen
penelitiannya.
2. Diharapkan pada penelitian selanjutnya, dilakukan uji validitas
measurement invariance pada tes inteligensi CFIT menggunakan
pendekatan item response theory (IRT). Hal ini perlu dilakukan sebagai
metode pembanding dari pendekatan yang digunakan pada penelitian ini,
yaitu confirmatory factor analysis (CFA). Sehingga di masa yang akan
datang akan didapatkan hasil yang lebih meyakinkan dan mendalam
tentang kesahihan dari tes inteligensi CFIT.
3. Pada penelitian selanjutnya disarankan agar dilakukan penelitian yang
mendalam tentang structural invariance, seperti factor variance
invariance, factor covariance invariance dan latent mean structure. Hal
ini penting untuk dilakukan agar penelitian tentang tes inteligensi CFIT
156
tidak berhenti sampai measurement invariance saja. Sehingga dapat
membuka pemahaman baru untuk pengguna tes dan ilmuan tentang
validitas tes inteligensi CFIT.
157
DAFTAR PUSTAKA
Aiken, L.R. 1997. Psychological testing and assessment. Needham Heights: Allyn
& Bacon.
Anastasi, Anne & Urbina, Susana. 1997. Psychological testing 7th edition. New
Jersey: Prentice Hall Int.
Bollen, K.A. 1989. Structural equations with latent variables. New York: Wiley.
Borsboom, D., Romeijn, J-W., & Wicherts, J. 2008. Measurement invariance vs
selection invariance: Is fair selection possible?. Psychological Method.
13 (2), 75-98.
Borsboom, Denny. 2006. When does measurement invariance matter?. Medical
Care. 44 (11), 176-181.
Brown, T.A. 2006. Confirmatory factor analysis for applied research. New York:
The Guilford Press.
Byrne, B.M., Shavelson, R.J., Muthen, B.O. 1989. Testing for equivalence of
factor covariance and mean structures: The issue of partial measurement
invariance. Psychological Bulletin. 105 (3), 465-466.
Chadha, N.K. 2009. Applied psychometry. New Delhi: Chaman Enterprises.
Crocker, L. & Algina, J. 2008. Introduction to classical and modern test theory.
Ohio: Cengage Learning.
Embretson, S. & Reise, S.P. 2000. Item response theory for psychologist. New
Jersey: Lawrence Erlbaum Associates, Inc.
Gardner, Howard. 2011. Frames of mind: The theory of multiple intelligences.
New York: Basic Books.
Golay, Philippe & Lecerf, Thierry. 2011. Orthogonal higher order structure and
confirmatory factor analysis of the french weschler adult intelligence
scale (WAIS-III). Psychological assessment. 23 (1), 143-152.
Gomez, R., Vence, A., & Gomez, A. 2011. Children’s depression inventory:
Invariance across children and adolescents and without depresive
disorders. Psychological Assessment. DOI: 10.1037/a0024966.
Hambleton, R.K., Swaminathan, H., & Rogers, H.J. 1991. Fundamentals of item
response theory. Newbury Park: Sage publications, Inc.
Hancock, G.R. & Mueller, R.O. 2006. Structural equation modeling: A second
course. Connecticut: Information Age Publishing, Inc.
Hayat, Bahrul. 1994. Pengantar model Rasch: Bahan penataran pengelolaan
pengujian. Jakarta: Balitbang Kemendikbud.
Hesketh, S.R., Skrondal, A., & Pickles, A. 2004. Generalized multilevel structural
equation modeling. Psychometrika. 69 (2), 167-190.
Hildebrandt, A., Sommer, W., Herzmann, G., & Wilhelm, O. 2010. Structural
invariance and age-related performances differences in face cognition.
Psychology and Aging. 25 (4), 794-810.
Kankaras, M. & Moors, G. 2011. Measurement equivalence and extreme response
bias in the comparison of attitudes across europe: A multigroup latent-
class factor approach. Methodology. 7 (2), 68-80.
158
Kaplan, David. 2004. Structural equation modeling: Foundations and extensions.
California: Sage publication, Inc.
Kaufman, A.S & Lichtenberger, E.O. 2006. Introduction to the assessment of
adolescent and adult intelligence. New Jersey: John Wiley & Sons.
Kaufman, James. & Grigorenko, Elena. L. 2009. The essential Sternberg: essay
on intelligence, psychology, and education. New York: Springer
Publishing Company.
Kline, R.B. 2011. Principles and practices of structural equation modeling 3th
edition. New York: The Guilford Press.
Kuhn, J-T. & Holling, H. 2009. Measurement invariance of divergent thinking
across gender, age, and school forms. European Journal of Psychological
Assessment. 25 (1), 1-7).
Li, Huijun., Lee, Donghyuck., Pfeiffer, S.I., Kamata, A., Kumtepe, A.T., Rosado,
Javier. 2009. Measurement invariance of the gifted rating scales-school
form across five cultural groups. Psychology Quarterly. (3), 186-198.
Maiano, C., Morin, A.J.S., Monthuy-Blanc, J., & Garbarino, J-M. 2010. Construct
validity of the fear of negative appearence evaluation scale in community
sample of French adolescents. European Journal of Psychological
Assessment. 26 (1), 19-27.
Marnat, G.G. 2006. The handbook of psychological assessment (4th Edition).
New Jersey: Wiley & Sons, Inc.
Meade, A.W & Lautenschlager, G.J. 2004. Same questions, different answers:
CFA and two IRT approaches to measurement invariance. Paper
Presented at the 19th Annual Society for Industrial/Organizational
Psychology Conference, Chicago, IL.
Meredith, W. & Teresi, J.A. 2006. An essay on measurement and factorial
invariance. Medical Care. 44 (11) 69-77.
Milfont, T.L. & Fischer, R. 2010. Testing measurement invariance across groups:
Application in cross cultural research. International Journal for
Psychological Research. 3 (1), 111-121
Miller, Patricia. 1989. Theories of developmental psychology 2nd edition. New
York: Freeman.
Millsap, R.E. 2011. Statistical approaches to measurement invariance. New
York: Taylor & Francis Group.
Mungas, D., Widaman, K.F., Reed, B.R., & Farias, S.T. 2011. Measurement
invariance of neuropsychological tests in diverse older person.
Neuropsychology. 25 (2), 260-269.
Murphy, K.R & Davidshofer, C.O. 1994. Psychological testing: Principles and
application. London: Prentice Hall Int.
Muthen, B.O. & Muthen, L.K. 2012. Mplus statistical analysis with latent
variables user’s guide. Los Angeles: Muthen & Muthen.
Nair, R.L., White, Rebecca M.B., Knight, G.P., & Roosa, M.W. 2009. Cross-
language measurement equivalence of parenting measures for use with
Mexican American populations. Journal of Family Psychology. 23 (5),
680-689.
159
Nenty, Johnson H. & Dinero, Thomas E. 1981. A cross-cultural analysis of the
fairness of the Cattell culture fair intelligence test using the Rasch model.
Applied Psychological Measurement. 5 (3), 355-368.
Newman, D.A., Limbers, C.A., & Varni, J.W. 2010. Factorial invariance of child
self-report across english and spanish language groups in hispanic
population utilizing the PedsQLTM
4.0 generic core scales. European
Journal of Psychological Assessment. 26 (3), 194-202.
Nocentini, A., Menesini, E., Pastorelli, C., Connolly, J., Pepler, D., & Craig, W.
2011. Physical dating aggression in adolescence: Cultural and gender
invariance. European Psychologist. 16 (4), 278-287.
Nye, Christopher D. & Drasgow, Fritz. 2011. Effect size indices for analyses of
measurement equivalence: Understanding the practical importance of
differences between groups. Journal Of Applied Psychology. 96 (5), 966-
980.
Ogg, J.A., Brinkman, T.M., Dedrick, R.F., & Carlson, J.S. 2010. Factor structure
and invariance across gender of the Devereux Early Childhood
Assessment Protective Factor Scale. School Psychology Quarterly. 25
(2), 107-118.
Pedhazur, E.J. 1997. Multiple regression in behavioral research: Explanation and
prediction 3th edition. Fort Worth: Thompson Learning, Inc.
Raju, N.S., Laffitte, L.J., & Byrne, B.M. 2002. Measurement equivalence: A
comparison of methods based on confirmatory factor analysis and item
response theory. Journal of Applied Psychology. 87 (3), 517-529.
Reise, S.P., Widaman, K.F., & Pugh, R.H. 1993. Confirmatory factor analysis and
item response theory: Two approaches for exploring measurement
invariance. Psychological Bulletin. 114 (3), 522-566.
Rivera-Medina, C.L., Caraballo J.N., Rodriguez-Cordero, E.R., Bernal, G., &
Davila-Marrero, E. 2010. Factor structure of CES-D and measurement
invariance across gender for low income Puerto Ricans in probability
sample. Journal of Consulting and Clinical Psychology. 78 (3), 398-408.
Salkind, Neil. J. 2007. Encyclopedia of measurement and statistics. California:
Sage Publications, Inc.
Sattler, Jerome. M. 1992. Assessment of children: Revised and updated 3th
edition. San Diego: Publisher, Inc.
Schinka, J.A. & Velicer, W.F. 2003. Handbook of psychology: Volume 2 research
methods in psychology. New Jersey: Wiley & Sons, Inc.
South, S.C. Krueger, R.F. Iacono, W.G. 2009. Factorial invariance of the dyadic
adjustment scale across gender. Psychological assessment. 21 (4), 622-
628.
Spielberger, Charles. 2002. Encyclopedia of applied psychology. Florida: Elsevier
Academic Press.
Steenkamp, J.-B.E.M & Baumgartner, H. 1998. Assessing measurement
invariance in cross-national consumer research. Journal of Consumer
Research. 25 (1), 78-90.
Sternberg, R.J. 2003. Wisdom, intelligence, and creativity synthesized.
Cambridge: Cambridge University Press.
160
Strickland, Bonnie. 2001. The gale encyclopedia of psychology 2nd edition. Ohio:
Eastword Publication Development.
Thompson, Bruce. 2004. Exploratory and confirmatory factor analysis.
Washington D.C: American Psychological Assosiation.
Umar, Jahja. 2012. Mengenal lebih dekat konsep reliabilitas skor tes. Jurnal
Pengukuran Psikologi dan Pendidikan. 2 (2), 126-140.
Urbina, Susana. 2014. Essentials of psychological testing 2nd edition. New
Jersey: Wiley & Sons, inc.
Van de Vijver, F.J.R & Leung, K. 2000. Methodological issues in psychological
research on culture. Journal of Cross-Cultural Psychology. 31 (1), 35-51.
Vandenberg, R.J & Lance, C.E. 2000. A review and synthesis of the measurement
invariance literature: Suggestions, practices, and recommendations for
organizational research. Organizational Research. 3 (1), 4-70.
Wasti, S.A., Bergman, M.E., Glomb, T.M., & Drasgow, F. 2000. Test of the
cross-cultural generalizability of a model of sexual harassment. Journal
of Applied Psychology. 85 (5), 766-778.
Wicherts, J.M., Dolan, C.V., Hessen, D.J., Oosterveld, P., van Baal, G.C.M.,
Boomsma, D.I., & Span, M.M. 2004. Are intelligence tests measurement
invariance over time? Investigating the nature of the Flynn effect.
Intelligence. 32, 509-537.
Willoughby, M.T., Wirth, R.J., & Blair, C.B. 2011. Executive function in early
childhood: Longitudinal measurement invariance and developmental
change. Psychological Assessment. Advance Online Publication. DOI:
10.1037/a0025779.