pada second order unidimensional datarepository.uinjkt.ac.id/dspace/bitstream/123456789... ·...
TRANSCRIPT
-
ESTIMASI TRUE SCORE
PADA SECOND ORDER UNIDIMENSIONAL DATA:
SEBUAH STUDI SIMULASI MONTE CARLO TENTANG DAMPAK
PANJANG TES, TINGKAT KESUKARAN DAN DAYA PEMBEDA ITEM
Thesis
Diajukan untuk Memenuhi Persyaratan Memperoleh
Gelar Magister Sains Psikologi (M. Si)
Oleh:
Puti Febrayosi
NIM: 2110070000015
FAKULTAS PSIKOLOGI
UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH
JAKARTA
1433 H / 2013
-
ii
ESTIMASI TRUE SCORE
PADA SECOND ORDER UNIDIMENSIONAL DATA:
SEBUAH STUDI SIMULASI MONTE CARLO TENTANG DAMPAK
PANJANG TES, TINGKAT KESUKARAN DAN DAYA PEMBEDA ITEM
Tesis
Diajukan Kepada Fakultas Psikologi Untuk Memenuhi Syarat
Memperoleh Gelar Master Dalam Bidang Psikologi
Oleh:
PUTI FEBRAYOSI
NIM : 2110070000015
Di Bawah Bimbingan:
Pembimbing I Pembimbing II
Jahja Umar, Ph.D Dr. Ir. Bastari, M.A
NIP. 19470521 198003 1001 NIP. 19660730 199001 1001
FAKULTAS PSIKOLOGI
UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH
JAKARTA
1434 H/2013 M
-
iii
LEMBAR PENGESAHAN
Tesis yang berjudul ” Estimasi True Score Pada Second Order Unidimensional Data: Sebuah Studi Simulasi Monte Carlo Tentang Dampak Panjang Tes, Tingkat Kesukaran dan
Daya Pembeda Item” telah diujikan dalam sidang munaqasyah Fakultas Psikologi Universitas
Islam Negeri Syarif Hidayatullah Jakarta pada tanggal 19 Januari 2013. Tesis ini telah
diterima sebagai salah satu syarat untuk memperoleh gelar Master dalam bidang Psikologi.
Jakarta, 19 Januari 2013
Sidang Munaqasyah
Dekan/ Pembantu Dekan/
Ketua Merangkap Anggota, Sekretaris,
Jahja Umar, Ph.D Dra. Fadhilah Suralaga, M.Si
NIP. 19470521 198003 1001 NIP. 19561223 198303 2001
Anggota:
Bahrul Hayat, Ph.D
NIP. 19590430 198603 1016
Dr. Ir. Bastari, M.A
NIP. 19660730 199001 1001
-
LEMBAR PERNYATAAN
Dengan ini saya menyatakan bahwa:
1. Thesis ini merupakan hasil karya asli saya yang diajukan untuk memenuhi
salah satu persyaratan memperoleh gelar sarjana strata dua (S2) di UIN
Syarif Hidayatullah Jakarta.
2. Semua sumber yang saya gunakan dalam penulisan ini telah saya
cantumkan sesuai dengan ketentuan yang berlaku.
3. Jika dikemudian hari terbukti bahwa karya ini bukan hasil karya asli saya
atau merupakan hasil jiplakan dari karya orang lain, maka saya bersedia
menerima sanksi yang berlaku di UIN Syarif Hidayatullah Jakarta.
Jakarta, 14 Januari 2013
Puti Febrayosi
NIM: 2110070000015
-
iv
ABSTRAK
(A) Fakutas Psikologi Universitas Islam Negeri Syarif Hidayatullah Jakarta
(B) Januari 2013
(C) Puti Febrayosi
(D) xii + 113 halaman + lampiran
(E) Estimasi True Score Pada Second Order Unidimensional Data: Sebuah Studi
Simulasi Monte Carlo Tentang Dampak Panjang Tes, Tingkat Kesukaran
Dan Daya Pembeda Item
(F) Penelitian ini bertujuan mengetahui apakah terdapat perbedaan atau bias pada
data unidimensional second order namun dianggap sebagai unidimensional
hanya pada tingkat pertama atau first order. Serta mengetahui sejauh mana
pengaruh panjang tes, heterogenitas daya pembeda dan tingkat kesukaran
apabila terdapat perbedaan atau bias terhadap kemampuan responden.
Penelitian ini merupakan penelitian simulasi dimana yang menjadi fokus
penelitian ialah panjang tes, heterogenitas tingkat kesukaran dan daya
pembeda, dengan replikasi 50 kali. Selanjutnya data hasil replikasi ini
dianalisis sebagai first order unidimensional dan second order unidimensional
untuk kemudian dihitung selisih theta dari kedua analisis tersebut apakah bias
atau tidak.
Hasil penelitian ini menunjukan bahwa data dengan model unidimensional
pada second order namun dianalisis sebagai unidimensional pada first order
maka hasil yang diperoleh mengenai theta ( atau kemampuan responden)
tidak memberikan gambaran yang sebenarnya, karena terdapat bias atau
perbedaan dari nilai mean yang dihasilkan lebih besar dari nol. Bias atau
perbedaan dari theta ( atau kemampuan responden) paling besar dihasilkan
oleh panjang tes 20 item dengan daya pembeda 0.20 dan tingkat kesukaran
0.10. Sedangkan bias atau perbedaan dari theta ( atau kemampuan
responden) paling kecil dihasilkan oleh panjang tes 60 item dengan daya
pembeda dan tingkat kesukaran 0.20. Disamping itu, berdasarkan hasil
perhitungan didapatkan R square sebesar 0.130 hal ini berarti 13% bias
responden dapat dijelaskan oleh bervariasinya panjang tes, heterogenitas daya
pembeda dan tingkat kesukaran dengan indeks signifikansi sebesar 0.007 (p <
0.05).
(G) Daftar Bacaan: 21 (1983-2012)
-
ABSTRACT
(A) Faculty of Psychology, State Islamic University, Syarif Hidayatullah Jakarta
(B) January 2013
(C) Puti Febrayosi
(D) xii + 113 page + appendix
(E) True Score Estimation On Second Order Unidimensional Data: A Monte
Carlo Simulated Study On the Effects Of Test Length, Item Difficulties And
Discriminations
(F) This study aims to determine whether there is a difference or bias in the
second order unidimensional data but regarded as a unidimensional only at
the first level or first order. And to know the influence of test length,
heterogeneity item difficulty and item discrimination if there is a difference
or bias on the ability of respondents.
This research is a simulation and the focus variable of this study is test
length, heterogeneity item difficulty and item discrimination, with 50
replication. Further, data replication were analyzed as first order
unidimensional and as second order unidimensional, and then calculated the
difference of the two analyzes are biased or not.
These results indicate that the data on the second order unidimensional model
but analyzed as a unidimensional order to first order the results about the
ability of respondents do not give on the theta true, because there is a bias or
a difference of mean values produced greater than zero. Bias or differences
from theta ( or the ability of respondents) greatest is length of the test 20
items with item discrimination 0.20 and item difficulty 0.10. In spite of, bias
or difference from theta ( or the ability of respondents) smallest is test
length 60 items with item discrimination and item difficulty 0.20. In addition,
based on the results of the calculation of R square is 0130. It is means that
13% of respondent bias can be explained by variations in length of test,
heterogeneity item discrimination and item difficulty with index significance
is 0.007 (p
-
v
KATA PENGANTAR
Assalamu’alaikum Warahmatullahi Wabarakatuh
Alhamdulillahirabbil’alamin, ya...Rabb yang Maha Pengasih lagi Maha
Penyayang puji syukur penulis panjatkan kehadirat-Mu karena atas rahmat dan
karunia Allah SWT penulis mampu menyelesaikan thesis ini. Sungguh tiada
terkira karena atas izin-Mu ya Allah maka penulis memperoleh pemahaman apa
yang sedang dikerjakan, sedikit demi sedikit. Shalawat serta salam semoga selalu
tercurahkan kepada Nabi Muhammad SAW beserta keluarga, sahabat dan seluruh
umatnya.
Dengan terselesaikannya thesis ini tidak terlepas dari arahan, bimbingan,
dorongan, bantuan dan pastinya doa yang selalu mengiringi penulis dari semua
pihak. Oleh karena itu, dengan rasa yang tulus, penulis mengucapkan rasa terima
kasih kepada semua pihak yang telah membantu proses penyelesaian thesis ini,
terutama kepada:
1. Bapak Jahja Umar, Ph.D, Dekan Fakultas Psikologi, dosen sekaligus
pembimbing dan penguji thesis penulis. Terima kasih banyak atas waktu,
tenaga, arahan dan kesabaran yang telah diikhlaskan selama bapak
membimbing penulis. Banyak hal yang bapak ajarkan dan ceritakan
hingga akhirnya mengubah pola pikir khususnya mengenai dunia
psikometri. Semua diawali dengan sebuah kerja keras, pengorbanan,
kegigihan dan kemauan untuk berubah lebih baik. Terima kasih pak.
2. Bapak Dr. Ir. Bastari, M.A ketua Jurusan Psikometri, dosen sekaligus
pembimbing kedua. Berawal dari mata kuliah yang bapak ajarkanlah,
penulis tertarik dengan studi simulasi walaupun awalnya tidak jelas benar
apa yang akan diteliti. Terima kasih banyak atas waktu, pikiran dan arahan
ditengah-tengah kesibukan yang sangat padat.
3. Segenap Pembantu Dekan Fakultas Psikologi, Ibu Dra. Fadhilah Suralaga,
M.Si, Ibu Zahrotun Nihayah, M.Si dan Bapak Bambang Suryadi, Ph.D,
Bapak Bahrul Hayat, Ph. D selaku penguji, Bapak Dr. Suprananto beserta
-
vi
seluruh dosen civitas akademika Fakultas Psikologi UIN Syarif
Hidayatullah Jakarta, yang telah memberikan saran dan kritik dalam
penulisan thesis ini. Terima kasih atas semangat untuk menyelesaikan
thesis ini.
4. Seluruh karyawan Fakultas Psikologi UIN, terima kasih atas pelayanan
terbaiknya dan rasa kekeluargaan yang ada khususnya kepada kak Rini
dan Susi.
5. Kedua orang tua penulis, Ibu Indah Susi Asih dan Bapak Yodial Bahari.
Sungguh…terima kasih banyak atas semua nya yang telah diberikan
kepada penulis hingga saat ini dan tidak akan mampu terbalaskan. Terima
kasih kepada Allah karena dilahirkan dari mama & papa. Doa, kasih
sayang, motivasi, dan harapan mama & papa selalu menjadi pemicu
penulis untuk selalu membuat mama dan papa bahagia. Kedua adik
tersayang: Puti Mayang Raschania dan Zahlul Al-Minangi, semangat dan
doa adik agar penulis terus berusaha menyelesaikan dan menghibur saat
sedang down. Jadikanlah kami anak-anak yang shaleh untuk orang tua
kami, Amin ya Rabbal’alamin.
6. Sahabat sekaligus teman seperjuangan, Yulistin Tresnawaty. Semangat
yang naik-turun, emosi yang ada, perjuangan memahami MPlus hingga
melupakan liburan dan kurang tidur. Terima kasih untuk saling
menyemangati dan mengingatkan selama penyelesaian ini. Semoga sedikit
ilmu yang sudah kita peroleh akan membawa kemaslahatan setidaknya
untuk diri sendiri. Amin ya Rabbal’alamin. Keluarga dan sahabat baru di
magister sains psikologi angkatan pertama, Ika Rahayu, Kak Adhe Hartin,
Rizka, Bu Ida, Bu Amita, Kak Nisa, Bunda Elisa, Fya, Bu Ade Pifianti, Bu
Eha, Siskha, Pae Marjuki, Bu Husnayah, Ochil, Bu Nur, Bu Riza, Kak Ade
Darmiah, Mas Zikri, Arni, Bang Erja. Terima kasih untuk rasa
persaudaraan, kekeluargaan yang terbangun dan memberikan warna baru
saat kuliah. Kangen semuanya..saat kuliah, ngerjain tugas dan makan
bareng tiap break sholat maghrib.
-
vii
7. Sahabat dan teman-teman kelas C, S1 Fakultas Psikologi UIN Jakarta,
khusunya Mbak Putrie, Emma Noor Habiebah, Bunda Icha Annisa Zulfa,
Fitri Oktaviani, Galih, Anggie Rizki, Wisnu, Lulu dan Faiqoh, terimakasih
untuk support dan menanyakan kapan selesai thesisnya. Thanks guys.
Tanpa mengurangi rasa hormat dan terima kasih, kepada semua pihak
yang tidak dapat disebutkan satu persatu, telah mendoakan dan membantu
penulis dengan tulus ikhlas. Semoga doa, dukungan dan bantuan dari semua
pihak dibalas oleh Allah SWT dengan sebaik-baik pembalasan-Nya, Amin ya
Rabb.
Penulis menyadari bahwa thesis ini masih jauh dari kesempurnaan,
terdapat banyak kekurangan dan kesalahan, sehingga penulis mengharapkan
saran dan memberik masukan untuk lebih baik. Akhir kata, penulis ucapkan
banyak terima kasih, untuk semua hal dan mohon maaf atas kekhilafan yang
pernah terjadi.
Wassalamu’alaikum Warramatullahi Wabarakatuh.
Jakarta, Januari 2013
Puti Febrayosi
-
viii
DAFTAR ISI
HALAMAN JUDUL i
HALAMAN PERSETUJUAN ii
LEMBAR PENGESAHAN iii
ABSTRAK iv
KATA PENGANTAR v
DAFTAR ISI viii
DAFTAR TABEL x
DAFTAR GAMBAR xii
BAB 1. PENDAHULUAN 1-11
1.1. Latar Belakang Masalah 1 1.2. Perumusan dan Pembatasan Masalah 9
1.2.1. Perumusan masalah 9 1.2.2. Pembatasan masalah 10
1.3. Tujuan dan Manfaat Penelitian 10 1.3.1. Tujuan penelitian 10 1.3.2. Manfaat penelitian 10
1.4. Sistematika Penulisan 11
BAB 2. LANDASAN TEORI 12-50
2.1. Item Response Theory (IRT) 12
2.1.1. Konsep dasar 12
2.1.2. Asumsi item response theory (IRT) 14
2.1.3. Model logistik 18
2.2. Estimasi Kemampuan Responden 25
2.2.1. Metode maximum likelihood 27
2.2.1.1. Estimasi joint maximum likelihood 31
2.2.1.2. Estimasi conditional maximum likelihood 32
2.2.1.3. Estimasi marginal maximum likelihood 32
2.2.2. Metode bayesian 33
2.2.2.1. Estimasi maximum a posteriori (MAP) 35
2.2.2.2. Estimasi expected a posteriori (EAP) 36
2.3. Analisis Faktor 36
2.3.1. Pengertian analisis faktor 38
2.3.2. Manfaat analisis faktor 39
2.3.3. Dua kelas analisis faktor 39
2.3.3.1. Analisis faktor eksploratori 40
2.3.3.2. Analisis faktor konfirmatori 41
2.3.3.3. Perbedaan EFA dan CFA 42
2.3.4. Analisis faktor konfirmatori satu & dua tingkat 44
2.3.4.1. Analisis faktor konfirmatori satu tingkat 44
2.3.4.2. Analisis faktor konfirmatori dua tingkat 45
-
ix
2.4. IRT dan CFA 46
2.5. Simulasi Monte Carlo 48
2.6. Kerangka Berfikir 49
2.7. Hipotesis Penelitian 50
BAB 3. METODE PENELITIAN 51-58
3.1. Simulasi Data 51
3.2. Desain Penelitian 51
3.3. Jumlah Replikasi 53
3.4. Program Komputer Untuk Simulasi 53
3.5. Data Second Order Unidimensional 54
3.6. Kriteria Evaluasi 58
BAB 4. HASIL PENELITIAN 59-108
4.1. Mengecek Data Simulasi Menggunakan EFA 62
4.2. Mengecek Data Simulasi Menggunakan CFA 67
4.3. Bias Responden 71
4.4. Mean, Varian dan Standar Deviasi Dari Bias Responden 74
4.5. Mean dan Standar Deviasi dari Mean Bias Responden 80
Antar Replikasi
4.6. Mean dan Standar Deviasi dari Standar Deviasi 87
Bias Responden Antar Replikasi
4.7. Mean Bias Antar Replikasi Dengan Daya Beda Sama 94
4.8. Interakasi Panjang Tes, Heterogenitas Tingkat Kesukaran 96
dan Daya Beda
4.9. Mean Relative Bias Antar Replikasi 99
4.10. Standar Deviasi Relative Bias Antar Replikasi 104
BAB 5. KESIMPULAN DAN SARAN 109-111
5.1. Kesimpulan 109
5.2. Saran 111
5.2.1. Saran teoritis 111
5.2.2. Saran praktis 111
DAFTAR PUSTAKA 112
LAMPIRAN
-
x
Daftar Tabel
Tabel 3.1. Skema Simulasi Sebanyak 27 Model
Tabel 4.1. Simulasi 27 Model
Tabel 4.2. Hasil Exploratory Factor Analysis Pada Item-20
Tabel 4.3. Hasil Exploratory Factor Analysis Pada Item-40
Tabel 4.4. Hasil Exploratory Factor Analysis Pada Item-60
Tabel 4.5. Hasil Confirmatory Factor Analysis Dalam Nilai P-Value Untuk Item-20
Tabel 4.6. Hasil Confirmatory Factor Analysis Dalam Nilai P-Value Untuk Item-40
Tabel 4.7. Hasil Confirmatory Factor Analysis Dalam Nilai P-Value Untuk Item-60
Tabel 4.8. Nilai Bias Untuk 40 Responden Pada Replikasi Pertama Model 20-Aa
Tabel 4.9. Mean, Varian Dan Standar Deviasi Dari Bias Responden
Tabel 4.10. Mean Dari Bias Responden Untuk Replikasi Pertama Pada 27 Model
Tabel 4.11. Standar Deviasi Dari Bias Responden Untuk Replikasi Pertama Pada 27 Model
Tabel 4.12. Mean, Varian Dan Standar Deviasi Untuk 50 Replikasi Model 20-Aa
Tabel 4.13. Mean Dari Mean Bias Responden Antar Replikasi
Tabel 4.14 Mean Tinggi, Mean Sedang Dan Mean Rendah Dari Mean Antar Replikasi
Tabel 4.15. Standar Deviasi Dari Mean Bias Responden Antar Replikasi
Tabel 4.16. Standar Deviasi Tinggi, Sedang Dan Rendah Dari Mean Antar Replikasi
Tabel 4.17. Mean Dari Standar Deviasi Bias Responden Antar Replikasi
Tabel 4.18. Mean Tinggi, Sedang Dan Rendah Dari Standar Deviasi Antar Replikasi
Tabel 4.19. Standar Deviasi Dari Standar Deviasi Bias Responden Antar Replikasi
-
xi
Tabel 4.20. Standar Deviasi Tinggi, Sedang Dan Rendah Dari Standar Deviasi Bias Responden
Antar Replikasi
Tabel 4.21. Mean Dari Mean Bias Responden Antar Replikasi Apabila Daya Beda Sama
Tabel 4.22. Interaksi Daya Beda, Tingkat Kesukaran Dan Panjang Tes
Tabel 4.23. Interaksi Panjang Tes, Tingkat Kesukaran Dengan Daya Pembeda Disamakan (0.025)
Tabel 4.24. Interaksi Panjang Tes, Tingkat Kesukaran Dengan Daya Pembeda Disamakan (0.10)
Tabel 4.25. Interaksi Panjang Tes, Tingkat Kesukaran Dengan Daya Pembeda Disamakan (0.20)
Tabel 4.26. Mean Dari Mean Relative Bias Antar Replikasi
Tabel 4.27. Standar Error Dari Mean Relative Bias Antar Replikasi
Tabel 4.28. T-Value Dari Mean Relative Bias Antar Replikasi
Tabel 4.29. Mean Dari Standar Deviasi Relative Bias Antar Replikasi
Tabel 4.30. Standar Error Dari Standar Deviasi Relative Bias Antar Replikasi
-
xii
DAFTAR GAMBAR
Gambar 2.1. Kurva Karakteristik Item Model 1 Parameter Logistik
Gambar 2.2. Kurva Karakteristik Item Model 2 Parameter Logistik
Gambar 2.3. Kurva Karakteristik Item Model 3 Parameter Logistik
Grafik 4.1. Mean Dari Bias Responden Untuk Replikasi Pertama Pada 27 Model
Grafik 4.2. Standar Deviasi Dari Bias Responden Untuk Replikasi Pertama Pada 27 Model
Grafik 4.3. Mean Dari Mean Bias Responden Antar Replikasi
Grafik 4.4. Standar Deviasi Dari Mean Bias Responden Antar Replikasi
Grafik 4.5. Mean Dari Standar Deviasi Bias Responden Antar Replikasi
Grafik 4.6. Standar Deviasi Dari Standar Deviasi Bias Responden Antar Replikasi
Grafik 4.7. Mean Dari Mean Antar Replikasi Dimana Daya Beda Disamakan
Grafik 4.8. Mean Dari Mean Relatif Bias Antar Replikasi
Grafik 4.9. Mean Dari Standar Deviasi Relative Bias Antar Replikasi
-
1
BAB 1
PENDAHULUAN
Dalam bab pendahuluan ini akan dibahas mengenai latar belakang
masalah, identifikasi masalah, pembatasan dan perumusan masalah, tujuan
penelitian, serta manfaat penelitian.
1.1. Latar Belakang Masalah
Saat ini, tes psikologi bukanlah sesuatu hal yang baru atau hal yang asing
di masyarakat, apalagi bagi mereka yang pernah memiliki pengalaman menjadi
peserta dalam tes psikologi tersebut. Tes psikologi berisikan item-item pertanyaan
ataupun pernyataan yang diskor berdasarkan respon jawaban, sehingga hasilnya
diharapkan dapat memberikan informasi serta membantu untuk mengenali
individu tersebut sesuai dengan tujuan pengetesan. Secara sederhana, tes
didefinisikan sebagai alat ukur atau prosedur (Ronald, 2010), sedangkan
pengetesan (Kaplan, 2005) diartikan sebagai pengukuran atau teknik yang
digunakan untuk mengukur perilaku atau membantu untuk memahami dan
prediksi perilaku.
Pengetesan psikologi yang dimulai sejak awal abad ke-20 atau tahun 1905
di Perancis oleh Alferd Binet, berkembang pesat dan memberikan sumbangan
secara efektif pada banyak bidang kehidupan. Kegiatan pengetesan psikologi
dilakukan hampir di semua bidang kehidupan, mulai bidang pendidikan, industri,
klinis dan ilmu sosial lainnya karena banyak keputusan, kebijakan, assessment
-
2
dan treatment yang dibuat berdasarkan hasil pengetesan tersebut. Sebagai contoh
dalam bidang pendidikan, mulai dari taman kanak-kanak hingga perguruan tinggi
memanfaatkan pengetesan psikologi untuk mengukur intelegensi (IQ), arah minat
dan bakat, konsentrasi, kematangan emosional, interaksi sosial, kepercayaan diri
serta dijadikan salah satu syarat penerimaan siswa. Contoh lain dalam bidang
industri pengetesan psikologi dilakukan untuk penerimaan pegawai, mutasi atau
promosi jabatan. Selain itu, pengetesan pada setting klinis dimanfaatkan untuk
kepentingan diagnosis prognosis maupun terapi pada gangguan-gangguan pribadi.
Demi memastikan tes psikologi yang digunakan dalam berbagai tujuan
memiliki kemampuan untuk menempatkan seseorang pada tempat yang tepat
sesuai dengan bidangnya, menjadi bahan pertimbangan untuk kebijakan yang
akan diambil dan juga terjaga validitas dan reliabilitasnya, maka tes tersebut harus
memiliki kualitas item yang baik dan berkualitas tinggi. Analisis item bertujuan
untuk mengidentifikasi mana item-tem yang baik, kurang ataupun tidak baik sama
sekali, sehingga ketika digunakan hasil tes tersebut benar-benar sudah mengukur
apa yang hendak diukur atau diketahui. Analisis terhadap kualitas item dilakukan
baik secara kualitatif maupun kuantitatif. Analisis item secara kualitatif ialah
mengkaji secara teoritik item tes yang telah disusun, dengan memperhatikan tiga
aspek, yaitu aspek materi, aspek konstruksi, dan aspek bahasa. Sedangkan analisis
item secara kuantitatif dapat menggunakan pendekatan teori tes klasik (classical
test theory) maupun teori respon item (item response theory).
Teori tes klasik merupakan sebuah teori yang sudah digunakan dalam
kurun waktu yang lama, sehingga sebagian besar orang yang terkait dengan dunia
-
3
pendidikan dan psikologi telah mengetahui dan memahami konsep serta
penerapannya. Salah satu keunggulan dari tes ini terletak pada konsepnya yang
sederhana untuk menghitung koefisien validitas dan reliabilitas tes, parameter soal
dan kemudahan menentukan kemampuan peserta. Skor amatan dalam teori tes
klasik (observed score = X) terdiri dari skor sebenarnya (true score = T) dan skor
kesalahan (error score = E). Nilai true score merupakan nilai rata-rata yang
diperoleh dari pengulangan tes menggunakan soal tes yang sama, dan menentukan
kemampuan peserta tes dengan cara menjumlahkan skor amatan yang diperoleh
peserta. Hal ini dapat dilakukan apabila tingkat kesukaran dan daya pembeda soal
memiliki nilai yang sama dan uni-dimensional. Jika kondisi di atas dapat
terpenuhi, maka skor-skor pada item-item tersebut dapat langsung dihitung
dengan menjumlahkan semua skor pada item tersebut, disertai dengan nilai
reliable untuk mengetahui internal consistency. Namun, kenyataannya uni-
dimensional test sulit terpenuhi karena tingkat kesukaran dan daya pembeda yang
bervariasi. Apabila ini digunakan maka dapat menimbulkan kerugian bagi
pemakai hasil tes tersebut. Lebih dari itu, jika digunakan untuk mengambil sebuah
keputusan. Maka keputusan tersebut menjadi kurang valid, hasilnya bias, makin
besar penyimpangannya dan pemanfaatan raw score pada tes klasik menjadi
kurang bermanfaat.
Selanjutnya, metode dan prosedur teori tes klasik memiliki beberapa
kekurangan (Hambleton, 1991) yakni group dependent dan test dependet artinya
karaktersitik peserta dan tes saat interpretasi tidak dapat dipisahkan. Tingkat
kesukaran, daya pembeda, reliabilitas dan validitas tes bergantung pada kelompok
-
4
yang sedang dites (sampel yang ada). Begitu juga dengan kemampuan peserta
dapat dapat dikatakan tinggi atau rendah tergantung dengan tingkat kesukaran
item-itemnya. Konsep reliabilitas tes dikembangkan dari konsep tes pararel yang
dalam kenyataannya sulit untuk dipenuhi. Standart Error of Measurement (SEM)
berlaku untuk seluruh peserta, sehingga kesalahan baku pengukuran tiap peserta
dan butir soal tidak ada.
Untuk mengatasi kelemahan teori tes klasik, maka berkembanglah item
response theory (IRT). Teori ini berkembang sangat pesat, tidak hanya pada
bidang pendidikan dan psikologi, namun digunakan juga pada rekruitmen dan
seleksi (misal, penerimaan pegawai atau mahasiswa baru), qualification testing
(mengkualifikasikan seseorang sesuai pada level-level tertentu), evaluasi program
dan assessment, bidang klinis serta metode pengukuran dan penelitian. IRT
digunakan secara luas dalam pengembangan tes, analisis dan seleksi item,
penyetaraan tes, analisis bias item sampai dengan tes adaptif secara komputer
(computerized adaptive test, CAT).
Pendekatan teori tes klasik dan IRT memiliki sudut pandang yang berbeda,
tes klasik lebih berorientasi kepada test secara keseluruhan sedangkan IRT
memfokuskan pada item IRT (pola jawaban responden). Menurut Hambleton
(1991) keunggulan yang dimiliki IRT antara lain: (a) karakteristik item tidak
tergantung pada responden; (b) nilai kemampuan responden tidak tergantung pada
tes yang dikerjakan; (c) model lebih menekankan tingkatan (level) butir soal
daripada tingkatan tes; (d) tidak memerlukan tes paralel untuk menghitung
koefisien realibilitas; dan (e) model menyediakan ukuran yang tepat untuk setiap
-
5
skor kemampuan. Dua postulat yang dimiliki IRT (Hambleton, 1991) yakni (a)
performa dari responden dapat diprediksi atau dijelaskan oleh sekumpulan faktor
yang disebut dengan traits, laten traits atau kemampuan (b) hubungan antara
performa responden dalam item dengan performa responden dalam traits dapat
dijelaskan melalui fungsi yang disebut dengan item characteristic function atau
item characteristic curve (ICC). Fungsi ini menggambarkan bahwa semakin tinggi
kemampuan seseorang maka semakin besar kemungkinan atau peluang seseorang
untuk menjawab benar item tersebut.
Data yang bisa digunakan untuk mengestimasi kemampuan responden
dalam teori respon item dapat berupa data dikotomi (misal benar-salah atau ya-
tidak) maupun politomi (lebih dari 2 pengkategorian, misal essay atau skala
likert). Data dikotomi menggunakan model matematika 1, 2 atau 3 parameter
logistik. Perbedaan nama ini dikarenakan jumlah parameter yang digunakan
didalamnya baik tingkat kesukaran, daya beda ataupun guessing. Sedangkan data
politomi terdapat Partial Credit Model (PCM), Graded Response Model (GRM),
dan Generalized Partial Credit Model (GPCM).
Dalam IRT, kemampuan responden dapat diperoleh dengan cara
mengestimasi karakteristik parameter sesuai dengan model IRT yang sedang
digunakan. Penggunaan model dan parameter item yang berbeda, akan
menghasilkan estimasi kemampuan orang yang berbeda. Dalam IRT, tidak hanya
parameter item yang akan mempengaruhi hasil estimasi kemampuan peserta tes
(Lord & Novick dalam Ching-Fung, 2002), tetapi beberapa faktor lain seperti
dimensi dari tes, format jawaban responden, dan jumlah sampel yang digunakan.
-
6
Bahkan, keberhasilan dari IRT terletak pada prosedur yang memadai yang
digunakan dalam estimasi parameter tersebut.
Dalam penggunaan IRT harus memenuhi dua asumsi dasar yakni
unidimensionalitas (unidimensionality) dan independensi lokal (local
independence). Uni-dimensi diartikan bahwa apa yang diukur melalui beberapa
kumpulan item atau soal hanya mengukur satu traits. Terkadang asumsi ini tidak
dapat dipenuhi dengan mudah karena ada beberapa faktor yang mempengaruhi
misalnya motivasi, kecemasan, kemampuan untuk bekerja cepat dan lainnya.
Namun, persyaratan asumsi uni-dimensi ini dapat terpenuhi jika sekumpulan tes
mampu menyajikan secara “dominan” apa yang hendak diukur. Asumsi local-
independence dimaknai sebagai kemampuan individu item dalam performa tes
dianggap konstan dan respon terhadap setiap item yang dijawab adalah saling
bebas atau independen (tidak saling bergantung). Kemampuan yang dinyatakan
dalam model adalah satu-satunya faktor yang mempengaruhi respon peserta tes
pada butir-butir soal.
Sebelum menerapkan IRT, asumsi pertama yang harus dipenuhi adalah
bahwa item yang ada harus uni-dimensi artinya mendefinisikan satu konstruk
utama atau dimensi. Jika ada banyak item yang tidak sejajar dengan konstruk
utama, maka dapat diartikan sebagai multi-dimensi dan lebih dari satu. Situasi
IRT yang memenuhi asumsi uni-dimensi atau homogenitas item jarang terjadi
baik dalam bidang dipendidikan maupun psikologi. Hal ini mungkin disebabkan
selain dari faktor kognitif, juga dipengaruhi oleh personality responden
dalam menjawab item pertanyaan yakni kecepatan kerja, instruksi yang
-
7
ada, guessing atau kecenderungan menebak. Selain dari diri responden, faktor
tersebut juga bisa berasal dari rangsangan item soal yang sedang diberikan seperti
panjangnya teks (pertanyaan ataupun pernyataan yang ada), tabel, gambar, peta,
atau grafik yang tersaji pada soal. Sebagai contoh, tes matematika dengan item
pertanyaan yang sangat panjang dan berbelit-belit akan menyebabkan responden
(siswa) sulit untuk memahami isi pertanyaan dari soal tersebut, dan membutuhkan
kemampuan membaca yang cukup besar. Ketika berhadapan responden dengan
latar belakang yang berbeda, beberapa diantaranya mungkin cukup mahir untuk
membaca dan memahami soal cerita matematika, akibatnya kemampuan membaca
mungkin sekunder dimensi (Almond, Heath, Helwig, Rozek-Tedesco & Tindal,
dalam Bo Zhang, 2008). Disamping itu, adanya gambar, tebel, grafik atau peta
yang ada pada soal untuk menyelesaikan pertanyaan akan menyulitkan siswa
dengan kemampuan imajinasi gambar yang lemah. Ketika kondisi ini terjadi,
maka asumsi IRT uni-dimensi tidak bisa terpenuhi.
Namun, apabila asumsi uni-dimensional dapat terpenuhi maka IRT dapat
digunakan. Berbicara mengenai penskoringan uni-dimensional pada first order
paling sering dilakukan. Seperti yang dilakukan oleh guru-guru di sekolah
misalnya pada pelajaran bahasa inggris materi yang diujikan terdiri dari reading,
listening dan writing, ataupun pelajaran matematika yang terdiri dari beberapa sub
materi misalnya logartima, persamaan fungsi kuadrat, trigonometri dan ruang tiga
dimensi, guru hanya memberikan satu nilai tiap pelajaran tertentu, dari beberapa
sub materi yang diujikan didalamnya. Tidak hanya bidang pendidikan yang
memperlakukan kondisi tersebut, namun untuk bidang psikologi hal ini
-
8
tampaknya juga masih banyak diterapkan. Seorang peneliti masih menskor sebuah
skala untuk mengukur perilaku ataupun persepsi mengenai sesuatu yang terdiri
dari beberapa dimensi diperlakukan sebagai satu nilai. Misalnya skala kepribadian
big five yang terdiri dari lima dimensi yakni neuroticism, extraversion, openness
to experience, agreeableness, dan conscientiousness, diperlakukan dengan
menskor semua item pernyataan sebagai satu kesatuan. Di sisi lain, bagaimana
hasilnya jika scoring atau penskoran diperlakukan dengan cara uni-dimensional
second order.
Uni-dimensional second order rasanya belum sering ditemui dilapangan.
Sebagian besar sistem penskoran masih memperlakukan uni-dimensional first
order terhadap tes yang didalamnya terdiri dari beberapa dimensi. Biasanya tes
terdiri dari beberapa dimensi yang ditujukan hanya untuk mengukur satu hal
misalnya tes matematika, bahasa inggris ataupun perilaku tertentu apakah bisa kita
perlakukan sama dalam penskoringan walaupun sudah terpenuhi uni-dimensi item
response theory. Uni-dimensional second order pada tes pendidikan ataupun
psikologi diartikan bahwa sebuah tes yang terdiri dari beberapa dimensi
didalamnya, terlebih dahulu diskor dimensi masing-masing kemudian nilai pada
kesemua dimensi tersebut diestimasi untuk mendapatkan nilai kumulatif dari
kesemua dimensi yang ada ataupun kemampuan responden pada tes tersebut.
Berdasarkan uraian di muka, peneliti tertarik untuk melihat bagaimakah
sebuah tes jika diperlakukan sebagai uni-dimensional second order yang biasanya
orang memperlakukan sebagai uni-dimensional first order. Peneliti tertarik untuk
menemukan jawaban dari beberapa pertanyaan, seperti: (1) apakah terdapat
-
9
perbedaan hasil dalam mengestimasi kemampuan seseorang dengan cara uni-
dimensional second order; (2) dalam kondisi seperti apakah uni-dimensional
second order bisa diperlakukan sama seperti uni-dimensional first order; (3)
apakah dengan jumlah soal tertentu (panjang tes) baru bisa memperoleh estimasi
yang sama, tingkat kesukaran dan daya beda item yang tidak terlalu bervariasi
atau dengan minimum jumlah sampel tertentu, tingkat kesukaran dan daya beda
tertentu baru bisa diperlakukan sebagai uni-dimensional first order pada situasi tes
yang terdiri dari beberapa dimensi didalamnya; (4) lebih tepat mana antara uni-
dimensional second order dibandingkan uni-dimensional first order dalam
mengestimasi kemampuan responden serta dalam keadaan seperti apa yang cocok
(panjang tes, tingkat kesukaran dan daya pembeda) untuk mendapatkannya.
Dengan demikian, judul studi ini adalah “Estimasi true score pada second order
unidimensional data: sebuah studi simulasi monte carlo tentang dampak
panjang tes, tingkat kesukaran dan daya pembeda item”.
1.2. Perumusan dan Pembatasan Masalah
1.2.1. Perumusan masalah
Berdasarkan latar belakang masalah di atas, pertanyaan yang timbul dalam
penelitian ini adalah:
a. Apakah terdapat bias atau deviasi jika data second order unidimensional
diperlakukan sebagai unidimensional first order?
-
10
b. Bagaimanakah pengaruh panjang tes, heterogenitas tingkat kesukaran dan daya
pembeda terhadap hasil true score jika data yang ada dipelakukan sebagai first
order uni-dimensional data?
1.2.2. Pembatasan masalah
Ruang lingkup dalam penelitian ini dibatasi pada estimasi true score pada
second order unidimensional data, merupakan sebuah studi simulasi monte carlo
mengenai dampak panjang tes, tingkat kesukaran dan daya pembeda item. Fokus
penelitian adalah kondisi seperti apakah yang lebih sesuai baik jumlah tes, tingkat
kesukaran dan daya pembeda pada data second order unidimensional data apabila
diperlakukan unidimensional hanya pada tingkat pertama atau first order. Data
yang akan dianalisis sebagai first order ialah data yang dibangkitkan atau data
simulasi dengan model yang sudah ditentukan.
1.3. Tujuan dan Manfaat Penelitian
1.3.1. Tujuan Penelitian
Tujuan penelitian ini adalah untuk mengetahui estimasi true score pada
second order unidimensional data khususnya terkait dengan dampak panjang tes,
tingkat kesukaran dan daya pembeda item.
1.3.2. Manfaat Penelitian
Penelitian ini diharapkan memberikan manfaat, baik secara teoritis
maupun praktis. Secara teoritis, penelitian ini diharapkan dapat menambah
khasanah ilmu pengetahuan psikologi, khususnya psikometri. Sedangkan secara
praktis, hasil penelitian ini dapat memberikan gambaran bagi pengguna IRT yang
-
11
sering memperlakukan second order unidimensional sebagai first order
unidimensional data.
1.4. Sistematika Penulisan
Berikut ini adalah sistematika penulisan dari laporan penelitian yang telah
dilakukan.
BAB 1 : PENDAHULUAN
Pada bab ini, peneliti menguraikan tentang latar belakang masalah,
perumusan dan pembatasan masalah, tujuan dan manfaat penelitian,
serta sistematika penelitian.
BAB 2 : LANDASAN TEORI
Pada bab ini, peneliti menguraikan tentang IRT, metode estimasi
kemampuan responden, CFA, dan simulasi Monte-Carlo, kerangka
berfikir dan hipotesis penelitian.
BAB 3 : METODE PENELITIAN
Pada bab ini, peneliti menguraikan simulasi data, desain penelitian,
jumlah replikasi, program komputer untuk data simulasi dan estimasi
kemampuan, data second order unidimensional dan kriteria evaluasi.
BAB 4 : HASIL PENELITIAN
Pada bab ini, peneliti menyajikan hasil penelitian dan interpretasinya.
BAB 5 : KESIMPULAN DAN SARAN
Pada bab ini, peneliti menyimpulkan apa yang telah diuraikan pada
bab-bab sebelumnya, disertai rekomendasi dalam bentuk saran yang
relevan.
-
12
BAB 2
LANDASAN TEORI
Landasan teori yang disajikan dalam bab ini mencakup beberapa hal
relevan dengan materi penelitian seperti: IRT, metode estimasi kemampuan, CFA
dan simulasi Monte-Carlo.
2.1. Item Response Theory (IRT)
2.1.1. Konsep dasar
Item response theory merupakan teori modern yang menghubungkan
karakteristik item dengan karakteristik peserta yang bertujuan untuk mengevaluasi
kualitas item serta mengetahui kemampuan responden. IRT hadir untuk mengatasi
kelemahan yang ada pada classical test theory (CTT), dimana interpretasi CTT
bergantung pada kelompok responden yang mengerjakan (group dependent) dan
tes yang diujikan (test dependent). Group dependent diartikan sebagai hasil
pengukuran bergantung pada kemampuan kelompok yang mengerjakan. Jika tes
yang diujikan kepada kelompok dengan kemampuan yang tinggi maka tingkat
kesulitan soal akan rendah,begitu juga sebaliknya. Sedangkan test dependent
diartikan hasil pengukuran bergantung pada tingkat kesulitan tes yang diujikan.
Apabila tes yang diujikan memiliki tingkat kesulitan tinggi, maka estimasi
kemampuan peserta tes akan rendah, dan sebaliknya.
Keberadaan IRT untuk mengestimasi kemampuan responden tidak
bergantung pada sejauh mana tingkat kesulian soal, dan tingkat kesulitan soal
-
13
tidak bergantung pada kelompok mana yang mengerjakannya. Dalam IRT, setiap
individu memiliki standar error nya masing-masing, berbeda dengan CTT dimana
standar error diratakan sama untuk semua responden. Menurut Lord & Novick
(dalam Hambleton, 1991) dalam IRT performa responden pada sebuah tes dapat
diprediksi atau dijelaskan dengan mendefinisikan karakteristik peserta ujian, yang
disebut sebagai sifat atau kemampuan; estimasi nilai responden pada trait ini
disebut sebagai kemampuan (ability), dan menggunakan nilai tersebut untuk
memprediksi atau menjelaskan item dan performa tes.
Dalam Embreston (2000) terdapat 10 kelebihan dari penggunaan IRT
dibandingkan CTT yakni:
1. Kesalahan baku pengukuran atau standard error of measurement (SEM)
memiliki nilai yang berbeda antar skor (atau pola respon) tetapi bersifat umum
antar populasi.
2. Tes yang lebih pendek tidak selalu memiliki reliabilitas yang lebih rendah jika
dibandingkan dengan tes yang lebih panjang.
3. Perbandingan hasil yang diperoleh dari beberapa paket tes dapat lebih optimal,
ketika tingkat kesulitan tes bervariasi antar responden.
4. Estimasi terhadap item dapat diperoleh secara objektif meskipun sampel yang
digunakan kurang representatif.
5. Nilai tes menjadi lebih bermakna ketika dibandingkan dengan karakteristik
item.
6. Properti skala interval dicapai dengan menerapkan model pengukuran yang
lebih rasional.
-
14
7. Tes dengan format item campuran dapat menghasilkan nilai tes yang optimal.
8. Nilai yang berubah dapat bermakna, jika dibandingkan dengan nilai awal
berbeda.
9. Analisis faktor pada data nilai mentah, menghasilkan informasi penuh
mengenai analisis faktor.
10. Sifat-sifat item dapat sebagai stimulus langsung yang berhubungan dengan
sifat psikometri.
Menurut Hambleton (1991) item response theory didasarkan pada 2
postulat yakni (1) performa responden pada item tes dapat diprediksi melalui
sekumpulan faktor yang disebut dengan traits, latent traits atau kemampuan, dan
(2) hubungan antara performa responden dengan sekumpulan traits digambarkan
oleh fungsi monotonik yang menaik atau biasa disebut dengan fungsi karakteristik
item atau kurva karakteristik item. Fungsi ini menggambarkan bahwa responden
yang memiliki kemampuan yang tinggi akan memperoleh peluang yang tinggi
juga untuk menjawab item dengan benar.
2.1.2. Asumsi item response theory (IRT)
Model matematika dalam IRT menetapkan bahwa kemungkinan responden
untuk menjawab item dengan benar tergantung pada tingkat kemampuan
responden dan karakteristik item. Hal ini dapat diartikan bahwa apabila ada
responden yang memiliki kemampuan yang tinggi maka kemungkinan atau
probabilitas untuk menjawab item dengan benar akan lebih besar dibandingkan
dengan responden dengan kemampuan yang lebih rendah. Dalam Hambleton dan
-
15
Swaminathan (1985) terdapat empat asumsi yang mendasari IRT yakni
dimensionality of the latent space, local independence, item characteristic curve,
dan speededness. Berikut penjelasan dari keempat asumsi tersebut:
1. Dimensionality of the latent space
Secara teori umum latents traits diasumsikan bahwa sekumpulan dari
latent traits atau kemampuan responden mendasari performa responden dari
sekumpulan item tes. Dalam model IRT diasumsikan bahwa hanya satu
kemampuan atau trait yang dapat “dijelaskan” atau “dihitung” dari performance
responden dalam sebuah tes, yakni dikenal dengan sebutan unidimensi.
Unidimensi diartikan bahwa apa yang diukur melalui beberapa kumpulan item
atau soal hanya mengukur satu trait. Namun pada kenyatannnya, asumsi ini tidak
dapat dipenuhi dengan mudah karena ada beberapa factor yang mempengaruhi
misalnya motivasi, kecemasan, kemampuan untuk bekerja cepat dan lainnya.
Oleh sebab itu, persyaratan asumsi unidimensi ini dapat terpenuhi jika
sekumpulan tes mampu menyajikan secara “dominan” apa yang hendak diukur.
2. Local independence
Asumsi local independence dimaknai sebagai kemampuan individu dalam
performa tes dianggap konstan dan respon terhadap setiap item yang dijawab
independen (tidak bergantung pada soal sebelumnya). Untuk memenuhi
terpenuhinya asumsi ini dapat dilakukan dengan membuktikan bahwa peluang
dari pola jawaban responden sama dengan hasil kali peluang jawaban responden
pada setiap item. Kemampuan individu dalam kumpulan test disebut complete
latent space, yang dinotasikan dengan , dan respon dari individu terhadap item
-
16
tertentu dinotasikan . Kemudian kemungkinan atau probability individu
menjawab item tertentu benar sesuai dengan kemampuannya () dinotasikan
, sedangkan probabilitas individu menjawab item tertentu salah
sesuai dengan kemampuannya dinotasikan . Secara matematik,
properti local independence dapat ditulis, seperti
…………………………………………………..(1)
Keterangan:
i = 1, 2, 3, ….. n
n = banyaknya item tes
P (Ui ) = probabilitas responden dengan kemampuan untuk
menjawab item ke-i secara benar
P (U1, U2,…Un ) = probabilitas responden dengan kemampuan untuk
menjawab item ke-satu hingga ke-n secara benar
3. Item characteristic curve (ICC)
Item characteristic curve (ICC) merupakan fungsi matematika yang
menyatakan probabiliti hubungan antara kemampuan responden () yang mampu
menjawab soal dengan benar . Dalam teori respon butir, kurva
karakteristik item merupakan komponen yang utama sehinga komponen-
komponen lain didalamnya bergantung kepada kurva tersebut. Bentuk kurva
karakteristik item bergantung pada parameter yang digunakan.
Dalam setiap item dan nilai kemampuan responden, jika seseorang memiliki
kemampuan yang tinggi maka kemungkinan untuk menjawab item tersebut benar
semakin besar, namun jika kemampuan responden tersebut rendah maka
-
17
kemungkinan untuk menjawab item dengan benarpun akan kecil. Jika P di-plotkan
sebagai fungsi dari kemampuan, maka hasilnya akan membentuk huruf “S” seperti
dibawah ini:
4. Speededness
Responden yang gagal untuk menjawab item tes asumsinya bisa
dikarenakan kemampuan mereka yang terbatas untuk menjawab pertanyaan
tersebut atau mereka gagal mencapai item tes tersebut dikarenakan kekurangan
waktu untuk menyelesaikannya. Asumsi ini mungkin jarang dikemukakan, karena
sifatnya yang implisit dari asumsi unidimensi. Ketika sebuah performa responden
dalam sebuah tes dipengaruhi oleh kecepatan (speed) maka dalam tes tersebut
akan mengukur dua hal yakni performa responden yang diukur dengan kecepatan
atau memang benar bahwa tes yang dikerjakan sudah mengukur kemampuan
responden tersebut.
-
18
2.1.3. Model logistik
Model yang digunakan dalam item characteristic function (IRF) atau item
characteristic curve (ICC) merupakan persamaan matematika yang
menggambarkan hubungan antara kemungkinan jawaban yang benar terhadap
kemampuan responden. Dalam penelitian awal bentuk penyelesaian ICC
menggunakan model kurva normal, namun karena sulitnya penghitungan maka
digunakanlah bentuk kurva logistik. Di samping itu, apabila digunakan kurva
normal, dimana kurva ini tidak monoton naik akan menyebabkan suatu
kemampuan lebih tinggi dari rerata, nilai probabilitas akan lebih rendah daripada
nilai probabilitas rerata kemampuan (Walpole, et.al., dalam Heri Ratnawati 2008).
Dua alasan tadilah yang menyebabkan digunakanya model logistik IRT saat ini.
Data yang dapat dianalisis menggunakan IRT bisa dalam bentuk dikotomi
ataupun politomi. Data dikotomi biasanya diperoleh dari bentuk tes atau soal
“benar-salah”, “forced-choice”, dan alat ukur psikologi berupa personality self-
report “true-not true”, sikap dukungan “setuju-tidak setuju”, behavioral rating
scale “yes or no”, maka pola respon akan ada dua nilai, bisa satu dan nol ataupun
satu dan dua. Sedangkan, data politomi biasanya diperoleh dari bentuk soal
“essay”, “likert scale”, ataupun jawaban pendek, maka pola respon berisi lebih
dari dua nilai. Namun, penelitian kali ini hanya memfokuskan pada pola respon
dikotomi.
Model matematika yang terkenal dalam IRT untuk data dikotomi, yakni
model satu parameter logistik, model dua parameter logistik dan model tiga
-
19
parameter logistik. Masing-masing model memiliki persamaan bentuk umum
(Crocker & Aligna, 1986) yakni:
…………………………………………………..(2)
di mana e adalah dasar dari sistem natural logaritma, x merupakan arbitrary
symbol (bukan menunjukan skor yang teramati). Perbedaan ketiga model tersebut
tergantung dari banyaknya parameter yang digunakan untuk menggambarkan
karakteristik item dalam model. Perbedaan dari ketiga model akan dijelaskan di
bawah ini:
1. Model 1 parameter logistik (1 PL)
Model satu parameter logistik merupakan model yang sering digunakan
dalam IRT. Model ini disebut dengan model satu parameter karena hanya terdapat
satu parameter item didalamnya yakni tingkat kesukaran item yang dinotasikan
dengan huruf “b”. Jadi, kemungkinan jawaban benar responden hanya ditentukan
oleh tingkat kesukaran item, sedangkan daya beda dianggap sama untuk semua
item dalam sebuah tes. Dalam Hambleton, Swaminathan & Rogers (1991)
persamaan model 1 parameter logistik sebagai berikut:
………………………………….……(3)
Keterangan:
= probabilitas dari kemampuan responden () yang dapat menjawab
item ke-i dengan benar
= parameter tingkat kesukaran item
= jumlah item dalam tes
e = nilai transedental (eksponen) sebesar 2.718
= berbentuk kurva “huruf S” yang memiliki nilai antara 0 dan 1.
-
20
di bawah ini merupakan gambar kurva karakteristik model 1PL
Gambar 2.1. Kurva karakteristik item model 1 parameter logistik
Parameter bi untuk item adalah titik skala kemampuan dimana probabilitas
atau kemungkinan respon yang benar sebesar 0.5. Parameter ini menunjukkan
posisi ICC dalam kaitannya dengan skala kemampuan. Semakin besar nilai
parameter bi, semakin besar kemampuan yang diperlukan responden untuk
memiliki kesempatan 50% menjawab item dengan benar. Item dikatakan sulit
apabila terletak di sebelah kanan atau lebih tinggi dari skala kemampuan;
sedangkan item yang mudah berada di sebelah kiri atau bawah skala kemampuan.
Ketika nilai kemampuan dari kelompok diubah, sedemikian sehingga nilai
rata-rata menjadi 0 dan standar deviasi menjadi 1 (satu), maka nilai bi menjadi
lebih bervariasi yang (biasanya) berada pada interval -2 sampai dengan +2. Nilai
bi dekat-2.0 maka termasuk item yang sangat mudah, dan nilai-nilai bi dekat 2.0
termasuk item yang sangat sulit.
-
21
2. Model 2 parameter logistik (2 PL)
Pada model 2 parameter logistik, kemungkinan responden untuk
menjawab benar ditentukan oleh dua parameter yakni tingkat kesukaran dan daya
pembeda. Setiap item memiliki daya beda yang berbeda-beda. Dalam Hambleton,
Swaminathan & Rogers (1991) apabila terdapat item dengan daya pembeda besar
maka kurva yang ditampilkan akan menanjak, dibandingkan item dengan daya
pembeda kecil maka kurva akan lebih landai. Secara teoritis, parameter daya
pembeda terletak diantara -∞ dan +∞, namun efektif pada nilai 0 hingga 2. Model
2PL dikembangkan oleh Lord (dalam Hambleton, 1991) berdasarkan distribusi
normal kumulatif (normal ogive). Kemudian, Birnbaum (dalam Hambleton, 1991)
mengusulkan model dua parameter menggunakan item kurva karakteristik dengan
fungsi distribusi logistik:
…………….(4)
Keterangan:
= probabilitas dari kemampuan responden () yang dapat menjawab
item ke-i dengan benar
= parameter daya pembeda
= parameter tingkat kesukaran item
= jumlah item dalam tes
e = nilai transedental (eksponen) sebesar 2.718
D = faktor penskalaan sebesar 1.7
atau persamaan model 2 parameter dapat ditulis dengan cara yang lain, apabila
pembilang dan penyebut dari persamaan di atas digantikan dengan ,
sehingga , menjadi:
-
22
………………………………………….(5)
lebih sederhana menjadi -1……..………………….(6)
Birnbaum menggantikan fungsi distribusi dua parameter yang awalnya
fungsi ogive menjadi logistik kumulatif dalam bentuk item kurva karakteristik.
Kurva logistik memiliki keuntungan untuk bekerja menjadi lebih nyaman dari
pada kurva normal ogive. Model logistik lebih "mathematically tractable" dari
pada model normal ogive karena normal ogive melibatkan integrasi fungsi
eksplisit dari parameter item dan kemampuan. Penafsiran Pi (), bi, ai dan pada
dasarnya sama seperti pada penafsiran dalam model normal ogive. D sifatnya
konstan merupakan faktor skala. Halley (dalam Hambleton, 1985) perbedaan D
antara nomal ogive dan logistik pada 2PL berbeda kurang dari 0.01 untuk semua
nilai . Jadi apabila kita menggunakan normal ogive dan logistik tidak
memberikan perbedaan yang berarti dan signifikan.
Gambar 2.2. Kurva karakteristik item model 2 parameter logistik
-
23
Dari gambar di atas dapat dilihat bahwa kurva 2.a dan 2.b memiliki tingkat
kesukaran yang sama sebesar -1. Sama halnya dengan model 1PL, tingkat
kesukaran model 2PL dalam kurva karakteristik item memiliki probabilitas
sebesar 0.5. Jika dilihat pada gambar di atas, kurva 2.a lebih curam dibandingkan
kurva 2.b, hal ini disebabkan perbedaan daya beda item kurva 2.a lebih tinggi
dibandingkan kurva 2.b. Kemiringan antara kurva 2.c dan 2.b hampir sama, hanya
kurva 2.c agak miring ke kanan. Dari sini kita dapat memperoleh informasi bahwa
kurva 2.c memiliki tingkat kesukaran yang tinggi dibandingkan kurva 2.b, walau
daya beda kedua kurva tersebut sama. Daya beda model 2 parameter dalam kurva
karakteristik item disebut dengan slope parameter¸sedangkan tingkat kesukaran
disebut dengan location parameter.
3. Model 3 parameter logistik (3 PL)
Model tiga parameter logistik dapat diperoleh dari model dua parameter
dengan menambahkan parameter ketiga, dinotasikan ci. Bentuk matematis dari
kurva logistik tiga parameter ditulis
…………(7)
Keterangan:
= probabilitas dari kemampuan responden () yang dapat menjawab
item ke-i dengan benar
= parameter daya pembeda
= parameter tingkat kesukaran item
= parameter tebakan atau pseudo
= jumlah item dalam tes
e = nilai transedental (eksponen) sebesar 2.718
D = faktor penskalaan sebesar 1.7
-
24
Dalam kurvakarakteristik item, parameter ini menyediakan asimptot lebih
rendah dari 0 (nol) dan mewakili probabilitas peserta ujian dengan kemampuan
rendah untuk menjawab item dengan benar. Parameter dimasukkan ke dalam
model untuk memperhitungkan kinerja yang rendah dari kemampuan responden,
di mana menebak atau guessing merupakan faktor dalam test performa yang
itemnya bersifat repon-pilih (misalnya pilihan ganda). Biasanya, diasumsikan
sebagai nilai yang lebih kecil dari nilai yang akan terjadi jika peserta ujian
menebak secara acak pada item test. Lord (dalam Hambleton, Swaminathan &
Rogers, 1991) mencatat, bahwa fenomena ini mungkin dapat dikaitkan dengan
kecerdikan pembuat item dalam mengembangkan pilihan (distractor atau
pengecoh) yang menarik untuk dipilih tetapi tidak benar. Untuk alasan seperti ini,
tidak boleh disebut "parameter menebak atau guessing".
Gambar 2.3. Kurva karakteristik item model 3 parameter logistik
-
25
Dari gambar di atas terlihat kurva karakteristik item memiliki parameter
tingkat kesukaran item (b) sama dengan 0, daya beda (a) sama dengan 1,4 dan
guessing sama dengan 0,2. Memang agak berbeda kurva karakteristik item untuk
model 1PL dan model 2PL, tingkat kesukaran item pada ability diperoleh dari
. Dari gambar di atas terlihat bahwa tingkat kesukaran
item diperoleh saat P () = 0,6.
2.2. Estimasi Kemampuan Responden
Langkah pertama dan paling penting pada item response theory (IRT)
untuk menguji data yaitu mengestimasi karakteristik parameter sesuai dengan
model IRT yang sedang digunakan. Bahkan, keberhasilan dari item response
theory terletak pada ketersediaan prosedur yang memuaskan untuk mengestimasi
parameter model yang digunakan.
Dalam model respon item, probabiliti respon yang benar tergantung pada
kemampuan responden yang dinotasikan dengan , dan karakteristik parameter
item. Disini kemampuan responden dan parameter item adalah sesuatu hal yang
tidak diketahui sedangkan yang diketahui hanya pola respon dari respoden
(examinee). Hal yang ingin dilakukan dalam estimasi adalah untuk menentukan
nilai theta () masing-masing responden (examinee) dan parameter item dari pola
respon yang sudah ada sebelumnya. Masalah ini mirip dengan analisis regresi di
mana untuk mendapatkan parameter koefisien di dalam model regresi harus
diestimasi yang datanya berasal dari respon observed variable.
-
26
Dua perbedaan utama yang membedakan model regresi dan model item
response (Hambleton, Swaminathan dan Rogers (1991) yakni:
1. Model regresi biasanya linier, sementara model item response ialah non-linier.
2. Regressor dalam analisis regresi yakni independen variabel (IV) dimana
sesuatu yang dapat diamati. Sedangkan, dalam model respon item "variabel
regressor" atau theta ( atau kemampuan responden) merupakan hal yang
tidak teramati. Jika theta ( atau kemampuan responden) langsung dapat
diamati atau diketahui maka akan mudah untuk mengestimasi parameter item
atau “koefisien regresi”, begitu juga sebaliknya jika parameter item dapat
diketahui nilainya, maka untuk mengestimasi theta ( atau kemampuan
responden) juga akan mudah. Walaupun nantinya dalam penyelesaian akan
sulit juga karena berurusan dengan model regresi yang sifatnya non-linear.
Estimasi parameter dapat dicapai dalam beberapa cara. Apabila theta (
atau kemampuan responden) diketahui maka untuk menemukan model yang fit
atau sesuai dengan data maka prosedur Invarian Parameter dapat digunakan.
Namun, disini ada parameter item dalam model yang sebelumnya tidak diketahui
nilainya. Ketika sampel yang diperoleh, prosedur di atas tidak dapat digunakan
karena model tidak akan sesuai dengan data yang ada. Untuk menemukan nilai-
nilai parameter yang menghasilkan kurva yang sesuai atau “best fitting curve”,
dilakukan dua cara, yakni:
1. Dalam regresi linier, untuk mencari “best fitting curve” dengan menggunakan
kriteria least square.
-
27
2. Dalam model IRT yang sifatnya non-linear, kriteria kuadrat terkecil (least
square) tidak dapat digunakan karena sulit untuk menentukan properti
estimasi kuadrat terkecil (least square). Sehingga, dalam item response theory
untuk mengestimasi parameter menggunakan kriteria kemungkinan
maksimum (maximum likelihood).
Estimasi maximum likelihood membutuhkan jumlah sampel yang cukup
besar dan penggunaan estimasi ini dapat diaplikasikan dalam berbagai model item
response theory. Namun sebenarnya estimasi kemampuan individu dalam item
response theory tidak hanya terbatas pada estimasi maximum likelihood yang
dikembangkan oleh Baker (dalam Ching-Fung, 2002) ada beberapa prosedur
estimasi diantaranya regresi logistik (Reynolds, Perkins & Brutten dalam Ching-
Fung, 2002), minimum chi-quadrant (Zwinderman & van der Wollenberg dalam
Ching-Fung, 2002) dan prosedur estimasi model Bayesian (Mislevy, Baker dalam
Ching-Fung, 2002). Disini peneliti hanya memaparkan estimasi dengan
menggunakan prosedur maximum likelihood dan bayesian.
2.2.1. Metode maximum likelihood
Apabila sebuah tes yang didalamnya terdapat beberapa item n (U1, U2,
U3……Un) maka untuk setiap respon yang benar akan diberi nilai 1 dan respon
salah diberi nilai 0. Maka dengan menggunakan asumsi local independent,
probabilitas gabungan dari beberapa item tersebut dapat ditulis:
P (U1, U2, U3……Un) = P(U1) P (U2) P( U3)…..P( Uj)….P( Un)
Atau secara singkatnya bisa ditulis seperti
-
28
Karena sebuah item yang dapat diberi nilai 1 ataupun 0, maka dapat ditulis ke
dalam fungsi Likelihood seperti:
………(8)
Atau disederhanakan menjadi
………………………..(9)
Persamaan di atas merupakan gambaran probabilitas gabungan dari pola
respon yang ada. Ketika pola respon yang diamati , maka interpretasi
probabilistik tidak lagi sesuai. Oleh sebab itu, persamaan untuk probabilitas
gabungan disebut menjadi fungsi Likelihood (kemungkinan) yang dinotasikan
dimana adalah respon item ke-j. Sehingga persamaannya
menjadi
…………………….….(10)
dan Q merupakan fungsi dari (ability individu) dan parameter item, maka
fungsi Likelihood juga merupakan fungsi dari parameter (ability individu) dan
parameter item.
-
29
Apabila seorang responden mengerjakan sebuah tes yang terdiri dari 5
item yang pola responnya =1, = 1, = 0, = 1, dan = 0, maka fungsi
Likelihood untuk responden ini menjadi
Fungsi Likelihood merupakan hasil perhitungan dari yang masing-masing
dibatasi nilainya antara 0 dan 1. Sebuah skala yang baik dari fungsi Likelihood
dapat diperoleh dengan mengubahnya menjadi logaritma karena menggunakan
perhitungan yang sederhana. Di bawah ini merupakan gambaran umum untuk
logaritma dari fungsi likelihood:
………….(11)
Nilai maximum dari kemampuan responden (ability) dalam fungsi
likelihood (atau log-likelihood) disebut sebagai estimasi maksimum likelihood.
Mencari nilai maximum dari sebuah fungsi bukanlah hal yang mudah dan dapat
diselesaikan dengan menggunakan bantuan komputer. Dikatakan bahwa disaat
fungsi mencapai titik maksimumnya, maka kemiringan atau slope (turunan
pertama) adalah nol. Dengan demikian, estimasi maximum likelihood dapat
ditentukan dengan cara melakukan turunan (derivativ) pertama dari persamaan
fungsi Likelihood atau Log-Likelihood sama dengan nol. Persamaan ini tidak
dapat diselesaikan secara langsung, dan metode pendekatan yang digunakan ialah
prosedur Newton-Raphson (Hambleton dan Swaminathan, 1985).
-
30
Fungsi Likelihood (atau log-likelihood) memiliki keterbatasan pada nilai
yang maximum, seperti (a) ketika responden menjawab semua item dengan benar
atau salah, yang estimasi maximum likelihood-nya dinyatakan = +∞ atau = -
∞, (b) serta beberapa pola respon yang aneh. Oleh karena itu, untuk estimasi
maximum likelihood pada kemampuan examinee tidak dapat dilakukan. Salah
satu properti dari estimasi maximum likelihood ialah asimptotik dimana
menggunakan sampel besar berarti juga menggunakan tes yang panjang (item
yang cukup banyak). Sebagai tes yang panjang, theta ( atau kemampuan
responden) pada estimasi maximum likelihood akan terdistribusi secara normal
dan tidak bias.
Apabila terdapat masalah yang tidak dapat diselesaikan dengan estimasi
maximum likelihood dalam beberapa situasi dapat diatasi dengan menggunakan
prosedur estimasi bayesian. Estimasi bayesian akan dibahas pada sub-bab
sesudahnya, namun ide dasarnya adalah memodifikasi fungsi likelihood dengan
cara memasukkan informasi sebelum (prior information) sehingga akhirnya
mendapatkan parameter kemampuan responden. Pada model IRT untuk mencari
parameter item biasanya digunakan estimasi maximum likelihood, dan metode
yang paling sering digunakan adalah joint maximum likelihood (JML), conditional
maximum likelihood (CML, dan marginal maximum likelihood (MML), yang
dijabarkan dibawah ini:
-
31
2.2.1.1. Estimasi joint maximum likelihood (JML)
Prosedur JML (Lord dalam Hambleton, 1991) berlaku untuk satu,
dua, dan tiga-parameter model. Kemampuan responden dan parameter item
diestimasi dengan cara bersamaan. Menurut estimasi JML, apabila
kemampuan responden tidak diketahui maka diatasi sementara dengan
menggunakan kemampuan responden diestimasi sebagai nilai-nilai
diketahui. Tingkat kemampuan responden sementara diestimasi sendiri
ditingkatkan dengan menggunakan parameter item yang kemudian
diestimasi. Estimasi JML adalah prosedur iterasi yang melibatkan estimasi
parameter responden dan item. Pada tahap 1, parameter responden dan pada
tahap 2 mengestimasi parameter item, gambaran yang ada sebagai berikut:
1. Iterasi pertama yakni menetapkan nilai awal untuk item parameter
(misalnya, nilai umum seperti nol) sehingga estimasi maximum
likelihood dari parameter responden dapat diperoleh. Kemudian,
parameter item diestimasi menggunakan parameter responden yang
sebelumnya telah diestimasi di tahap pertama.
2. Iterasi kedua, parameter responden diestimasi menggunakan estimasi
parameter item yang ditingkatkan. Kemudian, parameter item
diestimasi lagi, menggunakan estimasi parameter responden. Iterasi
terus dilakukan sampai item parameter berubah sedikit antara iterasi
yang dilakukan berurutan.
-
32
2.2.1.2. Estimasi conditional maximum likelihood (CML)
Prosedur CML (Andersen dalam Hambleton, 1991) hanya berlaku
untuk model satu-parameter. Di sini fungsi likelihood dikondisikan pada
jumlah nilai yang benar. Menurut estimasi CML, apabila ingin
mengestimasi namun kemampuan responden tidak diketahui, hal ini dapat
ditangani dengan menggunakan pola respon item tanpa parameter
kemampuan responden. Hal ini dimungkinkan dalam prosedur CML
bahwa hanya dengan data yang ada cukup untuk mengestimasi
kemampuan responden. Dalam model Rasch, skor total-item cukup untuk
mengestimasi kemampuan responden. Dengan demikian, responden
dengan total skor yang sama, terlepas dari item mana yang tidak
dikerjakan maka akan menerima estimasi kemampuan responden yang
sama. Namun, untuk model yang lebih kompleks, seperti 2PL dan 3PL,
skor total tidak dapat digunakan untuk mengestimasi kemampuan
responden. Estimasi CML hanya bisa diterapkan pada model Rasch (atau
model 1PL). Serupa dengan estimasi JML, parameter responden dalam
CML dianggap sebagai nilai tetap.
2.2.1.3. Estimasi marginal maximum likelihood (MML)
Prosedur MML (Bock & Atkin dalam Hambleton, 1991) berlaku
untuk satu, dua, dan tiga-parameter model. Parameter kemampuan
responden dan parameter item yang ingin diestimasi terintegrasi keluar.
Dengan ditentukan parameter item mana yang akan diestimasi, maka
-
33
parameter kemampuan juga ikut diestimasi. Menurut estimasi MML,
apabila kemampuan responden tidak diketahui maka estimasi dapat
dilakukan dengan menggunakan probabilitas pola respon dari distribusi
populasi. Dalam MML, data yang diamati dianggap sebagai sampel acak
dari suatu populasi (Bock & Liebarman dalam Embreston, 2000). Namun,
prosedur estimasi praktis tidak tersedia sampai Bock dan Aiken (dalam
Embreston, 2000) mengembangkan sebuah harapan atau maksimalisasi
(expected maximum) algoritma untuk mengestimasi. Algoritma EM dalam
MML adalah prosedur iterasi, seperti JML. Untuk MML, iterasi berturut-
turut meningkatkan frekuensi yang diharapkan untuk respon yang benar
dan kemampuan responden.
2.2.2. Metode bayesian
Apabila terdapat masalah yang tidak dapat diselesaikan dengan estimasi
maximum likelihood dalam beberapa situasi dapat diatasi dengan menggunakan
prosedur estimasi bayesian. Ide dasarnya adalah memodifikasi fungsi likelihood
dengan cara memasukkan informasi sebelum kita mendapatkan parameter
kemampuan. Prosedur bayesian merupakan prosedur yang menggunakan atau
menggabungkan pengetahuan subjektif (terdahulu) tentang parameter yang akan
ditaksir dengan informasi yang diperoleh dari data sampel. Informasi terdahulu
disebut disebut juga dengan informasi prior, diperoleh dari distribusi parameter
tersebut. Informasi dari data dirangkum dalam fungsi likelihood. Penggabungan
-
34
dari informasi prior dan informasi dari data akan menghasilkan informasi
posterior.
Sebagai contoh, kita mungkin dapat mengatakan, berdasarkan beberapa
pengalaman sebelumnya, bahwa theta () terdistribusikan secara normal dengan
mean (μ) dan standar deviasi (). Dalam hal ini, informasi sebelumnya dapat
dinyatakan dalam bentuk fungsi padat (densitas) dan dinotasikan sebagai f().
Teorema Bayes menyatakan bahwa probabilitas kondisional (conditional
probability) dari suatu peristiwa A jika peristiwa B sudah terjadi (probabilitas
terjadinya peristiwa A jika kondisi B sudah diketahui) adalah
………………………………..(12)
Di dalam pendekatan bayesian, estimasi parameter pada sebuah model statistik,
dilakukan dengan cara menyederhankan rumusan di atas menjadi persamaan yang
bersifat proporsionalnya yakni:
P (A B) P (B A) P (A)………………………(13)
dimana simbol diartikan sebagai “proporsional terhadap”, A sebagai hipotesis
atau parameter sedangkan B merupakan data yang diperoleh. Rumusan di atas
diperoleh karena P(B) dalam perhitungannya bersifat konstan. Di dalam rumus
tersebut probabilitas P(AB) (posterior) adalah sama dengan likelihood dari data B
dalam kondisi berlakunya hipotesis A (P(BA)) dikalikan (diboboti) dengan
probabilitas hipotesis A (prior). Dengan kata lain probabilitas benar tidaknya
hipotesis A dalam kondisi data B sudah diperoleh (P(AB)), adalah sama dengan
probabilitas dari data dalam kondisi hipotesis A berlaku (likelihood) dikalikan
-
35
dengan probabilitas hipotesis A yang berdasarkan pengalaman atau pengetahuan
yang sudah ada sebelumnya (prior). Pada konteks ini P(AB) disebut posterior.
Sebagai kesimpulan atau ringkasnya, pobabilitas posterior adalah likelihood yang
dikoreksi atau disesuaikan dengan probabilitas prior (pengetahuan atau teori yang
telah dimiliki sebelumnya).
Rumusan diatas dapat juga ditulis dalam bentuk:
posterior likelihood * prior…………………(14)
Ini diartikan bahwa likelihood dari data digunakan sebagai bahan untuk
memperbaharui informasi prior sehingga menjadi sebuah informasi posterior yang
siap dipakai. Hubungan di atas juga berlaku untuk fungsi padat (densitas), dimana
A adalah theta () dan B adalah pola respon item yang teramati (u). Dalam
Hambleton (1991) teorema bayes dapat ditulis seperti dibawah ini
f ( u) f (u ) f ()……………………………….……(15)
di mana f () adalah distribusi prior dari hipotesis atau pengetahuan. Selanjutnya,
karena f (u | ), pada kenyataannya adalah fungsi likelihood maka persamaan di
atas dapat ditulis sebagai:
f ( u) L (u ) f ()………………………………..(16)
2.2.2.1. Estimasi maximum a posteriori (MAP)
Dalam Embreston (2000) keterbatasan prosedur maximum
likelihood dapat diatasi dengan memasukkan informasi distribusi
sebelumnya (prior distribution) ke dalam fungsi log-likelihood. Dengan
digunakannya distribusi prior, maka nilai outlier yang akan memberikan
-
36
pengaruh tidak semestinya terhadap estimasi parameter item ataupun
orang dapat terlindungi. Estimasi MAP merupakan metode estimasi
bayesian yang menggunakan informasi sebelumnya (prior) mengenai nilai
parameter yang berhubungan dengan fungsi Log-Likelihood untuk
mendapatkan estimasi berdasarkan kemampuan responden dengan cara
memaksimalkan distribusi posterior. Terdapat tiga konsep dasar dalam
MAP yakni (a) prior distribution (pengetahuan atau teori yang sudah ada
sebelumnya) hipotesisnya hampir sama dengan distribusi probabilitas,
asumsinya bahwa responden merupakan sampel acak, dalam estimasi
kemampuan responden prior distribution ialah distribusi normal standar,
(b) fungsi log-likelihood dan (c) posterior distribution (likelihood yang
dikoreksi atau disesuaikan dengan prior distribution). Distribusi posterior
mudah untuk ditentukan karena hanya fungsi Likelihood yang dikalikan
dengan fungsi prior distribution. Tujuan penskoran dalam MAP ialah
untuk menemukan nilai theta () dengan cara memaksimalkan posterior
distribution.
2.2.2.2. Estimasi expected a posteriori (EAP)
Estimasi dengan menggunakan expected a posteriori (EAP) agak
berbeda dengan estimasi yang dilakukan dengan cara maximum likelihood
(ML) dan maximum a posteriori (MAP) karena prosedurnya yang non-
iterative. Bertentangan estimasi ML, estimasi kemampuan responden
dengan menggunakan EAP dapat dilakukan dengan semua pola respon
-
37
(baik pola respon yang menjawab benar semua atau salah semua). EAP
merupakan estimasi bayesian yang menemukan rata-rata kemudian
dibandingkan dengan model yang berasal dari posterior distribution.
Menurut Bock dan Misvely (dalam Embreston, 2000)
pengestimasian ability menggunakan EAP memiliki error mean square
yang minimum. Properti ini baru bisa digunakan apabila sudah benar.
Hasil EAP dapat juga akan bias ketika jumlah item terbatas untuk
diestimasi dan estimasi kemampuan responden akan mundur mendekati
mean kecuali jumlah item yang diestimasi besar. Namun, seberapa banyak
item yang diestimasi belum diketahui secara pasti. Beberapa keuntungan
dari estimasi EAP dibandingkan dengan ML ialah non-iterative, mudah
dihitung, estimator minimum mean square, dan estimasi untuk semua jenis
pola respon item.
2.3. Analisis Faktor
Cikal bakal analisis faktor dimulai saat Alfred Binet (dalam Thompson,
2004) menciptakan ukuran kinerja intelektual, yang sekarang dikenal dengan tes
IQ. Namun, sejak awal terdapat pertanyaan apa definisi mengenai kecerdasan dan
bagaimana cara mengukurnya. Kontroversi ini dijawab oleh Spearman (dalam
Thompson, 2004) yang mencoba menemukan atau merumuskan struktur
kemampuan mentral yang bersifat umum. Dari sinilah konsep mengenai analisis
faktor mulai dicetuskan, namun untuk segi matematis analisis faktor berawal dari
pemikiran Pearson (dalam Umar, 2012). Hingga akhirnya analisis faktor dianggap
-
38
sebagai metode statistika ketika Lawley dan Maxwell menerbitkan tulisan mereka
pada tahun 1971 (Umar, 2012).
Prosedur untuk analisis faktor pertama kali dikembangkan pada awal abad
ke-20 oleh Spearman (dalam Thompson, 2004). Namun, karena langkah-langkah
yang rumit dan memakan waktu yang terlibat dalam proses, analisis faktor adalah
tidak dapat diakses oleh banyak peneliti sampai terdapat paket perangkat lunak
statistik di dalam komputer dan user-friendly (Thompson, 2004).
2.3.1. Pengertian analisis faktor
Berbagai para ahli ataupun tokoh memiliki pandangan mengenai analisis
faktor, menurut Lawley dan Maxwell (dalam Umar, 2012) analisis faktor
merupakan cabang dari analisis multivariat yang fokusnya pada hubungan internal
dari set berisikan variabel. Sedangkan menurut Cattel (dalam Thompson, 2004)
keberadaan analisis faktor sudah jauh lebih logis dan termasuk metode
korelasional. Kerlinger (dalam Thompson, 2004) memiliki pendapat mengenai
analisis faktor sebagai salah satu metode yang paling kuat untuk mengurangi
kompleksitas variabel hingga menjadi lebih sederhana.
Analisis faktor menurut Carr (dalam Gorsuch, 1983) mencakup berbagai
analisis korelasional yang dirancang untuk menguji keterkaitan antar variable.
Sedangkan, menurut Umar (2011) analisis faktor merupakan analisis multivariat
yang mengungkapkan struktur dari suatu matriks kovarians atau korelasi.
-
39
2.3.2. Manfaat analisis faktor
Mengenai kegunaan analisis faktor, Kerlinger (dalam Thompson, 2004)
menggambarkannya sebagai "salah satu alat yang paling kuat yang dirancang
untuk studi area kompleks yang menjadi perhatian ilmiah perilaku", sedangkan
dalam Thompson (2004), terdapat tiga tujuan yang ingin dilakukan dalam analisis
faktor, yakni:
1. Untuk menjawab pertanyaan mengenai validitas konstruk, apakah item-item
yang telah dibuat benar-benar mengukur mengenai apa yang hendak diukur.
2. Untuk mengembangkan atau membangun teori baru berdasarkan item-item
yang telah dibuat sebelumnya, ada berapa dimensi atau faktor yang mendasari
hubungan antar variabel-variabel tersebut.
3. Analisis faktor dapat digunakan untuk menyimpulkan hubungan dalam bentuk
kumpulan faktor skor kemudian digunakan untuk analisis subsequent
(misalnya analisis varians, regresi, ataupun analisis diskriminan).
2.3.3. Dua kelas analisis faktor
Analisis faktor dibagi menjadi dua yakni analisis faktor eksploratori
(exploratory factor analysis, EFA) dan analisis faktor konfirmatori (confirmatory
factor analysis, CFA). Antara EFA dan CFA merupakan bagian dari general
linear model (GLM). Konsep atau gagasan yang diusulkan oleh Spearman pada
tahun 1904, kini dikenal dengan sebutan analisis faktor eksploratori.
Seorang peneliti yang menggunakan EFA, maka tidak bisa untuk
menentukan berapa banyak faktor yang mendasari hubungan antara variabel-
-
40
variabel yang diukur. Sedangkan, untuk CFA peneliti langsung bisa menguji fit
atau tidak model faktor yang dibuat. Seorang peneliti yang memiliki model teori
tertentu akan lebih berguna menggunakan analisis faktor konfirmatori
dibandingkan eksploratori. Dalam Thompson (2004) terdapat analisis statistik
yang mungkin untuk dilakukan di CFA namun tidak mungkin di EFA (contohnya,
memperbolehkan varians error berkorelasi). Untuk lebih jelas perbedaan antara
exploratory factor analysis dan confirmatory factor analysis, peneliti akan sedikit
menjabarkannya di bawah ini:
2.3.3.1. Analisis faktor eksploratori
Exploratory factor analysis merupakan analisis faktor yang
bertujuan untuk mencari banyaknya faktor yang kurang atau sama dengan
banyaknya variabel yang ada. Analisis faktor eksploratori tidak memiliki
model teori yang akan diuji sebelumnya, namun digunakan untuk
membangun sebuah teori (build of theory). Tiga tahapan yang dilakukan
dalam analisis faktor eksploratory, yakni: (1) menentukan banyaknya
faktor, (2) menentukan item mana ikut faktor yang mana, dan (3)
memberikan nama pada faktor yang ada.
Menurut Umar (2011) analisis faktor ini sifatnya tidak ilmiah,
arbitrary atau interminasi dikarenakan tidak adanya kesepakatan yang pasti
untuk menentukan banyaknya faktor.
-
41
2.3.3.2. Analisis faktor konfirmatori
Pengembangan dari konsep EFA telah menciptakan metode dasar
untuk analisis faktor konfirmatori (cf. Joreskog dalam Thompson, 2004)
mengharuskan peneliti untuk memiliki bentuk model yang ingin diteliti
harus dispesifikan atau jelas sehingga nantinya dapat untuk dianalisis
mengenai: (1) jumlah faktor pada model, (2) jumlah variabel yang
mencerminkan setiap faktor yang ada pada model, dan (3) menetukan
apakah faktor-faktor tersebut berkorelasi atau tidak.
Analisis faktor konfirmatori merupakan metode yang lebih
“scientific” karena dapat diuji kebenarannya secara empirik dengan
menggunakan metode statistik (Umar, 2011). Selain itu, analisis faktor
konfirmatori menawarkan metode yang lebih layak untuk mengevaluasi
validitas konstruk. Untuk melakukan analisis faktor konfirmatori, terlebih
dahulu peneliti membuat hipotesis mengenai model yang berasal dari teori
yang akan diteliti. Model atau hipotesis, ditentukan dengan cara variabel
mana yang akan dikorelasikan dengan faktor-faktor dan apakah faktor-
faktor tersebut saling berkorelasi atau tidak. Hipotesis ataupun model yang
akan diuji didasarkan pada landasan teoritis (hal yang akan diteliti) atau
penelitian terdahulu.
Dalam Thompson (2004) disebutkan bahwa jika dihadapkan
dengan model teori, maka analisis faktor konfirmatori lebih berguna karena
(a) teori dapat langsung diuji dan dianalisis, dan (b) untuk memperoleh teori
yang fit maka dapat dikur dengan berbagai cara. Peneliti mampu secara
-
42
eksplisit menguji hipotesis mengenai struktur faktor dari data karena
memiliki model yang telah ditentukan sebelumnya dengan menetapkan
jumlah dan komposisi faktor. Terdapat beberapa prosedur yang biasanya
dilakukan di EFA, seperti merotasi factor, tidak dilakukan di dalam CFA.
Hal ini dikarenakan bahwa model yang telah dibuat sebelumnya sudah
menentukan simple structure, dengan menentukan koefisien faktor mana
yang dikonstrain-kan menjadi nol dan ada koefisen tertentu yang dibebaskan
untuk diestimasi.
Analisis faktor konfirmatori ialah komponen yang sangat penting
dalam kelas yang lebih luas yang dikenal dengan structural equation
modeling (SEM), atau kadang disebut dengan analisis struktur kovarians
(covariance structure analysis). Secara khusus CFA dikenal dengan “model
pengukuran” yang menggambarkan bagaimana variable-variabel yang
diukur dapat mencerimkan variable latent tertentu (Thompson, 2004). Model
pengukuran ialah bagaimana variabel laten atau konstruk hipotesis
tergantung pada indikasi dari variabel observed atau teramati. Hal ini
menjelaskan properti pengukuran (reliabilitas dan validitas) dari variabel
observed. (Joreskog & Sorbom, 1996).
2.3.3.3. Perbedaan EFA dengan CFA
Dalam Thompson (2004), dapat dilihat bahwa terdapat perbedaan
antara exploratory factor analysis dengan confirmatory factor analysis,
yakni:
-
43
1. Dalam EFA, semua parameter yang terdapat dalam model harus
diestimasi. Sedangkan analisis faktor konfirmatori, secara matematis
parameter tertentu “diizinkan” untuk “di-konstrain” atau “di-fix”
(contohnya, sebuah varians mungkin dikonstrain untuk sama positif
nilainya; korelasi (r) mungkin dikonstrain sama -1, +1 atau diantara -1
hingga +1, sementara pada saat yang sama “dibebaskan” parameter
model lainnya saat mengestimasi (contohnya, pola koefisien faktor,
varians faktor).
2. Analisis faktor ekxploratori, seorang peneliti mungkin mengharapkan
koefisien tertentu, tetapi harapannya tidak dapat dimasukan ke dalam
analisis. Namun pada CFA, peneliti harus memasukan koefisien tertentu
kedalam analisis satu atau model spesifik, dimana setiap model terdapat
parameter yang “di-fixkan” dan “dibebaskan”.
3. Tidak ada error varians yang berkorelasi di dalam analisis faktor
eksploratori, sedangkan dalam CFA korelasi dari berbagai pasang error
varians dapat diestimasi karena hal ini mungkin diperlukan oleh peneliti.
4. Faktor yang ada dalam analisis eksploratori semua faktor harus
berkorelasi atau semua tidak berkorelasi. Faktor pada CFA bisa
berkorelasi atau tidak tergantung dari model yang dibuat berdasarkan
teori yang ada, misal kedua faktor diizinkan untuk berkorelasi dan
korelasi ini dapat diestimasi yang merupakan bagian dari model.
-
44
2.3.4. Analisis faktor konfirmatori satu dan dua tingkat
2.3.4.1. Analisis faktor konfirmatori satu tingkat
Dalam analisis faktor konfirmatori, variabel laten atau faktor yang
tidak dapat diteliti secara langsung disimbolkan dengan bentuk lingkaran
atau elips, sedangkan variabel observed atau variabel measured yang dapat
diamati secara langsung berupa item-item pertanyaan ataupun pernyataan
disimbolkan dengan bentuk persegi atau persegi panjang. First order satu
faktor dalam analisis faktor konfirmatori digambarkan seperti di bawah ini:
Sehingga, persamaan untuk analisis faktor konfirmatori first order satu
faktor menjadi
X = x + ……………………………(17)
Keterangan
X = variabel observed atau terukur
= matrik x dari model umum yang berisikan muatan faktor atau
faktor loading
= variabel laten atau unobserved
= variabel error
-
45
2.3.4.2. Analisis faktor konfirmatori dua tingkat
Analisis faktor konfirmatori second order ialah model pengukuran
yang terdiri dari dua tingkat. Tingkat pertama menjelaskan hubungan antara
variabel observed atau variabel measured dengan variabel laten, sedangkan
pada tingkat kedua menjelaskan hubungan antara variabel laten di tingkat
pertama dengan variabel laten di tingkat ke dua. Persamaan analisis faktor
second order model y, yakni
Y = y ( + ) €…………………………..….(18)
Keterangan:
y = matriks faktor loading dari first order, dimana baris dari matrik
merupakan banyaknya variabel observed dan kolom dari matriks
ialah banyaknya variabel laten.
= matriks faktor loading dari second order, dimana baris dari matrik
merupakan banyaknya variabel laten pada first order dan kolom
dari matriks ialah banyaknya variabel laten pada second order.
= vector dari faktor variabel latent pada second order
= vector dari komponen unik atau error pada second order
€ = vector dari komponen unik atau error pada first order
= matriks kovarians dari faktor variabel latent pada second order,
dimana baris dan kolom pada matriks merupakan banyaknya
variabel laten pada second order
= matriks kovarians dari komponen unik atau error pada second order
€ = diagonal matrik kovarians dari komponen unik atau error pada first
order, dimana baris dan kolom pada matriks merupakan banyaknya
error variabel observed pada first order
Persamaan di bawah ini adalah bentuk dari analisis faktor model y
dengan first order faktor dan error pengukuran € dengan Y sebagai
variabel observednya, sehingga menjadi Y = y € + . Sekarang, variabel
digantikan dengan set faktor dari , sehingga disebut dengan faktor second
order, bahwa = + . Dimana adalah matrix faktor loading second
-
46
order dan adalah vector dari variabel unik untuk . Gabungan dari Y = y
+ € dan = + memberikan Y = y ( + ) + € dengan matrik
kovarians ∑ = y ( + ) y + €. Sehingga path diagram untuk
analisis faktor second order menjadi
2.4. IRT dan CFA
Item response theory dan confirmatory factor analysis sebenarnya tidak
berbeda satu dengan yang lainnya. Pada IRT hanya ada satu tingkat regresi yang
non-linier (biasanya logistik) dimana benar-salahnya jawaban (y atau u)
merupakan dependent variable, sedangkan latent variable kontinus (trait) sebagai
independent variable. Regresi ini memiliki dua parameter yaitu slope (daya
pembeda) dan intercept (tingkat kesukaran). Hal yang sama juga terjadi pada CFA
dengan variabel kategorik ordinal. Dalam hal ini ad