pada second order unidimensional datarepository.uinjkt.ac.id/dspace/bitstream/123456789... ·...

ESTIMASI TRUE SCORE

PADA SECOND ORDER UNIDIMENSIONAL DATA:

SEBUAH STUDI SIMULASI MONTE CARLO TENTANG DAMPAK

PANJANG TES, TINGKAT KESUKARAN DAN DAYA PEMBEDA ITEM

Thesis

Diajukan untuk Memenuhi Persyaratan Memperoleh

Gelar Magister Sains Psikologi (M. Si)

Oleh:

Puti Febrayosi

NIM: 2110070000015

FAKULTAS PSIKOLOGI

UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH

JAKARTA

1433 H / 2013

ii

ESTIMASI TRUE SCORE

PADA SECOND ORDER UNIDIMENSIONAL DATA:

SEBUAH STUDI SIMULASI MONTE CARLO TENTANG DAMPAK

PANJANG TES, TINGKAT KESUKARAN DAN DAYA PEMBEDA ITEM

Tesis

Diajukan Kepada Fakultas Psikologi Untuk Memenuhi Syarat

Memperoleh Gelar Master Dalam Bidang Psikologi

Oleh:

PUTI FEBRAYOSI

NIM : 2110070000015

Di Bawah Bimbingan:

Pembimbing I Pembimbing II

Jahja Umar, Ph.D Dr. Ir. Bastari, M.A

NIP. 19470521 198003 1001 NIP. 19660730 199001 1001

FAKULTAS PSIKOLOGI

UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH

JAKARTA

1434 H/2013 M

iii

LEMBAR PENGESAHAN

Tesis yang berjudul ” Estimasi True Score Pada Second Order Unidimensional Data: Sebuah Studi Simulasi Monte Carlo Tentang Dampak Panjang Tes, Tingkat Kesukaran dan

Daya Pembeda Item” telah diujikan dalam sidang munaqasyah Fakultas Psikologi Universitas

Islam Negeri Syarif Hidayatullah Jakarta pada tanggal 19 Januari 2013. Tesis ini telah

diterima sebagai salah satu syarat untuk memperoleh gelar Master dalam bidang Psikologi.

Jakarta, 19 Januari 2013

Sidang Munaqasyah

Dekan/ Pembantu Dekan/

Ketua Merangkap Anggota, Sekretaris,

Jahja Umar, Ph.D Dra. Fadhilah Suralaga, M.Si

NIP. 19470521 198003 1001 NIP. 19561223 198303 2001

Anggota:

Bahrul Hayat, Ph.D

NIP. 19590430 198603 1016

Dr. Ir. Bastari, M.A

NIP. 19660730 199001 1001

LEMBAR PERNYATAAN

Dengan ini saya menyatakan bahwa:

1. Thesis ini merupakan hasil karya asli saya yang diajukan untuk memenuhi

salah satu persyaratan memperoleh gelar sarjana strata dua (S2) di UIN

Syarif Hidayatullah Jakarta.

2. Semua sumber yang saya gunakan dalam penulisan ini telah saya

cantumkan sesuai dengan ketentuan yang berlaku.

3. Jika dikemudian hari terbukti bahwa karya ini bukan hasil karya asli saya

atau merupakan hasil jiplakan dari karya orang lain, maka saya bersedia

menerima sanksi yang berlaku di UIN Syarif Hidayatullah Jakarta.

Jakarta, 14 Januari 2013

Puti Febrayosi

NIM: 2110070000015

iv

ABSTRAK

(A) Fakutas Psikologi Universitas Islam Negeri Syarif Hidayatullah Jakarta

(B) Januari 2013

(C) Puti Febrayosi

(D) xii + 113 halaman + lampiran

(E) Estimasi True Score Pada Second Order Unidimensional Data: Sebuah Studi

Simulasi Monte Carlo Tentang Dampak Panjang Tes, Tingkat Kesukaran

Dan Daya Pembeda Item

(F) Penelitian ini bertujuan mengetahui apakah terdapat perbedaan atau bias pada

data unidimensional second order namun dianggap sebagai unidimensional

hanya pada tingkat pertama atau first order. Serta mengetahui sejauh mana

pengaruh panjang tes, heterogenitas daya pembeda dan tingkat kesukaran

apabila terdapat perbedaan atau bias terhadap kemampuan responden.

Penelitian ini merupakan penelitian simulasi dimana yang menjadi fokus

penelitian ialah panjang tes, heterogenitas tingkat kesukaran dan daya

pembeda, dengan replikasi 50 kali. Selanjutnya data hasil replikasi ini

dianalisis sebagai first order unidimensional dan second order unidimensional

untuk kemudian dihitung selisih theta dari kedua analisis tersebut apakah bias

atau tidak.

Hasil penelitian ini menunjukan bahwa data dengan model unidimensional

pada second order namun dianalisis sebagai unidimensional pada first order

maka hasil yang diperoleh mengenai theta ( atau kemampuan responden)

tidak memberikan gambaran yang sebenarnya, karena terdapat bias atau

perbedaan dari nilai mean yang dihasilkan lebih besar dari nol. Bias atau

perbedaan dari theta ( atau kemampuan responden) paling besar dihasilkan

oleh panjang tes 20 item dengan daya pembeda 0.20 dan tingkat kesukaran

0.10. Sedangkan bias atau perbedaan dari theta ( atau kemampuan

responden) paling kecil dihasilkan oleh panjang tes 60 item dengan daya

pembeda dan tingkat kesukaran 0.20. Disamping itu, berdasarkan hasil

perhitungan didapatkan R square sebesar 0.130 hal ini berarti 13% bias

responden dapat dijelaskan oleh bervariasinya panjang tes, heterogenitas daya

pembeda dan tingkat kesukaran dengan indeks signifikansi sebesar 0.007 (p <

0.05).

(G) Daftar Bacaan: 21 (1983-2012)

ABSTRACT

(A) Faculty of Psychology, State Islamic University, Syarif Hidayatullah Jakarta

(B) January 2013

(C) Puti Febrayosi

(D) xii + 113 page + appendix

(E) True Score Estimation On Second Order Unidimensional Data: A Monte

Carlo Simulated Study On the Effects Of Test Length, Item Difficulties And

Discriminations

(F) This study aims to determine whether there is a difference or bias in the

second order unidimensional data but regarded as a unidimensional only at

the first level or first order. And to know the influence of test length,

heterogeneity item difficulty and item discrimination if there is a difference

or bias on the ability of respondents.

This research is a simulation and the focus variable of this study is test

length, heterogeneity item difficulty and item discrimination, with 50

replication. Further, data replication were analyzed as first order

unidimensional and as second order unidimensional, and then calculated the

difference of the two analyzes are biased or not.

These results indicate that the data on the second order unidimensional model

but analyzed as a unidimensional order to first order the results about the

ability of respondents do not give on the theta true, because there is a bias or

a difference of mean values produced greater than zero. Bias or differences

from theta ( or the ability of respondents) greatest is length of the test 20

items with item discrimination 0.20 and item difficulty 0.10. In spite of, bias

or difference from theta ( or the ability of respondents) smallest is test

length 60 items with item discrimination and item difficulty 0.20. In addition,

based on the results of the calculation of R square is 0130. It is means that

13% of respondent bias can be explained by variations in length of test,

heterogeneity item discrimination and item difficulty with index significance

is 0.007 (p

v

KATA PENGANTAR

Assalamu’alaikum Warahmatullahi Wabarakatuh

Alhamdulillahirabbil’alamin, ya...Rabb yang Maha Pengasih lagi Maha

Penyayang puji syukur penulis panjatkan kehadirat-Mu karena atas rahmat dan

karunia Allah SWT penulis mampu menyelesaikan thesis ini. Sungguh tiada

terkira karena atas izin-Mu ya Allah maka penulis memperoleh pemahaman apa

yang sedang dikerjakan, sedikit demi sedikit. Shalawat serta salam semoga selalu

tercurahkan kepada Nabi Muhammad SAW beserta keluarga, sahabat dan seluruh

umatnya.

Dengan terselesaikannya thesis ini tidak terlepas dari arahan, bimbingan,

dorongan, bantuan dan pastinya doa yang selalu mengiringi penulis dari semua

pihak. Oleh karena itu, dengan rasa yang tulus, penulis mengucapkan rasa terima

kasih kepada semua pihak yang telah membantu proses penyelesaian thesis ini,

terutama kepada:

1. Bapak Jahja Umar, Ph.D, Dekan Fakultas Psikologi, dosen sekaligus

pembimbing dan penguji thesis penulis. Terima kasih banyak atas waktu,

tenaga, arahan dan kesabaran yang telah diikhlaskan selama bapak

membimbing penulis. Banyak hal yang bapak ajarkan dan ceritakan

hingga akhirnya mengubah pola pikir khususnya mengenai dunia

psikometri. Semua diawali dengan sebuah kerja keras, pengorbanan,

kegigihan dan kemauan untuk berubah lebih baik. Terima kasih pak.

2. Bapak Dr. Ir. Bastari, M.A ketua Jurusan Psikometri, dosen sekaligus

pembimbing kedua. Berawal dari mata kuliah yang bapak ajarkanlah,

penulis tertarik dengan studi simulasi walaupun awalnya tidak jelas benar

apa yang akan diteliti. Terima kasih banyak atas waktu, pikiran dan arahan

ditengah-tengah kesibukan yang sangat padat.

3. Segenap Pembantu Dekan Fakultas Psikologi, Ibu Dra. Fadhilah Suralaga,

M.Si, Ibu Zahrotun Nihayah, M.Si dan Bapak Bambang Suryadi, Ph.D,

Bapak Bahrul Hayat, Ph. D selaku penguji, Bapak Dr. Suprananto beserta

vi

seluruh dosen civitas akademika Fakultas Psikologi UIN Syarif

Hidayatullah Jakarta, yang telah memberikan saran dan kritik dalam

penulisan thesis ini. Terima kasih atas semangat untuk menyelesaikan

thesis ini.

4. Seluruh karyawan Fakultas Psikologi UIN, terima kasih atas pelayanan

terbaiknya dan rasa kekeluargaan yang ada khususnya kepada kak Rini

dan Susi.

5. Kedua orang tua penulis, Ibu Indah Susi Asih dan Bapak Yodial Bahari.

Sungguh…terima kasih banyak atas semua nya yang telah diberikan

kepada penulis hingga saat ini dan tidak akan mampu terbalaskan. Terima

kasih kepada Allah karena dilahirkan dari mama & papa. Doa, kasih

sayang, motivasi, dan harapan mama & papa selalu menjadi pemicu

penulis untuk selalu membuat mama dan papa bahagia. Kedua adik

tersayang: Puti Mayang Raschania dan Zahlul Al-Minangi, semangat dan

doa adik agar penulis terus berusaha menyelesaikan dan menghibur saat

sedang down. Jadikanlah kami anak-anak yang shaleh untuk orang tua

kami, Amin ya Rabbal’alamin.

6. Sahabat sekaligus teman seperjuangan, Yulistin Tresnawaty. Semangat

yang naik-turun, emosi yang ada, perjuangan memahami MPlus hingga

melupakan liburan dan kurang tidur. Terima kasih untuk saling

menyemangati dan mengingatkan selama penyelesaian ini. Semoga sedikit

ilmu yang sudah kita peroleh akan membawa kemaslahatan setidaknya

untuk diri sendiri. Amin ya Rabbal’alamin. Keluarga dan sahabat baru di

magister sains psikologi angkatan pertama, Ika Rahayu, Kak Adhe Hartin,

Rizka, Bu Ida, Bu Amita, Kak Nisa, Bunda Elisa, Fya, Bu Ade Pifianti, Bu

Eha, Siskha, Pae Marjuki, Bu Husnayah, Ochil, Bu Nur, Bu Riza, Kak Ade

Darmiah, Mas Zikri, Arni, Bang Erja. Terima kasih untuk rasa

persaudaraan, kekeluargaan yang terbangun dan memberikan warna baru

saat kuliah. Kangen semuanya..saat kuliah, ngerjain tugas dan makan

bareng tiap break sholat maghrib.

vii

7. Sahabat dan teman-teman kelas C, S1 Fakultas Psikologi UIN Jakarta,

khusunya Mbak Putrie, Emma Noor Habiebah, Bunda Icha Annisa Zulfa,

Fitri Oktaviani, Galih, Anggie Rizki, Wisnu, Lulu dan Faiqoh, terimakasih

untuk support dan menanyakan kapan selesai thesisnya. Thanks guys.

Tanpa mengurangi rasa hormat dan terima kasih, kepada semua pihak

yang tidak dapat disebutkan satu persatu, telah mendoakan dan membantu

penulis dengan tulus ikhlas. Semoga doa, dukungan dan bantuan dari semua

pihak dibalas oleh Allah SWT dengan sebaik-baik pembalasan-Nya, Amin ya

Rabb.

Penulis menyadari bahwa thesis ini masih jauh dari kesempurnaan,

terdapat banyak kekurangan dan kesalahan, sehingga penulis mengharapkan

saran dan memberik masukan untuk lebih baik. Akhir kata, penulis ucapkan

banyak terima kasih, untuk semua hal dan mohon maaf atas kekhilafan yang

pernah terjadi.

Wassalamu’alaikum Warramatullahi Wabarakatuh.

Jakarta, Januari 2013

Puti Febrayosi

viii

DAFTAR ISI

HALAMAN JUDUL i

HALAMAN PERSETUJUAN ii

LEMBAR PENGESAHAN iii

ABSTRAK iv

KATA PENGANTAR v

DAFTAR ISI viii

DAFTAR TABEL x

DAFTAR GAMBAR xii

BAB 1. PENDAHULUAN 1-11

1.1. Latar Belakang Masalah 1 1.2. Perumusan dan Pembatasan Masalah 9

1.2.1. Perumusan masalah 9 1.2.2. Pembatasan masalah 10

1.3. Tujuan dan Manfaat Penelitian 10 1.3.1. Tujuan penelitian 10 1.3.2. Manfaat penelitian 10

1.4. Sistematika Penulisan 11

BAB 2. LANDASAN TEORI 12-50

2.1. Item Response Theory (IRT) 12

2.1.1. Konsep dasar 12

2.1.2. Asumsi item response theory (IRT) 14

2.1.3. Model logistik 18

2.2. Estimasi Kemampuan Responden 25

2.2.1. Metode maximum likelihood 27

2.2.1.1. Estimasi joint maximum likelihood 31

2.2.1.2. Estimasi conditional maximum likelihood 32

2.2.1.3. Estimasi marginal maximum likelihood 32

2.2.2. Metode bayesian 33

2.2.2.1. Estimasi maximum a posteriori (MAP) 35

2.2.2.2. Estimasi expected a posteriori (EAP) 36

2.3. Analisis Faktor 36

2.3.1. Pengertian analisis faktor 38

2.3.2. Manfaat analisis faktor 39

2.3.3. Dua kelas analisis faktor 39

2.3.3.1. Analisis faktor eksploratori 40

2.3.3.2. Analisis faktor konfirmatori 41

2.3.3.3. Perbedaan EFA dan CFA 42

2.3.4. Analisis faktor konfirmatori satu & dua tingkat 44

2.3.4.1. Analisis faktor konfirmatori satu tingkat 44

2.3.4.2. Analisis faktor konfirmatori dua tingkat 45

ix

2.4. IRT dan CFA 46

2.5. Simulasi Monte Carlo 48

2.6. Kerangka Berfikir 49

2.7. Hipotesis Penelitian 50

BAB 3. METODE PENELITIAN 51-58

3.1. Simulasi Data 51

3.2. Desain Penelitian 51

3.3. Jumlah Replikasi 53

3.4. Program Komputer Untuk Simulasi 53

3.5. Data Second Order Unidimensional 54

3.6. Kriteria Evaluasi 58

BAB 4. HASIL PENELITIAN 59-108

4.1. Mengecek Data Simulasi Menggunakan EFA 62

4.2. Mengecek Data Simulasi Menggunakan CFA 67

4.3. Bias Responden 71

4.4. Mean, Varian dan Standar Deviasi Dari Bias Responden 74

4.5. Mean dan Standar Deviasi dari Mean Bias Responden 80

Antar Replikasi

4.6. Mean dan Standar Deviasi dari Standar Deviasi 87

Bias Responden Antar Replikasi

4.7. Mean Bias Antar Replikasi Dengan Daya Beda Sama 94

4.8. Interakasi Panjang Tes, Heterogenitas Tingkat Kesukaran 96

dan Daya Beda

4.9. Mean Relative Bias Antar Replikasi 99

4.10. Standar Deviasi Relative Bias Antar Replikasi 104

BAB 5. KESIMPULAN DAN SARAN 109-111

5.1. Kesimpulan 109

5.2. Saran 111

5.2.1. Saran teoritis 111

5.2.2. Saran praktis 111

DAFTAR PUSTAKA 112

LAMPIRAN

x

Daftar Tabel

Tabel 3.1. Skema Simulasi Sebanyak 27 Model

Tabel 4.1. Simulasi 27 Model

Tabel 4.2. Hasil Exploratory Factor Analysis Pada Item-20



Tabel 4.5. Hasil Confirmatory Factor Analysis Dalam Nilai P-Value Untuk Item-20



Tabel 4.8. Nilai Bias Untuk 40 Responden Pada Replikasi Pertama Model 20-Aa

Tabel 4.9. Mean, Varian Dan Standar Deviasi Dari Bias Responden

Tabel 4.10. Mean Dari Bias Responden Untuk Replikasi Pertama Pada 27 Model

Tabel 4.11. Standar Deviasi Dari Bias Responden Untuk Replikasi Pertama Pada 27 Model

Tabel 4.12. Mean, Varian Dan Standar Deviasi Untuk 50 Replikasi Model 20-Aa

Tabel 4.13. Mean Dari Mean Bias Responden Antar Replikasi

Tabel 4.14 Mean Tinggi, Mean Sedang Dan Mean Rendah Dari Mean Antar Replikasi

Tabel 4.15. Standar Deviasi Dari Mean Bias Responden Antar Replikasi

Tabel 4.16. Standar Deviasi Tinggi, Sedang Dan Rendah Dari Mean Antar Replikasi

Tabel 4.17. Mean Dari Standar Deviasi Bias Responden Antar Replikasi

Tabel 4.18. Mean Tinggi, Sedang Dan Rendah Dari Standar Deviasi Antar Replikasi

Tabel 4.19. Standar Deviasi Dari Standar Deviasi Bias Responden Antar Replikasi

xi

Tabel 4.20. Standar Deviasi Tinggi, Sedang Dan Rendah Dari Standar Deviasi Bias Responden

Antar Replikasi

Tabel 4.21. Mean Dari Mean Bias Responden Antar Replikasi Apabila Daya Beda Sama

Tabel 4.22. Interaksi Daya Beda, Tingkat Kesukaran Dan Panjang Tes

Tabel 4.23. Interaksi Panjang Tes, Tingkat Kesukaran Dengan Daya Pembeda Disamakan (0.025)



Tabel 4.26. Mean Dari Mean Relative Bias Antar Replikasi

Tabel 4.27. Standar Error Dari Mean Relative Bias Antar Replikasi

Tabel 4.28. T-Value Dari Mean Relative Bias Antar Replikasi

Tabel 4.29. Mean Dari Standar Deviasi Relative Bias Antar Replikasi

Tabel 4.30. Standar Error Dari Standar Deviasi Relative Bias Antar Replikasi

xii

DAFTAR GAMBAR

Gambar 2.1. Kurva Karakteristik Item Model 1 Parameter Logistik



Grafik 4.1. Mean Dari Bias Responden Untuk Replikasi Pertama Pada 27 Model

Grafik 4.2. Standar Deviasi Dari Bias Responden Untuk Replikasi Pertama Pada 27 Model

Grafik 4.3. Mean Dari Mean Bias Responden Antar Replikasi

Grafik 4.4. Standar Deviasi Dari Mean Bias Responden Antar Replikasi

Grafik 4.5. Mean Dari Standar Deviasi Bias Responden Antar Replikasi

Grafik 4.6. Standar Deviasi Dari Standar Deviasi Bias Responden Antar Replikasi

Grafik 4.7. Mean Dari Mean Antar Replikasi Dimana Daya Beda Disamakan

Grafik 4.8. Mean Dari Mean Relatif Bias Antar Replikasi

Grafik 4.9. Mean Dari Standar Deviasi Relative Bias Antar Replikasi

1

BAB 1

PENDAHULUAN

Dalam bab pendahuluan ini akan dibahas mengenai latar belakang

masalah, identifikasi masalah, pembatasan dan perumusan masalah, tujuan

penelitian, serta manfaat penelitian.

1.1. Latar Belakang Masalah

Saat ini, tes psikologi bukanlah sesuatu hal yang baru atau hal yang asing

di masyarakat, apalagi bagi mereka yang pernah memiliki pengalaman menjadi

peserta dalam tes psikologi tersebut. Tes psikologi berisikan item-item pertanyaan

ataupun pernyataan yang diskor berdasarkan respon jawaban, sehingga hasilnya

diharapkan dapat memberikan informasi serta membantu untuk mengenali

individu tersebut sesuai dengan tujuan pengetesan. Secara sederhana, tes

didefinisikan sebagai alat ukur atau prosedur (Ronald, 2010), sedangkan

pengetesan (Kaplan, 2005) diartikan sebagai pengukuran atau teknik yang

digunakan untuk mengukur perilaku atau membantu untuk memahami dan

prediksi perilaku.

Pengetesan psikologi yang dimulai sejak awal abad ke-20 atau tahun 1905

di Perancis oleh Alferd Binet, berkembang pesat dan memberikan sumbangan

secara efektif pada banyak bidang kehidupan. Kegiatan pengetesan psikologi

dilakukan hampir di semua bidang kehidupan, mulai bidang pendidikan, industri,

klinis dan ilmu sosial lainnya karena banyak keputusan, kebijakan, assessment

2

dan treatment yang dibuat berdasarkan hasil pengetesan tersebut. Sebagai contoh

dalam bidang pendidikan, mulai dari taman kanak-kanak hingga perguruan tinggi

memanfaatkan pengetesan psikologi untuk mengukur intelegensi (IQ), arah minat

dan bakat, konsentrasi, kematangan emosional, interaksi sosial, kepercayaan diri

serta dijadikan salah satu syarat penerimaan siswa. Contoh lain dalam bidang

industri pengetesan psikologi dilakukan untuk penerimaan pegawai, mutasi atau

promosi jabatan. Selain itu, pengetesan pada setting klinis dimanfaatkan untuk

kepentingan diagnosis prognosis maupun terapi pada gangguan-gangguan pribadi.

Demi memastikan tes psikologi yang digunakan dalam berbagai tujuan

memiliki kemampuan untuk menempatkan seseorang pada tempat yang tepat

sesuai dengan bidangnya, menjadi bahan pertimbangan untuk kebijakan yang

akan diambil dan juga terjaga validitas dan reliabilitasnya, maka tes tersebut harus

memiliki kualitas item yang baik dan berkualitas tinggi. Analisis item bertujuan

untuk mengidentifikasi mana item-tem yang baik, kurang ataupun tidak baik sama

sekali, sehingga ketika digunakan hasil tes tersebut benar-benar sudah mengukur

apa yang hendak diukur atau diketahui. Analisis terhadap kualitas item dilakukan

baik secara kualitatif maupun kuantitatif. Analisis item secara kualitatif ialah

mengkaji secara teoritik item tes yang telah disusun, dengan memperhatikan tiga

aspek, yaitu aspek materi, aspek konstruksi, dan aspek bahasa. Sedangkan analisis

item secara kuantitatif dapat menggunakan pendekatan teori tes klasik (classical

test theory) maupun teori respon item (item response theory).

Teori tes klasik merupakan sebuah teori yang sudah digunakan dalam

kurun waktu yang lama, sehingga sebagian besar orang yang terkait dengan dunia

3

pendidikan dan psikologi telah mengetahui dan memahami konsep serta

penerapannya. Salah satu keunggulan dari tes ini terletak pada konsepnya yang

sederhana untuk menghitung koefisien validitas dan reliabilitas tes, parameter soal

dan kemudahan menentukan kemampuan peserta. Skor amatan dalam teori tes

klasik (observed score = X) terdiri dari skor sebenarnya (true score = T) dan skor

kesalahan (error score = E). Nilai true score merupakan nilai rata-rata yang

diperoleh dari pengulangan tes menggunakan soal tes yang sama, dan menentukan

kemampuan peserta tes dengan cara menjumlahkan skor amatan yang diperoleh

peserta. Hal ini dapat dilakukan apabila tingkat kesukaran dan daya pembeda soal

memiliki nilai yang sama dan uni-dimensional. Jika kondisi di atas dapat

terpenuhi, maka skor-skor pada item-item tersebut dapat langsung dihitung

dengan menjumlahkan semua skor pada item tersebut, disertai dengan nilai

reliable untuk mengetahui internal consistency. Namun, kenyataannya uni-

dimensional test sulit terpenuhi karena tingkat kesukaran dan daya pembeda yang

bervariasi. Apabila ini digunakan maka dapat menimbulkan kerugian bagi

pemakai hasil tes tersebut. Lebih dari itu, jika digunakan untuk mengambil sebuah

keputusan. Maka keputusan tersebut menjadi kurang valid, hasilnya bias, makin

besar penyimpangannya dan pemanfaatan raw score pada tes klasik menjadi

kurang bermanfaat.

Selanjutnya, metode dan prosedur teori tes klasik memiliki beberapa

kekurangan (Hambleton, 1991) yakni group dependent dan test dependet artinya

karaktersitik peserta dan tes saat interpretasi tidak dapat dipisahkan. Tingkat

kesukaran, daya pembeda, reliabilitas dan validitas tes bergantung pada kelompok

4

yang sedang dites (sampel yang ada). Begitu juga dengan kemampuan peserta

dapat dapat dikatakan tinggi atau rendah tergantung dengan tingkat kesukaran

item-itemnya. Konsep reliabilitas tes dikembangkan dari konsep tes pararel yang

dalam kenyataannya sulit untuk dipenuhi. Standart Error of Measurement (SEM)

berlaku untuk seluruh peserta, sehingga kesalahan baku pengukuran tiap peserta

dan butir soal tidak ada.

Untuk mengatasi kelemahan teori tes klasik, maka berkembanglah item

response theory (IRT). Teori ini berkembang sangat pesat, tidak hanya pada

bidang pendidikan dan psikologi, namun digunakan juga pada rekruitmen dan

seleksi (misal, penerimaan pegawai atau mahasiswa baru), qualification testing

(mengkualifikasikan seseorang sesuai pada level-level tertentu), evaluasi program

dan assessment, bidang klinis serta metode pengukuran dan penelitian. IRT

digunakan secara luas dalam pengembangan tes, analisis dan seleksi item,

penyetaraan tes, analisis bias item sampai dengan tes adaptif secara komputer

(computerized adaptive test, CAT).

Pendekatan teori tes klasik dan IRT memiliki sudut pandang yang berbeda,

tes klasik lebih berorientasi kepada test secara keseluruhan sedangkan IRT

memfokuskan pada item IRT (pola jawaban responden). Menurut Hambleton

(1991) keunggulan yang dimiliki IRT antara lain: (a) karakteristik item tidak

tergantung pada responden; (b) nilai kemampuan responden tidak tergantung pada

tes yang dikerjakan; (c) model lebih menekankan tingkatan (level) butir soal

daripada tingkatan tes; (d) tidak memerlukan tes paralel untuk menghitung

koefisien realibilitas; dan (e) model menyediakan ukuran yang tepat untuk setiap

5

skor kemampuan. Dua postulat yang dimiliki IRT (Hambleton, 1991) yakni (a)

performa dari responden dapat diprediksi atau dijelaskan oleh sekumpulan faktor

yang disebut dengan traits, laten traits atau kemampuan (b) hubungan antara

performa responden dalam item dengan performa responden dalam traits dapat

dijelaskan melalui fungsi yang disebut dengan item characteristic function atau

item characteristic curve (ICC). Fungsi ini menggambarkan bahwa semakin tinggi

kemampuan seseorang maka semakin besar kemungkinan atau peluang seseorang

untuk menjawab benar item tersebut.

Data yang bisa digunakan untuk mengestimasi kemampuan responden

dalam teori respon item dapat berupa data dikotomi (misal benar-salah atau ya-

tidak) maupun politomi (lebih dari 2 pengkategorian, misal essay atau skala

likert). Data dikotomi menggunakan model matematika 1, 2 atau 3 parameter

logistik. Perbedaan nama ini dikarenakan jumlah parameter yang digunakan

didalamnya baik tingkat kesukaran, daya beda ataupun guessing. Sedangkan data

politomi terdapat Partial Credit Model (PCM), Graded Response Model (GRM),

dan Generalized Partial Credit Model (GPCM).

Dalam IRT, kemampuan responden dapat diperoleh dengan cara

mengestimasi karakteristik parameter sesuai dengan model IRT yang sedang

digunakan. Penggunaan model dan parameter item yang berbeda, akan

menghasilkan estimasi kemampuan orang yang berbeda. Dalam IRT, tidak hanya

parameter item yang akan mempengaruhi hasil estimasi kemampuan peserta tes

(Lord & Novick dalam Ching-Fung, 2002), tetapi beberapa faktor lain seperti

dimensi dari tes, format jawaban responden, dan jumlah sampel yang digunakan.

6

Bahkan, keberhasilan dari IRT terletak pada prosedur yang memadai yang

digunakan dalam estimasi parameter tersebut.

Dalam penggunaan IRT harus memenuhi dua asumsi dasar yakni

unidimensionalitas (unidimensionality) dan independensi lokal (local

independence). Uni-dimensi diartikan bahwa apa yang diukur melalui beberapa

kumpulan item atau soal hanya mengukur satu traits. Terkadang asumsi ini tidak

dapat dipenuhi dengan mudah karena ada beberapa faktor yang mempengaruhi

misalnya motivasi, kecemasan, kemampuan untuk bekerja cepat dan lainnya.

Namun, persyaratan asumsi uni-dimensi ini dapat terpenuhi jika sekumpulan tes

mampu menyajikan secara “dominan” apa yang hendak diukur. Asumsi local-

independence dimaknai sebagai kemampuan individu item dalam performa tes

dianggap konstan dan respon terhadap setiap item yang dijawab adalah saling

bebas atau independen (tidak saling bergantung). Kemampuan yang dinyatakan

dalam model adalah satu-satunya faktor yang mempengaruhi respon peserta tes

pada butir-butir soal.

Sebelum menerapkan IRT, asumsi pertama yang harus dipenuhi adalah

bahwa item yang ada harus uni-dimensi artinya mendefinisikan satu konstruk

utama atau dimensi. Jika ada banyak item yang tidak sejajar dengan konstruk

utama, maka dapat diartikan sebagai multi-dimensi dan lebih dari satu. Situasi

IRT yang memenuhi asumsi uni-dimensi atau homogenitas item jarang terjadi

baik dalam bidang dipendidikan maupun psikologi. Hal ini mungkin disebabkan

selain dari faktor kognitif, juga dipengaruhi oleh personality responden

dalam menjawab item pertanyaan yakni kecepatan kerja, instruksi yang

7

ada, guessing atau kecenderungan menebak. Selain dari diri responden, faktor

tersebut juga bisa berasal dari rangsangan item soal yang sedang diberikan seperti

panjangnya teks (pertanyaan ataupun pernyataan yang ada), tabel, gambar, peta,

atau grafik yang tersaji pada soal. Sebagai contoh, tes matematika dengan item

pertanyaan yang sangat panjang dan berbelit-belit akan menyebabkan responden

(siswa) sulit untuk memahami isi pertanyaan dari soal tersebut, dan membutuhkan

kemampuan membaca yang cukup besar. Ketika berhadapan responden dengan

latar belakang yang berbeda, beberapa diantaranya mungkin cukup mahir untuk

membaca dan memahami soal cerita matematika, akibatnya kemampuan membaca

mungkin sekunder dimensi (Almond, Heath, Helwig, Rozek-Tedesco & Tindal,

dalam Bo Zhang, 2008). Disamping itu, adanya gambar, tebel, grafik atau peta

yang ada pada soal untuk menyelesaikan pertanyaan akan menyulitkan siswa

dengan kemampuan imajinasi gambar yang lemah. Ketika kondisi ini terjadi,

maka asumsi IRT uni-dimensi tidak bisa terpenuhi.

Namun, apabila asumsi uni-dimensional dapat terpenuhi maka IRT dapat

digunakan. Berbicara mengenai penskoringan uni-dimensional pada first order

paling sering dilakukan. Seperti yang dilakukan oleh guru-guru di sekolah

misalnya pada pelajaran bahasa inggris materi yang diujikan terdiri dari reading,

listening dan writing, ataupun pelajaran matematika yang terdiri dari beberapa sub

materi misalnya logartima, persamaan fungsi kuadrat, trigonometri dan ruang tiga

dimensi, guru hanya memberikan satu nilai tiap pelajaran tertentu, dari beberapa

sub materi yang diujikan didalamnya. Tidak hanya bidang pendidikan yang

memperlakukan kondisi tersebut, namun untuk bidang psikologi hal ini

8

tampaknya juga masih banyak diterapkan. Seorang peneliti masih menskor sebuah

skala untuk mengukur perilaku ataupun persepsi mengenai sesuatu yang terdiri

dari beberapa dimensi diperlakukan sebagai satu nilai. Misalnya skala kepribadian

big five yang terdiri dari lima dimensi yakni neuroticism, extraversion, openness

to experience, agreeableness, dan conscientiousness, diperlakukan dengan

menskor semua item pernyataan sebagai satu kesatuan. Di sisi lain, bagaimana

hasilnya jika scoring atau penskoran diperlakukan dengan cara uni-dimensional

second order.

Uni-dimensional second order rasanya belum sering ditemui dilapangan.

Sebagian besar sistem penskoran masih memperlakukan uni-dimensional first

order terhadap tes yang didalamnya terdiri dari beberapa dimensi. Biasanya tes

terdiri dari beberapa dimensi yang ditujukan hanya untuk mengukur satu hal

misalnya tes matematika, bahasa inggris ataupun perilaku tertentu apakah bisa kita

perlakukan sama dalam penskoringan walaupun sudah terpenuhi uni-dimensi item

response theory. Uni-dimensional second order pada tes pendidikan ataupun

psikologi diartikan bahwa sebuah tes yang terdiri dari beberapa dimensi

didalamnya, terlebih dahulu diskor dimensi masing-masing kemudian nilai pada

kesemua dimensi tersebut diestimasi untuk mendapatkan nilai kumulatif dari

kesemua dimensi yang ada ataupun kemampuan responden pada tes tersebut.

Berdasarkan uraian di muka, peneliti tertarik untuk melihat bagaimakah

sebuah tes jika diperlakukan sebagai uni-dimensional second order yang biasanya

orang memperlakukan sebagai uni-dimensional first order. Peneliti tertarik untuk

menemukan jawaban dari beberapa pertanyaan, seperti: (1) apakah terdapat

9

perbedaan hasil dalam mengestimasi kemampuan seseorang dengan cara uni-

dimensional second order; (2) dalam kondisi seperti apakah uni-dimensional

second order bisa diperlakukan sama seperti uni-dimensional first order; (3)

apakah dengan jumlah soal tertentu (panjang tes) baru bisa memperoleh estimasi

yang sama, tingkat kesukaran dan daya beda item yang tidak terlalu bervariasi

atau dengan minimum jumlah sampel tertentu, tingkat kesukaran dan daya beda

tertentu baru bisa diperlakukan sebagai uni-dimensional first order pada situasi tes

yang terdiri dari beberapa dimensi didalamnya; (4) lebih tepat mana antara uni-

dimensional second order dibandingkan uni-dimensional first order dalam

mengestimasi kemampuan responden serta dalam keadaan seperti apa yang cocok

(panjang tes, tingkat kesukaran dan daya pembeda) untuk mendapatkannya.

Dengan demikian, judul studi ini adalah “Estimasi true score pada second order

unidimensional data: sebuah studi simulasi monte carlo tentang dampak

panjang tes, tingkat kesukaran dan daya pembeda item”.

1.2. Perumusan dan Pembatasan Masalah

1.2.1. Perumusan masalah

Berdasarkan latar belakang masalah di atas, pertanyaan yang timbul dalam

penelitian ini adalah:

a. Apakah terdapat bias atau deviasi jika data second order unidimensional

diperlakukan sebagai unidimensional first order?

10

b. Bagaimanakah pengaruh panjang tes, heterogenitas tingkat kesukaran dan daya

pembeda terhadap hasil true score jika data yang ada dipelakukan sebagai first

order uni-dimensional data?

1.2.2. Pembatasan masalah

Ruang lingkup dalam penelitian ini dibatasi pada estimasi true score pada

second order unidimensional data, merupakan sebuah studi simulasi monte carlo

mengenai dampak panjang tes, tingkat kesukaran dan daya pembeda item. Fokus

penelitian adalah kondisi seperti apakah yang lebih sesuai baik jumlah tes, tingkat

kesukaran dan daya pembeda pada data second order unidimensional data apabila

diperlakukan unidimensional hanya pada tingkat pertama atau first order. Data

yang akan dianalisis sebagai first order ialah data yang dibangkitkan atau data

simulasi dengan model yang sudah ditentukan.

1.3. Tujuan dan Manfaat Penelitian

1.3.1. Tujuan Penelitian

Tujuan penelitian ini adalah untuk mengetahui estimasi true score pada

second order unidimensional data khususnya terkait dengan dampak panjang tes,

tingkat kesukaran dan daya pembeda item.

1.3.2. Manfaat Penelitian

Penelitian ini diharapkan memberikan manfaat, baik secara teoritis

maupun praktis. Secara teoritis, penelitian ini diharapkan dapat menambah

khasanah ilmu pengetahuan psikologi, khususnya psikometri. Sedangkan secara

praktis, hasil penelitian ini dapat memberikan gambaran bagi pengguna IRT yang

11

sering memperlakukan second order unidimensional sebagai first order

unidimensional data.

1.4. Sistematika Penulisan

Berikut ini adalah sistematika penulisan dari laporan penelitian yang telah

dilakukan.

BAB 1 : PENDAHULUAN

Pada bab ini, peneliti menguraikan tentang latar belakang masalah,

perumusan dan pembatasan masalah, tujuan dan manfaat penelitian,

serta sistematika penelitian.

BAB 2 : LANDASAN TEORI

Pada bab ini, peneliti menguraikan tentang IRT, metode estimasi

kemampuan responden, CFA, dan simulasi Monte-Carlo, kerangka

berfikir dan hipotesis penelitian.

BAB 3 : METODE PENELITIAN

Pada bab ini, peneliti menguraikan simulasi data, desain penelitian,

jumlah replikasi, program komputer untuk data simulasi dan estimasi

kemampuan, data second order unidimensional dan kriteria evaluasi.

BAB 4 : HASIL PENELITIAN

Pada bab ini, peneliti menyajikan hasil penelitian dan interpretasinya.

BAB 5 : KESIMPULAN DAN SARAN

Pada bab ini, peneliti menyimpulkan apa yang telah diuraikan pada

bab-bab sebelumnya, disertai rekomendasi dalam bentuk saran yang

relevan.

12

BAB 2

LANDASAN TEORI

Landasan teori yang disajikan dalam bab ini mencakup beberapa hal

relevan dengan materi penelitian seperti: IRT, metode estimasi kemampuan, CFA

dan simulasi Monte-Carlo.

2.1. Item Response Theory (IRT)

2.1.1. Konsep dasar

Item response theory merupakan teori modern yang menghubungkan

karakteristik item dengan karakteristik peserta yang bertujuan untuk mengevaluasi

kualitas item serta mengetahui kemampuan responden. IRT hadir untuk mengatasi

kelemahan yang ada pada classical test theory (CTT), dimana interpretasi CTT

bergantung pada kelompok responden yang mengerjakan (group dependent) dan

tes yang diujikan (test dependent). Group dependent diartikan sebagai hasil

pengukuran bergantung pada kemampuan kelompok yang mengerjakan. Jika tes

yang diujikan kepada kelompok dengan kemampuan yang tinggi maka tingkat

kesulitan soal akan rendah,begitu juga sebaliknya. Sedangkan test dependent

diartikan hasil pengukuran bergantung pada tingkat kesulitan tes yang diujikan.

Apabila tes yang diujikan memiliki tingkat kesulitan tinggi, maka estimasi

kemampuan peserta tes akan rendah, dan sebaliknya.

Keberadaan IRT untuk mengestimasi kemampuan responden tidak

bergantung pada sejauh mana tingkat kesulian soal, dan tingkat kesulitan soal

13

tidak bergantung pada kelompok mana yang mengerjakannya. Dalam IRT, setiap

individu memiliki standar error nya masing-masing, berbeda dengan CTT dimana

standar error diratakan sama untuk semua responden. Menurut Lord & Novick

(dalam Hambleton, 1991) dalam IRT performa responden pada sebuah tes dapat

diprediksi atau dijelaskan dengan mendefinisikan karakteristik peserta ujian, yang

disebut sebagai sifat atau kemampuan; estimasi nilai responden pada trait ini

disebut sebagai kemampuan (ability), dan menggunakan nilai tersebut untuk

memprediksi atau menjelaskan item dan performa tes.

Dalam Embreston (2000) terdapat 10 kelebihan dari penggunaan IRT

dibandingkan CTT yakni:

1. Kesalahan baku pengukuran atau standard error of measurement (SEM)

memiliki nilai yang berbeda antar skor (atau pola respon) tetapi bersifat umum

antar populasi.

2. Tes yang lebih pendek tidak selalu memiliki reliabilitas yang lebih rendah jika

dibandingkan dengan tes yang lebih panjang.

3. Perbandingan hasil yang diperoleh dari beberapa paket tes dapat lebih optimal,

ketika tingkat kesulitan tes bervariasi antar responden.

4. Estimasi terhadap item dapat diperoleh secara objektif meskipun sampel yang

digunakan kurang representatif.

5. Nilai tes menjadi lebih bermakna ketika dibandingkan dengan karakteristik

item.

6. Properti skala interval dicapai dengan menerapkan model pengukuran yang

lebih rasional.

14

7. Tes dengan format item campuran dapat menghasilkan nilai tes yang optimal.

8. Nilai yang berubah dapat bermakna, jika dibandingkan dengan nilai awal

berbeda.

9. Analisis faktor pada data nilai mentah, menghasilkan informasi penuh

mengenai analisis faktor.

10. Sifat-sifat item dapat sebagai stimulus langsung yang berhubungan dengan

sifat psikometri.

Menurut Hambleton (1991) item response theory didasarkan pada 2

postulat yakni (1) performa responden pada item tes dapat diprediksi melalui

sekumpulan faktor yang disebut dengan traits, latent traits atau kemampuan, dan

(2) hubungan antara performa responden dengan sekumpulan traits digambarkan

oleh fungsi monotonik yang menaik atau biasa disebut dengan fungsi karakteristik

item atau kurva karakteristik item. Fungsi ini menggambarkan bahwa responden

yang memiliki kemampuan yang tinggi akan memperoleh peluang yang tinggi

juga untuk menjawab item dengan benar.

2.1.2. Asumsi item response theory (IRT)

Model matematika dalam IRT menetapkan bahwa kemungkinan responden

untuk menjawab item dengan benar tergantung pada tingkat kemampuan

responden dan karakteristik item. Hal ini dapat diartikan bahwa apabila ada

responden yang memiliki kemampuan yang tinggi maka kemungkinan atau

probabilitas untuk menjawab item dengan benar akan lebih besar dibandingkan

dengan responden dengan kemampuan yang lebih rendah. Dalam Hambleton dan

15

Swaminathan (1985) terdapat empat asumsi yang mendasari IRT yakni

dimensionality of the latent space, local independence, item characteristic curve,

dan speededness. Berikut penjelasan dari keempat asumsi tersebut:

1. Dimensionality of the latent space

Secara teori umum latents traits diasumsikan bahwa sekumpulan dari

latent traits atau kemampuan responden mendasari performa responden dari

sekumpulan item tes. Dalam model IRT diasumsikan bahwa hanya satu

kemampuan atau trait yang dapat “dijelaskan” atau “dihitung” dari performance

responden dalam sebuah tes, yakni dikenal dengan sebutan unidimensi.

Unidimensi diartikan bahwa apa yang diukur melalui beberapa kumpulan item

atau soal hanya mengukur satu trait. Namun pada kenyatannnya, asumsi ini tidak

dapat dipenuhi dengan mudah karena ada beberapa factor yang mempengaruhi

misalnya motivasi, kecemasan, kemampuan untuk bekerja cepat dan lainnya.

Oleh sebab itu, persyaratan asumsi unidimensi ini dapat terpenuhi jika

sekumpulan tes mampu menyajikan secara “dominan” apa yang hendak diukur.

2. Local independence

Asumsi local independence dimaknai sebagai kemampuan individu dalam

performa tes dianggap konstan dan respon terhadap setiap item yang dijawab

independen (tidak bergantung pada soal sebelumnya). Untuk memenuhi

terpenuhinya asumsi ini dapat dilakukan dengan membuktikan bahwa peluang

dari pola jawaban responden sama dengan hasil kali peluang jawaban responden

pada setiap item. Kemampuan individu dalam kumpulan test disebut complete

latent space, yang dinotasikan dengan , dan respon dari individu terhadap item

16

tertentu dinotasikan . Kemudian kemungkinan atau probability individu

menjawab item tertentu benar sesuai dengan kemampuannya () dinotasikan

, sedangkan probabilitas individu menjawab item tertentu salah

sesuai dengan kemampuannya dinotasikan . Secara matematik,

properti local independence dapat ditulis, seperti

…………………………………………………..(1)

Keterangan:

i = 1, 2, 3, ….. n

n = banyaknya item tes

P (Ui ) = probabilitas responden dengan kemampuan untuk

menjawab item ke-i secara benar

P (U1, U2,…Un ) = probabilitas responden dengan kemampuan untuk

menjawab item ke-satu hingga ke-n secara benar

3. Item characteristic curve (ICC)

Item characteristic curve (ICC) merupakan fungsi matematika yang

menyatakan probabiliti hubungan antara kemampuan responden () yang mampu

menjawab soal dengan benar . Dalam teori respon butir, kurva

karakteristik item merupakan komponen yang utama sehinga komponen-

komponen lain didalamnya bergantung kepada kurva tersebut. Bentuk kurva

karakteristik item bergantung pada parameter yang digunakan.

Dalam setiap item dan nilai kemampuan responden, jika seseorang memiliki

kemampuan yang tinggi maka kemungkinan untuk menjawab item tersebut benar

semakin besar, namun jika kemampuan responden tersebut rendah maka

17

kemungkinan untuk menjawab item dengan benarpun akan kecil. Jika P di-plotkan

sebagai fungsi dari kemampuan, maka hasilnya akan membentuk huruf “S” seperti

dibawah ini:

4. Speededness

Responden yang gagal untuk menjawab item tes asumsinya bisa

dikarenakan kemampuan mereka yang terbatas untuk menjawab pertanyaan

tersebut atau mereka gagal mencapai item tes tersebut dikarenakan kekurangan

waktu untuk menyelesaikannya. Asumsi ini mungkin jarang dikemukakan, karena

sifatnya yang implisit dari asumsi unidimensi. Ketika sebuah performa responden

dalam sebuah tes dipengaruhi oleh kecepatan (speed) maka dalam tes tersebut

akan mengukur dua hal yakni performa responden yang diukur dengan kecepatan

atau memang benar bahwa tes yang dikerjakan sudah mengukur kemampuan

responden tersebut.

18

2.1.3. Model logistik

Model yang digunakan dalam item characteristic function (IRF) atau item

characteristic curve (ICC) merupakan persamaan matematika yang

menggambarkan hubungan antara kemungkinan jawaban yang benar terhadap

kemampuan responden. Dalam penelitian awal bentuk penyelesaian ICC

menggunakan model kurva normal, namun karena sulitnya penghitungan maka

digunakanlah bentuk kurva logistik. Di samping itu, apabila digunakan kurva

normal, dimana kurva ini tidak monoton naik akan menyebabkan suatu

kemampuan lebih tinggi dari rerata, nilai probabilitas akan lebih rendah daripada

nilai probabilitas rerata kemampuan (Walpole, et.al., dalam Heri Ratnawati 2008).

Dua alasan tadilah yang menyebabkan digunakanya model logistik IRT saat ini.

Data yang dapat dianalisis menggunakan IRT bisa dalam bentuk dikotomi

ataupun politomi. Data dikotomi biasanya diperoleh dari bentuk tes atau soal

“benar-salah”, “forced-choice”, dan alat ukur psikologi berupa personality self-

report “true-not true”, sikap dukungan “setuju-tidak setuju”, behavioral rating

scale “yes or no”, maka pola respon akan ada dua nilai, bisa satu dan nol ataupun

satu dan dua. Sedangkan, data politomi biasanya diperoleh dari bentuk soal

“essay”, “likert scale”, ataupun jawaban pendek, maka pola respon berisi lebih

dari dua nilai. Namun, penelitian kali ini hanya memfokuskan pada pola respon

dikotomi.

Model matematika yang terkenal dalam IRT untuk data dikotomi, yakni

model satu parameter logistik, model dua parameter logistik dan model tiga

19

parameter logistik. Masing-masing model memiliki persamaan bentuk umum

(Crocker & Aligna, 1986) yakni:

…………………………………………………..(2)

di mana e adalah dasar dari sistem natural logaritma, x merupakan arbitrary

symbol (bukan menunjukan skor yang teramati). Perbedaan ketiga model tersebut

tergantung dari banyaknya parameter yang digunakan untuk menggambarkan

karakteristik item dalam model. Perbedaan dari ketiga model akan dijelaskan di

bawah ini:

1. Model 1 parameter logistik (1 PL)

Model satu parameter logistik merupakan model yang sering digunakan

dalam IRT. Model ini disebut dengan model satu parameter karena hanya terdapat

satu parameter item didalamnya yakni tingkat kesukaran item yang dinotasikan

dengan huruf “b”. Jadi, kemungkinan jawaban benar responden hanya ditentukan

oleh tingkat kesukaran item, sedangkan daya beda dianggap sama untuk semua

item dalam sebuah tes. Dalam Hambleton, Swaminathan & Rogers (1991)

persamaan model 1 parameter logistik sebagai berikut:

………………………………….……(3)

Keterangan:

= probabilitas dari kemampuan responden () yang dapat menjawab

item ke-i dengan benar

= parameter tingkat kesukaran item

= jumlah item dalam tes

e = nilai transedental (eksponen) sebesar 2.718

= berbentuk kurva “huruf S” yang memiliki nilai antara 0 dan 1.

20

di bawah ini merupakan gambar kurva karakteristik model 1PL

Gambar 2.1. Kurva karakteristik item model 1 parameter logistik

Parameter bi untuk item adalah titik skala kemampuan dimana probabilitas

atau kemungkinan respon yang benar sebesar 0.5. Parameter ini menunjukkan

posisi ICC dalam kaitannya dengan skala kemampuan. Semakin besar nilai

parameter bi, semakin besar kemampuan yang diperlukan responden untuk

memiliki kesempatan 50% menjawab item dengan benar. Item dikatakan sulit

apabila terletak di sebelah kanan atau lebih tinggi dari skala kemampuan;

sedangkan item yang mudah berada di sebelah kiri atau bawah skala kemampuan.

Ketika nilai kemampuan dari kelompok diubah, sedemikian sehingga nilai

rata-rata menjadi 0 dan standar deviasi menjadi 1 (satu), maka nilai bi menjadi

lebih bervariasi yang (biasanya) berada pada interval -2 sampai dengan +2. Nilai

bi dekat-2.0 maka termasuk item yang sangat mudah, dan nilai-nilai bi dekat 2.0

termasuk item yang sangat sulit.

21


Pada model 2 parameter logistik, kemungkinan responden untuk

menjawab benar ditentukan oleh dua parameter yakni tingkat kesukaran dan daya

pembeda. Setiap item memiliki daya beda yang berbeda-beda. Dalam Hambleton,

Swaminathan & Rogers (1991) apabila terdapat item dengan daya pembeda besar

maka kurva yang ditampilkan akan menanjak, dibandingkan item dengan daya

pembeda kecil maka kurva akan lebih landai. Secara teoritis, parameter daya

pembeda terletak diantara -∞ dan +∞, namun efektif pada nilai 0 hingga 2. Model

2PL dikembangkan oleh Lord (dalam Hambleton, 1991) berdasarkan distribusi

normal kumulatif (normal ogive). Kemudian, Birnbaum (dalam Hambleton, 1991)

mengusulkan model dua parameter menggunakan item kurva karakteristik dengan

fungsi distribusi logistik:

…………….(4)

Keterangan:



= parameter daya pembeda




D = faktor penskalaan sebesar 1.7

atau persamaan model 2 parameter dapat ditulis dengan cara yang lain, apabila

pembilang dan penyebut dari persamaan di atas digantikan dengan ,

sehingga , menjadi:

22

………………………………………….(5)

lebih sederhana menjadi -1……..………………….(6)

Birnbaum menggantikan fungsi distribusi dua parameter yang awalnya

fungsi ogive menjadi logistik kumulatif dalam bentuk item kurva karakteristik.

Kurva logistik memiliki keuntungan untuk bekerja menjadi lebih nyaman dari

pada kurva normal ogive. Model logistik lebih "mathematically tractable" dari

pada model normal ogive karena normal ogive melibatkan integrasi fungsi

eksplisit dari parameter item dan kemampuan. Penafsiran Pi (), bi, ai dan pada

dasarnya sama seperti pada penafsiran dalam model normal ogive. D sifatnya

konstan merupakan faktor skala. Halley (dalam Hambleton, 1985) perbedaan D

antara nomal ogive dan logistik pada 2PL berbeda kurang dari 0.01 untuk semua

nilai . Jadi apabila kita menggunakan normal ogive dan logistik tidak

memberikan perbedaan yang berarti dan signifikan.


23

Dari gambar di atas dapat dilihat bahwa kurva 2.a dan 2.b memiliki tingkat

kesukaran yang sama sebesar -1. Sama halnya dengan model 1PL, tingkat

kesukaran model 2PL dalam kurva karakteristik item memiliki probabilitas

sebesar 0.5. Jika dilihat pada gambar di atas, kurva 2.a lebih curam dibandingkan

kurva 2.b, hal ini disebabkan perbedaan daya beda item kurva 2.a lebih tinggi

dibandingkan kurva 2.b. Kemiringan antara kurva 2.c dan 2.b hampir sama, hanya

kurva 2.c agak miring ke kanan. Dari sini kita dapat memperoleh informasi bahwa

kurva 2.c memiliki tingkat kesukaran yang tinggi dibandingkan kurva 2.b, walau

daya beda kedua kurva tersebut sama. Daya beda model 2 parameter dalam kurva

karakteristik item disebut dengan slope parameter¸sedangkan tingkat kesukaran

disebut dengan location parameter.


Model tiga parameter logistik dapat diperoleh dari model dua parameter

dengan menambahkan parameter ketiga, dinotasikan ci. Bentuk matematis dari

kurva logistik tiga parameter ditulis

…………(7)

Keterangan:



= parameter daya pembeda


= parameter tebakan atau pseudo



D = faktor penskalaan sebesar 1.7

24

Dalam kurvakarakteristik item, parameter ini menyediakan asimptot lebih

rendah dari 0 (nol) dan mewakili probabilitas peserta ujian dengan kemampuan

rendah untuk menjawab item dengan benar. Parameter dimasukkan ke dalam

model untuk memperhitungkan kinerja yang rendah dari kemampuan responden,

di mana menebak atau guessing merupakan faktor dalam test performa yang

itemnya bersifat repon-pilih (misalnya pilihan ganda). Biasanya, diasumsikan

sebagai nilai yang lebih kecil dari nilai yang akan terjadi jika peserta ujian

menebak secara acak pada item test. Lord (dalam Hambleton, Swaminathan &

Rogers, 1991) mencatat, bahwa fenomena ini mungkin dapat dikaitkan dengan

kecerdikan pembuat item dalam mengembangkan pilihan (distractor atau

pengecoh) yang menarik untuk dipilih tetapi tidak benar. Untuk alasan seperti ini,

tidak boleh disebut "parameter menebak atau guessing".


25

Dari gambar di atas terlihat kurva karakteristik item memiliki parameter

tingkat kesukaran item (b) sama dengan 0, daya beda (a) sama dengan 1,4 dan

guessing sama dengan 0,2. Memang agak berbeda kurva karakteristik item untuk

model 1PL dan model 2PL, tingkat kesukaran item pada ability diperoleh dari

. Dari gambar di atas terlihat bahwa tingkat kesukaran

item diperoleh saat P () = 0,6.

2.2. Estimasi Kemampuan Responden

Langkah pertama dan paling penting pada item response theory (IRT)

untuk menguji data yaitu mengestimasi karakteristik parameter sesuai dengan

model IRT yang sedang digunakan. Bahkan, keberhasilan dari item response

theory terletak pada ketersediaan prosedur yang memuaskan untuk mengestimasi

parameter model yang digunakan.

Dalam model respon item, probabiliti respon yang benar tergantung pada

kemampuan responden yang dinotasikan dengan , dan karakteristik parameter

item. Disini kemampuan responden dan parameter item adalah sesuatu hal yang

tidak diketahui sedangkan yang diketahui hanya pola respon dari respoden

(examinee). Hal yang ingin dilakukan dalam estimasi adalah untuk menentukan

nilai theta () masing-masing responden (examinee) dan parameter item dari pola

respon yang sudah ada sebelumnya. Masalah ini mirip dengan analisis regresi di

mana untuk mendapatkan parameter koefisien di dalam model regresi harus

diestimasi yang datanya berasal dari respon observed variable.

26

Dua perbedaan utama yang membedakan model regresi dan model item

response (Hambleton, Swaminathan dan Rogers (1991) yakni:

1. Model regresi biasanya linier, sementara model item response ialah non-linier.

2. Regressor dalam analisis regresi yakni independen variabel (IV) dimana

sesuatu yang dapat diamati. Sedangkan, dalam model respon item "variabel

regressor" atau theta ( atau kemampuan responden) merupakan hal yang

tidak teramati. Jika theta ( atau kemampuan responden) langsung dapat

diamati atau diketahui maka akan mudah untuk mengestimasi parameter item

atau “koefisien regresi”, begitu juga sebaliknya jika parameter item dapat

diketahui nilainya, maka untuk mengestimasi theta ( atau kemampuan

responden) juga akan mudah. Walaupun nantinya dalam penyelesaian akan

sulit juga karena berurusan dengan model regresi yang sifatnya non-linear.

Estimasi parameter dapat dicapai dalam beberapa cara. Apabila theta (

atau kemampuan responden) diketahui maka untuk menemukan model yang fit

atau sesuai dengan data maka prosedur Invarian Parameter dapat digunakan.

Namun, disini ada parameter item dalam model yang sebelumnya tidak diketahui

nilainya. Ketika sampel yang diperoleh, prosedur di atas tidak dapat digunakan

karena model tidak akan sesuai dengan data yang ada. Untuk menemukan nilai-

nilai parameter yang menghasilkan kurva yang sesuai atau “best fitting curve”,

dilakukan dua cara, yakni:

1. Dalam regresi linier, untuk mencari “best fitting curve” dengan menggunakan

kriteria least square.

27

2. Dalam model IRT yang sifatnya non-linear, kriteria kuadrat terkecil (least

square) tidak dapat digunakan karena sulit untuk menentukan properti

estimasi kuadrat terkecil (least square). Sehingga, dalam item response theory

untuk mengestimasi parameter menggunakan kriteria kemungkinan

maksimum (maximum likelihood).

Estimasi maximum likelihood membutuhkan jumlah sampel yang cukup

besar dan penggunaan estimasi ini dapat diaplikasikan dalam berbagai model item

response theory. Namun sebenarnya estimasi kemampuan individu dalam item

response theory tidak hanya terbatas pada estimasi maximum likelihood yang

dikembangkan oleh Baker (dalam Ching-Fung, 2002) ada beberapa prosedur

estimasi diantaranya regresi logistik (Reynolds, Perkins & Brutten dalam Ching-

Fung, 2002), minimum chi-quadrant (Zwinderman & van der Wollenberg dalam

Ching-Fung, 2002) dan prosedur estimasi model Bayesian (Mislevy, Baker dalam

Ching-Fung, 2002). Disini peneliti hanya memaparkan estimasi dengan

menggunakan prosedur maximum likelihood dan bayesian.

2.2.1. Metode maximum likelihood

Apabila sebuah tes yang didalamnya terdapat beberapa item n (U1, U2,

U3……Un) maka untuk setiap respon yang benar akan diberi nilai 1 dan respon

salah diberi nilai 0. Maka dengan menggunakan asumsi local independent,

probabilitas gabungan dari beberapa item tersebut dapat ditulis:

P (U1, U2, U3……Un) = P(U1) P (U2) P( U3)…..P( Uj)….P( Un)

Atau secara singkatnya bisa ditulis seperti

28

Karena sebuah item yang dapat diberi nilai 1 ataupun 0, maka dapat ditulis ke

dalam fungsi Likelihood seperti:

………(8)

Atau disederhanakan menjadi

………………………..(9)

Persamaan di atas merupakan gambaran probabilitas gabungan dari pola

respon yang ada. Ketika pola respon yang diamati , maka interpretasi

probabilistik tidak lagi sesuai. Oleh sebab itu, persamaan untuk probabilitas

gabungan disebut menjadi fungsi Likelihood (kemungkinan) yang dinotasikan

dimana adalah respon item ke-j. Sehingga persamaannya

menjadi

…………………….….(10)

dan Q merupakan fungsi dari (ability individu) dan parameter item, maka

fungsi Likelihood juga merupakan fungsi dari parameter (ability individu) dan

parameter item.

29

Apabila seorang responden mengerjakan sebuah tes yang terdiri dari 5

item yang pola responnya =1, = 1, = 0, = 1, dan = 0, maka fungsi

Likelihood untuk responden ini menjadi

Fungsi Likelihood merupakan hasil perhitungan dari yang masing-masing

dibatasi nilainya antara 0 dan 1. Sebuah skala yang baik dari fungsi Likelihood

dapat diperoleh dengan mengubahnya menjadi logaritma karena menggunakan

perhitungan yang sederhana. Di bawah ini merupakan gambaran umum untuk

logaritma dari fungsi likelihood:

………….(11)

Nilai maximum dari kemampuan responden (ability) dalam fungsi

likelihood (atau log-likelihood) disebut sebagai estimasi maksimum likelihood.

Mencari nilai maximum dari sebuah fungsi bukanlah hal yang mudah dan dapat

diselesaikan dengan menggunakan bantuan komputer. Dikatakan bahwa disaat

fungsi mencapai titik maksimumnya, maka kemiringan atau slope (turunan

pertama) adalah nol. Dengan demikian, estimasi maximum likelihood dapat

ditentukan dengan cara melakukan turunan (derivativ) pertama dari persamaan

fungsi Likelihood atau Log-Likelihood sama dengan nol. Persamaan ini tidak

dapat diselesaikan secara langsung, dan metode pendekatan yang digunakan ialah

prosedur Newton-Raphson (Hambleton dan Swaminathan, 1985).

30

Fungsi Likelihood (atau log-likelihood) memiliki keterbatasan pada nilai

yang maximum, seperti (a) ketika responden menjawab semua item dengan benar

atau salah, yang estimasi maximum likelihood-nya dinyatakan = +∞ atau = -

∞, (b) serta beberapa pola respon yang aneh. Oleh karena itu, untuk estimasi

maximum likelihood pada kemampuan examinee tidak dapat dilakukan. Salah

satu properti dari estimasi maximum likelihood ialah asimptotik dimana

menggunakan sampel besar berarti juga menggunakan tes yang panjang (item

yang cukup banyak). Sebagai tes yang panjang, theta ( atau kemampuan

responden) pada estimasi maximum likelihood akan terdistribusi secara normal

dan tidak bias.

Apabila terdapat masalah yang tidak dapat diselesaikan dengan estimasi

maximum likelihood dalam beberapa situasi dapat diatasi dengan menggunakan

prosedur estimasi bayesian. Estimasi bayesian akan dibahas pada sub-bab

sesudahnya, namun ide dasarnya adalah memodifikasi fungsi likelihood dengan

cara memasukkan informasi sebelum (prior information) sehingga akhirnya

mendapatkan parameter kemampuan responden. Pada model IRT untuk mencari

parameter item biasanya digunakan estimasi maximum likelihood, dan metode

yang paling sering digunakan adalah joint maximum likelihood (JML), conditional

maximum likelihood (CML, dan marginal maximum likelihood (MML), yang

dijabarkan dibawah ini:

31

2.2.1.1. Estimasi joint maximum likelihood (JML)

Prosedur JML (Lord dalam Hambleton, 1991) berlaku untuk satu,

dua, dan tiga-parameter model. Kemampuan responden dan parameter item

diestimasi dengan cara bersamaan. Menurut estimasi JML, apabila

kemampuan responden tidak diketahui maka diatasi sementara dengan

menggunakan kemampuan responden diestimasi sebagai nilai-nilai

diketahui. Tingkat kemampuan responden sementara diestimasi sendiri

ditingkatkan dengan menggunakan parameter item yang kemudian

diestimasi. Estimasi JML adalah prosedur iterasi yang melibatkan estimasi

parameter responden dan item. Pada tahap 1, parameter responden dan pada

tahap 2 mengestimasi parameter item, gambaran yang ada sebagai berikut:

1. Iterasi pertama yakni menetapkan nilai awal untuk item parameter

(misalnya, nilai umum seperti nol) sehingga estimasi maximum

likelihood dari parameter responden dapat diperoleh. Kemudian,

parameter item diestimasi menggunakan parameter responden yang

sebelumnya telah diestimasi di tahap pertama.

2. Iterasi kedua, parameter responden diestimasi menggunakan estimasi

parameter item yang ditingkatkan. Kemudian, parameter item

diestimasi lagi, menggunakan estimasi parameter responden. Iterasi

terus dilakukan sampai item parameter berubah sedikit antara iterasi

yang dilakukan berurutan.

32

2.2.1.2. Estimasi conditional maximum likelihood (CML)

Prosedur CML (Andersen dalam Hambleton, 1991) hanya berlaku

untuk model satu-parameter. Di sini fungsi likelihood dikondisikan pada

jumlah nilai yang benar. Menurut estimasi CML, apabila ingin

mengestimasi namun kemampuan responden tidak diketahui, hal ini dapat

ditangani dengan menggunakan pola respon item tanpa parameter

kemampuan responden. Hal ini dimungkinkan dalam prosedur CML

bahwa hanya dengan data yang ada cukup untuk mengestimasi

kemampuan responden. Dalam model Rasch, skor total-item cukup untuk

mengestimasi kemampuan responden. Dengan demikian, responden

dengan total skor yang sama, terlepas dari item mana yang tidak

dikerjakan maka akan menerima estimasi kemampuan responden yang

sama. Namun, untuk model yang lebih kompleks, seperti 2PL dan 3PL,

skor total tidak dapat digunakan untuk mengestimasi kemampuan

responden. Estimasi CML hanya bisa diterapkan pada model Rasch (atau

model 1PL). Serupa dengan estimasi JML, parameter responden dalam

CML dianggap sebagai nilai tetap.

2.2.1.3. Estimasi marginal maximum likelihood (MML)

Prosedur MML (Bock & Atkin dalam Hambleton, 1991) berlaku

untuk satu, dua, dan tiga-parameter model. Parameter kemampuan

responden dan parameter item yang ingin diestimasi terintegrasi keluar.

Dengan ditentukan parameter item mana yang akan diestimasi, maka

33

parameter kemampuan juga ikut diestimasi. Menurut estimasi MML,

apabila kemampuan responden tidak diketahui maka estimasi dapat

dilakukan dengan menggunakan probabilitas pola respon dari distribusi

populasi. Dalam MML, data yang diamati dianggap sebagai sampel acak

dari suatu populasi (Bock & Liebarman dalam Embreston, 2000). Namun,

prosedur estimasi praktis tidak tersedia sampai Bock dan Aiken (dalam

Embreston, 2000) mengembangkan sebuah harapan atau maksimalisasi

(expected maximum) algoritma untuk mengestimasi. Algoritma EM dalam

MML adalah prosedur iterasi, seperti JML. Untuk MML, iterasi berturut-

turut meningkatkan frekuensi yang diharapkan untuk respon yang benar

dan kemampuan responden.

2.2.2. Metode bayesian

Apabila terdapat masalah yang tidak dapat diselesaikan dengan estimasi

maximum likelihood dalam beberapa situasi dapat diatasi dengan menggunakan

prosedur estimasi bayesian. Ide dasarnya adalah memodifikasi fungsi likelihood

dengan cara memasukkan informasi sebelum kita mendapatkan parameter

kemampuan. Prosedur bayesian merupakan prosedur yang menggunakan atau

menggabungkan pengetahuan subjektif (terdahulu) tentang parameter yang akan

ditaksir dengan informasi yang diperoleh dari data sampel. Informasi terdahulu

disebut disebut juga dengan informasi prior, diperoleh dari distribusi parameter

tersebut. Informasi dari data dirangkum dalam fungsi likelihood. Penggabungan

34

dari informasi prior dan informasi dari data akan menghasilkan informasi

posterior.

Sebagai contoh, kita mungkin dapat mengatakan, berdasarkan beberapa

pengalaman sebelumnya, bahwa theta () terdistribusikan secara normal dengan

mean (μ) dan standar deviasi (). Dalam hal ini, informasi sebelumnya dapat

dinyatakan dalam bentuk fungsi padat (densitas) dan dinotasikan sebagai f().

Teorema Bayes menyatakan bahwa probabilitas kondisional (conditional

probability) dari suatu peristiwa A jika peristiwa B sudah terjadi (probabilitas

terjadinya peristiwa A jika kondisi B sudah diketahui) adalah

………………………………..(12)

Di dalam pendekatan bayesian, estimasi parameter pada sebuah model statistik,

dilakukan dengan cara menyederhankan rumusan di atas menjadi persamaan yang

bersifat proporsionalnya yakni:

P (A B) P (B A) P (A)………………………(13)

dimana simbol diartikan sebagai “proporsional terhadap”, A sebagai hipotesis

atau parameter sedangkan B merupakan data yang diperoleh. Rumusan di atas

diperoleh karena P(B) dalam perhitungannya bersifat konstan. Di dalam rumus

tersebut probabilitas P(AB) (posterior) adalah sama dengan likelihood dari data B

dalam kondisi berlakunya hipotesis A (P(BA)) dikalikan (diboboti) dengan

probabilitas hipotesis A (prior). Dengan kata lain probabilitas benar tidaknya

hipotesis A dalam kondisi data B sudah diperoleh (P(AB)), adalah sama dengan

probabilitas dari data dalam kondisi hipotesis A berlaku (likelihood) dikalikan

35

dengan probabilitas hipotesis A yang berdasarkan pengalaman atau pengetahuan

yang sudah ada sebelumnya (prior). Pada konteks ini P(AB) disebut posterior.

Sebagai kesimpulan atau ringkasnya, pobabilitas posterior adalah likelihood yang

dikoreksi atau disesuaikan dengan probabilitas prior (pengetahuan atau teori yang

telah dimiliki sebelumnya).

Rumusan diatas dapat juga ditulis dalam bentuk:

posterior likelihood * prior…………………(14)

Ini diartikan bahwa likelihood dari data digunakan sebagai bahan untuk

memperbaharui informasi prior sehingga menjadi sebuah informasi posterior yang

siap dipakai. Hubungan di atas juga berlaku untuk fungsi padat (densitas), dimana

A adalah theta () dan B adalah pola respon item yang teramati (u). Dalam

Hambleton (1991) teorema bayes dapat ditulis seperti dibawah ini

f ( u) f (u ) f ()……………………………….……(15)

di mana f () adalah distribusi prior dari hipotesis atau pengetahuan. Selanjutnya,

karena f (u | ), pada kenyataannya adalah fungsi likelihood maka persamaan di

atas dapat ditulis sebagai:

f ( u) L (u ) f ()………………………………..(16)

2.2.2.1. Estimasi maximum a posteriori (MAP)

Dalam Embreston (2000) keterbatasan prosedur maximum

likelihood dapat diatasi dengan memasukkan informasi distribusi

sebelumnya (prior distribution) ke dalam fungsi log-likelihood. Dengan

digunakannya distribusi prior, maka nilai outlier yang akan memberikan

36

pengaruh tidak semestinya terhadap estimasi parameter item ataupun

orang dapat terlindungi. Estimasi MAP merupakan metode estimasi

bayesian yang menggunakan informasi sebelumnya (prior) mengenai nilai

parameter yang berhubungan dengan fungsi Log-Likelihood untuk

mendapatkan estimasi berdasarkan kemampuan responden dengan cara

memaksimalkan distribusi posterior. Terdapat tiga konsep dasar dalam

MAP yakni (a) prior distribution (pengetahuan atau teori yang sudah ada

sebelumnya) hipotesisnya hampir sama dengan distribusi probabilitas,

asumsinya bahwa responden merupakan sampel acak, dalam estimasi

kemampuan responden prior distribution ialah distribusi normal standar,

(b) fungsi log-likelihood dan (c) posterior distribution (likelihood yang

dikoreksi atau disesuaikan dengan prior distribution). Distribusi posterior

mudah untuk ditentukan karena hanya fungsi Likelihood yang dikalikan

dengan fungsi prior distribution. Tujuan penskoran dalam MAP ialah

untuk menemukan nilai theta () dengan cara memaksimalkan posterior

distribution.

2.2.2.2. Estimasi expected a posteriori (EAP)

Estimasi dengan menggunakan expected a posteriori (EAP) agak

berbeda dengan estimasi yang dilakukan dengan cara maximum likelihood

(ML) dan maximum a posteriori (MAP) karena prosedurnya yang non-

iterative. Bertentangan estimasi ML, estimasi kemampuan responden

dengan menggunakan EAP dapat dilakukan dengan semua pola respon

37

(baik pola respon yang menjawab benar semua atau salah semua). EAP

merupakan estimasi bayesian yang menemukan rata-rata kemudian

dibandingkan dengan model yang berasal dari posterior distribution.

Menurut Bock dan Misvely (dalam Embreston, 2000)

pengestimasian ability menggunakan EAP memiliki error mean square

yang minimum. Properti ini baru bisa digunakan apabila sudah benar.

Hasil EAP dapat juga akan bias ketika jumlah item terbatas untuk

diestimasi dan estimasi kemampuan responden akan mundur mendekati

mean kecuali jumlah item yang diestimasi besar. Namun, seberapa banyak

item yang diestimasi belum diketahui secara pasti. Beberapa keuntungan

dari estimasi EAP dibandingkan dengan ML ialah non-iterative, mudah

dihitung, estimator minimum mean square, dan estimasi untuk semua jenis

pola respon item.

2.3. Analisis Faktor

Cikal bakal analisis faktor dimulai saat Alfred Binet (dalam Thompson,

2004) menciptakan ukuran kinerja intelektual, yang sekarang dikenal dengan tes

IQ. Namun, sejak awal terdapat pertanyaan apa definisi mengenai kecerdasan dan

bagaimana cara mengukurnya. Kontroversi ini dijawab oleh Spearman (dalam

Thompson, 2004) yang mencoba menemukan atau merumuskan struktur

kemampuan mentral yang bersifat umum. Dari sinilah konsep mengenai analisis

faktor mulai dicetuskan, namun untuk segi matematis analisis faktor berawal dari

pemikiran Pearson (dalam Umar, 2012). Hingga akhirnya analisis faktor dianggap

38

sebagai metode statistika ketika Lawley dan Maxwell menerbitkan tulisan mereka

pada tahun 1971 (Umar, 2012).

Prosedur untuk analisis faktor pertama kali dikembangkan pada awal abad

ke-20 oleh Spearman (dalam Thompson, 2004). Namun, karena langkah-langkah

yang rumit dan memakan waktu yang terlibat dalam proses, analisis faktor adalah

tidak dapat diakses oleh banyak peneliti sampai terdapat paket perangkat lunak

statistik di dalam komputer dan user-friendly (Thompson, 2004).

2.3.1. Pengertian analisis faktor

Berbagai para ahli ataupun tokoh memiliki pandangan mengenai analisis

faktor, menurut Lawley dan Maxwell (dalam Umar, 2012) analisis faktor

merupakan cabang dari analisis multivariat yang fokusnya pada hubungan internal

dari set berisikan variabel. Sedangkan menurut Cattel (dalam Thompson, 2004)

keberadaan analisis faktor sudah jauh lebih logis dan termasuk metode

korelasional. Kerlinger (dalam Thompson, 2004) memiliki pendapat mengenai

analisis faktor sebagai salah satu metode yang paling kuat untuk mengurangi

kompleksitas variabel hingga menjadi lebih sederhana.

Analisis faktor menurut Carr (dalam Gorsuch, 1983) mencakup berbagai

analisis korelasional yang dirancang untuk menguji keterkaitan antar variable.

Sedangkan, menurut Umar (2011) analisis faktor merupakan analisis multivariat

yang mengungkapkan struktur dari suatu matriks kovarians atau korelasi.

39

2.3.2. Manfaat analisis faktor

Mengenai kegunaan analisis faktor, Kerlinger (dalam Thompson, 2004)

menggambarkannya sebagai "salah satu alat yang paling kuat yang dirancang

untuk studi area kompleks yang menjadi perhatian ilmiah perilaku", sedangkan

dalam Thompson (2004), terdapat tiga tujuan yang ingin dilakukan dalam analisis

faktor, yakni:

1. Untuk menjawab pertanyaan mengenai validitas konstruk, apakah item-item

yang telah dibuat benar-benar mengukur mengenai apa yang hendak diukur.

2. Untuk mengembangkan atau membangun teori baru berdasarkan item-item

yang telah dibuat sebelumnya, ada berapa dimensi atau faktor yang mendasari

hubungan antar variabel-variabel tersebut.

3. Analisis faktor dapat digunakan untuk menyimpulkan hubungan dalam bentuk

kumpulan faktor skor kemudian digunakan untuk analisis subsequent

(misalnya analisis varians, regresi, ataupun analisis diskriminan).

2.3.3. Dua kelas analisis faktor

Analisis faktor dibagi menjadi dua yakni analisis faktor eksploratori

(exploratory factor analysis, EFA) dan analisis faktor konfirmatori (confirmatory

factor analysis, CFA). Antara EFA dan CFA merupakan bagian dari general

linear model (GLM). Konsep atau gagasan yang diusulkan oleh Spearman pada

tahun 1904, kini dikenal dengan sebutan analisis faktor eksploratori.

Seorang peneliti yang menggunakan EFA, maka tidak bisa untuk

menentukan berapa banyak faktor yang mendasari hubungan antara variabel-

40

variabel yang diukur. Sedangkan, untuk CFA peneliti langsung bisa menguji fit

atau tidak model faktor yang dibuat. Seorang peneliti yang memiliki model teori

tertentu akan lebih berguna menggunakan analisis faktor konfirmatori

dibandingkan eksploratori. Dalam Thompson (2004) terdapat analisis statistik

yang mungkin untuk dilakukan di CFA namun tidak mungkin di EFA (contohnya,

memperbolehkan varians error berkorelasi). Untuk lebih jelas perbedaan antara

exploratory factor analysis dan confirmatory factor analysis, peneliti akan sedikit

menjabarkannya di bawah ini:

2.3.3.1. Analisis faktor eksploratori

Exploratory factor analysis merupakan analisis faktor yang

bertujuan untuk mencari banyaknya faktor yang kurang atau sama dengan

banyaknya variabel yang ada. Analisis faktor eksploratori tidak memiliki

model teori yang akan diuji sebelumnya, namun digunakan untuk

membangun sebuah teori (build of theory). Tiga tahapan yang dilakukan

dalam analisis faktor eksploratory, yakni: (1) menentukan banyaknya

faktor, (2) menentukan item mana ikut faktor yang mana, dan (3)

memberikan nama pada faktor yang ada.

Menurut Umar (2011) analisis faktor ini sifatnya tidak ilmiah,

arbitrary atau interminasi dikarenakan tidak adanya kesepakatan yang pasti

untuk menentukan banyaknya faktor.

41

2.3.3.2. Analisis faktor konfirmatori

Pengembangan dari konsep EFA telah menciptakan metode dasar

untuk analisis faktor konfirmatori (cf. Joreskog dalam Thompson, 2004)

mengharuskan peneliti untuk memiliki bentuk model yang ingin diteliti

harus dispesifikan atau jelas sehingga nantinya dapat untuk dianalisis

mengenai: (1) jumlah faktor pada model, (2) jumlah variabel yang

mencerminkan setiap faktor yang ada pada model, dan (3) menetukan

apakah faktor-faktor tersebut berkorelasi atau tidak.

Analisis faktor konfirmatori merupakan metode yang lebih

“scientific” karena dapat diuji kebenarannya secara empirik dengan

menggunakan metode statistik (Umar, 2011). Selain itu, analisis faktor

konfirmatori menawarkan metode yang lebih layak untuk mengevaluasi

validitas konstruk. Untuk melakukan analisis faktor konfirmatori, terlebih

dahulu peneliti membuat hipotesis mengenai model yang berasal dari teori

yang akan diteliti. Model atau hipotesis, ditentukan dengan cara variabel

mana yang akan dikorelasikan dengan faktor-faktor dan apakah faktor-

faktor tersebut saling berkorelasi atau tidak. Hipotesis ataupun model yang

akan diuji didasarkan pada landasan teoritis (hal yang akan diteliti) atau

penelitian terdahulu.

Dalam Thompson (2004) disebutkan bahwa jika dihadapkan

dengan model teori, maka analisis faktor konfirmatori lebih berguna karena

(a) teori dapat langsung diuji dan dianalisis, dan (b) untuk memperoleh teori

yang fit maka dapat dikur dengan berbagai cara. Peneliti mampu secara

42

eksplisit menguji hipotesis mengenai struktur faktor dari data karena

memiliki model yang telah ditentukan sebelumnya dengan menetapkan

jumlah dan komposisi faktor. Terdapat beberapa prosedur yang biasanya

dilakukan di EFA, seperti merotasi factor, tidak dilakukan di dalam CFA.

Hal ini dikarenakan bahwa model yang telah dibuat sebelumnya sudah

menentukan simple structure, dengan menentukan koefisien faktor mana

yang dikonstrain-kan menjadi nol dan ada koefisen tertentu yang dibebaskan

untuk diestimasi.

Analisis faktor konfirmatori ialah komponen yang sangat penting

dalam kelas yang lebih luas yang dikenal dengan structural equation

modeling (SEM), atau kadang disebut dengan analisis struktur kovarians

(covariance structure analysis). Secara khusus CFA dikenal dengan “model

pengukuran” yang menggambarkan bagaimana variable-variabel yang

diukur dapat mencerimkan variable latent tertentu (Thompson, 2004). Model

pengukuran ialah bagaimana variabel laten atau konstruk hipotesis

tergantung pada indikasi dari variabel observed atau teramati. Hal ini

menjelaskan properti pengukuran (reliabilitas dan validitas) dari variabel

observed. (Joreskog & Sorbom, 1996).

2.3.3.3. Perbedaan EFA dengan CFA

Dalam Thompson (2004), dapat dilihat bahwa terdapat perbedaan

antara exploratory factor analysis dengan confirmatory factor analysis,

yakni:

43

1. Dalam EFA, semua parameter yang terdapat dalam model harus

diestimasi. Sedangkan analisis faktor konfirmatori, secara matematis

parameter tertentu “diizinkan” untuk “di-konstrain” atau “di-fix”

(contohnya, sebuah varians mungkin dikonstrain untuk sama positif

nilainya; korelasi (r) mungkin dikonstrain sama -1, +1 atau diantara -1

hingga +1, sementara pada saat yang sama “dibebaskan” parameter

model lainnya saat mengestimasi (contohnya, pola koefisien faktor,

varians faktor).

2. Analisis faktor ekxploratori, seorang peneliti mungkin mengharapkan

koefisien tertentu, tetapi harapannya tidak dapat dimasukan ke dalam

analisis. Namun pada CFA, peneliti harus memasukan koefisien tertentu

kedalam analisis satu atau model spesifik, dimana setiap model terdapat

parameter yang “di-fixkan” dan “dibebaskan”.

3. Tidak ada error varians yang berkorelasi di dalam analisis faktor

eksploratori, sedangkan dalam CFA korelasi dari berbagai pasang error

varians dapat diestimasi karena hal ini mungkin diperlukan oleh peneliti.

4. Faktor yang ada dalam analisis eksploratori semua faktor harus

berkorelasi atau semua tidak berkorelasi. Faktor pada CFA bisa

berkorelasi atau tidak tergantung dari model yang dibuat berdasarkan

teori yang ada, misal kedua faktor diizinkan untuk berkorelasi dan

korelasi ini dapat diestimasi yang merupakan bagian dari model.

44

2.3.4. Analisis faktor konfirmatori satu dan dua tingkat

2.3.4.1. Analisis faktor konfirmatori satu tingkat

Dalam analisis faktor konfirmatori, variabel laten atau faktor yang

tidak dapat diteliti secara langsung disimbolkan dengan bentuk lingkaran

atau elips, sedangkan variabel observed atau variabel measured yang dapat

diamati secara langsung berupa item-item pertanyaan ataupun pernyataan

disimbolkan dengan bentuk persegi atau persegi panjang. First order satu

faktor dalam analisis faktor konfirmatori digambarkan seperti di bawah ini:

Sehingga, persamaan untuk analisis faktor konfirmatori first order satu

faktor menjadi

X = x + ……………………………(17)

Keterangan

X = variabel observed atau terukur

= matrik x dari model umum yang berisikan muatan faktor atau

faktor loading

= variabel laten atau unobserved

= variabel error

45

2.3.4.2. Analisis faktor konfirmatori dua tingkat

Analisis faktor konfirmatori second order ialah model pengukuran

yang terdiri dari dua tingkat. Tingkat pertama menjelaskan hubungan antara

variabel observed atau variabel measured dengan variabel laten, sedangkan

pada tingkat kedua menjelaskan hubungan antara variabel laten di tingkat

pertama dengan variabel laten di tingkat ke dua. Persamaan analisis faktor

second order model y, yakni

Y = y ( + ) €…………………………..….(18)

Keterangan:

y = matriks faktor loading dari first order, dimana baris dari matrik

merupakan banyaknya variabel observed dan kolom dari matriks

ialah banyaknya variabel laten.

= matriks faktor loading dari second order, dimana baris dari matrik

merupakan banyaknya variabel laten pada first order dan kolom

dari matriks ialah banyaknya variabel laten pada second order.

= vector dari faktor variabel latent pada second order

= vector dari komponen unik atau error pada second order

€ = vector dari komponen unik atau error pada first order

= matriks kovarians dari faktor variabel latent pada second order,

dimana baris dan kolom pada matriks merupakan banyaknya

variabel laten pada second order

= matriks kovarians dari komponen unik atau error pada second order

€ = diagonal matrik kovarians dari komponen unik atau error pada first

order, dimana baris dan kolom pada matriks merupakan banyaknya

error variabel observed pada first order

Persamaan di bawah ini adalah bentuk dari analisis faktor model y

dengan first order faktor dan error pengukuran € dengan Y sebagai

variabel observednya, sehingga menjadi Y = y € + . Sekarang, variabel

digantikan dengan set faktor dari , sehingga disebut dengan faktor second

order, bahwa = + . Dimana adalah matrix faktor loading second

46

order dan adalah vector dari variabel unik untuk . Gabungan dari Y = y

+ € dan = + memberikan Y = y ( + ) + € dengan matrik

kovarians ∑ = y ( + ) y + €. Sehingga path diagram untuk

analisis faktor second order menjadi

2.4. IRT dan CFA

Item response theory dan confirmatory factor analysis sebenarnya tidak

berbeda satu dengan yang lainnya. Pada IRT hanya ada satu tingkat regresi yang

non-linier (biasanya logistik) dimana benar-salahnya jawaban (y atau u)

merupakan dependent variable, sedangkan latent variable kontinus (trait) sebagai

independent variable. Regresi ini memiliki dua parameter yaitu slope (daya

pembeda) dan intercept (tingkat kesukaran). Hal yang sama juga terjadi pada CFA

dengan variabel kategorik ordinal. Dalam hal ini ad

pada second order unidimensional datarepository.uinjkt.ac.id/dspace/bitstream/123456789... ·...

Documents