bias tes dan bias butir
TRANSCRIPT
![Page 1: Bias Tes Dan Bias Butir](https://reader036.vdokumen.com/reader036/viewer/2022082317/5571fb364979599169944052/html5/thumbnails/1.jpg)
Bias Tes dan Bias Butir
Pengadministrasian suatu tes idealnya tidak memuat kesalahan dalam pengukuran,
baik kesalahan acak maupun kesalahan sistematis. Instrumen tes yang digunakan untuk
mengukur seharusnya memiliki validitas dan reliabilitas yang mantap serta adil. Adil
artinya butir-butir tes tidak menguntungkan atau merugikan sekelompok peserta tes
tertentu. Tes yang menguntungkan atau merugikan kelompok tertentu dikatakan tes
tersebut memuat bias butir atau mengandung differential item functioning (DIF).
Tujuan penyusunan tes adalah untuk mengukur karakteristik tertentu dari peserta
tes. Dari penggunaan tes akan ditemukan ciri-ciri tertentu yang berbeda pada setiap peserta
tes baik pada kelompok yang sama ataupun pada kelompok yang berbeda. Ada peserta
yang memiliki ciri tertentu yang tinggi dan ada pula yang rendah. Selama butir tes
mengukur ciri tersebut maka selama itu pula butir tes dikatakan baik, tidak bias, valid atau
sahih. Sebaliknya, jika isi, prosedur, dan penggunaan tes menghasilkan keuntungan atau
kerugian terhadap anggota-anggota kelompok tertentu dan jika yang mendasari perbedaan
tersebut menyimpang dari sasaran ukur tes, maka tes itu akan memberikan informasi yang
bias.
Bias tes terjadi jika semua peserta tes yang berkemampuan sama memiliki peluang
yang berbeda dalam menjawab benar butir tes yang sama. Atau suatu tes disebut tidak bias
jika semua peserta tes yang berkemampuan setara memperoleh skor yang sama pada butir-
butir yang homogen, dan proporsi peserta yang menjawab benar sama pada setiap butir tes.
Butir tes yang tidak bias mempunyai tingkat kesukaran yang sama pada setiap kelompok
peserta tes. Korelasi tingkat kesukaran butir antara kelompok tersebut adalah 1,00
(sempurna). Semua nilai p (tingkat kesukaran butir) berada dalam suatu garis lurus. Bias
butir terjadi apabila tingkat kesukarannya tidak berada dalam suatu garis lurus.
1
![Page 2: Bias Tes Dan Bias Butir](https://reader036.vdokumen.com/reader036/viewer/2022082317/5571fb364979599169944052/html5/thumbnails/2.jpg)
Beberapa ahli memberikan batasan tentang bias butir, diantaranya Shepard (Adams,
1992) dan Mazor et al. (1995). Suatu tes dikatakan bias jika dua orang peserta tes dengan
kemampuan yang sama dari kelompok yang berbeda tidak memperoleh peluang menjawab
benar yang sama. Anastasi dan Urbina (2001), butir dikatakan bias apabila butir tersebut
ditempuh oleh dua kelompok budaya atau lebih yang memiliki kemampuan sama tetapi
menunjukkan probabilitas sukses yang berbeda dalam menjawab butir tersebut. Artinya,
butir bias terlihat dari respon peserta tes yang mempunyai kemampuan sama, tetapi tidak
memiliki peluang sama untuk memperoleh jawaban benar.
Bias butir merupakan salah satu ancaman terhadap validitas pengukuran karena skor
tercemar oleh sesuatu yang tidak direncanakan untuk diukur (Shepard, 1982). Apabila
suatu butir relatif lebih sulit untuk kelompok yang memiliki budaya dan latar belakang
pengalaman tertentu berarti butir tersebut bias. Bias butir dalam suatu pengukuran
mengindikasikan adanya kesalahan sistematik dalam pengukuran tersebut (Cole, 1997).
Dalam terminologi psikometri bias butir disebut Diferential Item Functioning
(DIF). DIF adalah perbedaan probabilitas sukses menempuh butir dari dua kelompok yang
berbeda setelah mengontrol tingkat kemampuan (Swaminathan & Rogers, 1990; Crocker
& Algina, 1986; Anastasi dan Urbina, 2001; Hambleton, Swaminathan, & Rogers, 1991).
Metode Pendeteksian Bias1. Teori Tes Klasik
Bias butir menurut teori tes klasik dapat diestimasi dengan intuisi sederhana, yaitu
dengan cara membandingkan rerata skor kelompok minoritas dan kelompok mayoritas.
Apabila rerata skor pada kelompok minoritas lebih rendah berarti ada indikasi butir
tersebut bias terhadap kelompok minoritas. Namun, apabila rendahnya nilai kelompok
minoritas karena atribut rendahnya tingkat kemampuan kelompok, maka perbedaan rerata
skor antara kedua kelompok tersebut tidak berarti mengindikasikan adanya bias butir.
2
![Page 3: Bias Tes Dan Bias Butir](https://reader036.vdokumen.com/reader036/viewer/2022082317/5571fb364979599169944052/html5/thumbnails/3.jpg)
Beberapa metode estimasi bias butir dengan pendekatan klasik yang cukup popular, antara
lain: a) delta plot, b) prosedur daya batir, dan c) distribusi Chi square.
a. Delta Plot atau Transformed Item Dificulty (TID)
Untuk menguji DIF, Angoff (1972) menggunakan Delta Plot atau Transformed
Item Dificulty (TID). Metode ini sangat popular, karena mudah dan praktis. Metode ini
pertama kali diperkenalkan oleh Thurstone (1925) untuk melakukan absolute scaling.
Selanjutnya metode ini digunakan oleh Tucker (1951) dalam penelitian academic ability
scale untuk butir yang mengukur penguasaan perbendaharaan kata, dan Gullikson (1960)
dalam penelitian skala perbandingan binational occupational prestige.
Estimasi DIF dengan metode delta plot dilakukan dengan cara menghitung nilai-p
pada setiap butir pada setiap kelompok yang ingin diteliti. Kemudian mengkonversikan
setiap nilai-p ke dalam deviasi normal. Selanjutnya membuat plot deviasi normal dari dua
kelompok tersebut dalam grafik.
Dalam pengujian, bila kedua kelompok memiliki kemampuan sama dan kesempatan
sama, maka plot akan cenderung berbentuk ellipse dari kiri bawah sampai kanan atas, dan
biasanya menunjukkan koefisien korelasi 0,98 atau mungkin lebih tinggi. Bila dua
kelompok mempunyai tingkat kemampuan sama tetapi kesempatan menjawab benar tidak
sama, maka ellipse akan nampak vertikal atau horisontal, bergantung pada kelompok mana
yang lebih tinggi tingkat kemampuannya. Apabila dua kelompok dengan tingkat
kemampuan berbeda dan kesempatan menjawab benar tidak sama, maka plot akan
menyebar di luar diagonal dan korelasi akan rendah. Jarak setiap plot dari diagonal
mengindikasikan adanya DIF. Metode delta plot menggunakan tingkat kesulitan (nilai-p).
Tingkat kesulitan adalah rata-rata skor butir dengan konsep teori tes klasik. Delta setiap
butir dihitung pada Kelompok 1 dan Kelompok 2. Dengan demikian, setiap butir memiliki
dua koefisien delta. Kemudian delta yang diperoleh dari dua kelompok tersebut diplotkan 3
![Page 4: Bias Tes Dan Bias Butir](https://reader036.vdokumen.com/reader036/viewer/2022082317/5571fb364979599169944052/html5/thumbnails/4.jpg)
dalam grafik pada aksis x untuk kelompok 1 dan aksis y untuk kelompok 2. Selanjutnya
membuat garis acuan untuk setiap plot delta dari dua kelompok. Garis diperoleh dari rumus
y= ax + b, dimana b merupakan intersep dari garis. Jarak setiap titik dari garis y
mengindikasikan bahwa butir tersebut mengandung DIF.
b. Prosedur daya beda butir
Untuk mengestimasi bias butir, pada tes klasik dapat juga dilakukan dengan
menghitung daya beda butir. Deteksi bias butir menggunakan prosedur yang sama dengan
delta tingkat kesulitan, hanya saja data yang digunakan untuk membuat plot adalah data
daya beda dari masing-masing kelompok yang akan diteliti. Butir yang lebih diskriminatif
pada salah satu kelompok mengindikasikan butir tersebut mengandung bias butir.
Estimasi bias butir menggunakan parameter tingkat kesulitan butir diukur
berdasarkan persentase menjawab benar dan daya beda butir diukur dengan korelasi point
biserial.Kelemahan dari metode ini menurut Hambleton, Swaminathan, dan Rogers (1991)
yaitu:
1. Karakteristik orang dan karakteristik butir dianalisis secara terpisah, sehingga
interpretasi tidak dapat mengaitkan kedua karakteristik tersebut,
2. Indeks butir tergantung pada kelompok penempuh tes (group dependent),
3. Skor yang diperoleh tergantung pada tes yang berarti bahwa skor seseorang tergantung
pada tes yang dikerjakan. Selain itu, skor yang diperoleh dari tes yang berbeda tidak
dapat diperbandingkan karena tidak menggunakan skala yang sama dan tidak ada
hubungan fungsional.
c. Distribusi Chi Square
Dua teknik analisis yang sering digunakan untuk mengestimasi DIF dalam bentuk
distribusi chi square yang cukup populer adalah Mantel-Haenszel (M-H) dan metode
standarisasi.4
![Page 5: Bias Tes Dan Bias Butir](https://reader036.vdokumen.com/reader036/viewer/2022082317/5571fb364979599169944052/html5/thumbnails/5.jpg)
(1). Metode M-H
Pendeteksian DIF dengan metode M-H dilakukan dengan cara memasangkan dua
kelompok (Dorans and Holland, 1993). Data awal yang digunakan adalah tabel kontingensi
2 X 2. Prosedur M-H merupakan metode full chi square dengan menggunakan table 2 x 2
dari frekuensi jawaban benar (1) dan jawaban salah (0) dari KF dan KA. Ada dua data
yang dapat dipasangkan, yaitu jumlah jawaban benar dan jawaban salah atau skor
kelompok tertentu, misalnya rerata skor. Holland dan Thayer (1988) meneliti DIF dengan
menggunakan teknik yang dikembangkan oleh Mantel-Haenszel. Apabila Ho tidak sama
dengan 1, maka butir tersebut mengandung DIF.
Salah satu keunggulan metode M-H, yaitu sangat cocok digunakan untuk sampel
kecil (Holland and Thayer, 1988). M-H dapat digunakan dengan sampel sebanyak 100
untuk masing-masing kelompok. Adapun kelemahan metode M-H adalah tidak sensitif
terhadap bias butir yang non uniform. DIF non uniform terjadi apabila ada interaksi antara
anggota kelompok dan kemampuan, sehingga perbedaan sukses antara dua kelompok tidak
konstan antar tingkat kemampuan. Swaminathan dan Rogers (1990) membuktikan bahwa
prosedur M-H kurang sensitif dalam mendeteksi DIF non uniform apabila dibandingkan
dengan logistic regression, yaitu terjadi over generalisasi.
(2). Metode Standarisasi
Dalam metode standarisasi dilakukan perhitungan regresi nonparametrik butir untuk
masing-masing kelompok. Perbedaan empiris uji regresi butir merupakan indikasi ada bias
butir (Dorans & Holland, 1993). Metode delta plot menggunakan tingkat kesulitan (nilai-
p). Delta setiap butir dihitung pada Kelompok 1 dan Kelompok 2 yang diteliti pada tingkat
variabel yang dipasangkan. Pembuangan data akan menyebabkan lemahnya estimasi,
karena pengaruh jumlah peserta tes yang sedikit. Analisis dengan data yang telah dikurangi
5
![Page 6: Bias Tes Dan Bias Butir](https://reader036.vdokumen.com/reader036/viewer/2022082317/5571fb364979599169944052/html5/thumbnails/6.jpg)
akan menghasilkan standar kesalahan pengukuran lebih besar dibandingkan dengan
menggunakan seluruh data yang ada.
Apabila kelompok yang ingin diteliti disebut f, kelompok yang menjadi acuan
disebut r, I adalah skor butir, dan M adalah variabel yang dipasangkan, maka definisi bias
butir dengan metode standarisasi adalah Ef (I│M) = Er (I│M). Sedangkan Ef (I│M) adalah
uji regresi butir empiris pada kelompok yang ingin diteliti dan Er (I│M) adalah uji regresi
butir empiris pada kelompok acuan. Apabila Dm adalah bias butir dengan metode
standarisasi, maka perhitungan Dm = Ef (I│M) - Er (I│M).
Dorans dan Schmitt (1989) menggunakan metode standarisasi untuk
mengidentifikasi bias butir. Metode ini didasarkan pada data dalam bentuk fungsi respon
butir dimana probabilitas menjawab benar butir diestimasi berdasarkan proporsi jawaban
benar butir pada setiap tingkat kemampuan (biasanya ditetapkan dalam 1 unit interval dari
total skor). Estimasi probabilitas sukses pada setiap tingkat skor ditetapkan berdasarkan
kelompok acuan. Kelompok acuan adalah kelompok yang ditetapkan sebagai acuan
kelompok vokal. Kelompok vokal adalah kelompok yang diminati peneliti peneliti dan
biasanya adalah kelompok yang memiliki skor rendah. Dalam perhitungannya
menggunakan informasi yang sama dengan yang digunakan dalam M-H, yaitu melakukan
korelasi antara indeks dua bias butir dengan menggunakan skala yang sama.
Dorans dan Hollands (1993) menyatakan metode standarisasi dan M-H memiliki
kemiripan prosedur, yaitu: (1) keduanya merupakan metode non parametric, (2) tidak
menuntut model respon likelihood, dan (3) keduanya menunjukkan kelebihan yang sama,
yaitu efisien secara statistik dan murah dalam menghitungnya.
Lord (1980) mengkritik analisis bias butir dengan metode delta plot, M-H, dan
standarisasi. Analisis bias butir dengan metode M-H berasumsi bahwa semua butir
6
![Page 7: Bias Tes Dan Bias Butir](https://reader036.vdokumen.com/reader036/viewer/2022082317/5571fb364979599169944052/html5/thumbnails/7.jpg)
memiliki tingkat kesulitan yang sama. Dalam metode delta plot dan metode standarisasi
menggunakan parameter tingkat kesulitan butir, yaitu dengan cara
menghitung proporsi jawaban benar (propotion correct).Namun, menghitung tingkat
kesulitan butir dengan cara demikian memiliki kelemahan, yaitu tergantung pada
kelompok (group dependent). Salah satu kritik terhadap konsep group dependent adalah
terbaurnya nilai akan mempengaruhi keanehan butir. Menurut Lord (1952) kelemahan
tersebut dapat diatasi dengan menggunakan metode IRT.
2. Metode Estimasi DIF dengan Menggunakan Prosedur IRT
IRT adalah teori tes yang menggambarkan model hubungan respon butir dengan
konstruk yang diukur oleh tes. Elemen IRT adalah variabel yang tidak dapat diamati
(unobservable) atau latent variable yang menggambarkan kemampuan (ability atau
proficiency), yang biasanya diberi simbul θ (theta). Besarnya θ bervariasi pada populasi
penempuh butir (Lord, 1952). Elemen lain adalah trace line untuk setiap butir (Lazarsfeld,
1950). Trace line adalah fungsi dari θ untuk skor butir dikotomus (betul/salah). Trace line
dari jawaban benar biasanya meningkat secara monotonik (monotonically increasing)
karena meningkatnya θ, probabilitasnya bervariasi pada kontinum θ (ability/proficiency).
Trace line ini juga disebut dengan Item Characteristic Curve (ICC) (Thissen, Steinberg, &
Wainer, 1988). Estimasi DIF dilakukan dengan cara menguji perbedaan ICC dari kedua
kelompok. Apabila tidak ada perbedaan ICC antara kedua kelompok tersebut berarti dapat
disimpulkan tidak ada DIF.
Suatu butir menunjukkan bias butir apabila fungsi respon butir antar sub kelompok
tidak identik, sebaliknya apabila fungsi respon butir antar sub kelompok identik, berarti
butir tersebut tidak mengandung DIF (Hambleton, Swaminathan, & Rogers, 1991).
Satu bentuk umum penggunaan model trace line adalah logistik tiga parameter
(Birnbaum, 1968), di mana probabilitas jawaban benar pada butir i (xi = 1) pada θ adalah 7
![Page 8: Bias Tes Dan Bias Butir](https://reader036.vdokumen.com/reader036/viewer/2022082317/5571fb364979599169944052/html5/thumbnails/8.jpg)
fungsi parameter ai, bi, dan ci yang menggambarkan daya beda, tingkat kesulitan butir, dan
tingkat menebak (guessing). Menurut Lord (1977, 1980) trace line adalah cara untuk
menggambarkan DIF yang ideal
8