bias tes dan bias butir

Bias Tes dan Bias Butir

Pengadministrasian suatu tes idealnya tidak memuat kesalahan dalam pengukuran,

baik kesalahan acak maupun kesalahan sistematis. Instrumen tes yang digunakan untuk

mengukur seharusnya memiliki validitas dan reliabilitas yang mantap serta adil. Adil

artinya butir-butir tes tidak menguntungkan atau merugikan sekelompok peserta tes

tertentu. Tes yang menguntungkan atau merugikan kelompok tertentu dikatakan tes

tersebut memuat bias butir atau mengandung differential item functioning (DIF).

Tujuan penyusunan tes adalah untuk mengukur karakteristik tertentu dari peserta

tes. Dari penggunaan tes akan ditemukan ciri-ciri tertentu yang berbeda pada setiap peserta

tes baik pada kelompok yang sama ataupun pada kelompok yang berbeda. Ada peserta

yang memiliki ciri tertentu yang tinggi dan ada pula yang rendah. Selama butir tes

mengukur ciri tersebut maka selama itu pula butir tes dikatakan baik, tidak bias, valid atau

sahih. Sebaliknya, jika isi, prosedur, dan penggunaan tes menghasilkan keuntungan atau

kerugian terhadap anggota-anggota kelompok tertentu dan jika yang mendasari perbedaan

tersebut menyimpang dari sasaran ukur tes, maka tes itu akan memberikan informasi yang

bias.

Bias tes terjadi jika semua peserta tes yang berkemampuan sama memiliki peluang

yang berbeda dalam menjawab benar butir tes yang sama. Atau suatu tes disebut tidak bias

jika semua peserta tes yang berkemampuan setara memperoleh skor yang sama pada butir-

butir yang homogen, dan proporsi peserta yang menjawab benar sama pada setiap butir tes.

Butir tes yang tidak bias mempunyai tingkat kesukaran yang sama pada setiap kelompok

peserta tes. Korelasi tingkat kesukaran butir antara kelompok tersebut adalah 1,00

(sempurna). Semua nilai p (tingkat kesukaran butir) berada dalam suatu garis lurus. Bias

butir terjadi apabila tingkat kesukarannya tidak berada dalam suatu garis lurus.

1

Beberapa ahli memberikan batasan tentang bias butir, diantaranya Shepard (Adams,

1992) dan Mazor et al. (1995). Suatu tes dikatakan bias jika dua orang peserta tes dengan

kemampuan yang sama dari kelompok yang berbeda tidak memperoleh peluang menjawab

benar yang sama. Anastasi dan Urbina (2001), butir dikatakan bias apabila butir tersebut

ditempuh oleh dua kelompok budaya atau lebih yang memiliki kemampuan sama tetapi

menunjukkan probabilitas sukses yang berbeda dalam menjawab butir tersebut. Artinya,

butir bias terlihat dari respon peserta tes yang mempunyai kemampuan sama, tetapi tidak

memiliki peluang sama untuk memperoleh jawaban benar.

Bias butir merupakan salah satu ancaman terhadap validitas pengukuran karena skor

tercemar oleh sesuatu yang tidak direncanakan untuk diukur (Shepard, 1982). Apabila

suatu butir relatif lebih sulit untuk kelompok yang memiliki budaya dan latar belakang

pengalaman tertentu berarti butir tersebut bias. Bias butir dalam suatu pengukuran

mengindikasikan adanya kesalahan sistematik dalam pengukuran tersebut (Cole, 1997).

Dalam terminologi psikometri bias butir disebut Diferential Item Functioning

(DIF). DIF adalah perbedaan probabilitas sukses menempuh butir dari dua kelompok yang

berbeda setelah mengontrol tingkat kemampuan (Swaminathan & Rogers, 1990; Crocker

& Algina, 1986; Anastasi dan Urbina, 2001; Hambleton, Swaminathan, & Rogers, 1991).

Metode Pendeteksian Bias1. Teori Tes Klasik

Bias butir menurut teori tes klasik dapat diestimasi dengan intuisi sederhana, yaitu

dengan cara membandingkan rerata skor kelompok minoritas dan kelompok mayoritas.

Apabila rerata skor pada kelompok minoritas lebih rendah berarti ada indikasi butir

tersebut bias terhadap kelompok minoritas. Namun, apabila rendahnya nilai kelompok

minoritas karena atribut rendahnya tingkat kemampuan kelompok, maka perbedaan rerata

skor antara kedua kelompok tersebut tidak berarti mengindikasikan adanya bias butir.

2

Beberapa metode estimasi bias butir dengan pendekatan klasik yang cukup popular, antara

lain: a) delta plot, b) prosedur daya batir, dan c) distribusi Chi square.

a. Delta Plot atau Transformed Item Dificulty (TID)

Untuk menguji DIF, Angoff (1972) menggunakan Delta Plot atau Transformed

Item Dificulty (TID). Metode ini sangat popular, karena mudah dan praktis. Metode ini

pertama kali diperkenalkan oleh Thurstone (1925) untuk melakukan absolute scaling.

Selanjutnya metode ini digunakan oleh Tucker (1951) dalam penelitian academic ability

scale untuk butir yang mengukur penguasaan perbendaharaan kata, dan Gullikson (1960)

dalam penelitian skala perbandingan binational occupational prestige.

Estimasi DIF dengan metode delta plot dilakukan dengan cara menghitung nilai-p

pada setiap butir pada setiap kelompok yang ingin diteliti. Kemudian mengkonversikan

setiap nilai-p ke dalam deviasi normal. Selanjutnya membuat plot deviasi normal dari dua

kelompok tersebut dalam grafik.

Dalam pengujian, bila kedua kelompok memiliki kemampuan sama dan kesempatan

sama, maka plot akan cenderung berbentuk ellipse dari kiri bawah sampai kanan atas, dan

biasanya menunjukkan koefisien korelasi 0,98 atau mungkin lebih tinggi. Bila dua

kelompok mempunyai tingkat kemampuan sama tetapi kesempatan menjawab benar tidak

sama, maka ellipse akan nampak vertikal atau horisontal, bergantung pada kelompok mana

yang lebih tinggi tingkat kemampuannya. Apabila dua kelompok dengan tingkat

kemampuan berbeda dan kesempatan menjawab benar tidak sama, maka plot akan

menyebar di luar diagonal dan korelasi akan rendah. Jarak setiap plot dari diagonal

mengindikasikan adanya DIF. Metode delta plot menggunakan tingkat kesulitan (nilai-p).

Tingkat kesulitan adalah rata-rata skor butir dengan konsep teori tes klasik. Delta setiap

butir dihitung pada Kelompok 1 dan Kelompok 2. Dengan demikian, setiap butir memiliki

dua koefisien delta. Kemudian delta yang diperoleh dari dua kelompok tersebut diplotkan 3

dalam grafik pada aksis x untuk kelompok 1 dan aksis y untuk kelompok 2. Selanjutnya

membuat garis acuan untuk setiap plot delta dari dua kelompok. Garis diperoleh dari rumus

y= ax + b, dimana b merupakan intersep dari garis. Jarak setiap titik dari garis y

mengindikasikan bahwa butir tersebut mengandung DIF.

b. Prosedur daya beda butir

Untuk mengestimasi bias butir, pada tes klasik dapat juga dilakukan dengan

menghitung daya beda butir. Deteksi bias butir menggunakan prosedur yang sama dengan

delta tingkat kesulitan, hanya saja data yang digunakan untuk membuat plot adalah data

daya beda dari masing-masing kelompok yang akan diteliti. Butir yang lebih diskriminatif

pada salah satu kelompok mengindikasikan butir tersebut mengandung bias butir.

Estimasi bias butir menggunakan parameter tingkat kesulitan butir diukur

berdasarkan persentase menjawab benar dan daya beda butir diukur dengan korelasi point

biserial.Kelemahan dari metode ini menurut Hambleton, Swaminathan, dan Rogers (1991)

yaitu:

1. Karakteristik orang dan karakteristik butir dianalisis secara terpisah, sehingga

interpretasi tidak dapat mengaitkan kedua karakteristik tersebut,

2. Indeks butir tergantung pada kelompok penempuh tes (group dependent),

3. Skor yang diperoleh tergantung pada tes yang berarti bahwa skor seseorang tergantung

pada tes yang dikerjakan. Selain itu, skor yang diperoleh dari tes yang berbeda tidak

dapat diperbandingkan karena tidak menggunakan skala yang sama dan tidak ada

hubungan fungsional.

c. Distribusi Chi Square

Dua teknik analisis yang sering digunakan untuk mengestimasi DIF dalam bentuk

distribusi chi square yang cukup populer adalah Mantel-Haenszel (M-H) dan metode

standarisasi.4

(1). Metode M-H

Pendeteksian DIF dengan metode M-H dilakukan dengan cara memasangkan dua

kelompok (Dorans and Holland, 1993). Data awal yang digunakan adalah tabel kontingensi

2 X 2. Prosedur M-H merupakan metode full chi square dengan menggunakan table 2 x 2

dari frekuensi jawaban benar (1) dan jawaban salah (0) dari KF dan KA. Ada dua data

yang dapat dipasangkan, yaitu jumlah jawaban benar dan jawaban salah atau skor

kelompok tertentu, misalnya rerata skor. Holland dan Thayer (1988) meneliti DIF dengan

menggunakan teknik yang dikembangkan oleh Mantel-Haenszel. Apabila Ho tidak sama

dengan 1, maka butir tersebut mengandung DIF.

Salah satu keunggulan metode M-H, yaitu sangat cocok digunakan untuk sampel

kecil (Holland and Thayer, 1988). M-H dapat digunakan dengan sampel sebanyak 100

untuk masing-masing kelompok. Adapun kelemahan metode M-H adalah tidak sensitif

terhadap bias butir yang non uniform. DIF non uniform terjadi apabila ada interaksi antara

anggota kelompok dan kemampuan, sehingga perbedaan sukses antara dua kelompok tidak

konstan antar tingkat kemampuan. Swaminathan dan Rogers (1990) membuktikan bahwa

prosedur M-H kurang sensitif dalam mendeteksi DIF non uniform apabila dibandingkan

dengan logistic regression, yaitu terjadi over generalisasi.

(2). Metode Standarisasi

Dalam metode standarisasi dilakukan perhitungan regresi nonparametrik butir untuk

masing-masing kelompok. Perbedaan empiris uji regresi butir merupakan indikasi ada bias

butir (Dorans & Holland, 1993). Metode delta plot menggunakan tingkat kesulitan (nilai-

p). Delta setiap butir dihitung pada Kelompok 1 dan Kelompok 2 yang diteliti pada tingkat

variabel yang dipasangkan. Pembuangan data akan menyebabkan lemahnya estimasi,

karena pengaruh jumlah peserta tes yang sedikit. Analisis dengan data yang telah dikurangi

5

akan menghasilkan standar kesalahan pengukuran lebih besar dibandingkan dengan

menggunakan seluruh data yang ada.

Apabila kelompok yang ingin diteliti disebut f, kelompok yang menjadi acuan

disebut r, I adalah skor butir, dan M adalah variabel yang dipasangkan, maka definisi bias

butir dengan metode standarisasi adalah Ef (I│M) = Er (I│M). Sedangkan Ef (I│M) adalah

uji regresi butir empiris pada kelompok yang ingin diteliti dan Er (I│M) adalah uji regresi

butir empiris pada kelompok acuan. Apabila Dm adalah bias butir dengan metode

standarisasi, maka perhitungan Dm = Ef (I│M) - Er (I│M).

Dorans dan Schmitt (1989) menggunakan metode standarisasi untuk

mengidentifikasi bias butir. Metode ini didasarkan pada data dalam bentuk fungsi respon

butir dimana probabilitas menjawab benar butir diestimasi berdasarkan proporsi jawaban

benar butir pada setiap tingkat kemampuan (biasanya ditetapkan dalam 1 unit interval dari

total skor). Estimasi probabilitas sukses pada setiap tingkat skor ditetapkan berdasarkan

kelompok acuan. Kelompok acuan adalah kelompok yang ditetapkan sebagai acuan

kelompok vokal. Kelompok vokal adalah kelompok yang diminati peneliti peneliti dan

biasanya adalah kelompok yang memiliki skor rendah. Dalam perhitungannya

menggunakan informasi yang sama dengan yang digunakan dalam M-H, yaitu melakukan

korelasi antara indeks dua bias butir dengan menggunakan skala yang sama.

Dorans dan Hollands (1993) menyatakan metode standarisasi dan M-H memiliki

kemiripan prosedur, yaitu: (1) keduanya merupakan metode non parametric, (2) tidak

menuntut model respon likelihood, dan (3) keduanya menunjukkan kelebihan yang sama,

yaitu efisien secara statistik dan murah dalam menghitungnya.

Lord (1980) mengkritik analisis bias butir dengan metode delta plot, M-H, dan

standarisasi. Analisis bias butir dengan metode M-H berasumsi bahwa semua butir

6

memiliki tingkat kesulitan yang sama. Dalam metode delta plot dan metode standarisasi

menggunakan parameter tingkat kesulitan butir, yaitu dengan cara

menghitung proporsi jawaban benar (propotion correct).Namun, menghitung tingkat

kesulitan butir dengan cara demikian memiliki kelemahan, yaitu tergantung pada

kelompok (group dependent). Salah satu kritik terhadap konsep group dependent adalah

terbaurnya nilai akan mempengaruhi keanehan butir. Menurut Lord (1952) kelemahan

tersebut dapat diatasi dengan menggunakan metode IRT.

2. Metode Estimasi DIF dengan Menggunakan Prosedur IRT

IRT adalah teori tes yang menggambarkan model hubungan respon butir dengan

konstruk yang diukur oleh tes. Elemen IRT adalah variabel yang tidak dapat diamati

(unobservable) atau latent variable yang menggambarkan kemampuan (ability atau

proficiency), yang biasanya diberi simbul θ (theta). Besarnya θ bervariasi pada populasi

penempuh butir (Lord, 1952). Elemen lain adalah trace line untuk setiap butir (Lazarsfeld,

1950). Trace line adalah fungsi dari θ untuk skor butir dikotomus (betul/salah). Trace line

dari jawaban benar biasanya meningkat secara monotonik (monotonically increasing)

karena meningkatnya θ, probabilitasnya bervariasi pada kontinum θ (ability/proficiency).

Trace line ini juga disebut dengan Item Characteristic Curve (ICC) (Thissen, Steinberg, &

Wainer, 1988). Estimasi DIF dilakukan dengan cara menguji perbedaan ICC dari kedua

kelompok. Apabila tidak ada perbedaan ICC antara kedua kelompok tersebut berarti dapat

disimpulkan tidak ada DIF.

Suatu butir menunjukkan bias butir apabila fungsi respon butir antar sub kelompok

tidak identik, sebaliknya apabila fungsi respon butir antar sub kelompok identik, berarti

butir tersebut tidak mengandung DIF (Hambleton, Swaminathan, & Rogers, 1991).

Satu bentuk umum penggunaan model trace line adalah logistik tiga parameter

(Birnbaum, 1968), di mana probabilitas jawaban benar pada butir i (xi = 1) pada θ adalah 7

fungsi parameter ai, bi, dan ci yang menggambarkan daya beda, tingkat kesulitan butir, dan

tingkat menebak (guessing). Menurut Lord (1977, 1980) trace line adalah cara untuk

menggambarkan DIF yang ideal

8

bias tes dan bias butir

Documents