Transcript
Page 1: BIAS BUTIR PADA ALAT UKUR TES

BIAS BUTIR PADA ALAT UKUR TES

OlehWidiatmoko

E.: [email protected].: http://widiatmoko.blog.com

Akselerasi pembelajaran selalu diiringi dengan inovasi peranti lunak, seperti kurikulum, metoda, teknik, pendekatan, dan evaluasi. Salah satu yang menjadi perhatian besar kalangan pendidik adalah penyelenggaraan evaluasi pembelajaran yang berlangsung pada awal, proses, dan akhir program. Secara lebih khusus, para ahli menekuni bidang pengukuran, termasuk di dalamnya pengembangan alat ukur, baik berupa tes maupun nontes. Alat ukur tes atau lebih dikenal dengan tes telah menyita banyak waktu untuk mencarikan penyelesaian atasnya secara akurat yang bertalian dengan hasil ukur tersebut. Para ahli tes telah memprakarsai perubahan paradigma penyelenggaraan tes, dari teori tes klasik ke teori tes moderen - dikenal sebagai teori responsi butir. Teori tes ini telah menimbulkan rangsangan disiplin ilmu pengetahuan untuk mengembangkannya dengan pendekatan analisis teori responsi butir. Salah satu disiplin ilmu pengetahuan yang mengembangkan tes dengan pendekatan teori responsi butir adalah tes bahasa.

Variasi Kajian Pengukuran di Bidang BahasaIstilah pengukuran merupakan istilah yang sebangun dengan

istilah penelitian. Di sini, digunakan frasa ‘kajian pengukuran’ sebagai istilah yang berbeda. Ini mengandungi pengertian tentang kajian atau penelitian yang bertalian dengan alat ukur itu sendiri. Alat ukur ini adalah sebagai unit analisisnya, utamanya berpadu dengan ilmu bahasa. Alat ukur ini laiknya berbentuk tes, di samping ada yang nontes.

Setakat ini, kajian tes bahasa banyak diadun oleh para pakar, baik pakar bahasa maupun pakar pengukuran yang mendekati bahasa sebagai objek penelitiannya. Berikut ini disaapabilan berbagai jenis kajian pengukuran di bidang bahasa.

Pertama, Bachman, et.al. dalam judul penelitian A Comparison of the Abilities Measured by the Cambridge and Educational Testing

Page 2: BIAS BUTIR PADA ALAT UKUR TES

Service EFL Test Batteries menyaapabilan hasil penelitian yang membandingkan performansi di antara dua tes bahasa Inggris yang dipakai secara internasional, Test of English as a Foreign Language (TOEFL) dan Cambridge First Certificate in English (FCE). Dengan menggunakan teknik analisis faktor, dilakukan interpretasi sekor tes dari dua perangkat (battery) tes tersebut dan disimpulkan adanya konstruk kemampuan bahasa secara komunikatif (Douglas, 1993). Perlu dikesani, secara konseptual, TOEFL merupakan tes bahasa ‘psikometrik/strukturalis’ (Spolsky, 1978) yang mewakili kualitas terbaik yang menekankan reliabilitas dan analisis butir. Ini mencakupii Test of Spoken English (TSE) dan Test of Writing English (TWE) yang merepresantasikan kerangka linguistik strukturalis. Sedangkan FCE dikembangkan dengan tradisi sistem ujian negara Inggris yang menekankan pada keputusan ahli dan pengalaman institusional dalam rancangan tes, pensekoran, dan interpretasi hasil tes.

Kedua, Alderson dalam judul penelitian Judgments in Language Testing menemukan hubungan antara keputusan linguis profesional terhadap hakikat bahasa, pembelajaran, dan hasil belajar bahasa dalam mengkonstruksi tes bahasa dan data empirik yang dihasilkan dari tes. Hasil analisisnya menyatakan bahwa validitas dan reliabilitas tes rendah, serta pengetahuan tentang komponen kemampuan bahasa dan proses pemerolehan bahasa kedua juga rendah (Douglas, 1993).

Ketiga, Hudson dalam judul penelitian Testing the Specificity of ESP Reading Skills menemukan implikasi untuk tes acuan kriteria yang bertalian dengan taraf sukar butir diferensial pada tes membaca sains dengan menerapkan teori responsi butir (Douglas, 1993).

Keempat, Perkins dan Brutten dalam judul penelitian A Comparison of Indices for the Identification of Misfitting Items menemukan butir-butir misfitting untuk siswa yang berbeda tingkat kemahirannya (Douglas, 1993).

Kelima, Alderson dalam judul penelitian The Relationship between Grammar and Reading in an English for Academic Purposes Test Battery menyimpulkan dari hasil analisis subtes tata bahasa dan membaca di dalam IELTS bahwa tata bahasa dinegasikan eksistensinya dari subtes tersebut. Diketahui bahwa tujuan penelitian itu adalah untuk merevisi tes utama, the English Language Testing Service (ELTS), menjadi the International English Language Testing System (IELTS) (Douglas, 1993).

Keenam, Douglas dan Selinker dalam penelitian Performance on a General Versus a Field-Specific Test of Speaking Proficiency by International Teaching Assistants menemukan data kualitatif dan data kuantitatif yang responden lakukan secara berbeda pada tes umum kemahiran berbicara dibandingkan dengan field-specific measure (Douglas, 1993).

Page 3: BIAS BUTIR PADA ALAT UKUR TES

Ketujuh, Madsen dan Jones dalam Palmer melakukan penelitian tes berbicara. Pertimbangan yang diberikan untuk menyelenggarakan tes ini mencakupii tujuan kegunaan, latar belakang peserta ujian (usia, tingkat kemahiran, dan pengalaman bahasa), kriteria (linguistik, komunikatif), dan prosedur pensekoran. Reliabilitas dan validitas diuji untuk memperoleh klasifikasi mendalam dalam tes kemahiran berbicara (Palmer, et.al., 1981).

Senyampang telah jelas, disimpulkan bahwa alat ukur yang terdiri atas sejumlah butir telah diadun dan dikaji secara mendalam. Butir-butir alat ukur baik pada perangkat tes maupun nontes di bidang bahasa yang menghasilkan data dikotomi maupun politomi telah menjadi perhatian serius khususnya dari para ahli psikometrika yang mengkaji bahasa sebagai objek ukurnya.

Disadari, pemenuhan syarat pada alat ukur merupakan determinan keterukuran konstruk bahasa. Susun-atur butir pada alat ukur itu dalam keadaan bagaimanapun dapat dikaji. Aneka inti-pati penelitian tersebut memberikan informasi tentang dinamika pendekatan analisis datanya. Dengan demikian, mengenali ragam butir pada alat ukur sebagai objek penelitian perlu terus menerus diamangkan kepada para bahasawan. Satu di antara pengenalan keragaman kajian butir alat ukur adalah yang bertalian dengan analisis DIF.

Kajian Bias Butir pada Alat Ukur dengan Analisis DIFRobert L. Williams dalam dua penelitiannya Black Intelligence

Test Counter-balanced for Honkies dan Black Intelligence Test of Cultural Homogeneity menemukan hasil yang menyatakan bahwa orang hitam Amerika secara sistematik dirugikan oleh suatu tes yang berpihak kepada orang kulit putih. Orang hitam Amerika ini beserta orang Amerika Hispanik dan kelompok minoritas lainnya sering dirugikan oleh tes yang menguntungkan kelompok mayoritas tersebut – orang kulit putih. Istilah ini selanjutnya dikenal sebagai bias tes (Popham, 1981). Dengan demikian, tes ini secara substantif bukanlah tes yang valid – mampu mengukur apa yang hendak diukur.

White (1982) dalam Hulin melakukan penelitian yang bertalian dengan bias butir pada alat ukur yang digunakan oleh suatu kalangan organisasi untuk menempatkan para pegawainya ke dalam kelas aristokrasi dan meritokrasi secara berbeda. Hasil penelitian tersebut menginformasikan bahwa perbedaan sekor tes di antara para responden itu disebabkan oleh berbagai faktor, seperti status ekonomi sosial, pendapatan keluarga, dan ras. Secara hipotetik, dinyatakan bahwa perbedaan tersebut merupakan indikasi adanya bias pada perangkat tes yang digunakan (Hulin, 1983).

Penelitian yang bertalian dengan bias butir juga dilakukan oleh Takala dan Kaftandjieva (2003). Mereka melakukan penelitian yang bertujuan untuk membuat bank butir bahasa Inggris untuk keperluan

Page 4: BIAS BUTIR PADA ALAT UKUR TES

The Finnish Foreign Language Certificate Examination. Penelitian tersebut dilakukan dengan menganalisis DIF (Differential Item Functioning) gender pada tes kosakata bahasa kedua (L2) dan mempelajari pengaruh gender pada performansi tes yang diukur dengan mempertimbangkan komposit butir yang berbeda. Latar belakang penelitian ini dilakukan adalah adanya banyak penelitian yang mengungkap perbedaan gender dalam penggunaan bahasa dan kemampuan verbal. Ini sebagaimana yang dilakukan oleh Maccoby dan Jacklin (1974), Thorne dan Henley (1975), FUMS (1977-79), Thorne et.al. (1983), Einarsson dan Hultman (1984), Mielikainen (1988), Nuolijarvi (1988), dan Tannen (1986-1990). Hasil penelitian terhadap butir tes dengan analisis DIF itu menyatakan bahwa wanita memiliki kemampuan verbal yang lebih tinggi daripada pria.

Pertimbangan-pertimbangan lain adalah sebagai berikut. Pertama, hasil penelitian Hyde dan Lynn (1988) menyatakan tidak ada perbedaan kemampuan verbal antara pria dan wanita ditinjau dari gender. Kedua, hasil penelitian Lynn dan Mulhern (1991), Lynn dan Dai (1993), dan Born dan Lynn (1994) menyatakan bahwa wanita memperoleh rata-rata nilai lebih rendah pada skala verbal daripada pria. Ketiga, hasil penelitian Cole (1997) menemukan bahwa wanita memiliki kemampuan menulis yang baik di antara tahun 1960-1990. Keempat, hasil penelitian Cole (1997) dan Hyde dan Lynn (1988) menemukan perbedaan yang kecil pada penguasaan kosakata oleh wanita dibandingkan dengan yang oleh pria. Kelima, penelitian meta analisis Lynn (1988) menyatakan bahwa 6 dari 56 penelitian kosakata ditemukan adanya perbedaan yang signifikan pada pria dan 8 perbedaan yang signifikan pada wanita. Meskipun meta analisis menunjukkan tidak adanya perbedaan yang signifikan pada gender dalam penguasaan kosakata, disebutkan ada heterogenitas yang signifikan dalam effect size yang berarti bahwa penelitian-penelitian tersebut tidak dapat direplikasikan pada penelitian yang lain.

Sebagaimana diungkapkan di atas, di dalam penelitian-penelitian butir alat ukur tersebut sebagian besar menggunakan analisis DIF termasuk butir-butir alat ukur di bidang bahasa. DIF (Differential Item Functioning) merupakan salah satu faktor yang mempengaruhi performansi tes di dalam satu kelompok. Analisis DIF bukan merupakan hal umum dalam penelitian gender. Ini dapat ditilik bahwa TOEFL dan FCE tidak menggunakan analisis DIF gender. Ini tidak berarti bahwa ia berlaku untuk semua instrumen pengukuran lain yang digunakan di dalam penelitian gender. Dengan demikian penelitian gender perlu terus menerus dilakukan, utamanya bertalian dengan alat ukur penelitian.

Penelitian yang bertalian dengan perbedaan gender di dalam ragamnya, secara hipotetik, disebabkan oleh estimasi bias variabel amatan. Selanjutnya, perbedaan gender aktual memungkinkan mengarah ke DIF gender. Memang, sangat sedikit pakar yang

Page 5: BIAS BUTIR PADA ALAT UKUR TES

mengetahui adanya perbedaan gender dan DIF gender di dalam konteks tes kosakata karena penelitian ini belum banyak diungkap dan sedikit sekali hasil penelitian yang melaporkan ketiadaan DIF gender atau banyak butir yang mengandungi DIF gender signifikan tidak didiskusikan dari sudut pandang isi.

Roznowski dan Reith (1999) mengatakan bahwa tes yang mengandungi butir DIF dianggap butir yang tidak bias. DIF bukan merupakan kondisi yang mencukupi terhadap bias butir dan bias tes. Sebaliknya, manakala butir mengindikasikan DIF sebagai bagian dari bank butir, sangat mungkin tes tersebut bias karena pilihan butir-butirnya tidak sesuai. Keadaan ini yang memungkinkan adanya tes bias dan tes adil pada bank butir.

Selanjutnya, analisis DIF tidak berhenti pada tingkat butir melainkan berlanjut pada pencarian bagaimana butir DIF mempengaruhi sekor tes total berdasarkan pada komposit butir.

Hakikat DIFBanyak definisi tentang DIF (Differential Item Functioning) atau

lebih dikenal sebagai bias butir. Ditengarai bahwa bias butir pertama kali dikenalkan oleh Shepard (1960) ketika meneliti penyebab rendahnya hasil suatu tes pada kelompok minoritas. Jadi, tes ini dimaksudkan sebagai komposit butir dan bias yang dimaksud adalah bias tes. Secara umum, dikatakan bahwa bias tes adalah sekor tes pada satu kelompok atau lebih peserta ujian yang meningkat atau menurun secara sistematik karena faktor-faktor yang tidak bertalian dengan konstruk yang diukur oleh tes. Dikatakan pula bias tes adalah sebagai kecenderungan tes secara berbeda untuk mengukur konstruk tertentu yang bukan berdasarkan pada kemampuan yang berbeda, melainkan karena tes tersebut tidak valid mengukur kelompok tertentu.

Setakat ini diketahui dari pendapat Shepard (1982) bahwa bias tes merupakan bentuk tes yang tidak valid. Ketidakvalidan suatu tes ditandai oleh adanya isyarat seperti struktur kalimat dan bahasa yang secara konseptual meningkatkan ketidakadilan bagi kelompok tertentu.

Ada juga pendapat lain yang mengamangkan bahwa bias adalah sebagai adanya karakteristik suatu butir yang menyebabkan performansi berbeda pada setiap individu yang berkemampuan sama dari etnik, gender, budaya, dan agama yang berbeda. Jadi, bias dapat berbentuk gender, budaya, etnik, agama, bahasa, atau kelompok. Butir disebut bias manakala ia mengandungi isi atau bahasa yang menguntungkan subkelompok peserta ujian secara berbeda atau manakala struktur atau format butir tidak menguntungkan sebagian subkelompok peserta ujian.

Di Indonesia, tes berskala nasional masih menjadi bahan perdebatan. Tes tersebut diselenggarakan oleh Departemen

Page 6: BIAS BUTIR PADA ALAT UKUR TES

Pendidikan Nasional dalam bentuk Ujian Nasional. Penggunaan nilai UN akan sesat atau menyebabkan masalah manakala ternyata butir-butir UN memihak kelompok tertentu sehingga dua peserta ujian dari kelompok yang berbeda dengan kemampuan yang sama memiliki peluang menjawab betul secara berbeda.

Hal ini sebagaimana pendapat Hulin yang mengatakan bahwa bias butir terjadi manakala individu berkemampuan sama dari subkelompok berbeda memiliki probabilitas berbeda untuk menjawab butir dengan betul (Hulin, 1983). Demikian pula, Ironson dalam Hambleton mengatakan bahwa bias butir dipahami sebagai jumlah daerah di antara dua kurva karakteristik butir di mana peserta ujian berkemampuan sama tetapi dari kelompok berbeda memiliki probabilitas yang tidak sama untuk menjawab butir dengan betul (Hambleton, 1983).

Sebenarnya, istilah DIF lebih sering digunakan daripada istilah bias untuk memerikan data empirik yang diperoleh dalam pencarian bias. Menurutnya, suatu butir menunjukkan DIF manakala kelompok mayoritas dan minoritas berbeda dalam performansi rata-rata mereka terhadap butir. Definisi ini tidak mempertimbangkan variabel lain seperti perbedaan kemampuan antarkelompok yang mengakibatkan perbedaan nilai p (Hambleton, 1991).

Dengan demikian, disimpulkan bahwa yang dimaksud dengan DIF adalah suatu karakteristik butir yang menyebabkan probabilitas responden-responden yang berkemampuan sama untuk menjawab butir-butir pada perangkat tes dengan betul secara berbeda yang disebabkan oleh berbagai faktor, seperti etnik, gender, budaya, bahasa, atau agama. Ini juga merupakan ketidakstabilan karakteristik butir yang berpengaruh pada sekor komposit tes. Di samping itu, butir berindikasi DIF merupakan butir yang tidak mampu mengukur apa yang hendak diukur di dalam perangkat tes. Dengan demikian, penentuan indikasi ada tidaknya DIF pada butir memerlukan analisis statistik butir yang komprehensif sehingga perangkat tes yang digunakan betul-betul sebagai alat ukur yang valid.

Implikasi Analisis DIF pada Perangkat TesTes bahasa, khususnya yang berbentuk pilihan berganda sangat

rentan terdapat indikasi adanya DIF. Bukan tidak mungkin, kegiatan pengukuran kemampuan bahasa Inggris siswa di lembaga pendidikan formal yang lazim dikenal dengan tes bahasa Inggris menjadi determinan apakah seseorang dikatakan mampu atau tidak berdasarkan pada sekor komposit tes tersebut. Sering dijumpai, seorang pelajar memiliki sekor 90 untuk skala 0-100, namun ia tidak mampu berbahasa Inggris dengan baik. Sebaliknya, seorang pelajar memiliki sekor 20 untuk skala 0-100, namun ia mampu berbahasa Inggris dengan baik. Apakah ini berarti bahwa perangkat tes yang diberikan mengindikasikan adanya DIF? Demikian pula halnya,

Page 7: BIAS BUTIR PADA ALAT UKUR TES

seseorang yang memiliki kemampuan matematika yang sangat baik, ketika diberikan perangkat tes matematika dalam bahasa Inggris, ternyata ia tidak mampu mengerjakannya. Apakah perangkat tes ini juga mengindikasikan adanya DIF? Tak pelak berbagai jenis perangkat tes lainnya memungkinkan berpeluang luas adanya indikasi DIF sehingga hasil ukurnya tidak dapat menampilkan keadaan yang sesungguhnya. Oleh karena itu, kajian mengenai alat ukur penelitian, khususnya alat ukur tes, di bidang bahasa masih perlu dikembangkan, dalam hal ini dengan menggunakan pendekatan teori responsi butir.

Pustaka AcuanAlderson, J. Charles. Judgements in language testing. Di dalam D.

Douglas dan Carol Chapelle (Eds.). A New Decade of Language Testing Research: Selected Papers from the 1990 Language Testing Research Colloquium, hh. 46-57. Virginia: TESOL. 1993.

Alderson, J. Charles. The relationship between grammar and reading in an English for academic purposes test battery. Di dalam D. Douglas dan Carol Chapelle (Eds.). A New Decade of Language Testing Research: Selected Papers from the 1990 Language Testing Research Colloquium, hh. 203-219. Virginia: TESOL. 1993.

Bachman, Lyle F., F. Davidson, dan J. Foulkes. A comparison of the abilities measured by the Cambridge and Educational Testing Service EFL test batteries. Di dalam D. Douglas dan Carol Chapelle (Eds.). A New Decade of Language Testing Research: Selected Papers from the 1990 Language Testing Research Colloquium, hh. 25-45. Virginia: TESOL. 1993.

Douglas, D. dan Larry Selinker. Performance on a general versus a field-specific test of speaking proficiency by international teaching assistants. Di dalam D. Douglas dan Carol Chapelle (Eds.). A New Decade of Language Testing Research: Selected Papers from the 1990 Language Testing Research Colloquium, hh. 235-256. Virginia: TESOL. 1993.

Hambelton, Ronald K., H. Swaminathan, dan H.J. Rogers. Fundamentals of Item Response Theory. California: Sage Publications, 1991.

Hudson, Thom. Testing the specificity of ESP reading skills. Di dalam D. Douglas dan Carol Chapelle (Eds.). A New Decade of Language Testing Research: Selected Papers from the 1990 Language Testing Research Colloquium, hh. 58-82. Virginia: TESOL. 1993.

Hulin, Charles L., Fritz Drasgow, dan Charles K. Parsons. Item Response Theory: Application to Psychological Measurement. USA: Dow Jones-Irwin, 1983.

Ironson, Gail H. Using item response theory to measure bias. Di dalam Ronald K. Hambleton (Ed.). Applications of Item Response Theory. Vancouver: Educational Research Institute of British Columbia, 1983.

Page 8: BIAS BUTIR PADA ALAT UKUR TES

Madsen, Harold S. dan R.L. Jones. Classifications of oral proficiency tests. Di dalam Adrian S. Palmer, Peter J.M. Groot, dan George A.T. (Eds.). The Construct Validation of Tests of Communicative Competence. Washington, D.C.: TESOL, 1981.

Perkins, Kyle dan Sheila Brutten. A comparison of indices for the identification of misfitting items. Di dalam D. Douglas dan Carol Chapelle (Eds.). A New Decade of Language Testing Research: Selected Papers from the 1990 Language Testing Research Colloquium, hh. 83-97. Virginia: TESOL. 1993.

Popham, James W. Modern Educational Measurement. Englewood Cliffs, New Jersey: Prentice-Hall, 1981.

Takala, Sauli dan F. Kaftandjieva. Test Fairness: a DIF Analysis of an L2 Vocabulary Test. [email protected]. 2003.


Top Related