kualitas alat penilaian - um

Modul 3

Kualitas Alat Penilaian

Dr. Titik Harsiati, M.Pd.

ari Modul 1, Anda ketahui bahwa untuk mengambil keputusan dalam

proses evaluasi, diperlukan informasi yang akurat dari kegiatan

pengukuran. Seorang perancang evaluasi perlu memahami karakteristik alat

evaluasi yang baik. Jika alat evaluasi tidak baik, hal itu akan menyebabkan

proses dan hasil evaluasi tidak bermanfaat. Setelah memahami hakikat

evaluasi, fungsi, dan karakteristik evaluasi jenis alat evaluasi dalam

pembelajaran bahasa Indonesia, calon guru perlu mempelajari karakteristik

alat evaluasi yang baik.

Setelah mempelajari modul ini, secara umum Anda diharapkan dapat

merencanakan dan memahami syarat-syarat alat evaluasi yang baik. Secara

khusus, setelah mempelajari modul ini, diharapkan Anda mampu

menjelaskan:

1. konsep validitas;

2. implementasi konsep validitas pada penilaian hasil pembelajaran bahasa

Indonesia;

3. konsep reliabilitas;

4. implementasi konsep reliabilitas pada penilaian hasil pembelajaran

bahasa Indonesia;

5. konsep dan langkah-langkah pengujian daya beda dan tingkat kesulitan;

6. implementasi konsep kepraktisan pada penilaian hasil pembelajaran

bahasa Indonesia.

Modul ini penting dipelajari sebagai bekal untuk merencanakan

penyusunan alat evaluasi yang memiliki kualitas tinggi. Kualitas alat ukur

yang akan dibahas pada modul ini mencakup kualitas dari segi validitas

konstruknya, reliabilitasnya, daya beda dan tingkat kesulitannya, serta

kepraktisannya. Untuk mencapai tujuan yang ditetapkan, materi pada modul

D

PENDAHULUAN

3.2 Evaluasi Pembelajaran Bahasa Indonesia

ini mencakup (1) konsep validitas, (2) contoh implementasi konsep validitas

pada penilaian hasil pembelajaran bahasa Indonesia, (3) konsep reliabilitas,

(4) contoh implementasi konsep reliabilitas pada penilaian hasil pembelajaran

bahasa Indonesia, (5) konsep dan langkah-langkah pengujian daya beda dan

tingkat kesulitan, serta (6) kepraktisan dan contoh pelaksanaannya pada

penilaian mata pelajaran bahasa Indonesia.

Anda akan mempelajari modul ini dengan susunan berikut.

Kegiatan Belajar 1: menelaah konsep validitas dan analisis contoh

implementasi konsep validitas pada penilaian hasil

pembelajaran bahasa Indonesia.

Kegiatan Belajar 2: menelaah konsep reliabilitas dan analisis contoh

implementasi konsep reliabilitas pada penilaian hasil


Kegiatan Belajar 3: menelaah konsep dan langkah-langkah pengujian daya

beda dan tingkat kesulitan serta analisis contoh

implementasi konsep kepraktisan pada penilaian hasil


PBIN4302/MODUL 3 3.3

Kegiatan Belajar 1

Validitas pada Penilaian Hasil Pembelajaran Bahasa Indonesia

A. KONSEP VALIDITAS

Sebelum mengkaji validitas dan reliabilitas secara konseptual, cermatilah

kasus dalam kehidupan sehari-hari yang berkaitan dengan kedua konsep

tersebut.

Andi adalah seorang mahasiswa yang akan melakukan penimbangan

kandungan humus pada tanah di daerah tertentu. Prosedurnya seperti pada

gambar dia harus (1) menimbang panci pijar untuk mengetahui berat panci

pijar, (2) menimbang sekitar 100 gram tanah yang mengandung humus untuk

mengetahui berat tanah sebelum dibakar, (3) membakar tanah yang telah

ditimbang dengan panci pijar sampai memerah, dan (4) menimbang tanah

yang setelah dalam kondisi dingin.

Alat utama yang harus disediakan Andi adalah alat pengukur berat yang

sesuai. Mengapa Andi memilih alat ukur timbangan dan bukan meteran?

Tentunya karena yang akan diukur adalah berat. Lalu, mengapa yang dipilih

timbangan kue dan bukan timbangan duduk atau timbangan beras?

Penggunaan timbangan kue karena ketelitiannya lebih tinggi untuk mengukur

berat tanah yang hanya sekitar 100 gram.

Setelah Andi mendapatkan timbangan kue, sebelum dipakai,

diujicobakan untuk mengetahui apakah timbangan masih berfungsi dengan

baik. Uji coba Andi dilakukan dengan menimbang bandul besi seberat 200

gram menggunakan timbangan kue tersebut secara berulang-ulang. Karena

setelah ditimbang berulang-ulang hasilnya sama, diputuskan untuk

menggunakan timbangan tersebut.

Manakah kegiatan Andi yang berkaitan dengan konsep validitas atau

ketepatan alat ukur? Tentunya, kegiatan Andi memilih timbangan kue dengan

pertimbangan karena yang diukur adalah berat tanah dan beratnya hanya

sekitar 100 gram. Jika Andi memilih timbangan duduk untuk menimbang

berat tanah 100 gram, ketepatannya akan berkurang. Lalu, kegiatan Andi

untuk menguji fungsi timbangan dengan cara menimbang secara berulang-


ulang barang yang sama berkaitan dengan konsep keajekan hasil

(reliabilitas). Dengan alat ukur yang tepat dan dapat memberikan hasil yang

konsisten, kesimpulan yang akan diperoleh Andi adalah kesimpulan yang

tepat.

Dari kasus di atas, tentunya Anda sudah memiliki sedikit gambaran

tentang konsep validitas dan reliabilitas. Bayangkan, apa yang akan terjadi

seandainya timbangan yang digunakan adalah timbangan yang rusak

sehingga barang yang sama ditimbang pada waktu berbeda hasilnya juga

berbeda. Apa yang akan terjadi seandainya untuk mengetahui berat tanah

digunakan meteran atau timbangan duduk yang besar itu?

Untuk memperdalam pemahaman Anda tentang validitas, pelajarilah

uraian berikut dengan saksama.


B. APAKAH VALIDITAS ITU?

Konsep validitas berkaitan dengan sejauh mana ketepatan dan

kecermatan suatu alat ukur dalam melakukan fungsi ukurnya. Suatu alat

disebut memiliki validitas yang tinggi apabila alat tersebut dapat

menjalankan fungsi ukurnya. Artinya, alat tersebut dapat memberikan hasil

ukur yang sesuai dengan maksud dilakukannya pengukuran tersebut (Djaali,

2000: 49). Validitas adalah tingkat yang dapat menunjukkan pengamatan

secara terus-menerus atau mengukur apa saja yang diukur (Aiken, 2004).

Kesahihan tidak sekadar mengukur apa yang seharusnya diukur, melainkan

juga mengandung pengertian sejauh mana informasi yang diperoleh dari

pengukuran dapat diinterpretasikan sebagai tingkah laku atau karakteristik

yang diukur (Atanasou, 2007).

Jadi, validitas berkenaan dengan ketepatan alat ukur terhadap konsep

yang diukur sehingga betul-betul mengukur apa yang seharusnya diukur.

Sebagai contoh, Anda ingin mengukur kemampuan siswa dalam berbicara,

tetapi siswa mengerjakan tugas tentang tata bahasa atau kesusastraan. Alat itu

dianggap tidak memiliki validitas yang baik karena belum mengukur apa

yang seharusnya diukur. Validitas tidak berlaku universal sebab bergantung

pada situasi dan tujuan penelitian. Instrumen yang telah valid untuk suatu

tujuan tertentu belum otomatis akan valid untuk tujuan yang lain. Validitas

mencakup beberapa jenis berikut.

1. Validitas Isi

Menurut Gregory (2000), validitas isi menunjukkan sejauh mana

pertanyaan, tugas, atau butir tes/instrumen mampu mewakili secara

keseluruhan dan proporsional perilaku sampel. Validitas isi (content validity)

digunakan pada waktu pemakai tes akan menarik kesimpulan domain butir

tes berdasarkan skor tes individu ke domain butir yang lebih besar yang

serupa dengan butir-butir yang terdapat dalam tesnya sendiri (Crocker dan

Algina, 1986: 217). Dalam pembelajaran, validitas isi menunjukkan sejauh

mana tes mengukur tingkat penguasaan terhadap isi suatu materi

pembelajaran dan tujuan pembelajaran. Dengan kata lain, tes yang memiliki

validitas isi yang baik adalah tes yang benar-benar mengukur penguasaan

materi yang seharusnya dikuasai sesuai isi kurikulum. Karena itu, sering

validitas isi juga disebut validitas kurikuler. Dalam konteks pembelajaran

berdasarkan standar isi, tes yang memiliki validitas isi yang baik adalah tes


yang benar-benar mengukur penguasaan kompetensi dasar pada standar isi.

Dengan demikian, dalam pembelajaran validitas isi adalah hal pertama yang

harus ditegakkan dalam mengembangkan tes.

Yang harus dipertimbangkan agar sebuah tes memiliki validitas isi

adalah tujuan, susunan pemilihan butir, dan aspek yang diuji oleh butir

(Crocker dan Algina, 1986: 219—221). Validitas isi berkenaan dengan

kesanggupan instrumen mengukur keseluruhan isi yang harus diukur.

Artinya, alat ukur tersebut mampu mengungkap isi dalam kurikulum. Hal ini

bisa dilakukan dengan cara menyusun tes yang bersumber dari kurikulum

bidang studi yang hendak diukur. Walaupun demikian, tes hasil belajar tidak

mungkin dapat mengungkap semua materi yang ada. Oleh sebab itu, harus

diambil sebagian dari materi dalam bentuk sampel tes. Sebagai sampel, harus

dapat mencerminkan materi yang terkandung dari seluruh materi bidang

studi. Cara yang ditempuh dalam menetapkan sampel tes adalah memilih

konsep-konsep yang esensial dan merepresentasikan kompetensi yang lain

pada standar isi. Di sinilah pentingnya peranan kisi-kisi sebagai alat untuk

memenuhi validitas isi.

TES HASIL BELAJAR

Bidang studi : ....................

Semester : ....................

Kelas : ....................

Standar Kompetensi Kompetensi

Dasar Jumlah

pertanyaan

Jenis tes

Menurut Gregory (2000), validitas isi menunjukkan sejauh mana

pertanyaan, tugas, atau butir tes/instrumen mampu mewakili secara

keseluruhan dan proporsional perilaku sampel. Untuk mengetahui validitas

isi, penulis soal perlu menelaah kesesuaian tes yang telah disusun sesuai

dengan kurikulum (standar isi). Validitas isi menunjuk pada sejauh mana

instrumen tersebut mencerminkan isi yang dikehendaki kurikulum. Validitas


isi kadang disebut juga validitas kurikuler. Dalam menilai validitas isi suatu

instrumen, kita berkepentingan dengan pertanyaan seberapa jauh isi

instrumen itu mencerminkan seluruh isi kurikulum yang diukur. Agar dapat

memiliki validitas isi, suatu ukuran harus secara memadai menarik sampel

topik ataupun proses kognitif yang terdapat dalam keterampilan yang dinilai.

Di samping itu, topik dan proses kognitif itu harus ditarik sampelnya sesuai

dengan penekanannya di seluruh isi kurikulum.

Untuk menyusun tes yang memiliki validitas yang tinggi, ditempuh

prosedur (1) identifikasi kompetensi secara perinci dan perincian indikator

dalam kurikulum, (2) membuat kisi-kisi secara lengkap dan teperinci yang

mencantumkan pula sebaran tugas, serta (3) menjabarkan dan menulis butir

soal/tugas dengan berpijak pada kisi-kisi tersebut. Untuk mengetahui apakah

suatu tes memiliki validitas isi, harus dilakukan penelaahan kisi-kisi tes untuk

memastikan bahwa soal-soal tersebut sudah mewakili atau mencerminkan

keseluruhan isi kurikulum secara proporsional.

Bagaimana mengukur validitas isi tes bahasa? Validitas isi dalam tes

menulis dapat ditentukan dengan cara membandingkan butir-butir yang

terdapat dalam tes menulis dengan butir-butir yang terdapat dalam

kurikulum. Cara ini dilakukan untuk menentukan validitas isi tes menulis

yang digunakan dalam pengajaran.

Tes dikatakan memiliki validitas isi jika sesuai dengan kemampuan

dasar, materi pembelajaran, dan indikator dalam kurikulum. Untuk

mengetahui kesahihan suatu alat penilaian, perlu dilakukan telaah untuk

mencocokkan antara kisi-kisi dan yang dihasilkan dengan kompetensi dasar

serta indikator yang ada dalam kurikulum.

2. Validitas Bangun Pengertian (Construct Validity)

Kesahihan (validitas) adalah ketepatan data yang diperoleh sesuai

dengan sifat variabel yang diukur. Kesahihan tidak sekadar mengukur apa

yang seharusnya diukur, melainkan juga mengandung pengertian sejauh

mana informasi yang diperoleh dari pengukuran dapat diinterpretasikan

sebagai tingkah laku atau karakteristik yang diukur (Griftin, 1994: 12).

Validitas konstruk (construct validity) berkenaan dengan kesanggupan alat

ukur mengukur bangunan pengertian yang diukur. Menurut Djaali (2008: 51),

validitas konstruk adalah validitas yang mempermasalahkan seberapa jauh

butir-butir tes mampu mengukur apa yang benar-benar hendak diukur sesuai

dengan bangunan konsep yang telah ditetapkan.


Konstruk perlu dijabarkan menjadi indikator-indikator. Butir-butir soal

harus disusun untuk masing-masing indikator. Konstruk perlu dijabarkan

menjadi indikator-indikator. Butir-butir soal harus disusun untuk masing-

masing indikator. Indikator harus lengkap sehingga dapat mengukur

bangunan konsep secara utuh.

Pengertian-pengertian yang terkandung dalam konsep perlu dijabarkan

yang lebih spesifik sehingga mudah diukur. Ini berarti setiap konsep harus

dikembangkan indikator-indikatornya. Dengan adanya indikator dari setiap

konsep, bangun pengertian akan tampak dan memudahkan dalam

menetapkan cara pengukuran. Menetapkan indikator suatu konsep dapat

dilakukan dalam dua cara, yakni menggunakan pemahaman atau logika

berpikir atas dasar teori pengetahuan ilmiah dan menggunakan pengalaman

empiris. Untuk memahami dengan baik implementasi konsep validitas konstruk,

dapat diamati tiga contoh penggunaan alat penilaian berikut.

Kompetensi dasar: mampu menulis iklan dengan bahasa yang menarik.

Indikator:

a. mampu menulis iklan dengan isi yang bisa meyakinkan orang untuk

membeli

b. mampu menulis iklan dengan bahasa yang menarik.

Contoh 1

Penilaian yang dilakukan guru berupa tes untuk mengidentifikasi pemahaman

siswa tentang iklan (tes dilakukan menyatu dengan beberapa kompetensi

yang lain).

a. Sebutkan jenis-jenis iklan!

b. Bacalah kutipan iklan berikut!


Iklan di atas termasuk iklan ….

a. iklan penawaran

b. iklan pengumuman

c. iklan produk

d. iklan jasa

Contoh 2

Penilaian

Sekolahmu akan menerbitkan majalah sekolah AKSI. Buatlah iklan agar

teman-temanmu tertarik membeli majalah tersebut!

Rubrik berikut digunakan untuk menilai iklan yang dibuat siswa. Berilah

tanda cek sesuai dengan hasil pengamatanmu!

No Subkompetensi Perincian Indikator Ya Tidak Bukti

1. Memilih isi iklan yang sesuai dengan tujuan iklan untuk memlakukan persuasi

a. Iklan mengandung penjelasan barang/jasa yang diiklankan secara jelas, tetapi ringkas

b. Iklan berisi ajakan/alasan untuk menggunakan apa yang diiklankan (kelebihan barang/ jasa)

2. Memilih isi dan bentuk iklan dan kreatif

a. Isi iklan menjelaskan dan memuji barang

b. Bentuk pujian/ajakan membeli kreatif


No Subkompetensi Perincian Indikator Ya Tidak Bukti

3. Memilih diksi dan struktur yang menarik

a. Memilih penggunaan kata yang dapat menarik perhatian (perulangan bunyi, perulangan kata, dan berkaitan dengan nama/identitas barang/jasa yang diiklankan)

b. Memilih struktur kalimat yang padat dan singkat

Dari dua contoh di atas, validitas konstruk terjadi pada penilaian yang

kedua karena mengukur kemampuan menulis iklan sesuai dengan konsep

menulis iklan. Menulis iklan adalah kemampuan menyusun ide dengan tujuan

menawarkan barang dengan menggunakan bahasa tulis yang menarik.

Contoh 1 tidak memiliki validitas konstruk yang tinggi karena tidak sesuai

dengan apa yang akan diukur pada indikator. Pemahaman tentang jenis-jenis

iklan bukan termasuk pada konsep menyusun iklan. Konsep mampu membacakan berita, indikator empirisnya adalah (a)

mampu melisankan bahasa verbal yang dibaca sesuai isi naskah, (b) mampu

membacakan pengumuman dengan intonasi bervariasi, (c) mampu memberi

jeda dan tekanan yang sesuai pada waktu membacakan, serta (d) mampu

membacakan dengan lancar dan percaya diri.

Mengukur indikator-indikator tersebut berarti mengukur bangun

pengertian yang terdapat dalam konsep mampu membacakan berita.

Demikian juga validitas konstruk tes menulis dapat ditentukan dengan cara

membandingkan butir-butir tes dengan teori yang melandasi kemampuan

menulis. Jika menulis dipandang sebagai aktivitas pengekspresian ide,

gagasan, pikiran, atau perasaan ke dalam lambang-lambang kebahasaan

dengan melibatkan kegiatan pengolahan bahasa dan isi; tes yang memiliki

validitas konstruk akan mencakup semua aspek tersebut. Jika menulis

dipandang sebagai proses mengolah ide dan sarana pengekspresian, sudah

seharusnya pelaksanaan tes menulis juga mencerminkan adanya proses.

Pada tes menulis, validitas konstruk berkaitan dengan bangunan

pengertian menulis, yakni proses pengembangan gagasan sesuai dengan

konteks komunikasi dalam bentuk wacana tulis. Dengan demikian, menulis

adalah keterampilan produktif tulis yang disesuaikan dengan konteks. Hal ini

berimplikasi pada penentuan aspek dalam rubrik (pedoman penyekoran).

Dengan pemahaman bahwa menulis memiliki konstruk pemilihan dan

pengembangan isi, penggunaan aspek grafis dan mekanik, pemilihan dan


penggunaan kata/kalimat secara tertulis; rubrik yang akan disusun perlu

mengamati faktor-faktor tersebut.

Menurut Djaali (2008: 54), indikator-indikator tersebut harus memerinci

dan sesuai dengan konstruk kemampuan yang akan diukur. Selain itu,

indikator harus lengkap untuk mengukur suatu konstruk yang utuh. Apabila

hasil tes menunjukkan indikator-indikator tes yang tidak berhubungan secara

positif satu sama lain, itu berarti ukuran tersebut tidak memiliki validitas

bangun pengertian. Atas dasar itu, indikatornya perlu ditinjau atau diperbaiki

kembali.

Jadi, untuk mengetahui validitas konstruk suatu instrumen atau tes,

diperlukan penelaahan teoretis dari suatu bangunan konsep yang akan diukur.

Perumusan konstruk dilakukan berdasarkan sintesis teori yang telah ada.

Kesahihan konstruksi berkaitan dengan pengertian seberapa jauh suatu

tes mengukur sifat konstruk tertentu. Kesahihan konstruksi juga mengandung

pengertian sejauh mana hasil tes tersebut dapat ditafsirkan menurut konstruk

(bangunan pengertian) yang ditentukan berdasarkan pendekatan atau teori

tertentu. Istilah bangunan pengertian tersebut dipakai untuk mengacu sesuatu

yang tidak dapat diukur secara langsung, tetapi dapat menerangkan akibat-

akibat yang dapat diamati. Konstruk merupakan konsepsi hipotetik hasil

imajinasi para ilmuwan yang berusaha menjelaskan konsep-konsep abstrak.

Konstruk merupakan atribut psikologis yang tidak dapat diukur secara

langsung, tetapi indikator-indikator tersebut dapat diukur.

Kesahihan konstruksi ini didasarkan pada dua pendekatan, yakni

pendekatan logis dan pendekatan empiris. Dalam pendekatan logis, masalah

yang dipersoalkan adalah indikator-indikator apa saja yang membentuk

konstruk dan apakah cukup mewakili indikator-indikator tersebut untuk

mewakili konstruk yang hendak diukur. Dalam hal ini, jelas dipersoalkan

apakah butir-butir tes yang akan digunakan relevan untuk menaksir unsur-

unsur yang terdapat dalam konstruk yang hendak diukur.

Berbeda dengan pendekatan logis yang menekankan penalaran dalam

identifikasi indikator-indikator suatu konstruk, pendekatan empiris kesahihan

konstruksi ini mencakup (1) secara internal hubungan-hubungan dalam tes itu

hendaknya seperti yang diramalkan serta (2) secara eksternal hubungan-

hubungan antara skor tes dan pengamatan-pengamatan yang lain hendaknya

konsisten dengan konstruk yang ditentukan. Apabila suatu tes setelah disusun

dan dilaksanakan ditemukan bahwa unsur-unsurnya yang telah diidentifikasi

tidak berkaitan secara positif, dapat dikatakan bahwa alat tersebut tidak

memiliki kesahihan konstruksi.


Jenis kesahihan yang berhubungan dengan hal itu mengacu pada

hubungan antara skor suatu instrumen pengukuran dan suatu variabel di luar

yang telah tepercaya dan dapat mengukur langsung ciri-ciri yang diselidiki.

Lalu, bagaimana cara menentukan kesahihan konstruksi suatu tes berbahasa?

Kesahihan konstruksi tes menulis, misalnya, dapat ditentukan dengan cara

membandingkan butir-butir tes dengan teori yang melandasi kemampuan

menulis. Jika menulis dipandang sebagai aktivitas pengekspresian ide,

gagasan, pikiran, atau perasaan ke dalam lambang-lambang kebahasaan

dengan melibatkan kegiatan pengolahan bahasa dan isi, tes yang memiliki

kesahihan konstruksi akan mencakup semua aspek tersebut. Jika

keterampilan menulis dipandang sebagai proses mengolah ide dan sarana

pengekspresian bahasa, semestinya pelaksanaan tes menulis itu

mencerminkan adanya proses.

3. Validitas Bandingan

Kesahihan ini lebih umum dikenal dengan kesahihan empiris. Sebuah tes

dikatakan memiliki kesahihan empiris jika hasilnya sesuai dengan

pengalaman. Dalam hal ini, hasil tes dipasangkan dengan hasil pengalaman.

Pengalaman selalu berkaitan dengan hal yang telah lampau sehingga data

pengalaman tersebut sekarang sudah ada (concurrent).

Dalam membandingkan hasil sebuah tes, diperlukan suatu kriteria atau

alat banding. Dengan demikian, hasil tes merupakan sesuatu yang

dibandingkan. Misalnya, kesahihan bandingan tes menulis ditentukan

dengan cara membandingkan tes menulis dengan tes yang sejenis di masa

lampau. Dari hasil perbandingan yang dilakukan dengan menggunakan

teknik statistik, akan dapat diketahui tingkat kesahihannya.

C. KESAHIHAN PREDIKSI (PREDICTIVE VALIDITY)

Anda pasti mengetahui bahwa prediksi itu adalah ramalan. Lalu, tahukah

Anda tes yang bagaimana yang dikatakan memiliki kesahihan prediksi?

Sebuah tes dikatakan memiliki kesahihan prediksi atau kesahihan ramalan

apabila mempunyai kemampuan untuk meramalkan apa yang akan terjadi

pada masa yang akan datang. Misalnya, tes masuk perguruan tinggi adalah

sebuah tes yang diperkirakan mampu meramalkan keberhasilan peserta tes

dalam mengikuti kuliah di masa yang akan datang. Calon yang tersaring

berdasarkan hasil tes diharapkan mencerminkan tinggi rendahnya


kemampuan mengikuti kuliah. Jika nilai tesnya tinggi, tentu hal itu menjamin

keberhasilannya kelak. Sebaliknya, seorang calon dikatakan tidak lulus tes

karena memiliki nilai tes yang rendah, jadi diperkirakan akan tidak mampu

mengikuti perkuliahan yang akan datang.

Alat pembanding kesahihan prediksi adalah nilai-nilai yang diperoleh

setelah peserta tes mengikuti pelajaran di perguruan tinggi. Jika ternyata

siapa yang memiliki nilai tes lebih tinggi gagal dalam ujian semester I

dibandingkan dengan yang dahulu nilai tesnya lebih rendah; tes masuk yang

dimaksud tidak memiliki kesahihan prediksi. Dalam tes berbahasa misalnya,

kesahihan ramalan tes menulis dapat ditentukan dengan cara membandingkan

hasil tes menulis dengan prestasi tes di masa mendatang.

Validitas ramalan dikaitkan dengan kriteria tertentu. Dalam validitas ini,

yang diutamakan bukan isi tes, tetapi kriterianya: apakah alat ukur tersebut

dapat digunakan untuk meramalkan suatu ciri atau perilaku tertentu atau

kriteria tertentu yang diinginkan. Misalnya, tes masuk SNPTN dalam bidang

membaca apakah dapat meramakan prestasi mahasiswa di kampus nanti.

Dengan kata lain, validitas ini mengandung ciri adanya relevansi dan

keajekan atau ketetapan (reliability) untuk digunakan meramal prestasi

mahasiswa di kampusnya pada masa mendatang. Validitas ramalan ini

mengandung dua makna. Pertama, validitas jangka pendek. Kedua, jangka

panjang. Validitas jangka pendek artinya daya ramal alat ukur tersebut hanya

untuk masa yang tidak lama. Artinya, skor tersebut berkorelasi pada waktu

yang sama. Sementara itu, validitas jangka panjang mengandung makna skor

tersebut akan berkorelasi juga di kemudian hari.

D. KESAHIHAN KRITERIA

Berbeda dengan pendekatan logis, kesahihan kriteria dibuktikan dengan

pendekatan empiris. Pembuktian kesahihan ini dikaitkan dengan kriteria dan

menggunakan teknik-teknik empiris untuk menyelidiki hubungan antara skor

tes yang diperoleh dan kriteria luar yang tepercaya serta berkaitan dengan

ciri-ciri tes yang dicari kesahihannya. Jadi, bagi penyelidikan kesahihan

dengan pendekatan ini, identifikasi kriteria yang dipakai itu penting sekali.

Ada beberapa ciri yang harus dimiliki oleh suatu tes yang dijadikan ukuran

kriteria.

1. Ciri yang terpenting ialah relevansi. Kita harus menilai apakah kriteria

yang telah dipilih itu benar-benar menggambarkan ciri-ciri yang tepat


dari tingkah laku yang sedang dievaluasi. Kalau kriteria itu tidak

mencerminkan atribut yang sedang dievaluasi, akan tidak ada artinya

menggunakan kriteria tersebut sebagai dasar untuk menetapkan

kesahihan tes lainnya.

2. Ciri yang kedua bagi kriteria tersebut adalah suatu kriteria harus reliabel.

Ini berarti bahwa kriteria tersebut harus merupakan ukuran yang ajek

bagi atribut tersebut dari waktu ke waktu dan dari satu situasi ke situasi

yang lain. Apabila kriteria itu sendiri tidak konsisten, orang pun tidak

akan mengharapkan kriteria tersebut dapat bertalian dengan suatu

peramal (predictor) secara konsisten pula.

3. Syarat yang ketiga, suatu kriteria hendaknya bebas dari bias. Artinya,

pemberian skor pada suatu ukuran kriteria hendaknya tidak dipengaruhi

oleh faktor-faktor, selain penampilan sebenarnya pada kriteria.

Setelah kriteria luar itu ditetapkan, data empiris pun segera dikumpulkan

untuk menilai hubungan antara skor pada instrumen pengukur (X) dengan

skor pada kriteria (Y). Instrumen yang akan ditetapkan kesahihannya itu

diberikan kepada sekelompok individu yang dianggap mewakili kelompok

mereka yang akan diukur dengan menggunakan alat tersebut. Skor yang

dicapai oleh para subjek ini pada peramal (X) disimpan dan tidak digunakan

untuk membuat keputusan yang mungkin bisa memengaruhi kelompok

tersebut setelah itu. Hal ini dilakukan dengan tujuan menghindarkan

terjadinya kontaminasi terhadap skor kriteria.

1. Prosedur apa saja yang harus ditempuh untuk menyusun tes yang

memiliki kesahihan isi tinggi?

2) Carilah kompetensi dasar pada standar isi mata pelajaran bahasa

Indonesia! Buatlah indikator dan soal yang memiliki validitas konstruk

tinggi!

LATIHAN

Untuk memperdalam pemahaman Anda mengenai materi di atas,

kerjakanlah latihan berikut!


Petunjuk Jawaban Latihan

Untuk mengukur keberhasilan Anda dalam menjawab soal pelatihan di

atas, coba Anda cocokkan dengan rambu-rambu jawaban berikut ini.

1) Prosedur yang harus ditempuh untuk menyusun tes yang memiliki

kesahihan isi tinggi mencakup hal-hal berikut.

a. Identifikasi kurikulum (standar isi) dan perincian tingkat

kemampuan belajar yang akan diukur.

b. Membuat kisi-kisi secara lengkap dan teperinci yang mencantumkan

pula sebaran pertanyaan.

c. Menjabarkan dan menulis butir soal tes dengan berpijak pada kisi-

kisi tersebut.

2) Untuk mendapatkan validitas konstruk yang tinggi, ditempuh langkah-

langkah berikut.

a. Identifikasi kompetensi dasar yang akan dinilai.

b. Identifikasi ciri-ciri kompetensi dasar dan perinci jabaran

keterampilan dari kompetensi dasar.

c. Menentukan indikator dari jabaran kompetensi dasar.

d. Menentukan alat penilaian yang sesuai indikator.

e. Melaksanakan pengukuran terhadap indikator.

f. Menyimpulkan hasil.

Untuk membantu Anda dalam mempertajam pemahaman Anda terhadap

uraian materi modul ini, sebaiknya Anda membaca rangkuman materi yang

tersaji dalam uraian berikut ini.

Terdapat tiga aspek yang harus diperhatikan dalam pembuatan alat

evaluasi, yakni aspek kesahihan (validity), aspek ketepercayaan

(reliability), dan aspek kepraktisan (practicability).

Sebuah tes dikatakan sahih atau valid apabila dapat mengukur apa

yang seharusnya diukur. Kesahihan tes dapat dibedakan menjadi lima

macam, yaitu kesahihan isi (content validity), kesahihan konstruksi

(construct validity), kesahihan bandingan (concurrent validity),

kesahihan prediksi (predictive validity), dan kesahihan kriteria.

Kesahihan isi (content validity) mengacu pada ketetapan butir-butir tes

dalam mengukur bahan atau materi yang seharusnya diukur. Kesahihan

RANGKUMAN


konstruksi (construct validity) mengacu pada ketetapan tes dalam

mengukur konsep (konstruk) kemampuan yang seharusnya diukur.

Kesahihan bandingan (concurrent validity) mengacu pada adanya

hubungan skor siswa dengan tes lain yang sejenis. Kesahihan prediksi

(predictive validity) mengacu pada ketetapan tes dalam meramalkan kemampuan tes di masa mendatang. Kesahihan kriteria mengacu pada

ketepatan tes dibandingkan dengan hasil tes lain yang relevan.

1) Sebuah tes hendaknya dapat mengukur apa yang seharusnya diukur. Itu

artinya tes itu harus ….

A. valid

B. praktis

C. tepercaya

D. ekonomis

2) Seorang guru menyusun sebuah tes dengan mengidentifikasi

karakteristik suatu kompetensi dasar dan menjabarkannya menjadi

beberapa indikator. Guru tersebut menyusun tes yang memiliki syarat

validitas …. A. konstruk

B. isi

C. bandingan

D. empiris

3) Soal SNPTN digunakan untuk memprediksi kemampuan mahasiswa

ketika nanti belajar di perguruan tinggi. Hal tersebut berkaitan dengan

validitas ….

A. isi

B. konstruk

C. bandingan

D. kurikuler

4) Untuk mendapatkan alat penilaian yang memiliki validitas isi yang

tinggi, perlu dilakukan hal-hal berikut, kecuali ....

A. mengidentifikasi isi kurikulum

B. membuat kisi-kisi

C. menulis soal berdasarkan kisi-kisi

D. mengolah hasil dengan patokan tertentu

TES FORMATIF 1

Pilihlah satu jawaban yang paling tepat!


5) Untuk mendapatkan validitas konstruk yang tinggi, diperlukan

kegiatan ....

A. penyediaan fasilitas penunjang yang sesuai

B. pengkajian konsep kompetensi yang diukur

C. pemilihan materi/isi kurikulum D. pengujian secara kontinu

6) Kesahihan yang didasarkan pada pendekatan logis sekaligus pendekatan

empiris adalah kesahihan validitas ….

A. isi

B. konstruk

C. bandingan masa sekarang

D. bandingan masa yang akan datang

7) Pembuktian validitas bandingan menggunakan pendekatan ....

A. empiris

B. logis C. logis dan empiris

D. konseptual

8) Pak Dani mengorelasikan antara skor kemampuan membaca siswa dari

tes membaca yang dibuat guru dan tes membaca yang dikembangkan

para pakar. Pak Dani mencari bukti validitas ....

A. isi

B. bandingan

C. konstruk

D. prediksi

9) Validitas yang pembuktiannya dapat dilakukan secara logis adalah

validitas ....

A. isi

B. bandingan

C. kriteria

D. prediksi

10) Penggunaan tes tertulis untuk mengukur keterampilan berbicara tidak

sesuai dengan validitas ....

A. isi

B. bandingan

C. konstruk D. prediksi


Cocokkanlah jawaban Anda dengan Kunci Jawaban Tes Formatif 1 yang

terdapat di bagian akhir modul ini. Hitunglah jawaban yang benar.

Kemudian, gunakan rumus berikut untuk mengetahui tingkat penguasaan

Anda terhadap materi Kegiatan Belajar 1.

Arti tingkat penguasaan: 90 - 100% = baik sekali

80 - 89% = baik

70 - 79% = cukup

< 70% = kurang

Apabila mencapai tingkat penguasaan 80% atau lebih, Anda dapat

meneruskan dengan Kegiatan Belajar 2. Bagus! Jika masih di bawah 80%,

Anda harus mengulangi materi Kegiatan Belajar 1, terutama bagian yang

belum dikuasai.

Tingkat penguasaan = Jumlah Jawaban yang Benar

100%Jumlah Soal


Kegiatan Belajar 2

Reliabilitas pada Penilaian Hasil Pembelajaran Bahasa Indonesia

A. PENGERTIAN RELIABILITAS

Menurut Baker (1998: 60), reliabilitas biasanya didefinisikan sebagai

konsistensi dari tes. Konsistensi hanyalah merupakan salah satu aspek dari

reliabilitas. Ketelitian atau akurasi adalah hal lain. Definisi reliabilitas yang

lebih komprehensif adalah derajat ketepatan dan ketelitian atau akurasi yang

ditunjukkan oleh instrumen pengukuran. Pada tes bahasa, reliabilitas

berkaitan juga dengan reliabilitas antarpenilai. Sifat reliabel (andal) dari

sebuah alat ukur berkenaan dengan kemampuan alat ukur tersebut

memberikan hasil yang konsisten. Istilah reliabilitas sering disamakan

dengan consistency, stability, atau dependability. Pada prinsipnya, reliabilitas

menunjukkan sejauh mana pengukuran itu dapat memberikan hasil yang

relatif tidak berbeda apabila dilakukan pengukuran kembali terhadap subjek

yang sama. Sebagaimana digunakan dalam psikometri, istilah reliabilitas

selalu berarti konsistensi. Menguji reliabilitas berarti menguji konsistensi

skor yang diperoleh dari pengukuran yang berulang-ulang menggunakan tes

dan responden yang sama (Anne Anastasi, 1994: 27).

Menurut Aiken (2002: 85), reliabilitas tidak sama dengan stabilitas.

Dalam pengukuran reliabilitas, diasumsikan bahwa instrumen mengukur

karakteristik yang relatif stabil. Ketidakandalan (unreliability) berkaitan

dengan hasil kesalahan pengukuran yang dilakukan kondisi temporer,

misalnya rendahnya motivasi atau kondisi eksternal, seperti lingkungan

pengujian yang tidak nyaman. Pengukuran reliabilitas diwujudkan dalam

koefisien tes ulang, koefisien uji paralel, dan koefisien konsistensi internal.

Menurut McMillan, reliabilitas mengacu pada stabilitas skor antarwaktu

dan konsistensi internal. Stabilitas skor mengacu pada sejauh mana

konsistensi skor tes dan satu pengukuran ke pengukuran lainnya. Ukuran

reliabilitas menunjukkan suatu estimasi sejauh mana variasi yang diharapkan

pada kondisi yang berbeda. Pengukuran reliabilitas dalam hal ini bisa

dilakukan dengan tes ulang atau tes paralel. Sementara itu, konsistensi

internal mengacu pada tingkat homogenitas butir-butir yang mengukur hal


yang sama. Pengukuran reliabilitas dalam konsep konsistensi internal dapat

menggunakan kuder-richardson atau alpha cronbach (Macmillan, 2008: 39).

Menurut Naga (2008: 55), reliabilitas berkaitan dengan komponen skor

tulen. Makin besar komponen skor tulen dan makin kecil komponen skor

keliru; semakin tinggi reliabilitas skor tersebut. Makin tinggi reliabilitas,

makin dapat dipercaya skor itu.

Reliabilitas, menurut Djaali dan Muljono (2008: 56), mencakup

reliabilitas konsistensi tanggapan dan reliabilitas konsistensi gabungan butir.

Reliabilitas konsistensi tanggapan responden mempersoalkan apakah

tanggapan responden terhadap tes sudah konsisten atau belum. Reliabilitas

gabungan butir berkaitan dengan kemantapan atau konsistensi antara butir-

butir suatu instrumen. Konsep reliabilitas mengacu pada konsep konsistensi

gabungan item, yaitu kemantapan butir-butir suatu tes. Reliabilitas pada

penelitian ini diukur dengan indeks reliabilitas alpha cronbach. Pemilihan

koefisien reliabilitas yang memadai ditentukan dengan kriteria tertentu.

Menurut Naga, untuk menentukan besarnya koefisien reliabilitas yang

memadai, hal itu dilakukan dengan dua kriteria empiris. Kriteria empiris

berkaitan dengan karakteristik bidang ilmu dan statistika. Tidak semua

bidang ilmu memiliki keakuratan yang tinggi. Koefisien reliabilitas hasil

belajar matematika bisa mencapai 0,90, tetapi bidang ilmu lain tidak

demikian. Untuk pengukuran bidang ilmu yang belum memiliki kecermatan

tinggi, penentuan koefisien yang memadai bisa dengan memeriksa jurnal

ilmu yang bersangkutan. Jika pada umumnya ditemukan koefisien reliabilitas

sebesar 0,4, koefisien yang memadai bisa 0,4.

Pada tes bahasa dengan respons tertulis esai, koefisien reliabilitas

instrumen dikatakan memadai apabila nilai koefisiensinya minimal 0,6,

terutama untuk tes bahasa yang bersifat uraian, nilai koefisien reliabilitasnya

cenderung tidak terlalu tinggi. Selanjutnya, dikemukakan Baker bahwa

koefisien reliabilitas interrater minimal sebesar 0,7. Aiken juga

mengemukakan bahwa koefisien reliabilitas interrater yang memadai sebesar

0,6 atau 0,7. Berdasarkan kriteria-kriteria tersebut, penelitian ini

menggunakan kriteria minimal 0,6 sebagai batas koefisien reliabilitas yang

memadai. Hal ini mengingat bahwa tes literasi yang dikembangkan bersifat

uraian.

Uji reliabilitas interrater juga dilakukan untuk menguji reliabilitas

pedoman penyekoran hasil pengamatan. Interrater dilakukan untuk menguji

reliabilitas hasil penyekoran beberapa korektor terhadap sejumlah


performansi/produk yang diamati. Pengujian reliabilitas interrater bisa

dilakukan dengan menghitung korelasi antarpenilai. Penghitungan dilakukan

dengan langkah: (1) pengaturan data hasil pengukuran, (2) menghitung r

antarrater, dan (3) menentukan reliabilitas antarrater berdasarkan indeks

korelasi. Reliabilitas interrater dilakukan pada data hasil observasi terhadap

butir-butir pada suatu instrumen (Macmillan, 2008: 42). Baker (1989: 61)

juga mengemukakan batas reliabilitas interrater minimal 0,7. Kriteria

minimal koefisien reliabilitas interrater yang digunakan dalam penelitian ini

adalah 0,7.

Analisis reliabilitas instrumen dilakukan terhadap butir-butir yang valid.

Dalam kasus skala yang butir-butirnya tidak dapat dibagi dua ataupun dibagi

tiga sama banyak, pengujian reliabilitasnya dilakukan melalui teknik analisis

varians. Salah satu teknik analisis varians yang sangat populer untuk

keperluan ini adalah teknik analisis varians dari kuder richadson 21 atau

teknik alpha cronbach. Menurut Aiken (2004), teknik alpha cronbach sesuai

untuk data campuran.

Uji reliabilitas juga dikenakan pada uji interrater. Untuk menjaga

reliabilitas butir soal esai, perlu analisis interrater (interscorer reliability).

Teknik analisis dilakukan dengan dua cara, yaitu mengorelasikan sejumlah

hasil penyekoran oleh dua penilai atau bisa dilakukan analisis beberapa

penilai merespons sebuah hasil.

Reliabilitas alat ukur adalah ketetapan atau keajekan alat tersebut dalam

mengukur apa yang diukurnya. Artinya, kapan pun alat ukur tersebut

digunakan akan memberikan hasil ukur yang sama. Contoh paling nyata

adalah timbangan atau meteran. Hal yang sama terjadi untuk alat ukur suatu

gejala, tingkah laku, ciri atau sifat individu, dan lain-lain. Misalnya, alat ukur

prestasi belajar, seperti tes hasil belajar, alat ukur sikap, kuesioner, dan

lain-lain, hendaknya meneliti sifat keajekan tersebut.

Tes hasil belajar dikatakan ajek apabila hasil pengukuran saat ini

menunjukkan kesamaan hasil pada saat yang berlainan waktunya terhadap

siswa yang sama. Misalnya, siswa kelas V pada hari ini di tes kemampuan

matematika. Minggu berikutnya, siswa tersebut di tes kembali. Hasil dari

kedua tes relatif sama. Walaupun demikian, masih mungkin terjadi ada

perbedaan hasil untuk hal-hal tertentu akibat faktor kebetulan, selang waktu,

dan terjadinya perubahan pandangan siswa terhadap soal yang sama. Jika ini

terjadi, kelemahan terletak dalam alat ukur itu yang tidak memiliki kepastian


jawaban atau meragukan siswa. Dengan kata lain, derajat reliabilitasnya

masih rendah.

B. PENGUKURAN RELIABILITAS

Indeks reliabilitas alat ukur dapat dicari dengan mengorelasikan skor-

skor yang diperoleh dari hasil pengukuran yang berulang-ulang pada waktu

yang berbeda atau dengan kelompok pertanyaan yang sepadan. Prosedur ini

dilakukan dengan cara memberikan tes dua kali kepada subjek yang sama

pada waktu yang berbeda. Cara kedua adalah membagi alat ukur (tes)

menjadi dua bagian yang sama atau yang setaraf untuk melihat keajekan tes

tersebut. Cara yang pertama dikenal dengan tes ulang (test retest) dan cara

kedua dikenal dengan pecahan sebanding/setara. Kedua cara tersebut

diuraikan berikut ini.

1. Reliabilitas Tes Ulang

Tes ulang (test-retest) adalah penggunaan alat ukur terhadap subjek yang

diukur dan dilakukan dua kali dalam waktu yang berlainan. Misalnya, tes

hasil belajar matematika untuk siswa SD kelas V diberikan hari ini, lalu

diperiksa hasilnya. Seminggu kemudian, tes tersebut diberikan lagi pada

siswa yang sama dan hasilnya diperiksa. Hasil pengukuran yang pertama

kemudian dikorelasikan dengan hasil pengukuran yang kedua untuk

mendapatkan koefisien korelasinya (r). Koefisien korelasi ini disebut

koefisien reliabilitas tes ulang yang hasilnya akan bergerak dari - 1,0 sampai

+ 1,0. Apabila koefisien reliabilitas mendekati angka 1,0, itu merupakan

indeks reliabilitas tinggi. Artinya, hasil pengukuran yang pertama relatif

sama dengan hasil pengukuran yang kedua. Dengan kata lain, alat ukur

tersebut memiliki tingkat keajekan atau ketetapan (reliabel). Untuk

pengukuran ilmu-ilmu sosial dan pendidikan, indeks reliabilitas 0,75 sudah

dianggap cukup, mengingat sifat dan ilmu sosial serta pendidikan berbeda

dengan ilmu-ilmu eksakta.

Jarak atau selang waktu antara pengukuran pertama dan pengukuran

kedua sebaiknya tidak terlalu dekat dan juga tidak terlalu jauh. Jika terlalu

dekat/pendek, hasil pengukuran banyak dipengaruhi oleh ingatan siswa

tentang jawaban yang diberikan pada pengukuran yang pertama, bukan

karena keajekan alat ukurnya. Sebaliknya, jika selang waktu pengukuran

pertama dengan pengukuran kedua terlalu lama, bisa terjadi adanya


perubahan pengetahuan dan pengalaman siswa sehingga memengaruhi

koefisien reliabilitasnya. Asumsi yang digunakan dalam tes ulang ialah

karakteristik yang diukur oleh alat ukur tersebut stabil sepanjang waktu

sehingga jika ada perubahan skor hasil kedua pengukuran lebih disebabkan

kesalahan alat ukur. Cara tes ulang (test-retest) banyak digunakan dalam

menetapkan atau menentukan tingkat reliabilitas alat ukur dalam penelitian

sosial dan pendidikan.

2. Reliabilitas Pecahan Setara

Reliabilitas bentuk pecahan setara tidak dilakukan pengulangan

pengukuran kepada subjek yang sama, tetapi digunakan hasil dari bentuk tes

yang sebanding atau setara yang diberikan kepada subjek yang sama pada

waktu yang sama pula. Dengan demikian, diperlukan dua perangkat alat ukur

yang disusun sedemikian rupa agar memiliki derajat kesamaan atau

kesetaraan, baik dari segi, isi, tingkat kesukaran alat ukur, abilitas yang

diukur, jumlah pertanyaan, bentuk pertanyaan, maupun segi-segi teknis

lainnya. Yang berbeda hanyalah pertanyaan. Apabila penyusun kesetaraan

alat ukur bisa dicapai seoptimal mungkin, koefisien reliabilitas dari prosedur

ini dianggap paling baik dibandingkan dengan prosedur tes ulang. Namun,

kesulitannya terletak dalam menyusun perangkat alat ukur yang benar-benar

mengandung derajat kesetaraan tinggi.

3. Reliabilitas Belah Dua

Reliabilitas belah dua mirip dengan reliabilitas pecahan setara, terutama

dari pelaksanaannya. Dalam prosedur ini, alat ukur diberikan kepada

kelompok subjek cukup satu kali atau satu saat. Butir-butir soal dibagi dua

bagian yang sebanding, biasanya dibedakan soal nomor genap dengan soal

nomor ganjil. Setiap bagian soal diperiksa hasilnya, kemudian skor dari

kedua bagian tersebut dikorelasikan untuk dicari koefisien korelasinya.

Mengingat korelasi tersebut hanya berlaku separuh dan tidak untuk seluruh

pertanyaan, koefisien korelasi yang didapatkannya tidak untuk seluruh soal,

tetapi hanya separuhnya. Oleh sebab itu, koefisien korelasi belah dua perlu

diubah dalam koefisien korelasi untuk seluruh soal dengan menggunakan

rumus ramalan Spearmen Brown.


1 12

2 21 1

12 2

xx

r

r

r

rxx = koefisien reliabilitas keseluruhan

1 1

2 2r = korelasi (r) dari belah dua

Contoh

Koefisien korelasi belah dua adalah 0,60.

(2)(0,60)

1 0,60

1,200,75

1,60

xxr

Dari contoh di atas, terjadi peningkatan koefisien korelasinya setelah

dilakukan pengubahan. Asumsi yang digunakan dalam prosedur belah dua

adalah kedua bagian alat ukur itu paralel sekalipun sering keliru atau tidak

benar. Akibat adanya pengubahan koefisien reliabilitas, prosedur belah dua

cenderung menunjukkan koefisien reliabilitas yang tinggi daripada prosedur

tes ulang dan pecahan setara. Oleh sebab itu, penggunaan belah dua harus

lebih berhati-hati. Prosedur ini digunakan apabila alat ukur mengandung atau

terdiri atas banyak item, item relatif berat/sukar (power test), serta materi

yang diuji cukup komprehensif sehingga memungkinkan penyusunan dua

soal untuk satu permasalahan yang sama agar memenuhi belah dua.

4. Kesamaan Rasional

Di samping cara-cara yang dijelaskan di atas, ada prosedur menghitung

reliabilitas, tanpa melakukan korelasi dari dua pengukuran atau pecahan

setara dan belah dua. Cara tersebut adalah kesamaan rasional. Prosedur ini

dilakukan dengan menghubungkan setiap butir dalam satu tes dengan butir-

butir lainnya dan dengan tes itu sendiri secara keseluruhan. Salah satu cara

yang sering digunakan adalah menggunakan rumus kuder-rechardson atau

KR 21 sebagai berikut.


2

2 1

x

xx

x

K X K Xr

K

rxx = reliabilitas tes secara keseluruhan

K = jumlah butir soal dalam tes

2 = variasi skor

X = mean skor

Misalnya, disusun tes sebanyak 80 soal. Setelah diberikan kepada

sejumlah siswa dalam kelas tertentu, lalu dicari nilai rata-rata dan simpangan

bakunya. Misalnya, diperoleh nilai rata-rata 60 dan simpangan bakunya 8.

Dengan rumus di atas, diperoleh berikut ini.

2

2

80 8 60 80 60

8 80 1

5120 1200

5076

3920

5076

0,77

xxr

Uraian ukuran reliabilitas yang telah dijelaskan di atas dapat

dipertimbangkan oleh peneliti. Cara mana yang paling tepat digunakan ber-

gantung pada peneliti. Pertimbangan tersebut antara lain adalah sifat variabel

yang diukur, jenis alat ukur, jumlah subjek yang diukur, serta hasil-hasil

pengukuran yang diharapkan sesuai dengan tujuan penelitian.

C. FAKTOR-FAKTOR YANG DAPAT MEMENGARUHI

RELIABILITAS

1. Panjang Tes

Semakin panjang suatu tes, semakin banyak jumlah butir materi

pembelajaran yang bisa diukur. Ini menunjukkan dua kemungkinan. Pertama,

tes semakin mendekati kebenaran. Kedua, dalam mengikuti tes, semakin

kecil siswa menebak. Dengan kedua alasan tersebut, semakin tinggi koefisien

reliabilitas.


2. Penyebaran Skor

Koefisien korelasi dipengaruhi oleh bentuk sebaran skor dalam

kelompok siswa yang diukur. Semakin tinggi sebaran, semakin tinggi

estimasi koefisien reliabilitas (Gronlund, 1990: 94).

3. Petunjuk Penyekoran atau Rubrik yang Kurang Perinci

(Multitafsir)

Penilaian tugas atau tes esai dengan pedoman penyekoran yang kurang

perinci atau multitafsir menyebabkan keajekan hasil terganggu. Semakin

bervariasi penafsiran korektor terhadap pedoman penyekoran, semakin

rendah keajekan hasil.

4. Kesulitan Tes

Tes normatif yang terlalu mudah atau terlalu sulit cenderung

menghasilkan skor reliabilitas rendah. Fenomena tersebut akan menghasilkan

sebaran skor yang cenderung terbatas pada salah satu sisi. Demikian juga jika

tes terlalu mudah, skor jawaban akan mengumpul pada sisi atas (misalnya 9

atau 10). Untuk tes yang terlalu sulit, skor jawaban cenderung mengumpul

pada ujung sebaliknya (rendah).

D. IMPLEMENTASI RELIABILITAS PADA PENILAIAN HASIL

BAHASA INDONESIA

Suatu penilaian dikatakan tepercaya (reliable) jika hasil yang diperoleh

pada ujian itu tetap atau stabil, kapan saja, di mana saja, serta siapa pun yang

mengujikan dan yang menilainya. Ketepercayaan meliputi bahan ujian dan

pemeriksanya. Dengan kata lain, tes dianggap reliabel jika memiliki keajekan

hasil pengukuran sewaktu dilaksanakan pada saat yang berbeda dengan

kondisi yang relatif sama. Berkaitan dengan reliabilitas tersebut, Gronlund

(1980) mengungkapkan bahwa reliabilitas tes mengacu pada suatu pengertian

apakah suatu tes dapat mengukur secara konsisten sesuatu yang akan diukur

dari waktu ke waktu.

Agar syarat-syarat alat-alat penilaian pembelajaran BI memiliki

ketepercayaan, perlu diperhatikan kriteria berikut.

1. Ketepercayaan terhadap Soal Tes

a. Sesuai dengan tujuan dan materi yang diujikan.


b. Bertambah banyak segi yang diujikan, bertambah pula nilai

ketepercayaannya.

c. Hasil penilaian yang stabil menunjukkan nilai ketepercayaan yang

tinggi.

d. Bentuk soal objektif lebih tepercaya sebab (a) segi yang diujikan

mencakup tujuan dan bahan yang cukup luas dan (b) ukuran

jawaban yang benar dan sudah pasti/tetap tidak akan terjadi jawaban

yang meragukan penilai.

e. Motivasi pengikut ujian memengaruhi nilai ketepercayaan suatu

ujian.

2. Ketepercayaan Hasil

Soal bentuk objektif mendekati kesempurnaan dalam ketepercayaan

sebab penilai hanya mencocokkan dengan kunci jawaban yang tepat, tidak

memerlukan pertimbangan. Ada sejumlah cara yang dapat digunakan untuk

mengkaji kemungkinan ajek tidaknya suatu tes. Cara dimaksud meliputi

a) test-retest, b) menggunakan bentuk soal yang berbeda, c) cara paruh/belah

dua, dan d) persamaan rasional.

Di antara sejumlah cara tersebut, tidak ada yang dianggap paling baik.

Pendapat yang diajukan ternyata berbeda-beda. Ada yang berpendapat bahwa

cara terbaik untuk melihat ajek tidaknya suatu tes adalah melaksanakan re-

test, lalu antara hasil tes awal dan re-test itu dikaji tingkat korelasinya. Cara

seperti itu juga mengundang sejumlah kelemahan, antara lain (1) kondisi dan

situasi pelaksanaan tes dalam waktu yang berbeda sulit dikontrol, (2) terdapat

banyak variabel yang memengaruhi ketepercayaan hasilnya, dan (3) peserta

tes harus mengambil tes dua kali dalam waktu yang relatif singkat (Gronlund,

1980, dalam Harsiati, 2003: 26).

Untuk mengukur reliabilitas ini, dapat diperkirakan dengan cara

mengorelasikan skor-skor yang diperoleh seseorang pada waktu yang

berbeda dengan kelompok-kelompok pertanyaan yang sepadan. Prosedur ini

memerlukan pelaksanaan tes dua kali. Prosedur lainnya dilakukan dengan

jalan secara artifisial membagi dua bagian yang sama dengan jalan

menetapkan keajekan internal tes tersebut.

Berdasarkan tujuan dan bentuk tes yang digunakan, dapat ditentukan

metode penentuan reliabilitas yang dipandang cocok untuk menentukan ajek

tidaknya sebuah tes. Metode tes ulang dipandang tidak tepat untuk

menentukan reliabilitas kemampuan menulis sebab hampir dapat dipastikan


bahwa pengaruh ingatan dalam tes menulis sangat kuat. Metode persamaan

rasional dapat digunakan untuk menentukan reliabilitas keterampilan menulis

sebab pengaruh ingatan dalam tes menulis dapat ditekan dan kemampuan

menulis dapat dipandang sebagai kemampuan yang relatif konstan. Metode

cara paruh/belah dua jelas tidak dapat dipakai untuk menentukan reliabilitas

keterampilan menulis sebab sulit sekali untuk dapat membagi tes menulis

menjadi dua bagian yang setara. Metode menggunakan bentuk soal yang

berbeda memang dapat digunakan untuk menentukan reliabilitas tes menulis,

tetapi ada suatu masalah yang tidak mudah untuk diatasi, yakni menyusun

dua perangkat tes menulis yang betul-betul setara (khususnya penentuan

topik). Untuk itu, penentuan reliabilitas tes menulis dapat dilakukan dengan

cara penyekoran ulang oleh penyekor yang sama. Berdasarkan hasil

perbandingan skor dari kedua penyekoran ini (baik oleh dua orang penyekor

maupun penyekoran ulang), akan dapat diketahui tingkat reliabilitas tes

menulis.

3. Reliabilitas Antarkorektor (Interrater)

Reliabilitas antarkorektor merupakan hal penting dalam penilaian hasil

belajar keterampilan berbahasa Indonesia. Keandalan (reliabilitas) alat

penilaian menunjuk pada pengertian kemampuan alat itu untuk mengukur

secara ajek dan tidak berubah-ubah. Ibarat sebuah timbangan, ia dapat

mengukur berat suatu benda secara bebas siapa pun yang

mempergunakannya. Tes dianggap reliabel jika memiliki keajekan hasil

pengukuran sewaktu dilaksanakan pada saat yang berbeda dengan kondisi

yang relatif sama.

Dalam penilaian keterampilan berbahasa, pengukuran reliabilitas ini

dapat diperkirakan dengan cara mengorelasikan skor-skor yang diperoleh

seseorang pada waktu-waktu yang berbeda/dengan korektor yang berbeda-

beda. Prosedur ini dilakukan dengan mengorelasikan hasil penyekoran

korektor pertama dan korektor. Upaya untuk menjaga reliabilitas

antarkorektor, pada penilaian berbahasa dapat dilakukan dengan cara

membuat rubrik yang jelas dan perinci. Rubrik yang jelas dan perinci akan

memandu korektor menghasilkan skor yang sama sehingga diharapkan dapat

menghasilkan penilaian yang sama.

Prosedur yang perlu ditempuh untuk menghasilkan pedoman penyekoran

yang reliabel diuraikan melalui langkah-langkah dalam menyusun rubrik

untuk menjaga reliabilitas antarkorektor.


a. Langkah pertama: mencermati karakteristik kompetensi dasar dan

indikator. Langkah awal menyusun rubrik adalah mencermati konstruk

(bangunan pengertian) suatu kompetensi dasar. Karakteristik suatu

kompetensi akan menentukan jabaran indikator. Indikator bisa

dijabarkan lagi menjadi deskriptor agar mudah diamati.

b. Langkah kedua: menentukan deskriptor yang lebih teramati dari

kompetensi.

c. Langkah ketiga adalah menyusun perilaku yang teramati (deskriptor)

dari suatu kompetensi. Bisa juga menyusun deskriptor dengan

mencermati kriteria pada indikator. Kriteria pada indikator dikonkretkan

menjadi deskriptor pada rubrik.

d. Langkah keempat: menentukan skor maksimal untuk semua munculnya

deskriptor.

e. Setelah semua indikator pencapaian dijabarkan menjadi deskriptor,

ditentukan skor maksimal tiap-tiap indikator. Penentuan skor maksimal

ditentukan oleh tingkat kepentingan suatu indikator.

f. Langkah kelima: membuat gradasi (skor atau skala) pada tiap deskriptor.

Setelah ditentukan skor maksimal untuk tiap deskriptor, perlu dijabarkan

gradasi skor dari tiap-tiap indikator.

g. Langkah keenam: menata aspek, deskriptor, skor maksimal, dan gradasi

skor pada sebuah tabel yang mudah dibaca dan digunakan.

Contoh implementasi konsep reliabilitas dalam penilaian hasil belajar

bahasa Indonesia sebagai berikut.

Kompetensi yang akan diukur: menulis iklan sesuai konteks.

Indikator: siswa mampu membuat iklan secara individual dari konteks yang

ditentukan.

Dalam menilai hasil karya siswa, digunakan dua pedoman berikut.

Manakah yang memiliki reliabilitas tinggi ditinjau dari reliabilitas antar

korektornya?


Rubrik Menulis Iklan

Berilah tanda cek sesuai dengan hasil pengamatanmu! No Subkompetensi Perincian Indikator Ya Tidak Bukti

1. Memilih isi iklan yang sesuai dengan tujuan iklan untuk melakukan persuasi

Iklan mengandung penjelasan barang/jasa yang diiklankan secara jelas, tetapi ringkas

Iklan berisi ajakan/alasan untuk menggunakan apa yang diiklankan (kelebihan barang/jasa)

2. Memilih isi dan bentuk iklan yang autentik dan kreatif

Isi iklan unik dan menarik sesuai dengan produk/barang diiklankan (tidak meniru yang telah ada)

Bentuk pujian, ajakan, dan cara meyakinkan kreatif

3. Memilih diksi dan struktur

Memilih penggunaan kata yang dapat menarik perhatian (perulangan bunyi, perulangan kata, berkaitan dengan nama/identitas barang/jasa yang diiklankan)

Dapat memilih struktur kalimat yang padat dan singkat

Memilih kata dan struktur kalimat yang sesuai dengan sasaran iklan

Satu jawaban ya dapat skor 5 dan jawaban tidak dapat skor 1.

Skor maksimal (5x7 = 35)

Contoh Rubrik 2 No Subkompetensi 1 2 3 4 5

1. Pilihan kata

2. Unsur iklan

3. Isi iklan


Dari contoh kedua rubrik atau pedoman penyekoran di atas, contoh satu

lebih memberi hasil yang sama jika dikoreksi orang yang berbeda. Rubrik

contoh pertama deskriptornya jelas dan penyekorannya jelas. Dengan

demikian, siapa saja yang memberi skor hasil penulisan iklan akan

menghasilkan skor relatif sama. Pada contoh rubrik contoh kedua, deskriptor

tidak jelas karena hanya mencantumkan aspeknya. Penyekorannya juga

kurang jelas. Misalnya, akan diberi skor 5 untuk pilihan kata jika hasil siswa

seperti apa dan dapat skor 4, 3, 2, atau 1 jika memiliki ciri seperti apa. Semua

gradasi tersebut kurang jelas kriterianya. Dengan demikian, tiap korektor

akan mempunyai persepsi sendiri-sendiri. Hal ini berpotensi pada hasil

penilaian yang memiliki reliabilitas rendah. Reliabilitas yang rendah pada

antarkorektor juga dapat dilakukan dengan cara memberikan batas toleransi

perbedaan antarkorektor. Jika hasil melebihi batas maksimal perbedaan, hasil

harus dikoreksi ulang.

1) Prosedur apa saja yang harus ditempuh untuk menguji reliabilitas tes

yang tinggi?

2) Apa yang harus ditempuh agar suatu penilaian hasil belajar memiliki

reliabilitas korektor yang tinggi?

3) Sebutkan langkah menyusun pedoman penyekoran agar hasil

antarkorektor relatif sama dalam penilaian hasil tes produk atau unjuk

kerja!




1) Prosedur yang harus ditempuh untuk menguji reliabilitas mencakup cara-

cara berikut.

LATIHAN




a. Ulang uji (test retest)

Soal diberikan kepada pengikut ujian yang sama untuk kedua

kalinya selang beberapa lama. Jika hasil ujian I dengan ujian II sama

atau hampir sama, itu berarti butir soal itu tepercaya.

b. Menggunakan bentuk soal yang berbeda

Bentuk soal berbeda, tetapi panjang soal, jumlah soal, bahan yang

diujikan, taraf kesukaran, lama waktu, dan format/perwajahan soal

relatif sama. Soal yang dijawab tepat oleh siswa pada dua kali

pelaksanaan ujian itulah soal yang dianggap memiliki

ketepercayaan.

c. Cara paruh (split half)

Digunakan soal yang sejajar dan senilai. Pengikut dibagi dua

kelompok secara acak (random). Hasil dari kedua kelompok itu

dibandingkan untuk mengetahui ketepercayaan soal.

d. Persamaan rasional (rational equivalence)

Pemusatan perhatian pada hubungan antarsoal (inter-item

consistency) yang ditentukan dengan jumlah pengikut ujian yang

menjawab benar dan yang menjawab salah.

2) Agar hasil korektor konsisten untuk tes esai, produk, dan kinerja,

diperlukan rubrik yang perinci. Dengan rubrik yang perinci, dapat

dicapai reliabilitas antarkorektor. Dengan rubrik yang jelas dan perinci,

reliabilitas antarkorektor tinggi.

3) Langkah menyusun rubrik untuk menjaga reliabilitas antarkorektor

a. Langkah pertama: mencermati karakteristik kompetensi dasar dan

indikator. Langkah awal menyusun rubrik adalah mencermati

konstruk (bangunan pengertian) suatu kompetensi dasar.

Karakteristik suatu kompetensi akan menentukan jabaran indikator.

Indikator bisa dijabarkan lagi menjadi deskriptor agar mudah

diamati.

b. Langkah kedua: menentukan deskriptor yang lebih teramati dari

kompetensi.

c. Langkah ketiga adalah menyusun perilaku yang teramati

(deskriptor) dari suatu kompetensi. Bisa juga menyusun deskriptor

dengan mencermati kriteria pada indikator. Kriteria pada indikator

dikonkretkan menjadi deskriptor pada rubrik.

d. Langkah keempat: menentukan skor maksimal untuk semua

munculnya deskriptor. Setelah semua indikator pencapaian


dijabarkan menjadi deskriptor, ditentukan skor maksimal tiap-tiap

indikator. Penentuan skor maksimal ditentukan oleh tingkat

kepentingan suatu indikator.

e. Langkah kelima: membuat gradasi (skor atau skala) pada tiap

deskriptor. Setelah ditentukan skor maksimal untuk tiap deskriptor,

perlu dijabarkan gradasi skor dari tiap-tiap indikator.

f. Langkah keenam: menata aspek, deskriptor, skor maksimal, dan

gradasi skor pada sebuah tabel yang mudah dibaca dan digunakan.




Sifat reliabel (andal) dari sebuah alat ukur berkenaan dengan

kemampuan alat ukur tersebut memberikan hasil yang konsisten. Istilah

reliabilitas sering disamakan dengan consistency, stability, atau

dependability. Pada prinsipnya, reliabilitas menunjukkan sejauh mana

pengukuran itu dapat memberikan hasil yang relatif tidak berbeda

apabila dilakukan pengukuran kembali terhadap subjek yang sama.

Sebagaimana digunakan dalam psikometri, istilah reliabilitas selalu berarti konsistensi. Menguji reliabilitas berarti menguji konsistensi skor

yang diperoleh dari pengukuran yang berulang-ulang menggunakan tes

dan responden yang sama.

Hal yang memengaruhi reliabilitas adalah panjang tes, penyebaran

skor, rubrik, dan kesulitan tes. Semakin panjang suatu tes, semakin

banyak jumlah butir materi pembelajaran yang bisa diukur. Ini

menunjukkan dua kemungkinan. Pertama, tes semakin mendekati

kebenaran. Kedua, dalam mengikuti tes, semakin kecil siswa menebak.

Dengan kedua alasan tersebut, semakin tinggi koefisien reliabilitas.

Semakin tinggi sebaran, semakin tinggi estimasi koefisien reliabilitas.

Penilaian tugas atau tes esai dengan pedoman penyekoran yang kurang perinci atau multitafsir menyebabkan keajekan hasil terganggu. Semakin

bervariasi penafsiran korektor terhadap pedoman penyekoran, semakin

rendah keajekan hasil. Tes normatif yang terlalu mudah atau terlalu sulit

cenderung menghasilkan skor reliabilitas rendah.

Prosedur yang harus ditempuh untuk menguji reliabilitas mencakup

(ulang uji (test-retest), bentuk soal setara, persamaan rasional, dan cara

RANGKUMAN


paruh. Dengan ulang uji, soal diberikan kepada pengikut ujian yang

sama untuk kedua kalinya selang beberapa lama. Jika hasil ujian I

dengan ujian II sama atau hampir sama, itu berarti butir soal itu

tepercaya. Pada teknik soal setara, digunakan bentuk soal yang

berbeda/paralel. Bentuk soal berbeda, tetapi panjang soal, jumlah soal, bahan yang diujikan, taraf kesukaran, lama waktu, dan

format/perwajahan soal relatif sama. Soal yang dijawab tepat oleh siswa

pada dua kali pelaksanaan ujian itulah soal yang dianggap memiliki

ketepercayaan. Dengan cara paruh (split half), digunakan soal yang

sejajar dan senilai. Pengikut dibagi dua kelompok secara acak (random).

Hasil dari kedua kelompok itu dibandingkan untuk mengetahui

ketepercayaan soal. Dengan cara persamaan rasional (rational

equivalence), pemusatan perhatian pada hubungan antarsoal (inter-item

consistency) ditentukan dengan jumlah pengikut ujian yang menjawab

benar dan yang menjawab salah. Agar hasil korektor konsisten untuk tes

esai, produk, dan kinerja, diperlukan rubrik yang perinci. Dengan rubrik

yang perinci, dapat dicapai reliabilitas antarkorektor. Dengan rubrik yang jelas dan perinci, reliabilitas antarkorektor tinggi.

1) Kriteria suatu tes harus merupakan ukuran yang ajek bagi atribut dari

waktu ke waktu dan dari satu situasi ke situasi yang lain. Hal ini berarti tes tersebut bersifat ....

A. reliabel

B. relevansi

C. bebas

D. bias

2) Yang harus dilakukan jika menemukan hasil reliabilitas yang rendah

adalah ....

A. menambah tingkat kesulitan soal

B. menambah jumlah butir soal

C. mengurangi jumlah soal

D. mengurangi tingkat kesulitan soal

3) Tes objektif digunakan dengan alasan utama ....

A. reliabilitas tinggi

B. validitas tinggi

TES FORMATIF 2



C. tingkat kesulitan tinggi

D. daya beda tinggi

4) Berikut ini pernyataan yang benar tentang konsep reliabilitas, yaitu ....

A. sejauh mana pengukuran itu dapat memberikan hasil yang relatif berbeda apabila dilakukan pengukuran kembali terhadap subjek

yang sama

B. sejauh mana pengukuran itu dapat memberikan hasil yang relatif

sama apabila dilakukan satu kali pengukuran terhadap subjek yang

sama

C. sejauh mana pengukuran itu dapat memberikan hasil yang relatif

sama apabila dilakukan beberapa kali pengukuran lagi terhadap

subjek yang sama

D. sejauh mana pengukuran itu dapat memberikan hasil yang relatif

sama apabila dilakukan pengukuran terhadap subjek yang berbeda

5) Cara yang dapat digunakan untuk menguji reliabilitas antarkorektor adalah ....

A. mengorelasikan skor yang dihasilkan beberapa korektor dari

sejumlah pengamatan performansi/karya siswa yang sama

B. mengorelasikan skor dari beberapa siswa yang performansinya/

karyanya dikoreksi seorang korektor

C. mengorelasikan skor pengamatan sejumlah siswa dari dua kali

waktu pengukuran

D. mengorelasikan skor pengamatan sejumlah siswa dari dua kali

waktu pengukuran

6) Soal diberikan kepada pengikut ujian yang sama untuk kedua kalinya selang beberapa lama. Jika hasil ujian I dengan ujian II sama atau hampir

sama, itu berarti butir soal itu tepercaya. Teknik yang digunakan untuk

menguji reliabilitas pada contoh tersebut adalah ....

A. uji soal setara

B. ulang uji (test-retest)

C. cara paruh (split half)

D. uji interrater

7) Pak Dwi menguji reliabilitas dengan menggunakan bentuk soal berbeda,

tetapi panjang soal, jumlah soal, bahan yang diujikan, taraf kesukaran,

lama waktu, dan format/perwajahan soal relatif sama. Soal yang dijawab

tepat oleh siswa pada dua kali pelaksanaan ujian itulah soal yang dianggap memiliki ketepercayaan. Teknik yang digunakan untuk

menguji reliabilitas pada contoh tersebut adalah ....


A. uji soal setara

B. ulang uji (test-retest)

C. cara paruh (split half)

D. uji interrater

8) Agar hasil koreksi menunjukkan reliabilitas interrater yang tinggi, perlu

ditempuh cara ....

A. menguji reliabilitas dengan jumlah siswa yang sama dan penilai

yang sama

B. menggunakan pengujian reliabilitas yang diperoleh dari nilai yang

konsisten

C. menggunakan rubrik dengan deskriptor yang jelas dan teramati

D. menguji berulang-ulang dengan menggunakan tes dan responden

yang sama

9) Agar butir soal yang memiliki reliabilitas tinggi juga memiliki validitas

yang tinggi, perancang tes perlu melakukan analisis reliabilitas .... A. dengan teknik butir soal setara

B. terhadap butir-butir yang sudah valid saja

C. dengan prosedur tes ulang

D. sebelum analisis validitas

10) Penilaian tugas atau tes esai dengan pedoman penyekoran yang

multitafsir menyebabkan keajekan hasil terganggu. Hal ini disebabkan

oleh ....

A. semakin bervariasi penafsiran korektor terhadap pedoman

penyekoran, semakin rendah keajekan hasil dari beberapa korektor

B. penilaian tugas atau tes esai dengan pedoman penyekoran sangat rumit dilakukan

C. semakin multitafsir, para penilai lebih fleksibel memberikan skor

terhadap hasil karya siswa

D. penafsiran korektor terhadap pedoman penyekoran menjadi sulit

sehingga mengganggu pelaksanaan


terdapat di bagian akhir modul ini. Hitunglah jawaban yang benar.

Kemudian, gunakan rumus berikut untuk mengetahui tingkat penguasaan




80 - 89% = baik

70 - 79% = cukup

< 70% = kurang


meneruskan dengan Kegiatan Belajar 3. Bagus! Jika masih di bawah 80%,


belum dikuasai.


100%Jumlah Soal


Kegiatan Belajar 3

Kepraktisan dan Analisis Butir Soal

A. KEPRAKTISAN ALAT PENILAIAN

Pernahkah Anda mengetahui maksud kepraktisan? Maksud kepraktisan

adalah soal dapat digunakan sesuai dengan kondisi dan situasi yang ada.

Brown (2004: 5) mengungkapkan bahwa alat penilaian dianggap praktis jika

dapat dilakukan guru dengan kondisi yang ada. Selanjutnya, dijelaskan

bahwa kepraktisan merujuk pada kemudahan dilaksanakan dan berisi

perintah yang jelas. Suharsimi Arikunto (1993: 61) menegaskan bahwa

sebuah tes dikatakan memiliki nilai tingkat kepraktisan yang tinggi apabila

tes tersebut bersifat praktis dan mudah pengadministrasiannya.

Tes yang praktis menurutnya adalah tes yang memenuhi syarat berikut

ini.

1. Mudah dilaksanakan, misalnya tidak menuntut peralatan yang banyak

dan memberi kebebasan kepada siswa untuk mengerjakan terlebih

dahulu bagian yang dianggap mudah oleh siswa.

2. Mudah pemeriksaannya artinya tes itu dilengkapi dengan kunci jawaban

ataupun pedoman penilaiannya. Untuk soal bentuk objektif, pemeriksaan

akan lebih mudah dilakukan jika dikerjakan oleh siswa dalam lembar

jawaban.

3. Dilengkapi dengan petunjuk-petunjuk yang jelas sehingga dapat

diberikan/diwakili oleh orang lain.

Kemudahan cara melakukan bukan berarti harus mengorbankan validitas

alat penilaian. Karakteristik kompetensi dalam mata pelajaran bahasa

Indonesia terdiri atas beberapa keterampilan yang tidak mudah dilaksanakan.

Misalnya, penilaian keterampilan berbicara dan keterampilan menulis

memerlukan waktu yang banyak. Untuk itu, perlu dicari strategi-strategi

praktis untuk menilai keterampilan berbicara dan menulis, tanpa

mengorbankan validitas konstruk sebuah alat penilaian.


Amati contoh berikut.

Bu Zahra menilai keterampilan berpidato dengan cara membagi siswa

menjadi tujuh kelompok. Tiap kelompok membentuk lingkaran dan secara

bergantian tiap anggota kelompok berpidato sesuai dengan tema yang

ditentukan. Selama anggota kelompok berpidato, anggota kelompok yang

lain menilai dengan rubrik yang ditentukan. Guru bergiliran mendatangi

kelompok-kelompok sambil memberikan penilaian siswa yang sedang

berpidato. Strategi tersebut ditempuh karena Bu Zahra hanya memiliki waktu

dua jam pelajaran untuk menilai kemampuan berpidato siswa. Sambil

berkeliling, Bu Zahra memberikan skor siswa dalam berpidato. Hasil

penilaian anggota kelompok digunakan sebagai bahan pertimbangan.

Pak Dani menilai keterampilan berpidato dengan cara memberikan tes

tertulis. Setelah pembelajaran, Pak Dani memberikan tes tertulis agar siswa

menjawab pertanyaan tentang (1) menyebutkan ciri-ciri pidato, (2)

menjelaskan langkah-langkah berpidato, dan (3) menyusun naskah pidato

dengan tema HUT RI.

Dari contoh di atas, manakah yang menurutmu lebih praktis? Dilihat dari

kepraktisannya, cara Pak Dani lebih praktis karena mudah dilakukan. Akan

tetapi, cara yang dilakukan Pak Dani tidak sesuai dengan konstruk berpidato.

Dengan kata lain, yang dilakukan Pak Dani merupakan penilaian dengan

validitas konstruk yang rendah. Jadi, praktis tidak boleh mengalahkan hal

yang esensial dalam penilaian, yaitu validitas konstruk.

B. UJI DAYA BEDA

Indeks daya beda atau indeks diskriminasi butir merupakan indikator

keseralasan atau konsistensi antara fungsi butir dan fungsi skala secara

keseluruhan yang dikenal dengan istilah konsistensi butir total. Pengujian

daya diskriminasi butir menghendaki dilakukan komputasi koefisien korelasi

antara butir total yang dikenal pula dengan sebutan parameter daya beda

butir. Apabila item tes diberi skor dikotomi, yaitu 0 atau 1, teknik korelasi

yang digunakan adalah teknik korelasi point biserial (rpb) (Saifuddin Azwar,

2004: 72). Sebagai kriteria pemilihan item berdasar korelasi item total,


biasanya digunakan batasan r xy ≥ 0,30. Semua item yang mencapai

koefisien korelasi minimal 0,30 daya bedanya dianggap memuaskan.

Kriteria dan kesimpulan dari daya beda suatu butir tes dikategorikan

sebagai berikut.

Tabel 3.1 Kriteria Daya Beda Butir Tes

No Besarnya DB Kategori

1. Kurang dari 0,19 Kurang baik

2. 0,20 – 0,39 Baik

3. 0,40 – 1,00 Sangat baik

4. Bertanda negatif Jelek

Aiken (2004) mengemukakan bahwa daya beda butir soal ialah indeks

yang menunjukkan tingkat kemampuan butir soal membedakan kelompok

yang berprestasi tinggi (kelompok atas) dari kelompok yang berprestasi

rendah (kelompok bawah) di antara para peserta tes. Karena daya beda

dihitung dari hasil tes kelompok peserta ujian tertentu, dalam penafsirannya

daya beda pun haruslah selalu dikaitkan dengan kelompok peserta tes

(kelompok sampel) tertentu itu. Daya beda suatu butir soal yang didasarkan

pada hasil tes suatu kelompok belum tentu akan berlaku pada kelompok yang

lain, apalagi apabila tingkat kemampuan masing-masing kelompok peserta

tes itu berbeda. Misalnya, suatu butir soal yang diujikan kepada mahasiswa

jurusan sosiologi akan sangat berbeda hasil dan interpretasinya apabila butir

soal tersebut diujikan kepada mahasiswa jurusan matematika. Daya beda

butir soal biasa disimbolkan dengan D (huruf kapital).

Langkah-langkah untuk mengalkulasi daya beda sebagai berikut.

1. Susunlah urutan peserta tes berdasarkan skor yang diperolehnya, mulai

dari skor tertinggi sampai skor terendah.

2. Bagilah peserta tes tersebut menjadi dua kelompok yang sama

jumlahnya. Apabila jumlah peserta tes ganjil, peserta yang di tengah-

tengah tak usah dimasukkan salah satu kelompok. Kelompok pertama

dinamakan kelompok prestasi tinggi (kelompok atas) dan kelompok

kedua dinamakan kelompok prestasi rendah (kelompok bawah). Apabila

jumlah peserta cukup besar (lebih dari 50), diambil 27% dari kelompok

atas dan 27% dan kelompok bawah.


3. Hitunglah jumlah kelompok atas yang menjawab benar terhadap butir

soal yang akan dikalkulasi daya bedanya. Demikian pula untuk

kelompok bawah.

4. Kalkulasilah proporsi peserta yang menjawab benar terhadap butir soal

tersebut untuk masing-masing kelompok.

5. Kurangilah proporsi kelompok atas dari kelompok bawah dan diperoleh

indeks daya beda butir soal tersebut.

Apabila data pada tabel di atas diterapkan untuk menghitung daya beda

butir soal nomor 5, akan diperoleh daftar sebagai berikut.

Gani 10

Carik 9

Duliman 8

Buhari 7

Fatonah 7

Hamid 7

Adam 6

Joni 5

Elia 4

Inem 4

Apabila jumlah mahasiswa besar (lebih dari 50 orang), perlu dibuat

pembagian tiga kelompok: atas, tengah, dan bawah, untuk memudahkan

analisis.

Kelompok atas yang menjawab benar soal nomor 5 adalah lima orang,

sedangkan kelompok bawah hanya dua orang. Dengan demikian, proporsi

Kelompok atas

Kelompok bawah


kelompok atas yang menjawab benar adalah 1.0 dan kelompok bawah adalah

0.4. Jadi, daya beda butir soal nomor S adalah 1.0 – 0.4 = 0.6.

Dari kalkulasi di atas, kita dapat menyusun rumus daya beda sebagai

berikut.

0,5

a bB BD

T

Keterangan D = daya beda

Ba = jumlah kelompok atas yang menjawab benar

Bb = jumlah kelompok bawah yang menjawab benar

T = jumlah peserta tes (apabila jumlah peserta tes ganjil,

T = jumlah peserta tes kurang satu)

Indeks atau koefisien daya beda berkisar antara +1.0 sampai dengan

–1.0. Daya beda +1.0 berarti semua anggota kelompok atas menjawab benar

terhadap butir soal itu, sedangkan kelompok bawah seluruhnya menjawab

salah terhadap butir soal itu. Sebaliknya, daya beda –1.0 berarti semua

anggota kelompok atas menjawab salah butir soal itu, sedangkan kelompok

bawah seluruhnya menjawab benar terhadap butir soal itu.

C. TINGKAT KESULITAN BUTIR SOAL

Tingkat kesukaran butir adalah proporsi peserta tes menjawab benar

terhadap setiap butir tes. Tingkat kesukaran butir tes biasanya dilambangkan

dengan p. Semakin besar nilai p, semakin rendah tingkat kesukaran butir tes

tersebut. Rentangan tingkat kesukaran butir antara 0,0 sampai 1,0. Tingkat

kesukaran butir 0,0 berarti tidak seorang pun peserta tes yang dapat

menjawab butir tes tersebut secara benar. Sementara itu, tingkat kesukaran

butir 1,0 berarti semua peserta tes dapat menjawab butir tes dengan benar.

Adapun rumus untuk menghitung tingkat kesukaran butir tes sebagai berikut

(Aiken, 2002: 160).

BP

JS

Keterangan


P = tingkat kesukaran butir tes

B = banyaknya responden yang menjawab benar dan butir tes

JS = jumlah peserta (responden)

Untuk kriteria dan kesimpulan dari tingkat kesukaran butir suatu tes,

dikategorikan seperti tabel berikut.

Tabel 3.2

Kriteria Tingkat Kesukaran Butir

No Besarnya P Kategori

1. Kurang dari 0,30 Sukar

2. 0,30 – 0,70 Sedang (cukup)

3. Lebih dari 0,70 Mudah

Uji taraf sukar butir dilakukan terhadap instrumen yang berupa tes. Taraf

sukar butir adalah proporsi responden yang dapat atau tidak dapat menjawab

butir dengan betul. Taraf sukar butir sebagai salah satu paramater butir

dimaksudkan untuk menguji seberapa sukar butir untuk dijawab oleh

responden. Ada dua cara yang dapat digunakan untuk mengetahui taraf sukar

butir atas dasar jawaban responden, yaitu taraf sukar butir proporsi sederhana

seluruh kelompok responden dan taraf sukar butir proporsi sederhana

kelompok tinggi-rendah.

Pada analisis hasil uji coba empiris instrumen yang berupa tes diuji taraf

sukarnya dengan butir proporsi sederhana seluruh kelompok. Artinya, dalam

analisis, butir jenis ini tidak memisahkan antara kelompok skor tinggi dan

kelompok skor rendah. Pemilihan ini didasarkan pada alasan bahwa jumlah

responden uji coba tergolong sedikit, yakni 35 responden dan seluruh skor

merupakan satu kesatuan hasil pengukuran yang menggunakan satu

perangkat alat ukur. Rumus yang digunakan sebagai berikut.

1 1i

f xP

M

X = 1 = jawaban betul

M = banyaknya responden

f = frekuensi yang menjawab betul

Pi = proporsi jawaban betul


Kriteria

p ≥ 0,40 berarti cukup memuaskan (Dali S Naga, 2008: 14—23.)

Dari rumus itu, kita tahu bahwa tingkat kesukaran butir soal sangat

dipengaruhi oleh tingkat kemampuan anggota kelompok peserta tes. Apabila

satu butir soal diadministrasikan kepada dua kelompok peserta tes yang

berbeda tingkat kemampuannya, hasilnya dapat diperkirakan akan berbeda

pula. Dengan demikian, dapat dikatakan bahwa tingkat kesukaran butir soal

tidak sepenuhnya merupakan ukuran karakteristik butir soal saja, tetapi lebih

merupakan kemampuan rata-rata kelompok peserta tes. Karena itu, apabila

kita jumpai suatu butir tes yang mempunyai tingkat kesukaran 0,45,

interpretasinya ialah butir soal itu mempunyai tingkat kesukaran 0,45 untuk

kelompok peserta tes tersebut.

Tingkat kesukaran butir soal tidaklah menunjukkan bahwa butir soal

tertentu itu baik atau tidak baik. Tingkat kesukaran butir soal hanya

menunjukkan bahwa butir soal itu sukar atau mudah untuk kelompok peserta

tes tertentu. Butir soal hasil belajar yang terlalu sukar atau terlalu mudah

tidak banyak memberi informasi tentang butir soal atau peserta tes. Untuk tes

hasil belajar, tingkat kesukaran yang dianggap baik adalah apabila berkisar

0,50. Dengan kata lain, makin dekat tingkat kesukaran suatu butir soal tes

hasil belajar ke 0,50, makin baik butir soal tersebut bagi kelompok tertentu.

Sebaliknya, makin jauh tingkat kesukarannya dari 0,50, makin kurang

informasi yang kita peroleh tentang butir soal dan kelompok peserta tes.

Untuk dapat menghitung tingkat kesukaran butir soal, perlu dibuat tabel

skor hasil tes sebagai berikut.

Tabel 3.3 Skor Hasil Tes Membaca Pemahaman

( N=10)

Nama Murid Nomor butir soal

1 2 3 4 5 6 7 8 9 10 Jumlah

Adam 1 1 1 0 0 1 1 1 0 0 6

Buhari 1 1 0 0 1 1 0 1 1 1 7

Carik 1 1 1 1 1 1 1 1 1 0 9

Duliman 1 0 1 1 1 1 1 1 0 1 8

Elia 1 1 0 0 1 0 0 0 1 0 4

Fatonah 1 0 1 1 1 0 1 1 1 0 7

Gani 1 1 1 1 1 1 1 1 1 1 10

Hamid 1 1 1 0 1 1 0 1 1 0 7

Inem 1 1 0 0 0 0 1 0 1 0 4


Joni 1 1 1 0 0 0 1 1 0 0 5

Jumlah 10 8 7 4 7 6 7 8 7 3

P 1.0 0.8 0.7 0.4 0.7 0.6 0.7 0.8 0.7 0.3

Keterangan a. 1 = jawaban benar

b. 0 = jawaban salah

c. dalam contoh ini butir soal hanya 10 buah

Contoh di atas memperlihatkan bahwa tingkat kesukaran soal nomor 1

adalah 10 : 10 = 1.0, sedangkan butir soal nomor 10 tingkat kesukarannya

adalah 3 : 10 = 0,3. Jadi, soal nomor 1 sangat mudah bagi kelompok peserta

ini, sedangkan butir soal nomor 10 dapat dikategorikan sebagai soal yang

sukar untuk kelompok peserta tes tersebut. Jika jumlah mahasiswa besar (50

orang atau lebih), perlu dibuat pembagian tiga kelompok, yaitu kelompok

atas, tengah, dan bawah, untuk memudahkan analisis. Kelompok tengah tidak

diikutsertakan dalam analisis butir soal.

D. ANALISIS DISTRAKTOR

Berfungsi tidaknya pilihan pada tes objektif pilihan ganda perlu

diketahui. Untuk menentukan berfungsi tidaknya pengecoh, diadakan analisis

butir soal. Untuk keperluan analisis ini, lembar jawaban peserta ujian yang

termasuk kelompok atas dan kelompok bawah yang dijadikan sumber

informasi. Distribusi jawaban kedua kelompok ini untuk setiap butir

dimasukkan dalam satu tabel seperti contoh di bawah ini.

1. Butir Soal Nomor 1

Tabel 3.4 Contoh Distribusi Jawaban

Kelompok Pilihan

A B* C D

Atas 0 4 1 0

Bawah 1 2 1 1

Jumlah 1 6 2 1


Jawaban yang benar adalah B (diberi tanda bintang), kebanyakan peserta

(pada kedua kelompok ini) memilih B. Pengecoh A, C, dan D ada yang

memilih, terutama mereka yang masuk kelompok bawah. Dengan demikian,

dapat disimpulkan bahwa pengecoh berfungsi sebagai jawaban yang salah.

Jadi, butir soal nomor 1 semua pilihan sudah berfungsi.



Kelompok Pilihan

A B* C D

Atas 0 1 1 3

Bawah 0 1 2 2

Jumlah 0 2 3 5



Kelompok Pilihan

A B* C D

Atas 0 1 1 3

Bawah 0 1 2 2

Jumlah 0 2 3 5

1) Prosedur apa saja yang harus ditempuh untuk melakukan analisis tingkat

kesulitan?

2) Prosedur apa yang harus ditempuh untuk melakukan analisis daya beda?

3) Sebutkan ciri-ciri tes yang memenuhi prinsip kepraktisan!


LATIHAN






1) Prosedur yang harus ditempuh untuk menghitung tingkat kesulitan butir

soal dilakukan berikut.

a. Susunlah urutan peserta tes berdasarkan skor yang diperolehnya,

mulai dari skor tertinggi sampai skor terendah.

b. Bagilah peserta tes tersebut menjadi dua kelompok yang sama

jumlahnya. Apabila jumlah peserta tes ganjil, peserta yang di

tengah-tengah tak usah dimasukkan dalam salah satu kelompok.

Kelompok pertama dinamakan kelompok prestasi tinggi (kelompok

atas) dan kelompok kedua dinamakan kelompok prestasi rendah

(kelompok bawah). Apabila jumlah peserta cukup besar (lebih dari

50), diambil 27% dari kelompok atas dan 27% dan kelompok

bawah.

c. Hitunglah jumlah kelompok atas yang menjawab benar terhadap

butir soal yang akan dihitung tingkat kesulitannya. Demikian pula

untuk kelompok bawah.

d. Hitunglah proporsi peserta yang menjawab benar terhadap butir soal


e. Hitung dengan rumus tingkat kesulitan (P).

2) Prosedur yang harus ditempuh untuk menghitung daya beda dilakukan

berikut.

a. Susunlah urutan peserta tes berdasarkan skor yang diperolehnya,

mulai dari skor tertinggi sampai skor terendah.

b. Bagilah peserta tes tersebut menjadi dua kelompok yang sama

jumlahnya. Apabila jumlah peserta tes ganjil, peserta yang di

tengah-tengah tak usah dimasukkan dalam salah satu kelompok.

Kelompok pertama dinamakan kelompok prestasi tinggi (kelompok

atas) dan kelompok kedua dinamakan kelompok prestasi rendah

(kelompok bawah). Apabila jumlah peserta cukup besar (lebih dari

50), diambil 27% dari kelompok atas dan 27% dan kelompok

bawah.

c. Hitunglah jumlah kelompok atas yang menjawab benar terhadap

butir soal yang akan dihitung daya bedanya. Demikian pula untuk

kelompok bawah.

d. Hitunglah proporsi peserta yang menjawab benar terhadap butir soal



e. Kurangilah proporsi kelompok atas dari kelompok bawah dan

diperoleh indeks daya beda butir soal tersebut.

3) Tes yang praktis adalah tes yang memenuhi syarat berikut.

a. Mudah dilaksanakan, misalnya tidak menuntut peralatan yang

banyak dan memberikan kebebasan kepada siswa untuk

mengerjakan terlebih dahulu bagian yang dianggap mudah oleh

siswa.

b. Mudah pemeriksaannya. Itu artinya tes itu dilengkapi dengan kunci

jawaban ataupun pedoman penilaiannya. Untuk soal bentuk objektif,

pemeriksaan akan lebih mudah dilakukan jika dikerjakan oleh siswa

dalam lembar jawaban.

c. Dilengkapi dengan petunjuk-petunjuk yang jelas sehingga dapat

diberikan/diwakili oleh orang lain.




Kepraktisan (practicability) suatu instrumen dilihat sejauh mana

soal/instrumen dapat digunakan sesuai dengan kondisi dan situasi ukur

dalam yang ada. Sebuah tes dikatakan memiliki kepraktisan yang tinggi

apabila tes tersebut bersifat mudah dilaksanakan, tidak menggunakan

alat yang rumit, dan mudah pengadministrasiannya. Pada

pelaksanaannya, prinsip kepraktisan tidak boleh mengalahkan validitas

alat penilaian.

Taraf sukar butir sebagai salah satu parameter butir dimaksudkan

untuk menguji seberapa sukar butir untuk dijawab oleh responden. Ada dua cara yang dapat digunakan untuk mengetahui taraf sukar butir atas

dasar jawaban responden, yaitu taraf sukar butir proporsi sederhana

seluruh kelompok responden dan taraf sukar butir proporsi sederhana

kelompok tinggi rendah. Daya beda butir soal ialah indeks yang

menunjukkan tingkat kemampuan butir soal membedakan kelompok

yang berprestasi tinggi (kelompok atas) dari kelompok yang berprestasi

rendah (kelompok bawah) di antara para peserta tes. Karena daya beda

dihitung dari hasil tes kelompok peserta ujian tertentu, dalam

penafsirannya daya beda pun haruslah selalu dikaitkan dengan kelompok

RANGKUMAN


peserta tes (kelompok sampel) tertentu itu. Daya beda suatu butir soal

yang didasarkan pada hasil tes suatu kelompok belum tentu akan berlaku

pada kelompok yang lain, apalagi tingkat kemampuan masing-masing

kelompok peserta tes itu berbeda.

1) Sebuah hasil tes dianalisis proporsi jawaban benarnya dalam kelompok.

Hal ini terkait dengan konsep kesulitan ....

A. butir soal

B. pelaksanaan tes

C. pengolahan tes

D. pembuatan soal

2) Seorang guru menyusun sebuah tes yang mudah dilaksanakan, mudah

pemeriksaannya, dan dilengkapi dengan petunjuk-petunjuk yang jelas

sehingga dapat diberikan/diwakilkan ke orang lain. Guru tersebut

menyusun tes yang memiliki syarat …. A. valid

B. praktis

C. tepercaya

D. ekonomis

3) Hubungan antara kesulitan soal dengan reliabilitas diuraikan sebagai

berikut, yaitu ....

A. tes yang terlalu mudah atau terlalu sulit menyebabkan reliabilitas

rendah

B. tes yang terlalu sulit menyebabkan skor relatif rendah dan

reliabilitas rendah C. tes yang terlalu mudah menyebabkan skor terlalu tinggi dan

menyebabkan reliabilitas tinggi

D. tes yang terlalu mudah menyebabkan reliabilitas tinggi

4) Tes yang terlalu mudah atau terlalu sulit akan menghasilkan hasil tes

yang memiliki ....

a. validitas rendah

b. reliabilitas rendah

c. tingkat kesulitan rendah

d. tingkat kesulitan tinggi

TES FORMATIF 3



5) Berfungsi tidaknya pilihan pada tes objektif pilihan ganda perlu

diketahui. Untuk menentukan berfungsi tidaknya pengecoh, diadakan

analisis butir soal. Amati hasil siswa berikut.

a) Butir soal nomor 2

Tabel Contoh Distribusi Jawaban

Kelompok Pilihan

A B* C D

Atas 0 1 1 1

Bawah 0 1 2 2

Jumlah 0 2 3 3

Karakteristik pengecoh menurut pendapat Anda adalah ....

A. pengecoh sudah berfungsi karena kebanyakan peserta (pada kedua

kelompok ini) memilih B B. pengecoh sudah berfungsi karena semua option sudah ada yang

memilih

C. pengecoh belum berfungsi karena option A tidak ada yang memilih

D. pengecoh belum berfungsi karena option C dan D dipilih oleh

jumlah siswa yang sama

6) Amati hasil siswa berikut!

b) Butir soal nomor 2

Tabel Contoh Distribusi Jawaban

Kelompok Pilihan

A B* C D

Atas 1 1 1 3

Bawah 1 1 2 2

Jumlah 2 2 3 5

Karakteristik pengecoh pada data di atas adalah ....

A. Pengecoh sudah berfungsi karena kebanyakan peserta (pada kedua

kelompok ini) memilih B B. pengecoh sudah berfungsi karena semua option sudah ada yang

memilih

C. pengecoh belum berfungsi karena pengecoh D dipilih siswa

kelompok atas lebih banyak daripada kelompok rendah

D. pengecoh belum berfungsi karena pengecoh D paling banyak dipilih

siswa yang mengikuti tes pilihan ganda


7) Cara yang dapat digunakan untuk mengetahui taraf sukar butir atas dasar

jawaban responden adalah ....

A. taraf sukar butir proporsi sederhana untuk sebagian responden

B. taraf sukar butir proporsi sederhana kelompok tinggi rendah C. membedakan kelompok atas dan kelompok rendah

D. membedakan kelompok yang berprestasi tinggi

8) Daya beda dihitung dari hasil tes kelompok peserta ujian tertentu.

Implikasi dari penghitungan tersebut adalah ....

A. penafsiran daya beda pun haruslah selalu dikaitkan dengan orang

yang menjadi penilai kelompok peserta tes

B. penafsiran daya beda pun haruslah selalu dikaitkan dengan

kelompok peserta tes (kelompok sampel) tertentu

C. daya beda suatu butir soal yang didasarkan pada hasil tes suatu

kelompok akan berlaku pada kelompok yang lain

D. daya beda suatu butir akan dihitung berdasarkan kelompok atas dan kelompok bawah

9) Daya beda suatu butir soal yang didasarkan pada hasil tes suatu

kelompok belum tentu akan berlaku pada kelompok yang lain. Pendapat

Anda terhadap pernyataan di atas adalah ....

A. pernyataan tersebut benar karena daya beda suatu butir soal

didasarkan pada karakteristik suatu kelompok tertentu

B. pernyataan tersebut benar karena daya beda suatu butir soal

didasarkan pada kesulitan soal

C. pernyataan tersebut salah karena daya beda suatu butir soal relatif

sama untuk siswa pada kelas yang sama D. pernyataan tersebut salah karena daya beda suatu butir soal dapat

diberlakukan pada siswa lain yang berada di wilayah sama

10) Kepraktisan penggunaan suatu tes tidak boleh mengalahkan validitas

suatu alat. Alasan yang tepat dari pernyataan tersebut diuraikan berikut

adalah ....

A. soal yang valid menghasilkan skor yang ajek dan yang mudah

digunakan

B. tes yang mudah dilaksanakan belum tentu mengukur apa yang

seharusnya diukur

C. kemudahan mengadministrasikan suatu tes berkaitan langsung

dengan validitas isi D. karakteristik hasil belajar tertentu ada yang sangat sulit

diadministrasikan



terdapat di bagian akhir modul ini. Hitunglah jawaban yang benar. Kemudian, gunakan rumus berikut untuk mengetahui tingkat penguasaan



80 - 89% = baik

70 - 79% = cukup

< 70% = kurang


meneruskan dengan modul selanjutnya. Bagus! Jika masih di bawah 80%,


belum dikuasai.


100%Jumlah Soal


Kunci Jawaban Tes Formatif

Tes Formatif 1

1) A. Valid berkaitan dengan ketepatan alat ukur dan option yang lain

berkaitan dengan kepraktisan.

2) A. Penjabaran indikator dari suatu kompetensi berkaitan erat dengan

validitas konstruk.

3) C. Validitas ramalan berfokus pada penggunaan suatu tes untuk

meramalkan keberhasilan dalam bidang tertentu.

4) D. Mengolah hasil bukan bagian langkah untuk mendapatkan validitas

isi.

5) B. Untuk mendapatkan validitas tinggi, diperlukan kajian konstruk

suatu kompetensi dan menjabarkannya menjadi indikator-indikator.

6) B. Validitas konstruk dapat dibuktikan dengan analisis logis dan dapat

juga dilakukan kajian empiris dengan analisis faktor.

7) A. Validitas bandingan mengujicobakan soal dan mencari validitas

dibandingkan dengan kriteria.

8) B. Validitas bandingan perlu uji coba secara empiris.

9) A. Validitas isi berkaiatan dengan pembandingan soal dengan isi

kurikulum.

10) C. Validitas tes untuk mengukur keterampilan.

Tes Formatif 2

1) A. Keajekan alat ukur termasuk pada konsep reliabilitas, ketepatan

berkaitan dengan validitas.

2) B. Menambah jumlah butir merupakan upaya meningkatkan

reliabilitas.

3) A. Tes objektif memiliki reliabilitas yang tinggi karena penambahan

soal, option yang lain tidak tepat.

4) C. Hasil yang relatif sama dari beberapa kali pengukuran pada subjek

yang sama.

5) A. Mengorelasikan hasil koreksi beberapa korektor keajekan hasil.

6) B. Hasil relatif sama untuk beberapa kali pengukuran pada subjek yang

sama.

7) A. Paralel tes yang digunakan merupakan bukti bahwa pengujiannya

teknik paralel.


8) C. Menggunakan rubrik yang jelas merupakan upaya memenuhi

reliabilitas antarkorektor.

9) B. Analisis reliabilitas dilakukan terhadap butir-butir yang sudah valid

saja tidak menjamin validitas tinggi.

10) A. Semakin multitafsir, semakin tidak konsiten hasil beberapa korektor.

Tes Formatif 3

1) A. Kesulitan butir soal adalah proporsi jawaban benar kelompok.

Option yang lain hanya teknis tidak berkaitan dengan proporsi.

2) B. Prinsip praktis dalam evaluasi berkaitan dengan kemudahan

pelaksanaan dan pengadministrasian suatu tes.

3) A. Soal terlalu mudah atau terlalu sulit cenderung menghasilkan skor

reliabilitas rendah karena akan menghasilkan sebaran skor yang

cenderung terbatas pada salah satu sisi.

4) B. Reliabilitas rendah karena soal terlalu sulit atau terlalu mudah.

Fenomena tersebut akan menghasilkan sebaran skor yang cenderung

terbatas pada salah satu sisi.

5) C. Pengecoh belum berfungsi karena ada pengecoh yang pemilihnya 0

atau tidak ada yang memilih, yaitu pengecoh A.

6) C. Pengecoh belum berfungsi jika ada pengecoh yang dipilih kelompok

atas lebih banyak daripada kelompok rendah.

7) B. Taraf sukar butir ditentukan proporsi sederhana kelompok tinggi-

rendah, bukan kelompok tinggi ATAU rendah saja.

8) B. Penafsiran daya beda haruslah selalu dikaitkan dengan sampel yang

diuji coba dengan soal tersebut, BUKAN penilainya dan tidak

berlaku pada kelompok lain.

9) A. Benar karena daya beda ditentukan oleh karakteristik soal tertentu,

BUKAN wilayah atau tingkat kesulitan soal.

10) B. Tes yang mudah dilaksanakan belum tentu mengukur apa yang

diukur/belum tentu valid sehingga yang terpenting adalah kevalidan

suatu tes.


Glosarium

Daya beda soal : indeks yang menunjukkan tingkat kemampuan butir

soal membedakan kelompok yang berprestasi tinggi

(kelompok atas) dan kelompok yang berprestasi

rendah (kelompok bawah).

Kepraktisan : alat penilaian yang dapat dilakukan guru dengan

kondisi yang ada, kemudahan dilaksanakan, dan

berisi perintah yang jelas.

Reliabilitas : kemampuan alat ukur tersebut memberikan hasil

yang konsisten (sejauh mana pengukuran itu dapat

memberikan hasil yang relatif tidak berbeda apabila

dilakukan pengukuran kembali terhadap subjek yang

sama).

Taraf sukar butir : proporsi responden yang dapat atau tidak dapat

menjawab butir dengan betul (taraf sukar butir

sebagai salah satu parameter butir dimaksudkan

untuk menguji seberapa sukar butir untuk dijawab

oleh responden).

Validitas : sejauh mana ketepatan dan kecermatan suatu alat

ukur dalam melakukan fungsi ukurnya. Alat memiliki

validitas tinggi jika mengukur apa yang seharusnya.

Validitas

bandingan

: validitas tes yang diperoleh dengan membandingkan

hasil tes sejenis di masa lalu.

Validitas isi : validitas isi menunjukkan sejauh mana pertanyaan,

tugas atau butir tes mampu mewakili secara

keseluruhan dan proporsional perilaku sampel. Untuk

mengetahui validitas isi, penulis soal perlu menelaah

kesesuaian tes yang telah disusun sesuai dengan

kurikulum (standar isi).

Validitas

konstruk

: kesanggupan alat ukur mengukur bangunan

pengertian yang diukur (seberapa jauh butir-butir tes

mampu mengukur apa yang benar-benar hendak

diukur sesuai dengan bangunan konsep yang telah

ditetapkan). Toh, kesahihan bandingan tes menulis,

misalnya, dapat ditentukan dengan cara


membandingkan tes menulis dengan tes yang sejenis

masa lampau. Dari hasil perbandingan yang

dilakukan dengan menggunakan teknik statistik, akan

dapat diketahui tingkat kesahihannya.

Validitas

ramalan

: kemampuan tes untuk meramalkan apa yang akan

terjadi pada masa yang akan datang (mampu

meramalkan keberhasilan peserta tes di masa yang

akan datang).


Daftar Pustaka

Aiken, Lewis R. 2004. Psychological Testing and Assessment. Boston: Allyn

and Bacon Inc.

Alderson, Charles. 2000. Assessing Reading. London: Cambridge University

Press.

Athanasou, James. 2002. A Teacher’s Guide to Assessment. Sidney: Social

Science Press.

Azwar, Saifuddin. 2003. Penyusunan Skala Psikologi. Yogyakarta: Pustaka

Pelajar.

Baker, David. 1998. Language Testing. London: Edward Arnold Publishing.

Brown, H. Douglas. 2004. Language Assessment: Principles and Classroom

Practice. New York: Pearson Education, Inc.

Cronbach, J. Lee. 1984. Essentials of Psychological Testing. New York:

Harper and Row Publisher.

Djaali dan Pudji Muljono. 2008. Pengukuran dalam Pendidikan. Jakarta:

Grasindo.

Elidjen. 2005. Innovation and Creative Thinking Skills. Jakarta: Binus

University.

McDavid, James C. dan Laura R.L. Hawthorn. 2006. Program Evaluation

and Performance Measurement. New Delhi: Sage Publications India Pvt.

Ltd.

Harsiati, Titik. 2003. Pengembangan Penilaian Berbasis Kelas. Jakarta:

Direktorat SMP.

Marzano, Robert J. dan John S. Kendall. 2007. Taxonomy of Educational

Objectives. California: Corwin Press.

McMillan, H. James. 2008. Assessment Essential for Standards-Based

Education. California: Corwin Press.

kualitas alat penilaian - um

Documents