kualitas alat penilaian - um
TRANSCRIPT
Modul 3
Kualitas Alat Penilaian
Dr. Titik Harsiati, M.Pd.
ari Modul 1, Anda ketahui bahwa untuk mengambil keputusan dalam
proses evaluasi, diperlukan informasi yang akurat dari kegiatan
pengukuran. Seorang perancang evaluasi perlu memahami karakteristik alat
evaluasi yang baik. Jika alat evaluasi tidak baik, hal itu akan menyebabkan
proses dan hasil evaluasi tidak bermanfaat. Setelah memahami hakikat
evaluasi, fungsi, dan karakteristik evaluasi jenis alat evaluasi dalam
pembelajaran bahasa Indonesia, calon guru perlu mempelajari karakteristik
alat evaluasi yang baik.
Setelah mempelajari modul ini, secara umum Anda diharapkan dapat
merencanakan dan memahami syarat-syarat alat evaluasi yang baik. Secara
khusus, setelah mempelajari modul ini, diharapkan Anda mampu
menjelaskan:
1. konsep validitas;
2. implementasi konsep validitas pada penilaian hasil pembelajaran bahasa
Indonesia;
3. konsep reliabilitas;
4. implementasi konsep reliabilitas pada penilaian hasil pembelajaran
bahasa Indonesia;
5. konsep dan langkah-langkah pengujian daya beda dan tingkat kesulitan;
6. implementasi konsep kepraktisan pada penilaian hasil pembelajaran
bahasa Indonesia.
Modul ini penting dipelajari sebagai bekal untuk merencanakan
penyusunan alat evaluasi yang memiliki kualitas tinggi. Kualitas alat ukur
yang akan dibahas pada modul ini mencakup kualitas dari segi validitas
konstruknya, reliabilitasnya, daya beda dan tingkat kesulitannya, serta
kepraktisannya. Untuk mencapai tujuan yang ditetapkan, materi pada modul
D
PENDAHULUAN
3.2 Evaluasi Pembelajaran Bahasa Indonesia
ini mencakup (1) konsep validitas, (2) contoh implementasi konsep validitas
pada penilaian hasil pembelajaran bahasa Indonesia, (3) konsep reliabilitas,
(4) contoh implementasi konsep reliabilitas pada penilaian hasil pembelajaran
bahasa Indonesia, (5) konsep dan langkah-langkah pengujian daya beda dan
tingkat kesulitan, serta (6) kepraktisan dan contoh pelaksanaannya pada
penilaian mata pelajaran bahasa Indonesia.
Anda akan mempelajari modul ini dengan susunan berikut.
Kegiatan Belajar 1: menelaah konsep validitas dan analisis contoh
implementasi konsep validitas pada penilaian hasil
pembelajaran bahasa Indonesia.
Kegiatan Belajar 2: menelaah konsep reliabilitas dan analisis contoh
implementasi konsep reliabilitas pada penilaian hasil
pembelajaran bahasa Indonesia.
Kegiatan Belajar 3: menelaah konsep dan langkah-langkah pengujian daya
beda dan tingkat kesulitan serta analisis contoh
implementasi konsep kepraktisan pada penilaian hasil
pembelajaran bahasa Indonesia.
PBIN4302/MODUL 3 3.3
Kegiatan Belajar 1
Validitas pada Penilaian Hasil Pembelajaran Bahasa Indonesia
A. KONSEP VALIDITAS
Sebelum mengkaji validitas dan reliabilitas secara konseptual, cermatilah
kasus dalam kehidupan sehari-hari yang berkaitan dengan kedua konsep
tersebut.
Andi adalah seorang mahasiswa yang akan melakukan penimbangan
kandungan humus pada tanah di daerah tertentu. Prosedurnya seperti pada
gambar dia harus (1) menimbang panci pijar untuk mengetahui berat panci
pijar, (2) menimbang sekitar 100 gram tanah yang mengandung humus untuk
mengetahui berat tanah sebelum dibakar, (3) membakar tanah yang telah
ditimbang dengan panci pijar sampai memerah, dan (4) menimbang tanah
yang setelah dalam kondisi dingin.
Alat utama yang harus disediakan Andi adalah alat pengukur berat yang
sesuai. Mengapa Andi memilih alat ukur timbangan dan bukan meteran?
Tentunya karena yang akan diukur adalah berat. Lalu, mengapa yang dipilih
timbangan kue dan bukan timbangan duduk atau timbangan beras?
Penggunaan timbangan kue karena ketelitiannya lebih tinggi untuk mengukur
berat tanah yang hanya sekitar 100 gram.
Setelah Andi mendapatkan timbangan kue, sebelum dipakai,
diujicobakan untuk mengetahui apakah timbangan masih berfungsi dengan
baik. Uji coba Andi dilakukan dengan menimbang bandul besi seberat 200
gram menggunakan timbangan kue tersebut secara berulang-ulang. Karena
setelah ditimbang berulang-ulang hasilnya sama, diputuskan untuk
menggunakan timbangan tersebut.
Manakah kegiatan Andi yang berkaitan dengan konsep validitas atau
ketepatan alat ukur? Tentunya, kegiatan Andi memilih timbangan kue dengan
pertimbangan karena yang diukur adalah berat tanah dan beratnya hanya
sekitar 100 gram. Jika Andi memilih timbangan duduk untuk menimbang
berat tanah 100 gram, ketepatannya akan berkurang. Lalu, kegiatan Andi
untuk menguji fungsi timbangan dengan cara menimbang secara berulang-
3.4 Evaluasi Pembelajaran Bahasa Indonesia
ulang barang yang sama berkaitan dengan konsep keajekan hasil
(reliabilitas). Dengan alat ukur yang tepat dan dapat memberikan hasil yang
konsisten, kesimpulan yang akan diperoleh Andi adalah kesimpulan yang
tepat.
Dari kasus di atas, tentunya Anda sudah memiliki sedikit gambaran
tentang konsep validitas dan reliabilitas. Bayangkan, apa yang akan terjadi
seandainya timbangan yang digunakan adalah timbangan yang rusak
sehingga barang yang sama ditimbang pada waktu berbeda hasilnya juga
berbeda. Apa yang akan terjadi seandainya untuk mengetahui berat tanah
digunakan meteran atau timbangan duduk yang besar itu?
Untuk memperdalam pemahaman Anda tentang validitas, pelajarilah
uraian berikut dengan saksama.
PBIN4302/MODUL 3 3.5
B. APAKAH VALIDITAS ITU?
Konsep validitas berkaitan dengan sejauh mana ketepatan dan
kecermatan suatu alat ukur dalam melakukan fungsi ukurnya. Suatu alat
disebut memiliki validitas yang tinggi apabila alat tersebut dapat
menjalankan fungsi ukurnya. Artinya, alat tersebut dapat memberikan hasil
ukur yang sesuai dengan maksud dilakukannya pengukuran tersebut (Djaali,
2000: 49). Validitas adalah tingkat yang dapat menunjukkan pengamatan
secara terus-menerus atau mengukur apa saja yang diukur (Aiken, 2004).
Kesahihan tidak sekadar mengukur apa yang seharusnya diukur, melainkan
juga mengandung pengertian sejauh mana informasi yang diperoleh dari
pengukuran dapat diinterpretasikan sebagai tingkah laku atau karakteristik
yang diukur (Atanasou, 2007).
Jadi, validitas berkenaan dengan ketepatan alat ukur terhadap konsep
yang diukur sehingga betul-betul mengukur apa yang seharusnya diukur.
Sebagai contoh, Anda ingin mengukur kemampuan siswa dalam berbicara,
tetapi siswa mengerjakan tugas tentang tata bahasa atau kesusastraan. Alat itu
dianggap tidak memiliki validitas yang baik karena belum mengukur apa
yang seharusnya diukur. Validitas tidak berlaku universal sebab bergantung
pada situasi dan tujuan penelitian. Instrumen yang telah valid untuk suatu
tujuan tertentu belum otomatis akan valid untuk tujuan yang lain. Validitas
mencakup beberapa jenis berikut.
1. Validitas Isi
Menurut Gregory (2000), validitas isi menunjukkan sejauh mana
pertanyaan, tugas, atau butir tes/instrumen mampu mewakili secara
keseluruhan dan proporsional perilaku sampel. Validitas isi (content validity)
digunakan pada waktu pemakai tes akan menarik kesimpulan domain butir
tes berdasarkan skor tes individu ke domain butir yang lebih besar yang
serupa dengan butir-butir yang terdapat dalam tesnya sendiri (Crocker dan
Algina, 1986: 217). Dalam pembelajaran, validitas isi menunjukkan sejauh
mana tes mengukur tingkat penguasaan terhadap isi suatu materi
pembelajaran dan tujuan pembelajaran. Dengan kata lain, tes yang memiliki
validitas isi yang baik adalah tes yang benar-benar mengukur penguasaan
materi yang seharusnya dikuasai sesuai isi kurikulum. Karena itu, sering
validitas isi juga disebut validitas kurikuler. Dalam konteks pembelajaran
berdasarkan standar isi, tes yang memiliki validitas isi yang baik adalah tes
3.6 Evaluasi Pembelajaran Bahasa Indonesia
yang benar-benar mengukur penguasaan kompetensi dasar pada standar isi.
Dengan demikian, dalam pembelajaran validitas isi adalah hal pertama yang
harus ditegakkan dalam mengembangkan tes.
Yang harus dipertimbangkan agar sebuah tes memiliki validitas isi
adalah tujuan, susunan pemilihan butir, dan aspek yang diuji oleh butir
(Crocker dan Algina, 1986: 219—221). Validitas isi berkenaan dengan
kesanggupan instrumen mengukur keseluruhan isi yang harus diukur.
Artinya, alat ukur tersebut mampu mengungkap isi dalam kurikulum. Hal ini
bisa dilakukan dengan cara menyusun tes yang bersumber dari kurikulum
bidang studi yang hendak diukur. Walaupun demikian, tes hasil belajar tidak
mungkin dapat mengungkap semua materi yang ada. Oleh sebab itu, harus
diambil sebagian dari materi dalam bentuk sampel tes. Sebagai sampel, harus
dapat mencerminkan materi yang terkandung dari seluruh materi bidang
studi. Cara yang ditempuh dalam menetapkan sampel tes adalah memilih
konsep-konsep yang esensial dan merepresentasikan kompetensi yang lain
pada standar isi. Di sinilah pentingnya peranan kisi-kisi sebagai alat untuk
memenuhi validitas isi.
TES HASIL BELAJAR
Bidang studi : ....................
Semester : ....................
Kelas : ....................
Standar Kompetensi Kompetensi
Dasar Jumlah
pertanyaan
Jenis tes
Menurut Gregory (2000), validitas isi menunjukkan sejauh mana
pertanyaan, tugas, atau butir tes/instrumen mampu mewakili secara
keseluruhan dan proporsional perilaku sampel. Untuk mengetahui validitas
isi, penulis soal perlu menelaah kesesuaian tes yang telah disusun sesuai
dengan kurikulum (standar isi). Validitas isi menunjuk pada sejauh mana
instrumen tersebut mencerminkan isi yang dikehendaki kurikulum. Validitas
PBIN4302/MODUL 3 3.7
isi kadang disebut juga validitas kurikuler. Dalam menilai validitas isi suatu
instrumen, kita berkepentingan dengan pertanyaan seberapa jauh isi
instrumen itu mencerminkan seluruh isi kurikulum yang diukur. Agar dapat
memiliki validitas isi, suatu ukuran harus secara memadai menarik sampel
topik ataupun proses kognitif yang terdapat dalam keterampilan yang dinilai.
Di samping itu, topik dan proses kognitif itu harus ditarik sampelnya sesuai
dengan penekanannya di seluruh isi kurikulum.
Untuk menyusun tes yang memiliki validitas yang tinggi, ditempuh
prosedur (1) identifikasi kompetensi secara perinci dan perincian indikator
dalam kurikulum, (2) membuat kisi-kisi secara lengkap dan teperinci yang
mencantumkan pula sebaran tugas, serta (3) menjabarkan dan menulis butir
soal/tugas dengan berpijak pada kisi-kisi tersebut. Untuk mengetahui apakah
suatu tes memiliki validitas isi, harus dilakukan penelaahan kisi-kisi tes untuk
memastikan bahwa soal-soal tersebut sudah mewakili atau mencerminkan
keseluruhan isi kurikulum secara proporsional.
Bagaimana mengukur validitas isi tes bahasa? Validitas isi dalam tes
menulis dapat ditentukan dengan cara membandingkan butir-butir yang
terdapat dalam tes menulis dengan butir-butir yang terdapat dalam
kurikulum. Cara ini dilakukan untuk menentukan validitas isi tes menulis
yang digunakan dalam pengajaran.
Tes dikatakan memiliki validitas isi jika sesuai dengan kemampuan
dasar, materi pembelajaran, dan indikator dalam kurikulum. Untuk
mengetahui kesahihan suatu alat penilaian, perlu dilakukan telaah untuk
mencocokkan antara kisi-kisi dan yang dihasilkan dengan kompetensi dasar
serta indikator yang ada dalam kurikulum.
2. Validitas Bangun Pengertian (Construct Validity)
Kesahihan (validitas) adalah ketepatan data yang diperoleh sesuai
dengan sifat variabel yang diukur. Kesahihan tidak sekadar mengukur apa
yang seharusnya diukur, melainkan juga mengandung pengertian sejauh
mana informasi yang diperoleh dari pengukuran dapat diinterpretasikan
sebagai tingkah laku atau karakteristik yang diukur (Griftin, 1994: 12).
Validitas konstruk (construct validity) berkenaan dengan kesanggupan alat
ukur mengukur bangunan pengertian yang diukur. Menurut Djaali (2008: 51),
validitas konstruk adalah validitas yang mempermasalahkan seberapa jauh
butir-butir tes mampu mengukur apa yang benar-benar hendak diukur sesuai
dengan bangunan konsep yang telah ditetapkan.
3.8 Evaluasi Pembelajaran Bahasa Indonesia
Konstruk perlu dijabarkan menjadi indikator-indikator. Butir-butir soal
harus disusun untuk masing-masing indikator. Konstruk perlu dijabarkan
menjadi indikator-indikator. Butir-butir soal harus disusun untuk masing-
masing indikator. Indikator harus lengkap sehingga dapat mengukur
bangunan konsep secara utuh.
Pengertian-pengertian yang terkandung dalam konsep perlu dijabarkan
yang lebih spesifik sehingga mudah diukur. Ini berarti setiap konsep harus
dikembangkan indikator-indikatornya. Dengan adanya indikator dari setiap
konsep, bangun pengertian akan tampak dan memudahkan dalam
menetapkan cara pengukuran. Menetapkan indikator suatu konsep dapat
dilakukan dalam dua cara, yakni menggunakan pemahaman atau logika
berpikir atas dasar teori pengetahuan ilmiah dan menggunakan pengalaman
empiris. Untuk memahami dengan baik implementasi konsep validitas konstruk,
dapat diamati tiga contoh penggunaan alat penilaian berikut.
Kompetensi dasar: mampu menulis iklan dengan bahasa yang menarik.
Indikator:
a. mampu menulis iklan dengan isi yang bisa meyakinkan orang untuk
membeli
b. mampu menulis iklan dengan bahasa yang menarik.
Contoh 1
Penilaian yang dilakukan guru berupa tes untuk mengidentifikasi pemahaman
siswa tentang iklan (tes dilakukan menyatu dengan beberapa kompetensi
yang lain).
a. Sebutkan jenis-jenis iklan!
b. Bacalah kutipan iklan berikut!
PBIN4302/MODUL 3 3.9
Iklan di atas termasuk iklan ….
a. iklan penawaran
b. iklan pengumuman
c. iklan produk
d. iklan jasa
Contoh 2
Penilaian
Sekolahmu akan menerbitkan majalah sekolah AKSI. Buatlah iklan agar
teman-temanmu tertarik membeli majalah tersebut!
Rubrik berikut digunakan untuk menilai iklan yang dibuat siswa. Berilah
tanda cek sesuai dengan hasil pengamatanmu!
No Subkompetensi Perincian Indikator Ya Tidak Bukti
1. Memilih isi iklan yang sesuai dengan tujuan iklan untuk memlakukan persuasi
a. Iklan mengandung penjelasan barang/jasa yang diiklankan secara jelas, tetapi ringkas
b. Iklan berisi ajakan/alasan untuk menggunakan apa yang diiklankan (kelebihan barang/ jasa)
2. Memilih isi dan bentuk iklan dan kreatif
a. Isi iklan menjelaskan dan memuji barang
b. Bentuk pujian/ajakan membeli kreatif
3.10 Evaluasi Pembelajaran Bahasa Indonesia
No Subkompetensi Perincian Indikator Ya Tidak Bukti
3. Memilih diksi dan struktur yang menarik
a. Memilih penggunaan kata yang dapat menarik perhatian (perulangan bunyi, perulangan kata, dan berkaitan dengan nama/identitas barang/jasa yang diiklankan)
b. Memilih struktur kalimat yang padat dan singkat
Dari dua contoh di atas, validitas konstruk terjadi pada penilaian yang
kedua karena mengukur kemampuan menulis iklan sesuai dengan konsep
menulis iklan. Menulis iklan adalah kemampuan menyusun ide dengan tujuan
menawarkan barang dengan menggunakan bahasa tulis yang menarik.
Contoh 1 tidak memiliki validitas konstruk yang tinggi karena tidak sesuai
dengan apa yang akan diukur pada indikator. Pemahaman tentang jenis-jenis
iklan bukan termasuk pada konsep menyusun iklan. Konsep mampu membacakan berita, indikator empirisnya adalah (a)
mampu melisankan bahasa verbal yang dibaca sesuai isi naskah, (b) mampu
membacakan pengumuman dengan intonasi bervariasi, (c) mampu memberi
jeda dan tekanan yang sesuai pada waktu membacakan, serta (d) mampu
membacakan dengan lancar dan percaya diri.
Mengukur indikator-indikator tersebut berarti mengukur bangun
pengertian yang terdapat dalam konsep mampu membacakan berita.
Demikian juga validitas konstruk tes menulis dapat ditentukan dengan cara
membandingkan butir-butir tes dengan teori yang melandasi kemampuan
menulis. Jika menulis dipandang sebagai aktivitas pengekspresian ide,
gagasan, pikiran, atau perasaan ke dalam lambang-lambang kebahasaan
dengan melibatkan kegiatan pengolahan bahasa dan isi; tes yang memiliki
validitas konstruk akan mencakup semua aspek tersebut. Jika menulis
dipandang sebagai proses mengolah ide dan sarana pengekspresian, sudah
seharusnya pelaksanaan tes menulis juga mencerminkan adanya proses.
Pada tes menulis, validitas konstruk berkaitan dengan bangunan
pengertian menulis, yakni proses pengembangan gagasan sesuai dengan
konteks komunikasi dalam bentuk wacana tulis. Dengan demikian, menulis
adalah keterampilan produktif tulis yang disesuaikan dengan konteks. Hal ini
berimplikasi pada penentuan aspek dalam rubrik (pedoman penyekoran).
Dengan pemahaman bahwa menulis memiliki konstruk pemilihan dan
pengembangan isi, penggunaan aspek grafis dan mekanik, pemilihan dan
PBIN4302/MODUL 3 3.11
penggunaan kata/kalimat secara tertulis; rubrik yang akan disusun perlu
mengamati faktor-faktor tersebut.
Menurut Djaali (2008: 54), indikator-indikator tersebut harus memerinci
dan sesuai dengan konstruk kemampuan yang akan diukur. Selain itu,
indikator harus lengkap untuk mengukur suatu konstruk yang utuh. Apabila
hasil tes menunjukkan indikator-indikator tes yang tidak berhubungan secara
positif satu sama lain, itu berarti ukuran tersebut tidak memiliki validitas
bangun pengertian. Atas dasar itu, indikatornya perlu ditinjau atau diperbaiki
kembali.
Jadi, untuk mengetahui validitas konstruk suatu instrumen atau tes,
diperlukan penelaahan teoretis dari suatu bangunan konsep yang akan diukur.
Perumusan konstruk dilakukan berdasarkan sintesis teori yang telah ada.
Kesahihan konstruksi berkaitan dengan pengertian seberapa jauh suatu
tes mengukur sifat konstruk tertentu. Kesahihan konstruksi juga mengandung
pengertian sejauh mana hasil tes tersebut dapat ditafsirkan menurut konstruk
(bangunan pengertian) yang ditentukan berdasarkan pendekatan atau teori
tertentu. Istilah bangunan pengertian tersebut dipakai untuk mengacu sesuatu
yang tidak dapat diukur secara langsung, tetapi dapat menerangkan akibat-
akibat yang dapat diamati. Konstruk merupakan konsepsi hipotetik hasil
imajinasi para ilmuwan yang berusaha menjelaskan konsep-konsep abstrak.
Konstruk merupakan atribut psikologis yang tidak dapat diukur secara
langsung, tetapi indikator-indikator tersebut dapat diukur.
Kesahihan konstruksi ini didasarkan pada dua pendekatan, yakni
pendekatan logis dan pendekatan empiris. Dalam pendekatan logis, masalah
yang dipersoalkan adalah indikator-indikator apa saja yang membentuk
konstruk dan apakah cukup mewakili indikator-indikator tersebut untuk
mewakili konstruk yang hendak diukur. Dalam hal ini, jelas dipersoalkan
apakah butir-butir tes yang akan digunakan relevan untuk menaksir unsur-
unsur yang terdapat dalam konstruk yang hendak diukur.
Berbeda dengan pendekatan logis yang menekankan penalaran dalam
identifikasi indikator-indikator suatu konstruk, pendekatan empiris kesahihan
konstruksi ini mencakup (1) secara internal hubungan-hubungan dalam tes itu
hendaknya seperti yang diramalkan serta (2) secara eksternal hubungan-
hubungan antara skor tes dan pengamatan-pengamatan yang lain hendaknya
konsisten dengan konstruk yang ditentukan. Apabila suatu tes setelah disusun
dan dilaksanakan ditemukan bahwa unsur-unsurnya yang telah diidentifikasi
tidak berkaitan secara positif, dapat dikatakan bahwa alat tersebut tidak
memiliki kesahihan konstruksi.
3.12 Evaluasi Pembelajaran Bahasa Indonesia
Jenis kesahihan yang berhubungan dengan hal itu mengacu pada
hubungan antara skor suatu instrumen pengukuran dan suatu variabel di luar
yang telah tepercaya dan dapat mengukur langsung ciri-ciri yang diselidiki.
Lalu, bagaimana cara menentukan kesahihan konstruksi suatu tes berbahasa?
Kesahihan konstruksi tes menulis, misalnya, dapat ditentukan dengan cara
membandingkan butir-butir tes dengan teori yang melandasi kemampuan
menulis. Jika menulis dipandang sebagai aktivitas pengekspresian ide,
gagasan, pikiran, atau perasaan ke dalam lambang-lambang kebahasaan
dengan melibatkan kegiatan pengolahan bahasa dan isi, tes yang memiliki
kesahihan konstruksi akan mencakup semua aspek tersebut. Jika
keterampilan menulis dipandang sebagai proses mengolah ide dan sarana
pengekspresian bahasa, semestinya pelaksanaan tes menulis itu
mencerminkan adanya proses.
3. Validitas Bandingan
Kesahihan ini lebih umum dikenal dengan kesahihan empiris. Sebuah tes
dikatakan memiliki kesahihan empiris jika hasilnya sesuai dengan
pengalaman. Dalam hal ini, hasil tes dipasangkan dengan hasil pengalaman.
Pengalaman selalu berkaitan dengan hal yang telah lampau sehingga data
pengalaman tersebut sekarang sudah ada (concurrent).
Dalam membandingkan hasil sebuah tes, diperlukan suatu kriteria atau
alat banding. Dengan demikian, hasil tes merupakan sesuatu yang
dibandingkan. Misalnya, kesahihan bandingan tes menulis ditentukan
dengan cara membandingkan tes menulis dengan tes yang sejenis di masa
lampau. Dari hasil perbandingan yang dilakukan dengan menggunakan
teknik statistik, akan dapat diketahui tingkat kesahihannya.
C. KESAHIHAN PREDIKSI (PREDICTIVE VALIDITY)
Anda pasti mengetahui bahwa prediksi itu adalah ramalan. Lalu, tahukah
Anda tes yang bagaimana yang dikatakan memiliki kesahihan prediksi?
Sebuah tes dikatakan memiliki kesahihan prediksi atau kesahihan ramalan
apabila mempunyai kemampuan untuk meramalkan apa yang akan terjadi
pada masa yang akan datang. Misalnya, tes masuk perguruan tinggi adalah
sebuah tes yang diperkirakan mampu meramalkan keberhasilan peserta tes
dalam mengikuti kuliah di masa yang akan datang. Calon yang tersaring
berdasarkan hasil tes diharapkan mencerminkan tinggi rendahnya
PBIN4302/MODUL 3 3.13
kemampuan mengikuti kuliah. Jika nilai tesnya tinggi, tentu hal itu menjamin
keberhasilannya kelak. Sebaliknya, seorang calon dikatakan tidak lulus tes
karena memiliki nilai tes yang rendah, jadi diperkirakan akan tidak mampu
mengikuti perkuliahan yang akan datang.
Alat pembanding kesahihan prediksi adalah nilai-nilai yang diperoleh
setelah peserta tes mengikuti pelajaran di perguruan tinggi. Jika ternyata
siapa yang memiliki nilai tes lebih tinggi gagal dalam ujian semester I
dibandingkan dengan yang dahulu nilai tesnya lebih rendah; tes masuk yang
dimaksud tidak memiliki kesahihan prediksi. Dalam tes berbahasa misalnya,
kesahihan ramalan tes menulis dapat ditentukan dengan cara membandingkan
hasil tes menulis dengan prestasi tes di masa mendatang.
Validitas ramalan dikaitkan dengan kriteria tertentu. Dalam validitas ini,
yang diutamakan bukan isi tes, tetapi kriterianya: apakah alat ukur tersebut
dapat digunakan untuk meramalkan suatu ciri atau perilaku tertentu atau
kriteria tertentu yang diinginkan. Misalnya, tes masuk SNPTN dalam bidang
membaca apakah dapat meramakan prestasi mahasiswa di kampus nanti.
Dengan kata lain, validitas ini mengandung ciri adanya relevansi dan
keajekan atau ketetapan (reliability) untuk digunakan meramal prestasi
mahasiswa di kampusnya pada masa mendatang. Validitas ramalan ini
mengandung dua makna. Pertama, validitas jangka pendek. Kedua, jangka
panjang. Validitas jangka pendek artinya daya ramal alat ukur tersebut hanya
untuk masa yang tidak lama. Artinya, skor tersebut berkorelasi pada waktu
yang sama. Sementara itu, validitas jangka panjang mengandung makna skor
tersebut akan berkorelasi juga di kemudian hari.
D. KESAHIHAN KRITERIA
Berbeda dengan pendekatan logis, kesahihan kriteria dibuktikan dengan
pendekatan empiris. Pembuktian kesahihan ini dikaitkan dengan kriteria dan
menggunakan teknik-teknik empiris untuk menyelidiki hubungan antara skor
tes yang diperoleh dan kriteria luar yang tepercaya serta berkaitan dengan
ciri-ciri tes yang dicari kesahihannya. Jadi, bagi penyelidikan kesahihan
dengan pendekatan ini, identifikasi kriteria yang dipakai itu penting sekali.
Ada beberapa ciri yang harus dimiliki oleh suatu tes yang dijadikan ukuran
kriteria.
1. Ciri yang terpenting ialah relevansi. Kita harus menilai apakah kriteria
yang telah dipilih itu benar-benar menggambarkan ciri-ciri yang tepat
3.14 Evaluasi Pembelajaran Bahasa Indonesia
dari tingkah laku yang sedang dievaluasi. Kalau kriteria itu tidak
mencerminkan atribut yang sedang dievaluasi, akan tidak ada artinya
menggunakan kriteria tersebut sebagai dasar untuk menetapkan
kesahihan tes lainnya.
2. Ciri yang kedua bagi kriteria tersebut adalah suatu kriteria harus reliabel.
Ini berarti bahwa kriteria tersebut harus merupakan ukuran yang ajek
bagi atribut tersebut dari waktu ke waktu dan dari satu situasi ke situasi
yang lain. Apabila kriteria itu sendiri tidak konsisten, orang pun tidak
akan mengharapkan kriteria tersebut dapat bertalian dengan suatu
peramal (predictor) secara konsisten pula.
3. Syarat yang ketiga, suatu kriteria hendaknya bebas dari bias. Artinya,
pemberian skor pada suatu ukuran kriteria hendaknya tidak dipengaruhi
oleh faktor-faktor, selain penampilan sebenarnya pada kriteria.
Setelah kriteria luar itu ditetapkan, data empiris pun segera dikumpulkan
untuk menilai hubungan antara skor pada instrumen pengukur (X) dengan
skor pada kriteria (Y). Instrumen yang akan ditetapkan kesahihannya itu
diberikan kepada sekelompok individu yang dianggap mewakili kelompok
mereka yang akan diukur dengan menggunakan alat tersebut. Skor yang
dicapai oleh para subjek ini pada peramal (X) disimpan dan tidak digunakan
untuk membuat keputusan yang mungkin bisa memengaruhi kelompok
tersebut setelah itu. Hal ini dilakukan dengan tujuan menghindarkan
terjadinya kontaminasi terhadap skor kriteria.
1. Prosedur apa saja yang harus ditempuh untuk menyusun tes yang
memiliki kesahihan isi tinggi?
2) Carilah kompetensi dasar pada standar isi mata pelajaran bahasa
Indonesia! Buatlah indikator dan soal yang memiliki validitas konstruk
tinggi!
LATIHAN
Untuk memperdalam pemahaman Anda mengenai materi di atas,
kerjakanlah latihan berikut!
PBIN4302/MODUL 3 3.15
Petunjuk Jawaban Latihan
Untuk mengukur keberhasilan Anda dalam menjawab soal pelatihan di
atas, coba Anda cocokkan dengan rambu-rambu jawaban berikut ini.
1) Prosedur yang harus ditempuh untuk menyusun tes yang memiliki
kesahihan isi tinggi mencakup hal-hal berikut.
a. Identifikasi kurikulum (standar isi) dan perincian tingkat
kemampuan belajar yang akan diukur.
b. Membuat kisi-kisi secara lengkap dan teperinci yang mencantumkan
pula sebaran pertanyaan.
c. Menjabarkan dan menulis butir soal tes dengan berpijak pada kisi-
kisi tersebut.
2) Untuk mendapatkan validitas konstruk yang tinggi, ditempuh langkah-
langkah berikut.
a. Identifikasi kompetensi dasar yang akan dinilai.
b. Identifikasi ciri-ciri kompetensi dasar dan perinci jabaran
keterampilan dari kompetensi dasar.
c. Menentukan indikator dari jabaran kompetensi dasar.
d. Menentukan alat penilaian yang sesuai indikator.
e. Melaksanakan pengukuran terhadap indikator.
f. Menyimpulkan hasil.
Untuk membantu Anda dalam mempertajam pemahaman Anda terhadap
uraian materi modul ini, sebaiknya Anda membaca rangkuman materi yang
tersaji dalam uraian berikut ini.
Terdapat tiga aspek yang harus diperhatikan dalam pembuatan alat
evaluasi, yakni aspek kesahihan (validity), aspek ketepercayaan
(reliability), dan aspek kepraktisan (practicability).
Sebuah tes dikatakan sahih atau valid apabila dapat mengukur apa
yang seharusnya diukur. Kesahihan tes dapat dibedakan menjadi lima
macam, yaitu kesahihan isi (content validity), kesahihan konstruksi
(construct validity), kesahihan bandingan (concurrent validity),
kesahihan prediksi (predictive validity), dan kesahihan kriteria.
Kesahihan isi (content validity) mengacu pada ketetapan butir-butir tes
dalam mengukur bahan atau materi yang seharusnya diukur. Kesahihan
RANGKUMAN
3.16 Evaluasi Pembelajaran Bahasa Indonesia
konstruksi (construct validity) mengacu pada ketetapan tes dalam
mengukur konsep (konstruk) kemampuan yang seharusnya diukur.
Kesahihan bandingan (concurrent validity) mengacu pada adanya
hubungan skor siswa dengan tes lain yang sejenis. Kesahihan prediksi
(predictive validity) mengacu pada ketetapan tes dalam meramalkan kemampuan tes di masa mendatang. Kesahihan kriteria mengacu pada
ketepatan tes dibandingkan dengan hasil tes lain yang relevan.
1) Sebuah tes hendaknya dapat mengukur apa yang seharusnya diukur. Itu
artinya tes itu harus ….
A. valid
B. praktis
C. tepercaya
D. ekonomis
2) Seorang guru menyusun sebuah tes dengan mengidentifikasi
karakteristik suatu kompetensi dasar dan menjabarkannya menjadi
beberapa indikator. Guru tersebut menyusun tes yang memiliki syarat
validitas …. A. konstruk
B. isi
C. bandingan
D. empiris
3) Soal SNPTN digunakan untuk memprediksi kemampuan mahasiswa
ketika nanti belajar di perguruan tinggi. Hal tersebut berkaitan dengan
validitas ….
A. isi
B. konstruk
C. bandingan
D. kurikuler
4) Untuk mendapatkan alat penilaian yang memiliki validitas isi yang
tinggi, perlu dilakukan hal-hal berikut, kecuali ....
A. mengidentifikasi isi kurikulum
B. membuat kisi-kisi
C. menulis soal berdasarkan kisi-kisi
D. mengolah hasil dengan patokan tertentu
TES FORMATIF 1
Pilihlah satu jawaban yang paling tepat!
PBIN4302/MODUL 3 3.17
5) Untuk mendapatkan validitas konstruk yang tinggi, diperlukan
kegiatan ....
A. penyediaan fasilitas penunjang yang sesuai
B. pengkajian konsep kompetensi yang diukur
C. pemilihan materi/isi kurikulum D. pengujian secara kontinu
6) Kesahihan yang didasarkan pada pendekatan logis sekaligus pendekatan
empiris adalah kesahihan validitas ….
A. isi
B. konstruk
C. bandingan masa sekarang
D. bandingan masa yang akan datang
7) Pembuktian validitas bandingan menggunakan pendekatan ....
A. empiris
B. logis C. logis dan empiris
D. konseptual
8) Pak Dani mengorelasikan antara skor kemampuan membaca siswa dari
tes membaca yang dibuat guru dan tes membaca yang dikembangkan
para pakar. Pak Dani mencari bukti validitas ....
A. isi
B. bandingan
C. konstruk
D. prediksi
9) Validitas yang pembuktiannya dapat dilakukan secara logis adalah
validitas ....
A. isi
B. bandingan
C. kriteria
D. prediksi
10) Penggunaan tes tertulis untuk mengukur keterampilan berbicara tidak
sesuai dengan validitas ....
A. isi
B. bandingan
C. konstruk D. prediksi
3.18 Evaluasi Pembelajaran Bahasa Indonesia
Cocokkanlah jawaban Anda dengan Kunci Jawaban Tes Formatif 1 yang
terdapat di bagian akhir modul ini. Hitunglah jawaban yang benar.
Kemudian, gunakan rumus berikut untuk mengetahui tingkat penguasaan
Anda terhadap materi Kegiatan Belajar 1.
Arti tingkat penguasaan: 90 - 100% = baik sekali
80 - 89% = baik
70 - 79% = cukup
< 70% = kurang
Apabila mencapai tingkat penguasaan 80% atau lebih, Anda dapat
meneruskan dengan Kegiatan Belajar 2. Bagus! Jika masih di bawah 80%,
Anda harus mengulangi materi Kegiatan Belajar 1, terutama bagian yang
belum dikuasai.
Tingkat penguasaan = Jumlah Jawaban yang Benar
100%Jumlah Soal
PBIN4302/MODUL 3 3.19
Kegiatan Belajar 2
Reliabilitas pada Penilaian Hasil Pembelajaran Bahasa Indonesia
A. PENGERTIAN RELIABILITAS
Menurut Baker (1998: 60), reliabilitas biasanya didefinisikan sebagai
konsistensi dari tes. Konsistensi hanyalah merupakan salah satu aspek dari
reliabilitas. Ketelitian atau akurasi adalah hal lain. Definisi reliabilitas yang
lebih komprehensif adalah derajat ketepatan dan ketelitian atau akurasi yang
ditunjukkan oleh instrumen pengukuran. Pada tes bahasa, reliabilitas
berkaitan juga dengan reliabilitas antarpenilai. Sifat reliabel (andal) dari
sebuah alat ukur berkenaan dengan kemampuan alat ukur tersebut
memberikan hasil yang konsisten. Istilah reliabilitas sering disamakan
dengan consistency, stability, atau dependability. Pada prinsipnya, reliabilitas
menunjukkan sejauh mana pengukuran itu dapat memberikan hasil yang
relatif tidak berbeda apabila dilakukan pengukuran kembali terhadap subjek
yang sama. Sebagaimana digunakan dalam psikometri, istilah reliabilitas
selalu berarti konsistensi. Menguji reliabilitas berarti menguji konsistensi
skor yang diperoleh dari pengukuran yang berulang-ulang menggunakan tes
dan responden yang sama (Anne Anastasi, 1994: 27).
Menurut Aiken (2002: 85), reliabilitas tidak sama dengan stabilitas.
Dalam pengukuran reliabilitas, diasumsikan bahwa instrumen mengukur
karakteristik yang relatif stabil. Ketidakandalan (unreliability) berkaitan
dengan hasil kesalahan pengukuran yang dilakukan kondisi temporer,
misalnya rendahnya motivasi atau kondisi eksternal, seperti lingkungan
pengujian yang tidak nyaman. Pengukuran reliabilitas diwujudkan dalam
koefisien tes ulang, koefisien uji paralel, dan koefisien konsistensi internal.
Menurut McMillan, reliabilitas mengacu pada stabilitas skor antarwaktu
dan konsistensi internal. Stabilitas skor mengacu pada sejauh mana
konsistensi skor tes dan satu pengukuran ke pengukuran lainnya. Ukuran
reliabilitas menunjukkan suatu estimasi sejauh mana variasi yang diharapkan
pada kondisi yang berbeda. Pengukuran reliabilitas dalam hal ini bisa
dilakukan dengan tes ulang atau tes paralel. Sementara itu, konsistensi
internal mengacu pada tingkat homogenitas butir-butir yang mengukur hal
3.20 Evaluasi Pembelajaran Bahasa Indonesia
yang sama. Pengukuran reliabilitas dalam konsep konsistensi internal dapat
menggunakan kuder-richardson atau alpha cronbach (Macmillan, 2008: 39).
Menurut Naga (2008: 55), reliabilitas berkaitan dengan komponen skor
tulen. Makin besar komponen skor tulen dan makin kecil komponen skor
keliru; semakin tinggi reliabilitas skor tersebut. Makin tinggi reliabilitas,
makin dapat dipercaya skor itu.
Reliabilitas, menurut Djaali dan Muljono (2008: 56), mencakup
reliabilitas konsistensi tanggapan dan reliabilitas konsistensi gabungan butir.
Reliabilitas konsistensi tanggapan responden mempersoalkan apakah
tanggapan responden terhadap tes sudah konsisten atau belum. Reliabilitas
gabungan butir berkaitan dengan kemantapan atau konsistensi antara butir-
butir suatu instrumen. Konsep reliabilitas mengacu pada konsep konsistensi
gabungan item, yaitu kemantapan butir-butir suatu tes. Reliabilitas pada
penelitian ini diukur dengan indeks reliabilitas alpha cronbach. Pemilihan
koefisien reliabilitas yang memadai ditentukan dengan kriteria tertentu.
Menurut Naga, untuk menentukan besarnya koefisien reliabilitas yang
memadai, hal itu dilakukan dengan dua kriteria empiris. Kriteria empiris
berkaitan dengan karakteristik bidang ilmu dan statistika. Tidak semua
bidang ilmu memiliki keakuratan yang tinggi. Koefisien reliabilitas hasil
belajar matematika bisa mencapai 0,90, tetapi bidang ilmu lain tidak
demikian. Untuk pengukuran bidang ilmu yang belum memiliki kecermatan
tinggi, penentuan koefisien yang memadai bisa dengan memeriksa jurnal
ilmu yang bersangkutan. Jika pada umumnya ditemukan koefisien reliabilitas
sebesar 0,4, koefisien yang memadai bisa 0,4.
Pada tes bahasa dengan respons tertulis esai, koefisien reliabilitas
instrumen dikatakan memadai apabila nilai koefisiensinya minimal 0,6,
terutama untuk tes bahasa yang bersifat uraian, nilai koefisien reliabilitasnya
cenderung tidak terlalu tinggi. Selanjutnya, dikemukakan Baker bahwa
koefisien reliabilitas interrater minimal sebesar 0,7. Aiken juga
mengemukakan bahwa koefisien reliabilitas interrater yang memadai sebesar
0,6 atau 0,7. Berdasarkan kriteria-kriteria tersebut, penelitian ini
menggunakan kriteria minimal 0,6 sebagai batas koefisien reliabilitas yang
memadai. Hal ini mengingat bahwa tes literasi yang dikembangkan bersifat
uraian.
Uji reliabilitas interrater juga dilakukan untuk menguji reliabilitas
pedoman penyekoran hasil pengamatan. Interrater dilakukan untuk menguji
reliabilitas hasil penyekoran beberapa korektor terhadap sejumlah
PBIN4302/MODUL 3 3.21
performansi/produk yang diamati. Pengujian reliabilitas interrater bisa
dilakukan dengan menghitung korelasi antarpenilai. Penghitungan dilakukan
dengan langkah: (1) pengaturan data hasil pengukuran, (2) menghitung r
antarrater, dan (3) menentukan reliabilitas antarrater berdasarkan indeks
korelasi. Reliabilitas interrater dilakukan pada data hasil observasi terhadap
butir-butir pada suatu instrumen (Macmillan, 2008: 42). Baker (1989: 61)
juga mengemukakan batas reliabilitas interrater minimal 0,7. Kriteria
minimal koefisien reliabilitas interrater yang digunakan dalam penelitian ini
adalah 0,7.
Analisis reliabilitas instrumen dilakukan terhadap butir-butir yang valid.
Dalam kasus skala yang butir-butirnya tidak dapat dibagi dua ataupun dibagi
tiga sama banyak, pengujian reliabilitasnya dilakukan melalui teknik analisis
varians. Salah satu teknik analisis varians yang sangat populer untuk
keperluan ini adalah teknik analisis varians dari kuder richadson 21 atau
teknik alpha cronbach. Menurut Aiken (2004), teknik alpha cronbach sesuai
untuk data campuran.
Uji reliabilitas juga dikenakan pada uji interrater. Untuk menjaga
reliabilitas butir soal esai, perlu analisis interrater (interscorer reliability).
Teknik analisis dilakukan dengan dua cara, yaitu mengorelasikan sejumlah
hasil penyekoran oleh dua penilai atau bisa dilakukan analisis beberapa
penilai merespons sebuah hasil.
Reliabilitas alat ukur adalah ketetapan atau keajekan alat tersebut dalam
mengukur apa yang diukurnya. Artinya, kapan pun alat ukur tersebut
digunakan akan memberikan hasil ukur yang sama. Contoh paling nyata
adalah timbangan atau meteran. Hal yang sama terjadi untuk alat ukur suatu
gejala, tingkah laku, ciri atau sifat individu, dan lain-lain. Misalnya, alat ukur
prestasi belajar, seperti tes hasil belajar, alat ukur sikap, kuesioner, dan
lain-lain, hendaknya meneliti sifat keajekan tersebut.
Tes hasil belajar dikatakan ajek apabila hasil pengukuran saat ini
menunjukkan kesamaan hasil pada saat yang berlainan waktunya terhadap
siswa yang sama. Misalnya, siswa kelas V pada hari ini di tes kemampuan
matematika. Minggu berikutnya, siswa tersebut di tes kembali. Hasil dari
kedua tes relatif sama. Walaupun demikian, masih mungkin terjadi ada
perbedaan hasil untuk hal-hal tertentu akibat faktor kebetulan, selang waktu,
dan terjadinya perubahan pandangan siswa terhadap soal yang sama. Jika ini
terjadi, kelemahan terletak dalam alat ukur itu yang tidak memiliki kepastian
3.22 Evaluasi Pembelajaran Bahasa Indonesia
jawaban atau meragukan siswa. Dengan kata lain, derajat reliabilitasnya
masih rendah.
B. PENGUKURAN RELIABILITAS
Indeks reliabilitas alat ukur dapat dicari dengan mengorelasikan skor-
skor yang diperoleh dari hasil pengukuran yang berulang-ulang pada waktu
yang berbeda atau dengan kelompok pertanyaan yang sepadan. Prosedur ini
dilakukan dengan cara memberikan tes dua kali kepada subjek yang sama
pada waktu yang berbeda. Cara kedua adalah membagi alat ukur (tes)
menjadi dua bagian yang sama atau yang setaraf untuk melihat keajekan tes
tersebut. Cara yang pertama dikenal dengan tes ulang (test retest) dan cara
kedua dikenal dengan pecahan sebanding/setara. Kedua cara tersebut
diuraikan berikut ini.
1. Reliabilitas Tes Ulang
Tes ulang (test-retest) adalah penggunaan alat ukur terhadap subjek yang
diukur dan dilakukan dua kali dalam waktu yang berlainan. Misalnya, tes
hasil belajar matematika untuk siswa SD kelas V diberikan hari ini, lalu
diperiksa hasilnya. Seminggu kemudian, tes tersebut diberikan lagi pada
siswa yang sama dan hasilnya diperiksa. Hasil pengukuran yang pertama
kemudian dikorelasikan dengan hasil pengukuran yang kedua untuk
mendapatkan koefisien korelasinya (r). Koefisien korelasi ini disebut
koefisien reliabilitas tes ulang yang hasilnya akan bergerak dari - 1,0 sampai
+ 1,0. Apabila koefisien reliabilitas mendekati angka 1,0, itu merupakan
indeks reliabilitas tinggi. Artinya, hasil pengukuran yang pertama relatif
sama dengan hasil pengukuran yang kedua. Dengan kata lain, alat ukur
tersebut memiliki tingkat keajekan atau ketetapan (reliabel). Untuk
pengukuran ilmu-ilmu sosial dan pendidikan, indeks reliabilitas 0,75 sudah
dianggap cukup, mengingat sifat dan ilmu sosial serta pendidikan berbeda
dengan ilmu-ilmu eksakta.
Jarak atau selang waktu antara pengukuran pertama dan pengukuran
kedua sebaiknya tidak terlalu dekat dan juga tidak terlalu jauh. Jika terlalu
dekat/pendek, hasil pengukuran banyak dipengaruhi oleh ingatan siswa
tentang jawaban yang diberikan pada pengukuran yang pertama, bukan
karena keajekan alat ukurnya. Sebaliknya, jika selang waktu pengukuran
pertama dengan pengukuran kedua terlalu lama, bisa terjadi adanya
PBIN4302/MODUL 3 3.23
perubahan pengetahuan dan pengalaman siswa sehingga memengaruhi
koefisien reliabilitasnya. Asumsi yang digunakan dalam tes ulang ialah
karakteristik yang diukur oleh alat ukur tersebut stabil sepanjang waktu
sehingga jika ada perubahan skor hasil kedua pengukuran lebih disebabkan
kesalahan alat ukur. Cara tes ulang (test-retest) banyak digunakan dalam
menetapkan atau menentukan tingkat reliabilitas alat ukur dalam penelitian
sosial dan pendidikan.
2. Reliabilitas Pecahan Setara
Reliabilitas bentuk pecahan setara tidak dilakukan pengulangan
pengukuran kepada subjek yang sama, tetapi digunakan hasil dari bentuk tes
yang sebanding atau setara yang diberikan kepada subjek yang sama pada
waktu yang sama pula. Dengan demikian, diperlukan dua perangkat alat ukur
yang disusun sedemikian rupa agar memiliki derajat kesamaan atau
kesetaraan, baik dari segi, isi, tingkat kesukaran alat ukur, abilitas yang
diukur, jumlah pertanyaan, bentuk pertanyaan, maupun segi-segi teknis
lainnya. Yang berbeda hanyalah pertanyaan. Apabila penyusun kesetaraan
alat ukur bisa dicapai seoptimal mungkin, koefisien reliabilitas dari prosedur
ini dianggap paling baik dibandingkan dengan prosedur tes ulang. Namun,
kesulitannya terletak dalam menyusun perangkat alat ukur yang benar-benar
mengandung derajat kesetaraan tinggi.
3. Reliabilitas Belah Dua
Reliabilitas belah dua mirip dengan reliabilitas pecahan setara, terutama
dari pelaksanaannya. Dalam prosedur ini, alat ukur diberikan kepada
kelompok subjek cukup satu kali atau satu saat. Butir-butir soal dibagi dua
bagian yang sebanding, biasanya dibedakan soal nomor genap dengan soal
nomor ganjil. Setiap bagian soal diperiksa hasilnya, kemudian skor dari
kedua bagian tersebut dikorelasikan untuk dicari koefisien korelasinya.
Mengingat korelasi tersebut hanya berlaku separuh dan tidak untuk seluruh
pertanyaan, koefisien korelasi yang didapatkannya tidak untuk seluruh soal,
tetapi hanya separuhnya. Oleh sebab itu, koefisien korelasi belah dua perlu
diubah dalam koefisien korelasi untuk seluruh soal dengan menggunakan
rumus ramalan Spearmen Brown.
3.24 Evaluasi Pembelajaran Bahasa Indonesia
1 12
2 21 1
12 2
xx
r
r
r
rxx = koefisien reliabilitas keseluruhan
1 1
2 2r = korelasi (r) dari belah dua
Contoh
Koefisien korelasi belah dua adalah 0,60.
(2)(0,60)
1 0,60
1,200,75
1,60
xxr
Dari contoh di atas, terjadi peningkatan koefisien korelasinya setelah
dilakukan pengubahan. Asumsi yang digunakan dalam prosedur belah dua
adalah kedua bagian alat ukur itu paralel sekalipun sering keliru atau tidak
benar. Akibat adanya pengubahan koefisien reliabilitas, prosedur belah dua
cenderung menunjukkan koefisien reliabilitas yang tinggi daripada prosedur
tes ulang dan pecahan setara. Oleh sebab itu, penggunaan belah dua harus
lebih berhati-hati. Prosedur ini digunakan apabila alat ukur mengandung atau
terdiri atas banyak item, item relatif berat/sukar (power test), serta materi
yang diuji cukup komprehensif sehingga memungkinkan penyusunan dua
soal untuk satu permasalahan yang sama agar memenuhi belah dua.
4. Kesamaan Rasional
Di samping cara-cara yang dijelaskan di atas, ada prosedur menghitung
reliabilitas, tanpa melakukan korelasi dari dua pengukuran atau pecahan
setara dan belah dua. Cara tersebut adalah kesamaan rasional. Prosedur ini
dilakukan dengan menghubungkan setiap butir dalam satu tes dengan butir-
butir lainnya dan dengan tes itu sendiri secara keseluruhan. Salah satu cara
yang sering digunakan adalah menggunakan rumus kuder-rechardson atau
KR 21 sebagai berikut.
PBIN4302/MODUL 3 3.25
2
2 1
x
xx
x
K X K Xr
K
rxx = reliabilitas tes secara keseluruhan
K = jumlah butir soal dalam tes
2 = variasi skor
X = mean skor
Misalnya, disusun tes sebanyak 80 soal. Setelah diberikan kepada
sejumlah siswa dalam kelas tertentu, lalu dicari nilai rata-rata dan simpangan
bakunya. Misalnya, diperoleh nilai rata-rata 60 dan simpangan bakunya 8.
Dengan rumus di atas, diperoleh berikut ini.
2
2
80 8 60 80 60
8 80 1
5120 1200
5076
3920
5076
0,77
xxr
Uraian ukuran reliabilitas yang telah dijelaskan di atas dapat
dipertimbangkan oleh peneliti. Cara mana yang paling tepat digunakan ber-
gantung pada peneliti. Pertimbangan tersebut antara lain adalah sifat variabel
yang diukur, jenis alat ukur, jumlah subjek yang diukur, serta hasil-hasil
pengukuran yang diharapkan sesuai dengan tujuan penelitian.
C. FAKTOR-FAKTOR YANG DAPAT MEMENGARUHI
RELIABILITAS
1. Panjang Tes
Semakin panjang suatu tes, semakin banyak jumlah butir materi
pembelajaran yang bisa diukur. Ini menunjukkan dua kemungkinan. Pertama,
tes semakin mendekati kebenaran. Kedua, dalam mengikuti tes, semakin
kecil siswa menebak. Dengan kedua alasan tersebut, semakin tinggi koefisien
reliabilitas.
3.26 Evaluasi Pembelajaran Bahasa Indonesia
2. Penyebaran Skor
Koefisien korelasi dipengaruhi oleh bentuk sebaran skor dalam
kelompok siswa yang diukur. Semakin tinggi sebaran, semakin tinggi
estimasi koefisien reliabilitas (Gronlund, 1990: 94).
3. Petunjuk Penyekoran atau Rubrik yang Kurang Perinci
(Multitafsir)
Penilaian tugas atau tes esai dengan pedoman penyekoran yang kurang
perinci atau multitafsir menyebabkan keajekan hasil terganggu. Semakin
bervariasi penafsiran korektor terhadap pedoman penyekoran, semakin
rendah keajekan hasil.
4. Kesulitan Tes
Tes normatif yang terlalu mudah atau terlalu sulit cenderung
menghasilkan skor reliabilitas rendah. Fenomena tersebut akan menghasilkan
sebaran skor yang cenderung terbatas pada salah satu sisi. Demikian juga jika
tes terlalu mudah, skor jawaban akan mengumpul pada sisi atas (misalnya 9
atau 10). Untuk tes yang terlalu sulit, skor jawaban cenderung mengumpul
pada ujung sebaliknya (rendah).
D. IMPLEMENTASI RELIABILITAS PADA PENILAIAN HASIL
BAHASA INDONESIA
Suatu penilaian dikatakan tepercaya (reliable) jika hasil yang diperoleh
pada ujian itu tetap atau stabil, kapan saja, di mana saja, serta siapa pun yang
mengujikan dan yang menilainya. Ketepercayaan meliputi bahan ujian dan
pemeriksanya. Dengan kata lain, tes dianggap reliabel jika memiliki keajekan
hasil pengukuran sewaktu dilaksanakan pada saat yang berbeda dengan
kondisi yang relatif sama. Berkaitan dengan reliabilitas tersebut, Gronlund
(1980) mengungkapkan bahwa reliabilitas tes mengacu pada suatu pengertian
apakah suatu tes dapat mengukur secara konsisten sesuatu yang akan diukur
dari waktu ke waktu.
Agar syarat-syarat alat-alat penilaian pembelajaran BI memiliki
ketepercayaan, perlu diperhatikan kriteria berikut.
1. Ketepercayaan terhadap Soal Tes
a. Sesuai dengan tujuan dan materi yang diujikan.
PBIN4302/MODUL 3 3.27
b. Bertambah banyak segi yang diujikan, bertambah pula nilai
ketepercayaannya.
c. Hasil penilaian yang stabil menunjukkan nilai ketepercayaan yang
tinggi.
d. Bentuk soal objektif lebih tepercaya sebab (a) segi yang diujikan
mencakup tujuan dan bahan yang cukup luas dan (b) ukuran
jawaban yang benar dan sudah pasti/tetap tidak akan terjadi jawaban
yang meragukan penilai.
e. Motivasi pengikut ujian memengaruhi nilai ketepercayaan suatu
ujian.
2. Ketepercayaan Hasil
Soal bentuk objektif mendekati kesempurnaan dalam ketepercayaan
sebab penilai hanya mencocokkan dengan kunci jawaban yang tepat, tidak
memerlukan pertimbangan. Ada sejumlah cara yang dapat digunakan untuk
mengkaji kemungkinan ajek tidaknya suatu tes. Cara dimaksud meliputi
a) test-retest, b) menggunakan bentuk soal yang berbeda, c) cara paruh/belah
dua, dan d) persamaan rasional.
Di antara sejumlah cara tersebut, tidak ada yang dianggap paling baik.
Pendapat yang diajukan ternyata berbeda-beda. Ada yang berpendapat bahwa
cara terbaik untuk melihat ajek tidaknya suatu tes adalah melaksanakan re-
test, lalu antara hasil tes awal dan re-test itu dikaji tingkat korelasinya. Cara
seperti itu juga mengundang sejumlah kelemahan, antara lain (1) kondisi dan
situasi pelaksanaan tes dalam waktu yang berbeda sulit dikontrol, (2) terdapat
banyak variabel yang memengaruhi ketepercayaan hasilnya, dan (3) peserta
tes harus mengambil tes dua kali dalam waktu yang relatif singkat (Gronlund,
1980, dalam Harsiati, 2003: 26).
Untuk mengukur reliabilitas ini, dapat diperkirakan dengan cara
mengorelasikan skor-skor yang diperoleh seseorang pada waktu yang
berbeda dengan kelompok-kelompok pertanyaan yang sepadan. Prosedur ini
memerlukan pelaksanaan tes dua kali. Prosedur lainnya dilakukan dengan
jalan secara artifisial membagi dua bagian yang sama dengan jalan
menetapkan keajekan internal tes tersebut.
Berdasarkan tujuan dan bentuk tes yang digunakan, dapat ditentukan
metode penentuan reliabilitas yang dipandang cocok untuk menentukan ajek
tidaknya sebuah tes. Metode tes ulang dipandang tidak tepat untuk
menentukan reliabilitas kemampuan menulis sebab hampir dapat dipastikan
3.28 Evaluasi Pembelajaran Bahasa Indonesia
bahwa pengaruh ingatan dalam tes menulis sangat kuat. Metode persamaan
rasional dapat digunakan untuk menentukan reliabilitas keterampilan menulis
sebab pengaruh ingatan dalam tes menulis dapat ditekan dan kemampuan
menulis dapat dipandang sebagai kemampuan yang relatif konstan. Metode
cara paruh/belah dua jelas tidak dapat dipakai untuk menentukan reliabilitas
keterampilan menulis sebab sulit sekali untuk dapat membagi tes menulis
menjadi dua bagian yang setara. Metode menggunakan bentuk soal yang
berbeda memang dapat digunakan untuk menentukan reliabilitas tes menulis,
tetapi ada suatu masalah yang tidak mudah untuk diatasi, yakni menyusun
dua perangkat tes menulis yang betul-betul setara (khususnya penentuan
topik). Untuk itu, penentuan reliabilitas tes menulis dapat dilakukan dengan
cara penyekoran ulang oleh penyekor yang sama. Berdasarkan hasil
perbandingan skor dari kedua penyekoran ini (baik oleh dua orang penyekor
maupun penyekoran ulang), akan dapat diketahui tingkat reliabilitas tes
menulis.
3. Reliabilitas Antarkorektor (Interrater)
Reliabilitas antarkorektor merupakan hal penting dalam penilaian hasil
belajar keterampilan berbahasa Indonesia. Keandalan (reliabilitas) alat
penilaian menunjuk pada pengertian kemampuan alat itu untuk mengukur
secara ajek dan tidak berubah-ubah. Ibarat sebuah timbangan, ia dapat
mengukur berat suatu benda secara bebas siapa pun yang
mempergunakannya. Tes dianggap reliabel jika memiliki keajekan hasil
pengukuran sewaktu dilaksanakan pada saat yang berbeda dengan kondisi
yang relatif sama.
Dalam penilaian keterampilan berbahasa, pengukuran reliabilitas ini
dapat diperkirakan dengan cara mengorelasikan skor-skor yang diperoleh
seseorang pada waktu-waktu yang berbeda/dengan korektor yang berbeda-
beda. Prosedur ini dilakukan dengan mengorelasikan hasil penyekoran
korektor pertama dan korektor. Upaya untuk menjaga reliabilitas
antarkorektor, pada penilaian berbahasa dapat dilakukan dengan cara
membuat rubrik yang jelas dan perinci. Rubrik yang jelas dan perinci akan
memandu korektor menghasilkan skor yang sama sehingga diharapkan dapat
menghasilkan penilaian yang sama.
Prosedur yang perlu ditempuh untuk menghasilkan pedoman penyekoran
yang reliabel diuraikan melalui langkah-langkah dalam menyusun rubrik
untuk menjaga reliabilitas antarkorektor.
PBIN4302/MODUL 3 3.29
a. Langkah pertama: mencermati karakteristik kompetensi dasar dan
indikator. Langkah awal menyusun rubrik adalah mencermati konstruk
(bangunan pengertian) suatu kompetensi dasar. Karakteristik suatu
kompetensi akan menentukan jabaran indikator. Indikator bisa
dijabarkan lagi menjadi deskriptor agar mudah diamati.
b. Langkah kedua: menentukan deskriptor yang lebih teramati dari
kompetensi.
c. Langkah ketiga adalah menyusun perilaku yang teramati (deskriptor)
dari suatu kompetensi. Bisa juga menyusun deskriptor dengan
mencermati kriteria pada indikator. Kriteria pada indikator dikonkretkan
menjadi deskriptor pada rubrik.
d. Langkah keempat: menentukan skor maksimal untuk semua munculnya
deskriptor.
e. Setelah semua indikator pencapaian dijabarkan menjadi deskriptor,
ditentukan skor maksimal tiap-tiap indikator. Penentuan skor maksimal
ditentukan oleh tingkat kepentingan suatu indikator.
f. Langkah kelima: membuat gradasi (skor atau skala) pada tiap deskriptor.
Setelah ditentukan skor maksimal untuk tiap deskriptor, perlu dijabarkan
gradasi skor dari tiap-tiap indikator.
g. Langkah keenam: menata aspek, deskriptor, skor maksimal, dan gradasi
skor pada sebuah tabel yang mudah dibaca dan digunakan.
Contoh implementasi konsep reliabilitas dalam penilaian hasil belajar
bahasa Indonesia sebagai berikut.
Kompetensi yang akan diukur: menulis iklan sesuai konteks.
Indikator: siswa mampu membuat iklan secara individual dari konteks yang
ditentukan.
Dalam menilai hasil karya siswa, digunakan dua pedoman berikut.
Manakah yang memiliki reliabilitas tinggi ditinjau dari reliabilitas antar
korektornya?
3.30 Evaluasi Pembelajaran Bahasa Indonesia
Rubrik Menulis Iklan
Berilah tanda cek sesuai dengan hasil pengamatanmu! No Subkompetensi Perincian Indikator Ya Tidak Bukti
1. Memilih isi iklan yang sesuai dengan tujuan iklan untuk melakukan persuasi
Iklan mengandung penjelasan barang/jasa yang diiklankan secara jelas, tetapi ringkas
Iklan berisi ajakan/alasan untuk menggunakan apa yang diiklankan (kelebihan barang/jasa)
2. Memilih isi dan bentuk iklan yang autentik dan kreatif
Isi iklan unik dan menarik sesuai dengan produk/barang diiklankan (tidak meniru yang telah ada)
Bentuk pujian, ajakan, dan cara meyakinkan kreatif
3. Memilih diksi dan struktur
Memilih penggunaan kata yang dapat menarik perhatian (perulangan bunyi, perulangan kata, berkaitan dengan nama/identitas barang/jasa yang diiklankan)
Dapat memilih struktur kalimat yang padat dan singkat
Memilih kata dan struktur kalimat yang sesuai dengan sasaran iklan
Satu jawaban ya dapat skor 5 dan jawaban tidak dapat skor 1.
Skor maksimal (5x7 = 35)
Contoh Rubrik 2 No Subkompetensi 1 2 3 4 5
1. Pilihan kata
2. Unsur iklan
3. Isi iklan
PBIN4302/MODUL 3 3.31
Dari contoh kedua rubrik atau pedoman penyekoran di atas, contoh satu
lebih memberi hasil yang sama jika dikoreksi orang yang berbeda. Rubrik
contoh pertama deskriptornya jelas dan penyekorannya jelas. Dengan
demikian, siapa saja yang memberi skor hasil penulisan iklan akan
menghasilkan skor relatif sama. Pada contoh rubrik contoh kedua, deskriptor
tidak jelas karena hanya mencantumkan aspeknya. Penyekorannya juga
kurang jelas. Misalnya, akan diberi skor 5 untuk pilihan kata jika hasil siswa
seperti apa dan dapat skor 4, 3, 2, atau 1 jika memiliki ciri seperti apa. Semua
gradasi tersebut kurang jelas kriterianya. Dengan demikian, tiap korektor
akan mempunyai persepsi sendiri-sendiri. Hal ini berpotensi pada hasil
penilaian yang memiliki reliabilitas rendah. Reliabilitas yang rendah pada
antarkorektor juga dapat dilakukan dengan cara memberikan batas toleransi
perbedaan antarkorektor. Jika hasil melebihi batas maksimal perbedaan, hasil
harus dikoreksi ulang.
1) Prosedur apa saja yang harus ditempuh untuk menguji reliabilitas tes
yang tinggi?
2) Apa yang harus ditempuh agar suatu penilaian hasil belajar memiliki
reliabilitas korektor yang tinggi?
3) Sebutkan langkah menyusun pedoman penyekoran agar hasil
antarkorektor relatif sama dalam penilaian hasil tes produk atau unjuk
kerja!
Petunjuk Jawaban Latihan
Untuk mengukur keberhasilan Anda dalam menjawab soal pelatihan di
atas, coba Anda cocokkan dengan rambu-rambu jawaban berikut ini.
1) Prosedur yang harus ditempuh untuk menguji reliabilitas mencakup cara-
cara berikut.
LATIHAN
Untuk memperdalam pemahaman Anda mengenai materi di atas,
kerjakanlah latihan berikut!
3.32 Evaluasi Pembelajaran Bahasa Indonesia
a. Ulang uji (test retest)
Soal diberikan kepada pengikut ujian yang sama untuk kedua
kalinya selang beberapa lama. Jika hasil ujian I dengan ujian II sama
atau hampir sama, itu berarti butir soal itu tepercaya.
b. Menggunakan bentuk soal yang berbeda
Bentuk soal berbeda, tetapi panjang soal, jumlah soal, bahan yang
diujikan, taraf kesukaran, lama waktu, dan format/perwajahan soal
relatif sama. Soal yang dijawab tepat oleh siswa pada dua kali
pelaksanaan ujian itulah soal yang dianggap memiliki
ketepercayaan.
c. Cara paruh (split half)
Digunakan soal yang sejajar dan senilai. Pengikut dibagi dua
kelompok secara acak (random). Hasil dari kedua kelompok itu
dibandingkan untuk mengetahui ketepercayaan soal.
d. Persamaan rasional (rational equivalence)
Pemusatan perhatian pada hubungan antarsoal (inter-item
consistency) yang ditentukan dengan jumlah pengikut ujian yang
menjawab benar dan yang menjawab salah.
2) Agar hasil korektor konsisten untuk tes esai, produk, dan kinerja,
diperlukan rubrik yang perinci. Dengan rubrik yang perinci, dapat
dicapai reliabilitas antarkorektor. Dengan rubrik yang jelas dan perinci,
reliabilitas antarkorektor tinggi.
3) Langkah menyusun rubrik untuk menjaga reliabilitas antarkorektor
a. Langkah pertama: mencermati karakteristik kompetensi dasar dan
indikator. Langkah awal menyusun rubrik adalah mencermati
konstruk (bangunan pengertian) suatu kompetensi dasar.
Karakteristik suatu kompetensi akan menentukan jabaran indikator.
Indikator bisa dijabarkan lagi menjadi deskriptor agar mudah
diamati.
b. Langkah kedua: menentukan deskriptor yang lebih teramati dari
kompetensi.
c. Langkah ketiga adalah menyusun perilaku yang teramati
(deskriptor) dari suatu kompetensi. Bisa juga menyusun deskriptor
dengan mencermati kriteria pada indikator. Kriteria pada indikator
dikonkretkan menjadi deskriptor pada rubrik.
d. Langkah keempat: menentukan skor maksimal untuk semua
munculnya deskriptor. Setelah semua indikator pencapaian
PBIN4302/MODUL 3 3.33
dijabarkan menjadi deskriptor, ditentukan skor maksimal tiap-tiap
indikator. Penentuan skor maksimal ditentukan oleh tingkat
kepentingan suatu indikator.
e. Langkah kelima: membuat gradasi (skor atau skala) pada tiap
deskriptor. Setelah ditentukan skor maksimal untuk tiap deskriptor,
perlu dijabarkan gradasi skor dari tiap-tiap indikator.
f. Langkah keenam: menata aspek, deskriptor, skor maksimal, dan
gradasi skor pada sebuah tabel yang mudah dibaca dan digunakan.
Untuk membantu Anda dalam mempertajam pemahaman Anda terhadap
uraian materi modul ini, sebaiknya Anda membaca rangkuman materi yang
tersaji dalam uraian berikut ini.
Sifat reliabel (andal) dari sebuah alat ukur berkenaan dengan
kemampuan alat ukur tersebut memberikan hasil yang konsisten. Istilah
reliabilitas sering disamakan dengan consistency, stability, atau
dependability. Pada prinsipnya, reliabilitas menunjukkan sejauh mana
pengukuran itu dapat memberikan hasil yang relatif tidak berbeda
apabila dilakukan pengukuran kembali terhadap subjek yang sama.
Sebagaimana digunakan dalam psikometri, istilah reliabilitas selalu berarti konsistensi. Menguji reliabilitas berarti menguji konsistensi skor
yang diperoleh dari pengukuran yang berulang-ulang menggunakan tes
dan responden yang sama.
Hal yang memengaruhi reliabilitas adalah panjang tes, penyebaran
skor, rubrik, dan kesulitan tes. Semakin panjang suatu tes, semakin
banyak jumlah butir materi pembelajaran yang bisa diukur. Ini
menunjukkan dua kemungkinan. Pertama, tes semakin mendekati
kebenaran. Kedua, dalam mengikuti tes, semakin kecil siswa menebak.
Dengan kedua alasan tersebut, semakin tinggi koefisien reliabilitas.
Semakin tinggi sebaran, semakin tinggi estimasi koefisien reliabilitas.
Penilaian tugas atau tes esai dengan pedoman penyekoran yang kurang perinci atau multitafsir menyebabkan keajekan hasil terganggu. Semakin
bervariasi penafsiran korektor terhadap pedoman penyekoran, semakin
rendah keajekan hasil. Tes normatif yang terlalu mudah atau terlalu sulit
cenderung menghasilkan skor reliabilitas rendah.
Prosedur yang harus ditempuh untuk menguji reliabilitas mencakup
(ulang uji (test-retest), bentuk soal setara, persamaan rasional, dan cara
RANGKUMAN
3.34 Evaluasi Pembelajaran Bahasa Indonesia
paruh. Dengan ulang uji, soal diberikan kepada pengikut ujian yang
sama untuk kedua kalinya selang beberapa lama. Jika hasil ujian I
dengan ujian II sama atau hampir sama, itu berarti butir soal itu
tepercaya. Pada teknik soal setara, digunakan bentuk soal yang
berbeda/paralel. Bentuk soal berbeda, tetapi panjang soal, jumlah soal, bahan yang diujikan, taraf kesukaran, lama waktu, dan
format/perwajahan soal relatif sama. Soal yang dijawab tepat oleh siswa
pada dua kali pelaksanaan ujian itulah soal yang dianggap memiliki
ketepercayaan. Dengan cara paruh (split half), digunakan soal yang
sejajar dan senilai. Pengikut dibagi dua kelompok secara acak (random).
Hasil dari kedua kelompok itu dibandingkan untuk mengetahui
ketepercayaan soal. Dengan cara persamaan rasional (rational
equivalence), pemusatan perhatian pada hubungan antarsoal (inter-item
consistency) ditentukan dengan jumlah pengikut ujian yang menjawab
benar dan yang menjawab salah. Agar hasil korektor konsisten untuk tes
esai, produk, dan kinerja, diperlukan rubrik yang perinci. Dengan rubrik
yang perinci, dapat dicapai reliabilitas antarkorektor. Dengan rubrik yang jelas dan perinci, reliabilitas antarkorektor tinggi.
1) Kriteria suatu tes harus merupakan ukuran yang ajek bagi atribut dari
waktu ke waktu dan dari satu situasi ke situasi yang lain. Hal ini berarti tes tersebut bersifat ....
A. reliabel
B. relevansi
C. bebas
D. bias
2) Yang harus dilakukan jika menemukan hasil reliabilitas yang rendah
adalah ....
A. menambah tingkat kesulitan soal
B. menambah jumlah butir soal
C. mengurangi jumlah soal
D. mengurangi tingkat kesulitan soal
3) Tes objektif digunakan dengan alasan utama ....
A. reliabilitas tinggi
B. validitas tinggi
TES FORMATIF 2
Pilihlah satu jawaban yang paling tepat!
PBIN4302/MODUL 3 3.35
C. tingkat kesulitan tinggi
D. daya beda tinggi
4) Berikut ini pernyataan yang benar tentang konsep reliabilitas, yaitu ....
A. sejauh mana pengukuran itu dapat memberikan hasil yang relatif berbeda apabila dilakukan pengukuran kembali terhadap subjek
yang sama
B. sejauh mana pengukuran itu dapat memberikan hasil yang relatif
sama apabila dilakukan satu kali pengukuran terhadap subjek yang
sama
C. sejauh mana pengukuran itu dapat memberikan hasil yang relatif
sama apabila dilakukan beberapa kali pengukuran lagi terhadap
subjek yang sama
D. sejauh mana pengukuran itu dapat memberikan hasil yang relatif
sama apabila dilakukan pengukuran terhadap subjek yang berbeda
5) Cara yang dapat digunakan untuk menguji reliabilitas antarkorektor adalah ....
A. mengorelasikan skor yang dihasilkan beberapa korektor dari
sejumlah pengamatan performansi/karya siswa yang sama
B. mengorelasikan skor dari beberapa siswa yang performansinya/
karyanya dikoreksi seorang korektor
C. mengorelasikan skor pengamatan sejumlah siswa dari dua kali
waktu pengukuran
D. mengorelasikan skor pengamatan sejumlah siswa dari dua kali
waktu pengukuran
6) Soal diberikan kepada pengikut ujian yang sama untuk kedua kalinya selang beberapa lama. Jika hasil ujian I dengan ujian II sama atau hampir
sama, itu berarti butir soal itu tepercaya. Teknik yang digunakan untuk
menguji reliabilitas pada contoh tersebut adalah ....
A. uji soal setara
B. ulang uji (test-retest)
C. cara paruh (split half)
D. uji interrater
7) Pak Dwi menguji reliabilitas dengan menggunakan bentuk soal berbeda,
tetapi panjang soal, jumlah soal, bahan yang diujikan, taraf kesukaran,
lama waktu, dan format/perwajahan soal relatif sama. Soal yang dijawab
tepat oleh siswa pada dua kali pelaksanaan ujian itulah soal yang dianggap memiliki ketepercayaan. Teknik yang digunakan untuk
menguji reliabilitas pada contoh tersebut adalah ....
3.36 Evaluasi Pembelajaran Bahasa Indonesia
A. uji soal setara
B. ulang uji (test-retest)
C. cara paruh (split half)
D. uji interrater
8) Agar hasil koreksi menunjukkan reliabilitas interrater yang tinggi, perlu
ditempuh cara ....
A. menguji reliabilitas dengan jumlah siswa yang sama dan penilai
yang sama
B. menggunakan pengujian reliabilitas yang diperoleh dari nilai yang
konsisten
C. menggunakan rubrik dengan deskriptor yang jelas dan teramati
D. menguji berulang-ulang dengan menggunakan tes dan responden
yang sama
9) Agar butir soal yang memiliki reliabilitas tinggi juga memiliki validitas
yang tinggi, perancang tes perlu melakukan analisis reliabilitas .... A. dengan teknik butir soal setara
B. terhadap butir-butir yang sudah valid saja
C. dengan prosedur tes ulang
D. sebelum analisis validitas
10) Penilaian tugas atau tes esai dengan pedoman penyekoran yang
multitafsir menyebabkan keajekan hasil terganggu. Hal ini disebabkan
oleh ....
A. semakin bervariasi penafsiran korektor terhadap pedoman
penyekoran, semakin rendah keajekan hasil dari beberapa korektor
B. penilaian tugas atau tes esai dengan pedoman penyekoran sangat rumit dilakukan
C. semakin multitafsir, para penilai lebih fleksibel memberikan skor
terhadap hasil karya siswa
D. penafsiran korektor terhadap pedoman penyekoran menjadi sulit
sehingga mengganggu pelaksanaan
Cocokkanlah jawaban Anda dengan Kunci Jawaban Tes Formatif 2 yang
terdapat di bagian akhir modul ini. Hitunglah jawaban yang benar.
Kemudian, gunakan rumus berikut untuk mengetahui tingkat penguasaan
Anda terhadap materi Kegiatan Belajar 2.
PBIN4302/MODUL 3 3.37
Arti tingkat penguasaan: 90 - 100% = baik sekali
80 - 89% = baik
70 - 79% = cukup
< 70% = kurang
Apabila mencapai tingkat penguasaan 80% atau lebih, Anda dapat
meneruskan dengan Kegiatan Belajar 3. Bagus! Jika masih di bawah 80%,
Anda harus mengulangi materi Kegiatan Belajar 2, terutama bagian yang
belum dikuasai.
Tingkat penguasaan = Jumlah Jawaban yang Benar
100%Jumlah Soal
3.38 Evaluasi Pembelajaran Bahasa Indonesia
Kegiatan Belajar 3
Kepraktisan dan Analisis Butir Soal
A. KEPRAKTISAN ALAT PENILAIAN
Pernahkah Anda mengetahui maksud kepraktisan? Maksud kepraktisan
adalah soal dapat digunakan sesuai dengan kondisi dan situasi yang ada.
Brown (2004: 5) mengungkapkan bahwa alat penilaian dianggap praktis jika
dapat dilakukan guru dengan kondisi yang ada. Selanjutnya, dijelaskan
bahwa kepraktisan merujuk pada kemudahan dilaksanakan dan berisi
perintah yang jelas. Suharsimi Arikunto (1993: 61) menegaskan bahwa
sebuah tes dikatakan memiliki nilai tingkat kepraktisan yang tinggi apabila
tes tersebut bersifat praktis dan mudah pengadministrasiannya.
Tes yang praktis menurutnya adalah tes yang memenuhi syarat berikut
ini.
1. Mudah dilaksanakan, misalnya tidak menuntut peralatan yang banyak
dan memberi kebebasan kepada siswa untuk mengerjakan terlebih
dahulu bagian yang dianggap mudah oleh siswa.
2. Mudah pemeriksaannya artinya tes itu dilengkapi dengan kunci jawaban
ataupun pedoman penilaiannya. Untuk soal bentuk objektif, pemeriksaan
akan lebih mudah dilakukan jika dikerjakan oleh siswa dalam lembar
jawaban.
3. Dilengkapi dengan petunjuk-petunjuk yang jelas sehingga dapat
diberikan/diwakili oleh orang lain.
Kemudahan cara melakukan bukan berarti harus mengorbankan validitas
alat penilaian. Karakteristik kompetensi dalam mata pelajaran bahasa
Indonesia terdiri atas beberapa keterampilan yang tidak mudah dilaksanakan.
Misalnya, penilaian keterampilan berbicara dan keterampilan menulis
memerlukan waktu yang banyak. Untuk itu, perlu dicari strategi-strategi
praktis untuk menilai keterampilan berbicara dan menulis, tanpa
mengorbankan validitas konstruk sebuah alat penilaian.
PBIN4302/MODUL 3 3.39
Amati contoh berikut.
Bu Zahra menilai keterampilan berpidato dengan cara membagi siswa
menjadi tujuh kelompok. Tiap kelompok membentuk lingkaran dan secara
bergantian tiap anggota kelompok berpidato sesuai dengan tema yang
ditentukan. Selama anggota kelompok berpidato, anggota kelompok yang
lain menilai dengan rubrik yang ditentukan. Guru bergiliran mendatangi
kelompok-kelompok sambil memberikan penilaian siswa yang sedang
berpidato. Strategi tersebut ditempuh karena Bu Zahra hanya memiliki waktu
dua jam pelajaran untuk menilai kemampuan berpidato siswa. Sambil
berkeliling, Bu Zahra memberikan skor siswa dalam berpidato. Hasil
penilaian anggota kelompok digunakan sebagai bahan pertimbangan.
Pak Dani menilai keterampilan berpidato dengan cara memberikan tes
tertulis. Setelah pembelajaran, Pak Dani memberikan tes tertulis agar siswa
menjawab pertanyaan tentang (1) menyebutkan ciri-ciri pidato, (2)
menjelaskan langkah-langkah berpidato, dan (3) menyusun naskah pidato
dengan tema HUT RI.
Dari contoh di atas, manakah yang menurutmu lebih praktis? Dilihat dari
kepraktisannya, cara Pak Dani lebih praktis karena mudah dilakukan. Akan
tetapi, cara yang dilakukan Pak Dani tidak sesuai dengan konstruk berpidato.
Dengan kata lain, yang dilakukan Pak Dani merupakan penilaian dengan
validitas konstruk yang rendah. Jadi, praktis tidak boleh mengalahkan hal
yang esensial dalam penilaian, yaitu validitas konstruk.
B. UJI DAYA BEDA
Indeks daya beda atau indeks diskriminasi butir merupakan indikator
keseralasan atau konsistensi antara fungsi butir dan fungsi skala secara
keseluruhan yang dikenal dengan istilah konsistensi butir total. Pengujian
daya diskriminasi butir menghendaki dilakukan komputasi koefisien korelasi
antara butir total yang dikenal pula dengan sebutan parameter daya beda
butir. Apabila item tes diberi skor dikotomi, yaitu 0 atau 1, teknik korelasi
yang digunakan adalah teknik korelasi point biserial (rpb) (Saifuddin Azwar,
2004: 72). Sebagai kriteria pemilihan item berdasar korelasi item total,
3.40 Evaluasi Pembelajaran Bahasa Indonesia
biasanya digunakan batasan r xy ≥ 0,30. Semua item yang mencapai
koefisien korelasi minimal 0,30 daya bedanya dianggap memuaskan.
Kriteria dan kesimpulan dari daya beda suatu butir tes dikategorikan
sebagai berikut.
Tabel 3.1 Kriteria Daya Beda Butir Tes
No Besarnya DB Kategori
1. Kurang dari 0,19 Kurang baik
2. 0,20 – 0,39 Baik
3. 0,40 – 1,00 Sangat baik
4. Bertanda negatif Jelek
Aiken (2004) mengemukakan bahwa daya beda butir soal ialah indeks
yang menunjukkan tingkat kemampuan butir soal membedakan kelompok
yang berprestasi tinggi (kelompok atas) dari kelompok yang berprestasi
rendah (kelompok bawah) di antara para peserta tes. Karena daya beda
dihitung dari hasil tes kelompok peserta ujian tertentu, dalam penafsirannya
daya beda pun haruslah selalu dikaitkan dengan kelompok peserta tes
(kelompok sampel) tertentu itu. Daya beda suatu butir soal yang didasarkan
pada hasil tes suatu kelompok belum tentu akan berlaku pada kelompok yang
lain, apalagi apabila tingkat kemampuan masing-masing kelompok peserta
tes itu berbeda. Misalnya, suatu butir soal yang diujikan kepada mahasiswa
jurusan sosiologi akan sangat berbeda hasil dan interpretasinya apabila butir
soal tersebut diujikan kepada mahasiswa jurusan matematika. Daya beda
butir soal biasa disimbolkan dengan D (huruf kapital).
Langkah-langkah untuk mengalkulasi daya beda sebagai berikut.
1. Susunlah urutan peserta tes berdasarkan skor yang diperolehnya, mulai
dari skor tertinggi sampai skor terendah.
2. Bagilah peserta tes tersebut menjadi dua kelompok yang sama
jumlahnya. Apabila jumlah peserta tes ganjil, peserta yang di tengah-
tengah tak usah dimasukkan salah satu kelompok. Kelompok pertama
dinamakan kelompok prestasi tinggi (kelompok atas) dan kelompok
kedua dinamakan kelompok prestasi rendah (kelompok bawah). Apabila
jumlah peserta cukup besar (lebih dari 50), diambil 27% dari kelompok
atas dan 27% dan kelompok bawah.
PBIN4302/MODUL 3 3.41
3. Hitunglah jumlah kelompok atas yang menjawab benar terhadap butir
soal yang akan dikalkulasi daya bedanya. Demikian pula untuk
kelompok bawah.
4. Kalkulasilah proporsi peserta yang menjawab benar terhadap butir soal
tersebut untuk masing-masing kelompok.
5. Kurangilah proporsi kelompok atas dari kelompok bawah dan diperoleh
indeks daya beda butir soal tersebut.
Apabila data pada tabel di atas diterapkan untuk menghitung daya beda
butir soal nomor 5, akan diperoleh daftar sebagai berikut.
Gani 10
Carik 9
Duliman 8
Buhari 7
Fatonah 7
Hamid 7
Adam 6
Joni 5
Elia 4
Inem 4
Apabila jumlah mahasiswa besar (lebih dari 50 orang), perlu dibuat
pembagian tiga kelompok: atas, tengah, dan bawah, untuk memudahkan
analisis.
Kelompok atas yang menjawab benar soal nomor 5 adalah lima orang,
sedangkan kelompok bawah hanya dua orang. Dengan demikian, proporsi
Kelompok atas
Kelompok bawah
3.42 Evaluasi Pembelajaran Bahasa Indonesia
kelompok atas yang menjawab benar adalah 1.0 dan kelompok bawah adalah
0.4. Jadi, daya beda butir soal nomor S adalah 1.0 – 0.4 = 0.6.
Dari kalkulasi di atas, kita dapat menyusun rumus daya beda sebagai
berikut.
0,5
a bB BD
T
Keterangan D = daya beda
Ba = jumlah kelompok atas yang menjawab benar
Bb = jumlah kelompok bawah yang menjawab benar
T = jumlah peserta tes (apabila jumlah peserta tes ganjil,
T = jumlah peserta tes kurang satu)
Indeks atau koefisien daya beda berkisar antara +1.0 sampai dengan
–1.0. Daya beda +1.0 berarti semua anggota kelompok atas menjawab benar
terhadap butir soal itu, sedangkan kelompok bawah seluruhnya menjawab
salah terhadap butir soal itu. Sebaliknya, daya beda –1.0 berarti semua
anggota kelompok atas menjawab salah butir soal itu, sedangkan kelompok
bawah seluruhnya menjawab benar terhadap butir soal itu.
C. TINGKAT KESULITAN BUTIR SOAL
Tingkat kesukaran butir adalah proporsi peserta tes menjawab benar
terhadap setiap butir tes. Tingkat kesukaran butir tes biasanya dilambangkan
dengan p. Semakin besar nilai p, semakin rendah tingkat kesukaran butir tes
tersebut. Rentangan tingkat kesukaran butir antara 0,0 sampai 1,0. Tingkat
kesukaran butir 0,0 berarti tidak seorang pun peserta tes yang dapat
menjawab butir tes tersebut secara benar. Sementara itu, tingkat kesukaran
butir 1,0 berarti semua peserta tes dapat menjawab butir tes dengan benar.
Adapun rumus untuk menghitung tingkat kesukaran butir tes sebagai berikut
(Aiken, 2002: 160).
BP
JS
Keterangan
PBIN4302/MODUL 3 3.43
P = tingkat kesukaran butir tes
B = banyaknya responden yang menjawab benar dan butir tes
JS = jumlah peserta (responden)
Untuk kriteria dan kesimpulan dari tingkat kesukaran butir suatu tes,
dikategorikan seperti tabel berikut.
Tabel 3.2
Kriteria Tingkat Kesukaran Butir
No Besarnya P Kategori
1. Kurang dari 0,30 Sukar
2. 0,30 – 0,70 Sedang (cukup)
3. Lebih dari 0,70 Mudah
Uji taraf sukar butir dilakukan terhadap instrumen yang berupa tes. Taraf
sukar butir adalah proporsi responden yang dapat atau tidak dapat menjawab
butir dengan betul. Taraf sukar butir sebagai salah satu paramater butir
dimaksudkan untuk menguji seberapa sukar butir untuk dijawab oleh
responden. Ada dua cara yang dapat digunakan untuk mengetahui taraf sukar
butir atas dasar jawaban responden, yaitu taraf sukar butir proporsi sederhana
seluruh kelompok responden dan taraf sukar butir proporsi sederhana
kelompok tinggi-rendah.
Pada analisis hasil uji coba empiris instrumen yang berupa tes diuji taraf
sukarnya dengan butir proporsi sederhana seluruh kelompok. Artinya, dalam
analisis, butir jenis ini tidak memisahkan antara kelompok skor tinggi dan
kelompok skor rendah. Pemilihan ini didasarkan pada alasan bahwa jumlah
responden uji coba tergolong sedikit, yakni 35 responden dan seluruh skor
merupakan satu kesatuan hasil pengukuran yang menggunakan satu
perangkat alat ukur. Rumus yang digunakan sebagai berikut.
1 1i
f xP
M
X = 1 = jawaban betul
M = banyaknya responden
f = frekuensi yang menjawab betul
Pi = proporsi jawaban betul
3.44 Evaluasi Pembelajaran Bahasa Indonesia
Kriteria
p ≥ 0,40 berarti cukup memuaskan (Dali S Naga, 2008: 14—23.)
Dari rumus itu, kita tahu bahwa tingkat kesukaran butir soal sangat
dipengaruhi oleh tingkat kemampuan anggota kelompok peserta tes. Apabila
satu butir soal diadministrasikan kepada dua kelompok peserta tes yang
berbeda tingkat kemampuannya, hasilnya dapat diperkirakan akan berbeda
pula. Dengan demikian, dapat dikatakan bahwa tingkat kesukaran butir soal
tidak sepenuhnya merupakan ukuran karakteristik butir soal saja, tetapi lebih
merupakan kemampuan rata-rata kelompok peserta tes. Karena itu, apabila
kita jumpai suatu butir tes yang mempunyai tingkat kesukaran 0,45,
interpretasinya ialah butir soal itu mempunyai tingkat kesukaran 0,45 untuk
kelompok peserta tes tersebut.
Tingkat kesukaran butir soal tidaklah menunjukkan bahwa butir soal
tertentu itu baik atau tidak baik. Tingkat kesukaran butir soal hanya
menunjukkan bahwa butir soal itu sukar atau mudah untuk kelompok peserta
tes tertentu. Butir soal hasil belajar yang terlalu sukar atau terlalu mudah
tidak banyak memberi informasi tentang butir soal atau peserta tes. Untuk tes
hasil belajar, tingkat kesukaran yang dianggap baik adalah apabila berkisar
0,50. Dengan kata lain, makin dekat tingkat kesukaran suatu butir soal tes
hasil belajar ke 0,50, makin baik butir soal tersebut bagi kelompok tertentu.
Sebaliknya, makin jauh tingkat kesukarannya dari 0,50, makin kurang
informasi yang kita peroleh tentang butir soal dan kelompok peserta tes.
Untuk dapat menghitung tingkat kesukaran butir soal, perlu dibuat tabel
skor hasil tes sebagai berikut.
Tabel 3.3 Skor Hasil Tes Membaca Pemahaman
( N=10)
Nama Murid Nomor butir soal
1 2 3 4 5 6 7 8 9 10 Jumlah
Adam 1 1 1 0 0 1 1 1 0 0 6
Buhari 1 1 0 0 1 1 0 1 1 1 7
Carik 1 1 1 1 1 1 1 1 1 0 9
Duliman 1 0 1 1 1 1 1 1 0 1 8
Elia 1 1 0 0 1 0 0 0 1 0 4
Fatonah 1 0 1 1 1 0 1 1 1 0 7
Gani 1 1 1 1 1 1 1 1 1 1 10
Hamid 1 1 1 0 1 1 0 1 1 0 7
Inem 1 1 0 0 0 0 1 0 1 0 4
PBIN4302/MODUL 3 3.45
Joni 1 1 1 0 0 0 1 1 0 0 5
Jumlah 10 8 7 4 7 6 7 8 7 3
P 1.0 0.8 0.7 0.4 0.7 0.6 0.7 0.8 0.7 0.3
Keterangan a. 1 = jawaban benar
b. 0 = jawaban salah
c. dalam contoh ini butir soal hanya 10 buah
Contoh di atas memperlihatkan bahwa tingkat kesukaran soal nomor 1
adalah 10 : 10 = 1.0, sedangkan butir soal nomor 10 tingkat kesukarannya
adalah 3 : 10 = 0,3. Jadi, soal nomor 1 sangat mudah bagi kelompok peserta
ini, sedangkan butir soal nomor 10 dapat dikategorikan sebagai soal yang
sukar untuk kelompok peserta tes tersebut. Jika jumlah mahasiswa besar (50
orang atau lebih), perlu dibuat pembagian tiga kelompok, yaitu kelompok
atas, tengah, dan bawah, untuk memudahkan analisis. Kelompok tengah tidak
diikutsertakan dalam analisis butir soal.
D. ANALISIS DISTRAKTOR
Berfungsi tidaknya pilihan pada tes objektif pilihan ganda perlu
diketahui. Untuk menentukan berfungsi tidaknya pengecoh, diadakan analisis
butir soal. Untuk keperluan analisis ini, lembar jawaban peserta ujian yang
termasuk kelompok atas dan kelompok bawah yang dijadikan sumber
informasi. Distribusi jawaban kedua kelompok ini untuk setiap butir
dimasukkan dalam satu tabel seperti contoh di bawah ini.
1. Butir Soal Nomor 1
Tabel 3.4 Contoh Distribusi Jawaban
Kelompok Pilihan
A B* C D
Atas 0 4 1 0
Bawah 1 2 1 1
Jumlah 1 6 2 1
3.46 Evaluasi Pembelajaran Bahasa Indonesia
Jawaban yang benar adalah B (diberi tanda bintang), kebanyakan peserta
(pada kedua kelompok ini) memilih B. Pengecoh A, C, dan D ada yang
memilih, terutama mereka yang masuk kelompok bawah. Dengan demikian,
dapat disimpulkan bahwa pengecoh berfungsi sebagai jawaban yang salah.
Jadi, butir soal nomor 1 semua pilihan sudah berfungsi.
2. Butir Soal Nomor 2
Tabel 3.5 Contoh Distribusi Jawaban
Kelompok Pilihan
A B* C D
Atas 0 1 1 3
Bawah 0 1 2 2
Jumlah 0 2 3 5
3. Butir Soal Nomor 3
Tabel 3.6 Contoh Distribusi Jawaban
Kelompok Pilihan
A B* C D
Atas 0 1 1 3
Bawah 0 1 2 2
Jumlah 0 2 3 5
1) Prosedur apa saja yang harus ditempuh untuk melakukan analisis tingkat
kesulitan?
2) Prosedur apa yang harus ditempuh untuk melakukan analisis daya beda?
3) Sebutkan ciri-ciri tes yang memenuhi prinsip kepraktisan!
Petunjuk Jawaban Latihan
LATIHAN
Untuk memperdalam pemahaman Anda mengenai materi di atas,
kerjakanlah latihan berikut!
PBIN4302/MODUL 3 3.47
Untuk mengukur keberhasilan Anda dalam menjawab soal pelatihan di
atas, coba Anda cocokkan dengan rambu-rambu jawaban berikut ini.
1) Prosedur yang harus ditempuh untuk menghitung tingkat kesulitan butir
soal dilakukan berikut.
a. Susunlah urutan peserta tes berdasarkan skor yang diperolehnya,
mulai dari skor tertinggi sampai skor terendah.
b. Bagilah peserta tes tersebut menjadi dua kelompok yang sama
jumlahnya. Apabila jumlah peserta tes ganjil, peserta yang di
tengah-tengah tak usah dimasukkan dalam salah satu kelompok.
Kelompok pertama dinamakan kelompok prestasi tinggi (kelompok
atas) dan kelompok kedua dinamakan kelompok prestasi rendah
(kelompok bawah). Apabila jumlah peserta cukup besar (lebih dari
50), diambil 27% dari kelompok atas dan 27% dan kelompok
bawah.
c. Hitunglah jumlah kelompok atas yang menjawab benar terhadap
butir soal yang akan dihitung tingkat kesulitannya. Demikian pula
untuk kelompok bawah.
d. Hitunglah proporsi peserta yang menjawab benar terhadap butir soal
tersebut untuk masing-masing kelompok.
e. Hitung dengan rumus tingkat kesulitan (P).
2) Prosedur yang harus ditempuh untuk menghitung daya beda dilakukan
berikut.
a. Susunlah urutan peserta tes berdasarkan skor yang diperolehnya,
mulai dari skor tertinggi sampai skor terendah.
b. Bagilah peserta tes tersebut menjadi dua kelompok yang sama
jumlahnya. Apabila jumlah peserta tes ganjil, peserta yang di
tengah-tengah tak usah dimasukkan dalam salah satu kelompok.
Kelompok pertama dinamakan kelompok prestasi tinggi (kelompok
atas) dan kelompok kedua dinamakan kelompok prestasi rendah
(kelompok bawah). Apabila jumlah peserta cukup besar (lebih dari
50), diambil 27% dari kelompok atas dan 27% dan kelompok
bawah.
c. Hitunglah jumlah kelompok atas yang menjawab benar terhadap
butir soal yang akan dihitung daya bedanya. Demikian pula untuk
kelompok bawah.
d. Hitunglah proporsi peserta yang menjawab benar terhadap butir soal
tersebut untuk masing-masing kelompok.
3.48 Evaluasi Pembelajaran Bahasa Indonesia
e. Kurangilah proporsi kelompok atas dari kelompok bawah dan
diperoleh indeks daya beda butir soal tersebut.
3) Tes yang praktis adalah tes yang memenuhi syarat berikut.
a. Mudah dilaksanakan, misalnya tidak menuntut peralatan yang
banyak dan memberikan kebebasan kepada siswa untuk
mengerjakan terlebih dahulu bagian yang dianggap mudah oleh
siswa.
b. Mudah pemeriksaannya. Itu artinya tes itu dilengkapi dengan kunci
jawaban ataupun pedoman penilaiannya. Untuk soal bentuk objektif,
pemeriksaan akan lebih mudah dilakukan jika dikerjakan oleh siswa
dalam lembar jawaban.
c. Dilengkapi dengan petunjuk-petunjuk yang jelas sehingga dapat
diberikan/diwakili oleh orang lain.
Untuk membantu Anda dalam mempertajam pemahaman Anda terhadap
uraian materi modul ini, sebaiknya Anda membaca rangkuman materi yang
tersaji dalam uraian berikut ini.
Kepraktisan (practicability) suatu instrumen dilihat sejauh mana
soal/instrumen dapat digunakan sesuai dengan kondisi dan situasi ukur
dalam yang ada. Sebuah tes dikatakan memiliki kepraktisan yang tinggi
apabila tes tersebut bersifat mudah dilaksanakan, tidak menggunakan
alat yang rumit, dan mudah pengadministrasiannya. Pada
pelaksanaannya, prinsip kepraktisan tidak boleh mengalahkan validitas
alat penilaian.
Taraf sukar butir sebagai salah satu parameter butir dimaksudkan
untuk menguji seberapa sukar butir untuk dijawab oleh responden. Ada dua cara yang dapat digunakan untuk mengetahui taraf sukar butir atas
dasar jawaban responden, yaitu taraf sukar butir proporsi sederhana
seluruh kelompok responden dan taraf sukar butir proporsi sederhana
kelompok tinggi rendah. Daya beda butir soal ialah indeks yang
menunjukkan tingkat kemampuan butir soal membedakan kelompok
yang berprestasi tinggi (kelompok atas) dari kelompok yang berprestasi
rendah (kelompok bawah) di antara para peserta tes. Karena daya beda
dihitung dari hasil tes kelompok peserta ujian tertentu, dalam
penafsirannya daya beda pun haruslah selalu dikaitkan dengan kelompok
RANGKUMAN
PBIN4302/MODUL 3 3.49
peserta tes (kelompok sampel) tertentu itu. Daya beda suatu butir soal
yang didasarkan pada hasil tes suatu kelompok belum tentu akan berlaku
pada kelompok yang lain, apalagi tingkat kemampuan masing-masing
kelompok peserta tes itu berbeda.
1) Sebuah hasil tes dianalisis proporsi jawaban benarnya dalam kelompok.
Hal ini terkait dengan konsep kesulitan ....
A. butir soal
B. pelaksanaan tes
C. pengolahan tes
D. pembuatan soal
2) Seorang guru menyusun sebuah tes yang mudah dilaksanakan, mudah
pemeriksaannya, dan dilengkapi dengan petunjuk-petunjuk yang jelas
sehingga dapat diberikan/diwakilkan ke orang lain. Guru tersebut
menyusun tes yang memiliki syarat …. A. valid
B. praktis
C. tepercaya
D. ekonomis
3) Hubungan antara kesulitan soal dengan reliabilitas diuraikan sebagai
berikut, yaitu ....
A. tes yang terlalu mudah atau terlalu sulit menyebabkan reliabilitas
rendah
B. tes yang terlalu sulit menyebabkan skor relatif rendah dan
reliabilitas rendah C. tes yang terlalu mudah menyebabkan skor terlalu tinggi dan
menyebabkan reliabilitas tinggi
D. tes yang terlalu mudah menyebabkan reliabilitas tinggi
4) Tes yang terlalu mudah atau terlalu sulit akan menghasilkan hasil tes
yang memiliki ....
a. validitas rendah
b. reliabilitas rendah
c. tingkat kesulitan rendah
d. tingkat kesulitan tinggi
TES FORMATIF 3
Pilihlah satu jawaban yang paling tepat!
3.50 Evaluasi Pembelajaran Bahasa Indonesia
5) Berfungsi tidaknya pilihan pada tes objektif pilihan ganda perlu
diketahui. Untuk menentukan berfungsi tidaknya pengecoh, diadakan
analisis butir soal. Amati hasil siswa berikut.
a) Butir soal nomor 2
Tabel Contoh Distribusi Jawaban
Kelompok Pilihan
A B* C D
Atas 0 1 1 1
Bawah 0 1 2 2
Jumlah 0 2 3 3
Karakteristik pengecoh menurut pendapat Anda adalah ....
A. pengecoh sudah berfungsi karena kebanyakan peserta (pada kedua
kelompok ini) memilih B B. pengecoh sudah berfungsi karena semua option sudah ada yang
memilih
C. pengecoh belum berfungsi karena option A tidak ada yang memilih
D. pengecoh belum berfungsi karena option C dan D dipilih oleh
jumlah siswa yang sama
6) Amati hasil siswa berikut!
b) Butir soal nomor 2
Tabel Contoh Distribusi Jawaban
Kelompok Pilihan
A B* C D
Atas 1 1 1 3
Bawah 1 1 2 2
Jumlah 2 2 3 5
Karakteristik pengecoh pada data di atas adalah ....
A. Pengecoh sudah berfungsi karena kebanyakan peserta (pada kedua
kelompok ini) memilih B B. pengecoh sudah berfungsi karena semua option sudah ada yang
memilih
C. pengecoh belum berfungsi karena pengecoh D dipilih siswa
kelompok atas lebih banyak daripada kelompok rendah
D. pengecoh belum berfungsi karena pengecoh D paling banyak dipilih
siswa yang mengikuti tes pilihan ganda
PBIN4302/MODUL 3 3.51
7) Cara yang dapat digunakan untuk mengetahui taraf sukar butir atas dasar
jawaban responden adalah ....
A. taraf sukar butir proporsi sederhana untuk sebagian responden
B. taraf sukar butir proporsi sederhana kelompok tinggi rendah C. membedakan kelompok atas dan kelompok rendah
D. membedakan kelompok yang berprestasi tinggi
8) Daya beda dihitung dari hasil tes kelompok peserta ujian tertentu.
Implikasi dari penghitungan tersebut adalah ....
A. penafsiran daya beda pun haruslah selalu dikaitkan dengan orang
yang menjadi penilai kelompok peserta tes
B. penafsiran daya beda pun haruslah selalu dikaitkan dengan
kelompok peserta tes (kelompok sampel) tertentu
C. daya beda suatu butir soal yang didasarkan pada hasil tes suatu
kelompok akan berlaku pada kelompok yang lain
D. daya beda suatu butir akan dihitung berdasarkan kelompok atas dan kelompok bawah
9) Daya beda suatu butir soal yang didasarkan pada hasil tes suatu
kelompok belum tentu akan berlaku pada kelompok yang lain. Pendapat
Anda terhadap pernyataan di atas adalah ....
A. pernyataan tersebut benar karena daya beda suatu butir soal
didasarkan pada karakteristik suatu kelompok tertentu
B. pernyataan tersebut benar karena daya beda suatu butir soal
didasarkan pada kesulitan soal
C. pernyataan tersebut salah karena daya beda suatu butir soal relatif
sama untuk siswa pada kelas yang sama D. pernyataan tersebut salah karena daya beda suatu butir soal dapat
diberlakukan pada siswa lain yang berada di wilayah sama
10) Kepraktisan penggunaan suatu tes tidak boleh mengalahkan validitas
suatu alat. Alasan yang tepat dari pernyataan tersebut diuraikan berikut
adalah ....
A. soal yang valid menghasilkan skor yang ajek dan yang mudah
digunakan
B. tes yang mudah dilaksanakan belum tentu mengukur apa yang
seharusnya diukur
C. kemudahan mengadministrasikan suatu tes berkaitan langsung
dengan validitas isi D. karakteristik hasil belajar tertentu ada yang sangat sulit
diadministrasikan
3.52 Evaluasi Pembelajaran Bahasa Indonesia
Cocokkanlah jawaban Anda dengan Kunci Jawaban Tes Formatif 3 yang
terdapat di bagian akhir modul ini. Hitunglah jawaban yang benar. Kemudian, gunakan rumus berikut untuk mengetahui tingkat penguasaan
Anda terhadap materi Kegiatan Belajar 3.
Arti tingkat penguasaan: 90 - 100% = baik sekali
80 - 89% = baik
70 - 79% = cukup
< 70% = kurang
Apabila mencapai tingkat penguasaan 80% atau lebih, Anda dapat
meneruskan dengan modul selanjutnya. Bagus! Jika masih di bawah 80%,
Anda harus mengulangi materi Kegiatan Belajar 3, terutama bagian yang
belum dikuasai.
Tingkat penguasaan = Jumlah Jawaban yang Benar
100%Jumlah Soal
PBIN4302/MODUL 3 3.53
Kunci Jawaban Tes Formatif
Tes Formatif 1
1) A. Valid berkaitan dengan ketepatan alat ukur dan option yang lain
berkaitan dengan kepraktisan.
2) A. Penjabaran indikator dari suatu kompetensi berkaitan erat dengan
validitas konstruk.
3) C. Validitas ramalan berfokus pada penggunaan suatu tes untuk
meramalkan keberhasilan dalam bidang tertentu.
4) D. Mengolah hasil bukan bagian langkah untuk mendapatkan validitas
isi.
5) B. Untuk mendapatkan validitas tinggi, diperlukan kajian konstruk
suatu kompetensi dan menjabarkannya menjadi indikator-indikator.
6) B. Validitas konstruk dapat dibuktikan dengan analisis logis dan dapat
juga dilakukan kajian empiris dengan analisis faktor.
7) A. Validitas bandingan mengujicobakan soal dan mencari validitas
dibandingkan dengan kriteria.
8) B. Validitas bandingan perlu uji coba secara empiris.
9) A. Validitas isi berkaiatan dengan pembandingan soal dengan isi
kurikulum.
10) C. Validitas tes untuk mengukur keterampilan.
Tes Formatif 2
1) A. Keajekan alat ukur termasuk pada konsep reliabilitas, ketepatan
berkaitan dengan validitas.
2) B. Menambah jumlah butir merupakan upaya meningkatkan
reliabilitas.
3) A. Tes objektif memiliki reliabilitas yang tinggi karena penambahan
soal, option yang lain tidak tepat.
4) C. Hasil yang relatif sama dari beberapa kali pengukuran pada subjek
yang sama.
5) A. Mengorelasikan hasil koreksi beberapa korektor keajekan hasil.
6) B. Hasil relatif sama untuk beberapa kali pengukuran pada subjek yang
sama.
7) A. Paralel tes yang digunakan merupakan bukti bahwa pengujiannya
teknik paralel.
3.54 Evaluasi Pembelajaran Bahasa Indonesia
8) C. Menggunakan rubrik yang jelas merupakan upaya memenuhi
reliabilitas antarkorektor.
9) B. Analisis reliabilitas dilakukan terhadap butir-butir yang sudah valid
saja tidak menjamin validitas tinggi.
10) A. Semakin multitafsir, semakin tidak konsiten hasil beberapa korektor.
Tes Formatif 3
1) A. Kesulitan butir soal adalah proporsi jawaban benar kelompok.
Option yang lain hanya teknis tidak berkaitan dengan proporsi.
2) B. Prinsip praktis dalam evaluasi berkaitan dengan kemudahan
pelaksanaan dan pengadministrasian suatu tes.
3) A. Soal terlalu mudah atau terlalu sulit cenderung menghasilkan skor
reliabilitas rendah karena akan menghasilkan sebaran skor yang
cenderung terbatas pada salah satu sisi.
4) B. Reliabilitas rendah karena soal terlalu sulit atau terlalu mudah.
Fenomena tersebut akan menghasilkan sebaran skor yang cenderung
terbatas pada salah satu sisi.
5) C. Pengecoh belum berfungsi karena ada pengecoh yang pemilihnya 0
atau tidak ada yang memilih, yaitu pengecoh A.
6) C. Pengecoh belum berfungsi jika ada pengecoh yang dipilih kelompok
atas lebih banyak daripada kelompok rendah.
7) B. Taraf sukar butir ditentukan proporsi sederhana kelompok tinggi-
rendah, bukan kelompok tinggi ATAU rendah saja.
8) B. Penafsiran daya beda haruslah selalu dikaitkan dengan sampel yang
diuji coba dengan soal tersebut, BUKAN penilainya dan tidak
berlaku pada kelompok lain.
9) A. Benar karena daya beda ditentukan oleh karakteristik soal tertentu,
BUKAN wilayah atau tingkat kesulitan soal.
10) B. Tes yang mudah dilaksanakan belum tentu mengukur apa yang
diukur/belum tentu valid sehingga yang terpenting adalah kevalidan
suatu tes.
PBIN4302/MODUL 3 3.55
Glosarium
Daya beda soal : indeks yang menunjukkan tingkat kemampuan butir
soal membedakan kelompok yang berprestasi tinggi
(kelompok atas) dan kelompok yang berprestasi
rendah (kelompok bawah).
Kepraktisan : alat penilaian yang dapat dilakukan guru dengan
kondisi yang ada, kemudahan dilaksanakan, dan
berisi perintah yang jelas.
Reliabilitas : kemampuan alat ukur tersebut memberikan hasil
yang konsisten (sejauh mana pengukuran itu dapat
memberikan hasil yang relatif tidak berbeda apabila
dilakukan pengukuran kembali terhadap subjek yang
sama).
Taraf sukar butir : proporsi responden yang dapat atau tidak dapat
menjawab butir dengan betul (taraf sukar butir
sebagai salah satu parameter butir dimaksudkan
untuk menguji seberapa sukar butir untuk dijawab
oleh responden).
Validitas : sejauh mana ketepatan dan kecermatan suatu alat
ukur dalam melakukan fungsi ukurnya. Alat memiliki
validitas tinggi jika mengukur apa yang seharusnya.
Validitas
bandingan
: validitas tes yang diperoleh dengan membandingkan
hasil tes sejenis di masa lalu.
Validitas isi : validitas isi menunjukkan sejauh mana pertanyaan,
tugas atau butir tes mampu mewakili secara
keseluruhan dan proporsional perilaku sampel. Untuk
mengetahui validitas isi, penulis soal perlu menelaah
kesesuaian tes yang telah disusun sesuai dengan
kurikulum (standar isi).
Validitas
konstruk
: kesanggupan alat ukur mengukur bangunan
pengertian yang diukur (seberapa jauh butir-butir tes
mampu mengukur apa yang benar-benar hendak
diukur sesuai dengan bangunan konsep yang telah
ditetapkan). Toh, kesahihan bandingan tes menulis,
misalnya, dapat ditentukan dengan cara
3.56 Evaluasi Pembelajaran Bahasa Indonesia
membandingkan tes menulis dengan tes yang sejenis
masa lampau. Dari hasil perbandingan yang
dilakukan dengan menggunakan teknik statistik, akan
dapat diketahui tingkat kesahihannya.
Validitas
ramalan
: kemampuan tes untuk meramalkan apa yang akan
terjadi pada masa yang akan datang (mampu
meramalkan keberhasilan peserta tes di masa yang
akan datang).
PBIN4302/MODUL 3 3.57
Daftar Pustaka
Aiken, Lewis R. 2004. Psychological Testing and Assessment. Boston: Allyn
and Bacon Inc.
Alderson, Charles. 2000. Assessing Reading. London: Cambridge University
Press.
Athanasou, James. 2002. A Teacher’s Guide to Assessment. Sidney: Social
Science Press.
Azwar, Saifuddin. 2003. Penyusunan Skala Psikologi. Yogyakarta: Pustaka
Pelajar.
Baker, David. 1998. Language Testing. London: Edward Arnold Publishing.
Brown, H. Douglas. 2004. Language Assessment: Principles and Classroom
Practice. New York: Pearson Education, Inc.
Cronbach, J. Lee. 1984. Essentials of Psychological Testing. New York:
Harper and Row Publisher.
Djaali dan Pudji Muljono. 2008. Pengukuran dalam Pendidikan. Jakarta:
Grasindo.
Elidjen. 2005. Innovation and Creative Thinking Skills. Jakarta: Binus
University.
McDavid, James C. dan Laura R.L. Hawthorn. 2006. Program Evaluation
and Performance Measurement. New Delhi: Sage Publications India Pvt.
Ltd.
Harsiati, Titik. 2003. Pengembangan Penilaian Berbasis Kelas. Jakarta:
Direktorat SMP.
Marzano, Robert J. dan John S. Kendall. 2007. Taxonomy of Educational
Objectives. California: Corwin Press.
McMillan, H. James. 2008. Assessment Essential for Standards-Based
Education. California: Corwin Press.