portofolio evaluasi pendidikan
TRANSCRIPT
1
PORTOFOLIO EVALUASI PENDIDIKAN
1.
TES DAN
NONTES
2
PORTOFOLIO EVALUASI PENDIDIKAN
1. Konsep Dasar Evaluasi Pendidikan Menggunakan Teknik Penilaian Tes dan Non Tes.
Evaluasi merupakan kegiatan yang terencana untuk mengetahui keaadaan sesuatu
obyek dengan menggunakan instrumen dan hasilnya dibandingkan dengan tolok ukur untuk
memperoleh kesimpulan (Thoha, 2003 :1).
Tujuan evaluasi di antaranya adalah pertama, dilihat dari pendekatan proses. Kegiatan
pendidikan secara sederhana dapat digambarkan dalam segitiga sebagaimana dikemukakan
oleh David McKay sebagai berikut :
(Julian Stanley dan Kenneth D Hopkins, 1978 : 6)
Berdasarkan gambar tersebut dapat diketahui hubungan antara tujuan pendidikan,
proses belajar mengajar, dan prosedur evaluasi. Tujuan pendidikan akan mengarahkan
bagaimana pelaksanaan proses belajar mengajar yang seharusnya dilaksanakan, sekaligus
merupakan kerangka acuan untuk melaksanakan kegiatan evaluasi hasil belajar. Pelaksanaan
proses belajar mengajar juga berkepentingan akan adanya perumusan tujuan yang baik, dan
prosedur evaluasi haruslah memperhatikan pelaksanaan proses belajar mengajar. Evaluasi
memiliki dua kepentingan yakni untuk mengetahui apakah tujuan pendidikan sudah tercapai
dengan baik dan juga untuk memperbaiki serta mengarahkan pelaksanaan proses belajar
mengajar.
Educational Objectives
Evaluation Procedures
Learning Experiences
3
PORTOFOLIO EVALUASI PENDIDIKAN
Kedua, kegiatan mengevaluasi terhadap hasil belajar merupakan salah satu ciri dari
pendidik professional. Karena pendidik professional dituntut untuk mampu menyusun
rencana belajar mengajar, mengorganisasikan, menata, mengendalikan, membimbing dan
membina proses belajar mengajar secara relevan, evisien, dan efektif, menilai program dan
hasil belajar, dan mendiagnosis faktor-faktor yang mempengaruhi tingkat keberhasilan proses
belajar bagi dapat disempurnakannya proses belajar mengajar selanjutnya.
Ketiga, bila dilihat dari pendekatan kelembagaan, kegiatan pendidikan merupakan
kegiatan manajemen, yang meliputi kegiatan planning, programming, organizing, actuating,
controlling dan evaluating. Jika semua fungsi manajemen tersebut tidak dilaksanakan dengan
baik, maka dapat dipastikan bahwa dalam pelaksanaan program terjadi penyimpangan maka
tujuan tidak akan tercapai.
Ada beberapa istilah yang sering digunakan untuk pengertian yang serupa dengan
evaluasi, yaitu measurement (pengukuran) yang berarti proses untuk menentukan luas atau
kuantitas sesuatu (GW Brown, 1957 : 1). Hasil suatu pengukuran belum banyak memiliki arti
sebelum ditafsirkan dengan jalan membandingkan hasil pengukuran dengan standar atau
patokan yang telah ditentukan sebelumnya. Dalam penilaian pendidikan patokan itu dapat
berupa batas minimal kompetensi materi pelajaran yang harus dikuasai, atau rata-rata nilai
yang diperoleh oleh kelompok. Sebagai contoh, peserta didik yang memperoleh skor tujuh
(7), dapat berarti memiliki nilai rendah apabila dibandingkan dengan rata-rata kelompok yang
memiliki nilai delapan (8), tetapi nilai tersebut dikatakan tinggi jika dibandingkan dengan
standar nilai kelulusan yang misalnya hanya memerlukan nilai lima (5).
Selain pengukuran, ada pula istilah assessment (penaksiran). Pengertian assessment
tidak sampai ke tahap evaluasi, melainkan sekedar mengukur dan mengadakan estimasi
terhadap hasil pengukuran.
Yang ketiga adalah tes dan non tes (penggunaan alat pengukuran) : tes adalah
pertanyaan-pertanyaan yang harus dijawab dan atau perintah-perintah yang harus dijalankan,
yang mendasarkan harus bagaimana testee menjawab pertanyaan-pertanyaan atau melakukan
perintah-perintah itu penyelidik mengambil kesimpulan dengan cara membandingkannya
dengan standar atau testee yang lain (Suryabrata, 1983 : 22). Sedangkan yaitu non tes adalah
teknik evaluasi yang tidak menggunakan perangkat soal yang harus dikerjakan oleh peserta
didik. Teknik-teknik non tes juga menempati kedudukan yang penting dalam rangka evaluasi
hasil belajar, lebih-lebih evaluasi yang berhubungan dengan kondisi kejiwaan peserta didik,
seperti persepsinya terhadap mata pelajaran tertentu, persepsinya terhadap guru, minatnya,
4
PORTOFOLIO EVALUASI PENDIDIKAN
bakatnya, tingkah laku atau sikapnya dan sebagainya, yang kesemuanya itu tidak mungkin
dievaluasi dengan menggunakan tes sebagai alat pengukurnya.
2. Jenis Tes dan Non Tes.
Secara umum, tes dibedakan berdasarkan obyek pengukurannya dapat dibagi menjadi
dua, yaitu tes kepribadian (personality test) dan tes hasil belajar (achievement test) (Thoha,
2003 : 44-46). Tes dapat dibedakan menjadi beberapa jenis atau golongan, tergantung dari
segi mana atau dengan alasan apa penggolongan tes itu dilakukan. Pertama, penggolongan tes
berdasarkan fungsinya sebagai alat pengukur perkembangan/ kemajuan belajar peserta didik,
dibedakan menjadi tes seleksi, tes awal, tes akhir, tes diagnostik, tes formatif, dan tes sumatif.
Kedua, penggolongan tes berdasarkan aspek psikis yang ingin diungkap, tes setidak-tidaknya
dapat dibedakan menjadi lima golongan, yaitu tes intelegensi, tes kemampuan, tes sikap, tes
kepribadian, dan tes hasil belajar. Ketiga, penggolongan tes berdasarkan jumlah orang yang
mengikuti tes, tes dapat dibedakan menjadi dua golongan, yaitu tes individual dan tes
kelompok. Keempat, penggolongan tes berdasarkan waktu yang disediakan, tes dapat
dibedakan menjadi dua golongan, yaitu power test dan speed test. Kelima, penggolongan
berdasarkan bentuk respon, tes dapat dibedakan menjadi dua golongan, yaitu verbal test dan
nonverbal test. Keenam, penggolongan tes berdasarkan cara mengajukan pertanyaan dan cara
memberikan jawaban apabila, tes dapat dibedakan menjadi dua golongan, yaitu tes tertulis
(pencil and paper test), dan tes lisan. Ketujuh, tes dibedakan berdasarkan tingkatnya terdiri
dari tes standard an nonstandard.
Tes seleksi sering dikenal dengan istilah “ujian ringan” atau “ujian masuk”. Tes ini
dilaksanakan dalam rangka penerimaan calon siswa baru, di mana hasil tes digunakan untuk
memilih calon peserta didik yang tergolong paling baik dari sekian banyak calon yang
mengikuti tes. Materi tes pada tes seleksi merupakan materi prasyarat untuk mengikuti
program pendidikan yang akan diikuti oleh calon peserta didik. Isi materi terdiri atas butir-
butir soal yang cukup sulit.
Tes awal sering dikenal dengan istilah pre-test. Tes jenis ini dilaksanakan dengan
tujuan untuk mengetahui sejauh manakah materi atau bahan pelajaran yang akan diajarkan
telah dapat dikuasai oleh para peserta didik. Jadi tes awal adalah tes yang dilaksanakan
sebelum bahan pelajaran diberikan kepada peserta didik. Karena itu maka butir-butir soalnya
dibuat yang mudah-mudah.
Tes akhir sering dikenal dengan post-test. Tes akhir dilaksanakan dengan tujuan untuk
mengetahui apakah semua materi pelajaran yang tergolong penting sudah dapat dikuasai
5
PORTOFOLIO EVALUASI PENDIDIKAN
dengan sebaik-baiknya oleh para peserta didik. Isi materi tes akhir adalah bahan-bahan
pelajaran yang tergolong penting.
Tes diagnostik adalah tes yang dirancang khusus untuk mengetahui kelemahan-
kelemahan konsep atau miskonsepsi yang berada di dalam diri peserta didik sehingga dapat
segera dideteksi sedini mungkin oleh guru untuk diberikan bantuan atau terapi yang tepat
agar tidak terjadi kesulitan belajar yang lebih besar di kemudian hari (Suwarto, 2013 : v).
Tes formatif adalah tes hasil belajar yang bertujuan untuk mengetahui, sudah sejauh
manakah peserta didik “telah terbentuk” (sesuai dengan tujuan pengajaran yang telah
ditentukan) setelah mereka mengikuti proses pembelajaran dalam jangka waktu tertentu. Tes
formatif ini biasanya dilaksanakan ditengah-tengah pelajaran program pengajaran, yaitu
dilaksanakan pada setiap kali satuan pelajaran atau sub pokok bahasan terakhir atau dapat
diselesaikan tes ini biasanya disebut dengan “Ulangan Harian”.
Tes sumatif adalah tes hasil belajar yang dilaksanakan setelah sekumpulan satuan
program pengajaran selesai diberikan. Di sekolah tes ini dikenal dengan istilah “Ulangan
Umum” atau “EBTA” (Evaluasi Belajar Tahap Akhir) atau Ujian Akhir Semester (UAS)
dimana hasilnya digunakan untuk mengisi rapor atau mengisi ijazah (STTB). Tes sumatif
dilaksanakan secara tertulis, agar semua siswa memperoleh soal yang sama. Butir-butir soal
yang dikemukakan dalam tes sumatif ini pada umumnya juga lebih sulit atau lebih berat
daripada butir-butir soal tes formatif.
Tes intelegensi yaitu tes yang dilaksanakan dengan tujuan untuk mengungkapkan atau
mengetahui tingkat kecerdasan seseorang.
Tes kemampuan yaitu tes yang dilaksanakan dengan tujuan untuk mengungkap
kemampuan dasar atau bakat khusus yang dimiliki oleh testee.
Tes sikap yaitu tes yang dipergunakan untuk mengungkap predis posisi atau
kecendrungan seseorang untuk melakukan suatu respon tertentu terhadap dunia sekitarnya,
baik berupa individu-individu maupun obyek-obyek tertentu.
Tes kepribadian yaitu tes yang dilaksanakan dnegan tujuan mengungkapkan ciri-ciri
khas dari seseorang yang banyak sedikitnya bersifat lahiriah, seperti gaya bicara, cara
berpakaian, nada suara, dan lain-lain.
Tes hasil belajar yaitu tes yang biasa digunakan untuk mengungkapkan tingkat
pencapaian atau prestasi belajar.
Tes individu yakni tes di mana tester hanya berhadapan dengan satu orang testee saja,
sedangkan tes kelompok yakni tes di mana tester berhadapan dengan lebih dari satu orang
testee.
6
PORTOFOLIO EVALUASI PENDIDIKAN
Power test yakni tes di mana waktu yang disediakan bagi testee untuk menyelesaikan
tes tersebut tidak dibatasi, sedangkan speed test yakni tes di mana waktu yang disediakan
buat testee untuk menyelesaikan tes tersebut dibatasi.
Tes verbal adalah tes yang menghendaki respon (jawaban) yang tertuang dalam bentuk
ungkapan kata-kata atau kalimat, baik secara lisan maupun secara tertulis, sedangkan
antonimnya nonverbal test yakni tes yang menghendaki respon (jawaban) dari testee bukan
berupa ungkapan kata-kata atau kalimat, melainkan berupa tindakan atau tingkah laku. Jadi
respon yang dikehendaki muncul dari testee adalah berupa perbuatan atau gerakan-gerakan
tertentu.
Tes tulis, yang dibedakan menjadi dua, yaitu tes obyektif (terstruktur) dan tes subyektif
(uraian). Tes obyektif adalah tes yang terdiri dari butir-butir yang dapat dijawab dengan
memilih alternatif yang tersedia, atau dengan mengisi jawaban yang benar dengan beberapa
perkataan/simbol (Suwarto, 2013 : 34). Sedangkan tes subyektif adalah tes yang terdiri dari
soal-soal yang memiliki jawaban berupa uraian.
Tes obyektif sendiri dibedakan lagi menjadi beberapa, yaitu short-answer objective
items yang berfungsi mengukur kemampuan hafalan/ingatan, completion test (melengkapi
soal yang rumpang/kosong), true-false test yaitu tes yang itemnya mengandung statement
yang mengandung dua kemungkinan yaitu benar dan salah, multiple choice test, dan test
bentuk matching.
Tes lisan yaitu tes yang dilaksanakan secara lisan.
Tes standar adalah tes yang disusun oleh tim ahli atau lembaga khusus berdasarkan
standar tertentu sehingga memiliki validitas tinggi dan memungkinkan untuk diterapkan
secara nasional. Misalnya Ujian Nasional.
Tes non standar adalah tes yang disusun oleh seorang pendidik dan belum tersusun
dengan baik, sehingga validitas dan reliabilitasnya belum dapat dipertanggunggjawabkan.
Sedangkan evaluasi mengenai kemajuan perkembangan atau keberhasilan peserta didik
tanpa menguji (non tes) dibedakan menjadi beberapa, yaitu observasi, angket (kuisioner),
wawancara, sosiometri, otobiografi, dan inventory (DCM).
Observasi atau pengamatan adalah cara menghimpun bahan-bahan keterangan yang
dilakukan dengan mengadakan pengamatan dan pencatatan secara sistematis terhadap
fenomena-fenomena yang sedang dijadikan sasaran pengamatan. Alat yang digunakan berupa
lembar observasi yang disusun dalam bentuk check list atau skala penilaian. Tujuannya
adalah untuk mengumpulkan data dan informasi mengenai suatu fenomena dan untuk
mengukur perilaku kelas, interaksi, dan kecakapan sosial.
7
PORTOFOLIO EVALUASI PENDIDIKAN
Pada dasarnya, kuisioner adalah sebuah daftar pertanyaan yang harus diisi oleh orang
yang akan diukur (responden). Dengan kuisioner dapat diketahui tentang keadaan atau data
diri, pengalaman, pengetahuan sikap atau pendapatnya. Angket dapat juga digunakan sebagai
alat penilaian hasil belajar maupun penilaian terhadap pendidik.
Wawancara (interview) secara umum dapat diartikan sebagai cara menghimpun bahan-
bahan keterangan yang dilaksanakan dengan melakukan tanya jawab lisan secara sepihak.
Dikatakan sepihak karena dalam wawancara, responden tidak diberi kesempatan sama sekali
untuk mengajukan pertanyaan. Pertanyaan hanya alat yang digunakan adalah pedoman
wawancara yang mengacu pada tujuan yang telah ditetapkan. Wawancara adalah pertemuan
antarpribadi yang dilakukan secara informal antara seorang atau sejumlah murid dengan
seorang dewasa untuk memperoleh pendapat otoritatif atas keterangan-keterangan informal
mengenai beberapa hal.
Sosiometri adalah salah satu teknik untuk mengumpulkan data mengenai hubungan
sosial dan tingkah laku individu. Melalui teknik ini dapat diperoleh data tentang situasi
hubungan sosial antar individu dalam kelompok, struktur sosial, dan arah hubungan sosialnya
sehingga dari data sosiometri ini dapat diketahui tingkat pergaulan antar individu, kelompok,
dan popularitas sesesorang dalam lingkungannya (Nurhidayah & Indreswari, 1991 : 46).
Otobiografi (riwayat hidup) adalah gambaran tentang keadaan seseorang selama dalam
masa kehidupannya. Dengan mempelajari riwayat hidup, maka subjek evaluasi akan dapat
menarik suatu kesimpulan tentang kepribadian, kebiasaan, dan sikap dari objek yang dinilai.
Otobiografi ini biasanya berisi tentang kapan dan dimana peserta didik dilahirkan, agama
yang dianut, kedudukan anak di dalam keluarga misalnya anak kandung atau anak tiri beserta
data-data yang berkaitan dengan anak peserta didik lainnya. Selain itu, di samping dokumen
yang memuat data-data mengenai peserta didik, dokumen juga memuat informasi mengenai
peserta didik, seperti informasi mengenai nama, tempat tinggal, tempat dan tanggal lahir,
tingkat jenjang pendidikan, rata-rata penghasilan setiap bulan, berkerja dalam bidang apa dan
sebagainya yang berhubungan dengan informasi-informasi mengenai orang tua peserta didik.
Inventory (daftar cek masalah) merupakan salah satu alat yang dipakai untuk
mengetahui adanya masalah yang dihadapi individu dengan secara langsung menggunakan
daftar kemungkinan masalah yang disusun untuk merangsang atau memancing pengutaraan
masalah yang pernah atau sedang dialami oleh seseorang (Nurhidayah & Indreswari, 1991 :
68).
3. Manfaat Tes dan Non Tes.
8
PORTOFOLIO EVALUASI PENDIDIKAN
Searah dengan tujuannya, secara umum pembuatan tes dan non tes memiliki manfaat,
di antaranya untuk mengetahui keberhasilan guru dalam melaksanakan kegiatan
pembelajaran, kemampuan memecahkan masalah, proses berpikir terutama melihat hubungan
sebab akibat, serta kemampuan menggunakan bahasa lisan. Selain itu tes juga bertujuan
untuk mengetahui tingkat kemampuan peserta didik, mengukur pertumbuhan dan
perkembangan peserta didik, mendiagnosis kesulitan belajar peserta didik, mengetahui hasil
pengajaran, mengetahui hasil belajar, mengetahui pencapaian kurikulum, mendorong peserta
didik belajar, dan mendorong guru agar mengajar lebih baik (Mardapi, 2004 : 72). Sedangkan
berdasarkan macam-macamnya,tes dan non tes memiliki manfaat sebagai berikut :
1. Tes seleksi bermanfaat untuk mengukur kemampuan dasar yang dimiliki peserta
didik, yang mana kemampuan tersebut dapat digunakan untuk meramalkan
kemampuan peserta didik sehingga untuk ke depannya dia bisa dibimbing atau di
arahkan ke jurusan yang sesuai dengan kemampuannya.
2. Tes formatif bertujuan untuk pembinaan dan perbaikan proses belajar mengajar.
Sehingga setelah dilaksanakannya tes formatif, perlu dilakukan tindak lanjut yaitu
jika materi yang diteskan itu telah dikuasai dengan baik, maka pembelajaran
dilanjutkan dengan pokok bahasan yang baru, namun jika ada bagian-bagian yang
belum dikuasai, maka sebelum melanjutkan dengan pokok bahasan yang baru,
terlebih dahulu diulangi atau dijelskan lagi bagian-bagian yang belum dikuasai oleh
peserta didik, hal ini sering disebut remidial.
3. Tes sumatif bertujuan untuk mengukur keberhasilan peserta didik secara
menyeluruh, mengujikan materi secara menyeluruh juga selama satu semester.
Tingkat kesukaran soal pada tes sumatif bervariasi, sedang materinya harus
mewakili bahan yang telah diajarkan (Mardapi, 2004 :72).
4. Manfaat tes diagnostik adalah untuk mengetahui kesulitan belajar yang dihadapi
peserta didik, termasuk kesalah pemahaman konsep. Tes diagnosis dilakukan
apabila diperoleh informasi bahwa sebagian besar peserta didik gagal dalam
mengikuti proses pembelajaran pada mata pelajaran tertentu (Suwarto, 2013 : 94).
5. Manfaat tes standar adalah untuk membandingkan tes belajar dengan pembawaan
individual atau kelompok, membandingkan tingkat prestasi peserta didik dalam
ketrampilan di berbagai bidang studi untuk individu atau kelompok,
membandingkan prestasi peserta didik berbagai sekolah atau kelas, serta
mempelajari perkembangan peserta didik dalam suatu periode atau waktu tertentu
(Arikunto, 1984 : 113)
9
PORTOFOLIO EVALUASI PENDIDIKAN
6. Manfaat tes non standar adalah untuk melaksanakan tes-tes yang bersifat realistik
seperti tes formatif dan tes diagnostik yang memang dirancang sesuai dengan
keaadaan peserta didik serta proses belajar mengajar pada suatu tingkat dan
lembaga tertentu yang memang tidak dapat distandardisasikan.
7. Secara umum, tes obyektif dan subyektif memiliki fungsi yang sama yaitu untuk
mengukur pemahaman dan hasil belajar peserta didik pada mata pelajaran tertentu
hanya saja tekniknya berbeda.
8. Tujuan tes lisan adalah untuk menilai kemampuan memecahkan masalah, proses
berpikir terutama melihat hubungan sebab akibat, kemampuan menggunakan
bahasa lisan, serta kemampuan mempertanggungjawabkan pendapat atau konsep
yang dikemukakan.
9. Observasi bertujuan untuk mengumpulkan data dan informasi mengenai suatu
fenomena dan untuk mengukur perilaku kelas, interaksi, dan kecakapan sosial.
10. Kuisioner bertujuan untuk mengetahui tentang keadaan atau data diri, pengalaman,
pengetahuan sikap atau pendapatnya, dapat juga digunakan sebagai alat penilaian
hasil belajar maupun penilaian terhadap pendidik.
11. Tujuan wawancara adalah untuk menghimpun bahan-bahan keterangan dengan cara
melakukan tanya jawab lisan secara sepihak.
12. Sosiometri bertujuan untuk memperoleh data tentang situasi hubungan sosial antar
individu dalam kelompok, struktur sosial, dan arah hubungan sosialnya sehingga
dari data sosiometri ini dapat diketahui tingkat pergaulan antar individu, kelompok,
dan popularitas sesesorang dalam lingkungannya
13. Tujuan mempelajari riwayat hidup adalah dapat menarik suatu kesimpulan tentang
kepribadian, kebiasaan, dan sikap dari objek yang dinilai. untuk mengetahui adanya
masalah yang dihadapi individu dengan secara langsung menggunakan daftar
kemungkinan masalah yang disusun untuk merangsang atau memancing
pengutaraan masalah yang pernah atau sedang dialami oleh seseorang
4. Kelebihan dan Kekurangan Penilaian Menggunakan Teknik Tes dan Non Tes.
1. Tes subyektif memiliki kelebihan di antaranya mudah disiapkan dan disusun, tidak
memberi banyak kesempatan untuk berspekulasi atau untung-untungan,
mendorong peserta didik untuk berani mengemukakan pendapat serta menyusun
dalam kalimat yang baik, memberi kesempatan kepada peserta didik untuk
mengutarakan maksudnya dengan gaya bahasa dan caranya sendiri, serta dapat
diketahui sejauh mana peserta didik mendalami suatu masalah yang diteskan
10
PORTOFOLIO EVALUASI PENDIDIKAN
(Arikunto, 2001 : 163). Selain itu kelebihan menggunakan tes subyektif adalah
melatih peserta didik untuk memilih fakta yang relevan dengan persoalan, serta
mengorganisasikannya sehingga dapat diungkapkan menjadi satu hasil pemikiran
terintegrasi secara utuh dan tepat untuk mengukur kemampuan analitik, sintetik,
dan evaluatif (Thoha, 2003 :56). Keunggulan tes subyektif diungkapkan oleh
Walstad dapat dilihat dari tiga sudut pandang, yaitu guru, peserta didik, dan tes itu
sendiri. Kelebihan itu adalah (1) tes uraian mempunyai potensi yang besar untuk
menilai tingkat pemahaman peserta didik yang lebih tinggi; (2) para peserta didik
memiliki kebebasan untuk memilih, menyiapkan, dan menyajikan gagasan di
dalam kata-kata mereka sendirisebagai jawaban atas pertanyaan uraian; (3) guru
mempunyai kesempatan untuk melihat peserta didiknya membuat jawaban dan
tidak hanya memilih jawaban yang terbaik dari empat atau lima pilihan yang
ditetapkan, seperti pada tes pilihan ganda; (4) tes uraian juga lebih baik untuk tes
prestasi yang kompleks berhubungan dengan aplikasi konsep, analisis
permasalahan, atau evaluasi keputusan (Walstad, 2006 : 6).
Karena dalam tes subyektif ini peserta didik diberi kebebasan memilih dan
menentukan jawaban maka hal tersebut berakibat pada timbulnya variasi jawaban
yang berakibat pula pada variasi tingkat kebenaran dan kesalahan yang pada
akhirnya berakibat pada subyektifitas penilai. Sehingga tes subyektif memiliki
beberapa kelemahan, yaitu kadar validitas dan reabilitas rendah karena sukar
diketahui segi-segi mana dari pengetahuan peserta didik yang betul-betul telah
dikuasai, kurang representatif dalam hal mewakili seluruh bahan pelajaran yang
akan dites karena soalnya terbatas, cara memeriksanya banyak dipengaruhi oleh
unsur – unsur subyektif, pemeriksaannya lebih sulit sebab membutuhkan
pertimbangan individual lebih banyak dari penilai, serta waktu waktu untuk
koreksinya lama dan tidak dapat diwakilkan kepada orang lain. Selain itu
kelemahan yang lain adalah bahan yang diujikan relatif sedikit sehingga cukup
sulit mengukur penguasaan peserta didik terhadap keseluruhan kurikulum, soal
jenis subyektif ini bila digunakan secara terus-menerus dapat berakibat peserta
didik belajar secara untung-untungan, ia hanya mempelajari soal-soal yang sering
dikeluarkan, materi yang jarang keluar tidak pernah dibaca, variasi jawaban terlalu
banyak menyebabkan banyaknya tingkat kebenaran sehingga tidak ada kata multak
dalam menetapkan criteria benar atau salah, pemberian skor jawaban tiadak
reliable sebab ada faktor-faktor lain yang berpengaruh seperti tulisan peserta didik,
11
PORTOFOLIO EVALUASI PENDIDIKAN
kelelahanan penilai, situasi saat penilaian, dan sebagainya, membutuhkan banyak
waktu untuk memeriksanya, sulit mendapatkan soal yang memiliki validitas dan
reliabilitas tinggi, serta sulit mendapatkan soal yang memiliki standar nasional
maupun regional. Oleh karena itu, dalam penggunaannya tes jenis ini memiliki
beberapa kekhususan, yaitu diterapkan jika jumlah peserta yang diuji relaif sedikit,
waktu penyusunan soal terbatas, biaya dan tenaga untuk menggandakan soal tidak
memadai, waktu untuk pemeriksaan hasil cukup panjang, tes dilaksanakan untuk
mengukur kemampuan berfikir analitik, sintetik, dan efaluatif, serta pendidik ingin
mengukur kemampuan dan kekayaan bacaan peserta didik.
2. Tes obyektif memiliki kelebihan di antaranya lebih representatif mewakili isi dan
luas bahan, lebih obyektif, dapat dihindari campur tangannya unsur-unsur subjektif
baik dari segi peserta didik maupun guru, lebih mudah dan cepat cara
memeriksanya karena dapat menggunakan kunci tes bahkan alat-alat hasil
kemajuan teknologi, pemeriksaannya dapat diserahkan orang lain, dalam
pemeriksaan tidak ada unsur subyektif yang mempengaruhi (Arikunto, 2001 :164).
Tes obyektif juga memiliki kelebihan yang lain, yaitu dapat dijawab dengan cepat
sehingga memungkinkan peserta didik untuk menjawab sejumlah besar pertanyaan
dalam satu periode tes, akibatnya materi tes yang diberikan dapat mencakup
hampir sebagian besar daripada bahan pelajaran yang diberikan, dengan demikian
maka prestasi yang dicapai peserta didik betul-betul memberi gambaran yang
representatif tentang penguasaan materi oleh peserta didik karena tes obyektif
terdiri dari butir-butir yang dapat dijawab dengan memilih alternatif yang telah
tersedia atau mengisi dengan beberapa perkataan atau simbol. Selain itu reliabilitas
skor yang diberikan dapat dijamin sepenuhnya karena butir-butir soal pada tes
obyektif hanya memiliki satu jawaban yang dapat diterima, sehingga oleh siapa
dan kapan pun diberi skor, maka skornya tetap sama.
Kekurangan yang dimiliki tes obyektif adalah persiapan untuk menyusunnya jauh
lebih sulit daripada tes esai karena soalnya banyak dan harus teliti untuk
menghindari kelemahan-kelemahan yang lain, soal-soalnya cenderung
mengungkapkan ingatan dan daya pengenalan kembali saja dan sukar untuk
mengukur proses mental yang tinggi, banyak kesempatan untuk main untung-
untungan, serta kerjasama antar peserta didik dalam mengerjakan soal tes lebih
terbuka (Arikunto, 2001 :165). Untuk mengurangi kemungkinan peserta didik
memilih jawaban secara untung-untungan dapat diminimalisasi dengan cara
12
PORTOFOLIO EVALUASI PENDIDIKAN
memberitahu peserta didik tentang rumus-rumus scoring untuk tiap-tiap jenis butir,
di mana pilihan yang salah akan mengurangi skor yang diperoleh (Suwarto, 2013 :
35)
3. Kelebihan tes lisan adalah dapat digunakan untuk menilai kepribadian dan
kemampuan penguasaan kemampuan peserta didik secara tersirat maupun tersurat
dengan akurat dan jelas karena dilakukan secara face to face. Kelemahan yang
dimiliki adalah timbulnya ketegangan dapat menyebabkan obyektifitas hasil dan
terganggunya konsentrasi peserta didik yang dapat mempengaruhi jawaban yang
disampaikan peserta didik, selain itu tes ini memerlukan waktu yang lebih lama.
4. Tes tindakan memiliki keuntungan di antaranya cocok untuk mengukur aspek
psikomotor dan pendidik dapat mengamati langsung respon tindakan yang
dilakukan oleh peserta didik. Sedangkan kelemahannya adalah terjadinya
kesalahahpahaman dalam menerima perintah sehingga menimbulkan kesalahan
pula pada respon tindakannya, selain itu juga membutuhkan waktu yang lebih
lama.
5. Penerapan Penggunaan Teknik Tes dan Non Tes dalam Evaluasi Pendidikan
1. Tes Subyektif
2. Tes Obyektif
a. Benar-Salah
1. Tuliskan persamaan reaksi dari reaksi zat berikut dan beri namanya!
a. 2-butanol + larutan Kalium dikromat dalam suasana asam
b. 2-etoksi propana + HI
2. Senyawa A dengan rumus molekul C5H12O mempunyai sifat sebagai berikut:
a. bereaksi dengan logam Na membentuk gas hidrogen
b. bereaksi dengan larutan Kalium Permanganat dalam suasana asam membentuk
senyawa B, bila reaksi berlangsung terus senyawa B menjadi senyawa C yang
dapat memerahkan kertas lakmus.
Tentukan nama dan rumus struktur senyawa B tersebut.
1. Tubuh jamur ada yang tersusun oleh satu sel (uniseluler) atau sebagian
besar tubuh terdiri atas banyak sel (multiseluler). (b)
2. Monera disebut juga kelompok makhluk hidup eukariotik. (s) →
prokariotik
3. Daur hidup jamur mengalami pergiliran keturunan antara fase kawin
(gametofit) dan tak kawin (sporofit), disebut metagenesis. (b)
4. Charles darwin adalah pengembang metode sistem tata nama ganda.
(bapak taksonomi). (s) → carolus linnaeus
5. Tata cara pemberian nama makhluk hidup dikenal dengan istilah atau
sistematika. (s) → binomial nomenklatur.
13
PORTOFOLIO EVALUASI PENDIDIKAN
b. Jawaban Singkat
c. Menjodohkan
1Psikologi
perkembangana
Psikologi yang menganalisis tentang tindakan dan
tingkah laku negatif dan kejahatan yang dibuat
oleh manusia.
2 Psikologi kriminal bSuatu ilmu yang mempelajari interaksi sosial dan
hubungan sosial antara individu dan kelompok
3Psikologi abnormal
cYang menguraikan sedikit tentang kegiatan
manusia dan pola belajar serta situasi pendidikan
4Psikologi
pendidikand
Menguraikan tentang kegiatan psikis manusia
mulai dari ia lahir sampai dewasa dan usia lanjut
serta membahas tingkah lakunya pada setiap
periode perkembangan.
5 Psikologi umum ePsikologi yang khusus mempelajari dan
Lengkapi pernyataan dan pertanyaan dibawah ini dengan jawaban yang
menurut anda benar!
1. Dorongan utama untuk mengikuti dan mencontoh orang lain yang
dianggapnya pantas disebut dengan………..
2. Interaksi sosial yang anggotanya lebih dari satu dan ada interaksi
face to face antar anggotanya disebut……..
3. Kecendrungan untuk meniru orang lain biasanya disebut…………..
4. Hubungan yang terjadi antar anggota kelompok karena adanya faktor
kesamaan perasaan yang alamiah dan bersifat kekal disebut
dengan…..
5. Sesuatu yang di anggap baik dan benar disebut……..
14
PORTOFOLIO EVALUASI PENDIDIKAN
menguraikan ketidaknormalan psikis yang terjadi
pada individu.
d. Pilihan Ganda
1. Diketahui matriks A=( 2
1
-14 )
, B=( x+ y
3
2y )
, dan C=( 7
3
21 )
. Apabila B – A = Ct, dan Ct = transpose matriks C, maka nilai x.y = ….a. 10b. 15c. 20d. 25e. 30
2. Diketahui matriks A=( 3
2
05 )
, B=( x
y
-11 )
, dan C=( 0
-15
-15 )
, At adalah transpose dari A. Jika At . B = C maka nilai 2x + y = ….a. – 4b. – 1c. 1d. 5e. 7
3. Matriks X berordo ( 2 x 2 ) yang memenuhi ( 13
24 ) X =( 4
2
31 )
adalah ….
a.(-65
-54 )
b.( 5
4
-65 )
c.(-64
-55 )
d.( 4-3
-21 )
e.(12-10
-10-8 )
4. Diketahui matriks A=( 1
3
25 )
, B=(3
1
-24 ), dan P(2x2). Jika matriiks A x P = B, maka
matriks P adalah ….
a.(13-8
-1810 )
b.(21-7
-82 )
c.(-13
8
18-10 )
d.(-21
7
8-2 )
15
PORTOFOLIO EVALUASI PENDIDIKAN
e. Melengkapi
Yang dimaksud dengan hadits, adalah suatu berita tentang (1)…, (2) …, dan (3)
… yang disandarkan kepada Nabi Muhammad SAW. Kalimat yang sering
digunakan untuk menyandarkan berita kepada nabi secara langsung adalah (4)
…, sedangkan penyandaran yang tidak langsung adalah (5) … .
3. Non Tes
a. Observasi
Langkah-langkah yang ditempuh dalam membuat pedoman observasi langsung
adalah sebagai berikut :
terlebih dulu lakukan observasi langsung terhadap suatu proses tingkah laku.
setelah diketahui, penilai menentukan segi-segi mana dari perilaku tersebut
yang akan diamati sehubungan dengan keperluannya.
tentukan bentuk observasi tersebut.
1. Diketahui matriks A=( 2
1
-14 )
, B=( x+ y
3
2y )
, dan C=( 7
3
21 )
. Apabila B – A = Ct, dan Ct = transpose matriks C, maka nilai x.y = ….a. 10b. 15c. 20d. 25e. 30
2. Diketahui matriks A=( 3
2
05 )
, B=( x
y
-11 )
, dan C=( 0
-15
-15 )
, At adalah transpose dari A. Jika At . B = C maka nilai 2x + y = ….a. – 4b. – 1c. 1d. 5e. 7
3. Matriks X berordo ( 2 x 2 ) yang memenuhi ( 13
24 ) X =( 4
2
31 )
adalah ….
a.(-65
-54 )
b.( 5
4
-65 )
c.(-64
-55 )
d.( 4-3
-21 )
e.(12-10
-10-8 )
4. Diketahui matriks A=( 1
3
25 )
, B=(3
1
-24 ), dan P(2x2). Jika matriiks A x P = B, maka
matriks P adalah ….
a.(13-8
-1810 )
b.(21-7
-82 )
c.(-13
8
18-10 )
d.(-21
7
8-2 )
Mata pelajaran : PKn
Kelas/Semester : IV/Genap
Indikator : Mengindahkan kepentingan orang lain
No Perilaku yang diamati Hasil pengamatan1 2 3 4 5
1 Mengganggu teman di kelas2 Kataatan peserta didik terhadap peraturan
sekolah3 Menunaikan tugas kelompok
Keterangan
1 = tidak pernah
2 = jarang
3 = kadang-kadang
4 = sering
5 = selalu
16
PORTOFOLIO EVALUASI PENDIDIKAN
b. Kuisioner
c. Wawancara
Nama : ………………………..Kelas : ………………………..Petunjuk Pengisian angket!Pilihlah salah satu jawaban yang sesusai dengan Anda dengan memberi tanda silang (X) pada huruf a, b, c atau d.1. Air minum di keluargamu berasal dari ....
a. sumurb. kemasanc. hujand. sungai
2. Air mandi di keluargamu berasal dari ....a. sumurb. kemasanc. hujand. sungai
3. Buku dan alat tulismu disiapkan oleh ....orang tuapembantukakaksaya sendiri
4. Tempat tidurmu dirapikan oleh .... a. orang tuab. pembantuc. kakakd. saya sendiri
5. Setiap hari rumahmu dibersihkan oleh ....orang tuapembantusaudaraseluruh anggota keluarga
Memperoleh informasi mengenai cara belajar siswa dirumah
Bentuk :Bebas
Responden :Siswa yang memperoleh prestasi yang tinggi
Nama siswa :……………….
Kelas :……………….
Jenis kelamin :……………….
Pertanyaan Jawaban siswa Komentar dan kesimpulan hasil
wawancara1. Kapan dan berapa lama anda
belajar dirumah?
17
PORTOFOLIO EVALUASI PENDIDIKAN
d. Sosiometri
Siswa diminta untuk menuliskan 3 nama teman yang disenanginya di kelas.
Dengan urutan dari atas adalah yang paling disenangi.
e. Otobiografi
Memperoleh informasi mengenai cara belajar siswa dirumah
Bentuk :Bebas
Responden :Siswa yang memperoleh prestasi yang tinggi
Nama siswa :……………….
Kelas :……………….
Jenis kelamin :……………….
Pertanyaan Jawaban siswa Komentar dan kesimpulan hasil
wawancara1. Kapan dan berapa lama anda
belajar dirumah?
DAFTAR ISIAN SOSIOMETRI
Nama : …………………………………. (L/P)
Kelas : ………………………………….
Tanggal : ………………………………….
Kriterium : untuk kegiatan belajar kelompok.
Pilihan I : ………………………………….
Alasan : ………………………………….
Pilihan II : ………………………………….
Alasan : ………………………………….
Pilihan III : ………………………………….
Alasan : ………………………………….
18
PORTOFOLIO EVALUASI PENDIDIKAN
f. Inventory
6. Contoh Penerapan Penilaian Menggunakan Teknik Tes dan Non Tes
19
PORTOFOLIO EVALUASI PENDIDIKAN
1. Tes Subyektif
Hal-hal yang perlu diperhatikan dalam menyusun soal subyektif adalah soal-soal
tes dapat meliputi ide-ide pokok dari bahan yang diteskan, dan kalau mungkin disusun
soal yang sifatnya komprehensif, soal tidak mengambil kalimat-kalimat yang disalin
langsung dari buku atau catatan, pada waktu menyusun, soal-soal itu sudah dilengkapi
dengan kunci jawaban serta pedoman penilaiannya, diusahakan agar pertanyaannya
bervariasi antara “jelaskan” “mengapa” “seberapa jauh” agar dapat diketahui lebih jauh
penguasaan peserta didik terhadap bahan, rumusan soal dibuat sedemikian rupa
sehingga mudah dipahami oleh tercoba, ditegaskan model jawaban apa yang
dikehendaki oleh penyusun tes. Untuk itu pertanyaan tidak boleh terlalu umum, tetapi
harus spesifik.
Menurut Suwarto (2013 : 60), pertimbangan secara umum untuk membuat tes
subyektif adalah : (1) memberikan waktu dan berpikir yang cukup untuk memprsiapkan
tes uraian, (2) pertanyaan harus ditulis sehingga akan menunjukkan jenis penilaian yang
akan diukur, (3) menetapkan suatu kerangka kerja dalam domain kerja peserta didik,
(4) menunjukkan faktor-faktor yang dapat memajukan penilaian suatu jawaban, (5)
jangan memberikan pertanyaan oposional, (6) pergunakan sejumlah pertanyaan yang
banyak yang mewajibkan jawaban singkat, (7) jangan memulai pertanyaan uraian
dengan kata-kata seperti : daftar/urutkan, siapa, apa, apakah, (8) sesuaikan panjang
jawaban dan kompleksitas pertanyaan serta jawaban terhadap tingkat kematangan
peserta didik, (9) gunakan jenis pertanyaan yang menarik (pertanyaan menunjukkan
kenyataan yang ada), (10) menyiapkan sebuah kunci scoring, (11) melarang
digunakannya tes uraian dalam pelajaran yang tidak dapat dijadikan pedoman obyektif
yang memuaskan, (12) merumuskan pertanyaan yang akan memberikan jalan keluar,
serta (13) menunjukkan estimasi batas waktu rata-rata untuk setiap pertanyaan.
Penilaian tes subyektif tidak tergantung pada jawaban yang diberikan peserta
didik saja, namun juga pada berbagai hal yang berkaitan dengan pihak-pihak yang
berlaku sebagai pemeriksa yang memeriksa dan menilai jawaban tersebut, dan juga
pada metode penilaian yang diterapkan. Oleh karena itu, penilaian pada tes subyektif
ini pun juga dipengaruhi oleh subyektifitas penilai, karena adanya variasi jawaban dari
peserta didik. Oleh karena itu, dalam memberikan penilaian terhadap hasil tes
subyektif, pendidik harus menerapkan metode penilaian yang tepat dengan membuat
pedoman penilaian (rubrik), penilaian difokuskan pada aspek-aspek penilaian yang
penting dan signifikan, tidak membiarkan hal-hal personal memengaruhi pemberian
20
PORTOFOLIO EVALUASI PENDIDIKAN
nilainya, serta menerapkan standar yang seragam pada semua jawaban. Ada dua metode
yang dapat dikembangkan untuk menilai ujian subyektif, yaitu metode analisis dan
metode global (Suwarto, 2013 : 61). Dalam metode analisis, model penilaian jawaban
disusun secara detail dengan pemberian poin-poin pada setiap jawaban. Poin pada
masing-masing soal dapat ditentukan berdasarkan waktu yang diperlukan untuk
menjawab soal, tingkat kerumitan, serta penekanan pada isi yang dibahas pada suatu
soal secara garis besar. Sedangkan dalam metode global yang disebut juga sebagai
metode holistik atau metode rating, pendidik atau penilai memberi nilai dengan cara
memberi pendapat mengenai jawaban secara global (keseluruhan) terlepas dari
beragamnya skala nilai yang digunakan. Contohnya, seorang guru bisa memberi nilai
“bagus”, “rata-rata”, maupun “kurang”.
a. Contoh penerapan penilaian menggunakan metode analisis
1. Sebutkan alat dan bahan yang diperlukan untuk merawat alat ukur mekanis
presisi!
2. Jelaskan fungsi dan penggunaan alat dan bahan untuk merawat alat ukur mekanis
presisi!
3. Sebutkan kerugian – kerugian yang ditimbulkan jika alat ukur mekanis presisi
tidak dirawat dan dikalibrasi setelah digunakan!
No. Kriteria Skor Skor Maks
1. Siswa menyebutkan 7 alat dan bahan yang
diperlukan untuk merawat alat ukur mekanis presisi
Siswa menyebutkan < 7 dan/atau > 4 alat dan bahan
yang diperlukan untuk merawat alat ukur mekanis
presisi
Siswa menyebutkan < 4 dan/atau > 2 alat dan bahan
yang diperlukan untuk merawat alat ukur mekanis
presisi
10
5-7
2-4
10
2. Siswa menyebutkan 5 fungsi dan penggunaan alat
dan bahan untuk merawat alat ukur mekanis presisi
Siswa menyebutkan 3-4 fungsi dan penggunaan alat
dan bahan untuk merawat alat ukur mekanis presisi
Siswa menyebutkan 1-2 fungsi dan penggunaan alat
dan bahan untuk merawat alat ukur mekanis presisi
10
6-8
2-4
10
21
PORTOFOLIO EVALUASI PENDIDIKAN
3. Siswa menyebutkan 7 kerugian – kerugian yang
ditimbulkan jika alat ukur mekanis presisi tidak
dirawat dan dikalibrasi setelah digunakan
Siswa menyebutkan < 7 dan/atau > 4 kerugian –
kerugian yang ditimbulkan jika alat ukur mekanis
presisi tidak dirawat dan dikalibrasi setelah
digunakan
Siswa menyebutkan < 4 dan/atau > 2 kerugian –
kerugian yang ditimbulkan jika alat ukur mekanis
presisi tidak dirawat dan dikalibrasi setelah
digunakan
10
5-7
2-4
10
JUMLAH 30
Nilai Akhir= Perolehan SkorSkor Maksimal (10)
X 100
b. Contoh penerapan penilaian menggunakan metode global
Nomor Soal
No. Absen
Nama Siswa
Tes Tulis
KRITERIA
Bagus Rata-rata Kurang1 1
2
3
2 1
2
3
3 1
2
3
2. Tes Obyektif
Untuk penilaian pada tes obyektif tidak terlalu rumit jika dibandingkan dengan
penilaian pada tes subyektif. Selain reliabilitas penskorannya lebih terjamin, waktu
serta pelaksanaan penilaiannya pun lebih efektif dan efisien. Teknik penilaian yang
dapat digunakan untuk tes obyektif di antaranya adalah dengan penerapan sistem
denda dan sistem tanpa denda. Penerapan sistem denda memiliki kelebihan
mengurangi kemungkinan siswa untuk berspekulasi kemungkinan siswa
berspekulasi dalam menjawab soal, namun kelemahan dalam sistem denda ini
adalah adanya kemungkinan siswa memperoleh skor negatif. Sebaliknya, sistem
22
PORTOFOLIO EVALUASI PENDIDIKAN
tanpa denda memiliki kelebihan tidak adanya skor negatif, dan kekurangannya
adanya kemungkinan siswa menjawab soal secara untung-untungan.
Sistem denda :
Sk = skor yang diperoleh siswa, B = jumlah jawaban benar, S = jumlah jawaban
salah.
Contoh : jumlah butir suatu tes ada 100. Rizqiana dapat menjawab dengan benar
sejumlah 80 butir soal, jawaban yang salah sejumlah 15 butir soal, dan 5 butir soal
tidak dijawab. Maka skor untuk Rizqiana adalah 80-15 = 65.
Sistem tanpa denda :
Contoh : jumlah butir suatu tes ada 100. Yogi dapat menjawab dengan benar
sejumlah 80 butir soal, jawaban yang salah sejumlah 15 butir soal, dan 5 butir soal
tidak dijawab. Maka skor untuk Yogi adalah 80.
3. Non tes
Untuk penilaian non tes dapat dilakukan dengan berbagai cara, di antaranya :
a. Penilaian menggunakan skala
No. PernyataanSkala
1 2 3 4 5
1Rumah sebaiknya dirawat
kebersihannya setiap hari
2Kebersihan rumah menjadi tanggung
jawab semua anggota keluarga
3Ruang kelas perlu dijaga
kebersihannya setiap hari
4Kebersihan ruang kelas menjadi
tanggung jawab setiap anggota kelas
5
Setiap siswa sebaiknya melaksanakan
tugas piket dengan penuh rasa
tanggung jawab
6
Anak yang lalai melaksanakan tugas
piket harus menggantinya pada waktu
lain
7
Ketua kelas tidak perlu melaksanakan
tugas piket karena sudah bertugas
mengatur kegiatan kelas
Sk=B-S
Sk=B
23
PORTOFOLIO EVALUASI PENDIDIKAN
KETERANGAN
1 : sangat tidak setuju
2 : tidak setuju
3 : kurang setuju
4 : setuju
5 : sangat setuju
b. Angket (Kuisioner)
Nama : ………………………..
Kelas : ………………………..
Petunjuk Pengisian angket!
Pilihlah salah satu jawaban yang sesusai dengan Anda dengan memberi tanda
silang (X) pada huruf a, b, c atau d.
1. Air minum di keluargamu berasal dari ....
a. sumur
b. kemasan
c. hujan
d. sungai
2. Air mandi di keluargamu berasal dari ....
a. sumur
b. kemasan
c. hujan
d. sungai
3. Buku dan alat tulismu disiapkan oleh ....
a. orang tua
b. pembantu
c. kakak
d. saya sendiri
4. Tempat tidurmu dirapikan oleh ....
a. orang tua
b. pembantu
c. kakak
d. saya sendiri
5. Setiap hari rumahmu dibersihkan oleh ....
24
PORTOFOLIO EVALUASI PENDIDIKAN
a. orang tua
b. pembantu
c. saudara
d. seluruh anggota keluarga
2.
25
PORTOFOLIO EVALUASI PENDIDIKAN
PENILAIAN
BERBASIS
KELAS
1. Konsep Dasar Penilaian Berbasis Kelas
Penilaian Berbasis Kelas (PBK) adalah penilaian yang dilakukan oleh guru dalam
rangka proses pembelajaran. PBK merupakan proses pengumpulan dan penggunaan
informasi hasil belajar peserta didik yang dilakukan oleh guru untuk menetapkan tingkat
pencapaian dan penguasaan peserta didik terhadap tujuan pendidikan (standar komptensi,
komptensi dasar, dan indikator pencapaian hasil belajar). Penilaian Berbasis Kelas
merupakan prinsip, sasaran yang akurat dan konsisten tentang kompetensi atau hasil belajar
siswa serta pernyataan yang jelas mengenai perkembangan dan kemajuan siswa. maksudnya
adalah hasil Penilaian Berbasis Kelas dapat menggambarkan kompetensi, keterampilan dan
kemajuan siswa selama di kelas.
26
PORTOFOLIO EVALUASI PENDIDIKAN
Depdiknas (2002), menjelaskan bahwa Penilaian Berbasis Kelas (PBK) merupakan
salah satu komponen dalam kurikulum berbasis kompetensi. PBK itu sendiri pada dasarnya
merupakan kegiatan penilaian yang dilaksanakan secara terpadu dalam kegiatan belajar
mengajar yang dilakukan dengan mengumpulkan kerja siswa (portofolio), hasil karya
(produk), penugasan (proyek), kinerja (performance), dan tes tertulis (paper and pencil).
Fokus penilaian diarahkan pada penguasaan kompetensi dan hasil belajar siswa sesuai dengan
level pencapaian prestasi siswa.
2. Jenis Penilaian Berbasis Kelas
Secara umum penilaian berbasis kelas antara lain terdiri atas ulangan harian, pemberian
tugas dan ulangan umum. Berbagai jenis penilaian berbasis kelas antara lain : tes tulis, tes
perbuatan, pemberian tugas, penilaian kinerja, penilaian proyek, penilaian hasil kerja peserta
didik, penilaian sikap dan penilaian portofolio.
a. Tes tertulis
Merupakan alat penilaian berbasis kelas peserta didik memberikan jawaban atas
pertanyaan atau pertanyaan maupun tanggapan atas pertanyaan atau pertanyaan maupun
tanggapan atas pertanyaan atau pertanyaan yang diberikan. Tes tertulis dapat diberikan
pada saat ulangan harian dan ulangan umum. Bentuk tes tertulis dapat berupa pilihan
ganda, menjodohkan, benar salah, isian singkat, dan uraian (esai).
b. Tes perbuatan.
Dilakukan pada saat proses pembelajaran berlangsung yang memungkinkan
terjadinya praktek. Pengamatan dilakukan terhadap perilaku peserta didik pada saat
proses pembelajaran berlangsung. Pemberian tugas dilakukan bisa dilakukan mulai
awal kelas sesuai dengan akhir kelas sesuai dengan materi pelajaran dan perkembangan
peserta didik. Pelaksanaan pemberian tugas perlu memperhatikan hal sebagai berikut;
(a) Banyaknya tugas mata pelajaran diusahakan tidak memberatkan peserta didik.
Karena mereka memerlukan waktu bermain, bersosialisasi dengan teman dan lain-lain.
(b) Jenis dan pemberian tugas harus didasarkan pada tujuan pemberian tugas yaitu
untuk melatih peserta didik menerapkan atau menggunakan hasil pembelajarannya dan
memperkaya wawasan pengetahuannya. (c) Diupayakan pemberian tugas dapat
mengembangkan kreatifitas dan rasa tanggung jawab serta kemandirian.
Penilaian unjuk kerja (performance assesment) adalah penilaian berdasarkan hasil
pengamatan terhadap kegiatan siswa. Penilaian dilakukan terhadap unjuk kerja,
perilaku atau interaksi siswa. Cara penilaian ini lebih otentik daripada tes tulis, karena
27
PORTOFOLIO EVALUASI PENDIDIKAN
lebih mencerminkan kemampuan siswa yang sebenarnya (Puskur, 2002) dalam Wiyono
(2004: 35).
Penilaian unjuk kerja bisa digunakan untuk menilai kemampuan siswa dalam
penyajian lisan, pemecahan masalah dalam kelompok, partisipasi dalam diskusi,
kemampuan siswa menari, kemampuan siswa menyanyi, memainkan alat musik, dan
sebagainya. Pengamatan unjuk kerja perlu dilakukan dengan berbagai konteks.
Langkah-langkah yang perlu dilakukan dalam membuat penilaian unjuk kerja adalah:
Identifikasi semua langkah penting atau aspek yang diperlukan atau yang akan
mempengaruhi hasil akhir
Menulis kemampuan-kemampuan khusus yang diperlukan untuk menyelesaikan tugas
Mengusahakan kemampuan yang akan diukur tidak terlalu banyak, sehingga semua
dapat dipahami
Mengurutkan kemampuan yang akan diukur berdasarkan urutan yang akan diamati
Menyediakan lembar pengamatan dan kriteria untuk setiap pilihan yang digunakan
dalam lembar pengamatan atau penilaian
Penilaian hasil kerja dapat menggunakan daftar cek, skala penilaian atau rubik.
Daftar cek, penilaian unjuk kerja dapat dilakukan dengan menggunakan daftar cek
(ya – tidak). Pada penilaian unjuk kerja yang menggunakan daftar cek, peserta didik
mendapat nilai apabila kriteria penguasaan kemampuan tertentu dapat diamati oleh
penilai. Jika tidak dapat diamati, peserta didik tidak memperoleh nilai. Kelemahan cara
ini adalah penilai hanya mempunyai dua pilihan mutlak, misalnya benar-salah, dapat
diamati-tidak dapat diamati. Dengan demikian tidak terdapat nilai tengah.
Contoh Daftar Cek Keterampilan Penggunaan Termometer
No
.
Aktivitas yang Diamati Ya Tidak
1. Mengeluarkan termometer dari tempatnya dengan
memegang bagian ujung termometer yang tak berisi air
raksa.
2. Menurunkan posisi air raksa dalam pipa kapiler termometer
serendah-rendahnya.
3. Memasang termometer pada tubuh teman (di mulut atau di
ketiak) sehingga bagian yang berisi air raksa terkontak
28
PORTOFOLIO EVALUASI PENDIDIKAN
degan tubuh pasien.
4. Menunggu beberapa menit (membiarkan termometer
menempel di tubuh pasien selama beberapa menit).
5. Mengambil termometer dari tubuh pasien dengan memegang
bagian ujung termometer yang tidak berisi air raksa.
6. Membaca tinggi air raksa dalam pipa kapiler dengan posisi
mata tegak lurus.
Skor yang dicapai
Skor maksimum 6
Skala penilaian, penilaian unjuk kerja yang menggunakan skala rentang
memungkinkan penilai memberi nilai tengah terhadap penguasaan kompetensi tertentu
karena pemberian nilai secara kontinuum di mana pilihan kategori nilai lebih dari dua.
Skala rentang tersebut, misalnya, sangat kompeten – kompeten – agak kompeten – tidak
kompeten. Penilaian sebaiknya dilakukan oleh lebih dari satu penilai agar faktor
subjektivitas dapat diperkecil dan hasil penilaian lebih akurat. Berikut contoh skala
penilaian.
Contoh Skala Penilaian Keterampilan Penggunaan Termometer
No. Aktivitas yang Diamati Penilaian
1 2 3 4 5
1. Mengeluarkan termometer dari tempatnya
dengan memegang bagian ujung termometer
yang tak berisi air raksa.
2. Menurunkan posisi air raksa dalam pipa
kapiler termometer serendah-rendahnya.
3. Memasang termometer pada tubuh teman (di
mulut atau di ketiak) sehingga bagian yang
berisi air raksa terkontak degan tubuh pasien.
4. Menunggu beberapa menit (membiarkan
termometer menempel di tubuh pasien selama
beberapa menit).
5. Mengambil termometer dari tubuh pasien
dengan memegang bagian ujung termometer
29
PORTOFOLIO EVALUASI PENDIDIKAN
yang tidak berisi air raksa.
6. Membaca tinggi air raksa dalam pipa kapiler
dengan posisi mata tegak lurus.
Skor yang dicapai
Skor maksimum
Tafsiran angka:
1: sangat kurang, 2: kurang, 3: cukup, 4: baik, 5: sangat baik.
Rubik, adalah pedoman penskoran yang digunakan untuk menilai unjuk kerja siswa
berdasarkan jumlah skor dari beberapa kriteria dan tidak hanya menggunakan satu skor
saja. Ini memuat klasifikasi nilai yang dapat diberikan pada siswa sesuai dengan unjuk
kerja yang ditampilkan. Banyak ahli yang meyakini bahwa rubrik bisa meningkatkan
hail belajar siswa. Pada saat guru memeriksa hasil karya proyek, guru tersebut akan
mengetahui secara implisit tentang bagaimana karya yang baik dan mengapa suatu
karya digolongkan baik. Demikian halnya, pada saat siswa menerima rubrik lebih awal,
mereka akan memahami bagaimana mereka akan dinilai dan mereka bisa
mempersiapkan diri berdasarkan itu. Rubrik tersebut akan berfungsi
sebagai scaffolding (acuan) yang dibutuhkan untuk meningkatkan mutu karya dan
pengetahuan mereka.
Contoh Rubrik Penilaian Unjuk Kerja Perencanaan Penyelidikan
Nilai Kriteria
4
Amat
Baik
Merumuskan gagasan secara jelas dan memprediksi apa yang akan
diuji.
Mengumpulkan informasi awal yang relevan.
Merencanakan pelaksanaan penyelidikan secara rinci.
Memilih alat dan bahan yang paling tepat.
Mengajukan saran perbaikan yang tepat untuk kebutuhan
penyelidikan tersebut.
3
Baik
Merumuskan gagasan yang perlu diuji dalam
percobaan/penyelidikan.
Merencanakan suatu urutan pelaksanaan penyelidikan.
Memilih alat dan bahan yang cocok.
Mengajukan saran perbaikan penyelidikan tersebut.
2
Cukup
Dengan bimbingan guru, dapat mengajukan gagasan sederhana
yang akan diuji.
30
PORTOFOLIO EVALUASI PENDIDIKAN
Merencanakan percobaan tunggal secara garis besar.
Memilih alat dan bahan yang cocok.
Dapat menunjukkan adanya kelemahan dari rencana yang dibuat.
1
Kurang
Dengan bimbingan guru, dapat mengajukan gagasan sederhana
yang akan diuji.
Terdapat banyak kelemahan dalam rencana penyelidikan yang
dibuat.
Alat dan bahan yang dipilih kurang sesuai.
Tidak menyadari adanya kelemahan dari rencana yang dibuat.
0
Sangat
Kurang
Tidak dapat mengajukan gagasan yang secara benar.
Belum memahami langkah-langkah penyelidikan.
Alat dan bahan yang dipilih tidak sesuai.
c. Penilaian proyek.
Adalah penilaian berbasis kelas terhadap tugas yang harus disesuaikan dalam
waktu tertentu. Penilaian proyek dilakukan mulai dari pengumpulan, pengorganisasian,
pengevaluasian, hingga penyajian data. Penilaian produk adalah penilaian hasil kerja
peserta didik terhadap penguasaan ketrampilan peserta didik dalam membuat suatu
produk dan penilaian kualitas hasil kerja peserta didik tertentu. Misalnya : siswa diberi
tugas untuk membuat kliping Koran tentang bencana alam di Indonesia, selanjutnya
siswa diberi tugas untuk mengomentarinya dan solusi untuk meringankan beban
mereka.
Penilaian melalui tugas dilakukan terhadap tugas yang dilakukan siswa secara
individual atau secara kelompok untuk periode tertentu. Tugas sering berkaitan dengan
pengumpulan data/bahan, analisis data, penyajian data atau bahan, dan pembuatan
laporan. Tugas dapat digunakan untuk mengetahui pemahaman dan pengetahuan siswa
dalam bidang tertentu, mengetahui kemampuan siswa menerapkan pengetahuan dalam
penyelidikan tertentu, dan mengetahui kemampuan siswa dalam menginformasikan
subjek tertentu secara jelas (Puskur, 2002) dalam Wiyono (2004: 36).
Penilaian tugas dapat dilakukan terhadap proses selama pengerjaan tugas atau
terhadap hasil tugas akhir. Dengan demikian, guru bisa menetapkan hal-hal atau
tahapan yang perlu dinilai. Pelaksanaan penilaian dapat menggunakan daftar cek
(checklist) atau skala penilaian (rating scale).
Penilaian penugasan atau proyek merupakan penilaian untuk mendapatkan
gambaran kemampuan menyeluruh/umum secara kontekstual, mengenai kemampuan
31
PORTOFOLIO EVALUASI PENDIDIKAN
siswa dalam menerapkan konsep dan pemahaman mata pelajaran tertentu. Penilaian
terhadap suatu tugas yang mengandung aspek investigasi harus selesai dalam waktu
tertentu. Investigasi dalam penugasan memuat beberapa tahapan, yaitu perencanaan,
pengumpulan data, pengolahan data, dan penyajian data.
Contoh Rubrik Penilaian Tugas Proyek
Aspek Kriteria dan Skor
3 2 1
Persiapan Jika memuat
tujuan, topik,
alasan, tempat
penelitian, daftar
pertanyaan dengan
lengkap.
Jika memuat tujuan,
topik, alasan, tempat
penelitian, daftar
pertanyaan kurang
lengkap.
Jika memuat tujuan,
topik, alasan, tempat
penelitian, daftar
pertanyaan tidak
lengkap.
Pengumpulan
Data
Jika daftar
pertanyaan dapat
dilaksanakan
semuanya dan data
tercatat dengan rapi
dan lengkap.
Jika daftar pertanyaan
dapat dilaksanakan
semuanya, tetapi data
tidak tercatat dengan
rapi dan lengkap.
Jika daftar pertanyaan
tidak dapat
dilaksanakan
semuanya dan data
tidak tercatat dengan
rapi dan lengkap.
Pengolahan
Data
Jika pengolahan
data sesuai tujuan
penelitian.
Jika pembahasan data
kurang
menggambarkan
tujuan penelitian.
Jika sekedar
melaporkan hasil
penelitian tanpa
membahas data.
Pelaporan
tertulis
Jika sistematika
penulisan benar,
memuat saran,
bahasa
komunikatif.
Jika sistematika
penulisan benar,
memuat saran,
namum bahasa
kurang komunikatif.
Jika penulisan kurang
sistematis, bahasa
kurang
Penilaian produk akan menilai kemampuan siswa dalam:
1) Bereksplorasi dan mengembangkan gagasan dalam merancang;
2) Memilih bahan yang tepat;
3) Menggunakan alat;
4) Menunjukkan inovasi dan kreasi;
5) Memilih bentuk dan gaya dalam karya seni.
32
PORTOFOLIO EVALUASI PENDIDIKAN
Penilaian produk biasanya menggunakan cara holistik atau analitik.
1) Cara holistik, yaitu berdasarkan kesan keseluruhan dari produk, biasanya dilakukan
pada tahap appraisal.
2) Cara analitik, yaitu berdasarkan aspek-aspek produk, biasanya dilakukan terhadap
semua kriteria yang terdapat pada semua tahap proses pengembangan.
Contoh Format Penilaian Produk Alat Peraga
No. Aspek yang Dinilai Nilai
1 2 3 4
1. Keaslian ide alat peraga
2. Pengetahuan yang mendukung
3. Alat dan bahan yang digunakan
4. Cara pembuatan
5. Penampilan alat peraga
6. Kepraktisan penggunaan alat peraga
7. Manfaat alat peraga
Jumlah
Skor Maksimum 28
Catatan:
Kolom nilai diisi dengan angka yang sesuai:
1 = kurang
2 = sedang
3 = baik
4 = amat baik
d. Penilaian Sikap merupakan penilaian berbasis kelas. Terhadap suatu konsep
psikologi yang komplek. Penilaian sikap dalam berbagai mata pelajaran secara
umum dapat dilakukan berkaiatan dengan berbagai obyek sikap antara lain, a)
Sikap terhadap mata pelajaran, b) Sikap terhadap guru mata pelajaran, c) Sikap
terhadap proses mata pelajaran, d) Sikap terhadap materi pembagian. Pengukuran
sikap dapat dilakukan dengan berbagai cara observasi perilaku, pertanyan
langsung, laporan pribadi, penggunaan skala sikap.
e. Penilaian Portofolio.
Penilaian portofolio (portofolio assesment) merupakan salah satu bentuk
“performance assesment”. Portofolio (portfolio) adalah kumpulan hasil tugas/tes atau
hasil karya siswa yang dikaitkan dengan standar atau kriteria yang telah ditentukan.
33
PORTOFOLIO EVALUASI PENDIDIKAN
Dengan kata lain, portofolio merupakan kumpulan hasil karya siswa yang sistematis
dalam satu periode. Mardapi (2000) dalam Wiyono (2004: 35) mengemukakan bahwa
portofolio (portfolio) adalah pengumpulan pekerjaan individu secara sistematis.
Kumpulan hasil karya atau hasil pekerjaan tersebut merupakan refleksi kemajuan
belajar dan berpikir siswa dan sekaligus menunjukkan prestasi dan ketrampilan siswa.
Penilaian portofolio (portfolio assesment) merupakan strategi untuk mengetahui
kemampuan siswa yang sebenarnya, serta untuk mengetahui perkembangan siswa
dalam bidang tertentu. Hasil kerja siswa diperbarui secara berkelanjutan yang
mencerminkan perkembangan kemampuan siswa. Guru menggunakan penilaian
portofolio sebagai bagian integral dari proses pembelajaran. Nilai diagnostik portofolio
akan bisa diperoleh informasi tentang proses dan hasil belajar siswa.
Penilaian portofolio (portfolio assesment) dapat digunakan untuk menilai kemajuan
belajar siswa dalam berbagai bidang studi, termasuk bidang bahasa, matematika atau
ilmu pengetahuan alam. Portofolio juga dapat digunakan untuk menilai perkembangan
siswa dalam bidang ilmu-ilmu sosial, misalnya menganalisis masalah-masalah sosial
dan sejenisnya. Prinsip dalam penilaian portofolio (portfolio assesment) adalah
dokumen atau data hasil pekerjaan siswa, baik berupa pekerjaan rumah, tugas atau tes
tertulis seluruhnya digunakan untuk membuat inferensi kemampuan dan perkembangan
kemampuan siswa. Informasi ini juga digunakan untuk menyusun strategi dalam
meningkatkan kualitas proses pembelajaran.
Jadi, portofolio adalah suatu metode pengukuran dengan melibatkan peserta didik
untuk menilai kemajuannya dalam bidang studi tersebut. Beberapa hal yang perlu
diperhatikan dalam melakukan penilaian portofolio adalah sebagai berikut:
Karya yang dikumpulkan adalah benar-benar karya yang bersangkutan.
Menentukan contoh pekerjaan mana yang harus dikumpulkan.
Mengumpulkan dan menyimpan sampel karya.
Menentukan kriteria untuk menilai portofolio.
Meminta peserta didik untuk menilai secara terus menerus hasil portofolionya.
Merencanakan pertemuan dengan peserta didik yang dinilai.
Dapat melibatkan orang tua dalam menilai portofolio.
Penilaian dengan portfolio memiliki karakteristik tertentu, sehingga
penggunaannya juga harus sesuai dengan tujuan dan substansi yang diukur. Mata
pelajaran yang memiliki banyak tugas dan jumlah peserta didik yang tidak banyak,
penilaian dengan cara portfolio akan lebih cocok.
34
PORTOFOLIO EVALUASI PENDIDIKAN
Menurut Bartons dan Collins (1997) semua obyek portofolio atau avidence di
bedakan menjadi empat macam yaitu (a) Hasil karya peserta didik (arti facts), yaitu
hasil kerja peserta didik yang dihasilkan di kelas. (b) Reproduksi (reproduction) yaitu
hasil kerja peserta didik yang dikerjakan di luar kelas. (c) Pengesahan (affes tations)
yaitu pernyataan dan hasil pengamatan yang dilakukan oleh guru atau pihak lainnya
tentang peserta didik. (d) Produksi (productions) yaitu hasil kerja peserta didik yang
dipersiapkan khusus untuk portofolio.
3. Manfaat Penilaian Berbasis Kelas
a. Umpan balik bagi siswa dalam mengetahui kemampuan dan kekurangannya
sehingga menimbulkan motivasi untuk memperbaiki hasil belajarnya.
b. Memantau kemajuan dan mendiagnosis kemampuan belajar siswa sehingga
memungkinkan dilakukannya pengayaan dan remidiasi untuk memenuhi kebutuhan
siswa sesuai dengan kemajuan dan kemampuannya.
c. Memberikan masukan kepada guru untuk memperbaiki program pembelajarannya
di kelas.
d. Memungkinkan siswa mencapai kompetensi yang telah ditentukan walaupun
dengan kecepatan belajar yang berbeda-beda.
e. Menjamin agar proses pembelajaran peserta didik tetap sesuai dengan kurikulum.
4. Prinsip – Prinsip Penilaian Berbasis Kelas
a. Valid, penilaian memberikan informasi yang akurat tentang hasil belajar siswa.
b. Mendidik, penilaian harus memberikan sumbangan positif terhadap pencapaian
belajar siswa.
c. Berorientasi pada kompetensi, penilaian harus menilai pencapaian kompetensi
yang dimaksud dalam kurikulum.
d. Adil, penilaian harus adil terhadap semua siswa dengan tidak membedakan latar
belakang sosial-ekonomi, budaya, bahasa dan gender.
e. Terbuka, kriteria penilaian dan dasar pengambilan keputusan harus jelas dan
terbuka bagi semua pihak.
f. Berkesinambungan, penilaian dilakukan secara berencana, bertahap dan terus
menerus untuk memperoleh gambaran tentang perkembangan belajar siswa sebagai
hasil kegiatan belajarnya. (Depdiknas, 2002).
5. Keunggulan Penilaian Berbasis Kelas
a. Pengumpulan informasi kemajuan belajar baik formal maupun non formal
diadakan secara terpadu, dalam suasana yang menyenangkan, serta senantiasa
35
PORTOFOLIO EVALUASI PENDIDIKAN
memungkinkan adanya kesempatan yang terbaik bagi siswa untuk menunjukkan
apa yang diketahui, dipahami dan mampu dikerjakan siswa.
b. Pencapaian hasil belajar siswa tidak dibandingkan dengan prestasi kelompok (norm
reference assessment), tetapi dibandingkan dengan kemampuan sebelumnya
kriteria pencapaian kompetensi, standar pencapaian, dan level pencapaian nasional,
dalam rangka membantu anak mencapai apa yang ingin dicapai bukan untuk
menghakiminya.
c. Pengumpulan informasi menggunakan berbagai cara, agar kemajuan belajar siswa
dapat terdeteksi secara lengkap.
d. Siswa perlu dituntut agar dapat mengeksplorasi dan memotivasi diri untuk
mengerahkan semua potensi dalam menanggapi, mengatasi semua masalah yang
dihadapi dengan caranya sendiri, bukan sekedar melatih siswa memilih jawaban
yang tersedia.
e. Untuk menentukan ada tidaknya kemajuan belajar dan perlu tidaknya bantuan
secara berencana, bertahap dan berkesinambungan, berdasarkan fakta dan bukti
yang cukup akurat.
6. Contoh Penerapan Penilaian Berbasis Kelas
Penilaian berbasis kelas dilaksanakan secara terus menerus dan berkala. Terus menerus
berarti penilaian dilaksanakan selama proses pembelajaran, sedangkan berkala berarti
penilaian dilaksanakan setelah mempelajari satu kompetensi, pada akhir jenjang satuan
pendidikan dan setiap akhir semester.
Penerapan penilaian berbasis kelas dilakukan sesuai dengan jenis dan bentuk penilaian
yang digunakan di kelas. Menurut Masnur Muchlis (2007: 92), dalam penggunaan penilaian
berbasis kelas, hal-hal berikut ini perlu diperhatikan:
a) Memandang penilaian sebagai bagian integral dari kegiatan pembelajaran. Di sini
penilaian merupakan hal terpenting dari proses pembelajaran. Kegiatan
pembelajaran harus diakhiri dengan penilaian.
b) Mengembangkan strategi pembelajaran yang mendorong dan memperkuat proses
penilaian sebagai kegiatan refleksi (bercermin diri dan pengalaman belajar).
c) Melakukan berbagai strategi penilaian di dalam program pembelajaran untuk
menyediakan berbagai jenis informasi tentang hasil belajar siswa.
d) Mengakomodasi kebutuhan siswa.
e) Mengembangkan sistem pencatatan yang menyediakan cara bervariasi dalam
pengamatan belajar siswa.
36
PORTOFOLIO EVALUASI PENDIDIKAN
f) Menggunakan penilaian dalam rangka mengumpulkan informasi untuk membuat
keputusan tentang tingkat pencapaian siswa.
7. Analisis Kasus tentang Pelaksanaan Penilaian Berbasis Kelas
Indonesia dikenal sebagai negara yang memiliki banyak koruptor. Sedangkan sebagian
besar dari para koruptor justru berasal dari kalangan yang berpendidikan yang unggul dalam
aspek kognitif, namun kurang dalam aspek afektif. Sedangkan pendidikan tidak bisa lepas
dari proses pembelajaran yang diterapkan oleh guru. Pembelajaran seperti apa yang dapat
diterapkan oleh guru agar softskill dan hardskill siswa dapat berkembang dengan seimbang?
8. Solusi Kasus
Guru menjadi model. Dengan pembelajaran seperti ini guru disarankan mampu menjadi
panutan dan teladan yang baik bagi siswa. Guru tidak hanya memberi contoh, tapi juga harus
mampu menjadi contoh yang baik bagi siswanya. Misalnya dengan berdisiplin datang tepat
waktu, memberi salam dan mengajak berdoa ketika memulai pembelajaran, berpakaian rapi
dan sopan, serta bertutur kata yang santun.
Guru memahami materi dengan baik. Menjadi guru yang berkompeten dan professional
serta mampu menyampaikan materi dengan baik sehingga bisa diterima juga dengan baik
oleh siswanya.
Guru bersikap terbuka kepada siswa, tidak kasar, serta dapat berkomunikasi dengan
baik dengan siswanya sehingga siswa tidak takut membagi pengalaman, bertanya tentang
materi yang belum mereka pahami, dan menata psikologi mereka sehingga mereka merasa
mendapat teman belajar yang menyenangkan.
Guru melatih diri membuat soal yang baik, agar soal tidak sekedar sulit namun mampu
memotivasi siswa untuk belajar sehingga soal tersebut bermakna.
Guru tidak hanya melakukan pembelajaran di dalam kelas, namun sesekali waktu dapat
mengajak siswa melakukan pembelajaran di luar kelas atau bengkel. Seperti penyampaian
materi di taman, atau siswa diajak ke tempat-tempat yang menunjang pembelajaran, misalnya
di museum atau pabrik industri. Hal ini dimaksudkan selain agar siswa lebih dapat
mendalami materi dengan pendemonstrasian secara langsung, juga dapat dijadikan kegiatan
refreshing.
Guru menyelipkan nasehat-nasehat kehidupaan yang relevan pada setiap pembelajaran,
cerita yang dapat memotivasi, dsb.
Guru mendemonstrasikan pembelajaran yang melibatkan kegiatan praktik sesuai
prosedur kerja dengan tidak meninggalkan penggunaan prinsip keselamatan dan kesehatan
kerja, penggunaan alat pelindung diri yang sesuai, kewajiban merawat peralatan kerja, serta
37
PORTOFOLIO EVALUASI PENDIDIKAN
mendemonstrasikan bagaimana sikap yang boleh dan yang tidak boleh dilakukan selama
melakukan pekerjaan di bengkel.
3.
38
PORTOFOLIO EVALUASI PENDIDIKAN
PENILAIAN
ACUAN
KRITERIA
1. Konsep Dasar Penilaian Acuan Kriteria
Penilaian Acuan Kriteria (PAK) adalah model pendekatan penilaian yang mengacu
kepada suatu kriteria pencapaian tujuan (TKP) yang telah ditetapkan sebelumnya. PAK
merupakan suatu cara menentukan kelulusan siswa dengan menggunakan sejumlah kriteria.
Bilamana siswa telah memenuhi kriteria tersebut maka dinyatakan berhasil. Tetapi bila siswa
belum memenuhi kriteria maka dikatakan gagal atau belum menguasai bahan pembelajaran
tersebut. Nilai-nilai yang diperoleh siswa dihubungkan dengan tingkat pencapaian
penguasaan siswa tentang materi pembelajaran sesuai dengan tujuan yang telah ditetapkan.
39
PORTOFOLIO EVALUASI PENDIDIKAN
Siswa yang telah melampaui atau sama dengan kriteria keberhasilan dinyatakan lulus
atau memenuhi persyaratan. Guru tidak melakukan penilaian apa adanya melainkan
berdasarkan kriteria keberhasilan yang telah ditetapkan sejak pembelajaran dimulai. Guru
yang menggunakan model pendekatan PAK ini dituntut untuk selalu mengarahkan,
membantu dan membimbing siswa ke arah penguasaan minimal sejak pembelajaran dimulai,
sedang berlangsung dan sampai berakhirnya pembelajaran. Kompetensi yang dirumuskan
dalam TKP merupakan arah, petunjuk, dan pusat kegiatan dalam pembelajaran. Penggunaan
tes formatif dalam penilaian ini sangat mendukung untuk mengetahui keberhasilan belajar
siswa. Pelaksanaan PAK tidak memerlukan perhitungan statistik melainkan hanya tingkat
penguasaan kompetensi minimal.
Dengan PAK setiap individu dapat diketahui apa yang telah dan belum dikuasainya.
Bimbingan individual untuk meningkatkan penguasaan siswa terhadap materi pelajaran dapat
dirancang, demikian pula untuk memantapkan apa yang telah dikuasainya dapat
dikembangkan. Guru dan setiap peserta didik (siswa) mendapat manfaat dari adanya PAK.
Melalui PAK berkembang upaya untuk meningkatkan kualitas pembelajaran dengan
melaksanakan tes awal (pre test) dan tes akhir (post test). Perbedaan hasil tes akhir dengan
test awal merupakan petunjuk tentang kualitas proses pembelajaran.
Pembelajaran yang menuntut pencapaian kompetensi tertentu sebagaimana diharapkan
dan termuat pada kurikulum saat ini, PAK merupakan cara pandang yang harus diterapkan.
PAK juga dapat digunakan untuk menghindari hal-hal yang tidak diinginkan, misalnya
kurang terkontrolnya penguasaan materi, terdapat siswa yang diuntungkan atau dirugikan,
dan tidak dipenuhinya nilai-nilai kelompok berdistribusi normal. PAK ini menggunakan
prinsip belajar tuntas (mastery learning).
Dengan menentapkan batas toleransi terhadap fluktuasi prestasi peserta didik dari kelas
ke kelas dan dari tahun ke tahun dengan pertimbangan profesional seorang pengajar
menetapkan batas bawah tingkatan prestasi yang dianggap memadai memenuhi syarat (lulus)
sedang yang di bawahnya tidak memenuhi syarat, seperti yang telah dijelaskan diatas. Perlu
dijelaskan bahwa kriteria yang digunakan dalam PAK bersifat mutlak. Artinya kriteria itu
bersifat tetap, setidaknya untuk jangka waktu tertentu dan berlaku bagi semua siswa yang
mengikuti tes di lembaga yang bersangkutan.
2. Manfaat Penilaian Acuan Kriteria
Untuk menentukan apakah seorang peserta didik, yang sesuai dengan tingkatanya sudah
menguasai tujuan instruksional yang telah ditetapkan oleh instansi pendidikan atau yang ada
didalam kurikulum. Pendidik dapat memilih PAP bila mereka ingin mengetahui sejauh mana
40
PORTOFOLIO EVALUASI PENDIDIKAN
peserta didik telah mengusai suatu pengetahun atau keterampilan yang diharapkan dapat
dicapai. Dalam penggunaanya PAP harus terlebih dahulu ditetapkan kriteria keberhasilan
yaitu batas lulus (cutoffs). Jika peserta didik telah menetapkan nilai ujian antara 90-100 dari
standar akan mendapat nilai angka A, maka siapapun yang nilai ujiannya mencapai 90 akan
mendapat nilai A. Jika seluruh kelas nilai ujiannya yang tertinggi hanya 80 dari standar maka
tidak ada satupun yang mendapat nilai angka A.
3. Prinsip – Prinsip Penilaian Acuan Kriteria
a) Objektif, berarti penilaian berbasis pada standar dan tidak dipengaruhi faktor
subjektivitas penilai.
b) Terpadu, berarti penilaian oleh pendidik dilakukan secara terencana, menyatu
dengan kegiatan pembelajaran, dan berkesinambungan.
c) Ekonomis, berarti penilaian yang efisien dan efektif dalam perencanaan,
pelaksanaan, dan pelaporannya.
d) Transparan, berarti prosedur penilaian, kriteria penilaian, dan dasar pengambilan
keputusan dapat diakses oleh semua pihak.
e) Akuntabel, berarti penilaian dapat dipertanggungjawabkan kepada pihak internal
sekolah maupun eksternal untuk aspek teknik, prosedur, dan hasilnya.
f) Edukatif, berarti mendidik dan memotivasi peserta didik dan guru.
(Peraturan Menteri Pendidikan dan Kebudayaan No.66 Tahun 2013 tentang Standar
Penilaian)
4. Keunggulan Penilaian Acuan Kriteria
a) Dapat membantu guru merancang program remidi
b) Tidak membutuhkan perhitungan statistik yang rumit=7
c) Dapat mengukur ketercapaian tujuan pembelajaran
d) Nilainya bersifat tetap selama standar yang digunakan sama.
e) Hasil penilaian dapat digunakan untuk umpan balik atau untuk mengetahui apakah
tujuan pembelajaran sudah tercapai atau belum.
f) Banyak digunakan untuk kelas dengan materi pembelajaran berupa konsep.
g) Mudah menilai karena ada kriteria
5. Keterbatasan Penilaian Acuan Kriteria
a) Memakan waktu dan biaya
b) Metode dapat membosankan
c) kemungkinan terjadi tidak ada siswa yang lulus
6. Penerapan Penilaian Acuan Kriteria
41
PORTOFOLIO EVALUASI PENDIDIKAN
Misalkan untuk dapat diterima sebagai calon penerbangan disebuah lembaga
penerbangan, setiap calon harus memenuhi syarat antara alain tinggi badan sekurang-
kurangnaya 165 cm dan memiliki tingkat kecerdasan (IQ) serendah-rendahnya 130
berdasarkan hasil tes yang diadakan oleh lembaga yang bersangkutan. Berdasarkan kriteria
itu, siapapun calon yang tidak memenuhi syarat-syarat tersebut dinyatakan gagal dalam tes
atau tidak akan diterima sebagai siswa calon penerbang.
Contoh lain misalkan Universitas Negeri Malang mempunyai penilaian acuan kriteria
nilai sebagai berikut:
Nilai 85-100 : A = 4
Nilai 80-85 : A-
Nilai 65-79 : B = 3
Nilai 55-64 : C = 2
Nilai 40 s.d. 54 : D = 1
Nilai < 40 : E = 0 ( Tidak lulus).
Dan ditentukan batas passing grade sebesar 55 atau C, artinya mahasiswa yang belum
menguasai pengetahuan dan keterampilan yang dituntut suatu mata kuliah sekurang
kurangnya 55 %, belum dapat dinyatakan lulus dan harus mengikuti ujian ulang. Dan
mahasiswa yang mendapat nilai 0- 39 berarti gagal atau tidak lulus dan harus mengikuti
kuliah kembali mata kuliah itu pada semester berikutnya.
Contoh lain misalnya untuk dapat diterima sebagai calon tenaga pengajar di perguruan
tinggi adalah IP minimal 3,00 dan setiap calon harus lulus tes potensi akademik yang
diadakan oleh lembaga yang bersangkutan. Berdasarkan kriteria di atas siapapun calon yang
tidak memenuhi persyaratan di atas maka dinyatakan gagal dalam tes atau tidak diterima
sebagai calon tenaga pengajar.
Seperti uraian di atas tingkat kemampuan atau kelulusan seseorang ditentukan oleh
tercapai tidaknya kriteria. Misalnya seseorang dikatakan telah menguasai satu pokok
bahasan / kompetensi bilamana ia telah menjawab dengan benar 75% dari butir soal dalam
pokok bahasan / kompetensi tersebut. Jawaban yang benar 75% atau lebih dinyatakan lulus,
sedang jawaban yang kurang dari 75% dinyatakan belum berhasil dan harus mengulang
kembali.
Muncul pertanyaan bahwa apakah siswa yang dapat menjawab benar 75% ke atas juga
akan memperoleh nilai yang sama? Hal ini tergantung pada sistem penilaian yang digunakan.
Jika hanya menggunakan kriteria lulus dan tidak lulus, berarti siswa yang menjawab benar
75% ke atas adalah lulus, demikian juga sebaliknya siswa yang menjawab benar kurang dari
42
PORTOFOLIO EVALUASI PENDIDIKAN
75% tidak lulus. Apabila sistem penilaian yang digunakan menggunakan model A, B, C, D
atau standar yang lain, kriteria ditetapkan berdasarkan rentangan skor atau skala interval.
7. Analisis Kasus tentang Pelaksanaan Penilaian Acuan Kriteria
8. Solusi Kasus
43
PORTOFOLIO EVALUASI PENDIDIKAN
4.
PENILAIAN
ACUAN
NORMA
1. Konsep Dasar Penilaian Acuan Norma
PAN (Norm Referenced Evaluation) dikenal pula dengan sebutan “Standar Relatif”
atau norma kelompok. Pendekatan ini menafsirkan hasil tes yang diperoleh siswa dengan
membandingkannya dengan hasil tes siswa lain dalam kelompoknya. Alat pembanding itu
44
PORTOFOLIO EVALUASI PENDIDIKAN
ditentukan berdasarkan skor yang diperoleh siswa dalam satu kelompok. Ini berarti bahwa
standar kelulusan baru dapat ditentukan setelah diperoleh skor siswa. Hal ini mengisyaratkan
kepada kita bahwa standar yang dibuat untuk kelompok tertentu tidak dapat digunakan untuk
kelompok lainnya. Begitu pula dengan standar yang digunakan untuk hasil tes sebelumnya
tidak dapat digunakan untuk hasil tes sekarang atau yang akan datang. Jadi setiap kali kita
memperoleh data hasil tes, kita dituntut untuk membuat norma baru. Jika dibandingkan antara
norma yang satu dengan yang lainnya mungkin saja akan ditemukan standar yang sangat
berbeda. Jika kelompok tertentu kebetulan siswanya pintar-pintar, maka norma/standar
kelulusannya akan tinggi. Sebaliknya jika siswanya kurang pintar, maka standar kelulusannya
pun akan rendah. Itulah sebabnya pendekatan ini disebut standar relatif.
Pendekatan PAN ini mendasarkan diri pada asumsi distribusi normal, walaupun kadar
kenormalannya tidak selalu sama untuk tiap kelompok. Dengan demikian, walau tiap-tiap
kelompok sama-sama menghasilkan kurva normal, mean kurva yang satu dengan kurva
lainnya mungkin saja berbeda. Sebagai konsekuensinya, seorang siswa yang memperoleh
nilai tinggi dalam suatu kelompok mungkin akan memperoleh nilai rendah jika ia
dimasukkan ke dalam kelompok lainnya. Demikian pula sebaliknya.
Ada beberapa pendapat lain tentang pengertian Penilaian Acuan Norma, yaitu:
a) Acuan norma merupakan elemen pilihan yang memberikan daftar dokumen normatif
yang diacu dalam standar sehingga acuan tersebut tidak terpisahkan dalam
penerapan standar. Data dokumen normatif yang diacu dalam standar yang sangat
diperlukan dalam penerapan standar.
b) Pengolahan dan pengubahan skor mentah menjadi nilai dilakukan dengan mengacu
pada norma atau kelompok. Cara ini dikenal sebagai penilaian acuan norma (PAN).
c) PAN adalah Nilai sekelompok peserta didik (siswa) dalam suatu proses
pembelajaran didasarkan pada tingkat penguasaan di kelompok itu. Artinya
pemberian nilai mengacu pada perolehan nilai di kelompok itu.
d) Penilaian Acuan Norma (PAN) yaitu dengan cara membandingkan nilai seorang
siswa dengan nilai kelompoknya. Jadi dalam hal ini prestasi seluruh siswa dalam
kelas / kelompok dipakai sebagai dasar penilaian.
Dari beberapa pengertian ini dapat disimpulkan bahwa Penilaian Acuan Norma adalah
penilaian yang dilakukan dengan mengacu pada norma kelompok; nilai-nilai yang diperoleh
siswa diperbandingkan dengan nilai-nilai siswa yang lain yang termasuk di dalam kelompok
itu.
2. Manfaat Penilaian Acuan Norma
45
PORTOFOLIO EVALUASI PENDIDIKAN
Penilaian Acuan Norma (PAN) digunakan untuk mengklasifikasikan peserta didik.
PAN dirancang untuk membedakan pencapaian nilai peserta didik yang tinggi dengan
yang rendah.
PAN digunakan untuk membuat ranking pencapaian prestasi peserta didik.
3. Prinsip – Prinsip Penilaian Acuan Norma
a) Penilaian Acuan Normatif digunakan untuk menentukan status setiap peserta didik
terhadap kemampuan peserta didik lainnya. Artinya, Penilaian Acuan Normatif
digunakan apabila kita ingin mengetahui kemampuan peserta didik di dalam
komunitasnya seperti di kelas, sekolah, dan lain sebagainya.
b) Penilaian Acuan Normatif menggunakan kriteria yang bersifat “relative”. Artinya,
selalu berubah-ubah disesuaikan dengan kondisi dan atau kebutuhan pada waktu
tersebut.
c) Nilai hasil dari Penilaian Acuan Normatif tidak mencerminkan tingkat kemampuan
dan penguasaan siswa tentang materi pengajaran yang diteskan, tetapi hanya
menunjuk kedudukan peserta didik (peringkatnya) dalam komunitasnya
(kelompoknya).
d) Penilaian Acuan Normatif memiliki kecenderungan untuk menggunakan rentangan
tingkat penguasaan seseorang terhadap kelompoknya, mulai dari yang sangat
istimewa sampai dengan yang mengalami kesulitan yang serius.
e) Penilaian Acuan Normatif memberikan skor yang menggambarkan penguasaan
kelompok, sehingga seorang siswa yang memperoleh nilai tinggi dalam suatu
kelompok mungkin akan memperoleh nilai rendah jika ia dimasukkan ke dalam
kelompok lainnya.
4. Keunggulan Penilaian Acuan Norma
a) Hasil PAN dapat membuat guru bersikap positif dalam memperlakukan siswa
sebagai individu yang unik.
b) Hasil PAN akan merupakan informasi yang baik tentang kedudukan siswa dalam
kelompoknya.
c) PAN dapat digunakan untuk menyeleksi calon siswa yang dites secara ketat.
5. Keterbatasan Penilaian Acuan Norma
a) Dianggap tidak adil.
b) Membuat persaingan yang tidak sehat di antara siswa.
46
PORTOFOLIO EVALUASI PENDIDIKAN
c) Alat pembanding itu ditentukan berdasarkan skor yang diperoleh siswa dalam satu
kelompok. Ini berarti bahwa standar kelulusan baru dapat ditentukan setelah
diperoleh skor siswa.
d) Bersifat relatif, karena standar yang dibuat untuk kelompok tertentu tidak dapat
digunakan untuk kelompok lainnya. Sehingga setiap dilaksanakan tes, harus
membuat norma/standar baru.
6. Penerapan Penilaian Acuan Norma
Untuk menetapkan persentase jumlah mahasiswa yang diluluskan dapat dilakukan
dengan beberapa cara. Cara pertama, dengan menggunakan penetapan persentase mahasiswa
yang diluluskan (A, B+, B, C+, C) dengan cara mengurutkan nilai tertinggi sampai yang
terendah. Cara kedua, menggunakan perhitungan MEAN (nilai rata-rata) dan SD (standart
deviasi) yang diperoleh. Cara kedua ini berbeda dengan cara pertama, dan persentase
kelulusan mungkin tidak sama dibandingkan bila dilakukan dengan cara pertama.
Konversi didasarkan pada Mean dan Standar Deviasi (SD) yang dihitung dari hasil tes
yang diperoleh. Oleh karena itu untuk membuat standar penilaian atau pedoman konversi,
terlebih dahulu kita harus menghitung Mean dan SD-nya. Jika dihubungkan dengan skala
penilaian, maka pedoman konversi untuk PAN dapat mempergunakan berbagai skala,
misalnya skala lima, sembilan, sepuluh, dan seratus.
PAN tidak dapat digunakan untuk mengukur kadar pencapaian tujuan dan tingkat
penguasaan bahan. PAN sering digunakan untuk fungsi prediktif, meramalkan keberhasilan
pendidikan siswa di masa mendatang atau untuk menentukan peringkat/kedudukan siswa
dalam kelompok. Batas lulus yang dipakai tidak lagi memperhatikan penguasaan tujuan
instruksional tapi pada angka rata-rata dan besarnya simpangan baku. Lazimnya batas lulus
ditetapkan berdasarkan persentase jumlah mahasiswa yang akan diluluskan dalam ujian yang
sedang berlangsung.
Contoh penerapannya adalah dalam satu kelas, peserta ujian terdiri dari 9 orang dengan
skor mentah 50, 45, 45, 40, 40, 40, 35, 35, dan 30. Jika menggunakan pendekatan penilaian
acuan normal (PAN), maka peserta tes yang mendapat skor tertinggi (50) akan mendapat nilai
tertinggi, misalnya 10. sedangkan mereka yang mendapat skor di bawahnya akan mendapat
nilai secara proporsional, yaitu 9, 9, 8, 8, 8, 7, 7, 6. Penentuan nilai dengan skor di atas dapat
juga dihitung terlebih dahulu persentase jawaban benar. Kemudian, yang memperoleh
persentase tertinggi diberikan nilai tertinggi.
Contoh yang lain adalah dalam sebuah seleksi, misalnya dalam Seleksi Bersama Masuk
Perguruan Tinggi Negeri (SBMPTN), daya tampung untuk program studi S-1 Pendidikan
47
PORTOFOLIO EVALUASI PENDIDIKAN
Teknik Mesin Universitas Negeri Malang adalah sebanyak 112 calon mahasiswa. Maka
digunakan Penilaian Berbasis Norma untuk menentukan siapa saja yang lolos seleksi, yaitu
dengan cara diurutkan seluruh hasil tesnya mulai dari yang tertinggi sampai terendah, lalu
diambil yang tertinggi pertama sampai yang ke-112, mereka itulah yang dinyatakan lolos
seleksi.
7. Analisis Kasus tentang Pelaksanaan Penilaian Acuan Norma
Jika pada suatu kasus 3 kelas pada mata pelajaran tertentu diajar oleh guru yang sama,
guru telah memberi perlakuan yang sama pada 3 kelas tersebut, namun Ulangan Harian
menunjukkan kesenjangan hasil yang jauh antara kelas satu dengan lainnya.
8. Solusi Kasus
Guru dapat mencari data siswa yang dianggap pandai untuk ditempatkan pada 3 kelas
tersebut secara sama rata agar dapat menjadi virus positif bagi siswa yang lain.
48
PORTOFOLIO EVALUASI PENDIDIKAN
5.
VALIDITAS
DAN
RELIABILITA
S
49
PORTOFOLIO EVALUASI PENDIDIKAN
1. Konsep Dasar Validitas dan Reliabilitas
Linn dan Gronlund (1995: 47) menyatakan bahwa tes yang baik harus memenuhi tiga
karakteristik, yaitu: validitas, reliabilitas, dan usabilitas. Validitas artinya ketepatan
interpretasi hasil prosedur pengukuran, reliabilitas artinya konsistensi hasil pengukuran, dan
usabilitas artinya praktis prosedurnya. Di samping itu, Cohen dkk. (1992: 28) juga
menyatakan bahwa tes yang baik adalah tes yang valid artinya mengukur apa yang hendak
diukur. Nitko (1996 : 36) menyatakan bahwa validitas berhubungan dengan interpretasi atau
makna dan penggunaan hasil pengukuran peserta didik. Messick (1993: 13) menjelaskan
bahwa validitas tes merupakan suatu integrasi pertimbangan evaluatif derajat keterangan
empiris yang mendasarkan pemikiran teoritis yang mendukung ketepatan dan kesimpulan
berdasarkan pada skor tes. Adapun validitas dalam model Rasch adalah sesuai atau fit dengan
model (Hambleton dan Swaminathan, 1985: 73).
Reabilitas tes adalah tingkat keajegan (konsitensi) suatu tes, yakni sejauh mana suatu
tes dapat dipercaya untuk menghasilkan skor yang ajeg, relatif tidak berubah walaupun
diteskan pada situasi yang berbeda-beda. Reliabilitas suatu tes adalah taraf sampai dimana
suatu tes mampu menunjukkan konsisten hasil pengukurannya yang diperlihatkan dalam taraf
ketetapan dan ketelitian hasil. Reliabel tes berhubungan dengan ketetapan hasil tes.
2. Jenis Validitas dan Reliabilitas
Messick (1993: 16) menyatakan bahwa validitas secara tradisional terdiri dari: (1)
validitas isi, yaitu ketepatan materi yang diukur dalam tes; (2) validitas criterion-related, yaitu
membandingkan tes dengan satu atau lebih variabel atau kriteria, (3) valitidas prediktif, yaitu
ketepatan hasil pengukuran dengan alat lain yang dilakukan kemudian; (4) validitas serentak
(concurrent), yaitu ketepatan hasil pengukuran dengan dua alat ukur lainnya yang dilakukan
secara serentak; (5) validitas konstruk, yaitu ketepatan konstruksi teoretis yang mendasari
disusunnya tes. Linn dan Gronlund (1995 : 50) menyatakan hahwa valilitas terdiri dari: (1)
konten. (2) test-criterion relationship, (3) konstruk, dan (4) consequences, yaitu ketepatan
penggunaan hasil pengukuran. Sedangkan menurut Oosterhof (190 : 23) yang mengutip
berdasarkan "Standards for Educational and Psychological Testing, 1985" yang didukung
oleh Ebel dan Frisbie (1991 : 102-109), serta Popham (1995 : 43) bahwa tipe validitas adalah
50
PORTOFOLIO EVALUASI PENDIDIKAN
validitas: (1) content, (2) criterion, dan (3) construction.
3. Manfaat Validitas dan Reliabilitas
4. Prinsip – Prinsip Validitas dan Reliabilitas
5. Keunggulan Validitas dan Reliabilitas
6. Keterbatasan Validitas dan Reliabilitas
7. Penerapan Validitas dan Reliabilitas
8. Analisis Kasus tentang Validitas dan Reliabilitas
Konsep reliabilitas diartikan sebagai sejauh mana suatu alat ukur diyakini memberi-kan
informasi yang konsisten tentang karakteristik peserta tes yang diujikan. Jika mahasiswa
berspekulasi dalam mengerjakan tes, bagaimana tester menyikapi mahasiswa yang bersikap
demikian? Apakah uji reliabilitas ini masih dapat dikatakan bermakna?
9. Solusi Kasus
Di samping validitas, informasi tentang reliabilitas tes sangat diperlukan. Nitko (1999 :
62) dan Popham (1995 : 21) menyatakan bahwa reliabilitas berhubungan dengan konsistensi
hasil pengukuran. Pernyataan ini didukung oleh Cohen dkk, yaitu bahwa reliabilitas
merupakan persamaan dependabilitas atau konsistensi (Cohen dkk : 192 : 132) karena tes
yang memiliki konsistensi/reliabilitas tinggi, maka tesnya adalah akurat, reproducible; dan
gereralizable terhadap kesempatan testing dan instrumen tes yang sama. (Ebel dan Frisbie
(1991 : 76). Faktor yang mempengaruhi reliabilitas yang berhubungan dengan tes adalah: (1)
banyak butir, (2) homogenitas materi tes, (3) homogenitas karakteristik butir, dan (4)
variabilitas skor. Reliabilitas yang berhubungan dengan peserta didik dipengaruhi oleh faktor:
(1) heterogenitas kelompok, (2) pengalaman peserta didik mengikuti tes, dan (3) motivasi
peserta didik. Sedangkan faktor yang mempengaruhi reliabilitas yang berhubungan dengan
administrasi adalah batas waktu dan kesempatan menyontek (Ebel dan Frisbie, 1991: 88-93).
Linn dan Gronlund menyatakan bahwa metode estimasi dapat dilakukan dengan
mempergunakan: (1) metode test-retest, yaitu diberikan tes yang sama dua kali pada
kelompok yang sama dengan interval waktu; tujuannya adalah pengukuran stabilitas; (2)
metode equivalent form, yaitu diberikan dua tes paralel pada kelompok yang sama dan waktu
yang sama; tujuannya adalah pengukuran menjadi ekuivalen; (3) metode test-retest dengan
equivalen form, yaitu diberikan dua tes paralel pada kelompok yang sama dengan interval
waktu; tujuannya adalah pengukuran stabilitas dan ekuivalensi; (4) metode split-half, yaitu
diberikan tes sekali, kemudian skor pada butir yang ganjil dan genap dkorelasikan dengan
menggunakan rumus Spearman-Brown; tujuannya adalah pengukuran konsistensi internal;
51
PORTOFOLIO EVALUASI PENDIDIKAN
(5) metode Kuder-Richardson dan koefisien Alfa, yaitu diberikan tes sekali kemudian skor
total tes dihitung dengan rumus Kuder-Richardson, tujuannya adalah pengukuran konsistensi
internal; (6) metode inter-rater, yaitu diberikan satu set jawaban peserta didik untuk
diskor/judgement oleh 2 atau lebih rater; tujuannya adalah pengukuran konsistensi rating.
Menurut Popham (1995: 22), reliabilitas terdiri dari 3 jenis yaitu: (1) stabilitas, yaitu
konsistensi hasil di antara kesempatan testing yang berbeda, (2) format bergantian (alternate
form), yaitu konsistensi hasil di antara dua atau lebih tes yang berbeda, (3) internal
konsistensi, yaitu konsistensi melalui suatu pengukuran fungsi butir instrumen.
Reliabilitas skor tes dalam teori respon butir adalah penggunaan fungsi informasi tes.
Menurut Hambleton dan Swaminathan (1985: 236), pengukuran fungsi informasi tes lebih
akurat bila dibandingkan dengan penggunaan reliabilitas karena: (1) bentuknya tergantung
hanya pada butir-butir dalam tes, (2) mempunyai estimasi kesalahan pengukuran pada setiap
level abilitas. Pernyataan ini didukung oleh Gustafson (1981 : 41), yaitu bahwa konsep
reliabilitas dalam model Rasch memerankan bagian subordinate sebab model pengukuran ini
diorientasikan pada estimasi kemampuan individu. Untuk meningkatkan validitas dan
reliabilitas tes perlu dilakukan analisis butir soal.
52
PORTOFOLIO EVALUASI PENDIDIKAN
6.
MENGEMBAN
GKAN BUTIR
SOAL (KISI-
53
PORTOFOLIO EVALUASI PENDIDIKAN
KISI DAN
INDIKATOR)1. Konsep Dasar Pengembangan Butir Soal
Bahan ujian atau soal yang bermutu dapat membantu pendidik meningkatkan
pembelajaran dan memberikan informasi dengan tepat tentang peserta didik mana yang
belum atau sudah mencapai kompetensi. Salah satu ciri soal yang bermutu adalah bahwa soal
itu dapat membedakan setiap kemampuan peserta didik. Semakin tinggi kemampuan peserta
didik dalam memahami materi pembelajaran, semakin tinggi pula peluang menjawab benar
soal atau mencapai kompetensi yang ditetapkan. Makin rendah kemampuan peserta didik
dalam memahami materi pembelajaran, makin kecil pula peluang menjawab benar soal untuk
mengukur pencapaian kompetensi yang ditetapkan.
Syarat soal yang bermutu adalah bahwa soal harus sahih (valid), dan handal. Sahih
maksudnya bahwa setiap alat ukur hanya mengukur satu dimensi/aspek saja. Mistar hanya
mengukur panjang, timbangan hanya mengukur berat, bahan ujian atau soal PKn hanya
mengukur materi pembelajaran PKn bukan mengukur keterampilan/kemampuan materi yang
lain. Handal maksudnya bahwa setiap alat ukur harus dapat memberikan hasil pengukuran
yang tepat, cermat, dan ajeg. Untuk dapat menghasilkan soal yang sahih dan handal, penulis
soal harus merumuskan kisi-kisi dan menulis soal berdasarkan kaidah penulisan soal yang
baik (kaidah penulisan soal bentuk objektif/pilihan ganda, uraian, atau praktik).
Linn dan Gronlund (1995: 47) menyatakan bahwa tes yang baik harus memenuhi tiga
karakteristik, yaitu: validitas, reliabilitas, dan usabilitas. Validitas artinya ketepatan
interpretasi hasil prosedur pengukuran, reliabilitas artinya konsistensi hasil pengukuran, dan
usabilitas artinya praktis prosedurnya.
Di samping validitas, informasi tentang reliabilitas tes sangat diperlukan. Reliabilitas
merupakan persamaan dependabilitas atau konsistensi (Cohen dkk : 192 : 132) karena tes
54
PORTOFOLIO EVALUASI PENDIDIKAN
yang memiliki konsistensi/reliabilitas tinggi, maka tesnya adalah akurat, reproducible; dan
gereralizable terhadap kesempatan testing dan instrumen tes yang sama. (Ebel dan Frisbie
(1991 : 76). Untuk meningkatkan validitas dan reliabilitas tes perlu dilakukan analisis butir
soal.
2. Langkah Pengembangan Butir Soal
A. Menyusun spesifikasi tes
1) Menentukan tujuan tes
Tujuan penilaian sangat penting karena setiap tujuan memiliki penekanan yang
berbeda-beda. Misalnya untuk tujuan tes prestasi belajar, diagnostik, atau seleksi.
Contoh untuk tujuan prestasi belajar, lingkup materi/kompetensi yang
ditanyakan/diukur disesuaikan seperti untuk kuis/menanyakan materi yang lalu,
pertanyaan lisan di kelas, ulangan harian, tugas individu/kelompok, ulangan semester,
ulangan kenaikan kelas, laporan kerja praktik/laporan praktikum, ujian praktik.
Setelah menentukan tujuan, maka perlu memperhatikan standar kompetensi (SK)
dan kompetensi dasar (KD). Standar kompetensi merupakan acuan/target utama
yang harus dipenuhi atau yang harus diukur melalui setiap kompetensi dasar yang
ada atau melalui gabungan kompetensi dasar.
2) Menyusun kisi-kisi tes
Kisi-kisi (test blue-print atau table of specification) merupakan deskripsi
kompetensi dan materi yang akan diujikan. Tujuan penyusunan kisi-kisi adalah
untuk menentukan ruang lingkup dan sebagai petunjuk dalam menulis soal. Kisi-
kisi yang baik harus memenuhi persyaratan berikut ini : (1) kisi-kisi harus dapat
mewakili isi silabus/kurikulum atau materi yang telah diajarkan secara tepat dan
proporsional, (2) komponen-komponennya diuraikan secara jelas dan mudah
dipahami, (3) materi yang hendak ditanyakan dapat dibuatkan soalnya.
Sedangkan untuk kisi-kisi non tes, biasanya formatnya berisi dimensi, indikator,
jumlah butir soal per indikator, dan nomor butir soal. Formatnya seperti berikut ini.
NO DIMENSI INDIKATORJUMLAH SOAL
PER INDIKATORNOMOR SOAL
55
PORTOFOLIO EVALUASI PENDIDIKAN
JUMLAH SOAL =
Untuk mengisi kolom dimensi dan indikator, penulis soal harus mengetahui
terlebih dahulu validitas konstruknya yang disusun/dirumuskan melalui teori. Cara
termudah untuk mendapatkan teori adalah membaca beberapa buku, hasil
penelitian, atau mencari informasi lain yang berhubungan dengan variabel atau
tujuan tes yang dikehendaki. Oleh karena itu, peserta didik atau responden yang
hendak mengerjakan tes ini (instrumen non-tes) tidak perlu mempersiapkan/belajar
materi yang hendak diteskan terlebih dahulu seperti pada tes prestasi belajar.
Setelah menyusun kisi-kisi, maka selanjutnya adalah menyusun indikator.
Indikator dalam kisi-kisi merupakan pedoman dalam merumuskan soal yang
dikehendaki. Kegiatan perumusan indikator soal merupakan bagian dari kegiatan
penyusunan kisi-kisi. Untuk merumuskan indikator dengan tepat, guru harus
memperhatikan materi yang akan diujikan, indikator pembelajaran, kompetensi
dasar, dan standar kompetensi. Indikator yang baik dirumuskan secara singkat dan
jelas. Syarat indikator yang baik adalah menggunakan kata kerja operasional
(perilaku khusus) yang tepat, menggunakan satu kata kerja operasional untuk soal
objektif, dan satu atau lebih kata kerja operasional untuk soal uraian/tes perbuatan,
serta dapat dibuatkan soal atau pengecohnya (untuk soal pilihan ganda). S
Penulisan indikator yang lengkap mencakup A = audience (peserta didik) , B =
behaviour (perilaku yang harus ditampilkan), C = condition (kondisi yang
diberikan), dan D = degree (tingkatan yang diharapkan). Ada dua model penulisan
indikator. Model pertama adalah menempatkan kondisinya di awal kalimat. Model
pertama ini digunakan untuk soal yang disertai dengan dasar pernyataan (stimulus),
misalnya berupa sebuah kalimat, paragraf, gambar, denah, grafik, kasus, atau
lainnya, sedangkan model yang kedua adalah menempatkan peserta didik dan
perilaku yang harus ditampilkan di awal kalimat. Model yang kedua ini digunakan
untuk soal yang tidak disertai dengan dasar pertanyaan (stimulus).
3) Memilih bentuk tes
Menentukan jenis alat ukurnya, yaitu tes atau non-tes atau mempergunakan
keduanya. Untuk penggunaan tes diperlukan penentuan materi penting sebagai
pendukung kompetensi dasar. Syaratnya adalah materi yang diujikan harus
mempertimbangkan urgensi (wajib dikuasai peserta didik), kontinuitas (merupakan
56
PORTOFOLIO EVALUASI PENDIDIKAN
materi lanjutan), relevansi (bermanfaat terhadap mata pelajaran lain), dan
keterpakaian dalam kehidupan sehari-hari tinggi (UKRK). Langkah selanjutnya
adalah menentukan jenis tes dengan menanyakan apakah materi tersebut tepat
diujikan secara tertulis/lisan. Bila jawabannya tepat, maka materi yang
bersangkutan tepat diujikan dengan bentuk soal apa, pilihan ganda atau uraian. Bila
jawabannya tidak tepat, maka jenis tes yang tepat adalah tes perbuatan: kinerja
(performance), penugasan (project), hasil karya (product), atau lainnya.
4) Menentukan panjang tes
Penentuan materi yang akan diujikan sangat penting karena di dalam satu tes
tidak mungkin semua materi yang telah diajarkan dapat diujikan dalam waktu yang
terbatas, misalnya satu atau dua jam. Oleh karena itu, setiap guru harus
menentukan materi mana yang sangat penting dan penunjang, sehingga dalam
waktu yang sangat terbatas, materi yang diujikan hanya menanyakan materi-materi
yang sangat penting saja. Materi yang telah ditentukan harus dapat diukur sesuai
dengan alat ukur yang akan digunakan yaitu tes atau non-tes.
B. Menulis soal tes
Penulisan butir soal tes tertulis merupakan suatu kegiatan yang sangat penting
dalam penyiapan bahan ulangan/ujian. Setiap butir soal yang ditulis harus berdasarkan
rumusan indikator soal yang sudah disusun dalam kisi-kisi dan berdasarkan kaidah
penulisan soal bentuk obyektif dan kaidah penulisan soal uraian.
Penggunaan bentuk soal yang tepat dalam tes tertulis, sangat tergantung pada
perilaku/kompetensi yang akan diukur. Ada kompetensi yang lebih tepat
diukur/ditanyakan dengan menggunakan tes tertulis dengan bentuk soal uraian, ada pula
kompetensi yang lebih tepat diukur dengan menggunakan tes tertulis dengan bentuk
soal objektif. Bentuk tes tertulis pilihan ganda maupun uraian memiliki kelebihan dan
kelemahan satu sama lain.
C. Menelaah soal tes
Telaah soal atau analisis kualitatif soal adalah mengkaji secara teoritik soal tes
yang telah tersusun. Telaah ini dilakukan dengan memperhatikan tiga aspek, yaitu
aspek materi, aspek konstruksi, dan aspek bahasa.
D. Melakukan uji coba tes
Uji coba soal pada dasarnya adalah upaya untuk mengetahui kualitas soal tes
berdasarkan pada empirik atau respon dari peserta tes. Hal ini dapat terwujud manakala
57
PORTOFOLIO EVALUASI PENDIDIKAN
dilakukan analisis empirik atau analisis kuantitatif, baik menggunakan teori klasik
maupun teori modern.
E. Menganalisis butir soal
Untuk mengetahui kualitas butir soal, maka hasil uji coba harus dianalisis secara
empirik. Ada dua pendekatan yang digunakan untuk melakukan analisis empirik ini,
yaitu: teori klasik dan teori respon. Masing-masing pendekatan ada kelebihan dan
kekurangannya. Untuk responden yang kecil (kurang dari 100) lebih cocok
menggunakan teori klasik, sebaliknya untuk responden yang besar (lebih besar dari
200) lebih cocok menggunakan teori respon butir.
F. Memperbaiki tes
Setelah uji coba dilakukan dan kemudian dianalisis, maka langkah berikutnya
adalah melakukan perbaikan-perbaikan tentang bagian soal yang masih belum sesuai
dengan yang diharapkan.
G. Merakit tes
Merakit soal adalah menyusun soal yang siap pakai menjadi satu perangkat/paket
tes atau beberapa paket tes paralel. Dasar acuan dalam merakit soal adalah tujuan tes
dan kisi-kisinya. Untuk memudahkan pelaksanaannya, guru harus memperhatikan
langkah-langkah perakitan soal.
H. Melaksanakan tes
Tes yang disusun diberikan kepada testee untuk diselesaikan. Pelaksanaan tes
dilakukan sesuai waktu yang telah ditentukan. Dalam pelaksanaan tes ini perlu
dilakukan pengawasan agar tes tersebut benar-benar dikerjakan dengan jujur dan sesuai
dengan ketentuan yang digariskan.
I. Menafsirkan hasil tes
3. Manfaat Pengembangan Butir Soal
Kegunaan indikator :
A. Sebagai pertanda atau indikasi pencapaian kompetensi
B. Menggunakan kata kerja operasional yang dapat diukur
C. Mengacu pada materi pembelajaran sesuai kompetensi
Sedangkan kisi-kisi berguna sebagai pedoman penyusunan dan perakitan soal.
4. Prinsip – Prinsip Pengembangan Butir Soal
Pengembangan materi penting dilakukan dengan memperhatikan kriteria:
Urgensi, yaitu materi secara teoritis mutlak harus dikuasai oleh peserta didik,
Kontinuitas, yaitu materi lanjutan yang merupakan pendalaman dari satu atau lebih
58
PORTOFOLIO EVALUASI PENDIDIKAN
materi yang sudah dipelajari sebelumnya,
Relevansi, yaitu materi yang diperlukan untuk mempelajari atau memahami, mata
pelajaran lain,
Keterpakaian, yaitu rnateri yang memiliki nilai terapan tinggi dalam kehidupan
sehari-hari.
5. Penerapan Pengembangan Butir Soal
A. Penulisan Kisi-Kisi
Kisi-kisi dapat didefinisikan sebagai matrik informasi yang dapat dijadikan
pedoman untuk menulis dan merakit soal menjadi instrument tes. Dengan
menggunakan kisi-kisi, pembuat soal dapat menghasilkan soal-soal yang sesuai dengan
tujuan tes. Berbagai instrument tes yang memiliki tingkat kesulitan, kedalaman materi
dan cakupan materi sama (paralel) akan mudah dihasilkan hanya dengan satu kisi-kisi
yang baik. Beberapa hal penting yang harus diperhatikan dalam menyusun kisi-kisi
antara lain :
Kisi-kisi dapat berbentuk format atau matriks seperti contoh berikut ini ;
1) Sampel materi, pemilihan sampel materi yang akan ditulis butir soalnya
hendaknya dilakukan dengan mengacu pada kompetensi yang ingin dicapai.
Pemilihan sampel materi secara representative dapat mewakili semua materi
yang diajarkan selama proses pembelajaran. Semakin banyak sampel materi
yang dapat ditanyakan maka semakin banyak pula tujuan pembelajaran yang
dapat diukur. Dasar pertimbangan yang digunakan dalam pemilihan sampel
materi adalah dasar pertimbangan keahlian (expert judgement).
2) Jenis tes, pemilihan jenis tes yang digunakan berhubungan erat dengan jumlah
sampel materi yang dapat diukur, tingkat kognitif yang akan diukur, jumlah
peserta tes, serta jumlah butir soal yang akan dibuat. Ada dua jenis tes yang
dapat digunakan sebagai alat ukur hasil belajar peserta ujian , yaitu tes objektif
dan tes uraian. Pemilihan jenis tes sangat terkait dengan tujuan pembelajaran
yang akan diukur. Tes objektif merupakan jenis tes yang tepat digunakan untuk
ujian berskala besar yang hasilnya harus segera kompetensi profesi. Soal tes
objektif dapat diskor dengan mudah, cepat, dan memiliki objektivitas yang
tinggi, mengukur berbagai tingkatan kognitif, serta dapat mencakup ruang
lingkup materi yang luas dalam suatu tes. diumumkan, seperti ujian nasional,
ujian akhir program, dan ujian.
3) Jenjang pengetahuan, setiap mata kuliah/kompetensi inti mempunyai penekanan
59
PORTOFOLIO EVALUASI PENDIDIKAN
kemampuan yang berbeda dalam mengembangkan proses berfikir peserta ujian .
Dengan demikian jenjang kemampuan berfikir yang akan diujikan pun berbeda-
beda. Jika tujuan suatu kompetensi lebih menekankan pada pengembangan
proses berfikir analisis, evaluasi dan kreasi, maka butir soal yang akan
digunakan dalam ujian harus dapat mengukur kemampuan tersebut, begitu juga
sebaliknya. Secara singkat dapat dikatakan bahwa kumpulan butir soal yang
akan digunakan dalam ujian harus dapat mengukur proses berfikir yang relevan
dengan proses berfikir yang dikembangkan selama proses pembelajaran.
Dalam hubungan ini, kita mengenal ranah kognitif yang dikembangkan oleh
Bloom dkk yang kemudian direvisi oleh Krathwoll (2001). Revisi Krathwoll
terhadap tingkatan ranah kognitif adalah: ingatan (C1), pemahaman (C2),
penerapan (C3), analisis (C4), evaluasi (C5) dan kreasi (C6).
4) Tingkat kesukaran, dalam menentukan sebaran tingkat kesukaran butir soal
dalam set soal untuk ujian, harus mempertimbangkan interpretasi hasil tes mana
yang akan digunakan. Ada dua pendekatan yang dapat digunakan dalam
menginterpretasikan hasil tes, yaitu pendekatan Penilaian Acuan Patokan (PAP)
dan Penilaian Acuan Norma (PAN). Dalam uji kompetensi, interpretasi hasil tes
yang digunakan berbasis kompetensi, maka pendekatan yang digunakan adalah
PAP. Sehingga dalam menginterpretasikan hasil tes yang menjadi pertimbangan
dalam penyusunan butir soal ujian adalah ketercapaian tujuan yang telah
ditetapkan dalam blue print kompetensi. Walaupun butir soal tersebut mudah,
tetapi apabila butir soal tersebut diperlukan untuk mengukur tujuan yang telah
ditetapkan, maka butir soal tersebut harus digunakan.
5) Waktu ujian, lamanya waktu ujian merupakan faktor pembatas yang harus
diperhatikan dalam membuat perencanaan tes. Lamanya waktu ujian (misalnya
90 menit) akan membawa konsekuensi pada banyaknya butir soal yang harus
dibuat. Jumlah butir soal yang akan diujikan harus diperkirakan agar soal dapat
diselesaikan dalam waktu 90 menit. Jumlah butir soal tidak boleh terlalu banyak
atau terlalu sedikit, untuk mengantisipasi peserta ujian menjawab soal dengan
cara menebak.
6) Jumlah butir soal, penentuan jumlah butir soal yang tepat dalam satu kali ujian
tergantung pada beberapa hal, antara lain: penguasaan kompetensi yang ingin
diketahui, ragam soal yang akan digunakan, proses berfikir yang ingin diukur,
dan sebaran tingkat kesukaran dalam set tes tersebut. Pada uji kompetensi,
60
PORTOFOLIO EVALUASI PENDIDIKAN
waktu dan jumlah butir soal telah ditetapkan, sehingga pembuat soal dapat
memperkirakan tingkat kesulitan soal.
FORMAT KISI-KISI PENULISAN SOAL
Jenis sekolah : ……………………… Jumlah soal : ………………………
Mata pelajaran : ……………………… Bentuk soal/tes : ..................
Kurikulum : ……………………… Penyusun : 1. …………………
Alokasi waktu : ……………………… 2. …………………
No.Standar
Kompetensi Kompetensi
Dasar
Kls/
Smt
Materi
pokok
Indikator soal
Nomor
soal
Keterangan:
Isi pada kolom 2, 3. 4, dan 5 adalah harus sesuai dengan pernyataan yang ada di dalam
silabus/kurikulum. Penulis kisi-kisi tidak diperkenankan mengarang sendiri, kecuali
pada kolom 6.
61
PORTOFOLIO EVALUASI PENDIDIKAN
B. Penulisan Indikator
Untuk membantu mempermudah pengisian format kisi-kisi, maka yang perlu
dilakukan:
1) Siapkan format kisi-kisi dan buku materi yang akan digunakan sebagai sumber
dalam pembuatan kisi-kisi.
2) Setelah mengetahui kompetensi inti maka selanjutnya menentukan indikator
pembelajaran yang akan diukur. Kompetensi dasar dan indikator dirumuskan
dalam kata kerja operasional, yang merupakan dasar dalam menyusun soal.
Contoh kata kerja operasional: menentukan, menyebutkan, menghitung,
menunjukkan, menjelaskan, mengidentifikasi, menyimpulkan.
3) Tentukan pokok bahasan dan sub pokok bahasan yang akan digunakan untuk
mengukur ketercapaian indikator pembelajaran tersebut. Kemudian tuliskan
pokok bahasan dan sub pokok bahasan tersebut pada lembar kisi-kisi. Upayakan
pokok bahasan dan sub pokok bahasan tersebut merupakan sampel materi yang
representative mewakili keseluruhan kompetensi yang diujikan.
4) Tuliskan berapa jumlah butir soal yang layak ditanyakan dalam satu waktu ujian
tersebut. Penentuan jumlah butir soal harus memperhatikan tingkat kesukaran
butir soal dan proses berfikir yang ingin diukur.
5) Sebarkan jumlah butir soal tersebut per pokok bahasan. Penentuan jumlah butir
soal per pokok bahasan hendaknya dilakukan secara proporsional berdasarkan
kepentingan atau keluasan sub pokok bahasan tersebut.
6) Distribusikan jumlah butir soal per pokok bahasan tersebut ke dalam sub pokok
bahasan. Pendistribusian jumlah butir soal ini juga harus dilakukan secara
proporsional sesuai dengan kepentingan atau keluasan sub pokok bahasan
tersebut.
7) Distribusikan jumlah butir soal per sub pokok bahasan tersebut ke dalam kolom-
kolom proses berfikir dan tingkat kesukaran butir soal. Pendistribusian ini harus
berpedoman pada kompetensi yang akan diukur ketercapaiannya dan proses
berfikir yang dikembangkan selama proses pembelajaran.
Contoh model pertama untuk soal menyimak pada mata pelajaran Bahasa Indonesia.
Indikator : Diperdengarkan sebuah pernyataan pendek dengan topik
"belajar mandiri", peserta didik dapat menentukan dengan tepat pernyataan
yang sama artinya.
Soal : (Soal dibacakan atau diperdengarkan hanya satu kali, kemudian
62
Dijual sebidang tanah di Bekasi. Luas 4 ha. Baik untuk industri. Hubungi telp. 777777
Iklan ini termasuk jenis iklan ……
Dasar pertanyaanstimulus
Pokok soal (tem)
Pilihan jawaban(Option)
(.)tanda akhir kalimat
(...)tanda ellipsis (pernyataan yang sengaja dihilangkan)
a. permintaanb. propagandac. pengumumand. penawaran *
Pengecoh (distractor)
Kunci jawaban
Perhatikan iklan berikut
PORTOFOLIO EVALUASI PENDIDIKAN
peserta didik memilih dengan tepat satu pernyataan yang sama artinya.
Soalnya adalah: "Hari harus masuk kelas pukul 7.00., tetapi dia datang pukul
8.00 pagi hari.")
Lembar tes hanya berisi pilihan seperti berikut:
Hari masuk kelas tepat waktu pagi ini.
Hari masuk kelas terlambat dua jam pagi ini
Hari masuk Kelas terlambat siang hari ini,
Hari masuk Kelas terlambat satu jam hari ini
Kunci: d
Contoh model kedua
Indikator : Peserta didik dapat menentukan dengan tepat penulisan tanda baca
pada nilai uang.
Soal : Penulisan nilai uang yang benar adalah ....
Rp 125,-
RP 125,00
Rp125
Rp125.
Kunci: b
C. Soal Pilihan Ganda
D. Tes Skala Sikap
Contoh soalnya sebagai berikut :
NO. PERNYATAAN SS S TS STS
1. Mau menerima pendapat orang lain
63
PORTOFOLIO EVALUASI PENDIDIKAN
2.
3.4.
5.
6.7.
merupakan ciri bertoleransi.Untuk mewujudkan cita-cita harus memaksakan kehendakSaya suka menerima pendapat orang lainMemilih teman di sekolah, saya utamakan mereka yang pandai sajaKalau saya boleh memilih, saya akan selalu mendengarkan usul-usul kedua orang tuaku.Bekerja sama dengan orang yang berbedaSuku lebih baik dihindarkan.……
Keterangan : SS = sangat setuju, S = setuju, TS = tidak setuju, STS = sangat tidak setuju.
NO DIMENSI INDIKATORNOMOR SOAL YANG MENGUKUR
KOGNISI AFEKSI KONASI+ - + - + -
1. Toleransi a. Mau menerima pendapat orang lain atau tidak memaksakan kehendak pribadi
b. Tidak mudah tersinggung
1
7
2
8
3
9
4
10
5
11
6
12
2. Kebersamaan dan gotong royong
a. Dapat bekerja kelompok
b. Rela berkorban untuk kepentingan umum
3. Rasa kesetiakawanan
a. Mau memberi dan meminta maaf
4. dst
6. Analisis Kasus tentang Pengembangan Butir Soal
Dalam sebuah kasus, seorang guru memberikan kisi-kisi soal kepada peserta didiknya
beberapa hari sebelum ujian berlangsung. Akibatnya, peserta didik hanya mempelajari materi
yang tercantum dalam kisi-kisi tersebut. Menurut Saudara, dalam kasus ini apakah guru
sudah dapat mengaplikasikan kisi-kisi berdasarkan fungsinya? Bagaimana agar peserta didik
64
PORTOFOLIO EVALUASI PENDIDIKAN
tidak terpaku pada kisi-kisi agar tujuan pelaksanaan ujian sebagai alat pengukur dapat
terealisasi dengan baik?
7. Solusi Kasus
7.
65
PORTOFOLIO EVALUASI PENDIDIKAN
MENELAAH
BUTIR SOAL
1. Konsep Dasar Menelaah Butir Soal
Kegiatan menganalisis butir soal merupakan suatu kegiatan yang harus dilakukan guru
untuk meningkatkan mutu soal yang telah ditulis. Kegiatan ini merupakan proses
pengumpulan, peringkasan, dan penggunaan informasi dari jawaban siswa untuk membuat
keputusan tentang setiap penilaian (Nitko, 1996: 308). Tujuan penelaahan adalah untuk
mengkaji dan menelaah setiap butir soal agar diperoleh soal yang bermutu sebelum soal
digunakan. Di samping itu, tujuan analisis butir soal juga untuk membantu meningkatkan tes
melalui revisi atau membuang soal yang tidak efektif, serta untuk mengetahui informasi
diagnostik pada siswa apakah mereka sudah/belum memahami materi yang telah diajarkan
(Aiken, 1994: 63). Soal yang bermutu adalah soal yang dapat memberikan informasi setepat-
tepatnya sesuai dengan tujuannya di antaranya dapat menentukan peserta didik mana yang
sudah atau belum menguasai materi yang diajarkan guru.
Dalam melaksanakan analisis butir soal, para penulis soal dapat menganalisis secara
kualitatif, dalam kaitan dengan isi dan bentuknya, dan kuantitatif dalam kaitan dengan ciri-
ciri statistiknya (Anastasi dan Urbina, 1997: 172) atau prosedur peningkatan secara
judgment dan prosedur peningkatan secara empirik (Popham, 1995: 195). Analisis kualitatif
mencakup pertimbangan validitas isi dan konstruk, sedangkan analisis kuantitatif
66
PORTOFOLIO EVALUASI PENDIDIKAN
mencakup pengukuran kesulitan butir soal dan diskriminasi soal yang termasuk validitas soal
dan reliabilitasnya.
Jadi, ada dua cara yang dapat digunakan dalam penelaahan butir soal yaitu penelaahan
soal secara kualitatif dan kuantitatif. Kedua teknik ini masing-masing memiliki keunggulan
dan kelemahan. Oleh karena itu teknik terbaik adalah menggunakan keduanya
(penggabungan).
2. Jenis Analisis Butir Soal
A. Analisis Butir Soal secara Kualitatif
Pada prinsipnya analisis butir soal secara kualitatif dilaksanakan berdasarkan kaidah
penulisan soal (tes tertulis, perbuatan, dan sikap). Penelaahan ini biasanya dilakukan
sebelum soal digunakan/diujikan.
Aspek yang diperhatikan di dalam penelaahan secara kualitatif ini adalah setiap soal
ditelaah dari segi materi, konstruksi, bahasa/budaya, dan kunci jawaban/pedoman
penskorannya. Dalam melakukan penelaahan setiap butir soal, penelaah perlu
mempersiapkan bahan-bahan penunjang seperti: (1) kisi-kisi tes, (2) kurikulum yang
digunakan, (3) buku sumber, dan (4) kamus bahasa Indonesia.
1) Teknik moderator
Teknik moderator merupakan teknik berdiskusi yang di dalamnya terdapat satu
orang sebagai penengah. Berdasarkan teknik ini, setiap butir soal didiskusikan secara
bersama-sama dengan beberapa ahli seperti guru yang mengajarkan materi, ahli
materi, penyusun/pengembang kurikulum, ahli penilaian, ahli bahasa, berlatar
belakang psikologi.
2) Teknik panel
Teknik panel merupakan suatu teknik menelaah butir soal yang setiap butir
soalnya ditelaah berdasarkan kaidah penulisan butir soal, yaitu ditelaah dari segi
materi, konstruksi, bahasa/budaya, kebenaran kunci jawaban/pedoman penskorannya
yang dilakukan oleh beberapa penelaah.
Caranya adalah beberapa penelaah diberikan: butir-butir soal yang akan
ditelaah, format penelaahan, dan pedoman penilaian/ penelaahannya. Pada tahap
awal para penelaah diberikan pengarahan, kemudian tahap berikutnya para penelaah
berkerja sendiri-sendiri di tempat yang tidak sama. Para penelaah dipersilakan
memperbaiki langsung pada teks soal dan memberikan komentarnya serta
memberikan nilai pada setiap butir soalnya yang kriterianya adalah: baik, diperbaiki,
atau diganti. Secara ideal penelaah butir soal di samping memiliki latar belakang
67
PORTOFOLIO EVALUASI PENDIDIKAN
materi yang diujikan, beberapa penelaah yang diminta untuk menelaah butir soal
memiliki keterampilan, seperti guru yang mengajarkan materi itu, ahli materi, ahli
pengembang kurikulum, ahli penilaian, psikolog, ahli bahasa, ahli kebijakan
pendidikan, atau lainnya.
B. Analisis Butir Soal secara Kuantitatif
Penelaahan soal secara kuantitatif maksudnya adalah penelaahan butir soal
didasarkan pada data empirik dari butir soal yang bersangkutan. Data empirik ini
diperoleh dari soal yang telah diujikan.
7) Pendekatan klasik
Analisis butir soal secara klasik adalah proses penelaahan butir soal melalui
informasi dari jawaban peserta didik guna meningkatkan mutu butir soal yang
bersangkutan dengan menggunakan teori tes klasik.
Adapun proses analisisnya sudah banyak dilaksanakan para guru di sekolah
seperti beberapa contoh di bawah ini.
a. Langkah pertama yang dilakukan adalah menabulasi jawaban yang telah
dibuat pada setiap butir soal yang meliputi berapa peserta didik yang: (1)
menjawab benar pada setiap soal, (2) menjawab salah (option pengecoh),
(3) tidak menjawab soal. Berdasarkan tabulasi ini, dapat diketahui tingkat
kesukaran setiap butir soal, daya pembeda soal, alternatif jawaban yang
dipilih peserta didik.
b. Misalnya analisis untuk 32 siswa, maka langkah (1) urutkan skor siswa dari
yang tertinggi sampai yang terendah. (2) Pilih 10 lembar jawaban pada
kelompok atas dan 10 lembar jawaban pada kelompok bawah. (3) Ambil
kelompok tengah (12 lembar jawaban) dan tidak disertakan dalam analisis.
(4) Untuk masing-masing soal, susun jumlah siswa kelompok atas dan
bawah pada setiap pilihan jawaban. (5) Hitung tingkat kesukaran pada setiap
butir soal. (6) Hitung daya pembeda soal. (7) Analisis efektivitas pengecoh
pada setiap soal (Linn dan Gronlund, 1995: 318-319).
Aspek yang perlu diperhatikan dalam analisis butir soal secara klasik adalah
setiap butir soal ditelaah dari segi: tingkat kesukaran butir, daya pembeda butir, dan
penyebaran pilihan jawaban (untuk soal bentuk obyektif) atau frekuensi jawaban
pada setiap pilihan jawaban.
a. Tingkat kesukaran
68
PORTOFOLIO EVALUASI PENDIDIKAN
Tingkat kesukaran soal adalah peluang untuk menjawab benar suatu soal
pada tingkat kemampuan tertentu yang biasanya dinyatakan dalam bentuk
indeks. Indeks tingkat kesukaran ini pada umumnya dinyatakan dalam bentuk
proporsi yang besarnya berkisar 0,00 - 1,00 (Aiken (1994: 66). Semakin besar
indeks tingkat kesukaran yang diperoleh dari hasil hitungan, berarti semakin
mudah soal itu. Suatu soal memiliki TK= 0,00 artinya bahwa tidak ada siswa
yang menjawab benar dan bila memiliki TK= 1,00 artinya bahwa siswa
menjawab benar. Perhitungan indeks tingkat kesukaran ini dilakukan untuk
setiap nomor soal. Pada prinsipnya, skor rata-rata yang diperoleh peserta didik
pada butir soal yang bersangkutan dinamakan tingkat kesukaran butir soal itu.
Rumus ini dipergunakan untuk soal obyektif. Rumusnya adalah seperti berikut
ini (Nitko, 1996: 310).
Fungsi tingkat kesukaran butir soal biasanya dikaitkan dengan tujuan tes.
Misalnya untuk keperluan ujian semester digunakan butir soal yang memiliki
tingkat kesukaran sedang, untuk keperluan seleksi digunakan butir soal yang
memiliki tingkat kesukaran tinggi/sukar, dan untuk keperluan diagnostik
biasanya digunakan butir soal yang memiliki tingkat kesukaran rendah/mudah.
Untuk mengetahui tingkat kesukaran soal bentuk uraian digunakan rumus
berikut ini.
Hasil perhitungan dengan menggunakan rumus di atas menggambarkan
tingkat kesukaran soal itu. Klasifikasi tingkat kesukaran soal dapat dicontohkan
seperti berikut ini.
0,00 - 0,30 soal tergolong sukar
0,31 - 0,70 soal tergolong sedang
0,71 - 1,00 soal tergolong mudah
Tingkat kesukaran butir soal dapat mempengaruhi bentuk distribusi total
skor tes. Untuk tes yang sangat sukar (TK= < 0,25) distribusinya berbentuk
69
PORTOFOLIO EVALUASI PENDIDIKAN
positif skewed, sedangkan tes yang mudah dengan TK= >0,80) distribusinya
berbentuk negatif skewed.
Tingkat kesukaran butir soal memiliki 2 kegunaan, yaitu kegunaan bagi
guru dan kegunaan bagi pengujian dan pengajaran (Nitko, 1996: 310-313).
Kegunaannya bagi guru adalah: (1) sebagai pengenalan konsep terhadap
pembelajaran ulang dan memberi masukan kepada siswa tentang hasil belajar
mereka, (2) memperoleh informasi tentang penekanan kurikulum atau
mencurigai terhadap butir soal yang bias. Adapun kegunaannya bagi pengujian
dan pengajaran adalah: (a) pengenalan konsep yang diperlukan untuk diajarkan
ulang, (b) tanda-tanda terhadap kelebihan dan kelemahan pada kurikulum
sekolah, (c) memberi masukan kepada siswa, (d) tanda-tanda kemungkinan
adanya butir soal yang bias, (e) merakit tes yang memiliki ketepatan data soal.
Di samping kedua kegunaan di atas, dalam konstruksi tes, tingkat
kesukaran butir soal sangat penting karena tingkat kesukaran butir dapat: (1)
mempengaruhi karakteristik distribusi skor (mempengaruhi bentuk dan
penyebaran skor tes atau jumlah soal dan korelasi antarsoal), (2) berhubungan
dengan reliabilitas. Menurut koefisien alfa clan KR-20, semakin tinggi korelasi
antarsoal, semakin tinggi reliabilitas (Nunnally, 1981: 270-271).
Tingkat kesukaran butir soal juga dapat digunakan untuk mempredikst alat
ukur itu sendiri (soal) dan kemampuan peserta didik dalam memahami materi
yang diajarkan guru. Misalnya satu butir soal termasuk kategori mudah, maka
prediksi terhadap informasi ini adalah seperti berikut.
1) Pengecoh butir soal itu tidak berfungsi.
2) Sebagian besar siswa menjawab benar butir soal itu; artinya bahwa sebagian
besar siswa telah memahami materi yang ditanyakan.
Bila suatu butir soal termasuk kategori sukar, maka prediksi terhadap
informasi ini adalah seperti berikut.
1) Butir soal itu "mungkin" salah kunci jawaban.
2) Butir soal itu mempunyai 2 atau lebih jawaban yang benar.
3) Materi yang ditanyakan belum diajarkan atau belum tuntas
pembelajarannya, sehingga kompetensi minimum yang harus dikuasai siswa
belum tercapai.
70
PORTOFOLIO EVALUASI PENDIDIKAN
4) Materi yang diukur tidak cocok ditanyakan dengan menggunakan bentuk
soal yang diberikan (misalnya meringkas cerita atau mengarang ditanyakan
dalam bentuk pilihan ganda).
5) Pernyataan atau kalimat soal terlalu kompleks dan panjang.
Namun, analisis secara klasik ini memang memiliki keterbatasan, yaitu
bahwa tingkat kesukaran sangat sulit untuk mengestimasi secara tepat karena
estimasi tingkat kesukaran dibiaskan oleh sampel (Haladyna, 1994: 145). Jika
sampel berkemampuan tinggi, maka soal akan sangat mudah (TK= >0,90). Jika
sampel berkemampuan rendah, maka soal akan sangat sulit (TK = < 0,40). Oleh
karena itu memang merupakan kelebihan analisis secara IRT, karena 1RT dapat
mengestimasi tingkat kesukaran soal tanpa menentukan siapa peserta tesnya
(invariance). Dalam IRT, komposisi sampel dapat mengestimasi parameter dan
tingkat kesukaran soal tanpa bias.
b. Daya Pembeda
Daya pembeda soal adalah kemampuan suatu butir soal dapat membedakan
antara warga belajar/siswa yang telah menguasai materi yang ditanyakan dan
warga belajar/siswa yang tidak/kurang/belum menguasai materi yang
ditanyakan. Manfaat daya pembeda butir soal adalah seperti berikut ini.
1) Untuk meningkatkan mutu setiap butir soal melalui data empiriknya.
Berdasarkan indeks daya pembeda, setiap butir soal dapat diketahui
apakah butir soal itu baik, direvisi, atau ditolak.
2) Untuk mengetahui seberapa jauh setiap butir soal dapat
mendeteksi/membedakan kemampuan siswa, yaitu siswa yang telah
memahami atau belum memahami materi yang diajarkan guru.
Apabila suatu butir soal tidak dapat membedakan kedua kemampuan siswa
itu, maka butir soal itu dapat dicurigai "kemungkinannya" seperti berikut ini.
Kunci jawaban butir soal itu tidak tepat, butir soal itu memiliki 2 atau lebih
kunci jawaban yang benar, kompetensi yang diukur tidak jelas, pengecoh tidak
berfungsi, materi yang ditanyakan terlalu sulit, sehingga banyak siswa yang
menebak, sebagian besar siswa yang memahami materi yang ditanyakan
berpikir ada yang salah informasi dalam butir soalnya.
Indeks daya pembeda setiap butir soal biasanya juga dinyatakan dalam
bentuk proporsi. Semakin tinggi indeks daya pembeda soal berarti semakin
mampu soal yang bersangkutan membedakan warga belajar/siswa yang telah
71
PORTOFOLIO EVALUASI PENDIDIKAN
memahami materi dengan warga belajar/peserta didik yang belum memahami
materi. Indeks daya pembeda berkisar antara -1,00 sampai dengan +1,00.
Semakin tinggi daya pembeda suatu soal, maka semakin kuat/baik soal itu. Jika
daya pembeda negatif (<0) berarti lebih banyak kelompok bawah (warga
belajar/peserta didik yang tidak memahami materi) menjawab benar soal
dibanding dengan kelompok atas (warga belajar/peserta didik yang memahami
materi yang diajarkan guru). Untuk mengetahui daya pembeda soal bentuk
pilihan ganda adalah dengan menggunakan rumus berikut ini.
DP = daya pembeda soal,
BA = jumlah jawaban benar pada kelompok atas,
BB = jumlah jawaban benar pada kelompok bawah,
N = jumlah siswa yang mengerjakan tes.
Di samping rumus di atas, untuk mengetahui daya pembeda soal bentuk
pilihan ganda dapat dipergunukan rumus korelasi point biserial (r pbis) dan
korelasi biserial (r bis) (Miliman and (ireene, 1993: 359-360) dan (Glass and
Stanley, 1970: 169-170) seperti berikut.
Xb, Yb adalah rata-rata skor warga belajar/siswa yang menjawab benar Xs, Ys adalah rata-rata skor warga belajar siswa yang
menjawab salah, SDt adalah simpangan baku skor total, nb dan n adalah jumlah siswa yang menjawab benar dan jumlah siswa
yang menjawab salah, serta nb + n = n, p adalah proporsi jawaban benar terhadap semua jawaban siswa, q adalah I –p, U adalah
ordinat kurva normal.
Untuk mengetahui daya pembeda soal bentuk uraian adalah dengan
menggunakan rumus berikut ini.
Hasil perhitungan dengan menggunakan rumus di atas dapat
menggambarkan tingkat kemampuan soal dalam membedakan antar peserta
didik yang sudah memahami materi yang diujikan dengan peserta didik yang
72
PORTOFOLIO EVALUASI PENDIDIKAN
belum/tidak memahami materi yang diujikan. Adapun klasifikasinya adalah
seperti berikut ini (Crocker dan Algina, 1986: 315).
0,40 - 1,00 soal diterima baik
0,30 - 0,39 soal diterima tetapi perlu diperbaiki
0,20 - 0,29 soal diperbaiki
0,19 - 0,00 soal tidak dipakai/dibuang
merupakan korelasi product moment antara skor dikotomus dan pengukuran
kriterion, sedangkan rbis merupakan korelasi product moment antara variabel
latent distribusi normal berdasarkan dikotomi benar-salah dan pengukuran
kriterion. Oleh karena itu, untuk perhitungan pada data yang sama rpbis = 0,
sedangkan r bis paling sedikit 25% lebih besar daripada rpbis. Kedua korelasi
ini masing-masing memiliki kelehihan (Millman and Greene, 1993: 360)
walaupun para guru/pengambil kebijakan banyak yang suka menggunakan
rpbis.
Kelebihan korelasi point biserial: (1) memberikan refleksi konstribusi soal
secara sesungguhnya terhadap fungsi tes. Maksudnya ini mengukur bagaimana
baiknya soal berkorelasi dengan criterion (tidak bagaimana baiknya
beberapa/secara abstrak); (2) sederhana dan langsung berhubungan dengan
statistik tes, (3) tidak pernah mempunyai value 1,00 karena hanya variabel-
variabel dengan distribusi bentuk yang sama yang dapat berkorelasi secara tepat,
dan variabel kontinyu (kriterion) dan skor dikotonius tidak mempunyai bentuk
yang sama.
Adapun kelebihan korelasi biserial adalah: (1) cenderung lebih stabil dari
sampel ke sampel, (2) penilaian lebih akurat tentang bagaimana soal dapat
diharapkan untuk membedakan pada beberapa perbedaan point di skala abilitas,
(3) value rbis yang sederhana lebih langsung berhubungan dengan indikator
diskriminasi ICC.
c. Penyebaran (distribusi) jawaban
Penyebaran pilihan jawaban dijadikan dasar dalam penelaahan soal. Hal ini
dimaksudkan untuk mengetahui berfungsi tidaknya jawaban yang tersedia.
Suatu pilihan jawaban (pengecoh) dapat dikatakan berfungsi apabila pengecoh:
1) paling tidak dipilih oleh 5 % peserta tes/siswa,
2) lebih banyak dipilih oleh kelompok siswa yang belum paham materi.
d. Reliabilitas tes
73
PORTOFOLIO EVALUASI PENDIDIKAN
Tujuan utama menghitung reliabilitas skor tes adalah untuk mengetahui
tingkat ketepatan (precision) dan keajegan (consistency) skor tes. Indeks
reliabilitas berkisar antara 0 - 1. Semakin tinggi koefisien reliabilitas suatu
tes (mendekati 1), makin tinggi pula keajegan/ketepatannya.
Tes yang memiliki konsistensi reliabilitas tinggi adalah akurat,
reproducibel, dan generalized terhadap kesempatan testing dan instrumen
tes lainnya. Secara rinci faktor yang mempengaruhi reliabilitas skor tes di
antaranya : (1) semakin banyak jumlah butir soal, semakin ajek suatu tes,
(2) semakin lama waktu tes, semakin ajek, (3) semakin sempit range
kesukaran butir soal, semakin besar keajegan, (4) soal-soal yang saling
berhubungan akan mengurangi keajegan, (5) semakin objektif pemberian
skor, semakin besar keajegan, (6) ketidaktepatan pemberian skor, (7)
menjawab besar soal dengan cara menebak, (8) semakin homogen materi
semakin besar keajegan, (9) pengalaman peserta ujian, (10) salah
penafsiran terhadap butir soal, (11) menjawab soal dengan buru-buru/cepat,
(12) kesiapan mental peserta ujian, (13) adanya gangguan dalam
pelaksanaan tes, (14) jarak antara tes pertama dengan tes kedua, (15)
mencontek dalam mengerjakan tes, (16) posisi individu dalam belajar, serta
(17) kondisi fisik peserta ujian.
8) Pendekatan modern
Analisis butir soal secara modern yaitu penelaahan butir soal dengan
menggunakan Item Response Theory (IRT) atau teori jawaban butir soal. Teori ini
merupakan suatu teori yang menggunakan fungsi matematika untuk menghubungkan
antara peluang menjawab benar suatu scal dengan kemampuan siswa. Nama lain
IRT adalah latent trait theory (LTT), atau characteristics curve theory (ICC).
Asal mula IRT adalah kombinasi suatu versi hukum phi-gamma dengan suatu
analisis faktor butir soal (item factor analisis) kemudian bernama Teori Trait Latent
(Latent Trait Theory), kemudian sekarang secara umum dikenal menjadi teori
jawaban butir soal (Item Response Theory) (McDonald, 1999: 8).
Selanjutnya Hambleton dan Swaminathan (1985: 13) menyatakan bahwa tujuan
utama IRT adalah memberikan kesamaan antara statistik soal dan estimasi
kemampuan. Ada tiga keuntungan IRT adalah: (1) asumsi banyak soal yang diukur
pada trait yang sama, perkiraan tingkat kemampuan peserta didik adalah
74
PORTOFOLIO EVALUASI PENDIDIKAN
independen; (2) asumsi pada populasi tingkat kesukaran, daya pembeda merupakan
independen sampel yang menggambarkan untuk tujuan kalibrasi soal; (3) statistik
yang digunakan untuk menghitung tingkat kemampuan siswa diperkirakan dapat
terlaksana, (Hableton dan Swaminathan, 1985: 11). Jadi IRT merupakan hubungan
antara probabilitas jawaban suatu butir soal yang benar dan kemampuan siswa atau
tingkatan/level prestasi siswa. Namun kelemahan bekerja dengan model IRT adalah
bekerja melalui suatu proses yang sulit karena kelebihan IRT adalah: (1) tanpa
varian pada parameter butir soal, (2) tanpa varian pada parameter abilitas, (3) adanya
ketepatan pada pengukuran lokal, (Bejar, 1983: 3-4).
Ada empat macam model 1RT (Hambleton, 1993: 154-157; Hambleton dan
Swaminathan, 1985: 34-50). (1) Model satu parameter (Model Rasch), yaitu untuk
menganalisis data yang hanya menitikberatkan pada parameter tingkat kesukaran
coal. (2) Model dua paremeter, yaitu untuk menganalisis data yang hanya
menitikberatkan pada parameter tingkat kesukaran dan daya pembeda soal. (3)
Model tiga parameter, yaitu untuk menganalisis data yang menitikberatkan pada
parameter tingkat kesukaran soal, daya pembeda soal, dan menebak (guessing). (4)
Model empat parameter, yaitu untuk menganalisis data yang menitikberatkan pada
parameter tingkat kesukaran soal, daya beda soal, menebak, dan penyebab lain.
Hambleton dan Swaminathan (1985: 48) menjelaskan bahwa siswa yang
memiliki kemampuan tinggi tidak selalu menjawab soal dengan betel. Kadang-
kadang mereka sembrono (mengerjakan dengan serampangan), memiliki informasi
yang berlebihan, sehingga mereka menjawab salah pada suatu soal. Untuk mengatasi
masalah ini diperlukan model 4 parameter.
3. Manfaat Analisis Butir Soal
Tujuan utama analisis butir soal dalam sebuah tes yang dibuat guru adalah untuk
mengidentifikasi kekurangan-kekurangan dalam tes atau dalam pembelajaran (Anastasi dan
Urbina, 1997:184). Berdasarkan tujuan ini, maka kegiatan analisis butir soal memiliki banyak
manfaat, di antaranya adalah: (1) dapat membantu para pengguna tes dalam evaluasi atas tes
yang digunakan, (2) sangat relevan bagi penyusunan tes informal dan lokal seperti tes yang
disiapkan guru untuk siswa di kelas, (3) mendukung penulisan butir soal yang efektif, (4)
secara materi dapat memperbaiki tes di kelas, (5) meningkatkan validitas soal dan reliabilitas
(Anastasi and Urbina, 1997:172). Di samping itu, manfaat lainnya adalah: (1) menentukan
apakah suatu fungsi butir soal sesuai dengan yang diharapkan, (2) memberi masukan kepada
siswa tentang kemampuan dan sebagai dasar untuk bahan diskusi di kelas, (3) memberi
75
PORTOFOLIO EVALUASI PENDIDIKAN
masukan kepada guru tentang kesulitan siswa, (4) memberi masukan pada aspek tertentu
untuk pengembangan kurikulum, (5) merevisi materi yang dinilai atau diukur, (6)
meningkatkan keterampilan penulisan soal (Nitko, 1996: 308-309).
Linn dan Gronlund (1995: 315) juga menambahkan tentang pelaksanaan kegiatan
analisis butir soal yang hiasanya didesain untuk menjawab pertanyaan-pertanyaan berikut
ini. (1) Apakah fungsi soal sudah tepat? (2) Apakah soal ini memiliki tingkat kesukaran yang
tepat? (3) Apakah soal bebas dari hal-hal yang tidak relevan? (4) Apakah pilihan jawabannya
efektif? Lebih lanjut Linn dan Gronlund (1995: 3 16-318) menyatakan bahwa kegunaan
analisis butir soal bukan hanya terbatas untuk peningkatkan butir soal, tetapi ada beberapa
hal, yaitu bahwa data analisis butir soal bermanfaat sebagai dasar: (1) diskusi kelas efisien
tentang hasil tes, (2) untuk kerja remedial, (3) untuk peningkatan secara umum pembelajaran
di kelas, dan (3) untuk peningkatan keterampilan pada konstruksi tes.
Berbagai uraian di atas menunjukkan bahwa analisis butir soal adalah: (1) untuk
menentukan soal-soal yang cacat atau tidak berfungsi penggunaannya; (2) untuk
meningkatkan butir soal melalui tiga komponen analisis yaitu tingkat kesukaran, daya
pembeda, dan pengecoh soal, serta meningkatkan pembelajaran melalui ambiguitas soal dan
keterampilan tertentu yang menyebabkan peserta didik sulit.
4. Prinsip – Prinsip Analisis Butir Soal
A. Menelaah materi uji (harus relevan dengan kompetensi inti, bahasa dan tingkat
kesulitan).
B. Menelaah struktur soal (stem-option dan atau scenario-stem-option).
C. Menyusun kesimpulan telaahan (komentar umum dan saran, keputusan diterima,
direvisi, dikembalikan kepada penyusun atau drop).
5. Keunggulan
A. Teknik Moderator
Teknik ini sangat baik karena setiap butir soal dilihat secara bersama-sama
berdasarkan kaidah penulisannya. Di samping itu, para penelaah dipersilakan
mengomentari/ memperbaiki berdasarkan ilmu yang dimilikinya. Setiap
komentar/masukan dari peserta diskusi dicatat oleh notulis. Setiap butir soal dapat
dituntaskan secara bersama-sama, perbaikannya seperti apa.
B. Pendekatan Klasik
Kelebihan analisis butir soal secara klasik adalah murah, dapat dilaksanakan sehari-
hari dengan cepat menggunakan komputer, murah, sederhana, familier dan dapat
76
PORTOFOLIO EVALUASI PENDIDIKAN
menggunakan data dari beberapa peserta didik atau sampel kecil (Millman dan
Greene, 1993: 358).
C. Pendekatan Modern
Kelebihan IRT adalah bahwa: (1) IRT tidak berdasarkan grup dependent, (2) skor
siswa dideskripsikan bukan test dependent, (3) model ini menekankan pada tingkat
butir soal bukan tes, (4) IRT tidak memerlukan paralel tes untuk menentukan
relilabilitas tes, (5) IRT suatu model yang memerlukan suatu pengukuran ketepatan
untuk setiap skor tingkat kemampuan.
6. Keterbatasan
A. Teknik Moderator
Kelemahan teknik ini adalah memerlukan waktu lama untuk rnendiskusikan setiap
satu butir soal.
B. Pendekatan Klasik
Keterbatasan model pengukuran secara klasik bila dibandingkan dengan teori
jawaban butir soal adalah seperti berikut (Hambleton, Swaminathan, dan Rogers,
1991: 2-5). (1) Tingkat kemampuan dalam teori klasik adalah "true score". Jika
tes sulit artinya tingkat kemampuan peserta didik mudah. Jika tes mudah artinya
tingkat kemampuan peserta didik tinggi. (2) Tingkat kesukaran soal didefinisikan
sebagai proporsi peserta didik dalam grup yang menjawab benar soal.
Mudah/sulitnya butir soal tergantung pada kemampuan peserta didik yang dites
dan kemampuan tes yang diberikan. (3) Daya pembeda, reliabilitas, dan validitas
soal/tes didefinisikan berdasarkan grup peserta didik. Kelemahan teori tes klasik di
atas diperkuat Hambleton dan Swaminathan (1985: 1-3) yaitu: (1) tingkat
kesukaran dan daya pembeda tergantung pada sampel; (2) penggunaan metode dan
teknik untuk desain dan analisis tes dengan memperbandingkan kemampuan siswa
pada pernbagian kelompok atas, tengah, bawah. Meningkatnya validitas skor tes
diperoleh dari tingkat kesukaran tes dihubungkan dengan tingkat kemampuan
setiap siswa; (3) konsep reliabilitas tes didefinisikan dari istilah tes paralel; (4)
tidak ada dasar teori untuk menentukan bagaimana siswa memperoleh tes yang
sesuai dengan kemampuan siswa; (5) Standar error of measurement (SEM) hanya
berlaku untuk seluruh peserta didik.
7. Penerapan Analisis Butir Soal
A. Format Analisis Butir Soal Uraian secara Kualitatif
FORMAT PENELAAHAN BUTIR SOAL BENTUK URAIAN
77
PORTOFOLIO EVALUASI PENDIDIKAN
Mata Pelajaran :
Kelas/semester :
Penelaah :
No
Aspek yang ditelaahNomor Soal
1 2 3 4 5 6 7 8 9 …
A. Materi1
Soal sesuai dengan indikator (menuntut tes tertulis untuk bentuk uraian)
2Batasan pertanyaan dan jawaban yang diharapkan sudah sesuai
3 Materi yang ditanyakan sesuai dengan kompetensi (urgensi, relevansi, kontinyuitas, keterpakaian sehari-hari tinggi)
4Isi materi yang ditanyakan sesuai dengan jenjang jenis sekolah atau tingkat kelas
B Konstruksi5
Menggunakan kata tanya atau perintah yang menuntut jawaban uraian
6 Ada petunjuk yang jelas tentang cara mengerjakan soal
7 Ada pedoman spenskorannya 8 Tabel, gambar, grafik, peta, atau yang
sejenisnya disajikan dengan jelas dan terbaca
C Bahasa/ Budaya9 Rumusan kalimat soal komunikatif 10 Butir soal menggunakan Bahasa Indonesia
yang baku 11 Tidak menggunakan kata/ungkapan yang
menimbulkan penafsiran ganda atau salah pengertian
12 Tidak menggunakan bahasa yang berlaku setempat/tabu
B. Format Analisis Butir Soal Pilihan Ganda secara Kualitatif
FORMAT PENELAAHAN BUTIR SOAL BENTUK PILIHAN GANDA
Mata Pelajaran :
Kelas/semester :
Penelaah :
78
PORTOFOLIO EVALUASI PENDIDIKAN
No
Aspek yang ditelaahNomor Soal
1 2 3 4 5 6 7 8 9 …
A. Materi1
Soal sesuai dengan indikator (menurut tes tertulis untuk bentuk pilhan ganda)
2 Materi yang ditanyakan sesuai dengan kompetensi (urgensi, relevansi, kontinyuitas, keterpakaian sehari-hari tinggi)
3Pilihan jawaban homogen dan logis
4Hanya ada satu kunci jawaban
B Konstruksi5
Pokok soal dirumuskan dengan singkat, jelas, dan tegas
6 Rumusan pokok soal dan pilihan jawaban merupakan pernyataan yang diperlukan saja
7 Pokok soal tidak memberi petunjuk kunci jawaban
8Pokok soal bebas dan pernyataan yang bersifat negatif ganda
9Pilihan jawaban homogen dan logis ditinjau dari segi materi
10Gambar, grafik, tabel, diagram, atau sejenisnya jelas dan berfungsi
11Panjang pilihan jawaban relatif sama
12 Pilihan jawaban tidak menggunakan pernyataan "semua jawaban di atas salah/benar" dan sejenisnya
13Pilihan jawaban yang berbentuk angka/waktu disusun berdasarjab urutan besar kecilnya angka atau kronologisnya
14Butir soal tidak bergantung pada jawaban soal sebelumnya
C Bahasa/ Budaya15
Menggunanakan bahasa yang sesuai dengan kaidah bahasa Indonesia
16Menggunakan bahasa yang komunikatif
17Tidak menggunakan bahasa yang berlaku setempat/tabu
18 Pilihan jawaban tidak mengulang kata/kelompok kata yang sama, kecuali merupakan satu kesatuan pengertian
79
PORTOFOLIO EVALUASI PENDIDIKAN
Keterangan : Berilah tanda (V) bila TIDAK sesuai dengan aspek yang ditelaah
C. Format Analisis Butir Soal Non Tes secara Kualitatif
D. Format Analisis Butir Soal Tes Perbuatan secara Kualitatif
80
PORTOFOLIO EVALUASI PENDIDIKAN
E. Contoh Penghitungan Daya Pembeda
81
PORTOFOLIO EVALUASI PENDIDIKAN
F.
8. Analisis Kasus tentang Pelaksanaan Analisis Butir Soal
Sekarang ini sedang marak Lembaga Bimbingan Belajar yang memberikan program
Lulus Ujian Nasional dengan nilai memuaskan, lulus SBMPTN, dll. Lembaga Bimbingan
Belajar tersebut biasanya memberikan trik-trik atau rumus-rumus cepat untuk menyelesaikan
soal. Menurut Saudara, baikkah model belajar seperti ini? Jelaskan beserta alasan!
9. Solusi Kasus
82
PORTOFOLIO EVALUASI PENDIDIKAN
8.ANALISIS HASIL
EVALUASI PEMBELAJARAN MELIPUTI DAYA BEDA, TINGKAT
KESULITAN, RELIABILITAS,
DAN KEBERFUNGSIAN
83
PORTOFOLIO EVALUASI PENDIDIKAN
DISTRAKTOR DENGAN
SOFTWARE ANATES
1. Konsep Dasar Software ANATES
Butir soal obyektif dapat dianalisa secara lebih akurat dan
bertanggung jawab sehingga dapat diketahui kelemahannya secara tepat.
Butir soal tes obyektif dapat digunakan berulang-ulang, asalkan tidak
dalam perangkat tes yang sama. Oleh karena itu ada manfaat atau
kegunaan analisis butir soal, kemudian direvisi sehingga butir soal yang
kurang baik konstruksinya dapat diperbaiki. Akhirnya akan diperoleh butir
soal yang telah teruji dan secara akurat mengukur hasil belajar yang ingin
diukur. Untuk mempermudah menganalisis suatu tes tersebut maka
diperlukan alat bantu bagi para guru dan calon guru untuk mempermudan
menganalisi hasil butir soal. Salah satu alat bantu tersebut adalah
software ANATES yang bisa dibgunakan untuk menganalisa kualitas butir
soal tersebut
ANATES merupakan sebuah program aplikasi komputer yang bertujuan untuk
menganalisis butir soal. Program ini sangat bermanfaat khususnya bagi para guru umumnya
para pemerhati evaluasi pendidikan.(Prawira, 2008)
Program ini dikembangkan oleh Bapak Drs. Karno To, M.Pd. seorang dosen Psikologi
di UPI dan Bapak Yudi Wibisono, S.T. seorang Konsultan komputer.
Fasilitas yang ada dalam program ANATES
84
PORTOFOLIO EVALUASI PENDIDIKAN
A. Penyekoran Data, meliputi:
1. Memasukan skor data hasil tes
2. Membobot skor data sesuai yang dibutuhkan
B. Pengolahan Data, meliputi:
1. Reliabilitas
2. Kelompok unggul dan asor
3. Daya Pembeda
4. Tingkat Kesukaran Soal
5. Korelasi skor butir soal dengan skor total
6. Kualitas pengecoh
2. Item-Item Butir Soal yang Dianalisis
A. Daya Beda
Daya beda butir soal ialah indeks yang menunjukkan tingkat kemampuan butir soal
membedakan kelompok yang berprestasi tinggi (kelompok atas) dari kelompok yang
berprstasi rendah (kelompok bawah) diantara para peserta tes (Asmawi Zainul, dkk : 1997).
Daya beda butir soal yang sering digunakan dalam tes hasil belajar adalah dengan
menggunakan indeks korelasi antara skor butir dengan skor totalnya. Daya beda dengan cara
ini sering disebut validitas internal, karena nilai korelasi diperoleh dari dalam tes itu sendiri.
Daya beda dapat dilihat dari besarnya koefisien korelasi biserial maupun koefesien korelasi
point biserial.
B. Tingkat kesulitan Soal
Menurut Asmawi Zainul, dkk (1997) tingkat kesukaran butir soal adalah proporsi
peserta tes menjawab benar terhadap butir soal tersebut. Tingkat kesukaran butir soal
biasanya dilambangkan dengan p. Makin besar nilai p yang berarti makin besar proporsi yang
menjawab benar terhadap butir soal tersebut, makin rendah tingkat kesukaran butir soal itu.
Hal ini mengandung arti bahwa soal itu makin mudah, demikian pula sebaliknya. Soal yang
baik adalah soal yang tidak terlalu mudah atau tidak terlalu sukar.
Tingkat kesukaran butir soal tidaklah menunjukkan bahwa butir soal itu baik atau tidak.
Tingkat kesukaran butir hanya menunjukkan bahwa butir soal itu sukar atau mudah untuk
kelompok peserta tes tertentu. Butir soal hasil belajar yang terlalu sukar atau terlalu mudah
tidak banyak memberi informasi tentang butir soal atau peserta tes (Asmawi Zainul, dkk :
1997).
85
PORTOFOLIO EVALUASI PENDIDIKAN
Untuk menyusun suatu naskah ujian sebaiknya digunakan butir soal yang mempunyai
tingkat kesukaran berimbang, yaitu : soal berkategori sukar sebanyak 25%, kategori sedang
50% dan kategori mudah 25%.
C. Reliabilitas
Reliabilitas merupakan tingkat konsistensi atau kemantapan hasil terhadap hasil dua
pengukuran hal yang sama. Dapat juga diartikan sebagai tingkat kepercayaan dari suatu alat
ukur (Depdikbud : 1997).
Hasil pengukuran diharapkan akan sama apabila pengukuran itu diulangi. Dengan
perangkat tes yang reliabel, apabila tes itu diberikan dua kali pada peserta yang sama tetapi
dalam selang waktu yang berbeda sepanjang tidak ada perubahan dalam kemampuan maka
skor yang diperoleh akan konstan. Kriteria untuk menentukan tinggi rendahnya reliabilitas
sebuah perangkat tes.
D. Distraktor
Dilihat dari konstruksi butir soal terdiri dari dua bagian, yaitu pokok soal dan alternatif
jawaban. Alternatif jawaban jawaban juga terdiri dari dua bagian, yaitu kunci jawaban dan
pengecoh. Pengecoh dikatakan berfungsi apabila semakin rendah tingkat kemampuan peserta
tes semakin banyak memilih pengecoh, atau makin tinggi tingkat kemampuan peserta tes
akan semakin sedikit memilih pengecoh.
Selain memperhatikan fungsi daya tarik untuk dipilih oleh peserta tes, pengecoh soal
juga perlu memperhatikan daya beda (koefisien korelasi) yang ditunjukkan oleh masing-
masing alternatif jawaban. Setiap pengecoh diharapkan memiliki daya beda negatif, artinya
suatu pengecoh diharapkan lebih sedikit dipilih oleh kelompok tinggi dibandingkan dengan
kelompok bawah. Atau daya beda pengecoh tidak lebih besar dari daya beda kunci jawaban
setiap butir soal.
3. Hal-Hal yang Perlu Diperhatikan dalam Penggunaan Software ANATES
Dalam menganalisis butir soal ada yang perlu diperhatikan seorang penganalisis dalam
menganalisis suatu tes, hal-hal yang perlu diperhatikan adalah sebagai berikut.
1. Penginputan data ke software haruslah hati-hati sebab bila banyak data yang di
input dan kurang teliti maka akan menyebabkan suatu analisis menjadi tidak valid
karena kesalahan penginputan data.
2. Siswa yang mengerjakan soal harus benar-benar mengerjakan sendiri tes tersebut.
Sebab apabila siswa mengerjakan asal-asalan ataupun saling mencontek, maka
penganalisisan suatu tes tidak akan ada gunanya sebab hasil pengerjaan tes
86
PORTOFOLIO EVALUASI PENDIDIKAN
merupakan data yang dibutuhkan untuk dianalisis, apabila data yang terpenting
tersebut tidak valid akan mempengaruhi hasil dari suatu analisis.
3. Seorang guru dalam memberi nilai tidak boleh bersifat subjektif yang artinya harus
sesuai dengan hasil pengerjaan siswa tidak boleh membedakan gender dan atitude
siswa terhadap guru.
4. Semakin banyak jawaban (subjek) yang dijadikan data, maka semakin valid pula
hasil analisis tersebut. Sebab daya pembanding akan semakin besar dan
hasilnyapun akan semakin valid.
4. Keunggulan dan Kekurangan Software ANATES
A. KELEBIHAN
B. KEKURANGAN :
1. Penginputan data ke software kurang teliti maka akan menyebabkan suatu analisis
menjadi tidak valid karena kesalahan penginputan data.
2. Siswa yang mengerjakan soal dengan asal-asalan ataupun saling mencontek, maka
penganalisisan suatu tes tidak akan ada gunanya.
C. SOLUSI :
1. Penginputan data ke software haruslah hati-hati.
2. Siswa yang mengerjakan soal harus benar-benar mengerjakan sendiri tes tersebut.
3. Semakin banyak jawaban (subjek) yang dijadikan data, maka semakin valid pula
hasil analisis tersebut. Sebab daya pembanding akan semakin besar dan
hasilnyapun akan semakin valid.
4. Dalam pembuatan keputusan akhir tes harus obyektif
5. Cara Penggunaan Software ANATES
6. Contoh Penerapan Software ANATES
A. Naskah Soal Ulangan Harian Mata Pelajaran Fisika kelas XI IPA 1 SMAN 1
Malang. (TERLAMPIR)
B. Kunci Jawaban dan Jawaban 34 Siswa Peserta Ulangan Harian Mata Pelajaran
Fisika kelas XI IPA 1 SMAN 1 Malang. (TERLAMPIR)
C. Hasil Analisis Daya Beda, Tingkat Kesulitan, Reliabilitas, dan Keberfungsian
Distraktor Menggunakan Software ANATES. (TERLAMPIR)
87
PORTOFOLIO EVALUASI PENDIDIKAN
9.ANALISIS HASIL
EVALUASI
88
PORTOFOLIO EVALUASI PENDIDIKAN
PEMBELAJARAN MELIPUTI DAYA BEDA, TINGKAT
KESULITAN, RELIABILITAS,
DAN KEBERFUNGSIAN
DISTRAKTOR DENGAN
SOFTWARE ITEMAN
89
PORTOFOLIO EVALUASI PENDIDIKAN
1. Konsep Dasar Software ITEMAN
Analisis soal (item analysis) adalah suatu kegiatan yang berkaitan dengan proses
mengumpulkan, meringkas, dan menggunakan informasi tentang jawaban siswa terhadap
butir soal tes tersebut (Silverius, S 1991:166).Menurut Sudjana, N (2005:135) menyebutkan
bahwa “analisis item tes adalah pengkajian pertanyaan-pertanyaan tes agar diperoleh
perangkat pertanyaan yang memiliki kualitas yang memadai.”
2. Item-Item Butir Soal yang Dianalisis
Analisis soal (item analysis) merupakan salah satu cara untuk menilai kualitas suatu tes
hasil belajar. Kualitas tes hasil belajar ditentukan oleh kualitas dari item- itemnya. Untuk
mengetahui apakah masing-masing butir tes itu mempunyai kualitas yang baik, maka dapat
dilakukan analisis terhadap lima hal, yaitu: validitas, reliabilitas, tingkat kesukaran, daya
beda, dan efektivitas fungsi distraktor.
A. Validitas
Validitas adalah suatu konsep yang berkaitan dengan sejauh mana tes telah mengukut
apa yang seharusnya diukur (Suryapranata, S 2004:50). Sedangkan yang dimaksud dengan
validitas item tes adalah ketepatan mengukur yang dimiliki oleh sebutir item (yang
merupakan bagian yang tak terpisahkan dari tes sebagai suatu totalitas), dalam mengukur apa
yang seharusnya diukur lewat butir item tersebut (Sudijono, A 2003:66).
Penganalisisan terhadap validitas tes dapat dilakukan dengan dua cara, yaitu : Pertama,
penganalisisan yang dilakukan dengan jalan berpikir secara rasional (validitas rasional).
Kedua, penganalisisan yang dilakukan dengan mendasarkan diri kepada kenyataan empiris
(validitas empiris).
Analisis validitas rasional atau logis dapat dilihat dari dua segi, yaitu:
(1) Validitas isi (content validity)
(2) Validitas konstruksi (contruct validity)
Adapun analisis validitas empiris juga dapat dilihat dari dua segi, yaitu:
(1) Validitas ramalan (predictive validity)
(2) Validitas bandingan (concurren validity)
B. Reliabilitas
90
PORTOFOLIO EVALUASI PENDIDIKAN
Reliabilitas sering diartikan dengan keterandalan. Artinya suatu tes memiliki
keterandalan bilamana tes tersebut dipakai mengukur berulang-ulang hasilnya sama (Thoha,
M.C 1996:118).
Dalam rangka menentukan apakah tes hasil belajar bentuk objektif yang disusun oleh
tester telah memiliki keajegan mengukur ataukah belum, maka dapat dilakukan dengan
menggunakan tiga pendekatan.
a. Pendekatan Single Test-Single Trial(Single Test-Single Trial Method)
b. Pendekatan Test-Retest(Single Test-Double Trial)
c. Pendekatan Alternate Form (double test-double trial)
C. Tingkat Kesukaran
Tingkat kesukaran Item adalah pernyataan tentang seberapa mudah dan seberapa sulit
sebuah butir soal bagi siswa yang dikenai pengukuran (Nurgiyanto, B. 1987:126).
Cara yang dapat ditempuh untuk mengetahui apakah item tes hasil belajar itu sudah
memiliki tingkat kesukaran yang memadai ataukah belum, maka dapat diketahui dari besar
kecilnya indeks kesukaran item (difficulty index). Difficulty index (indeks kesukaran item)
adalah bilangan atau angka yang menunjukkan sukar mudahnya suatu item soal. Besarnya
indeks kesukaran antara 0,00 sampai dengan 1,00 artinya, soal dengan indeks kesukaran 0,00
menunjukkan bahwa soal itu terlalu sukar, sebaliknya indeks 1,00 menunjukkan bahwa
soalnya terlalu mudah.
Di dalam istilah evaluasi, indeks kesukaran ini diberi simbol P, singkatan dari kata
"proporsi". Dengan demikian maka soal dengan P = 0,70 lebih mudah jika dibandingkan
dengan P = 0,20. Sebaliknya soal dengan P = 0,30 lebih sukar dari pada soal dengan P = 0,80
(Daryanto 2001:180).
Menurut ketentuan yang sering diikuti, indeks kesukaran sering diklasifikasikan
sebagai berikut : (Arikunto, S 2012:225).
a. Soal dengan P 0,00 sampai dengan 0,30 adalah soal sukar.
b. Soal dengan P 0,31 sampai dengan 0,70 adalah soal sedang.
c. Soal dengan P 0,71 sampai dengan 1,00 adalah soal mudah.
D. Daya Beda
Sudijono, A (2003:385-386) menjelaskan bahwa:
Daya pembeda item adalah kemampuan suatu butir item tes hasil belajar untuk dapat membedakan antara testee yang berkemampuan tinggi (pandai) dengan testee yang kemampuannya rendah (bodoh) demikian rupa, sehingga sebagian besar testee yang memiliki kemampuan tinggi untuk menjawab butir item tersebut lebih banyak yang menjawab betul, sementara testee yang
91
PORTOFOLIO EVALUASI PENDIDIKAN
kemampuannya rendah untuk menjawab butir item tersebut, sebagian besar tidak dapat menjawab item dengan betul.
Daya pembeda item dapat diketahui dengan melihat besar kecilnya angka indeks
diskriminasi item. Angka indeks diskriminasi item adalah sebuah angka atau bilangan yang
menunjukkan besarnya daya pembeda yang dimiliki oleh sebutir item. Indeks diskriminasi
item, umumnya diberi lambang D (discriminatory power). Seperti halnya indeks kesukaran,
indeks diskriminasi (daya pembeda) ini berkisar antara 0,00 sampai 1,00. Hanya bedanya,
indeks kesukaran tidak mengenal tanda negatif (-), tetapi pada indeks diskriminasi ada tanda
negatif. Tanda negatif pada indeks diskriminasi digunakan jika suatu soal "terbalik"
menunjukkan kualitas testee. Artinya anak pandai disebut bodoh dan anak bodoh disebut
pandai (Arikunto, S 2012:226).
Indeks diskriminasi pada dasarnya dihitung atas dasar pembagian testee ke dalam dua
kelompok, yaitu kelompok atas (pandai) dan kelompok bawah (bodoh). Cara menentukan dua
kelompok itu bervariasi, misalnya: dapat membagi dua kelompok tersebut menjadi 27% dari
kelompok atas dan 27% dari kelompok bawah; dapat juga menggunakan median, yaitu 50%
kelompok atas dan 50% kelompok bawah; dan dapat juga dengan hanya mengambil 20% dari
kelompok atas dan 20% dari kelompok bawah.
Dari beberapa pembagian tersebut, para pakar di bidang evaluasi pendidikan lebih
banyak menggunakan presentase sebesar 27% dari kelompok atas dan 27% dari kelompok
bawah. Hal ini disebabkan adanya bukti-bukti empirik bahwa pembagian tersebut telah
menunjukkan kesensitifannya, atau dengan kata lain cukup dapat diandalkan (Sudijono, A
2003:387).
Sebagaimana yang dijelaskan oleh Suryabrata, S (1987:108), bahwa pembagian 27%
kelompok atas dan 27% dari kelompok bawah itu, memberikan efisiensi tertinggi dalam
memperkirakan daya pembeda soal.
Butir-butir soal yang baik adalah butir-butir soal yang mempunyai indeks diskiminasi
0,4 sampai dengan 0,7. (Arikunto, S 2012:232)
Daya pembeda dapat diklasifikasikan sebagai berikut : (Arikunto, S 2012:232)
a. D : 0,00 – 0,20 = Jelek (Poor)
b. D : 0,21 – 0,40 = Cukup (Satistifactory)
c. D : 0,41 – 0,70 = Baik (good)
d. D : 0,71 – 1,00 = Baik Sekali (Excellent)
e. D : Negatif, semuanya tidak baik. Jadi semua butir soal yang mempunyai nilai D
negatif sebaiknya dibuang saja.
92
PORTOFOLIO EVALUASI PENDIDIKAN
Berdasarkan klasifikasi di atas menunjukkan bahwa butir-butir soal yang baik adalah butir-
butir soal yang mempunyai indeks diskiminasi 0,4 sampai dengan 0,7.
E. Efektivitas Fungsi Distraktor
Tujuan utama pemasangan distraktor pada setiap butir item itu adalah agar dari sekian
banyak testee yang mengikuti tes hasil belajar ada yang tertarik atau terangsang untuk
memilihnya, sebab mereka menyangka bahwa distraktor yang mereka pilih itu merupakan
jawaban betul. Makin banyak testee yang terkecoh, maka distraktor tersebut dapat
menjalankan fungsinya dengan baik. Sebaliknya, apabila distraktor yang dipasang pada setiap
butir item itu "tidak laku" (maksudnya: tidak ada seorangpun dari sekian banyak testee yang
merasa tertarik atau terangsang untuk memilih distraktor tersebut sebagai jawaban betul),
maka distraktor tersebut tidak dapat menjalankan fungsinya dengan baik. Dengan kata lain,
distraktor baru dapat dikatakan telah menjalankan fungsinya dengan baik, apabila distraktor
tersebut memiliki daya rangsang atau daya tarik, sehingga testee (khususnya testee dari
kelompok bawah) menjadi terkecoh untuk memilih distraktor sebagai jawaban betul
(Sudijono, A. 2003:410).
Analisis fungsi distraktor yang sering dikenal dengan istilah lain, yaitu pola penyebaran
jawaban soal. Adapun yang dimaksud pola penyebaran jawaban soal adalah distribusi testee
dalam hal menentukan pilihan jawaban pada soal bentuk pilihan ganda. Pola jawaban soal
diperoleh dengan menghitung banyaknya testee yang memilih option a, b, c, atau d atau yang
tidak memilih option manapun (blangko). Dalam istilah evaluasi disebut omit, disingkat O
(Arikunto, S 2012:233).
Suatu distraktor dapat diperlakukan dengan 3 cara: (Daryanto 2001:193)
1) Diterima, karena sudah baik.
2) Ditolak, karena tidak baik.
3) Ditulis kembali, karena kurang baik.
Apabila distraktor tersebut sekurang-kurangnya sudah dipilih oleh 5% dari seluruh
testee, maka distraktor itu telah berfungsi dengan baik. Sebaliknya apabila distraktor tersebut
dipilih kurang dari 5% dari seluruh testee, maka distraktor itu belum berfungsi dengan baik.
3. Fungsi Software ITEMAN
Analisis item tes (item analysis) merupakan suatu prosedur yang sistematis, yang akan
memberikan informasi-informasi yang sangat khusus terhadap butir tes yang kita susun.
Menurut Arikunto, S (2012:220-221) menjelaskan bahwa faedah atau kegunaan dari
analisis item tes adalah:
1) Membantu kita dalam mengidentifikasikan butir-butir soal yang jelek.
93
PORTOFOLIO EVALUASI PENDIDIKAN
2) Memperoleh informasi yang akan dapat digunakan untuk menyempurnakan soal-soal
untuk kepentingan lebih lanjut.
3) Memperoleh gambaran secara selintas tentang keadaan tes yang kita susun.
Adapun manfaat atau kegunaan analisis soal buatan guru menurut Silverius, S
(1991:176-177)adalah sebagai berikut:
1) Menentukan apakah butir soal berfungsi tepat seperti yang dimaksudkan oleh guru.
2) Umpan balik bagi siswa mengenai penampilannya dan merupakan dasar untuk diskusi
kelas
3) Umpan balik bagi guru tentang kesulitan belajar siswa.
4) Bidang-bidang kurikulum yang memerlukan perbaikan.
5) Perbaikan butir soal.
6) Meningkatkan ketrampilan penulisan soal.
4. Keunggulan dan Kekurangan Software ITEMAN
A. KELEBIHAN
B. KEKURANGAN :
C. SOLUSI :
5. Cara Penggunaan Software ITEMAN
Petunjuk Penggunaan ITEMAN yang Menggunakan DOS Untuk Analisis :
1. Buka Buka program Notepad dan masukkan data hasil tes yang akan dianalisis,
kemudian simpan dalam satu folder bersama dengan program ITEMAN.exe.
2. Setelah selesai pengetikan simpan file dengan nama (misal : jawaban.txt)
bersama dengan sofware ITEMAN.exe. Selanjutnya jalankan ITEMAN.exe
dengan mengklik dua kali icon ITEMAN.exe, maka akan muncul layar dan
isilah pertanyaan-pertanyaan yang muncul dilayar .
94
PORTOFOLIO EVALUASI PENDIDIKAN
6. Contoh Penerapan Software ITEMAN
A. Naskah Soal Ulangan Harian Mata Pelajaran Fisika kelas XI IPA 1 SMAN 1
Malang. (TERLAMPIR)
B. Kunci Jawaban dan Jawaban 34 Siswa Peserta Ulangan Harian Mata Pelajaran
Fisika kelas XI IPA 1 SMAN 1 Malang. (TERLAMPIR)
C. Hasil Analisis Daya Beda, Tingkat Kesulitan, Reliabilitas, dan Keberfungsian
Distraktor Menggunakan Software ITEMAN. (TERLAMPIR)
LAMPIRAN
95
PORTOFOLIO EVALUASI PENDIDIKAN
DAFTAR PUSTAKA
Asmawi, Z dan Noehi, N. 1997. Penilaian Hasil Belajar. Pusat Antar Universitas, Direktorat Jenderal Pendidikan Tinggi: Departemen Pendidikan Dan Kebudayaan.
Arikunto, S. 2002. Dasar-Dasar Evaluasi Pendidikan (Edisi Revisi). Jakarta : Bumi Aksara
Daryanto. 2001. Evaluasi Pendidikan. Jakarta: Rineka Cipta.
Departemen Pendidikan Dan Kebudayaan. 1997. Manual Item And Test Analysis. Badan Penelitian dan Pengembangan Pendidikan dan Kebudayaan: Pusat Penelitian dan Pengembangan Sistem Pengujian.
Kartowagiran, B. 2011. Penulisan Butir Soal (Makalah disampaikan pada Pelatihan Penulisan dan Analisis Butir bagi Guru SMP Provinsi D.I. Yogyakarta pada tanggal 23, 26, dan 28 Juli 2011 di Pascasarjana UNY). Yogyakarta : Universitas Negeri Yogyakarta.
Kementerian Pendidikan Nasional. 2010. Materi Bimbingan Teknis KTSP dan Soal Terstandar 2010 : Panduan Analisis Butir Soal. Jakarta : Direktorat Pembinaan SMP Ditjen Manajemen Pendidikan Dasar dan Menengah Kementerian Pendidikan Nasional.
Mardapi, D. 2004. Penyusunan Tes Hasil Belajar. Yogyakarta : Program Pascasarjana Universitas Negeri Yogyakarta.
Mardapi, D. 2008. Teknik Penyusunan Instrumen Tes dan Nontes. Yogyakarta : Mitra Cendikia Press.
Mudjijo. 1995. Tes Hasil Belajar. Jakarta: Bumi Aksara.
Nurgiyanto, B. Penilaian Dalam Pengajaran Bahasa dan Sastra. Yogyakarta: BPFE.
Nurhidayah & Indreswari, H. 1991. Teknik Pemahaman Individu Non Test (Buku Penunjang Perkuliahan). Malang : Institut Keguruan dan Ilmu Pendidikan Malang.
Prawira, Y. A. 2008. Panduan Analisis Butir Soal Dengan Menggunakan Software Anatesv4. Bandung: Universitas Pendidikan Indonesia Bandung.
Purwanto, N. 2004. Prinsip-Prinsip dan Teknik Evaluasi Pengajaran. Bandung: Remaja Rosadakarya
Silverius, S. 1991. Evaluasi Hasil Belajar dan Umpan Balik. Jakarta: Gramedia.
Sudijono, A. 2003. Pengantar Evaluasi Pendidikan. Jakarta: Raja Grafindo Persada.
Sudjana, N. 2005. Penilaian Hasil Proses Belajar Mengajar. Bandung: Remaja Rosdakarya.
Suryabrata, S. 1983. Proses Belajar-Mengajar di Perguruan Tinggi. Yogyakarta : Andi Offset.
Suryabrata, S. 1987. Pengembangan Tes Hasil Belajar. Jakarta: Rajawali Pers.
Suryabrata, S. 1999. Pengembangan Alat Ukur Psikologis. Direktorat jenderal Pendidikan Tinggi: Departemen Pendidikan dan Kebudayaan.
96
PORTOFOLIO EVALUASI PENDIDIKAN
Suryapranata, S. 2004. Analisis, Validitas, Reliabilitas, dan Interpretasi Hasil Tes. Bandung: Remaja Rosdakarya.
Stanley, J.C dan Hopkins, K.D. 1978. Educational and Psychological Measurement and Evaluation. New Delhi : Prentice Hall of India Private Limited.
Suwarto. 2013. Pengembangan Tes Diagnostik dalam Pembelajaran : Panduan Praktis Bagi Pendidik dan Calon Pendidik. Yogyakarta : Pustaka Pelajar.
Thoha, M.C. 2003. Teknik Evaluasi Pendidikan. Jakarta : PT Raja Grafindo Persada
Universitas Negeri Malang. 2010. Pedoman Penulisan Karya Ilmiah : Skripsi, Tesis,
Disertasi, Artikel, Makalah, Tugas Akhir, Laporan Penelitian. Edisi Kelima. Malang
: Universitas Negeri Malang.
Walstad, W.B. 2006. Testing for Depth of Understanding in Economics Ussing Essay Questions. Journal of Economic Education. Washington : Winter
Wina Sanjaya.2008. Pembelajaran Dalam Implementasi Kurikulum Berbasis Kompetensi, Cet.4. Jakarta:Kencana.