validitas hasil penilaian oleh agus mianta 13708259007.docx

76
VALIDITAS HASIL PENILAIAN Disusun guna memenuhi tugas mata kuliah Evaluasi Pembelajaran Sains Dosen Pengampu: Dr. Edi Istiyono, M.Si Disusun Oleh: Agus Mianta, S.Si NIM. 13708259007

Upload: yudhi-wiyoko

Post on 16-Dec-2015

12 views

Category:

Documents


0 download

TRANSCRIPT

VALIDITAS HASIL PENILAIAN

Disusun guna memenuhi tugas mata kuliah Evaluasi Pembelajaran Sains

Dosen Pengampu:Dr. Edi Istiyono, M.Si

Disusun Oleh:Agus Mianta, S.SiNIM. 13708259007

PROGRAM STUDI PENDIDIKAN SAINSPROGRAM PASCASARJANA UNIVERSITAS PENDIDIKAN YOGYAKARTA2014VALIDITAS HASIL PENILAIAN

KONSEP UTAMA1. Validitas adalah ketepatan interpretasi dan penggunaan hasil penilaian siswa.2. Validitas sebagai argumentasi dengan bukti dalam empat prinsip: interpretasi, penggunaan, nilai-nilai, dan konsekuensi.3. Untuk penilaian kelas, validitas utama yang perlu diperhatikan: (a) memastikan bahwa penilaian benar-benar sesuai dengan tujuan pembelajaran (sebagaimana dimaksud dan seperti yang diajarkan, baik isi maupun proses); dan (b) memastikan konsekuensi pelayanan kepada siswa dan pembelajaran siswa.4. Pada penilaian skala besar, bukti validitas dapat berupa: konten, keterampilan berpikir, struktur internal, struktur external, reliabilitas, generalisasi, konsekuensi, dan kepraktisan.5. Tiga langkah argumen validitas hasil: menggambarkan tujuan yang telah ditetapkan untuk skor penilaian, skor penilaian tujuan yang telah ditetapkan, dan menyelidiki konsekuensi skor penilaian yang diinginkan.6. Koefisien korelasi ditujukan untuk mengukur tingkat keterkaitan antara dua nilai. Hal ini digunakan dalam bukti validitas setiap kali hubungan antara dua nilai yang berkaitan.7. Validitas akomodasi dibuat ketika ketidakmampuan penilaian siswa tergantung pada tujuan penilaian.

SIFAT UMUM VALIDITASPenilaian yang bermakna adalah salah satu cara untuk membahas tentang validitas. Validitas adalah ketepatan interpretasi dan penggunaan hasil penilaian siswa. Untuk memvalidasi interpretasi dan penggunaan hasil penilaian siswa, harus digabungkan bukti dari berbagai sumber yang menunjukkan interpretasi dan penggunaan yang tepat.Pertanyaan "Apakah hasil penilaian tersebut valid?" memiliki banyak jawaban yang berbeda tergantung pada bagaimana hasilnya diinterpretasikan dan digunakan. Misalnya, sekolah Anda mengelola Membaca Uji ABC dan ingin menggunakan skor untuk satu atau lebih tujuan, misal: untuk menggambarkan pertumbuhan pemahaman bacaan siswa; untuk meklasifikasikan siswa ke dalam kemampuan tinggi, tengah, dan rendah; dan untuk mengevaluasi program membaca sekolah. Skor dari uji hipotesis mungkin memiliki tingkat validitas yang tinggi untuk salah satu tujuan tetapi mungkin tidak untuk tujuan yang lain.Ketika mendiskusikan validitas penilaian hasil, perlu diingat hal-hal berikut:1. Konsep validitas berlaku untuk cara kita menafsirkan dan menggunakan hasil penilaian, bukan prosedur penilaian itu sendiri. Dengan demikian, kita mungkin tidak mengatakan, "Apakah Test Membaca ABC valid?" kecuali sebagai cara singkat berbicara tidak formal. Sebaliknya, kita harus mengajukan pertanyaan yang lebih spesifik seperti, "Apakah valid untuk menafsirkan skor dari Tes Membaca ABC untuk mengukur pemahaman bacaan? " atau " Apakah berlaku untuk menggunakan nilai Tes Membaca ABC untuk menempatkan siswa dalam kelompok membaca?"dan seterusnya.2. Hasil penilaian memiliki derajat validitas berbeda untuk tujuan yang berbeda dan untuk situasi yang berbeda. Skor dari hipotetis Tes Memabaca ABC misalnya, mungkin sangat valid bila digunakan untuk mengevaluasi program membaca sekolah di suatu daerah karena itemnya cocok dengan tujuan program membaca kabupaten yang baik. Di sisi lain, skor dari tes yang sama mungkin memiliki validitas yang jelek untuk mengevaluasi program membaca kabupaten lain karena item sesuai dengan yang tujuan program membaca kabupaten tersebut kurang baik.3. Membuat penilaian tentang validitas interpretasi atau penggunaan hasil penilaian hanya setelah mempelajari dan menggabungkan beberapa jenis bukti validitas. Sebagai contoh, sebelum sampai pada sebuah kesimpulan tentang validitas interpretasi yang diajukan atau menggunakan skor Membaca Uji ABC, dikumpulkan bukti tentang beberapa aspek yang relevan dari seberapa baik sampel domain membaca. Apakah keterampilan yang dinilai mewakili ketepatan membaca "sebenarnya" ? Apakah skor dipengaruhi oleh faktor-faktor yang tidak relevan seperti suasana hati siswa atau motivasi mereka untuk diuji? Seberapa dekat keteapatan melakukan uji keterampilan membaca suatu sekolah? Apakah skor terpercaya?

Validitas adalah penilaian yang dibuat setelah mempertimbangkan bukti dari semua bidang yang relevan. Sebelum semua bukti yang relevan dikumpulkan, dibahas, ditimbang, dan digabungkan, evaluasi validitas hasil tidak lengkap. Akibatnya, validasi interpretasi dan penggunaan hasil penilaian khusus membutuhkan pembuatan argumen yang meyakinkan bahwa bukti yang ada mendukung (Kane, 1992, 2006).

EMPAT PRINSIP UNTUK VALIDASIEmpat prinsip untuk validasi yang akan membantu untuk memutuskan bagaimana valid hasil penilaian (Messick, I989, I994) mendasarkan penilaian validitas pada empat prinsip, tidak hanya pada salah satu dari mereka.1. Interpretasi (penafsiran) yang Anda berikan kepada hasil penilaian siswa hanya berlaku jika dapat menunjukkan bukti bahwa mendukung kesesuaian dan kebenaran interpretasi.2. Penggunaan hasil penilaian berlaku untuk sejauh mana Anda dapat menunjukkan bukti yang mendukung kebenaran dan kesesuaian.3. Interpretasi dan penggunaan hasil penilaian hanya berlaku ketika nilai-nilai yang ditunjukkan sesuai.4. Interpretasi dan penggunanaan yang didapatkan dari hasil penilaian hanya berlaku ketika konsekuensi dari interpretasi ini dan penggunaan konsisten dengan nilai-nilai yang sesuai.

Prinsip-prinsip ini dijelaskan pada paragraf di bawah ini.Interpretasi yang tepatPerhatikan, misalnya Hiram, seorang mahasiswa Lincoln School. Hiram mengambil tes membaca ABC setiap tahun, namun skor tiba-tiba naik tahun ini. Bagaimana Anda menafsirkan peningkatan mendadak skor Hiram tersebut? Berikut adalah beberapa kemungkinan interpretasi: (a) pemahaman bacaan sudah membaik, (b) motivasi untuk melakukan tes pemahaman membaca telah meningkat, dan (c) keterampilan dalam menjawab item tes pemahaman membaca pilihan ganda telah membaik. Staf Lincoln School ingin menafsirkan penilaian Hiram bahwa telah terjadi peningkatan pemahaman bacaan. Sebelum mereka dapat mengklaim bahwa penafsiran seperti ini valid, mereka perlu menunjukkan buktinya. Pertama, mereka perlu menunjukkan bahwa Tes Membaca ABC langkah-langkah pemahaman bacaannya dengan cara membaca khusus menentukan pemahaman. Kedua, mereka perlu bukti yang menunjukkan bahwa peningkatan tes kinerja Hiram disebabkan membaiknya membaca, bukan hanya hasil dari meningkatnya motivasi untuk melakukan tes dengan baik. Ketiga, mereka harus menggunakan bukti lain yang ada di sekolah: guru kelas harus membandingkan hasil tes membaca di kelas dengan hasil Hiram.Penggunaan yang tepatAda beberapa hal yang mungkin ada dalam pikiran staf Lincoln School? misalnya, menyatakan bahwa Hiram sedang membaca pada level yang tepat; (b) mendiagnosa atau mengidentifikasi jenis masalah memahami bacaan Hiram yang mungkin dialami; (c) menempatkan Hiram ke kelompok remedial membaca, teratur, atau berkelanjutan; dan (d) terus memantau pertumbuhan pemahaman bacaan Hiram. Staf Lincoln School ingin menggunakan nilai Hiram untuk lebih dari satu tujuan. Namun, validitas dari skor Tes Membaca ABC tergantung pada guru dan pejabat sekolah untuk menemukan bukti yang mendukung. Misalnya, apa bukti Lincoln School dapat menyediakan bukti yang menunjukkan bahwa siswa ditugaskan dalam kelompok remedial membaca lebih baik daripada jika mereka ditugaskan untuk kelas membaca biasa? Bukti harus disediakan secara terpisah untuk masing-masing tujuan penggunaan dari hasil penilaian.Perhatikan bahwa pada contoh Lincoln School digunakan kata-kata yang tersirat pemahaman bacaan interpretasi dari hasil tes. Hal ini menggambarkan sebuah poin penting tentang validasi proses penilaian. Untuk memvalidasi penggunaan hasil penilaian tertentu, Anda juga harus menggunakan penafsiran atau makna dari hasil tersebut. Dengan demikian, Lincoln School harus terlebih dahulu harus menetapkan sejauh mana pengaruh Tes Membaca ABC terhadap pemahaman bacaan. Jika tidak dapat melakukan hal ini, sekolah tidak mampu memvalidasi penggunaan lebih lanjut dari nilai tes yang didasarkan pada asumsi pengukuran kemampuan membaca pemahaman.Nilai yang tepatInterpretasi hasil penilaian siswa muncul dari nilai-nilai pendidikan dan sosial. Apa Nilai-nilai tersirat ketika staf Lincoln School menafsirkan skor tes membaca ABC Hiram sebagai mengukur pemahaman membaca dan menggunakan mereka untuk menggambarkan dan merencanakan pembangunan bacaannya?Pertama, sangat pilihan Membaca Uji ABC tersirat bahwa staf dihargai format dan isi item tes. Misalkan bahwa Reading Uji ABC terdiri dari beberapa bagian pendek (kurang dari 500 kata masing-masing), masing-masing diikuti oleh beberapa pertanyaan. Selanjutnya, misalkan tema dari membaca ayat-ayat mengabaikan (atau tidak relevan dengan) Afrika Amerika, Hispanik, penduduk asli Amerika, atau lainnya pengalaman budaya minoritas. Menggunakan dan menafsirkan Tes ini sebagai ukuran pemahaman membaca menyiratkan staf menerima bahwa budaya dan pengalaman etnis tidak penting dalam menilai pemahaman bacaan siswa.Kedua, menggunakan format pilihan ganda untuk menilai kemampuan membaca dan pertanyaan terbuka digunakan sebagai gantinya? Apakah lebih murah tes pilihan ganda atau lebih rmahal dari penilaian otentik?Ketiga, penggunaan staf dari skor tes untuk menetapkan siswa untuk kelompok membaca yang berbeda menunjukkan bahwa mereka nilai pengelompokan homogen untuk membaca instruksi. Hal ini juga menyiratkan bahwa manfaat diterima dari yang diajarkan orang lain serupa kemampuan membaca lebih besar daripada manfaat yang diterima dari diajarkan dalam kelompok kemampuan membaca lebih baik. Sekali lagi perhatikan bahwa pembahasan pertimbangan nilai pada paragraf sebelumnya menggunakan pembacaan interpretasi pemahaman dari hasil tes dan menjelaskan cara-cara khusus menggunakan skor. Ini menggambarkan bahwa Anda harus mempertimbangkan interpretasi yang tepat, menggunakan relevan, dan nilai-nilai yang sesuai ketika meminta bagaimana valid hasil penilaian Anda.Konsekuensi yang sesuaiSetiap kali Anda menafsirkan dan menggunakan hasil penilaian siswa Anda, konsekuensi dimaksudkan dan tidak disengaja menghasilkan Setiap tindakan yang Anda lakukan memiliki konsekuensi. Anda harus mempertimbangkan konsekuensi ini ketika menilai apakah Anda menggunakan hasil penilaian valid. Apa yang dimaksud dan konsekuensi yang tidak diinginkan untuk Lincoln School? Konsekuensi Lincoln School dimaksudkan untuk menempatkan anak-anak dengan skor ABC Reading Uji rendah ke kelompok perbaikan membaca adalah untuk meningkatkan ini kemampuan anak membaca secepat mungkin. Sebagai membaca pemahaman siswa membaik, staf percaya, sehingga akan sekolah mereka lainnya dan harga diri mereka.Tapi sesuatu misalkan tidak diinginkan dan tidak dihargai terjadi sebaliknya. Misalkan pembacaan remedial siswa cepat datang untuk melihat diri mereka sebagai tidak kompeten, dan harga diri mereka menurun. Misalkan, juga, bahwa guru frustrasi, memulai pengeboran mereka pada materi siswa tidak mengerti (bukannya membangun pada apa yang mereka sudah tahu). Misalkan akhirnya siswa tidak pernah meninggalkan perbaikan track membaca. Dalam menghadapi ini yang tidak diinginkan dan konsekuensi negatif, akan Lincoln Penggunaan Sekolah dari skor ABC Reading Test untuk membentuk kelompok perbaikan akan sangat valid? Bahkan jika tes diukur pemahaman bacaan, ketika seperti negatif konsekuensi terjadi penggunaan yang terus menerus akan menghancurkan beberapa anak. interpretasi dan penggunaan hasil penilaian harus dinilai positif konsekuensi (dan menghindari konsekuensi negatif dihargai) memiliki tingkat tinggi validitas.Contoh ini menggunakan interpretasi dari hasil tes pemahaman bacaan, menggambarkan tertentu penggunaan hasil (penempatan ke remedial membaca kelompok), dan menggabungkan dinilai positif niat (peningkatan siswa membaca dan harga diri). Contoh ini juga menunjukkan, bagaimanapun, bahwa konsekuensi dinilai positif mungkin tidak menghasilkan untuk semua siswa. Anda harus mempertimbangkan sesuai interpretasi, penggunaan yang tepat, nilai-nilai yang sesuai, dan konsekuensi yang tepat ketika memintabagaimana valid hasil penilaian Anda.VALIDITAS HASIL PENILAIAN KELASBagian ini membahas kriteria untuk memvalidasi hasil metode penilaian kelas. Keabsahan kriteria berlaku untuk semua jenis penilaian kelas, termasuk tugas singkat, tugas jangka panjang, dan kuis. Ketika Anda membaca bagian kelas contoh penilaian umum dalam pikiran, misalnya tes pada akhir unit atau utama proyek untuk unit. Beberapa kriteria mungkin digunakan untuk meningkatkan validitas menggunakan hasil penilaian siswa.Keterwakilan Konten dan RelevansiValiditas hasil penilaian kelas sangat tergantung pada seberapa baik target penilaian pembelajaran sampel. Sasaran belajar Anda mengajar dan menilai harus sesuai dengan konteks yang sesuai distrik sekolah, standar negara, dan disiplin mengajar. Penilaian harus mencerminkan isi penting dan hasil pembelajaran yang ditentukan di sekolah dan standar negara. Anda juga harus meninjau setiap penilaian tugas untuk memastikan bahwa perspektif konten relevan, penting, dinyatakan secara akurat, memiliki kunci yang akurat atau penilaian rubrik, dan mewakili sesuatu yang bermakna untuk belajar.Ketika mengevaluasi metode penilaian kelas dalam kaitannya dengan keterwakilan dan relevansi, fokus pada pertanyaan-pertanyaan berikut:1. Apakah prosedur penilaian saya menekankan apa Saya telah diajarkan? Siswa memiliki hak untuk mengharapkan untuk dievaluasi pada apa yang telah Anda ditekankan dalam kelas. Jika Anda telah menghabiskan banyak waktu di sebuah materi, penilaian pada materi tersebut harus terlihat. KategoriBentuk Penilaian untuk Mecapai Kriteria

Keterwakilan konten dan relevansi

1. Menekankan apa yang diajarkan2. Mewakili konten kurikulum sekolah3. Merupakan pemikiran subjek saat ini 4. Mengandung konten pembelajaran yang sama

mewakili keterampilan proses dan keterampilan berpikir

5. Siswa mengintegrasikan dan menggunakan beberapa kemampuan berpikir6. Mewakili keterampilan proses dan keterampilan berpikir yang tercantum dalam kurikulum sekolah7. Mengandung tugas yang tidak dapat diselesaikan tanpa menggunakan kemampuan berpikir 8. Memeberikan waktu yang cukup bagi siswa untuk menggunakan keterampilan kompleks dan keterampilan proses

Konsisten dengan penilaian kelas lain9. Pola rerata hasil konsisten dengan penilaian kelas lain10. Mengandung item tugas individu yang tidak terlalumudah atau terlalu sulit

Reliabilitas dan objektivitas

11. Menggunakan prosedur yang sistematis untuk setiap siswa untuk menetapkan peringkat kualitas siswa12. Memberikan setiap siswa peluang untuk menunjukkan kompetensi untuk setiap tujuan pembelajaran

Keadilan untuk berbagai jenis siswa

13. Mengandung tugas yang dapat ditafsirkan secara tepat oleh siswa dengan latar belakang yang berbeda14. Mengakomodasi siswa penyandang cacat atau yang terkendala dalam belajar15. Tidak membedakan suku, ras, dan jenis kelamin

Ekonomi, efisiensi, kepraktisan, fitur instruksional16. Memerlukan jumlah waktu yang wajar untuk mengelola17. Merupakan penggunaan waktu siswa yang tepat18. Merupakan penggunaan waktu kelas yang tepat

Penggunaan multiple assessment 19. Digunakan dalam hubungannya dengan hasil penilaian lainnya untuk keputusan penting

Konsekuensi positif pembelajaran20. Hasil di kedua belahpihak memberikan informasi yang bermanfaat bagi pembelajaran siswa21. Tidak mengakibatkan hambatan yang tidak perlu dalam belajar

GAMBAR 3.1 Kriteria untuk meningkatkan validitas skor dari penilaian kelas yang digunakan untuk menetapkan kelas siswa.

Seringkali, item pada tes berkualitas buruk, menekankan kemampuan berpikir tingkat rendah, atau menekankan konten yang berbeda dari yang ditekankan selama mengajar. Ada sebuah anekdot yang tragis dalam hal ini. Seorang guru menggunakan salah satu dari tes ini tanpa hati-hati meninjau. Pada hari pengujian, guru menemukan bahwa 10 dari 40 item tertutup materi yang ia tidak diajarkan. Guru menggunakan 15 menit pertama waktu pengujian untuk mencoba untuk mengajarkan konsep-konsep ini dan kemudian memberi tes. Tentu saja, penilaian ini tidak hanya kurang valid tetapi membuat frustrasi siswa.

2. Apakah tugas penilaian saya secara akurat mewakili hasil-hasil yang ditentukan di sekolah saya dan kerangka kurikulum negara? Nilai siswa akan dicatat dan akhirnya akan ditafsirkan oleh orang-orang yang telah melihat kurikulum tetapi yang tidak akrab dengan apa yang Anda ajarkan di kelas tersebut. Mereka akan mengharapkan nilai untuk mencerminkan target pembelajaran kabupaten dan standar negara. Karena nilai didasarkan pada penilaian Anda, penilaian haruslah mencerminkan ini hasil-hasil pembelajaran.

3. Apakah penilaian tugas sesuai dengan arus berpikir tentang apa yang harus diajarkan dan bagaimana seharusnya dinilai? Pendidik, filsuf, ahli teori kurikulum, peneliti, dan lain-lain terus-menerus mendefinisikan ulang apa yang yang dimaksud belajar. Guru profesional terus mengikuti perkembangan ini dan menerapkannya dalam pengajaran dan penilaian.

4. Apakah konten dalam penilaian saya penting dan perlu untuk dipelajari? konten termasuk dalam penilaian belajar harus bernilai besar atau signifikansi untuk kehidupan lanjut keterampilan siswa. Kurikulum dan konten Anda mengajar mengandung banyak spesifikasi. Pastikan bahwa konten yang dinilai berhubungan langsung kepada target pembelajaran siswa. Kebanyakan penilaian belajar melibatkan siswa dalam menerapkan kombinasi keterampilan dan konten daripada menggunakan keterampilan atau menghafal konten. Pengajaran dan penilaian oleh karena itu juga harus memerlukan siswa untuk menerapkan beberapa aspek pengetahuan, keterampilan.Representasi Proses Berpikir dan KeterampilanTerkait erat dengan keterwakilan konten dan relevansi apakah metode penilaian untuk mengevaluasi siswa mencakup berbagai keterampilan berpikir dan proses. Penaksiran instrumen yang mencakup area belajar yang luas, periode tanda, atau semester-harus komprehensif menilai berbagai jenis keterampilan berpikir. Sebuah taksonomi digunakan bersama dengan garis besar isi untuk menulis cetak biru penilaian. Cetak biru ini akan membantu Anda memastikan bahwa penilaian Anda mencakup keterampilan berpikir dan konten penting. Pertanyaan-pertanyaan berikut akan membantu Anda menilai validitas penilaian kelas dalam kaitannya untuk keterampilan berpikir dan proses:5. Apakah tugas-tugas pada instrumen penilaian mengharuskan siswa untuk menggunakan kemampuan berpikir dan ketrampilan proses yang penting? Setiap prosedur penilaian kelas harus mensyaratkan siswa untuk menggunakan gabungan keterampilan berpikir dan keterampilan proses. Masalah di sini, bagaimanapun, adalah sejauh mana penilaian Anda mencerminkan keterampilan berpikir pokok yang digunakan dalam disiplin ilmu dan standar negara. Jawabannya adalah masalah penekanan dan mengetahui apa ahli kurikulum telah merekomendasikan target pembelajaran untuk siswa pada tingkat kelas tertentu.Penilaian Anda harus mengumpulkan informasi tentang kemampuan siswa untuk menggunakan strategi dan proses yang umum digunakan dalam disiplin ilmu. Sebagai contoh, penilaian matematika harus membantu Anda menilai apakah seorang siswa menggunakan dengan baik berpikir matematis ketika memecahkan masalah, tidak hanya apakah siswa dapat memperoleh jawaban yang tepat. Penilaian dalam studi sosial akan membantu Anda menilai bagaimana siswa berpikir kritis dan menerapkan materi dalam kehidupan sehari-hari, bukan hanya menilai apakah mereka dapat "membandingkan" atau "daftar faktor-faktor yang menyebabkan...." penting dan bernilai sementara pembelajaran dapat diterapkan pada situasi kehidupan nyata. Tugas penilaian setidaknya harus mensimulasikan aplikasi kehidupan nyata pada tingkat yang sesuai untuk siswa yang diajarkan.6. Apakah instrumen penilaian saya mewakili jenis keterampilan berpikir dalam kerangka kurikulum sekolah dan standar negara? Kurikulum dan standar nasional negara sering termasuk jenis tingkat tinggi berpikir kritis sebagai tujuan instruksi. Pelajaran Anda tujuan pembelajaran harus selaras dengan kurikulum dan standar, tujuan dalam mengajar Anda harus mendorong jenis pemikiran, dan pengkajian juga mencerminkan tingkat berpikir yang ditentukan dalam tujuan.7. Selama penilaian, apakah siswa benar-benar menggunakan jenis pemikiran yang saya harapkan untuk digunakan? Jika Anda akan menafsirkan penilaian siswa sebagai cerminan keterampilan berpikir kompleks, maka Anda harus memastikan bahwa siswa benar-benar menggunakannya ketika menyelesaikan penilaian. Pemeriksaan dilakukan dengan mengamati strategi siswa yang muncul dan digunakan selama penilaian. Anda mewawancarai beberapa siswa, meminta mereka untuk "berpikir keras" karena tugas penilaian memecahkan masalah. Anda juga dapat meninjau tugas pada penilaian. Item tes yang buruk akan memberikan petunjuk untuk jawaban yang benar dan menurunkan kemungkinan siswa harus menggunakan kemampuan berpikir. Demikian pula, pertanyaan ambigu akan membingungkan siswa, mengganggu penggunaan strategi penting, dan menurunkan validitas nilai mereka.8. Apakah waktu yang diberikan cukup bagi siswa untuk menunjukkan jenis berpikir? Berpikir kompleks, pemecahan masalah yang berarti, dan aplikasi kreatif membutuhkan waktu yang cukup lama bagi sebagian besar siswa. 40- 50 menit untuk periode kelas biasanya terlalu singkat untuk mendapatkan penilaian yang valid. Dibutuhkan waktu yang lebih lama untuk hasil yang valid dan mencerminkan hasil belajar. Ini berarti bahwa Anda mungkin harus memberikan tes selama waktu yang lebih lama atau menilai beberapa target pembelajaran menggunakan proyek atau portofolio.Konsistensi dengan Penilaian Kelas LainSelama unit, periode, atau semester, Anda akan telah mengamati individu di kelas berkali-kali. Anda telah mengumpulkan banyak informasi yang relevan dengan mengevaluasi pencapaian masing-masing siswa. Hasil penilaian siswa harus konsisten dengan pola kinerja siswa pada kegiatan pembelajaran dan penilaian formatif seterusnya. Beberapa siswa dapat melakukan lebih baik atau lebih buruk dari yang Anda harapkan. Namun, penilaian hasil untuk seluruh kelas seharusnya tidak mengejutkan. Jika ada kejutan, mungkin ada masalah dengan validitas prosedur penilaian. Lakukan evaluasi kemungkinan dengan berfokus pada pertanyaan-pertanyaan ini:9. Apakah pola hasil penilaian di kelas yang konsisten dengan apa yang diharapkan? Jika pola kelas sangat berbeda dari apa yang Anda harapkan, tinjau prosedur penilaian dalam pertanyaan 1-8. Misalnya, penekanan tes tidak sesuai dengan pengajaran. Mungkin tidak cocok dengan isi penilaian yang diharapkan. Jika terdapat alasan ini, Anda tidak bisa menafsirkan hasil penilaian sebagai validasi kemampuan siswa.10. Apakah tugas yang dibuat untuk penilaian terlalu sulit atau terlalu mudah bagi siswa? Ketika tugas-tugas yang terlalu sulit atau terlalu mudah, hasil penilaian tidak akan konsisten dengan pengamatan. Ketika penilaian terlalu mudah atau terlalu sulit semua siswa akan meperoleh hasil yang hampir sama, dan sukar membedakan tingkat pencapaian siswa. Hal ini menurunkan validitas. Penilaian yang terlalu sulit dapat menggagalkan siswa, membuat mereka merasa seolah-olah waktu belajar mereka terbuang percuma. Hal ini merupakan konsekuensi negatif dan tidak mengungkapkan kemampuan terbaik siswa. Pemberian tugas harus menantang, tapi tidak sulit sehingga hanya satu atau dua siswa di kelas yang dapat melakukan dengan baik.

Reliabilitas dan ObjektivitasReliabilitas mengacu pada konsistensi penilaian hasil. Reliabilitas adalah subyek dari bab tersendiri (Bab 4) tetapi diperlukan untuk hasil penilaian yang valid. Jika skor penilaian siswa sangat tidak konsisten menjadi acak, penilaian tidak valid. Inkonsistensi menurunkan validitas skor penilaian kelas disebabkan oleh faktor-faktor seperti menggunakan tes terlalu pendek, tidak menggunakan rubrik penilaian dengan tepat. Objektivitas adalah sejauh mana dua atau lebih evaluator yang memenuhi syarat sesuai dengan kualitas penilaian atau skor untuk menentukan kinerja siswa. Objektivitas tidak ada karakteristiknya. Hal tersebut adalah masalah derajat/tingkatan: Semua penilaian hasilnya lebih objektif atau kurang objektif. Ini tidak berarti bahwa prosedur penilaian semakin subjektif harus dihilangkan. Sebagai profesional dan ahli guru, penilaian sangat penting untuk siswa. Siswa akan mencari konsistensi dan keadilan dalam penilaian profesional Anda. 11. Apakah saya menggunakan panduan penilaian untuk mendapatkan kualitas peringkat atau nilai dari penilaian kinerja siswa? Panduan tersebut dapat menjadi kunci penilaian, yang mencakup rubrik atau skala penilaian dengan masing-masing peringkat level yang jelas. Terapkan panduan penilaian Anda dengan cara yang sama untuk pekerjaan setiap siswa. Panduan penilaian harus cukup jelas sehingga rekan pengajar yang lain bisa menggunakannya dan memperoleh hasil yang sama seperti yang Anda lakukan.12. Apakah instrumen penilaian dapat menilai sampel yang representatif tiap jenis hasil pembelajaran? Penilaian harus memberikan kesempatan bagi siswa untuk menunjukkan pengetahuan dan keterampilan mereka untuk masing-masing untuk mencapai tujuan pembelajaran. Jika kendala praktis tidak memungkinkan untuk penilaian yang lebih lengkap dalam satu periode kelas, pertimbangkan untuk menggunakan periode kelas lain, penilaian dibawa pulang, atau kombinasi dari hasil dari beberapa penilaian yang telah diberikan.Keadilan untuk Berbagai Jenis SiswaProsedur penilaian harus adil untuk siswa dari semua latar belakang etnis dan sosial ekonomi, serta siswa penyandang cacat yang harus diutamakan di kelas. Sebagai contoh, mahasiswa tuli dapat memahami konsep-konsep yang telah diajarkan tetapi tidak dapat mengekspresikan pemahaman tertulis atau lisan dalam penilaian. kosakata lisan dan keterampilan umum siswa tuli biasanya tertinggal dari rekan-rekan mereka, bahkan meskipun pengetahuan konten mereka mungkin setara. Dalam kasus tersebut, penilaian yang lebih valid tentang pemahaman siswa dapat diperoleh melalui penilaian khusus dengan beban lisan yang lebih rendah (misalnya, menyederhanakan atau menjelaskan nonteknis atau bukan subjek kosakata tertentu) atau melalui alternatif modus komunikasi (misalnya, menggunakan bahasa isyarat). Demikian pula, penilaian tidak boleh mengandung bahan yang secara halus atau terang-terangan menyinggung subkelompok etnis atau gender. Keadilan prosedur penilaian kelas, fokus pada pertanyaan-pertanyaan berikut:13. Apakah masalah atau tugas pada penilaian membuat siswa dengan berbagai etnis dan latar belakang sosial ekonomi akan menafsirkan dengan cara yang tepat? "Interpretasi yang tepat" dari tugas penilaian tidak berarti bahwa semua orang memiliki interpretasi yang identik: Mungkin ada beberapa cara yang tepat untuk menafsirkan tugas yang sama. Penilaian kelas yang baik akan memungkinkan untuk mengevaluasi keanekaragaman pemikiran siswa. Anda mungkin ingin mewawancarai beberapa siswa untuk memahami bagaimana mereka menafsirkan tugas Anda tetapkan. Anda juga harus memeriksa apakah semua siswa memahami arah penilaian dan aturan skoring. Jika siswa tidak mengerti arah Anda, mereka mungkin merespon secara tidak tepat bukan karena kesalahan mereka sendiri. Jika ini terjadi, Hasil penilaian tidak akan berlaku untuk tujuan grading.14. Apakah saya memodifikasi kata-kata atau bentuk tugas penilaian untuk mengakomodasi siswa cacat atau berkebutuhan khusus? Penafsiran dasar Anda ingin membuat adalah apakah siswa telah menangkap tujuan pembelajaran. Jika cara penilaian menghambat kemampuan siswa untuk mengkomunikasikan pemahaman, maka hasil penilaian kurang valid. 15. Apakah gambar, cerita, pernyataan verbal, atau aspek lain dari penilaian prosedur mengabadikan stereotip rasial, etnis, atau gender? Penilaian tidak harus bebas dari setiap referensi untuk ras, etnis, atau jenis kelamin. sebaliknya, menghilangkan stereotip dan keseimbangan referensi antara berbagai kelompok untuk mewakili keragaman masyarakat dan pandangan.16. Apakah penilaian relatif mudah dan tidak terlalu rumit untuk digunakan mengevaluasi siswa? Ada kesenjangan antara bagaimana mudahnya untuk membuat tugas penilaian dan betapa mudahnya untuk mendapatkan peringkat kualitas atau nilai. Hal ini mudah untuk mengembangkan pertanyaan esai, daripada mengembangkan tugas kinerja pemecahan masalah kompleks atau soal pilihan ganda. Namun setelah dikembangkan, item pilihan ganda lebih mudah untuk mendapatkan skor dan digunakan kembali untuk kelas tahun berikutnya.17. Apakah waktu yang dibutuhkan untuk penilaian menjadi lebih baik dihabiskan langsung dengan mengajar siswa? Penilaian terbaik diseimbangkan dengan waktu yang digunakan. Beberapa prosedur, seperti wawancara dan observasi individu kinerja siswa, membutuhkan waktu yang lama untuk menyelesaikan. Sementara mewawancarai atau mengamati satu siswa, perlu memperhatikan siswa lain dalam kelas yang terlibat dalam pembelajaran. Tes kelompok, pada sisi lain, lebih efisien karena pengelolaan untuk semua siswa dapat dilakukan pada waktu yang sama.18. Apakah penilaian merupakan penggunaan waktu terbaik? Tes esai, makalah, proyek, dan karya tulis panjang umumnya memerlukan banyak waktu untuk menyelesaikan dan banyak waktu untuk mengevaluasi. Bila menggunakan prosedur ini, harus diputuskan penggunaan waktu. Tapi ingat, waktu penilaian dan waktu siswa belajar tidak perlu terpisah. Sebagai contoh, evaluasi makalah atau proyek dalam sebuah konferensi siswa. Kegiatan memberikan siswa kesempatan untuk memahami kualitas pekerjaannya, mengajukan pertanyaan, mengklarifikasi, berkontribusi pada evaluasi itu sendiri, dan meningkatkan pencapaian pembelajaran. Hal ini tidak mungkin dengan pengujian pilihan ganda, yang biasanya hanya menghasilkan satu skor.Beberapa Penggunaan Penilaian19. Apakah menggunakan salah satu hasil penilaian berhubungan dengan hasil penilaian lainnya? Tidak ada satu teknik penilaian akan menghasilkan hasil yang sempurna. Strategi menggabungkan penilaian beberapa hasil dari beberapa jenis penilaian (seperti PR, kinerja kelas, kuis, proyek, dan tes) untuk meningkatkan validitas.Konsekuensi positif untuk Belajar20. Apakah penilaian menghasilkan informasi penting yang membantu siswa belajar? Konsekuensi positif yang besar dimaksudkan kelas pengkajian adalah kelas belajar. Jika ini bukan hasil, penilaian Anda tidak berfungsi dengan valid.21. Apakah penilaian saya tidak menghasilkan konsekuensi negatif? Salah satu contoh adalah ujian siswa yang hasilnya menarik kesimpulan yang tidak akurat tentang pengetahuan dan keterampilan dalam tertentu domain, seperti ketika tes aljabar sekolah menengah disimpulkan bahwa pengetahuan aljabar adalah aplikasi hafalan rumus.

VALIDITAS PENILAIAN SKALA BESAR Penilaian skala besar eksternal, penilaian kelas secara luas yang meliputi kabupaten, dan ujian nasional, standar pencapaian dan tes bakat, penilaian sikap, dan individual diberikan tes kecerdasan. Dalam bagian ini kita membahas jenis bukti yang diperlukan untuk mendukung interpretasi yang valid. Memahami jenis-jenis bukti validitas akan membantu untuk menemukan informasi yang tepat untuk mengevaluasi dan pemilihan instrumen penilaian.Bukti yang digunakan untuk menilai ValiditasSedikitnya delapan jenis bukti validitas perlu dipertimbangkan sebelum Anda mengambil keputusan tentang validitas hasil penilaian untuk interpretasi tertentu. Jenis-jenis bukti tidak membawa bobot yang sama, namun, karena hasil penilaian ditafsirkan dan digunakan secara berbeda diperlukan penekanan yang berbeda pada berbagai jenis bukti.Gambar 3.2 merangkum delapan jenis bukti bahwa teori validitas (Cronbach, 1988, 19 89; Kane, 2006; Linn, Baker, & Dunbar, 1991; Messick, Iglga, 1989) penting diidentifikasi. Selain itu, gambar daftar pertanyaan khas masing-masing jenis bukti dan prosedur khusus yang digunakan untuk mengumpulkan bukti.Anda akan melihat kesamaan antara beberapa jenis bukti dan pertanyaan pada Gambar 3.2 dan materi yang disajikan dalam bagian sebelumnya pada memvalidasi penilaian guru. semua validasi bukti mendukung interpretasi yang dimaksudkan atau digunakan. Tujuan untuk menggunakan penilaian eksternal biasanya berbeda dari penilaian kelas. Oleh karena itu, penekanan dan ''campuran dari bukti yang digunakan untuk menilai validitas berbeda juga.Sebelum kita membahas rincian jenis bukti, Anda harus perhatikan hal berikut:1. Pentingnya perubahan setiap jenis bukti sebagai interpretasi dan perubahan penggunaan hasil penilaian. Semua jenis bukti pada Gambar 3.2 berlaku untuk hampir setiap jenis prosedur penilaian. Namun berbeda interpretasi dan penggunaan prosedur hasil penilaian membutuhkan beberapa jenis bukti lebih kuat daripada yang lain. Sebagai contoh, SAT Reasoning Test ini dimaksudkan untuk memprediksi nilai rata-rata tahun pertama kuliah. Dengan demikian, universitas atau perguruan tinggi harus berbobot lebih berat tes, s prediktif kekuatan dan potensinya untuk konsekuensi negatif, seperti mengurangi jumlah laki-laki itu memilih, daripada bukti bahwa tes sesuai tujuan kurikulum dan konten yang harus berat kurang.2. Memberikan bukti tanggung jawab dari kedua penerbit dan pengguna. Penerbit dan lembaga yang menghasilkan penilaian lainnya bertanggung jawab untuk menyediakan data yang mendukung keandalan, validitas, dan aspek teknis lainnya dari hasil penilaian. Tanggung jawab ini dijelaskan dalam Standar untuk Pendidikan dan Psychological Testing (Asosiasi Riset Pendidikan Amerika, Amerika Psikologis Associatiory & Dewan Nasional Pendidikan, 1999). 3. Anda harus selalu memperhatikan validitas hasil penilaian bahkan jika Anda tidak mampu untuk melakukan penelitian validitas. Pendidik pada tingkat yang berbeda memiliki jumlah sumber daya dan kesempatan yang berbeda dari untuk mengumpulkan bukti tentang validitas hasil. Guru memiliki peluang dan sumber daya paling sedikit; administrator sekolah tingkat kabupaten dan tingkat nasional memiliki peluang lebih. Fakta ini tidak membiarkan guru dengan sumber daya yang lebih sedikit untuk tidak memvalidasi interpretasi hasil penilaian yang digunakan. Ada kewajiban profesional untuk mengangkat isu-isu tentang validitas penilaian yang digunakan dan untuk membantu dalam membangun validitas mereka.VALIDITAS DIDUKUNG OLEH BUKTIAhli pengukuran merekomendasikan bahwa validitas digunakan sebagai konsep kesatuan (Amerika Educational Research Association). Buku ini mengikuti rekomendasi tersebut, dengan demikian, Anda harus berpikir jenis bukti yang mendukung validitas penilaian.

46

Jenis buktiContoh pertanyaan yang harus dijawabTeknik yang sering digunakan untuk memperoleh jawaban

1. konten keterwakilan dan relevansi (disebut konten bukti)

a. Seberapa baik melakukan penilaian mewakili domain penting konten?b. Seberapa baik tugas-tugas penilaian mewakili standar kurikulum?c. Seberapa baik tugas-tugas penilaian mencerminkan berpikir tentang apa yang harus diajarkan dan dinilai ?d. Apakah tugas penilaian layak untuk dipelajari?Memperoleh deskripsi curiculum dan konten yang harus dipelajari. Periksa setiap tugas penilaian untuk melihat apakah sesuai dengan konten pokokdan hasil belajar. Beri setiap tugas penilaian untuk relevansinya, akurasi, dan kebermaknaan. Prosedur penilaian dipandang secara keseluruhan, tentang keterwakilan penilaian yang dibuat dan relevansi seluruh koleksi tugas.

2. Jenis keterampilan berpikir dan keterampilanproses diperlukan (bukti substantif)

a. Berapa banyak melakukan penilaian menuntut siswa untuk menggunakan keterampilan berpikir dan keterampilan proses?b. Seberapa baik tugas penilaian mewakili jenis keterampilan berpikir dalam hasil kurikulum dan standar negara?c. Apakah siswa benar-benar menggunakan kemampuan berpikir yang dimaksudkan dan proses untuk menyelesaikan prosedur penilaian?

Menganalisis prosedur penilaian untuk mengungkapkan jenis kemampuan berpikir yang dibutuhkan untuk melakukan tugas-tugas dengan sukses. Menentukan hubungan antara strategi diajarkan untuk digunakan selama pengkajian. Siswa diminta untuk "berpikir keras " saat melakukan tugas-tugas penilaian dan protokol yang dihasilkan dianalisis untuk mengetahui kemampuan berpikir siswa. Prosedur penilaian secara keseluruhan untuk memutuskan apa yang diinginkan, keterwakilan, dan keterampilan berpikir relevan dan proses yang sedang dinilai.

3. Hubungan antara penilaian tugas atau bagian penilaian (disebut bukti struktur lnternal)

a. Apakah semua penilaian tugas kerja sama sehingga setiap tugas memberikan kontribusi positif terhadap penilaian kualitas pembelajaran?b. Jika bagian yang berbeda dari prosedur penilaian yang seharusnya memberikan keterangan yang unik, lakukan hasil yang mendukung keunikan ini?c. Jika bagian yang berbeda dari prosedur penilaian yang seharusnya memberikan informasi yang sama atau serupa, lakukan hasil mendukung ini?d. Apakah tanggapan siswa konsisten dengan konstruksi dan teori penilaian yang dilakukan?

a. Mengevaluasi korelasi skor tugas dengan skor total dari penilaian untuk memutuskan apakah semua tugas memberikan kontribusi positif.b. Skor setiap bagian dari penilaian secara terpisah berkorelasi dan mengevaluasi apakah pola hubungan adalah sebagaimana dimaksud.c. Menggunakan logika, pengetahuan substantif, dan pengalaman untuk menghasilkan penjelasan untuk penilaian kinerja tinggi dan rendah termasuk hipotesis konsisten dengan interpretasi yang dimaksudkan.d. Melakukan penelitian empiris, eksperimental dan korelasional untuk mendukung atau menyangkal hipotesis yang dihasilkan

4. Hubungan variabel penilaian hasil pada hasil lain (Bukti struktur eksternal)

a. Adalah hasil dari penilaian konsisten dengan hasil penilaian lainnya yang sama dengan siswa ini? seberapa baik kinerja prosedur penilaian ini mencerminkan kualitas atau sifat yang diukur dengan tes lain?b. Seberapa baik kinerja pada prosedur penilaian memprediksi kinerja tugas sekarang atau masa depan lainnya dibuatkan kriteria?c. Seberapa baik hasil penilaian dapat digunakan untuk memilih orang untuk pekerjaan, sekolah dll? Seberapa besar tingkat kesalahannya?d. Seberapa baik hasil penilaian dapat digunakan untuk menetapkan siswa untuk berbagai jenis instruksi? apakah siswa belajar lebih baik ketika ditugaskan cara ini?a. Tugas kriteria ldentify. Menganalisis karakteristik penting mereka.b. Bandingkan skor dari penilaian untuk nilai pada kriteria ukuran (s) untuk diprediksi.c. Menganalisis berbagai klasifikasi dan kesalahan prediksi.d. Mengevaluasi apakah hasil dari penilaiannya menyatu dengan atau menyimpang dari hasil dari penilaian lain dengan cara yang diharapkan ketika penafsiran yang diusulkan dari kinerja siswa digunakan (disebut konvergen dan bukti diskriminan).

5. Reliabilitas penilaian dan domain konten (bukti reliabilitas)

a. Apakah siswa yang sama memperoleh hasil yang hampir sama jika prosedur penugasan diterapkan pada waktu lain? Berapa tingkat kesalahannya?b. Jiks diberikan kepada siswa yang berbeda apakah memperoleh penilaian yang hampir sama? Berapa tingkat kesalahannya?c. Jika suatu bentuk alternatif kedua prosedur kajian yang dikembangkan dengan isi yang serupa, apakah hasil siswa sangat mirip? Bagaimana tingkat kesalahannya?Melakukan penelitian berfokus pada konsistensi (reliabilitas) dari hasil penilaian.

6. Generalisasi interpretasi lebih dari berbagai jenis orang, dalam kondisi yang berbeda, atau dengan instruksi khusus (bukti generalisasi)

a. Apakah prosedur penilaian memberikan hasil yang berbeda bila digunakan dengan siswa yang berbeda latar belakang sosial ekonomi dan etnis, tapi memiliki kemampuan yang sama? apakah ini wajar atau tidak?b. Prosedur penilaian akan menghasilkan perubahan jika diubah drastis dengan diberikan insentif khusus? jika demikian, bagaimana perubahan hasil penilaian ini diinterpretasikan? c. Akan instruksi khusus, perubahan instruksi, atau pembinaan khusus secara signifikan setelah hasil siswa memperoleh hasil, pada penilaian seperti itu, bagaimana seharusnya perubahan penilaian hasil diinterpretasikan?a. Gunakan logika, pengetahuan substantif, dan pengalaman penjelasan (hipotesis) tentang bagaimana penafsiran hasil penilaian dapat berubah bila prosedur diterapkan untuk berbagai jenis orang, dalam kondisi yang berbeda, atau dengan instruksi khusus.b. Melakukan penelitian empiris, baik eksperimental dan korelasional, untuk dukungan membantah hipotesis yang dihasilkan di atas

7. Nilai yang dimaksud dan atau konsekuensi yang tidak diinginkan (bukti konsekuensial)

a. Apa yang kita harapkan terjadi pada siswa jika kita menafsirkan dan menggunakan hasil penilaian dalam cara tertentu? konsekuensi apa yang diharapkan terjadi, dan bagus?b. Apa efek samping kita mengantisipasi bagi siswa jika kita menginterpretasikan dan menggunakan hasil penilaian dengan cara tertentu? mengapa diantisipasi efek samping yang terjadi positif atau negatif?c. Apa efek samping negatif tak teruga yang terjadi bagi siswa, untuk siapa kita menafsirkan dan menggunakan hasil kajian dengan cara tertentu? Dapatkah efek samping negatif dihindari dalam menggunakan prosedur penilaianteknik lain atau dengan mengubah penafsiran kita?a. Melakukan penelitian untuk menggambarkan hasil yang diharapkan dari penggunaan prosedur penilaian yang diberikan dan menentukan sejauh mana hasil yang diperoleh untuk semua siswa.b. Melakukan penelitian untuk menentukan apakah diantisipasi atau tidak sisi efek terduga yang telah mengakibatkan penafsiran dan penggunaan prosedur penilaian yang diberikan dengan cara tertentu.

8. Biaya, efisiensi, kepraktisan, fitur instruksional (bukti kepraktisan)

a. Dapatkah prosedur penilaian mengakomodasi jumlah siswa yang sejenis?b. Apakah prosedur penilaian yang mudah bagi guru untuk digunakan?c. Dapatkah prosedur penilaian memberikan hasil yang tepat waktu untuk membimbing instruksi?d. Apakah hasil penilaian bermakna menjelaskan perbedaan individu?e. Apakah hasil penilaian mengidentifikasi kesalahpahaman yang perlu dikoreksi?f. Apakah prosedur penilaian alternatif lebih effisien?Analisis logis, analisis biaya, ulasan oleh guru, dan data uji coba lapangan digunakan untuk mengambil keputusan tentang faktor-faktor biaya, efisiensi,kepraktisan, dan kegunaan fitur instruksional.

Pendekatan Berbasis Validasi Argumen Karrc (1992, 2001, 2002, 2006) menunjukkan pengorganisasian jawaban atas pertanyaan-pertanyaan dalam bentuk argumen yang persuasif. Penggunaan gabungan logika dan data yang meyakinkan orang lain bahwa interpretasi dan penggunaan hasil penilaian adalah valid. Pendekatan untuk validitas mengharuskan untuk (a) menyatakan dengan jelas tujuan membuat interpretasi hasil penilaian, (b) Sajikan secara logis argumen yang koheren untuk mendukung hasil penilaian dapat ditafsirkan dan digunakan sesuai dengan keinginan, dan (c) Dukung logika argumentasi anda dengan menyebutkan bukti terhadap interpretasi yang dimaksudkan. pendekatan ini disebut pendekatan berbasis validasi argumen (Kane, 1992). Shepard (1993) menyarankan untuk berpikir dengan pertanyaan berikut:1. apakah praktek penilaian yang harus dilakukan? Praktek penilaian berarti cara Anda untuk menafsirkan dan menggunakan hasil penilaian dalam situasi tertentu.2. apa bukti yang mendukung atau membantah klaim saya bahwa praktek penilaian saya mencapai apa yang diinginkan?3. ketika saya menggunakan praktek penilaian dalam bidang pendidikan, apa fungsinya, 'baik atau buruk, selain apa yang saya klaim?Bukti untuk mendukung argumen validitas dan membantah potensi argumen kontra datang dari berbagai kategori yang dijelaskan pada Gambar 3.2. Jenis bukti dalam argumen tergantung pada praktek penilaian yang akan divalidasi. Kane (l992) memberikan berikut Contoh: Misalkan ingin validasi menggunakan tes penempatan aljabar untuk menetapkan siswa yang baik untuk kursus aljabar atau kursus kalkulus. Untuk memvalidasi praktik penilaian ini, Kane menyatakan bahwa Anda perlu argumen yang didukung oleh bukti berikut:1. Anda dapat menilai dengan tepat keberhasilan siswa dalam belajar kalkulus (yaitu, kriteria yang cocok dengan prosedur penilaian yang ada).2. Anda dapat mengidentifikasi konsep aljabar dan keterampilan berpikir siswa yang sering digunakan dalam kalkulus.3. Isi aljabar dan keterampilan berpikir dinilai dengan tes penempatan sesuai dengan yang sering digunakan dalam kalkulus.4. Kursus perbaikan siswa yang skornya rendah akan berhasil dalam mengajarkan siswa konsep aljabar dan keterampilan yang diperlukan dalam kalkulus.5. Skor tes penempatan dapat diandalkan (yaitu, skor siswa yang konsisten di berbagai sampel item tes, Cara pengujian yang berbeda, dan orang berbeda yang melakukan tes).6. Hal ini tidak akan membantu siswa dengan kemampuan tinggi dalam aljabar untuk mengambil kursus aljabar remedial (yaitu, siswa yang mendapat skor tinggi pada tes penempatan tidak akan secara signifikan meningkatkan peluang keberhasilan dalam kalkulus dengan terlebih dahulu mengambil kursus aljabar perbaikan).7. Nilai tes penempatan tidak terpengaruh oleh sistematika kesalahan yang akan menurunkan validitas penafsiran tes penempatan pengetahuan aljabar dan kemampuan berpikir.

Konten Keterwakilan dan Relevansi:Bukti keterwakilan konten dan relevansi berlaku untuk segala macam penilaian: tes prestasi, tes bakat, tes kepribadian, observasi kinerja guru-siswa, penilaian kinerja, dan sebagainya. Bagian ini berfokus terutama pada tes prestasi skala besar.Definisi ranah seperti ditunjukkan dalam Gambar 3.2, jenis bukti berasal dari menilai konten tugas atau item instrumen. Bukti konten keterwakilan penilaian datang dari penilaian informasi yang berfokus pada tugas penilaian adalah perwakilan sampel dari ranah yang lebih besar. Penilaian hanyalah sebuah contoh dari item yang bisa disampaikan kepada siswa. Karena mungkin kita tidak bisa hadir dalam setiap tugas untuk siswa, kita harus mengambil sampel dari ranah sedemikian rupa sehingga sampel cukup mewakili domain. Bukti konten relevansi penilaian berasal dari penilaian yang fokus pada berapa banyak definisi domain pengguna tes.Satu pertanyaan yang muncul adalah apakah definisi domain sesuai: penilaian pengembangan atau penilaian penggunaan? Misalnya Tes Membaca ABC, mungkin menekankan kosakata dan membaca kalimat tetapi tidak mungkin terpisah mengukur keterampilan membaca kata atau kosa kata. Petugas sekolah memilih tes membaca dapat melihat kedua hal tersebut relevan dengan definisi domain membaca. Apabila pengembang tes dan pengguna tes tidak setuju pada definisi domain maka penilaian tidak dimasukkan. Membuat penilaian tersendiri tentang bagaimana baik tugas-tugas pada penilaian mewakili (a) domain pengembang dan (b) pengguna akan mengklarifikasi apakah domain bukti mendukung tujuan penggunaan prosedur penilaian sekolah (Nitko, Al-Sarimi "Amedahe, Wang, & Wingert, 1998).Tabel Spesifikasi Seorang pengembang tes mendefinisikan domain dalam manual atau teknis publikasi. Dalam manual alat untuk mendefinisikan domain standar Survei tes prestasi adalah tabel spesifikasi. Tabel ini berisi konten utama kategori dan keterampilan yang dinilai. Tabel ini menggambarkan persentase tugas (item) untuk setiap kombinasi konten-keterampilan. Persentase tugas per kombinasi adalah ukuran kombinasi kontribusi terhadap total siswa. Bab 6 dan Lampiran G menunjukkan contoh tabel spesifikasi.

Relevansi Kurikuler dan Domain Konten Sebuah metode penilaian yang relevan dengan definisi sekolah dari domain pencapaian sejauh cocok dengan target pembelajaran kurikulum sekolah. Bukti relevansi penilaian kurikuler ini berasal dari penilaian tentang derajat tumpang tindih antara kurikulum dan item yang terkandung dalam instrumen penilaian. Gambar 3.3 dapat membantu memperjelas perbedaan antara pencocokan penilaian untuk pengembang domain prestasi dan relevansi penilaian kurikuler. Definisi pengembang dari prestasi dan sampel tugas yang terdiri dari penilaian tertentu ditunjukkan di pusat angka. Penilaian ini cocok dengan pengembang domain jika tugas cukup mewakili definisi pengembang.

GAMBAR 3.3 Sebuah ilustrasi skematik dari hubungan antara instrumen penilaian, pengembang ranah konten, dan domain kurikulum khusus dari dua sekolah. Sebuah penilaian yang cocok untuk pengembang domain mungkin relevansi kurikuler kurang untuk beberapa sekolah. Relevansi kurikuler didasarkan pada seberapa baik tugas-tugas pada instrumen tersebut merupakan kerangka kurikulum sekolah. Seperti terlihat pada gambar, penilaian kurikulum Sekolah A memiliki relevansi lebih daripada untuk Sekolah B. Kerangka kurikulum sekolah A biasanya jauh lebih luas dan lebih kaya daripada instrumen penilaian kelas. Dengan demikian, meskipun instrumen penilaian memiliki relevansi lebih kurikuler untuk Sekolah A daripada untuk Sekolah B, tingkat relevansi masih tidak cukup bagi sekolah untuk menggunakan instrumen.Relevansi Kurikuler lebih dari proporsi sederhana dari konten yang cocok dengan kurikulum. Instrumen harus ditinjau secara keseluruhan untuk menilai apakah bidang isi yang berbeda menerima penekanan sesuai dengan target pembelajaran kurikulum lokal. Tugas individu pada penilaian juga harus (a) mencerminkan pemikiran ahli subjek-materi tentang apa yang penting bagi mengajar dan menilai, (b) secara akurat menggambarkan subjek materi, (c) akan menulis dengan benar, dan (d) mengandung konten yang bermakna. Selain itu, tugas penilaian individu harus dibangun dengan baik sehingga siswa benar-benar melakukan domain dimaksud.Penyelarasan Standar Negara dan Akuntabilitas Tes Salah satu isu penting bagi negara-negara dan sekolah adalah keselarasan dari penilaian yang digunakan untuk akuntabilitas dan standar pendidikan yang ditetapkan. The NCLB Act mewajibkan negara untuk memberikan bukti bahwa penilaian pendidikan digunakan untuk laporan kepada pemerintah federal selaras dengan standar negara. Akibatnya negara sering membuat kontrak dengan organisasi untuk melakukan penyelarasan studi. Studi penjajaran adalah studi empiris melibatkan pengumpulan penilaian dari penilai terlatih dan ringkasan dari jawaban siswa untuk menguji item yang memiliki tujuan menjelaskan dengan cara yang paling obyektif, sejauh mana item tes yang sebenarnya pada instrumen penilaian suatu negara sejalan dengan konten pendidikan dan standar kinerja yang ditetapkan oleh negara itu. studi-studi ini memberikan bukti yang jatuh ke dalam konten dan kategori substantif Gambar 3.2.Minimal studi tersebut harus menyediakan informasi tentang seberapa baik penilaian negara sesuai dengan:a. Isi, ide, dan detail yang ditentukan oleh standar negara. b. Kedalaman pemahaman, kompleksitas kognitif, dan kemampuan untuk menerapkan pengetahuan yang dijelaskan dalam standar negara. c. Penekanan topik yang berbeda dan proses kognitif yang tercermin dalam standar negara. d. Pertunjukan yang diharapkan dari siswa seperti ini dijelaskan oleh standar negara. e. Penerapan tersirat dari standar negara untuk semua siswa. (La Marca, Redfield, Musim Dingin, Bailey, & Despriet 2000)Studi keselarasan sering mempertimbangkan penilaian negara beberapa tahun bukan hanya satu pengujian tahun. Hal ini karena, seperti telah kami nyatakan sebelumnya, satu tes hanyalah contoh yang mungkin domain item yang dapat disajikan kepada siswa. Keselarasan selama beberapa tahun kadang-kadang kriteria yang lebih tepat.

Kemampuan Berpikir dan Proses: Bukti substantifSebuah penilaian harus dinilai tidak hanya dari segi konten tetapi juga dalam hal proses berpikir dan keterampilan siswa yang harus digunakan untuk menyelesaikan tugas dengan baik. Adapun penilaian kelas, penilaian prestasi skala besar harus mensyaratkan siswa untuk menggunakan proses pemikiran dan keterampilan seperti yang didefinisikan oleh kerangka kurikulum, standar negara, dan oleh para ahli materi pelajaran. Penaksiran instrumen kadang-kadang bertanya apakah siswa menggunakan kombinasi keterampilan dan pengetahuan bersama-sama untuk bekerja pada aplikasi "kehidupan nyata".Untuk memvalidasi klaim bahwa tugas-tugas mengharuskan siswa untuk menggunakan proses berpikir tingkat tinggi dan keterampilan proses, pengembang penilaian harus menyediakan data basis siswa untuk mendukung klaim yang mencakup (a) penjelasan rinci dari proses dan kemampuan yang dinilai, (b) demonstrasi yang jelas tentang bagaimana masing-masing jenis tugas atau penilaian menilai keterampilan proses, dan (c) bukti dari penelitian yang menunjukkan bahwa siswa menggunakan keterampilan berpikir dan keterampilan proses yang dimaksud. Yang terakhir ini mungkin mengambil bentuk kecil studi yang dilakukan di laboratorium kognitif. Siswa diminta untuk "berpikir keras" saat mereka bekerja melalui tugas pada instrumen. Pemikiran mereka diatur menjadi "protokol" dan dianalisa untuk mengungkapkan jenis strategi berpikir siswa (Ericsson & Simon, 1999). Zucket Sassman, dan Kasus (2004) memberikan contoh bagaimana satu tes penerbit menggunakan pendekatan laboratorium kognitif untuk mengembangkan dan memvalidasi standar tes.Penelitian juga harus menunjukkan bahwa siswa tidak menggunakan proses yang tidak cocok untuk memecahkan tugas. Misalnya, matematika pilihan ganda pengembang tes menyatakan akan menilai siswa kemampuan pemecahan masalah tingkat tinggi. Pengembang harus menyediakan bukti bahwa siswa menggunakan kemampuan tingkat tinggi dimaksudkan dan tidak hanya ingat.

Hubungan antara Bagian Penilaian: Bukti Struktur InternalInstrumen penilaian tidak boleh hanya kumpulan tugas penilaian atau pertanyaan tes. Masing-masing tugas dalam prosedur harus memberikan kontribusi positif terhadap keseluruhan hasil. Struktur internal dari instrumen penilaian dijelaskan oleh hubungan timbal balik antar tugas dan hubungan antara tugas dan hasil total. Struktur internal dan struktur eksternal prosedur penilaian penting dalam menafsirkan hasil penilaian sebagai indikator seseorang pada pendidikan atau membangun psikologis. Misalnya, tes unidimensional yang menilai hanya satu kemampuan siswa, seperti pemecahan masalah aritmatika. Untuk memastikan bahwa Anda yang benar-benar menafsirkan hasil penilaian sebagai hanya berukuran kemampuan siswa, Anda harus menemukan bukti yang mendukung klaim ini. Pengembang harus memberikan bukti bahwa setiap tugas penilaian membedakan kemapuan siswa dalam satu dimensi saja (pemecahan masalah aritmatika). Seringkali tugas penilaian mengukur lebih dari satu dimensi. Sebagai contoh, pemecahan masalah aritmatika mungkin sangat tergantung pada keterampilan membaca, pengetahuan kosakata, kecepatan komputasi, dan kecepatan umum kerja, serta pemecahan masalah aritmatika. Dalam hal ini, mungkin tidak valid menafsirkan hasil yang mencerminkan hanya kemampuan pemecahan masalah aritmatika siswa. Di sisi lain, beberapa instrumen penilaian sengaja dibuat untuk menilai dua atau lebih dimensi. Sebagai contoh, beberapa tes bakat skolastik menyediakan ukuran kemampuan verbal, kemampuan numerik, dan kemampuan nonverbal. Jika demikian, maka panduan teknis harus berisi bukti bahwa nilai tes verbal, numerik, dan nonverbal memiliki makna yang berbeda. Bukti dari penelitian harus menunjukkan bahwa, meskipun skor siswa pada tiga bagian dari tes mungkin cukup terkait (karena merupakan aspek keseluruhan bakat skolastik), dapat diartikan sebagai tiga aspek yang berbeda dari bakat skolastik.Pengembang tes sering menggunakan koefisien korelasi sebagai bukti untuk mendukung keabsahan jenis interpretasi. Koefisien ini mengukur derajat hubungan antara dua atau lebih skor penilaian.

Hubungan Hasil untuk Variabel lain: Bukti Struktur eksternalBukti tentang validitas penafsiran penilaian dan penggunaan juga berasal dari seberapa baik hasil penilaian berkorelasi dengan variabel lain atau kriteria. Sebagai contoh, SAT Reasoning Test kedua langkah verbal dan kemampuan matematika. Validitasnya tergantung sebagian pada struktur- internal apakah item verbal dalam ukuran sebenarnya kemampuan verbal, materi matematika mengukur kemampuan matematika, dan skor pada dua bagian tes bermakna berbeda. Bagaimanapun pentingnya penggunaan SAT Reasoning Test adalah untuk memberikan informasi yang membantu petugas penerimaan dalam memilih calon mahasiswa dalam perguruan tinggi. Sebagian bukti validitas penting harus datang dari penelitian yang menetapkan korelasi dari skor SAT Reasoning Test dengan variabel eksternal, yaitu nilai di perguruan tinggi. Struktur eksternal penilaian adalah pola hubungan antara hasil penilaian (skor) dan skor dari variabel eksternal untuk penilaian.Bukti spesifik yang dibutuhkan tergantung pada bagaimana ingin menafsirkan dan menggunakan hasil penilaian. Jika ingin menggunakan hasil penilaian untuk membantu memilih kandidat calon mahasiswa, misalnya, maka harus ditetapkan bahwa hasil penilaian berkorelasi positif dengan kriteria keberhasilan perguruan tinggi seperti nilai rata-rata. Kadang-kadang kita ingin memvalidasi bahwa penilaian baru mengukur kemampuan sama sebagai salah satu yang sudah ada. Sebagai contoh, kita ingin memvalidasi bahwa pilihan ganda dan penilaian lisan dapat mengukur dengan baik kemampuan memahami bacaan. Jika mereka berdua mengukur kemampuan yang sama, diharapkan skor menjadi positif. Siswa dengan skor tinggi pada satu kemampuan juga harus memiliki skor tinggi di sisi lain. Jika skor pada dua penilaian berbeda secara signifikan, ada kemungkinan bahwa tes mengukur kemampuan yang berbeda. Penelitian tambahan akan diperlukan untuk menetapkan skor langkah-langkah pemahaman bacaan. Seorang peneliti menghasilkan hipotesis dan kontra hipotesis tentang hubungan hasil penilaian dengan kriteria eksternal hasil analisis logis, pengalaman sebelumnya penelitian, dan teori tentang ciri atau sifat yang dinilai.Perhatikan dari kedua contoh bahwa beberapa bukti membantu memprediksi kinerja di masa depan (seperti sukses di perguruan tinggi), dan beberapa bukti perkiraan pada variabel status individu. Prediksi validitas bukti mengacu pada sejauh mana kriteria individu bekerja di masa depan dapat diprediksi dari kinerja mereka pada instrumen penilaian. Sebagai contoh, kita bisa mengumpulkan nilai rata-rata siswa sekolah, tunggu sampai mereka menyelesaikan satu tahun kuliah, mengumpulkan nilai rata-rata perguruan tinggi, dan korelasi dengan nilai SMA siswa. Prediksi dari waktu ke waktu adalah tujuan. Bukti validitas konkuren mengacu pada sejauh mana status individu pada kriteria dapat diperkirakan dari kinerja mereka saat ini pada instrumen penilaian. Sebagai contoh, siswa belajar sudah di perguruan tinggi, memberi mereka khusus tes bakat, dan mengumpulkan kelas mereka nilai rata-rata saat ini. Hubungan antara nilai dan bukti validitas tes konkuren karena dua langkah dikumpulkan pada waktu yang sama. Perbedaan ini penting karena interval waktu antara pemberian instrumen penilaian dan mendapatkan kriteria hasil mempengaruhi kekuatan hubungan antara dua hasil: Biasanya semakin lama interval waktu antara dua hasil, semakin rendah korelasi antara mereka.

Koefisien korelasiKoefisien korelasi merupakan indeks statistik yang mengkuantifikasi tingkat hubungan antar skor dari satu penilaian dan nilai dari lain. Indeks ini dilaporkan pada skala -1 sampai +1. (Bagian ini berfokus pada konsep. Perhitungan yang diilustrasikan dalam Lampiran I.)Skor siswa pada tes yang berbeda. Contoh yang menunjukkan hubungan antara skor dari beberapa tes akan membantu menjelaskan korelasi. Contoh pada Gambar 3.4 menunjukkan nilai dari 11 siswa pada masing-masing tes. Para siswa telah diatur dalam urutan menurun menurut mereka skor bakat verbal (l). Hubungan antara skor verbal dan aritmatika (A) kurang kuat: Urutan siswa pada tes ini tidak sama seperti pada tes verbal dan membaca.

Gambar 3.4 Hypolhetical skor untuk 11 murid pada bakat lisan menguji bacaantes, dan tes aritmatika. Sumber: Diadaptasi dari Mengukur Prestasi dan Bakat Siswa, C. M. Lindvall dan A. J. Nitko. 2nd ed. New York: Harcourt Brace Jovanovich, @ 1975 oleh C. M. Lindvall A. J. Nitko Membandingkan ranking korespondensi siswa lebih jelas ketika kita mengubah masing-masing skor untuk peringkat, seperti dalam tiga kolom terakhir dari contoh pada Gambar 3.4. Jajaran siswa pada bakat verbal dan membaca, meskipun tidak identik dalam setiap kasus, yang cukup dekat. Jajaran siswa pada bakat verbal dan berkorespondensi aritmatika kurang erat. Ada pergeseran di jajaran siswa dari bakat verbal untuk aritmatika daripada ada dari bakat verbal membaca. Membandingkan ranking siswa pada dua penilaian adalah salah satu cara mempelajari bagaimana berkorelasi hasilnya.Cara lain untuk mempelajari korelasi antara skor dari penilaian adalah grafik diagram pencar (scattergram). Diagram scatter adalah grafik di mana skor dipasangkan diplot. Contoh pada Gambar 3.5 menunjukkan plot ini untuk V vs R dan V vs A. Grafik menunjukkan hubungan antara skor dipasangkan untuk seluruh orang kelompok 11 siswa.Anda dapat memperoleh wawasan yang cukup tentang bagaimana skor pada dua penilaian terkait dengan membuat diagram pencar. Gambar 3.5 (A), plot sepanjang garis hampir lurus dari kiri bawah grafik ke kanan atas. Dalam Gambar 3.5 (B), plot tidak dekat dengan garis lurus. Namun, ada kecenderungan dalam grafik dari kiri bawah grafik ke kanan atas.Visual Koefisien Korelasi Pearson product - moment membandingkan peringkat skor dan merencanakan diagram pencar dua cara kualitatif mempelajari hubungan antara skor. Penilaian yang diterbitkan menggunakan pengukuran kuantitatif korelasi disebut koefisien korelasi Pearson product-moment yang dilambangkan oleh r. Dari sekian banyak jenis korelasi koefisien, r ini paling sering digunakan dalam validitas penelitian. Sebuah koefisien korelasi memiliki rentang kemungkinan dari nilai dari -1,00 sampai 0,00-1,00. Korelasi dari 0.00 berarti bahwa dua set nilai tidak terkait : Skor siswa pada satu penilaian tidak dapat diprediksi dari nilai yang lain

GAMBAR 3.5 Diagram yang menunjukkan skor membaca vs skor kemampuan verbal dan skor kemampuan verbal vs nilai tes aritmatika untuk 11 murid yang ditunjukkan pada Gambar 3.4

Dalam korelasi positif, nilai tinggi pada satu penilaian dikaitkan dengan nilai tinggi yang lain. Dalam korelasi negatif, skor tinggi pada satu penilaian dikaitkan dengan skor rendah lain. hubungan positif sempurna akan memiliki koefisien korelasi 1,00. Hubungan negatif sempurna akan memiliki koefisien korelasi -1,00. Dalam kedua kasus pada satu penilaian sempurna dapat memprediksi skor penilaian lainnya.Jika menerapkan prosedur yang diuraikan dalam Lampiran I akan ditemukan bahwa hubungan antara lisan dan membaca nilai ujian adalah 0.97 dan antara lisan dan skor aritmatika adalah 0.71. Koefisien korelasi ini konsisten dengan Kesan skor dalam diagram pencar. Jumlah 0.97 mencerminkan hubungan positif tinggi (sangat dekat dengan 1.00), sedangkan 0,71 menunjukkan hubungan lemah.Derajat hubungan ini membantu dalam memahami koefisien korelasi untuk menghubungkannya dengan diagram pencar. Gambar 3.6 menunjukkan diagram pencar dan koefisien korelasi yang sesuai untuk skor berpasangan yang memiliki derajat hubungan yang berbeda. Setiap titik mewakili sepasang skor bagi seseorang. Diagram pencar disusun untuk menggambarkan bahwa hubungan positif dan negatif koefisien memiliki nilai mutlak yang sama merupakan derajat hubungan yang dekat.

Korelasi sempurna berarti prediksi sempurna.Korelasi yang sempurna jarang ditemukan dalam bidang penilaian pendidikan dan psikologi. Ada banyak alasan untuk ini, seperti penilaian yang mengandung kesalahan acak pengukuran, satuan pengukuran yang tidak sama, distribusi skor tidak memiliki bentuk identik, dan dua hasil penilaian tidak terkait secara sederhana. Derajat lain dari hubungan yang ditunjukkan dalam Gambar 3.6. B dan R korelasi adalah -0.90dan +0.90, masing-masing. Korelasi sebesar ini menunjukkan bahwa hasil penilaian sangat terkait. Sekali lagi, tingkat hubungan adalah sama dalam B dan F, tapi arah dari hubungan berlawanan. r kedua kasus, poin diplot dalam diagram pencar cenderung jatuh bersama garis lurus, meskipun mereka tidak jatuh tepat pada baris seperti yang mereka lakukan di A dan E. Meskipun prediksi sempurna skor pada satu penilaian dari nilai yang lain tidak mungkin ketika korelasinya -0.90 Atau +0.90, prediksi yang cukup akurat adalah mungkin.Membandingkan B dengan F, dan C dengan G, kita melihat sebagai korelasi antara skor menurun, sebuah pencar lebih besar terjadi jauh dari garis lurus. Dengan korelasi +0,60 atau -0,60, masih mungkin untuk memprediksi skor pengetahuan seseorang pada Y tapi prediksi tersebut telah tobe dibuat dengan margin of error dari dalam kasus ketika r: -0,90 atau r: * 0.90. Di D dan H korelasi adalah 0,30 dan -0,30.Akhirnya, diagram pencar I menggambarkan kurangnya korelasi antara dua set nilai. Seseorang dengan skor tinggi pada Assessment X bisa memiliki skor rendah pada Penilaian Y. Dengan demikian, skor dikatakan tidak berkorelasi, dan r: 0.00. Perhatikan pola melingkar dari menunjuk pada diagram pencar.

Korelasi dan Kausalitas Jika nilai dari dua penilaian berkorelasi, tidak selalu berarti bahwa ciri-ciri yang mendasarinya kausalitas berkaitan. Sebagai contoh, ada sebuah korelasi positif antara ukuran sepatu dan skor pemahaman membaca kelas untuk populasi anak-anak sekolah dasar. Anak-anak dengan kaki yang lebih besar mampu membaca lebih baik: Mereka lebih tua dan memiliki lebih banyak pengalaman membaca. Kaki lebih besar di kelas delapan relatif terhadap kelas pertama dan kedua kelas, menjadi pembaca yang lebih baik. Variabel ketiga, jumlah pengalaman membaca adalah yang paling mungkin "penyebab" dari korelasi antara ukuran sepatu dan skor membaca.

GAMBAR 3.6 Menyebarkan diagram untuk berbeda derajat korelasi.

Koefisien Korelasi dan Ukuran SampelKoefisien korelasi yang dilaporkan dalam studi dari penilaian dan dalam manual tes didasarkan pada skor yang diperoleh dari sampel, bukan pada nilai dari semua orang dalam populasi. Korelasi dihitung dari sampel hanya memperkirakan nilai numerik dari korelasi dalam populasi lengkap. Anda harus memiliki keyakinan kurang dalam nilai-nilai yang tepat dari korelasi dihitung dari sampel kecil daripada korelasi dihitung dari sampel yang lebih besar. Dalam sampel kecil, bahkan satu pasang nilai dapat mempengaruhi nilai numerik koefisien korelasi substansial. Contoh pada Gambar 3.7 menunjukkan korelasi 0,70 di Diagram A turun menjadi 0,60 di Diagram B ketika orang dengan X : 12, Y: 12 digantikan oleh orang lain dengan X : 13, Y : 7, bahkan meskipun semua skor lainnya tetap sama.

Faktor yang Meningkatkan atau Menurunkan Koefisien KorelasiKoefisien korelasi muncul dalam manual tes dan laporan penelitian. Kecenderungan pertama adalah untuk menafsirkan mereka sebagai laporan hubungan yang sebenarnya antara karakteristik instrumen penilaian. Pada kenyataannya, kesamaan karakteristik yang dinilai adalah salah satu faktor yang mempengaruhi besarnya koefisien korelasi yang dilaporkan. Secara umum, korelasi hasil tinggi ketika sifat-sifat (a) yang dinilai sama, (b) reliabilitas nilai pada kedua penilaian tinggi (c) kisaran nilai pada penilaian kedua besar, (d) bentuk distribusi pada dua penilaian sama, dan (e) interval waktu antara pemberian dua penilaian singkat. Gambar 3,8 meringkas faktor-faktor ini dan memberikan contoh masing-masing. Seringkali lebih dari satu faktor-faktor ini beroperasi pada waktu yang sama. Membaca bukti korelasional laporan harus hati-hati, mengingat faktor-faktor ini sebagai kemungkinan menjelaskan nilai numerik korelasi yang ditafsirkan.

Koefisien Validitas Prosedur biasa ketika mengumpulkan input bukti validasi atau bersamaan adalah untuk menghitung korelasi antara nilai dari instrumen penilaian dan kriteria nilai. Korelasi tersebut kadang-kadang disebut sebagai koefisien validitas, meskipun, karena Anda dapat dengan mudah melihat dari gambar 3.6, satu nomor tepat untuk menilai validitas hasil penilaian. Dalam situasi pilihan Koefisien validitas yang tinggi biasanya adalah bukti kuat bahwa seleksi berguna untuk memilih orang-orang yang akan berhasil. Ini karena korelasi yang tinggi merupakan bukti bahwa prediksi keberhasilan akan cukup akurat.

Faktor

Efek pada Koefisien Korelasi

Contoh

Kesamaan ciri-ciri

Semakin mirip ciri-ciri, korelasi tinggi

Bakat verbal dan nilai tes pemahaman bacaan akan lebih tinggi berkorelasi dari bakat verbal dan skor tes bakat matematika

Reliabilitas skor

Skor reliabilitas kurang berkorelasi lebih rendah dari skor reliabilitasnya lebih

Peringkat subjek tes esai penggunaan bahasa Inggris dengan benar berkorelasi rendah dengan nilai tes pemahaman membaca daripada tes pilihan ganda penggunaan bahasa Inggris secara benar.

Jangkauan atau penyebaran skor

Semakin besar rentang (penyebaran) nilai , korelasi cenderung yang lebih tinggi korelasinya

nilai tes bakat Aljabar akan berkorelasi lebih tinggi dengan nilai matematika dalam semester semua tahun pertama siswa SMA yang termasuk dalam sampel daripada ketika hanya nilai matematika mahasiswa di tahun pertama yang disertakan.

Kesamaan distribusiSemakin berbeda bentuk dari distribusi skor pada dua penilaian, lebih rendah correlalion tersebut.

Skor dari tes prestasi yang sangat sulit dan skor dari satu tes sangat mudah untuk kelompok siswa akan berkorelasi lebih rendah daripada jika dua tes yang sulit untuk kelompok.

Interval waktu antara administrasi penilaian

Semakin pendek interval waktu antaraadministrasi penilaian, korelasi cenderung lebih tinggiTes bakat aljabar diberikan di awal tahun ajaran. Korelasi antara skor dan nilai matematika di akhir semester pertama akan menjadi lebih tinggi dibanding dengan nilai matematika yang sama siswa setelah 2 tahun.

Tabel HarapanCara lain untuk menampilkan validitas prediktif data adalah membuat tabel harapan. Tabel harapan adalah grid atau dua arah yang memungkinkan prediksi tentang seberapa besar kemungkinan untuk orang tertentu dengan hasil penilaian untuk mencapai tingkat skor kriteria. Gambar 3.9 menggambarkan bagaimana sebuah tabel harapan dikembangkan untuk menunjukkan probabilitas bahwa siswa pada bakat tertentu akan mencapai tingkat skor masing-masing kelas dalam suatu kursus.Pertama tabel dibuat, seperti pada Gambar .9 (A), di mana setiap sel mengandung jumlah orang dengan skor tertentu yang mencapai masing-masing grade (tingkat skor kriteria). Sebagai contoh, 15 siswa memiliki skor tes bakat antara 60 dan 69. Nomor ini ditampilkan dalam margin baris kanan dari 60-69. Tiga dari 15 ini mencapai kursus kelas D, 5 kelas C, 6 kelas B, dan 1 kelas A.Kedua, masing-masing frekuensi sel pada Gambar 3.9 (A) dibagi dengan total baris yang sesuai, dikonversi untuk persentase dan dimasukkan ke dalam tabel harapan seperti Gambar 3.9 (B). Persentase ini diartikan sebagai probabilitas atau kemungkinan dari 100 sampai menjawab pertanyaan-pertanyaan seperti, "Di sekolah ini, apa yang probabilitas seseorang dengan tes bakat skor 65 akan berhasil dalam kursus ini? "Pertama, catatan bahwa orang dengan skor 65 merupakan anggota dari kelompok yang nilainya antara 60 dan 69. Kedua, jika kita mendefinisikan sukses berarti nilai C atau lebih baik, kemudian 33% + 40% + 7% = 80% dari siswa dengan skor bakat antara 60 dan 69 berhasil. Karena orang dengan skor bakat dari 65 adalah anggota kelompok ini, jawaban atas pertanyaan adalah, "seseorang dengan skor bakat dari 65 memiliki 80% kesempatan untuk menjadi sukses dalam kursus ini.Tabel harapan dapat membantu orang tua dan siswa menginterpretasikan hasil penilaian. Misalnya, tabel harapan dibuat perguruan tinggi untuk menunjukkan bagaimana nilai tes penerimaan yang terkait dengan indeks prestasi rata-rata tahun pertama mahasiswa.Jika Anda menginterpretasikan hasil penilaian menggunakan tabel harapan, Anda harus memperhatikan beberapa pertimbangan. Sebagai contoh, instrumen penilaian yang digunakan untuk memprediksi keberhasilan jarang memperhatikan ukuran inisiatif siswa, ketekunan, atau motivasi.

KriteriaPenilaian Anda tentang apakah penilaian pengembang telah memberikan validitas bukti yang tepat sebagian bergantung pada apakah penilaian hasil telah berkorelasi dengan kriteria yang relevan.Jenis Kriteria Berbagai kriteria digunakan untuk memberikan bukti validitas. Klasifikasi personil dan seleksi penelitian di pemerintah dan industri menggunakan empat jenis kriteria: produksi (kuantitas dan kualitas barang, penjualan), data pribadi (kecelakaan di pekerjaan, masa kerja, keanggotaan kelompok, nilai pelatihan), sampel aktual atau simulasi prestasi kerja, dan penilaian oleh orang lain (daftar periksa, peringkat supervisor). Di bidang pendidikan, kriteria jatuh menjadi tiga jenis: (1) nilai tes prestasi; (2) peringkat, nilai, dan penilaian kuantitatif lainnya guru; dan (3) Data karir. Sebuah contoh umum adalah tes kesiapan membaca yang diberikan pada awal kelas satu. Skor sering divalidasi dengan menghubungkan mereka dengan skor prestasi membaca (kriteria) diberikan pada akhir. Menggunakan indeks prestasi rata-rata untuk memvalidasi skor dari tes bakat dan tes penerimaan. Terkadang peringkat guru dari konsep diri siswa, sosialisasi, dan sebagainya digunakan sebagai ukuran kriteria.

Menilai Kelayakan KriteriaLangkah-langkah yang digunakan dalam validitas penelitian dievaluasi dalam empat bidang: (1) relevansi jangka panjang, (2) tingkat reliabilitas, (3) tingkat bias terhadap individu atau kelompok, dan (a) masalah praktis ketersediaan dan kemudahan.Batas Validitas Kriteria Reliabilitas RendahJika hasil memiliki reliabilitass yang rendah akan berkorelasi rendah dengan langkah-langkah lain daripada jika memiliki reliabilitas yang tinggi. Bahkan jika instrumen prediksi memiliki reliabilitas yang baik tidak akan mampu memprediksi skor kriterium yang tidak reliabel.Kesalahan sistematisKesalahan sistematis dalam kriteria pengukuran dapat membawa pada kesimpulan yang salah tentang validitas skor instrumen tersebut. Misalnya, sebuah studi validitas skor tes dapat berkorelasi dengan penilaian guru siswa. Jika penilaian ini mendukung anak laki-laki daripada anak perempuan, atau siswa dengan keterampilan lisan tinggi atas orang-orang dengan kemampuan verbal lebih rendah, mungkin tidak mengukur kriteria. Bias sistematis seperti ini menunjukkan faktor-faktor yang berpengaruh dalam proses validasi "mencemari" skor kriteria. Dengan demikian, sebelum menerima hasil korelasi sebagai bukti validitas prediktif, pikirkan baik-baik tentang kemungkinan bahwa skor pada kriteria terjadi bias atau tidak valid.Pertimbangan praktis idealnya, nilai dari instrumen harus divalidasi menggunakan data dari kriteria akhir kehidupan nyata. Namun, pertimbangan praktis membatasi sejauh mana pengembang dapat melakukan hal ini. Kepraktisan tidak harus menjadi satu-satunya penentu dalam pengembang memutuskan untuk memilih langkah-langkah kriteria.Reliabilitas Waktu, Asesor, Domain Konten: Reliabilitas BuktiReliabilitas mengacu pada konsistensi penilaian hasil dari waktu ke waktu, jika dan ketika mereka diulang, di penilai, atau lebih berbagai bentuk penilaian. Sebagai contoh, skor dari tes membaca ABC diberikan hari ini berkorelasi 0.00 dengan skor dari pengujian yang sama ini diberikan minggu depan. Korelasi ini adalah bukti bahwa skor tidak memiliki konsistensi selama periode ini. Anda akan mempertanyakan validitas tes ini jika nilai siswa memiliki sedikit atau tidak ada konsistensi dari satu minggu ke depan karena Anda percaya bahwa kemampuan membaca stabil dalam waktu singkat. Jika instrumen penilaian menghasilkan hasil yang tidak konsisten atau tidak stabil, Anda dapat memiliki sedikit kepercayaan hasil tersebut. Oleh karena itu, reliabilitas hasil penilaian membatasi validitasnya. Generalisasi Interpretasi Orang, Kondisi, atau Instruksi Khusus dan Intervensi: Generalisasi BuktiKategori bukti validasi adalah bagaimana secara luas dapat menafsirkan dan menggunakan hasil penilaian. Misalnya, apakah tes membaca ABC mengukur jenis pemahaman bacaan diperlukan siswa di tingkat yang lebih tinggi dari sekolah dan dalam kehidupan nyata? Apakah mengukur pemahaman membaca siswa kulit hitam sama dengan cara mengukur pada siswa kulit putih? Apakah tepat menggunakan skor dari tes tersebut untuk perbaikan membaca kelompok siswa berbahasa Spanyol? Skor tes membaca ABC sangat tergantung pada suasana hati siswa atau motivasi pada saat tes diberikan? Jika siswa menerima instruksi khusus strategi apa yang akan digunakan untuk menjawab pertanyaan pada tes ini (misalnya, membaca pertanyaan pertama, mencari jawaban dalam teks), apakah hal ini sangat mempengaruhi nilai siswa?Jawaban untuk pertanyaan seperti ini membantu kita melihat hasil penilaian dalam perspektif yang lebih luas. Biasanya jawaban menunjukkan bahwa penafsiran hasil penilaian tidak bisa sederhana. Validitas interpretasi dan penggunaan hasil penilaian terbatas pada kondisi tertentu.Perhatikan ilustrasi berikut (berbasis di sebagian pada contoh di Cronbach, l97l): Misalkan Tes Membaca ABC memiliki bentuk bagian dari satu atau dua paragraf diikuti oleh beberapa pertanyaan pilihan ganda. Petunjuk pengujian bagi siswa untuk membaca setiap bagian dan menjawab pertanyaan-pertanyaan yang mengikutinya dengan menandai lembar jawaban yang terpisah.Pada pandangan pertama, tampak bahwa siswa perlu untuk membaca dan memahami pertanyaan. Namun, ada beberapa hipotesis menarik lainnya. Jika faktor ini mengubah skor siswa, maka Anda tidak bisa menafsirkan tes sebagai ukuran murni pemahaman membaca atau membuat keputusan tentang siswa seolah-olah nilai tergantung pada interpretasi pemahaman membaca murni. Mungkin bagian tersebut mengacu topik, tema, atau pengalaman tertentu tentang yang beberapa siswa kemungkinan memiliki banyak pengetahuan sebelumnya. Pengetahuan sebelumnya atau item tes berkualitas rendah dapat membuat siswa dapat menjawab pertanyaan-pertanyaan tanpa membaca bagian ini. Ketergantungan bagian menggambarkan derajat jawaban atas pertanyaan tergantung pada membaca dan memahami bagian ini. Bagian independen item dikatakan tidak dapat untuk menilai pemahaman bacaan. Batas waktu terlalu ketat, administrasi tes yang buruk dan atau arah yang tidak jelas, dan keterampilan siswa dalam menggunakan lembar jawaban juga dapat mempengaruhi nilai tes dengan cara yang tidak mencerminkan pemahaman bacaan.Faktor-faktor ini, dapat berdiri sebagai hipotesis bertentangan dengan penafsiran nilai yang dimaksud sebagai ukuran pemahaman bacaan. Ketika Anda mengajukan pertanyaan ini, Anda harus melihat laporan manual dan teknis penerbit untuk penelitian bukti. Tidak semua bukti akan termasuk dalam bahan penerbit, bagaimanapun, terutama jika bukti tidak menguntungkan.Konsekuensi dimaksudkan dan tidak dimaksudkan Consequences Bukti konsekuensialKebanyakan penilaian dan akuntabilitas program negara, dimaksudkan untuk memiliki konsekuensi positif (Lane & Stone, 2002): Meningkatkan upaya pendidikan siswa, guru, dan administrator sekolah. Meningkatkan isi kurikulum dan pembelajaran strategi. Meningkatkan pembelajaran semua siswa. Meningkatkan pengembangan profesional guru dan dukungan sekolah untuk pembangunan itu. Meningkatkan fokus dan sifat bagaimana siswa dipersiapkan untuk penilaian. Meningkatkan siswa, guru, administrator, dan kesadaran masyarakat tentang nilai standar, kriteria, dan penilaian untuk mengevaluasi sekolah.

Bukti tentang seberapa baik konsekuensi yang dimaksudkan dicapai menjadi bagian dari kasus untuk memvalidasi penilaian program negara. Hal ini tidak cukup, namun, untuk mengumpulkan bukti hanya tentang apakah konsekuensi dimaksudkan suatu program telah dicapai. Penilaian negara dan usaha validasi program akuntabilitas harus mencari bukti negatif, konsekuensi yang tidak diinginkan seperti berikut (Lane & Stone, 2002): Sebuah penyempitan kurikulum dan kelas mengajar untuk fokus hanya pada apa yang termasuk dalam penilaian negara, sementara mengabaikan tujuan yang lebih luas dan tujuan kurikulum. Mempersiapkan siswa hanya untuk mengambil tes tanpa meningkatkan prestasi mereka lolos dari standar negara Menggunakan praktek persiapan ujian tidak etis seperti membagikan pertanyaan sebelumnya Peningkatan prestasi hanya beberapa siswa (misalnya, siswa di sekolah-sekolah yang memiliki tinggi sosial ekonomi tinggi) sedangkan prestasi orang lain (misalnya, siswa di sekolah-sekolah dari tingkat sosial ekonomi rendah) tetap rendah atau menurun Peningkatan penggunaan hasil penilaian yang tidak tepat seperti mentransfer atau menghukum guru dan kepala sekolah yang siswanya memiliki skor rendah Penurunan motivasi beberapa siswa untuk belajar dan pencapaian karena kinerja yang buruk pada penilaian.Sebuah program validasi harus mencari bukti negatif, konsekuensi yang tidak diinginkan serta bukti mencapai positif, konsekuensi dimaksudkan dari program penilaian.

Bukti Kepraktisan: Biaya, Efisiensi, Kepraktisan, dan Fitur Instruksional Hasil penilaian mungkin secara teknis dapat diterima, tetapi hambatan pelaksanaan dapat menghambat untuk digunakan. Sebagai contoh, jika penilaian prosedur terlalu rumit bagi guru untuk menggunakannya, mereka tidak akan menggunakan dengan benar dan akan menghasilkan hasil dengan validitas rendah. Validitas instrumen penilaian akan membaik jika diberikan dan diinterpretasikandengan benar. Beberapa instrumen penilaian bisa disertai dengan komputerisasi laporan skor yang membantu guru mengidentifikasi siswa yang membutuhkan bantuan khusus.Meskipun biaya penilaian tidak menjadi pertimbangan utama untuk validitas, itu tetapi tetap menjadi pertimbangan. Yang menjadi perhatian di sini adalah menentukan pilihan yang biayanya paling hemat dari berbagai pilihan instrumen penilaian. Manakah yang akan memberikan hasil yang paling valid di bawah pelaksanaan dan pengaturan dalam sekolah tertentu? Akankah altematif termurah yang adalah altematif yang paling valid?Hal-hal yang terkait dengan validitas ketika mengakomodir siswa penyandang cacat. Berdasarkan Undang-Undang NCLB, semua siswa harus dinilai, termasuk siswa dengan penyandang cacat. Sembilan puluh lima persen siswa penyandang cacat harus berpartisipasi dalam penilaian. Siswa penyandang cacat tersebut dapat digunakan sebagai dasar untuk mengakomodasi proses penilaian para pelajar yang tidak dapat berpartisipasi dalam penilaian di bawah kondisi standar yang ditetapkan untuk populasi sekolah umum. Selanjutnya, alternatif metode penilaian harus ditemukan untuk menilai siswa yang tidak dapat berpartisipasi bahkan dengan bantuan. Akomodasi penilaian atau modifikasi penilaian baik dalam kondisi atau bahan penilaian yang memungkinkan pencapaian siswa penyandang cacat menjadi evaluasi yang sama dengan siswa yang dievaluasi dengan penilaian dimodifikasi.Isu dan KontroversiStandarisasi akomodasi tes standar untuk siswa dengan cacat fisik kurang kontroversial daripada akomodasi bagi siswa penyandang cacat kognitif seperti ketidakmampuan belajar (Phillips, 1994). Salah satu perhatian adalah validitas interpretasi hasil uji: Jika tes diberikan di bawah kondisi dibawah standar, apakah skornya sama dengan nilai bagi siswa yang mengambil tes dalam kondisi standar?Validitas Skor dari tes yang mengakomodasi penyandang cacatValiditas interpretasi tergantung pada jenis tes yang diberikan, tujuan pengujian, jenis akomodasi, jenis kecacatan siswa, dan sifat interpretasi itu sendiri. Jika tujuan pengujian adalah untuk menilai pengetahuan siswa dan kemampuan subjek dalam ilmu sosial atau matematika, maka tepat bagi siswa cacat yang sulit membaca untuk memiliki pembaca (orang lain untuk membacakan pertanyaan soal). Dalam hal ini, konsep, prinsip, dan prosedur subjek yang independen dari media cetak di mana mereka disajikan pada tes. Oleh karena itu logis bagi Anda untuk menilai pemahaman siswa melalui akomodasi yang sesuai.Jika Anda mangatakan bahwa membaca bukan bagian dari pengetahuan dan kemampuan yang dinilai, Anda juga bisa berpendapat bahwa pembaca yang lemah tanpa kecacatan dalam belajar juga harus memiliki tes membaca matematika dan IPS kepada mereka. Dalam skenario ini, akan dianggap adil jika diberikan pembaca untuk kedua siswa dengan ketidakmampuan belajar dan untuk pembaca yang buruk.Di sisi lain, seorang mahasiswa disleksia mungkin tidak dapat untuk menyelesaikan bagian pemahaman membaca tes prestasi standar. Jika tujuan pengujian adalah untuk menilai kemampuan siswa untuk standar membaca tulisan dalam bahasa Inggris, akan menjadi tidak valid untuk memberikan pembaca untuk siswa pada tes tersebut.Namun, misalkan siswa dapat membaca beberapa materi jika diberikan lebih banyak waktu untuk menjawab. akomodasi ini melanggar ketentuan standarisasi, sehingga membatalkan interpretasi norma-direferensikan seperti kesetaraan kelas, persentil jajaran, dan standar nilai. Namun demikian, dengan memberikan siswa lebih banyak waktu, Anda menemukan uji materi apa yang bisa dilakukan ketika elemen waktu dihapus. Interpretasi hasil tidak bisa mengabaikan akomodasi, namun memerlukan pengantar interpretasi norma-direferensikan seperti contoh berikut;contoh"Berikut adalah bagaimana Sally dibandingkan dengan siswa lain. Para siswa lainnya mengambil tes dalam kondisi standar dan dengan waktu yang terbatas. Namun Sally mengambil tes di bawah kondisi tidak standar dan tidak ada batas waktu karena [memberikan alasan Anda]. Ini menekankan poin yang kita buat sebelumnya dalam hal ini bab: Validitas mengacu pada interpretasi Anda terhadap skor.Bagaimana seharusnya Skor norma yang direferensikan terakomodasi dilaporkan? Masalah apakah melaporkan informasi norma-direferensikan tentang kinerja siswa ketika ujian melanggar kondisi pengujian standar (misalnya, gagal untuk menjaga batas waktu) masih kontroversial. Jika kondisi administrasi standar tes dilanggar, beberapa akan melihat hal berikut sebagai sesuatu yang tidak patut: (a) melaporkan jenis informasi norma-referensi untuk siswa terakomodasi dan (b) termasuk rata-rata hasil sekolah dari siswa yang memiliki administrasi tes diakomodasi (Phillips, komunikasi pribadi, 2001). Apakah hasil individu bagi siswa diberikan tes dalam kondisi diakomodasi harus diidentifikasi atau ditandai dalam catatan atau laporan juga tetap kontroversial (Sireci, 2005). persyaratan hukum, seperti persyaratan pelaporan NCLB Act, bahwa negara persentase siswa mencapai tingkat mahir atau lebih baik pada kebutuhan standar suatu negara harus dilaporkan, terlepas dari akomodasi.Bagaimana Seharusnya Criterion-Direferensikan diakomodasi Skor Dilaporkan? Interpretasi kriteria yang dirujuk (misalnya, interpretasi jenis bahan membaca dan jenis menjawab pertanyaan) sering dibuat untuk hasil tes. Namun, kecepatan membaca juga merupakan bagian dari penafsiran ini untuk tes prestasi standar karena batas yang dikenakan oleh kondisi terstandar. Selanjutnya untuk interpretasi kriteria direferensikan perlu dinyatakan dengan cara yang mencerminkan administrasi tidak standar, seperti contoh berikut ini:contoh"Berikut adalah jenis bahan dan pertanyaan yang Sally mampu membaca ketika dia mengambil tes di bawah kondisi tidak standar dan tanpa batas waktu "

Hal ini kadang-kadang mungkin untuk melaporkan dua hasil: kinerja siswa dalam kondisi standar dan kinerja siswa di bawah kondisi tidak standar.Perspektif Pengukuran akomodasiDalam perspektif pengukuran yang ketat, di mana validitas program pengujian adalah perhatian utama, pertanyaan-pertanyaan berikut mungkin dipergunakan:1. Apakah perubahan dalam format atau pengujian kondisi mengubah keterampilan yang diukur?2. Apakah nilai peserta ujian diuji di bawah kondisi standar memiliki makna yang berbeda dari skor untuk peserta ujian diuji dengan membutuhkan akomodasi?3. Akankah peserta ujian yang tidak membutuhkan akomodasi menguntungkan jika mereka tetap diberikan akomodasi sama?4. Apakah peserta ujian yang meminta atau diberikan akomodasi memiliki kapasitas untuk menyesuaikan diri dengan tes kondisi standar?5. Apakah alasan kecacatan atau pengujian akomodasi berdasarkan prosedur kebijakan diragukan validitas dan reliabilitasnya? (Diadaptasi dari Phillips, 1994, p.1.04)Phillips berpendapat bahwa jika Anda menjawab ya untuk salah satu pertanyaan ini, akomodasi tes tidak tepat karena akan membahayakan validitas hasil tes. Dia menunjukkan potensi konflik antara memberikan partisipasi maksimum bagi kelompok para penyandang cacat dan menjaga validitas tes.Tidak semua akan setuju, dengan kesimpulan Phillips. Sebagai contoh, meskipun akomodasi dapat mengubah keterampilan dinilai atau makna dari nilai (lihat Pertanyaan 1 dan 2), seperti perubahan mungkin lebih, daripada kurang, valid. Pendapat Phillips menganggap bahwa pemberian tes dalam kriteria kondisi standar terhadap yang diakomodasi harus dinilai. Ini juga mengasumsikan bahwa skill atau kemampuan yang dinilai oleh tes dalam kondisi standar adalah relevan dengan keterampilan dan kemampuan yang akan dinilai.Asumsi ini mungkin tidak benar. Misalnya, membaca kata-kata pendek dan menjawab pertanyaan dalam kondisi standar waktunya bukanlah tujuan di akhir pembelajaran, dan juga hal tersebut bukan penilaian langsung dari membaca. Akomodasi dengan kondisi uji standar dapat berubah baik keterampilan yang diperlukan dan makna hasil ke arah yang lebih positif. Pada gilirannya, dapat membuat hasil tes yang diakomodasi lebih seperti target pembelajaran paling dalam nyata dunia-terutama bagi siswa penyandang cacat tertentu. Hal ini lebih mungkin terjadi sebagaimana Amerika dengan Disabilities Act of 1990 terus mengubah pola kondisi akomodasi, dan sikap di tempat kerja. Dasar untuk menilai validitas hasil penilaian berubah seiring waktu seperti