relating evaluation procedures to instructional objectives berkaitan prosedur evaluasi terhadap...

Upload: yun-ita

Post on 09-Mar-2016

231 views

Category:

Documents


0 download

DESCRIPTION

task

TRANSCRIPT

Hubungan Prosedur Evaluasi terhadap Tujuan Instruksional CHAPTER 3 BAB 3 Berkaitan Prosedur Evaluasi terhadap Tujuan Instruksional GENERAL INSTRUCTIONAL OBJECTIVES (Intended outcomes directing our teaching) GENERAL INSTRUKSIONAL TUJUAN (hasil Ditujukan mengarahkan pengajaran kami) SPECIFIC LEARNING OUTCOMES KHUSUS BELAJAR HASIL (Pupil behaviors we are willing to accept as (Perilaku Murid kita bersedia untuk menerima sebagai evidence of the attainment of objectives) bukti pencapaian tujuan) EVALUATION TECHNIQUES (Procedures for obtaining samples of pupil behavior described in the specific learning outcomes) TEKNIK EVALUASI (Prosedur untuk mendapatkan sampel perilaku murid dijelaskan dalam hasil pembelajaran yang spesifik) FIGURE 3,1. GAMBAR 3.1. Relation of evaluation techniques to objectives. Hubungan teknik evaluasi untuk tujuan. Tujuan instruksional mencakup berbagai hasil belajar. . . . . . .Evaluasi mencakup berbagai prosedur. . . . . . .. Kunci untuk suara evaluasi adalah untuk menghubungkan prosedur evaluasi secara langsung mungkin dengan hasil pembelajaran tertentu sedang dievaluasi. Sekarang harus jelas bahwa evaluasi merupakan bagian integral dari proses belajar-mengajar. Itu bukan sesuatu yang tertempel di di akhir kursus; tidak terbatas pada pengukuran jumlah bahan faktual dipertahankan; tidak terbatas pada pemeriksaan kertas dan pensil. Evaluasi adalah proses yang komprehensif berkelanjutan yang memanfaatkan berbagai prosedur dan yang tak terelakkan terkait dengan tujuan program pembelajaran. Dalam bab terakhir, kami tidak khawatir dengan proses penyusunan tujuan instruksional untuk tujuan evaluasi. Proses ini termasuk mengidentifikasi tujuan instruksional umum dan kemudian mendefinisikan masing-masing tujuan tersebut dengan daftar hasil pembelajaran yang spesifik. Langkah terakhir dalam proses evaluasi adalah untuk memilih atau mengembangkan instrumen evaluasi yang memberikan bukti paling langsung mengenai pencapaian setiap hasil belajar tertentu. Urutan langkah-langkah yang ditunjukkan pada Gambar 3.1 meringkas prosedur umum ini berkaitan teknik evaluasi untuk tujuan. Langkah-langkah prosedural menjelaskan pentingnya berkaitan teknik evaluasi langsung ke hasil pembelajaran tertentu sedang dievaluasi. Ini adalah satu-satunya cara kita dapat memiliki kepastian bahwa kita mengevaluasi kemajuan murid menuju hasil yang kami telah terpilih sebagai tujuan instruksional kami. Proses yang berkaitan dengan teknik evaluasi hasil belajar spesifik pada dasarnya adalah salah satu analisis yang logis dan penilaian. Proses ini dapat sangat difasilitasi, namun, dengan penggunaan beberapa rencana evaluasi yang sistematis. RENCANA EVALUASI UMUM 61Apakah guru adalah memutuskan pada prosedur evaluasi untuk unit kerja, kerja semester, atau urutan kursus, beberapa rencana evaluasi umum yang diinginkan. Minimal, rencana ini harus mencakup daftar hasil pembelajaran yang diinginkan dan teknik yang akan digunakan dalam mengevaluasi kemajuan mereka. Tabel berikut, berdasarkan beberapa tujuan yang dikembangkan oleh Mr Brown, guru biologi kelas sepuluh kami, menggambarkan prosedur untuk mengembangkan rencana umum. Sistem penomoran adalah bahwa yang digunakan oleh Mr Brown dan membantu mengidentifikasi masing-masing tujuan dalam daftar aslinya (lihat Tabel 2.1). Grafik evaluasi lengkap akan, tentu saja, mencakup semua tujuan dan hasil pembelajaran yang spesifik diidentifikasi oleh Mr Brown. Mr Browns grafik untuk rencana evaluasi umum menjelaskan sejumlah poin penting tentang hubungan antara tujuan instruksional dan prosedur evaluasi. Untuk satu hal, itu membuat jelas fakta bahwa hasil belajar tertentu, dinyatakan dalam hal perilaku murid, begitu banyak dan beragam bahwa tidak ada teknik evaluasi tunggal mungkin bisa memberikan bukti yang memadai tentang prestasi mereka. Meskipun tes objektif yang ditunjukkan untuk banyak hasil belajar, daftar periksa, catatan anekdot, dan teknik observasi lainnya juga sering disebutkan. Diagram ini juga menyoroti pentingnya pernyataan yang jelas dari tujuan dan hasil pembelajaran dalam memilih teknik evaluasi. Bahkan, ketika hasil pembelajaran secara jelas dinyatakan dalam hal perilaku murid, mereka tidak hanya menunjukkan apa yang harus dievaluasi, tetapi mereka juga menyarankan bagaimana untuk mengevaluasi. Sebagai contoh, kalimat "1.1 Mendefinisikan istilah umum" memberikan indikasi jenis teknik evaluasi yang harus digunakan. Hal ini menunjukkan bahwa murid harus memberikan definisi sendiri. Oleh karena itu, tes jawaban singkat, di mana murid diberikan istilah yang dipilih dan diminta untuk mendefinisikan mereka, adalah teknik yang paling tepat evaluasi. Item tes objektif, seperti pertanyaan pilihan ganda, di mana murid harus hanya mengidentifikasi definisi, akan tidak memadai untuk mengevaluasi hasil belajar ini, seperti yang dinyatakan. Tentu saja, hasil belajar yang spesifik dapat disajikan kembali untuk membaca "Mengidentifikasi makna umum

Tujuan dan Hasil Belajar Spesifi 1 Murid tahu istilah umum yang digunakan dalam biologi ketika ia: Mendefinisikan istilah umum. Membedakan antara istilah umum atas dasar makna. Mengidentifikasi makna istilah umum ketika digunakan dalam konteks. 6 Murid menunjukkan keterampilan berpikir kritis ketika ia: Membedakan antara fakta dan opini. Menarik kesimpulan yang valid dari data yang diberikan. Mengidentifikasi asumsi yang mendasari kesimpulan. 6.4 6.4. Mengidentifikasi keterbatasan data yang diberikan. 8. Murid melakukan Tion terampil ketika ia: Tempat spesimen dalam posisi yang tepat. Cuts terampil tanpa merusak struktur yang akan dipelajari. Memisahkan bagian struktural dari spesimen tanpa merusak mereka. 8.4 8.4 Selesaikan diseksi dalam waktu yang ditentukan. 10. Murid menempatkan informasi biologis ketika dia: Menempatkan referensi menggunakan katalog kartu perpustakaan. Mengidentifikasi sumber-sumber umum informasi biologis. Menggunakan daftar isi dan indeks ketika mencari informasi dalam buku-buku. Mengidentifikasi relevansi informasi untuk masalah tertentu. 12 Murid menampilkan sikap ilmiah terhadap fenomena biologis ketika ia: Menunda penilaian sampai semua fakta yang tersedia. Mengidentifikasi hubungan sebab-akibat dalam data biologis. . Menunjukkan kesediaan untuk mempertimbangkan interpretasi baru dari data biologis. Negara interpretasi data biologis yang bebas dari bias. Menunjukkan kepercayaan dalam data biologis diperoleh dengan prosedur ilmiah. * * Teknik Evaluasi berkaitan dengan belajar hasil dengan angka yang sesuai. istilah "sehingga item tes objektif dapat digunakan. Namun, ini akan menjadi perubahan dalam perilaku tertentu Mr Brown bersedia menerima sebagai bukti bahwa murid tahu istilah umum yang digunakan dalam biologi. Jika ia percaya bahwa mengetahui istilah mengharuskan murid dapat menentukan istilah dalam kata-katanya sendiri, satu-satunya prosedur yang memadai evaluasi adalah meminta murid untuk sehingga mendefinisikan istilah. Kemampuan untuk mengidentifikasi definisi yang benar tidak dapat diterima sebagai bukti kemampuan murid untuk memberikan definisi yang benar. . Meskipun diskusi kita telah terfokus pada satu hasil pembelajaran yang spesifik, prinsip dasar menilai setiap hasil belajar secara langsung mungkin adalah salah satu yang menjadi ciri khas seluruh chart.. Misalnya, "6.1 membedakan antara fakta dan opini" dapat dievaluasi dengan tes objektif. Ini hanyalah masalah menyajikan murid dengan sejumlah pernyataan dan memintanya untuk menunjukkan yang merupakan fakta dan mana yang pendapat. Di sisi lain, bagaimanapun, "6.2 Menarik kesimpulan yang valid dari data yang diberikan" membutuhkan tes pendek-jawaban karena hasilnya menunjukkan bahwa murid akan menarik kesimpulan sendiri dan tidak hanya mengidentifikasi kesimpulan yang diambil oleh orang lain. Demikian pula, semua hasil yang berkaitan dengan "8. Murid melakukan operasi dasar diseksi terampil" harus dievaluasi oleh beberapa perangkat observasi seperti daftar atau skala penilaian. Pengetahuan tentang prosedur pembedahan tidak dapat diterima sebagai bukti keterampilan diseksi. Pengetahuan tentang prosedur dapat dan harus diukur untuk kepentingan diri sendiri, tetapi keterampilan dapat dievaluasi hanya dengan langsung mengamati dan menilai diseksi prosedur murid dan produk yang dihasilkan. Di bidang sikap ilmiah, seperti hasil belajar sebagai "12,1 penilaian menunda sampai semua fakta yang tersedia" membutuhkan lebih dari satu jenis bukti karena sulitnya evaluasi. Catatan anekdotal berdasarkan pengamatan sehari-hari di kelas dan laboratorium akan memberikan bukti tentang perilaku khas murid dalam menghadapi masalah ilmiah. Tetapi karena kurangnya kesempatan untuk mengamati semua siswa di situasi yang membutuhkan perilaku ini dan karena sifat subjektif dari pengamatan tersebut, juga diinginkan untuk menggunakan item tes objektif.. Item tes tersebut hanya melengkapi catatan anekdot, namun, karena respon terhadap item tes objektif tidak menunjukkan bagaimana murid biasanya akan bersikap ketika dihadapkan dengan masalah yang bersifat ilmiah. Singkatnya, kedua metode tidak memadai tetapi bersama-sama mereka saling melengkapi dan memberikan bukti yang lebih memadai daripada baik akan sendirian. Untuk setiap tujuan instruksional, kemudian, bagan evaluasi menunjukkan teknik evaluasi yang memberikan bukti paling langsung dan memadai mengenai sejauh mana perilaku murid itu sesuai dengan hasil pembelajaran yang diinginkan. Sebuah grafik evaluasi, seperti Mr Brown, juga membuat jelas perlunya perencanaan program evaluasi pada awal unit, atau kursus, instruksi. Jika data yang evaluatif harus diperoleh dengan menggunakan catatan anekdot, skala rating, dan perangkat pengamatan lainnya, sifat

Teknik Evaluasi Tujuan Idealnya, perencanaan untuk evaluasi harus terjadi pada waktu yang sama dengan rencana lain yang dibuat untuk kursus, ketika hal ini dilakukan, guru kadang-kadang meliputi tujuan pengajaran, metode pengajaran, dan teknik evaluasi bersama-sama dalam satu rencana. Bagan berikut ini merupakan versi sederhana dari rencana untuk tujuan Mr Whiteside dalam penalaran aritmatika di tingkat kelas empat: ****Pengajaran Metode Menyajikan siswa dengan berbagai masalah cerita yang mengandung fakta-fakta lebih dari yang diperlukan agar siswa memperoleh latihan dalam mengidentifikasi masalah, dan memilih fakta yang relevan serta dalam menghitung jawaban. Murid menunjukkan kemampuan penalaran aritmatika ketika ia: Mengidentifikasi masalah (apa yang diketahui). Mengidentifikasi fakta yang diketahui relevan. Mengidentifikasi proses aritmatika yang berhubungan dikenal dengan diketahui. Memecahkan masalah kuantitatif menggunakan langkah-langkah di atas. Termasuk tujuan, metode pengajaran, dan teknik evaluasi dalam satu rencana umum menyoroti keterkaitan antara aspek ini mengajar di kelas dan meyakinkan bahwa perencanaan untuk evaluasi akan dilakukan pada awal kursus.. Dalam menggunakan prosedur ini, bagaimanapun, kita harus berhati-hati untuk tidak mencoba untuk menghubungkan metode pengajaran terlalu dekat dengan tujuan instruksional. Salah satu metode (misalnya, diskusi kelas) mungkin berhubungan dengan berbagai tujuan, seperti pengetahuan, pemahaman, keterampilan komunikasi, dan penyesuaian social. Demikian pula, satu tujuan (misalnya, penghargaan) dapat menjadi hasil akhir dari serangkaian pengalaman yang membutuhkan banyak metode pembelajaran.. Dalam keterbatasan ini, rencana seperti yang dikembangkan oleh Mr Whiteside dapat menambahkan arah umum untuk kedua pengajaran dan proses evaluasi. instruksi tercantum di bagian atas meja, dan semua bidang utama dari konten yang terdaftar di sisi meja. Sel-sel dalam tabel yang digunakan untuk menunjukkan jumlah item tes harus siap untuk setiap hasil dari instruksi dan untuk menggambarkan bagaimana hasil nontest akan dievaluasi. Sebuah versi sederhana dari tabel tersebut, untuk unit cuaca dalam ilmu SMP, disajikan pada Tabel 3.1. Ini akan dicatat dalam Tabel 3.1 bahwa dari lima puluh item dalam tes, dua belas akan mengukur "pengetahuan tentang simbol dan istilah." Dua dari dua belas item akan peduli dengan "tekanan udara," empat dengan "angin," dua dengan "suhu," dua dengan "kelembaban dan curah hujan," dan dua dengan "awan.". Angka-angka di kolom lain yang harus dibaca dengan cara yang sama. Karena hasil keterampilan memerlukan evaluasi kinerja, kolom tersebut berisi deskripsi singkat tentang prosedur evaluasi yang akan digunakan. Penekanan relatif yang diberikan kepada masing-masing tujuan dan setiap area konten dalam tabel spesifikasi harus, tentu saja, mencerminkan penekanan diberikan selama instruksi. Mereka hasil belajar yang menekankan sebagai lebih penting, dan yang lebih banyak waktu instruksional dikhususkan, harus diberikan bobot yang lebih besar dalam rencana evaluasi. Dalam tabel ilustrasi kami, misalnya, dua hasil keterampilan ditugaskan 50 persen dari evaluasi keseluruhan (persen 25 per masing-masing) dan empat tujuan yang akan dievaluasi dengan tes kertas dan pensil ditugaskan 50 persen lainnya '( 10 sampai 16 persen masing-masing). Tabel spesifikasi sering hanya menyertakan tujuan yang dapat diukur dengan tes kertas dan pensil (lihat Tabel 6.2 dalam Bab 6), namun, ada beberapa keuntungan untuk termasuk semua tujuan instruksional dalam tabel. Hal ini menjelaskan peran penting dari pengujian dalam proses evaluasi total tetapi, pada saat yang sama, mencegah penekanan yang berlebihan pada prosedur pengujian. Setiap teknik evaluasi dipandang dalam perspektif yang benar. Beberapa guru lebih memilih untuk memperluas tabel spesifikasi dengan memasukkan hasil pembelajaran yang spesifik untuk setiap tujuan instruksional umum dan dengan daftar garis yang lebih rinci tentang isi kursus. Ini adalah pendekatan yang diinginkan asalkan jumlah spesifik tidak menjadi tidak terkendali. Hal ini lebih layak di mana tabel spesifikasi didasarkan pada unit instruksi (seperti dalam evaluasi formatif) daripada di mana tabel ini didasarkan pada hasil yang diharapkan dari seluruh program (seperti dalam evaluasi sumatif). MENGGUNAKAN DAFTAR SPESIFIKASI 64Tipe lain dari rencana evaluasi adalah bahwa disediakan oleh grafik dua arah disebut tabel spesifikasi. Grafik tersebut berhubungan tujuan instruksional dengan isi kursus dan menentukan penekanan yang akan diberikan kepada masing-masing jenis hasil belajar. Dimana tabel adalah untuk melayani sebagai rencana evaluasi umum, semua tujuan instruksional umum untuk unit atau kursus BERKAITAN DENGAN ITEM TES KHUSUS BELAJAR HASIL Tabel spesifikasi menunjukkan jumlah item tes yang akan dikhususkan untuk masing-masing tujuan instruksional umum. Ini adalah langkah pertama dalam prosedur pengujian yang berkaitan dengan tujuan dan yang signifikan karena memberikan beberapa

kami jaminan bahwa setiap tujuan akan diwakili dalam tes sesuai dengan kepentingan relatifnya. Pertanyaan utama, namun, dalam berhubungan prosedur pengujian untuk tujuan, adalah: Apakah tanggapan murid disebut ditetapkan oleh item tes langsung relevan dengan perilaku ditentukan oleh hasil pembelajaran yang spesifik? Klarifikasi Tanggapan Murid diharapkan Kita dapat meningkatkan kepastian bahwa barang-barang kami uji menimbulkan perilaku murid yang relevan dengan lebih memperjelas respon murid diharapkan untuk setiap hasil belajar tertentu. Hal ini dapat dilakukan di salah satu cara berikut: Menambah tingkat ketiga kekhususan untuk daftar tujuan. Menentukan kata kerja yang digunakan dalam hasil pembelajaran yang spesifik. Gunakan item tes sampel untuk menggambarkan hasil yang diharapkan. Masing-masing metode akan dibahas pada gilirannya. Arti dari setiap hasil belajar yang spesifik dapat lebih diperjelas dengan membuat daftar beberapa, atau semua, dari tugas-tugas tertentu siswa diharapkan untuk melakukan dalam menunjukkan pencapaian hasilnya. Hal ini akan memberikan tiga tingkat untuk setiap tujuan instruksional, sebagai berikut: 1. Tahu bagian-bagian pidato dalam bahasa Inggris. 1.1 Mengidentifikasi kata benda dalam kalimat. Menggarisbawahi setiap kata benda. Mengelilingi setiap benda umum. Menambahkan tingkat ketiga kekhususan seperti ini mungkin berguna untuk memperjelas beberapa hasil belajar. Tugas spesifik menggambarkan dengan tepat apa yang siswa akan lakukan untuk menunjukkan bahwa mereka dapat mengidentifikasi kata benda. Perlu dicatat, bagaimanapun, bahwa hasil kami yang dimaksud adalah masih identifikasi kata benda. Proses menggarisbawahi dan mengelilingi hanya perilaku kita bersedia untuk digunakan sebagai indikator dari kemampuan untuk mengidentifikasi. Dengan demikian, tingkat ketiga menyediakan transisi antara hasil belajar tertentu dan item tes, tetapi perilaku tertentu tidak hasil pembelajaran di kanan mereka sendiri (yaitu, Dalam contoh kita, kita tidak tertarik untuk mengajar siswa bagaimana untuk menggarisbawahi dan mengepung, melainkan cara untuk mengidentifikasi. Kami menganggap mereka sudah bisa melakukan yang pertama.) tingkat ketiga ini kekhususan menyoroti salah satu keuntungan menggunakan tingkat tujuan, daripada daftar tugas tertentu, untuk menggambarkan hasil yang diharapkan dari instruksi. Dengan tingkat, kita cenderung untuk mengacaukan hasil yang diharapkan dari instruksi dengan indikator hasil tersebut. Cara lain untuk menjelaskan respon murid yang diharapkan adalah untuk mendefinisikan, atau

bO . bo. 'Ei 'Ei I 2 E co I 2 E co ^ 8 S 43 i3 " o ^ 8 S 43 i3 " o V i3 bio * V i3 bio * 43 43 bo bo 15 15 e e 9 g I 9 GA I ft o ft o s 2 -s 2 a U 3 ' 43 -a U 3 '43-a go S pergi S u 'bO 'P u 'bo' P CO CO .ao s bp . Ao -s bp ==^S4j == ^ S4j O tj w co O tj w " co CD CD -.2 - .2 3 a 3 a 43 43 ft ft 2 - 2- " o "O O M j3 O M j3 V CO -V CO CO Q CO Q C/J C / J .a 3 . 3 . . Eo Eo h ZQ h ZQ bo bo c c Bo ts i>H ts i> H - co .5 co .5 co c co c 3 CO 3 CO D D 1 | 1 | 43 bp bO*^ .S 43 bp bo * ^. S I! -I! rS 3 rS 3 |^43 | ^ 43 .2 o ft .2 O ft oo ^ so g rt -i S 2 s oo ^ jadi g rt-i S 2 s 3 4= 3 4 = 03 ft 03 ft P ^ P ^ bO bo CO CO o c o c CO CO c c ft ft "I "Saya co co Go Pergi o o CO CO JR JR ^ ^ CO CO CO fe CO fe sp s sp s las las 3 3 C O CJ C O CJ ft ft t3 t3 CO T3 CO T3 E '3 E '3 ca kira-kira 2 2 e e ca kira-kira c^ c ^ * CO * CO E E 43 43 - a - A *> *> Selain memberikan hasil yang memiliki tingkat yang memuaskan validitas dan reliabilitas, prosedur evaluasi harus memenuhi persyaratan praktis tertentu. Ini harus ekonomis dari sudut pandang waktu dan uang, itu harus mudah dikelola dan mencetak gol, dan harus memberikan hasil yang dapat secara akurat ditafsirkan dan diterapkan oleh personel sekolah yang tersedia. Aspek-aspek praktis dari prosedur evaluasi semua dapat dimasukkan di bawah judul kegunaan. Istilah kegunaan, maka, hanya mengacu pada kepraktisan prosedur dan menyiratkan apa-apa tentang kualitas lain yang hadir. Dalam bab ini kita akan membahas validitas hasil evaluasi, dan dalam bab berikut kita akan mengalihkan perhatian kita untuk keandalan dan kegunaan. SIFAT VALIDITAS 80Bila menggunakan istilah validitas, dalam kaitannya dengan pengujian dan evaluasi, ada sejumlah peringatan yang harus diingat. Validitas berkaitan dengan hasil tes, atau instrumen evaluasi, dan bukan untuk instrumen itu sendiri. Kita kadang-kadang berbicara tentang validitas tes demi kenyamanan, tetapi lebih tepat untuk berbicara tentang keabsahan hasil pengujian, atau lebih khusus, validitas interpretasi yang akan dibuat dari hasil. Validitas adalah masalah derajat. Itu tidak ada secara all-or-none. Akibatnya, kita harus menghindari memikirkan hasil evaluasi yang valid atau tidak valid. Validitas paling dipertimbangkan dalam hal kategori yang menentukan derajat, seperti validitas yang tinggi, validitas moderat, dan validitas rendah. Validitas selalu spesifik untuk beberapa penggunaan tertentu. Ini tidak boleh dianggap sebagai kualitas umum. Sebagai contoh, hasil tes aritmatika mungkin memiliki tingkat tinggi validitas untuk menunjukkan keterampilan komputasi, tingkat rendah untuk menunjukkan validitas penalaran ilmu hitung, tingkat moderat validitas untuk memprediksi keberhasilan dalam mata pelajaran matematika di masa depan, dan tidak ada validitas untuk memprediksi keberhasilan dalam seni atau musik. Dengan demikian, ketika menilai atau menggambarkan validitas, maka perlu untuk mempertimbangkan penggunaan harus dibuat dari hasil. Hasil evaluasi tidak pernah sah-sah saja; mereka memiliki tingkat yang berbeda dari validitas untuk setiap interpretasi tertentu yang akan dibuat. JENIS VALIDITAS 81Tiga tipe dasar validitas telah diidentifikasi dan sekarang umum digunakan dalam pengukuran pendidikan dan psikologis. 1 Mereka adalah: konten validitas, -kriteria yang terkait validitas, dan membangun validitas. Makna umum jenis validitas ditunjukkan dalam Tabel 4.1. Setiap jenis akan dijelaskan lebih lengkap sebagai hasil bab. Demi kejelasan, diskusi akan terbatas pada validitas yang berkaitan dengan prosedur pengujian. Harus diakui, bagaimanapun, bahwa ketiga jenis validitas juga berlaku untuk semua berbagai jenis alat evaluasi yang digunakan dalam sekolah. Konten Validitas 1 American Psychological Association, Standar Pendidikan dan Tes Psikologi (Washington, DC: APA, 1974). Isi kursus atau kurikulum dapat didefinisikan secara luas untuk mencakup baik isi pelajaran-materi dan tujuan instruksional. Yang pertama adalah berkaitan dengan topik, atau area subyek, yang akan dibahas, dan yang terakhir dengan perubahan perilaku dicari dalam murid. Kedua aspek konten menjadi perhatian dalam menentukan validitas isi. Kita harus seperti setiap tes prestasi kita membangun, atau pilih, untuk memberikan hasil yang mewakili topik dan perilaku kita ingin mengukur. Ini adalah esensi dari validitas isi. Lebih formal, validitas isi dapat didefinisikan sebagai sejauh mana tes mengukur sampel yang representatif TABEL 4.1 Meaning Makna tiga jenis validitas Procedure Prosedur Bandingkan isi tes untuk alam semesta konten dan perilaku yang akan diukur Bandingkan nilai tes dengan ukuran lain kinerja yang diperoleh di kemudian hari (untuk prediksi) atau dengan ukuran lain kinerja yang diperoleh secara bersamaan (untuk memperkirakan status sekarang) Eksperimental menentukan faktor-faktor apa nilai pengaruh pada tes jumlah waktu yang dihabiskan untuk masing-masing daerah selama instruksi, filosofi sekolah, pendapat para ahli di daerah, dan kriteria yang sama. Sebuah tabel spesifikasi, seperti yang disajikan dalam Bab 3, dibangun dari daftar tertimbang topik subjek-materi dan diharapkan perubahan perilaku. Tabel ini, maka, menentukan penekanan relatif tes harus memberikan kepada setiap topik pokok bahasan dan setiap jenis perubahan perilaku. Tes prestasi dibangun, atau dipilih, sesuai dengan tabel spesifikasi. Semakin dekat tes sesuai dengan spesifikasi yang ditunjukkan dalam tabel, semakin besar kemungkinan bahwa tanggapan siswa 'untuk menguji akan memiliki tingkat tinggi validitas isi. Sebuah tabel spesifikasi, dalam bentuk yang sangat sederhana, disajikan pada Tabel 4.2 untuk menggambarkan bagaimana meja tersebut digunakan untuk memeriksa validitas isi. Persentase dalam tabel menunjukkan tingkat relatif penekanan setiap mata pelajaran-materi dan setiap jenis perubahan perilaku harus diberikan dalam ujian. Jadi, jika tes ini adalah untuk mengukur sampel yang representatif dari isi subject-matter, 15 persen dari item tes harus peduli dengan tanaman, 15 persen dengan hewan, 30 persen dengan cuaca, 15 persen TABEL 4.2 tabel yang menunjukkan penekanan relatif untuk civen ke berbagai daerah subyek dan kemungkinan perilaku untuk tes dalam ilmu sekolah dasar Perubahan Perilaku (dalam Persentase) Bidang Keahlian-materi Memahami Konsep Berlaku Konsep Total Total Plants Tanaman 10 10 5 5 15 15 Animals Hewan 10 10 5 5 15 15 Weather Cuaca 15 15 15 15 30 30 Earth Bumi 5 5 10 10 15 15 Sky Langit 10 10 15 15 25 25 Total Total 50 50 50 50 100 100 dengan bumi, dan 25 persen dengan langit. Jika tes ini adalah untuk mengukur sampel yang representatif dari perubahan perilaku, 50 persen dari barang-barang yang harus mengukur "pemahaman konsep," dan 50 persen harus mengukur "penerapan konsep." Ini, tentu saja, menyiratkan bahwa penekanan khusus pada "pemahaman" dan "aplikasi" untuk masing-masing mata pelajaran-materi yang akan mengikuti ditunjukkan dengan persentase di tabel spesifikasi. Misalnya, 10 persen dari item tes yang bersangkutan dengan tanaman harus mengukur "pemahaman konsep," dan 5 persen dari item tes harus mengukur "penerapan konsep." Perlu dicatat bahwa prosedur ini hanya memberikan cek kasar pada validitas isi. Analisis tersebut mengungkapkan jelas relevansi dari item tes untuk bidang subjek-materi dan perubahan perilaku yang akan diukur. Validitas isi prihatin dengan sejauh mana item tes sebenarnya menimbulkan tanggapan diwakili dalam tabel spesifikasi. Item tes mungkin muncul untuk mengukur "pemahaman" tapi tidak berfungsi sebagaimana dimaksud karena cacat pada item, arah jelas, kosakata yang tidak pantas, atau kondisi pengujian tidak terkontrol. Dengan demikian, validitas isi tergantung pada sejumlah faktor selain relevansi nyata dari item tes. Sebagian besar dari apa yang tertulis dalam buku ini mengenai konstruksi dan seleksi tes prestasi diarahkan meningkatkan validitas isi dari hasil yang diperoleh. Meskipun pembahasan kita tentang validitas isi telah terbatas pada pengujian prestasi, validitas isi juga dari beberapa kekhawatiran masuk pengukuran bakat, minat, sikap, dan penyesuaian pribadi-sosial. Sebagai contoh, jika kita memilih inventarisasi bunga kita harus seperti itu untuk menutupi aspek-aspek kepentingan dengan yang kita prihatin. Demikian pula, skala sikap harus mencakup topik-topik sikap yang sesuai dengan tujuan kita ingin mengukur. Prosedur di sini pada dasarnya sama seperti yang di tes prestasi. Ini adalah masalah menganalisis bahan uji dan hasil yang akan diukur dan menilai tingkat korespondensi antara mereka. Kriteria terkait Validitas 84Setiap kali nilai tes yang akan digunakan untuk memprediksi kinerja masa depan atau untuk memperkirakan kinerja saat ini pada beberapa ukuran dihargai selain tes itu sendiri, kita prihatin dengan validitas-kriteria terkait. Misalnya, membaca kesiapan skor tes dapat digunakan untuk memprediksi murid 'prestasi masa depan dalam membaca, atau tes keterampilan kamus dapat digunakan untuk memperkirakan murid keterampilan saat ini dalam penggunaan aktual dari kamus (sebagaimana ditentukan oleh pengamatan). Dalam contoh pertama, kami tertarik prediksi dan dengan demikian dalam hubungan antara dua ukuran selama jangka waktu. Jenis validitas disebut prediktif validitas. Pada contoh kedua, kami tertarik untuk memperkirakan status sekarang dan dengan demikian dalam hubungan antara dua ukuran yang diperoleh secara bersamaan. Sebuah hubungan yang tinggi dalam hal ini akan menunjukkan bahwa tes keterampilan kamus adalah indikator yang baik dari kemampuan sebenarnya dalam penggunaan kamus. Prosedur ini untuk menentukan validitas disebut bersamaan validitas. Pada uji baru Standar, 1 sebutan validitas prediktif dan validitas konkuren telah dimasukkan di bawah category lebih umum " -kriteria yang terkait validitas. Hal ini tampaknya menjadi pengaturan yang diinginkan karena metode untuk menentukan dan mengungkapkan validitas adalah sama dalam kedua kasus. Perbedaan utama terletak pada jangka waktu antara dua ukuran yang diperoleh. Validitas-kriteria yang terkait dapat didefinisikan sebagai sejauh mana hasil tes terkait dengan beberapa ukuran dihargai lain dari kinerja. Seperti disebutkan sebelumnya, ukuran kedua kinerja dapat diperoleh di beberapa tanggal masa depan (ketika kita tertarik dalam memprediksi kinerja masa depan) , atau bersamaan (ketika kita tertarik dalam memperkirakan kinerja sekarang). Pertama mari kita memeriksa penggunaan validitas-kriteria terkait dari sudut pandang memprediksi keberhasilan dalam beberapa aktivitas masa depan. Kemudian kita akan kembali ke penggunaan kedua. Memprediksi Kinerja Masa Depan. Misalkan bahwa Mr Young, seorang guru SMP, ingin menentukan seberapa baik nilai dari tes bakat skolastik tertentu memprediksi keberhasilan dalam kelas tujuh kelas aritmatika nya. Karena tes bakat skolastik diberikan kepada semua siswa ketika mereka masuk SMP, nilai ini sudah tersedia untuk Mr Young. Masalah terbesarnya adalah memutuskan pada kriteria sukses prestasi aritmatika. Karena kurangnya kriteria yang lebih baik, Pak Young memutuskan untuk menggunakan pemeriksaan departemen komprehensif yang diberikan kepada berbagai bagian aritmatika kelas tujuh pada akhir tahun ajaran. Sekarang mungkin untuk Mr Young untuk menentukan seberapa baik bakat skor tes skolastik memprediksi kesuksesan di kelas aritmatika dengan membandingkan nilai tes skolastik bakat murid dengan nilai mereka pada ujian departemen. Apakah mereka siswa yang memiliki skor tes bakat skolastik yang tinggi juga cenderung memiliki skor tinggi pada pemeriksaan departemen? Apakah mereka yang memiliki skor tes skolastik bakat rendah juga cenderung memiliki skor rendah pada pemeriksaan departemen? Jika hal ini terjadi, Mr Young cenderung setuju bahwa skolastik skor tes bakat cenderung akurat dalam memprediksi prestasi di kelas aritmatika ini. Singkatnya, ia mengakui bahwa hasil tes memiliki validitas-kriteria terkait. Dalam ilustrasi kami, Pak Young hanya diperiksa bakat nilai tes skolastik dan skor tes prestasi untuk menentukan kesepakatan di antara mereka. Meskipun ini mungkin menjadi langkah awal yang diinginkan, itu jarang cukup untuk menunjukkan validitas kriteria terkait. Prosedur yang biasa adalah berkorelasi statistik dua set nilai dan melaporkan derajat hubungan antara mereka dengan menggunakan koefisien korelasi. -ini memungkinkan validitas yang akan disajikan dalam hal yang tepat dan universal dipahami. Mereka, tentu saja, "universal dipahami" hanya oleh mereka yang memahami dan dapat menginterpretasikan koefisien korelasi. Hal ini akan menimbulkan masalah yang besar, namun, karena makna koefisien korelasi dapat dengan mudah ditangkap oleh orang-orang yang keterampilan komputasi berlangsung tidak lebih dari itu aritmatika sederhana. Peringkat-Perbedaan Korelasi. Untuk memperjelas perhitungan dan interpretasi koefisien korelasi, mari kita mempertimbangkan nilai yang tepat murid Mr Young diterima pada kedua tes bakat skolastik dan pemeriksaan departemen dalam aritmatika. Informasi ini disediakan dalam dua kolom pertama dari Tabel 4.3. Dengan memeriksa dua kolom skor, sebagai Mr Muda lakukan, adalah mungkin untuk dicatat bahwa nilai yang tinggi pada Kolom 1 cenderung untuk pergi pergeseran dalam urutan peringkat dari satu tes ke tes lain. Masalah kita sekarang isa "Bagaimana kita bisa mengekspresikan derajat hubungan antara dua set peringkat dalam hal yang berarti? Di sinilah koefisien korelasi menjadi berguna. Peringkat-perbedaan korelasi hanyalah sebuah metode untuk mengungkapkan derajat hubungan antara dua set peringkat. Langkah-langkah dalam menentukan koefisien korelasi rank-perbedaan disajikan di buku komputasi berikut. 2 Pak Data Young, pada Tabel 4.3, yang digunakan untuk menggambarkan Steps Tangga komputasi-guide: rank-perbedaan korelasi Kolom 1 dan 2 Kolom 3 dan 4 Kolom 5 Kolom 6 Bawah Kolom 6 6 X 532 P = l- P (rho) = 1 20 (20 2 - 1) 3192 = 1 - 7980 1-0,40 .60 Hasil pada Tabel 4.3 dengan nilai yang tinggi pada Kolom 2. Perbandingan ini sulit untuk membuat, namun, karena ukuran dari nilai tes dalam dua kolom yang berbeda. Kesepakatan dua set nilai dapat lebih mudah dilakukan jika nilai tes dikonversi ke jajaran. Hal ini telah dilakukan dalam Kolom 3 dan 4 dari Tabel 4.3. Perhatikan bahwa murid yang pertama pada tes bakat peringkat ketiga pada tes aritmatika; murid yang kedua pada tes bakat peringkat keempat pada tes aritmatika; murid yang ketiga pada tes bakat peringkat keenam pada tes aritmatika; and so on. dan seterusnya. Membandingkan urutan peringkat dari murid di dua tes, seperti yang ditunjukkan dalam Kolom 3 dan 4 dari Tabel 4.3, memberi kita gambaran yang cukup baik dari hubungan antara dua set nilai. Dari pemeriksaan ini kita tahu bahwa murid yang memiliki kedudukan tinggi pada tes bakat juga memiliki kedudukan yang tinggi pada tes aritmatika, dan murid yang memiliki kedudukan rendah pada tes bakat juga memiliki kedudukan yang rendah pada tes aritmatika. Pemeriksaan kami Kolom 3 dan 4 juga menunjukkan kepada kita, bagaimanapun, bahwa hubungan antara jajaran murid pada dua tes tidak sempurna. Ada beberapa prosedur. Ini akan dicatat bahwa surat rho Yunani ( P ) digunakan untuk mengidentifikasi koefisien korelasi rank-order. Dari perhitungan kami untuk data Mr Young kita menemukan bahwa P = .60. Koefisien korelasi ini adalah ringkasan statistik dari tingkat hubungan antara dua set nilai dalam data Mr Young. Dalam contoh khusus ini, ini menunjukkan sejauh mana jatuhnya nilai tes bakat (prediktor) merupakan prediksi musim semi aritmatika nilai ujian (kriteria). Singkatnya, mengacu pada validitas-kriteria terkait bakat skor tes. Seberapa baik adalah validitas koefisien Mr Young .60? Haruskah Pak Young akan senang dengan temuan ini atau haruskah dia kecewa? Apakah tes ini bakat tertentu memberikan prediksi yang baik kinerja masa depan dalam aritmatika? Sayangnya, jawaban sederhana dan mudah tidak dapat diberikan atas pertanyaan-pertanyaan tersebut. Interpretasi koefisien korelasi tergantung pada informasi dari berbagai sumber. Pertama, kita tahu bahwa koefisien korelasi berikut menunjukkan derajat ekstrim hubungan bahwa adalah mungkin untuk mendapatkan antara variabel: 1.00 = hubungan positif sempurna .00 = ada hubungan "1,00 = sempurna hubungan negatif Karena koefisien validitas Mr Young adalah .60, kita tahu bahwa hubungan yang positif tapi agak kurang sempurna. Jelas, semakin dekat koefisien validitas pendekatan 1.00 bahagia kita dengan itu karena koefisien validitas lebih besar menunjukkan akurasi yang lebih besar dalam memprediksi dari satu variabel yang lain. 3 Cara lain untuk mengevaluasi validitas koefisien Mr Young dari .60 adalah untuk membandingkannya dengan koefisien validitas yang diperoleh dengan metode lain memprediksi kinerja dalam aritmatika. Jika koefisien validitas ini lebih besar dari yang diperoleh dengan prosedur prediksi lain, Pak Young akan terus menggunakan tes bakat skolastik. Sebagai cara terbaik yang tersedia baginya untuk memprediksi kinerja aritmatika muridnya. Dengan demikian, koefisien validitas yang besar atau kecil hanya dalam hubungan satu sama lain. Dimana validitas-kriteria terkait merupakan pertimbangan penting, kita akan selalu mempertimbangkan lebih menguntungkan tes dengan koefisien validitas terbesar. Dalam hal ini, bahkan tes bakat dengan validitas agak rendah mungkin berguna, namun, jika mereka adalah prediktor terbaik yang tersedia, dan prediksi mereka berikan adalah lebih baik daripada kesempatan. 4 Mungkin cara termudah menangkap makna praktis dari koefisien korelasi adalah untuk dicatat bagaimana akurasi prediksi meningkat sebagai koefisien korelasi menjadi lebih besar. Hal ini ditunjukkan dalam berbagai grafik yang disajikan dalam Tabel 4.4. Baris-baris di setiap grafik mewakili perempat kelompok pada beberapa prediktor (seperti tes bakat skolastik) dan kolom menunjukkan persentase orang yang jatuh di setiap keempat pada ukuran kriteria (seperti tes prestasi). Pertama perhatikan bahwa untuk koefisien korelasi .00, berada di atas pada kuartal prediktor tersebut tidak memberikan dasar untuk memprediksi di mana seseorang mungkin jatuh pada ukuran kriteria. Peluangnya untuk jatuh setiap kuartal sama-sama baik. Sekarang beralih ke grafik untuk koefisien korelasi .60. Perhatikan, di sini, bahwa jika seseorang jatuh pada kuartal atas pada prediktor, ia memiliki 54 peluang emas dari 100 jatuh di kuartal teratas pada ukuran kriteria, 28 peluang emas dari 100 jatuh pada kuartal kedua, 14 peluang dari 100 jatuh pada kuartal ketiga, dan hanya 4 peluang emas dari 100 jatuh pada kuartal bawah. Sisa dari grafik dibaca dengan cara yang sama. Dengan membandingkan grafik untuk koefisien korelasi yang berbeda-ukuran, adalah mungkin untuk mendapatkan beberapa merasakan arti dari koefisien korelasi dalam hal efisiensi prediksi. Sebagai koefisien korelasi menjadi lebih besar, kemungkinan seseorang berada di triwulan yang sama pada ukuran kriteria seperti dia berada di prediktor yang meningkat. Hal ini dapat dilihat dengan melihat entri di sel diagonal. Dengan koefisien korelasi 1,00, masing-masing sel diagonal akan, tentu saja, mengandung 100 persen dari Casesa "menunjukkan prediksi yang sempurna dari satu ukuran yang lain. Memperkirakan Hadir Kinerja. Sampai titik ini kita telah menekankan peran validitas-kriteria terkait dalam memprediksi kinerja masa depan. Meskipun ini mungkin penggunaan utama, ada kalanya kita tertarik dalam hubungan kinerja tes untuk beberapa ukuran lainnya saat ini kinerja. Dalam hal ini, kita akan mendapatkan kedua langkah kira-kira pada waktu yang sama dan mengkorelasikan hasil. Hal ini umumnya dilakukan ketika tes sedang dipertimbangkan sebagai pengganti metode memakan waktu lebih untuk memperoleh informasi. Sebagai contoh, Mr Brown, guru biologi, bertanya-tanya apakah tes obyektif kemampuan belajar dapat digunakan di tempat pengamatan dan penilaian prosedur rumit ia gunakan saat ini. Dia merasa bahwa jika tes dapat diganti untuk prosedur yang lebih kompleks, ia akan memiliki lebih banyak waktu untuk mengabdikan untuk murid individu selama T T diawasi masa studi. Analisis perilaku murid tertentu di mana ia dinilai kemampuan belajar murid 'menunjukkan bahwa banyak prosedur dapat dinyatakan dalam bentuk pertanyaan tes objektif. Akibatnya, ia mengembangkan tes obyektif kemampuan belajar bahwa ia diberikan kepada murid-muridnya. Untuk menentukan berapa memadai tes diukur kemampuan belajar ia berkorelasi hasil tes dengan penilaian tentang kemampuan belajar siswa. Sebuah koefisien korelasi yang dihasilkan dari 75 mengindikasikan kesepakatan yang cukup besar antara hasil tes dan mengukur kriteria. Koefisien korelasi ini merupakan validitas-kriteria terkait uji Mr Brown kemampuan belajar. Kita mungkin juga berkorelasi hasil tes dengan beberapa ukuran lainnya saat ini kinerja untuk menentukan apakah sebuah studi prediktif adalah layak dilakukan. Sebagai contoh, jika satu set bakat skor tes skolastik berkorelasi dengan tingkat yang cukup tinggi (misalnya, .60) dengan satu set nilai tes prestasi yang diperoleh pada saat yang sama, itu akan menunjukkan bahwa tes bakat skolastik memiliki cukup potensial sebagai prediktor untuk membuat sebuah studi prediktif berharga. Di sisi lain, korelasi yang rendah akan mencegah kita dari melakukan studi prediktif, karena kita tahu bahwa korelasi akan menjadi masih lebih rendah ketika periode waktu antara tindakan diperpanjang. Hal lain dianggap sama, semakin besar rentang waktu antara dua ukuran yang lebih kecil koefisien korelasi. Harapan Table. Seberapa baik tes memprediksi kinerja masa depan atau memperkirakan kinerja saat ini pada beberapa ukuran kriteria juga dapat ditunjukkan dengan langsung memplot data dalam grafik dua kali lipat seperti yang ditunjukkan pada Gambar 4.1. Di sini, Data Mr Young (dari Tabel 4.3) telah ditabulasikan dengan menempatkan penghitungan menunjukkan berdiri masing-masing individu pada kedua skor bakat musim gugur dan musim semi skor aritmatika. Sebagai contoh, John mencetak 119 pada tes bakat gugur dan 77 pada tes musim semi aritmatika, sehingga penghitungan, mewakili penampilannya, ditempatkan di sel kanan atas. Kinerja semua murid lain pada dua tes yang dihitung dengan cara yang sama. Dengan demikian, setiap tanda tally pada Gambar 4.1 merupakan seberapa baik masing-masing Mr Young dua puluh murid dilakukan pada musim gugur dan musim semi tes. Total jumlah murid di masing-masing sel, dan di setiap kolom dan baris, juga telah ditunjukkan. Grid harapan yang ditunjukkan pada Gambar 4.1 dapat digunakan secara langsung sebagai meja harapan, hanya dengan menggunakan frekuensi dalam setiap sel. Penafsiran informasi tersebut sederhana dan langsung. Misalnya, orang-orang murid yang mencetak di atas rata-rata pada tes bakat jatuh, tidak ada skor di bawah 65 pada tes musim semi aritmatika, 2 dari 5 mencetak antara 65 dan 74, dan 3 dari 5 gol antara 75 dan 84. Dari mereka yang mencetak bawah rata-rata pada tes bakat jatuh, tidak ada gol dalam kategori top pada tes musim semi aritmatika dan 4 dari 5 gol di bawah 65. interpretasi ini terbatas pada kelompok diuji tetapi dari hasil seperti yang mungkin membuat prediksi tentang masa depan murid. Kita dapat mengatakan, misalnya, bahwa siswa yang mendapat skor di atas rata-rata pada tes musim gugur bakat mungkin akan mencetak gol atas rata-rata pada tes musim semi aritmatika. Prediksi lain dapat dibuat dengan cara yang sama dengan mencatat frekuensi dalam setiap sel grid pada Gambar 4.1. Lebih umum, angka-angka dalam tabel harapan yang dinyatakan dalam persentase. Hal ini mudah diperoleh dari grid dengan mengubah masing-masing frekuensi sel persentase dari jumlah total penghitungan di barisnya. Ini telah dilakukan untuk data pada Gambar 4.1 dan hasilnya disajikan pada Tabel 4.5. Baris pertama dari tabel menunjukkan bahwa dari 5 murid yang mencetak di atas rata-rata pada tes bakat jatuh, 40 persen (2 murid) mencetak antara 65 and'74 pada tes musim semi aritmatika, dan 60 persen (3 murid) mencetak antara 75 dan 84. Baris tersisa dibaca dengan cara yang sama. Penggunaan persentase membuat angka-angka dalam setiap baris dan kolom yang sebanding. Prediksi kami kemudian dapat dibuat dalam hal standar (yaitu, kemungkinan dari 100) untuk semua tingkat skor. Penafsiran kita sangat tepat untuk menjadi sedikit lebih jelas jika kita mengatakan kemungkinan Henry berada di kelompok atas pada ukuran kriteria adalah 60 dari 100 dan Ralph hanya 10 dari 100, dibandingkan jika kita mengatakan kemungkinan Henry adalah 3 dari 5 dan Ralph adalah 1 dari 10. Tabel Harapan mengambil banyak bentuk yang berbeda dan dapat digunakan untuk menunjukkan hubungan antara berbagai jenis ukuran. Jumlah kategori yang digunakan dengan prediktor, atau kriteria, mungkin sedikitnya dua atau sebanyak tampaknya diinginkan. Juga, prediktor mungkin setiap set langkah-langkah yang kami ingin membangun validitas kriteria-kriteria yang terkait dan mungkin nilai saja, peringkat, nilai tes, atau apa pun ukuran keberhasilan relevan lainnya. 0 Ketika menafsirkan tabel harapan didasarkan pada sejumlah kecil kasus, seperti kelas Mr Young dari dua puluh murid, prediksi kami harus dianggap sebagai sangat tentatif "Setiap persentase didasarkan pada begitu sedikit murid yang bisa kita harapkan fluktuasi besar dalam angka-angka dari satu kelompok murid yang lain. Hal ini sering mungkin untuk meningkatkan jumlah murid diwakili dalam tabel dengan menggabungkan hasil tes dari beberapa kelas. Dimana hal ini dilakukan, persentase kami, tentu saja, jauh lebih stabil, dan prediksi kami dapat dibuat dengan keyakinan yang lebih besar. Dalam hal apapun, tabel harapan menyediakan cara sederhana dan langsung menunjukkan validitas hasil tes. The "Kriteria" Masalah. Dalam penentuan validitas-kriteria terkait, masalah utama adalah bahwa untuk memperoleh memuaskan kriteria keberhasilan. Perlu diingat bahwa Mr Young menggunakan pemeriksaan departemen yang komprehensif sebagai kriteria keberhasilan dalam kelas tujuh kelas aritmatika nya. Mr Brown menggunakan penilaian sendiri kemampuan belajar siswa. Dalam setiap contoh kriteria keberhasilan itu hanya sebagian cocok sebagai dasar untuk uji validasi. Pak Young mengakui bahwa pemeriksaan departemen tidak mengukur semua pembelajaran penting hasil bahwa ia bertujuan untuk mengajar aritmatika. Ada hampir tidak cukup penekanan pada penalaran aritmatika; interpretasi grafik dan diagram sayangnya diabaikan; dan, tentu saja, tes tidak mengevaluasi sikap murid terhadap aritmatika (yang Pak Young dianggap sangat penting). Demikian juga, Mr Brown sangat menyadari kekurangan dari nya kemampuan belajar murid. Dia merasa bahwa beberapa murid "diletakkan pada sebuah pertunjukan" ketika mereka tahu mereka sedang diamati. Dalam kasus lain ia merasa bahwa beberapa murid yang mungkin berlebihan pada kemampuan belajar karena prestasi yang tinggi dalam pekerjaan kelas. Meskipun kekurangan diakui, baik Pak Young dan Mr Brown merasa perlu untuk menggunakan langkah-langkah kriteria ini karena mereka adalah tindakan kriteria terbaik yang tersedia. Plights dari Pak Young dan Mr Brown dalam menemukan kriteria yang cocok keberhasilan untuk tujuan validasi tes yang tidak biasa. Pemilihan kriteria yang memuaskan adalah salah satu masalah yang paling sulit dalam memvalidasi tes. Untuk tujuan pendidikan yang paling, tidak ada kriteria yang cukup sukses ada. Mereka yang digunakan cenderung kurang dalam kelengkapan dan dalam kebanyakan kasus memberikan hasil yang kurang stabil dibandingkan dengan tes divalidasi. Kurangnya kriteria yang cocok untuk memvalidasi tes prestasi memiliki implikasi penting bagi guru kelas. Karena jenis statistik validitas biasanya tidak tersedia, guru akan harus bergantung pada prosedur analisis logis untuk menjamin validitas pengujian. Ini berarti hati-hati mengidentifikasi tujuan pengajaran, menyatakan tujuan tersebut dalam hal perubahan tertentu dalam perilaku murid, dan membangun atau memilih instrumen evaluasi yang memuaskan mengukur perubahan perilaku dicari dalam murid. Dengan demikian, validitas isi akan mengambil peran sangat penting dalam evaluasi guru kemajuan murid. Membangun Validitas 93Kedua jenis validitas sejauh ini dijelaskan keduanya khawatir dengan beberapa penggunaan praktis spesifik hasil tes. Mereka membantu kita menentukan bagaimana nilai tes juga merupakan pencapaian hasil belajar tertentu (validitas isi), atau seberapa baik mereka memprediksi atau memperkirakan kinerja tertentu (validitas kriteria yang berhubungan). Selain ini menggunakan lebih spesifik dan segera praktis, kita mungkin ingin menafsirkan nilai ujian dalam hal beberapa kualitas psikologis umum. Misalnya, daripada berbicara tentang nilai seorang murid pada tes aritmatika tertentu, atau seberapa baik memprediksi keberhasilan dalam matematika, kita mungkin ingin menyimpulkan bahwa murid memiliki tingkat tertentu kemampuan penalaran. ini memberikan gambaran umum yang luas dari perilaku murid yang memiliki implikasi untuk banyak kegunaan yang berbeda. Setiap kali kita ingin menafsirkan hasil tes dalam hal beberapa sifat atau kualitas psikologis, kita prihatin dengan validitas konstruk. Sebuah konstruksi adalah kualitas psikologis yang kita asumsikan ada untuk menjelaskan beberapa aspek perilaku. Kemampuan penalaran adalah membangun. Ketika kita menafsirkan nilai ujian sebagai ukuran kemampuan penalaran, kita menyiratkan bahwa ada kualitas yang dapat tepat disebut kemampuan penalaran dan bahwa hal itu dapat menjelaskan untuk beberapa derajat untuk kinerja pada tes. Memverifikasi implikasi tersebut adalah tugas validasi konstruk. Contoh umum dari konstruksi adalah kecerdasan, sikap ilmiah, berpikir kritis, pemahaman bacaan, kemampuan belajar, dan bakat matematika. Ada keuntungan yang jelas untuk dapat menafsirkan hasil tes dalam hal konstruksi psikologis seperti. Setiap konstruk memiliki teori yang mendasari yang dapat dibawa untuk menanggung dalam menjelaskan dan memprediksi perilaku seseorang. Jika kita mengatakan seseorang sangat cerdas, misalnya, kita tahu apa perilaku yang diharapkan dari dirinya dalam berbagai situasi tertentu. Validitas konstruk dapat didefinisikan sebagai sejauh mana hasil tes dapat ditafsirkan dari segi konstruksi psikologis tertentu. Theprocess menentukan validitas konstruk melibatkan langkah-langkah berikut: (1) mengidentifikasi konstruksi dianggap untuk memperhitungkan hasil tes; (2) menurunkan hipotesis mengenai kinerja pengujian dari teori yang mendasari konstruk; (3) memverifikasi hipotesis dengan logis dan empiris berarti. Sebagai contoh, mari kita anggap bahwa kita ingin memeriksa klaim bahwa tes yang baru dibangun mengukur kecerdasan. Dari apa yang diketahui tentang "kecerdasan," kita bisa membuat prediksi berikut: Nilai tes akan meningkat dengan meningkatnya umur (kecerdasan diasumsikan meningkat dengan usia sampai sekitar usia enam belas). Nilai tes akan memprediksi keberhasilan dalam prestasi sekolah. Nilai tes akan berhubungan positif dengan peringkat guru kecerdasan. Nilai tes akan berhubungan positif dengan skor pada tes kecerdasan lainnya yang disebut. Nilai tes akan membedakan antara kelompok yang diketahui berbeda, seperti "berbakat" dan "cacat mental." Nilai tes akan sedikit dipengaruhi oleh pengajaran langsung. Setiap prediksi ini, dan lain-lain, kemudian akan diuji, satu per satu. Jika hasil positif diperoleh untuk setiap prediksi, bukti gabungan memberikan dukungan terhadap klaim bahwa tes mengukur kecerdasan. Jika prediksi tidak dikonfirmasi, mengatakan nilai tidak meningkat dengan usia, kita harus menyimpulkan bahwa baik tes ini bukan merupakan ukuran yang valid kecerdasan, atau ada sesuatu yang salah dengan teori kami. Sebagai Cronbach dan Meehl 5 telah menunjukkan, dengan validasi konstruk teori dan tes sedang divalidasi pada saat yang sama. Metode Digunakan Memperoleh Bukti untuk Membangun Validasi. Seperti tercantum dalam ilustrasi kita, tidak ada metode tunggal yang memadai membangun validitas konstruk. Ini adalah masalah mengumpulkan bukti dari berbagai sumber. Kami dapat menggunakan kedua validitas isi dan validitas-kriteria terkait sebagai bukti parsial untuk mendukung validitas konstruk, tetapi tak satu pun dari mereka saja sudah cukup. Membangun validasi tergantung pada kesimpulan logis yang diambil dari berbagai jenis data. Prosedur berikut menggambarkan berbagai metode yang dapat digunakan dalam memperoleh bukti untuk validitas konstruk: 6 Century-Crofts, 1964). 1. Analisis proses mental yang diperlukan oleh item tes. Satu dapat menganalisis proses mental yang terlibat dengan memeriksa item tes untuk menentukan faktor-faktor apa mereka muncul untuk mengukur dan / atau dengan pemberian tes untuk siswa individu dan memiliki mereka "berpikir keras" karena mereka menjawab. Dengan demikian, pemeriksaan tes ilmu pengetahuan dapat menunjukkan bahwa nilai tes kemungkinan akan dipengaruhi oleh pengetahuan, pemahaman, dan kemampuan kuantitatif. Demikian pula, "berpikir keras" pada tes penalaran aritmatika dapat memverifikasi bahwa item panggilan untuk proses penalaran dimaksudkan, atau mungkin mengungkapkan bahwa sebagian besar masalah dapat diselesaikan dengan prosedur trial-and-error yang sederhana. Perbandingan nilai dari kelompok yang dikenal. Dalam beberapa kasus, adalah mungkin untuk memprediksi bahwa nilai akan berbeda dari satu kelompok ke kelompok lain. Ini mungkin kelompok usia, anak laki-laki dan perempuan, terlatih dan tidak terlatih, disesuaikan dan menyesuaikan diri, dan sejenisnya. Sebagai contoh, sebagian besar kemampuan meningkat dengan usia (setidaknya selama masa kanak-kanak dan remaja), dan anak laki-laki mendapatkan skor yang lebih tinggi dibandingkan anak perempuan pada tes tertentu (misalnya, pemahaman mekanik). Selain itu, masuk akal untuk mengharapkan bahwa skor tes prestasi akan membedakan antara kelompok dengan jumlah yang berbeda dari pelatihan dan bahwa nilai pada persediaan penyesuaian akan membedakan antara kelompok disesuaikan dan maladjusted individu. Dengan demikian, prediksi perbedaan untuk tes tertentu dapat diperiksa terhadap kelompok-kelompok yang diketahui berbeda dan hasilnya digunakan sebagai dukungan parsial untuk validasi konstruk. Perbandingan skor sebelum dan setelah beberapa pengobatan tertentu. Beberapa nilai ujian dapat diharapkan akan cukup tahan terhadap pelatihan khusus (misalnya, kecerdasan), sedangkan yang lain dapat diharapkan untuk meningkatkan (misalnya, prestasi). Demikian pula, beberapa skor tes dapat diharapkan untuk mengubah jenis tertentu sebagai pengobatan eksperimental diperkenalkan. Sebagai contoh, kita akan mengharapkan nilai pada tes kecemasan untuk berubah ketika individu mengalami pengalaman kecemasan-memproduksi. Dengan demikian, dari teori yang mendasari sifat yang diukur, kita dapat membuat prediksi bahwa skor tes tertentu akan berubah (atau tetap stabil) dalam berbagai kondisi. Jika prediksi kami diverifikasi, hasilnya memberikan dukungan lebih lanjut untuk validasi konstruk. Korelasi dengan tes lainnya. Nilai dari setiap tes tertentu dapat diharapkan berkorelasi secara substansial dengan nilai tes lain yang mungkin mengukur hal yang sama. Dengan cara yang sama, nilai tes dapat diharapkan memiliki korelasi rendah dengan tes yang dirancang untuk mengukur kemampuan yang berbeda atau sifat. Sebagai contoh, kita akan mengharapkan satu set skolastik skor tes bakat berkorelasi lebih tinggi dengan orang-orang dari tes bakat skolastik lain, tetapi jauh lebih rendah dengan skor tes bakat musik. Dengan demikian, untuk setiap tes yang diberikan, kami akan memprediksi korelasi tinggi dengan tes seperti dan korelasi rendah dengan tes seperti. Selain itu, kami juga bisa memprediksi bahwa skor tes akan berkorelasi dengan berbagai kriteria praktis. Skor bakat skolastik, misalnya, harus berkorelasi dengan nilai memuaskan sekolah, nilai tes prestasi, dan langkah-langkah lain prestasi. Jenis kedua bukti, tentu saja, validitas-kriteria terkait. Kepentingan kita di sini, bagaimanapun, tidak dalam masalah mendesak dari prediksi, melainkan dalam menggunakan korelasi ini untuk mendukung klaim bahwa tes adalah ukuran dari bakat skolastik. Seperti yang ditunjukkan sebelumnya, membangun validasi tergantung pada berbagai macam bukti, termasuk yang disediakan oleh jenis-jenis validitas. Dalam memeriksa validitas konstruk, kepentingan kita tidak terbatas pada konstruksi psikologis tes dirancang untuk mengukur. Setiap faktor yang mungkin mempengaruhi nilai tes menjadi perhatian yang sah. Sebagai contoh, meskipun penulis uji mengklaim langkah-langkah tes penalaran aritmatika nya, kita mungkin berhak bertanya sejauh mana skor tes dipengaruhi oleh keterampilan komputasi, kemampuan membaca, dan faktor-faktor yang sama. Secara dipahami, validitas konstruk merupakan upaya untuk menjelaskan perbedaan dalam skor tes. Alih-alih bertanya, "Apakah ukuran tes ini apa yang penulis mengklaim mengukur?" kita bertanya, "Tepatnya apa ukuran tes ini? Bagaimana kita paling bermakna menafsirkan skor secara psikologis?" Tujuan validasi konstruk adalah untuk mengidentifikasi sifat dan kekuatan dari semua faktor yang mempengaruhi kinerja pada tes. Validitas konstruk sangat penting di semua jenis testing "prestasi, bakat, dan pengembangan pribadi-sosial. Apabila memilih tes standar, kita harus mencatat apa interpretasi disarankan untuk tes dan kemudian meninjau uji manual untuk menentukan bukti total yang tersedia yang mendukung interpretasi ini. Kepercayaan diri yang kita dapat membuat interpretasi yang diajukan secara langsung tergantung pada jenis bukti yang diajukan. Juga, jika kita menduga bahwa skor tes dipengaruhi oleh faktor-faktor lain selain yang dijelaskan dalam manual (seperti kecepatan dan kemampuan membaca), kita harus memeriksa firasat ini dengan eksperimen yang cocok kita sendiri. VALIDITAS KRITERIA-DISEBUTKAN TES PENGUASAAN 96Seperti disebutkan dalam Bab 1, tes mengacu-norma dirancang untuk menekankan perbedaan antara individu. Kinerja seseorang pada tes norma-referenced memiliki sedikit makna dengan sendirinya. Untuk menjadi bermakna, kinerja uji harus dibandingkan dengan kinerja orang lain yang telah mengambil tes. Kami menilai apakah nilai norma-referenced tinggi atau rendah dengan 'mencatat posisi relatif dalam satu set nilai. Dasar pendekatan pengukuran ini adalah penyebaran luas nilai tes sehingga diskriminasi diandalkan dapat dibuat antara individu-individu. Kita bisa berbicara tentang perbedaan antara Tom dan Bill dan Mary Jane dan dengan keyakinan yang lebih besar jika perbedaan skor besar. Variabilitas ini antara skor, yang penting untuk pengujian norma-referenced, juga diperlukan untuk menghitung koefisien validitas. Bahkan, sebagian besar langkah-langkah statistik tradisional untuk memperkirakan validitas dan reliabilitas menggunakan rumus berdasarkan variabilitas antara skor. Dengan demikian, meskipun semua berbagai perkiraan validitas dibahas sebelumnya sesuai untuk pengujian norma-referenced, mereka tidak benar-benar sesuai untuk menilai keabsahan tes penguasaan kriteria-direferensikan. 7 1 Whe reas variabilitas antara nilai sangat penting untuk tes mengacu-norma, itu tidak relevan untuk tes penguasaan kriteria-direferensikan. Tes ini dirancang untuk menggambarkan jenis tugas seorang individu dapat melakukan. Jika semua siswa dapat melakukan himpunan tugas (misalnya, mengidentifikasi alat ukur termasuk dalam unit cuaca) pada akhir instruksi, dan dengan demikian semua mendapatkan nilai sempurna (variabilitas nol), itu lebih baik. Dari sudut pandang penguasaan pembelajaran, pengujian dan instruksi akan muncul untuk menjadi efektif. Karena variabilitas antara skor bukanlah kondisi yang diperlukan untuk tes penguasaan kriteria-direferensikan baik, langkah-langkah statistik konvensional untuk menentukan validitas yang tidak pantas. 8 Jenis validitas yang sangat penting terbesar untuk tes penguasaan kriteria-direferensikan adalah validitas isi. Prosedur untuk memperoleh validitas isi dijelaskan sebelumnya dalam bab ini adalah sebagai berlaku di sini seperti mereka dengan tes norma-referenced. Fakta bahwa tes penguasaan kriteria-direferensikan biasanya terbatas pada domain yang lebih delimited tugas belajar (misalnya, satuan atau bab), bahkan menyederhanakan proses mendefinisikan dan memilih sampel yang representatif dari tugas. Dalam beberapa kasus, domain tugas sangat terbatas (misalnya, penambahan bilangan satu digit) bahwa sampel yang representatif dapat diperoleh tanpa menggunakan tabel spesifikasi. Meskipun validitas isi adalah perhatian utama dengan tes penguasaan kriteria-direferensikan, kami juga mungkin tertarik menggunakan hasil tes untuk membuat prediksi tentang murid. Kita mungkin, misalnya, menggunakan pretest kriteria-direferensikan untuk memprediksi siswa cenderung menguasai materi dalam unit instruksi, atau menggunakan tes penguasaan end-of-satuan untuk menentukan murid harus melanjutkan ke unit berikutnya instruksi . Keputusan instruksional seperti ini membutuhkan beberapa bukti (validitas-kriteria terkait) bahwa keputusan kami didasarkan nyenyak. Bukti ini dapat diperoleh dengan cara meja harapan, seperti yang ditunjukkan pada Tabel 4.6. Ini akan dicatat dalam tabel ini bahwa sebagian besar murid dengan skor pretest dari 20 atau lebih rendah gagal untuk mencapai penguasaan pada akhir unit. Dalam kasus seperti itu, skor tes dari 20 akan memberikan skor cutoff yang baik untuk menentukan siswa harus melanjutkan dengan unit dan yang seharusnya menerima bantuan perbaikan sebelum melanjutkan. Kami akan, tentu saja, lebih memilih sejumlah besar murid dari tiga puluh ketika memilih nilai cutoff tersebut, tapi ini merupakan situasi kelas yang realistis. Seperti disebutkan sebelumnya, itu sering mungkin untuk meningkatkan jumlah murid yang digunakan dalam tabel harapan dengan menggabungkan hasil tes dari beberapa kelas. Tidak ada dalam sifat pengujian penguasaan kriteria-direferensikan untuk menyingkirkan validitas konstruk. Begitu banyak bukti yang mendukung untuk validitas konstruk tergantung pada korelasi dan ukuran statistik lain, bagaimanapun, bahwa validitas konstruk tes kriteria-direferensikan akan, kebutuhan, didasarkan pada bukti-bukti yang agak sedikit (yaitu, hanya bukti bahwa tidak tergantung pada variabilitas antara skor). FAKTOR YANG MEMPENGARUHI VALIDITAS 98Banyak faktor yang cenderung membuat hasil tes tidak valid untuk digunakan. Beberapa agak jelas dan mudah dihindari. Tidak ada guru akan berpikir untuk mengukur pengetahuan tentang ilmu-ilmu sosial dengan tes bahasa Inggris. Guru juga akan mempertimbangkan mengukur keterampilan pemecahan masalah di kelas tiga aritmatika dengan tes yang dirancang untuk anak kelas enam. Dalam kedua kasus hasil tes akan jelas tidak valid. Faktor-faktor yang mempengaruhi validitas yang bersifat umum ini sama tapi jauh lebih halus dalam karakter. Sebagai contoh, seorang guru dapat membebani tes ilmu sosial dengan item mengenai fakta-fakta sejarah dan dengan demikian itu kurang valid sebagai ukuran pencapaian dalam studi sosial. Atau guru kelas tiga dapat memilih masalah aritmatika yang sesuai untuk murid-muridnya, tetapi menulis arah yang hanya pembaca lebih mampu memahami dengan jelas. Tes aritmatika kemudian menjadi tes membaca yang membatalkan hasil untuk digunakan. Ini adalah sifat dari beberapa faktor yang lebih halus mempengaruhi validitas. Ini adalah faktor yang guru harus waspada, apakah membangun tes kelas atau memilih tes standar. Faktor-faktor dalam Test Sendiri 98Pemeriksaan yang seksama item tes akan menunjukkan apakah tes tampaknya untuk mengukur kandungan subyek dan fungsi mental bahwa guru tertarik dalam pengujian. Namun, salah satu dari faktor-faktor berikut dapat mencegah item tes dari berfungsi sebagaimana dimaksud dan dengan demikian menurunkan validitas hasil pengujian: 1. arah yang tidak jelas. Arah yang tidak jelas menunjukkan kepada murid bagaimana menanggapi item, apakah itu diperbolehkan untuk menebak, dan cara merekam jawaban akan cenderung mengurangi validitas. Membaca kosa kata dan kalimat struktur terlalu sulit. Kosakata dan struktur kalimat yang terlalu rumit untuk siswa mengambil tes akan menghasilkan tes mengukur pemahaman bacaan dan aspek kecerdasan daripada aspek perilaku murid bahwa tes ini dimaksudkan untuk mengukur. Tingkat Inappropriate kesulitan dari item tes. Dalam tes norma-direferensikan, item yang terlalu mudah atau terlalu sulit tidak akan memberikan diskriminasi handal di antara murid dan validitas karena itu akan lebih rendah. Dalam tes kriteria-direferensikan, kegagalan untuk mencocokkan kesulitan item tes dengan kesulitan yang ditentukan dalam tujuan instruksional akan menurunkan validitas. Item tes buruk dibangun. item uji yang sengaja memberikan petunjuk jawabannya akan cenderung mengukur kewaspadaan para murid dalam mendeteksi petunjuk serta aspek perilaku murid bahwa tes ini dimaksudkan untuk mengukur. Ambiguitas. pernyataan ambigu dalam item tes berkontribusi terhadap salah tafsir dan kebingungan. Ambiguitas terkadang membingungkan siswa yang lebih baik lebih dari siswa miskin, menyebabkan item berfungsi bahkan kurang efektif untuk mereka. Item tes yang tidak pantas untuk hasil yang diukur. Mencoba untuk mengukur pemahaman, keterampilan berpikir, dan jenis kompleks lainnya prestasi dengan bentuk tes yang sesuai hanya untuk mengukur pengetahuan faktual akan membatalkan hasil. Uji terlalu pendek. Sebuah tes hanya contoh dari banyak pertanyaan yang mungkin ditanyakan. Jika tes ini terlalu singkat untuk memberikan sampel yang representatif dari perilaku kita tertarik, validitas akan menderita sesuai. Pengaturan yang tidak tepat item. item Uji biasanya diatur dalam urutan kesulitan dengan item termudah pertama. Menempatkan item yang sulit di awal tes dapat menyebabkan murid untuk menghabiskan terlalu banyak waktu pada ini dan mencegah mereka dari mencapai barang-barang mereka dengan mudah bisa menjawab. Pengaturan yang tidak tepat juga dapat mempengaruhi validitas dengan memiliki efek yang merugikan pada motivasi murid. Pola diidentifikasi jawaban. Menempatkan jawaban dalam beberapa pola yang sistematis (misalnya, T, T, F, F, atau A, B, C, D, A, B, C, D) akan memungkinkan siswa untuk menebak jawaban atas beberapa item yang lebih mudah dan ini akan menurunkan validitas. Singkatnya, cacat dalam pembangunan tes yang mencegah item tes dari berfungsi selaras dengan tujuan penggunaannya akan memberikan kontribusi pada ketidakabsahan pengukuran. Banyak dari apa yang tertulis dalam bab-bab berikut diarahkan meningkatkan validitas hasil yang diperoleh dengan tes kelas dan instrumen evaluasi lainnya. Berfungsi Konten dan Pengajaran Prosedur 99Dalam kasus pengujian prestasi, isi berfungsi item tes tidak dapat ditentukan hanya dengan memeriksa bentuk dan isi tes. Misalnya, item berikut mungkin muncul untuk mengukur penalaran ilmu hitung jika diperiksa tanpa mengacu pada apa yang siswa telah diajarkan: Jika pipa 40 'dipotong sehingga bagian yang lebih pendek adalah 2/3 selama lagi sepotong, apa yang panjang dari potongan yang lebih pendek? Namun, jika guru telah mengajarkan solusi untuk masalah tertentu sebelum memberikan tes, item tes sekarang ukuran tidak lebih dari pengetahuan hafal. Demikian pula, tes pemahaman, berpikir kritis, dan kompleks hasil belajar lainnya adalah tindakan yang sah di daerah ini hanya jika item tes berfungsi sebagaimana dimaksud. Jika murid sebelumnya telah diajarkan solusi untuk masalah-masalah tertentu yang termasuk dalam ujian, atau telah diajarkan langkah mekanik untuk mendapatkan solusi, tes tersebut tidak bisa lagi dianggap instrumen yang valid untuk mengukur proses mental yang lebih kompleks. Faktor-faktor di Uji Administrasi dan Scoring 100Administrasi dan scoring tes juga dapat memperkenalkan faktor yang memiliki efek yang merugikan pada keabsahan hasil. Dalam kasus tes buatan guru, faktor-faktor seperti waktu yang cukup untuk menyelesaikan tes, bantuan tidak adil untuk siswa individu yang meminta bantuan, kecurangan selama pemeriksaan, dan skor tidak dapat diandalkan jawaban esai akan cenderung untuk menurunkan validitas. Dalam kasus tes standar, kegagalan untuk mengikuti petunjuk standar dan batas waktu, memberikan bantuan siswa yang tidak sah, dan kesalahan dalam mencetak gol sama akan berkontribusi pada validitas rendah. Untuk semua jenis tes, kondisi fisik dan psikologis yang merugikan pada saat pengujian juga mungkin memiliki efek yang merugikan. Faktor-faktor dalam Responses Murid ' 100Dalam beberapa kasus, hasil tes tidak valid karena faktor personal yang mempengaruhi respon pupil terhadap situasi tes daripada segala kekurangan dalam instrumen tes. Siswa dapat terhambat oleh gangguan emosi yang mengganggu hasil tes mereka. Beberapa murid ketakutan karena situasi tes dan dengan demikian tidak mampu merespon secara normal. Yang lain tidak termotivasi untuk mengajukan upaya terbaik mereka. Ini dan faktor lain yang membatasi dan memodifikasi respon murid dalam situasi tes jelas akan menurunkan validitas hasil tes. Faktor kurang jelas yang mempengaruhi hasil tes adalah bahwa respon ditetapkan. 11 Satu set respon kecenderungan yang konsisten untuk mengikuti pola tertentu dalam menanggapi untuk menguji item. Sebagai contoh, beberapa orang akan merespon "benar" ketika mereka tidak tahu jawaban untuk item benar-salah, sementara orang lain akan cenderung untuk menandai "palsu." Sebuah tes dengan sejumlah besar laporan yang benar sehingga akan menguntungkan bagi tipe pertama orang dan kelemahan dari jenis kedua. Meskipun beberapa set respon, seperti yang diilustrasikan, dapat diimbangi dengan prosedur yang cermat uji konstruksi (misalnya, termasuk jumlah yang sama pernyataan benar dan salah dalam ujian) set respon lain yang lebih sulit dikendalikan. Khas respon set dalam kategori terakhir ini adalah kecenderungan untuk bekerja untuk kecepatan bukan ketepatan, kecenderungan untuk berjudi bila ragu, dan penggunaan gaya tertentu dalam menanggapi tes esai. Respon set ini mengurangi keabsahan hasil pengujian dengan memperkenalkan faktor-faktor nilai tes yang tidak relevan dengan tujuan pengukuran. 12 Sifat Grup dan Kriteria tersebut 101 Validitas selalu spesifik untuk kelompok tertentu. Tes aritmatika berdasarkan masalah cerita, misalnya, dapat mengukur kemampuan penalaran dalam kelompok lambat, dan kombinasi recall sederhana informasi dan keterampilan komputasi dalam kelompok yang lebih maju. Demikian pula, nilai pada tes ilmu pengetahuan dapat menyumbang sebagian besar dengan membaca pemahaman dalam satu kelompok dan dengan pengetahuan tentang fakta-fakta lain. Apa langkah-langkah uji dipengaruhi oleh faktor-faktor seperti usia, jenis kelamin, tingkat kemampuan, latar belakang pendidikan, dan latar belakang budaya. Dengan demikian, dalam menilai laporan uji validitas termasuk dalam manual tes, atau sumber lain, penting untuk dicatat sifat kelompok validasi. Seberapa dekat itu membandingkan karakteristik signifikan terhadap sekelompok murid kita ingin uji menentukan bagaimana berlaku Informasi adalah untuk kelompok tertentu kami. Dalam mengevaluasi koefisien validitas, juga perlu mempertimbangkan sifat dari kriteria yang digunakan. Sebagai contoh, skor pada tes bakat matematika cenderung untuk memberikan prediksi yang lebih akurat dari pencapaian dalam kursus fisika di mana masalah kuantitatif ditekankan daripada di salah satu di mana mereka hanya memainkan peran kecil. Demikian juga, kita bisa mengharapkan nilai pada tes berpikir kritis berkorelasi lebih tinggi dengan nilai dalam studi sosial program yang menekankan pemikiran kritis dibandingkan pada mereka yang sangat tergantung pada menghafal informasi faktual. Hal lain dianggap sama, semakin besar kesamaan antara perilaku diukur dengan tes dan perilaku diwakili dalam kriteria, semakin tinggi koefisien validitas. Karena informasi validitas bervariasi dengan sifat kelompok diuji dan dengan komposisi ukuran kriteria yang digunakan, validasi data yang dipublikasikan harus dianggap sebagai sangat tentatif. Bila mungkin, validitas hasil tes harus diperiksa dalam situasi lokal yang spesifik. Ini diskusi tentang faktor yang mempengaruhi validitas hasil tes harus membuat jelas sifat meresap dan fungsional validitas konsep. Dalam analisis akhir validitas hasil tes didasarkan pada sejauh mana perilaku ditimbulkan dalam situasi pengujian adalah representasi benar perilaku yang sedang dievaluasi. Tims, apa pun dalam pembangunan atau administrasi dari tes yang menyebabkan hasil tes menjadi representatif dari karakteristik orang yang diuji memberikan kontribusi untuk menurunkan validitas. Dalam arti yang sangat nyata, maka, itu adalah pengguna dari tes yang harus membuat keputusan akhir mengenai validitas dari hasil tes. Dia adalah satu-satunya yang tahu seberapa baik tes sesuai penggunaan yang khusus, seberapa baik kondisi pengujian yang terkontrol, dan bagaimana tanggapan khas adalah untuk situasi pengujian. pengaruh ini dapat ditemukan dalam instrumen tes itu sendiri, beberapa dalam hubungan pengajaran pengujian, beberapa dalam administrasi dan skor tes, beberapa di tanggapan atipikal siswa dengan situasi tes, dan masih orang lain dalam sifat kelompok diuji dan dalam komposisi tindakan kriteria yang digunakan. Tujuan utamanya dalam pembangunan, seleksi, dan penggunaan tes, dan instrumen evaluasi lainnya, adalah untuk mengendalikan faktor-faktor yang memiliki efek buruk pada validitas dan menginterpretasikan hasil evaluasi sesuai dengan apa informasi validitas tersedia. RINGKASAN 102Kualitas yang paling penting untuk dipertimbangkan saat memilih 'atau membangun instrumen evaluasi adalah validitas. Hal ini mengacu pada sejauh mana hasil evaluasi melayani penggunaan tertentu yang mereka dimaksudkan. Dalam menafsirkan informasi validitas, penting untuk diingat bahwa validitas mengacu pada hasil daripada instrumen, bahwa kehadirannya adalah masalah derajat, dan itu selalu spesifik untuk beberapa penggunaan tertentu. Ada tiga tipe dasar validitas. Konten validitas mengacu pada sejauh mana sebuah tes mengukur sampel yang representatif dari isi pelajaran-materi dan perubahan perilaku dalam pertimbangan. Hal ini terutama penting dalam pengujian prestasi dan ditentukan oleh analisis logis dari konten pengujian. -Kriteria terkait validitas berkaitan dengan sejauh mana hasil tes akurat dalam memprediksi beberapa kinerja masa depan atau memperkirakan beberapa kinerja saat ini. Jenis validitas dapat dilaporkan dengan menggunakan koefisien korelasi disebut koefisien validitas atau dengan cara tabel harapan. Ini adalah makna khusus dalam semua jenis pengujian bakat, tetapi yang bersangkutan setiap kali hasil tes digunakan untuk membuat prediksi spesifik, atau kapan tes sedang dipertimbangkan sebagai pengganti prosedur memakan waktu lebih. Membangun validitas mengacu pada sejauh yang hasil tes dapat ditafsirkan dari segi konstruksi psikologis tertentu. Proses validasi konstruk melibatkan identifikasi dan klarifikasi faktor yang mempengaruhi nilai tes sehingga hasil tes dapat diartikan paling bermakna. Ini melibatkan akumulasi bukti dari berbagai studi yang berbeda. Kedua jenis validitas dapat digunakan sebagai dukungan parsial untuk validitas konstruk, tetapi itu adalah bukti gabungan dari semua sumber yang penting. Semakin lengkap bukti, semakin yakin kita tentang kualitas psikologis yang diukur dengan tes. Karena kriteria-referenced tes penguasaan tidak dirancang untuk membedakan antara individu-individu, jenis statistik validitas yang tidak pantas. Untuk jenis tes, kita harus bergantung terutama pada validitas isi. Dimana nilai tes yang akan digunakan untuk prediksi (misalnya, penguasaan-nonmastery), meja harapan dapat digunakan secara efektif. Sejumlah faktor cenderung mempengaruhi validitas hasil tes. Some Beberapa BELAJAR LATIHAN Dengan cara apa tabel spesifikasi berkontribusi terhadap validitas isi? Apa aspek validitas isi yang paling tepat untuk menderita jika tabel spesifikasi yang tidak digunakan? Bandingkan kesulitan relatif menentukan validitas isi untuk tes ejaan dan tes IPS. Untuk daerah mana akan tabel spesifikasi paling berguna? Why? Mengapa? Jika Anda ingin menentukan validitas isi dari tes prestasi standar, prosedur apa yang akan Anda ikuti? Jelaskan langkah demi langkah prosedur Anda dan memberikan alasan untuk setiap langkah. Jika sesama guru mengatakan kepada Anda bahwa tes prestasi standar tertentu memiliki validitas yang tinggi, apa jenis pertanyaan yang akan Anda ajukan padanya? Jenis validitas diilustrasikan oleh masing-masing pernyataan berikut? a. a. Skor tes berkorelasi dengan nilai saja. b. b. Sebuah tes dianalisis untuk melihat bagaimana hal itu cukup sampel apa yang telah diajarkan. c. c. Seorang guru membangun tabel harapan. d. d. Skor tinggi dan skor rendah pada tes dibandingkan untuk melihat bagaimana mereka berbeda. e. e. Validitas ditentukan oleh analisis logis saja. Apa keuntungan dari tabel harapan atas koefisien validitas untuk mengungkapkan efektivitas prediktif dari tes bakat skolastik? Apa beberapa keterbatasan? Apakah ada tipe tertentu bukti mungkin berguna dalam mengevaluasi validitas konstruk dari masing-masing berikut ini? a. a. Uji berpikir kritis. b. b. Tes kreativitas. c. c. Uji kecemasan. Pelajari bagian validitas manual tes untuk beberapa tes prestasi standar dan tes bakat skolastik. Bagaimana informasi yang berbeda untuk kedua jenis tes? Why? Mengapa? Konsultasikan bagian validitas dari Standar untuk Pendidikan dan Tes Psikologi (lihat daftar bacaan untuk bab ini) dan meninjau jenis informasi yang manual tes harus berisi. Bandingkan manual tes baru-baru terhadap Standar. 10. Daftar dan jelaskan secara singkat sebagai banyak faktor yang Anda bisa memikirkan yang mungkin menurunkan validitas norma-referenced tes kelas. Lakukan hal yang sama untuk kriteria-referenced tes. Faktor-faktor yang berbeda? SARAN UNTUK BACAAN LEBIH LANJUT . American Psychological Association . Standar Pendidikan dan Tes Psikologi Washington, D C.:. APA, 1974. Lihat bagian tentang validitas (halaman 25-48) untuk deskripsi dari tipe dasar dan sifat informasi validitas harus dicari dalam uji manual. Anastasi , A. Psychological Testing, 4th ed. New York: Macmillan Publishing Co, Inc, 1976 Bab 6, "Validitas:. Konsep Dasar". Menjelaskan jenis standar validitas dan metode penentuan mereka. Cronbach , LJ "Validitas," Bab 14 di RL Thorndike (ed.), Pendidikan Pengukuran. Washington, DC: American Council on Education 1971 Sebuah diskusi komprehensif validitas, dengan penekanan khusus pada tes pendidikan.. Popham , WJ, dan TR Husek . "Implikasi Kriteria-Referensi Pengukuran," di WJ Popham (ed.), Kriteria-Referensi Pengukuran. Englewood Cliffs, NJ:. Teknologi Pendidikan Publications, 1971 Menjelaskan karakteristik pengukuran kriteria-referenced dan kesulitan memperoleh langkah-langkah yang berarti validitas dan kehandalan. Uji Bulletin Wesman , AG . ganda-Entry Harapan Tabel Uji Service Bulletin, No 45 New York:.. The Psychological Corporation, 1966 buletin ini menjelaskan dan menggambarkan bagaimana mempersiapkan tabel harapan menggunakan dua prediktor. BAB 5KEANDALAN DAN KARAKTERISTIK DIINGINKAN LAINNYASebelah validitas, reliabilitas adalah karakteristik yang paling penting dari hasil evaluasi. . . . . . . Keandalan (1) memberikan konsistensi yang membuat validitas mungkin, dan (2) menunjukkan berapa banyak keyakinan kita dapat menempatkan dalam hasil kami. . . . . . . Kepraktisan prosedur evaluasi adalah, tentu saja, juga menjadi perhatian guru kelas sibuk. Dalam Bab 4 itu menekankan bahwa validitas adalah pertimbangan yang paling penting dalam pemilihan dan konstruksi prosedur evaluasi. Pertama dan terpenting kami ingin hasil evaluasi untuk melayani penggunaan spesifik yang mereka dimaksudkan. Selanjutnya dalam pentingnya adalah kehandalan, dan berikut ini yang merupakan sejumlah fitur praktis yang terbaik dapat diklasifikasikan ke dalam pos dari kegunaan. KEANDALAN 105Keandalan mengacu pada konsistensi pengukuran. Artinya, bagaimana skor tes konsisten atau hasil evaluasi lain dari satu pengukuran ke yang lain. Anggaplah, misalnya, bahwa Miss Jones baru saja diberi tes prestasi untuk murid-muridnya. Bagaimana serupa akan skor siswa 'bila dia diuji mereka kemarin atau besok atau minggu depan? Bagaimana nilai bervariasi telah ia memilih sampel yang berbeda dari item yang setara? Jika itu adalah tes esai, berapa banyak akan nilai telah diubah telah guru yang berbeda mencetak gol itu? Ini adalah jenis pertanyaan yang dengan keandalan yang bersangkutan. Nilai tes hanya memberikan ukuran terbatas perilaku yang diperoleh pada waktu tertentu. Kecuali pengukuran dapat terbukti cukup konsisten (yaitu, digeneralisasikan) lebih berbedam m kesempatan atau lebih sampel yang berbeda dari perilaku yang sama, sedikit kepercayaan dapat ditempatkan dalam hasil. Di sisi lain, kita tidak bisa mengharapkan hasil pengujian yang akan benar-benar konsisten. Ada banyak faktor selain kualitas yang diukur yang dapat mempengaruhi nilai tes. Jika tes tunggal diberikan kepada kelompok yang sama dua kali dalam suksesi dekat, beberapa variasi dalam nilai dapat diharapkan karena fluktuasi sementara dalam memori, perhatian, tenaga, kelelahan, ketegangan emosional, menebak, dan faktor-faktor yang sama. Dengan jangka waktu yang lebih lama antara tes, variasi tambahan dalam skor dapat disebabkan oleh intervensi pengalaman belajar, perubahan kesehatan, lupa, dan kondisi pengujian kurang sebanding. Jika kita menggunakan sampel yang berbeda dari item dalam tes kedua, masih faktor lain yang mungkin mempengaruhi hasil. Individu mungkin menemukan satu tes lebih mudah daripada yang lain karena kebetulan berisi item lebih lanjut tentang topik tertentu yang mereka kenal. 9 faktor-faktor luar Seperti ini memperkenalkan sejumlah kesalahan dalam semua nilai tes. Metode penentuan keandalan pada dasarnya berarti menentukan berapa banyak kesalahan yang hadir dalam kondisi yang berbeda. Secara umum, lebih konsisten hasil tes kami berasal dari satu pengukuran ke yang lain, semakin sedikit kesalahan saat dan, akibatnya, semakin besar keandalan. Arti dari keandalan, seperti yang diterapkan untuk pengujian dan evaluasi, dapat lebih diperjelas dengan mencatat poin umum berikut: Keandalan mengacu pada hasil yang diperoleh dengan instrumen evaluasi dan tidak instrumen itu sendiri. Setiap instrumen tertentu mungkin memiliki sejumlah reliabilitas yang berbeda, tergantung pada kelompok yang terlibat dan situasi di mana ia digunakan. Oleh karena itu lebih tepat untuk berbicara tentang keandalan "skor tes," atau "pengukuran," daripada "tes", atau "instrumen." Sebuah titik yang terkait erat adalah bahwa perkiraan keandalan selalu mengacu pada jenis tertentu dari konsistensi. Nilai tes tidak dapat diandalkan pada umumnya. Mereka dapat diandalkan (atau digeneralisasikan) selama periode waktu yang berbeda, lebih sampel yang berbeda dari pertanyaan, lebih dari penilai yang berbeda, dan sejenisnya. Hal ini dimungkinkan untuk nilai tes untuk konsisten dalam salah satu hal ini dan tidak di negara lain. Jenis yang sesuai konsistensi dalam kasus tertentu ditentukan oleh penggunaan dibuat dari hasil. Sebagai contoh, jika kita ingin tahu apa yang orang akan seperti pada beberapa waktu mendatang, keajegan skor sangat penting. Di sisi lain, jika kita ingin mengukur pergeseran individu dalam kecemasan dari waktu ke waktu, kita akan membutuhkan ukuran yang tidak memiliki keteguhan atas kesempatan untuk mendapatkan informasi yang kita inginkan. Jadi, untuk interpretasi yang berbeda kita perlu analisis yang berbeda dari konsistensi. Mengobati keandalan sebagai karakteristik umum hanya dapat menyebabkan interpretasi yang salah. Keandalan adalah perlu tetapi bukan kondisi yang cukup untuk validitas. Sebuah tes yang memberikan hasil yang benar-benar konsisten tidak mungkin memberikan informasi yang valid tentang perilaku yang diukur. Di sisi lain, hasil tes yang sangat konsisten dapat mengukur hal yang salah atau dapat digunakan dalam cara-cara yang tidak pantas. Dengan demikian, keandalan rendah dapat diharapkan untuk membatasi tingkat validitas yang diperoleh, tapi keandalan yang tinggi tidak memberikan jaminan bahwa tingkat memuaskan validitas akan hadir. Singkatnya, keandalan hanya memberikan konsistensi yang membuat validitas mungkin. Meskipun ukuran yang sangat handal mungkin memiliki sedikit atau tidak ada validitas, ukuran yang telah terbukti memiliki tingkat validitas prediktif memuaskan kebutuhan harus memiliki keandalan yang cukup. Jadi, di mana kita hanya tertarik dalam memprediksi kriteria tertentu, keandalan akan sedikit perhatian jika validitas prediktif yang memuaskan. 10 4. Tidak seperti validitas, reliabilitas terutama statistik di alam. Analisis logis dari tes akan memberikan sedikit bukti mengenai keandalan skor. Tes harus diberikan, satu atau beberapa kali, untuk kelompok yang tepat orang dan konsistensi hasil ditentukan. Konsistensi ini dapat dinyatakan dalam hal pergeseran dalam kedudukan relatif orang dalam kelompok atau dalam hal jumlah variasi yang diharapkan dalam skor individu tertentu itu. Konsistensi dari tipe pertama dilaporkan dengan menggunakan koefisien korelasi disebut koefisien reliabilitas. Konsistensi jenis kedua dilaporkan dengan cara kesalahan baku pengukuran. Kedua metode mengekspresikan keandalan secara luas digunakan dan harus dipahami oleh orang-orang yang bertanggung jawab untuk menafsirkan hasil tes. 11 Karena kedua metode memerlukan variabilitas dalam skor, prosedur ini untuk memperkirakan kehandalan terutama berguna dengan norma-referenced tindakan. Menentukan Keandalan oleh Metode Korelasi 107Dalam menentukan keandalan akan diinginkan untuk mendapatkan dua set langkah-langkah di bawah kondisi yang sama dan kemudian membandingkan hasilnya. Prosedur ini tidak mungkin, tentu saja, karena kondisi di mana data evaluasi diperoleh tidak dapat identik. Sebagai pengganti prosedur yang ideal ini beberapa metode estimasi reliabilitas telah diperkenalkan. Metode serupa dalam bahwa semua dari mereka melibatkan menghubungkan dua set data, diperoleh baik dari instrumen evaluasi yang sama atau dari bentuk setara dengan prosedur yang sama. Koefisien korelasi yang digunakan untuk menentukan reliabilitas dihitung dan diinterpretasikan dengan cara yang sama seperti yang digunakan dalam menentukan perkiraan statistik validitas. Satu-satunya perbedaan antara koefisien validitas dan koefisien reliabilitas adalah bahwa mantan didasarkan pada kesepakatan dengan kriteria luar, dan yang terakhir didasarkan pada kesepakatan antara dua set hasil dari prosedur yang sama. Metode utama memperkirakan kehandalan ditunjukkan pada Tabel 5.1. Perhatikan bahwa berbagai jenis konsistensi ditentukan oleh methods berbeda "konsistensi selama periode waktu, konsistensi atas berbagai bentuk instrumen, dan konsistensi dalam instrumen itu sendiri. Koefisien reliabilitas yang dihasilkan dari setiap metode harus ditafsirkan dalam hal jenis konsistensi sedang diselidiki. Masing-masing metode memperkirakan keandalan akan dipertimbangkan lebih lanjut secara rinci seperti yang kita lanjutkan. Meskipun metode ini akan didiskusikan terutama dengan mengacu pada prosedur pengujian, mereka juga berlaku untuk jenis lain dari teknik evaluasi. TABEL 5.1 metode keandalan estimatinc Type of Jenis Keandalan Ukur Procedure Prosedur Test-retest metode Mengukur stabilitas Setara-bentuk Mengukur kesepadanan- method metode lence bahwa kekerasan (Test-retest dengan Measure bentuk setara stabilitas) dan kesetaraan Split-setengah metode Mengukur konsistensi internal Berikan tes yang sama dua kali untuk kelompok yang sama dengan interval waktu antara tes dari beberapa menit sampai beberapa tahun Berikan dua bentuk tes untuk kelompok yang sama dalam suksesi dekat Berikan dua bentuk tes untuk kelompok yang sama dengan peningkatan interval waktu antara bentuk Kuder-Richardson Ukur internal method metode consistency konsistensi Berikan tes sekali. Skor dua bagian setara dengan tes (misalnya, barang-barang aneh dan bahkan item); koefisien reliabilitas yang benar agar sesuai seluruh tes dengan rumus Spearman-Brown Berikan tes sekali. Skor keseluruhan pengujian dan menerapkan rumus Kuder-Richardson Ini akan ditarik dari pembahasan sebelumnya kami koefisien korelasi bahwa hubungan positif yang sempurna ditandai dengan 1,00 dan hubungan nol dengan .00. Tindakan stabilitas di, 80 dan .90 's biasanya dilaporkan untuk tes standar kecerdasan dan prestasi atas kesempatan dalam tahun yang sama. Salah satu faktor penting yang perlu diingat dalam menafsirkan tindakan stabilitas adalah interval waktu antara tes. Jika interval waktu ini singkat, katakanlah satu atau dua hari, keteguhan dari hasil akan meningkat oleh kenyataan bahwa murid akan mengingat beberapa jawaban mereka dari tes pertama yang kedua. Jika interval waktu yang panjang, katakanlah sekitar satu tahun, hasilnya akan tidak hanya dipengaruhi oleh ketidakstabilan prosedur pengujian tetapi juga oleh perubahan aktual dalam murid selama periode waktu. Secara umum, semakin lama interval waktu antara tes dan tes ulang lebih hasilnya dipengaruhi oleh perubahan pupil makhluk karakteristik diukur, dan semakin kecil koefisien reliabilitas. Jam berapa interval antara tes yang paling disukai akan sangat tergantung pada penggunaan yang akan dibuat dari hasil. Jika kita mencoba untuk memprediksi dari nilai tes kelas sembilan apakah anak laki-laki cenderung untuk berhasil di perguruan tinggi, stabilitas selama beberapa tahun cukup penting. Jika kita mencoba untuk memprediksi apakah dia akan berhasil dalam kursus aljabar tahun ini, stabilitas selama periode lebih lama dari beberapa bulan yang cukup penting. Dengan demikian, untuk beberapa keputusan yang kita tertarik pada koefisien reliabilitas berdasarkan interval panjang antara tes dan tes ulang dan, untuk orang lain, koefisien reliabilitas berdasarkan interval pendek mungkin cukup. Yang penting adalah untuk mencari bukti stabilitas yang sesuai dengan penafsiran tertentu yang akan dibuat. Kebanyakan guru tidak akan menemukan mungkin untuk menghitung koefisien reliabilitas test-retest untuk tes kelas mereka sendiri. Namun, dalam memilih tes standar stabilitas nilai berfungsi sebagai salah satu kriteria penting. Manual tes harus memberikan bukti stabilitas, menunjukkan interval waktu antara tes dan setiap pengalaman yang tidak biasa anggota kelompok mungkin memiliki antara pencobaan. Hal lain dianggap sama (seperti validitas), kita akan mendukung tes yang nilainya telah terbukti memiliki jenis stabilitas yang kita butuhkan untuk membuat keputusan suara. Informasi yang berkaitan dengan stabilitas nilai tes juga memiliki implikasi untuk penggunaan hasil tes dari catatan sekolah dan frekuensi yang diperlukan pengujian ulang. Kita tahu, misalnya, bahwa bakat skolastik pertama-kelas nilai tes yang cukup stabil selama kesempatan dalam tahun yang sama, tetapi relatif stabil selama beberapa tahun. Dengan demikian, kita dapat berharap untuk menggunakan hasil tersebut dalam menentukan kesiapan untuk bekerja pertama-kelas, tetapi tidak harus bergantung pada mereka untuk perkiraan kemampuan belajar di kelas-kelas SD nanti. Untuk penggunaan ini, tes kedua perlu diberikan pada awal periode SD nanti. Demikian pula, ketika menggunakan setiap skor tes dari catatan permanen, orang harus memeriksa tanggal pengujian dan data stabilitas yang tersedia untuk menentukan apakah hasilnya masih bisa diandalkan. Jika ada keraguan dan keputusan penting, pengujian ulang adalah dalam rangka. Metode Equivalent-Forms. Memperkirakan reliabilitas dengan menggunakan metode yang setara-bentuk melibatkan penggunaan dua bentuk yang berbeda namun setara dengan tes (juga disebut paralel atau bentuk-bentuk alternatif). 1 Kedua bentuk tes yang diberikan kepada kelompok yang sama murid dalam suksesi dekat dan skor tes yang dihasilkan berkorelasi. Koefisien korelasi ini memberikan ukuran kesetaraan. Dengan demikian, hal ini menunjukkan sejauh mana kedua bentuk tes yang mengukur aspek perilaku yang sama. Perlu dicatat bahwa metode setara-bentuk memberitahu kita apa-apa tentang stabilitas karakteristik murid yang diukur. Koefisien reliabilitas ini mencerminkan sejauh mana tes merupakan sampel yang memadai dari karakteristik yang sedang diukur. Dalam pengujian prestasi, misalnya, ada ribuan pertanyaan yang mungkin ditanyakan dalam tes tertentu. Namun, karena batas waktu dan faktor membatasi lain, hanya sejumlah pertanyaan tes mungkin dapat digunakan. Jika pertanyaan-pertanyaan yang termasuk dalam tes memberikan sampel yang memadai dari pertanyaan yang mungkin di daerah. Cara ter