CHAPTER 14
MENILAI KUALITAS PENGUKURAN
KESELURUHAN PRINSIP EVALUASI INSTRUMEN PENGUKURAN
Dalam bab terakhir, kami memperkenalkan definisi dasar pengukuran dan konsep tingkat
pengukuran dan kesalahan pengukuran. Dalam bab ini, kita membangun konsep-konsep
untuk menyediakan alat-alat untuk evaluasi instrumen dan prosedur pengukuran. Historis,
salah satu tantangan dalam menafsirkan masalah pengukuran literatur penelitian kesehatan
untuk menggambarkan masalah pengukuran dan masalah berasal dari dua tradisi yang
terpisah: 1) tradisi psikometri dan 2) tradisi medis dan kesehatan masyarakat.
TRADISI PSIKOMETRIK: RELIABILITAS DAN VALIDITAS
Tradisi psikometri memberikan perhatian terhadap kurang lebihnya pembangunan skala
pengukuran kontinyu berdasarkan ukuran laporan diri. Bagian mendasar dari tindakan
tersebut adalah tanggapan pasien atau subyek penelitian atas beberapa item pertanyaan,
dengan standar kategori respon yang digabungkan dalam beberapa mode untuk
membentuk satu kesatuan ukuran skala kontinyu (kotak 14-1). Jenis tradisi pengukuran
telah menghasilkan satu rumusan sastra yang sangat kaya dan luas yang berkaitan dengan
validitas dan reliabilitas instrumen pengukuran tersebut. Fokus pada penciptaan skala
kontinu memiliki arti bahwa individu-individu dianggap memiliki persepsi dan sikap,
atribut, dan pengalaman yang mungkin berbeda satu sama lain. Misalnya, SF-36 dan
subskala tertentu adalah skala 0-100, dan pecahan (bilangan bulat antara keramah) nilai
yang mungkin (lihat kotak 16-1). Begitu juga, skala the Center for Epidemiologic Studies
Depression (CES-D), yang telah dibahas dalam bab-bab sebelumnya dalam buku ini,
menggabungkan tanggapan terhadap 20 item dalam skala dengan berbagai potensi 0-60.
TRADISI MEDIS DAN KESEHATAN MASYARAKAT: BENAR POSITIF, BENAR
NEGATIF, POSITIF PALSU, DAN NEGATIF PALSU
Berbeda dengan tradisi psikometri, fokus dari tradisi medis dan kesehatan masyarakat
telah di uji biophysiologic. Tes tersebut telah digunakan terutama untuk membagi pasien
ke dalam beberapa kategori diagnostik. Ini masuk akal mengingat penekanan utama untuk
praktek medis tentang penyebab, diagnosis, dan penyembuhan penyakit. Meskipun medis
dan kesehatan masyarakat juga khawatir dengan kesalahan pengukuran (lihat diskusi
positif palsu dan negatif palsu), hal penting yang perlu diketahui dalam kesalahan
pengukuran erat kaitannya dengan klasifikasi benar atau akurat dari pasien ke sejumlah
kategori diagnostik (Kraemer, 1992). Namun, penggunaan kategori untuk diagnosis tidak
berarti bahwa prosedur pengukuran yang mendasar adalah pengukuran kategoris.
Sebenarnya, banyak tes biophysiologic menghasilkan hasil pengukuran yang mendekati
skala kontinyu, seperti yang kita bahas dalam bab 14, dengan contoh tekanan darah dan
pengujian pulse oximetry. Namun, pada akhirnya, karena alasan kepraktisan dalam
pengambilan keputusan klinis, dokter sering tertarik untuk memilih memotong poin pada
tes kontinyu untuk mendapatkan yang terbaik, mungkin melalui klasifikasi pasien (untuk
tujuan diagnostik dan pengobatan yang diberikan) ke dalam kasus dan non kasus.
PENGGABUNGAN TRADISI PENGUKURAN DISKRIT
Kedua pendekatan pengukuran (psikometri dan kesehatan medis dan masyarakat) memiliki
nilai tersendiri dalam penelitian kesehatan, dan secara bertahap penggabungan tradisi ini
berlangsung. Namun, dokter dan peneliti sama-sama cenderung akrab dengan
menggunakan salah satu teknik dan terminologi dari tradisi tersebut. Meskipun perilaku
peneliti yang bukan dokter cenderung lebih akrab dengan konsep pengukuran berasal dari
tradisi psikometri, dokter yang belum tentu peneliti cenderung lebih akrab dengan konsep
pengukuran berasal dari tradisi medis dan kesehatan masyarakat. Dalam bab ini, kita
mencoba untuk menjembatani kesenjangan ini dengan menekankan isu-isu umum dan
persamaan yang mendasari dua pendekatan. Kunci untuk memahami dan membandingkan
ide-ide dari kedua tradisi pengukuran adalah bahwa dokter dan peneliti akan memiliki
pemahaman yang lebih berkualitas terhadap masalah pengukuran.
RELIABILITAS DALAM PENGUKURAN
Dalam bab terakhir, kita mendefinisikan pengukuran reliabilitas sebagai sesuatu yang tidak
memiliki relatif sistematis, kesalahan pengukuran acak. Meskipun kesalahan pengukuran
tidak dapat sepenuhnya dihilangkan, peneliti dan dokter memiliki minat yang kuat dalam
instrumen dan prosedur yang meminimalkan jenis kesalahan pengukuran. Dengan
demikian, jika atribut yang sedang diukur tidak berubah, instrumen pengukuran yang dapat
diandalkan atau prosedur harus menghasilkan pengamatan yang stabil dan bernilai.
Keinginan untuk hasil pengukuran yang stabil harus dipertimbangkan dalam konteks
berikut:
Hasil pengukuran harus independen dari orang yang melakukan pengukuran.
Idealnya, seharusnya tidak masalah siapa diantara beberapa dokter terlatih
melakukan tes oksimetri pulsa, atau nilai akhir pada instrumen standar, seperti SF-
36, bervariasi tergantung pada sistematis yang mengumpulkan data dari responden
SF-36.
Hasil pengukuran harus independen dari kesempatan yang hal itu dilakukan. Jika
sifat yang diukur relatif stabil, seperti tinggi dan berat badan orang dewasa atau
sifat-sifat seperti kecerdasan umum ("G faktor"), rating yang diperoleh harus sama,
baik dilakukan pada hari Selasa atau Kamis, di pagi atau malam hari. Tentunya,
seperti yang ditekankan dalam bab terakhir, pada kenyataannya ada dua
kesempatan yang persis sama. Suhu kamar, pencahayaan, dan sejumlah faktor lain
akan sedikit berbeda dari satu kesempatan ke yang berikutnya. Namun, selama
tidak ada perubahan sistematis dalam kondisi yang dapat mempengaruhi
pengukuran berikutnya, perbedaan antar kesempatan biasanya mengakibatkan
fluktuasi acak kecil. Misalnya, orang dewasa tidak harus setinggi 5 kaki pada suatu
hari dan setinggi 6 kaki pada hari berikutnya. Prosedur pengukuran yang memberi
kami hasil tersebut akan dianggap benar-benar tidak dapat dipercaya.
Hasil pengukuran harus independen dari lokasi dimana hal itu dilakukan. Contoh
klasik adalah pengukuran suhu tubuh pada lokasi tubuh yang berbeda (sublingual,
ketiak, dubur, timpani, dahi), yang semuanya dalam teori harus memberikan hasil
yang sama, jika inti suhu tubuh dinilai akurat. Begitu juga lokasi wawancara,
seperti di rumah sakit atau di rumah postdischarge, seharusnya tidak sistematis
mempengaruhi jawaban yang diberikan.
Hasil pengukuran harus independen dari pengukuran yang digunakan. Skala yang
digunakan di klinik perawatan primer dan skala yang digunakan di departemen
gawat darurat Rumah Sakit harus memberikan hasil timbangan berat badan yang
sama untuk orang yang sama. Selain itu, apakah kita menggunakan persediaan beck
depresi, skala CES-D, atau skala penilaian depresi hamilton, segala sesuatu alat
standar yang banyak digunakan untuk menilai gejala depresi saat ini, setiap skala
harus serupa dalam kemampuannya untuk mengidentifikasi individu "depresi" vs
"tidak depresi". Sama halnya dengan apakah tekanan darah diukur dengan
sphygmomanometer atau alat pengukur elektronik, seperti dinamap (Ornstein,
Markert, Litchfield, & Zemp, 1988), seharusnya tidak begitu masalah dalam hal
hasil yang diperoleh, khususnya dalam kategorisasi akhir orang sebagai
"hipertensi" atau "darah normal".
Singkatnya, kevalidan merupakan konsistensi hasil pengukuran seluruh orang,
kesempatan, lokasi, dan instrumen. Konsistensi dapat dideteksi hanya jika setidaknya ada
dua ukuran untuk membandingkan, dan sebaiknya lebih dari dua. Ini berarti bahwa
kevalidan (atau kurangnya reliabilitas) dari alat ukur atau prosedur dapat dibentuk hanya
jika kita memiliki beberapa pengamatan untuk membandingkan. Pengukuran tunggal
mungkin atau tidak mungkin akurat, namun kevalidan tidak dapat diketahui.
Misalnya, bahwa Anda ingin menentukan jenis kelamin peserta dalam studi survei.
Kebanyakan kuesioner hanya terpusat dalam satu pertanyaan tentang jenis kelamin
responden (yaitu, jawaban dengan mencentang kotak untuk menunjukkan "laki-laki" atau
"perempuan"). Ini masuk akal pada prinsipnya karena responden jarang membuat
kesalahan dalam menanggapi pertanyaan ini, dan kesalahan sering didapat ketika mereka
terjadi, misalnya, seorang responden yang nama pertama adalah "David" tidak mungkin
perempuan. Meskipun, bisa saja variabel ini tidak sepenuhnya bebas dari kesalahan. Jika
tidak ada yang lain, kesalahan coding sesekali mengarah ke kode seks yang keliru.
Bagaimana Anda menemukan kesalahan? Seperti yang baru saja kita gambarkan dalam
contoh "David" yang tidak mungkin perempuan, kesalahan bisa dilihatt hanya melalui
perbandingan dengan item lainnya pada kuesioner yang sama. Ini adalah prinsip umum
ketika kami memperkirakan kevalidan alat ukur atau prosedur.
Sebagaimana yang kita sebutkan pada bab 13, Reliabilitas didefinisikan sebagai rasio nilai
sejati varians yang dibagi dengan varians yang diamati. Namun, kita tidak pernah bisa
langsung membandingkan skor yang diamati dengan skor yang benar karena satu-satunya
cara untuk mengetahui nilai yang benar adalah dengan memperoleh pengamatan tentang
sifat. Dengan kata lain, nilai yang diamati adalah "semua yang ada untuk pergi".
Yang terbaik yang dapat kita lakukan adalah untuk membandingkan beberapa
pengamatan keliru dan menggunakannya untuk memperkirakan nilai pengukuran yang
benar. Pada bagian berikutnya, kita melihat tiga konsep yang terkait erat (jenis reliabilitas),
yang semuanya telah menemukan aplikasi luas dalam literatur penelitian yang
berhubungan dengan kesehatan: konsistensi internal, uji reliabilitas tes ulang, dan
keandalan interrater.
CRONBACH ALPHA: UKURAN KONSISTENSI INTERNAL DAN RELIABILITAS SKALA MULTI ITEM
CES-D (Radloff, 1977; Radloff & Locke, 1986; Devins & Orme, 1985;. Stommel et al,
1993) adalah ukuran 20-item gejala depresi yang dapat dibagi menjadi empat sub-skala,
lazim berpikir untuk mengukur depresi suasana hati atau yang mempengaruhi (7 item),
somatik dan aktivitas terbelakang (7 item), tidak adanya rasa kesejahteraan (4 item), dan
hubungan interpersonal (2 item). Tabel 14-1 menunjukkan semua daftar tujuh item
"depresi suasana hati" dan kategori respon terkait. Tabel juga menunjukkan respon sampel
rata-rata (dan deviasi standart mereka) untuk n = 787 pasien yang baru didiagnosis dengan
kanker.
Karena segala cara dalam tabel 14-1 kurang dari 1, sebagian besar pasien tidak jarang ada
waktu untuk menjawab pertanyaan ini. Namun, kita hanya fokus pada konsistensi internal
dari tanggapan. Dengan asumsi bahwa semua tujuh item mengukur konsep yang mendasari
"perasaan depresi", kami akan mengecualikan mereka untuk menghasilkan tanggapan yang
sangat mirip karena suasana hati yang mendasari responden menimbulkan ke responses
untuk pertanyaan individu. Misalnya, seorang individu yang menunjukkan bahwa ia
merasa tertekan hanya sedikit atau tidak ada waktu pada minggu lalu juga akan diharapkan
untuk menunjukkan bahwa ia jarang merasa sedih pada waktu yang sama. Tentu saja, tidak
mungkin bahwa semua responden secara konsisten akan memilih kategori respon tunggal
di semua tujuh item, seperti "beberapa waktu". Sebagian hal ini karena tidak ada dua
pertanyaan yang pernah sama persis dalam kemampuan mereka untuk memasuki sebuah
konsep psikologis yang mendasarinya, tetapi ada juga sumber kesalahan pengukuran yang
terkait dengan setiap pertanyaan. Sumber-sumber kesalahan termasuk perbedaan dalam
kemampuan bahasa responden, sedangkan makna emosional berbagai kata-kata tertentu,
seperti "sedih" atau "depresi", bagi responden yang berbeda, atau hanya penglihatan
miskin responden yang menandai jawabannya di halaman yang dicetak.
Selama kita bisa membuat asumsi bahwa kesalahan dalam pengukuran tidak terkait satu
sama lain, kita dapat menggunakan korelasi antara variabel indikator tujuh (tanggapan
terhadap item) untuk memperkirakan konsistensi internal. Ingat bahwa setiap tanggapan ke
item indikator spesifik terdiri dari dua komponen:
1. Salah satu yang mencerminkan besarnya dari "perasaan depresi" yang sebenarnya.
2. Yang lain mencerminkan kesalahan pengukuran acak.
Dalam situasi ini, satu-satunya fitur yang berbeda dua subskala item saham CES-D adalah
indikator perasaan depresi mereka berdua. Sejauh itu dua item yang memasuki
karakteristik yang sama (dalam kasus, ketiadaan atau adanya perasaan depresi), tanggapan
item yang diamati akan berkorelasi. Sebaliknya, kesalahan pengukuran acak tidak akan
memberikan kontribusi pada hubungan antara nilai yang diamati. Untuk memeriksa data
dalam tabel 14-2, pertama lihat pada matriks korelasi. Itu menunjukkan korelasi Pearson
antara tujuh indikator perasaan depresi, dengan diagonal menunjukkan korelasi variabel
dengan dirinya sendiri, yang merupakan sempurna 1,00. Pada akhirnya, kita dapat
menemukan semua kemungkinan 21 korelasi berpasangan antara variabel-variabel
indikator. Seperti yang diharapkan, mereka semua positif, namun mereka jauh dari
sempurna. Korelasi terkecil adalah 0,23 dan terbesar adalah 0,62, dengan korelasi antar
item yang rata-rata (r = nilai rata-rata dari 21 korelasi dalam tabel) r = 0,43. Dengan
demikian, kita tahu dari korelasi ini bivariat bahwa masing-masing item individual dalam
depresi suasana hati skala mencerminkan suasana hati yang mendasari tidak sempurna, dan
ini adalah mengapa korelasi hanya cukup besar, bukannya sempurna 1,00.
Selanjutnya, melihat korelasi item total yang ditampilkan dalam kolom terakhir dari tabel
14-2. Suatu total item korelasi antara item indikator tertentu dan jumlah dari semua item
indikator lainnya yang merupakan bagian dari subskala yang sama. Misalnya,
menghubungkan tanggapan terhadap CES-D10 dengan mereka yang CES-D3 + CES-D6 +
CES-D9 + CES-D14 + CES-D17 + CES-D18 hasil nilai korelasi 0,60. Seperti korelasi
item total yang dapat dianggap sebagai indeks seberapa baik respon terhadap item
indikator tertentu bervariasi dengan tanggapan terhadap item subskala lainnya. Item
dengan korelasi item total yang sangat rendah tidak menghasilkan respon yang konsisten
dengan barang-barang lainnya, dan dengan demikian konsep indikator yang mendasari
dapat diandalkan. Akhirnya, kita mempertimbangkan konsistensi internal reliabilitas
koefisien sendiri, Cronbach Alpha:
A = __k_ (1 - ___k____ ) k-1 k + k (k-1)r
Meskipun rumus ini mungkin tampak relatif rumit, itu benar-benar berisi hanya dua
variabel. k singkatan jumlah indikator, atau barang, yang digunakan dalam instrumen
pengukuran, dan r dengan bar di atasnya (r) singkatan korelasi rata-rata antara item.
Menerapkan hasil dari tabel 14-1, dengan tujuh item indikator "perasaan depresi" (k = 7)
dan korelasi antar item yang rata-rata (r = 0,43), kita mendapatkan nilai alpha: 0,85.
Hasil ini luar biasa: ia mengatakan bahwa jika kita membuat skor skala yang baik jumlah
atau rata-rata nilai disemua tujuh item, mood depresi skala ini akan memiliki keandalan
yang mengesankan (alpha = 0,85), atau 85% benar varian skor. Mengapa harus begitu?
ingat bahwa kita mengasumsikan bahwa tanggapan untuk setiap suasana hati individu
adalah: 1) dipengaruhi oleh kebenaran mood responden dan 2) dipengaruhi oleh segala
macam faktor asing, faktor yang tidak terkait, yang kita sebut sebagai kesalahan. Karena
komponen kesalahan, pernyataan berikut ini benar:
Beberapa item cenderung melebih-lebihkan perasaan depresi yang benar.
Item lainnya cenderung meremehkan perasaan depresi yang benar.
Mengambil rata-rata di beberapa item akan meratakan komponen kesalahan.
Skor skala gabungan akan lebih dekat dengan benar keseluruhan suasana skor
daripada skor dari setiap item tunggal.
Jelas bahwa jika kita memiliki item indikator lebih, yaitu jika kita menghasilkan
pertanyaan tambahan mirip dengan pertanyaan yang ada tentang suasana hati depresi,
mereka juga akan mencerminkan baik perasaan depresi sebenarnya dari subyek dan
beberapa komponen kesalahan. Namun, semakin banyak item yang kita miliki, semakin
besar kemungkinan bahwa kesalahan acak gabungan membatalkan satu sama lain. Sebagai
hasilnya, item tambahan akan meningkatkan keandalan skala, bahkan jika mereka tidak
meningkatkan korelasi rata-rata diantara semua item. Alpha Cronbach mencerminkan fakta
itu. Misalnya, menganggap kami memiliki 10 item pertanyaan yang menyelidiki perasaan
depresi. Bahkan dengan korelasi item yang antar mean yang sama, keandalan skala
keseluruhan akan meningkat menjadi 0,88
Meskipun perubahan ini tidak sangat besar, itu menggambarkan prinsip bahwa semakin
besar sampel item yang digunakan untuk mengukur konsep yang sama, semakin andal
A = __10_ (1 - ___10_________ ) 10-1 10 + 10 (10-1) 0,43
ukuran gabungan. Seperti yang kita lihat dalam contoh pemeriksaan NCLEX (pasal 13),
tes lagi akan memberikan perkiraan yang lebih akurat dan dapat diandalkan pengetahuan
keperawatan siswa daripada yang pendek.
Sekarang, kita akan melihat Alpha Cronbach dari sudut yang berbeda. Kita pegang k
(jumlah item indikator) konstan, tetapi bervariasi r (korelasi rata-rata antara item).
Misalkan korelasi rata-rata antara item pertanyaan adalah nol. Substituing nol untuk r
dalam formula untuk menghasilkan alpha yang juga sama dengan nol. Itulah yang harus
kita harapkan: ketika tanggapan terhadap item pertanyaan tidak berkorelasi sama sekali,
item tidak menangkap kebenaran umum skor. Bukan apa-apa tapi kesalahan varian, nilai
skala benar-benar bisa diandalkan. Di sisi lain, korelasi rata-rata sangat tinggi antara
barang-barang indikator skala menunjukkan komunalitas sibstantial: mereka mengukur
konsep yang mendasari konsisten, dengan kesalahan pengukuran kecil. Dalam ekstrem
teoritis, dimana setiap item indikator individu adalah ukuran sempurna dari konsep yang
mendasari, semua korelasi bevariate harus sama dengan 1 karena semua item akan
menghasilkan respon sangat konsisten. Namun, jika barang konstituen dari skala
pengukuran adalah konsep ukuran sempurna skala itu sendiri, dan kehandalan adalah sama
dengan 1.
Sekarang, kami telah tiba disebuah isu utama dalam pembangunan skala indikator multi
item. Kita selalu dapat memperkuat keandalan skala tersebut dengan meningkatkan jumlah
indikator atau meningkatkan kualitas sejumlah item tertentu. Item yang memproduksi
relatif tanggapan bebas dari kesalahan memiliki komunalitas yang lebih besar, yang
menimbulkan korelasi rata-rata diantara mereka. Di sisi lain, barang-barang yang memiliki
banyak kesalahan pengukuran mengurangi korelasi rata-rata antara indikator. Dengan
demikian, kita dapat terlibat dalam pertukaran antara jumlah indikator dan kualitas mereka.
Misalnya, tabel 14-3 menunjukkan empat kombinasi barang yang berbeda, yang semuanya
akan mencapai keandalan skala .80. Beberapa pelajaran yang dapat ditarik dari ini:
Selalu mungkin untuk mencapai nilai alpha yang tinggi jika menggunakan banyak
item indikator, lebih dari 20. Sebagaimana yang ditunjukkan pada tabel 14-3,
dengan lebih dari 40 item, bahkan korelasi antar item yang rata-rata kurang. 1 hasil
dalam mengesankan sebuah keandalan keseluruhan .80. Namun, korelasi rata-rata
rendah diantara banyak item indikator tidak mungkin hanya menunjukkan adanya
banyak kesalahan pengukuran, tetapi mungkin menyembunyikan fakta bahwa item
mengukur beberapa konsep yang hanya terkait lemah.
Kunci untuk skala unidimensional adalah untuk menemukan item yang relatif
sedikit (katakanlah, 5-10) yang tetap mencapai keandalan yang tinggi. Ini hanya
mungkin jika korelasi antar item yang setidaknya cukup kuat (r≥ .30). Dalam
prakteknya, tidak mudah untuk datang dengan relatif sedikit item terbaik yang
kedua mengukur konsep yang diinginkan dan menghasilkan hasil yangg pasti pada
sub-populasi yang berbeda.
Tersirat dalam diskusi ini adalah gagasan bahwa instrumen pengukuran yang dapat
diandalkan adalah salah satu yang memaksimalkan variasi antara subyek, tetapi
meminimalkan variasi antara barang-barang atau indikator alternatif.
Pembaca laporan penelitian tidak boleh terlalu terkesan dengan nilai keandalan
yang tinggi jika instrumen pengukuran atau skala memiliki banyak item (k≥20). Ini
khususnya terjadi ketika reliabilitas konsistensi internal adalah satu-satunya indeks
reliabilitas yang dilaporkan dalam sebuah artikel. Sering, penulis artikel penelitian
melaporkan reliabilitas konsistensi internal dari skala yang digunakan, tetapi tidak
memberikan informasi validitas. Seperti yang akan kita lihat nanti, kriteria seperti
pertimbangan validitas setidaknya sama penting dalam menilai kualitas instrumen
pengukuran multi-barang.
TES TES ULANG, ATAU TINDAKAN BERULANG, KEHANDALAN
Instrumen pengukuran variabel klinis banyak yang tidak menghasilkan beberapa skor
indikator yang dirancang untuk mengukur variabel tunggal, melainkan hanya
menghasilkan skor diamati tunggal. Untuk memperkirakan reliabilitas dari suatu alat ukur
atau prosedur, seseorang dapat mengulangi pengukuran untuk kedua kalinya, atau bahkan
lebih sering, dan memeriksa konsistensi hasil. Asalkan tidak ada perubahan nyata dalam
atribut yang diukur, pengukuran ulang harus menghasilkan hasil yang stabil.
Misalnya, anggaplah anda tertarik dalam mengevaluasi besarnya kesalahan pengukuran
dalam membaca tekanan darah dalam rentang waktu singkat pada pasien yang sama. Salah
satu cara untuk melakukan ini adalah untuk melakukan dua tes tekanan darah berturut-
turut pada sampel dari 50 pasien, dengan tes diambil dalam waktu 15 menit. Setelah
pencatatan dan pengumpulan data, anda akan memiliki informasi tentang empat variabel:
dua diastolik dan dua bacaan sistolik untuk masing-masing 50 pasien. Misalkan
menghubungkan masing-masing dua pembacaan berturut-turut menghasilkan Pearson
r=.94 untuk tekanan darah diastolik dan r=.90 untuk tekanan darah sistolik. Karena r
Pearson kuadrat dapat diartikan sebagai proporsi (atau persentase) varians dibagi antara
dua variabel, pembacaan diastolik memiliki 88% berbagi varians (R2 = 0,88) dan bacaan
sistolik memiliki 81% berbagi varians (R2 =.81 ).
Apa yang dapat disimpulkan dari data tersebut? Berdasarkan asumsi bahwa tekanan darah
pasien tetap stabil selama periode 15 menit, prosedur pengukuran dapat diasumsikan telah
menghasilkan 88% benar varian skor, ditambah dengan kesalahan pengukuran 12%, untuk
tekanan darah diastolik dan skor yang benar 81% varians, ditambah dengan kesalahan
19%, dalam mengukur tekanan darah sistolik. Dasar untuk kesimpulan ini bergantung pada
perilaku dari kesalahan pengukuran. Seperti yang dibahas dibagian sebelumnya adalah
acak kesalahan pengukuran tidak memberikan kontribusi apa-apa dengan skor yang
diamati hanya mencerminkan sistematis variasi sebagai akibat dari skor varian yang
sebenarnya. Harus ada yang pernah menjadi prosedur pengukuran tanpa kesalahan
ditambah dengan tidak ada perubahan dalam kondisi nyata yang mendasarinya, kita akan
mengharapkan hubungan yang sempurna (r=1) antara dua set pembacaan tekanan darah.
Dengan demikian, ketika menginterpretasikan korelasi, kita memperlakukan
keberangkatan dari korelasi yang sempurna sebagai "komponen kesalahan" dalam
pengukuran.
Perkiraan keandalan 88% dan 81% benar-benar dapat dianggap sebagai batas bawah yang
benar reliabilitas tes-tes ulang. Ingat bahwa kita mengasumsikan bahwa satu-satunya
alasan mengapa dua set pembacaan tekanan darah tidak akan berkorelasi dengan sempurna
adalah bahwa ada kesalahan yang terkait dengan mengukur tekanan darah. Namun, itu
lebih realistis untuk menganggap bahwa kebenaran tekanan darah tidak akan tetap
sepenuhnya stabil selama dua kesempatan pengukuran berturut-turut. Tekanan darah
sistolik pada khususnya lebih rentan terhadap perubahan selama periode yang relatif
singkat. Karena kita tidak atau tidak bisa membedakan antara perubahan yang nyata dan
kesalahan pengukuran, kita mungkin melakukan jumlah kesalahan dalam pengukuran,
sehingga meremehkan keandalan sebenarnya dari pengukuran tekanan darah. Interpretasi
yang paling tepat dalam situasi ini kami akan melihat reliabilitas diperoleh memperkirakan
sebagai "konservatif".
1. Ada dua peringatan penting ketika menafsirkan perkiraan reliabilitas test-retest:
Ketika hubungan antara dua aplikasi berturut prosedur pengukuran tertentu relatif
"rendah", misalnya, kurang dari 0,7, tidak harus mengikuti bahwa prosedur
pengukuran dapat diandalkan. Yaitu jika karakteristik perubahan dalam interval
pengukuran diukur sendiri, kemudian prosedur pengukuran yang dapat diandalkan
akan menghasilkan korelasi rendah. Berikut ini sulit untuk membangun tes-tes
ulang, atau tindakan berulang, keandalan prosedur pengukuran jika ditujukan pada
fenomena yang berfluktuasi secara alami, karena banyak variabel fisiologis
dilakukan. Dalam situasi seperti, interval waktu yang lebih singkat antara titik
pengukuran harus meningkatkan konsistensi hasil.
2. Dalam beberapa situasi, estimasi reliabilitas test-retest yang bias ke atas. Ini terjadi
terutama tes pengetahuan dan tes lainnya yang melibatkan memori manusia. Ketika
subjek mengikuti tes atau menjawab pertanyaan yang kedua kalinya, mereka
mungkin ingat tanggapan mereka sebelumnya dan mengulanginya. Jelas, dalam hal
ini, bias dalam mendukung keandalan melebih-lebihkan akan lebih besar, semakin
pendek interval antara kesempatan uji.
Singkatnya, penilaian keandalan tes-tes ulang tidak selalu mudah. Seorang peneliti harus
memiliki suara, konseptual berdasarkan alasan untuk penilaian, termasuk pemahaman yang
baik tentang bagaimana variabel fenomena yang terukur selama periode yang dimaksud
untuk pengukuran berikutnya.
KEANDALAN DATA PENGAMATAN: KEANDALAN INTERRATER
Kadang-kadang diperlukan untuk menggunakan pengamatan perilaku atau kuasanya
penilaian dari keadaan sebenarnya pasien. Misalnya, karena resiko tinggi terlibat dalam
mendapatkan itu benar, hakim dapat meminta dua atau tiga ahli kesehatan mental untuk
secara independen mengevaluasi orang yang tampaknya mengalami gejala ditandai
psikosis, untuk menentukan apakah orang tersebut cakap melakukan perbuatan hukum
untuk diadili atas tuduhan pidana. Evaluasi akan mencakup penilaian klinis oleh para ahli
kesehatan mental tentang keadaan pasien, tetapi akan didasarkan pada informasi yang
spesifik, seperti pengamatan perilaku seseorang, catatan medis, dan laporan dari anggota
keluarga dan orang lain yang signifikan. Tindakan perilaku atau proxy yang juga dapat
digunakan ketika pasien tidak bisa menjawab laporan pertanyaan diri (misalnya, pasien
dengan demensia berat, anak-anak atau bayi).
Dalam upaya untuk membakukan peringkat melibatkan observasi, peneliti sering
menggunakan dua atau lebih pengamat terlatih yang diminta untuk menilai perilaku
diamati sama secara independen. Misalnya, selama menggati pakaian, dua perawat dapat
secara independen menilai rasa sakit yang dialami oleh pasien di unit luka bakar yang
tidak dapat dipercaya secara verbal atau merekam peringkat nyeri mereka atau intubasi
trakea, delirium berfluktuasi, dan tangan luka bakar parah. Skala penilaian dapat terdiri
dari kategori ordinal, seperti:
KATEGORI TINGKATAN SKALA
Tidak ada rasa sakit jelas 0
Nyeri ringan 1
Nyeri sedang 2
Nyeri substansial 3
Sakit parah 4
Sakit luar biasa 5
Diberikan ini peringkat ordinal, cara sederhana untuk menilai jumlah kesepakatan dalam
pengamatan paralel akan memiliki dua perawat pengamat tingkat nyeri pasien selama tiga
atau lebih perubahan berpakaian dan kemudian menggunakan koefisien korelasi rank-
order, seperti Spearman r , untuk memperkirakan korelasi. Nilai korelasi mendekati 1 akan
menunjukkan kesepakatan yang hampir sempurna antara pengamat, sedangkan nilai nol
menunjukkan tidak ada konsistensi antara rating. Jika lebih dari dua penilai yang
digunakan, koefisien Kendall W dapat digunakan untuk memperkirakan jumlah
kesepakatan antara beberapa penilai.
KAPPA KOHEN
Seperti yang disebutkan sebelumnya dalam bab ini, dalam situasi klinis tujuan utama
melakukan pengamatan adalah untuk mengklasifikasikan pasien dalam beberapa cara.
Pada dasarnya, semua diagnostik jumlah kegiatan untuk menugaskan pasien dalam
kelompok yang sudah ada diagnostik sebelumnya, sebuah proses yang mungkin tidak
mudah jika kriteria tersebut kompleks dan bukti yang tersedia adalah ambigu. Misalnya,
dua ahli radiologi yang memeriksa radiografi untuk set yang sama dari 300 node payudara
untuk menentukan apakah node terlihat harus diklasifikasikan sebagai jinak,
mencurigakan, atau kanker. Tabel 14-4 menyajikan data hypo-thetical membandingkan
peringkat klasifikasi dua ahli radiologi.
Pada awalnya, orang mungkin berpikir bahwa persentase kesepakatan antara semua
klasifikasi dapat digunakan sebagai ukuran sederhana dari keandalan dalam klasifikasi
diagnostik. Tabel 14-4 menunjukkan persentase ini diamati (atau proporsi: P0) sebagai
76%. Namun, penghitungan sederhana ini tidak memperhitungkan berapa banyak
perjanjian antara dua penilai diharapkan hanya sebagai hasil kebetulan. Dua ahli radiologi
menggunakan metode benar independen dari klasifikasi node yang sama. Dengan asumsi
bahwa, setiap klasifikasi yang dibuat oleh ahli radiologi A adalah independen dari setiap
klasifikasi yang dibuat oleh ahli radiologi B. Karena ahli radiologi A mengklasifikasikan
180 (60%) dari node sebagai jinak dan ahli radiologi B mengklasifikasikan 150 (50%) dari
node sebagai jinak, klasifikasi itu sendiri akan menghasilkan 90 (180x150/300) atau 30%
dari semua node diklasifikasikan sebagai jinak oleh kedua ahli radiologi. Juga, 7 (2%)
node diharapkan untuk menerima klasifikasi "mencurigakan" oleh ahli radiologi dan 27
(9%) bisa diharapkan harus diklasifikasikan sebagai "kanker", sehingga kesepakatan penuh
pada 41% dari semua node, meskipun skema klasifikasi hipotetis yang digunakan oleh dua
ahli radiologi tidak berbagi kriteria apapun.
Sebagai contoh ini menunjukkan, keadaan dibawah ini akan lebih bermakna untuk
menanyakan apakah dua ahli radiologi dapat tingkat produk kesepakatan substansial yang
lebih baik daripada yang diharapkan secara kebetulan saja. Perjanjian sempurna akan
berarti bahwa semua klasifikasi dalam tabel 14-4 berakhir pada diagonal, menghasilkan
kesepakatan pada proporsi 1 (300/300). Dengan demikian, rentang yang relevan terhadap
menilai jumlah perjanjian yang sebenarnya sama dengan 1-41 karena kita mengharapkan
ahli radiologi untuk berbuat lebih baik daripada kesempatan. Kappa Cohen (Cohen, 1960)
mengungkapkan jumlah perjanjian antara dua pengklasifikasi sebagai dua rasio perbedaan:
(1) perbedaan antara proporsi perjanjian yang diamati dan proporsi yang diharapkan
berdasarkan kesempatan belaka (dalam pembilang) dan (2) perbedaan antara perjanjian
yang sempurna dan proporsi yang diharapkan dari kesepakatan berdasarkan kesempatan
belaka (dalam penyebut). Jika proporsi perjanjian diamati melebihi kesepakatan yang
diharapkan. Kappa harus lebih besar dari nol. Dan akan mencapai 1 jika proporsi
perjanjian diamati mencapai kesatuan. Menurut Landis dan Koch (1977), nilai Kappa 41
sampai 60 dapat dianggap moderat, nilai 61-80 dapat dianggap subtantial dan nilai-nilai
dari 80 hingga 100 adalah hampir sempurna. Prosedur klasifikasi yang menghasilkan nilai
kappa dari 81 atau lebih tinggi dalam biasanya dianggap memiliki keandalan interrater
tinggi.
VALIDITAS DALAM PENGUKURAN
Pada bagian sebelumnya, dengan jelas disebutkan bahwa yang menentukan akurasi dari tes medis atau biofisiologi adalah meliputi validitas dan reliabilitas. Umumnya, prosedur pengukuran dianggap valid jika mengukur karakteristik atau atribut yang dimaksudkan. Walaupun definisi ini tampak sederhana, pada kenyataannya menentukan validitas dari alat ukur, uji, atau prosedur adalah tidak mudah. Pendekatan yang diambil dengan test medis adalah untuk membandingkan dengan putative gold standar, yang tentunya membawa kepada pertanyaan bagaimana seseorang memvalidasi gold standar. Ada lingkaran tertentu dalam argumen ini. Seperti yang telah kita tekankan sebelumnya, seseorang tidak dapat membandingkan dengan hasil yang sebenarnya, hanya dengan langkah-langkah keliru. Langkah-langkah lainnya mengandung sejumlah kesalahan pengukuran acak, oleh karena itu, terbatas dalam kehandalan/reliabilitas nya, mereka juga tunduk pada pertanyaan yang sama tentang keabsahannya: Apakah mereka sebenarnya bisa mengukur apa yang mereka maksudkan untuk diukur?
Secara tradisional, dalam literatur psikometri, pendekatan pembentukan dari validitas pengukuran terdapat 3 cara. Kita bedakan menjadi 3, yaitu content, criterion dan construct validity.
CONTENT VALIDITY
Validitas isi adalah pendekatan yang mungkin paling sering digunakan untuk membangun validitas dari sebuah skala pengukuran, khususnya, sebuah skala yang didasarkan pada respon standar untuk pertanyaan laporan diri. Perhatian utama dengan validitas isi adalah bahwa item-item pertanyaan dipilih sebgai indikator-indikator skala ke domain konseptual. Contoh tabel 14.1.
Item CES-D9 bertanya kepada responden, “Seberapa sering anda berpikir bahwa kehidupan anda sudah gagal? Seseorang berpendapat bahwa, dari item-item terkandung dalam subskala depresi suasana hati, ini adalah satu-satunya yang meminta responden untuk merenungkan seluruh sejarah kehidupannya, bukan hanya suasana hati yang baru-baru ini. Dengan demikian, tampaknya agak berbeda dari inti konseptual item suasana hati
lain, alasan yang mungkin untuk temuan empiris yang menunjukkan item ini sering memiliki korelasi item total terendah di antara tujuh item subskala.
Pembentukan perbedaan semantik adalah sebuah contoh validitas isi dari item indikator tertentu. Akhirnya orang akan menggunakan ahli di bidang tertentu untuk membuat penilaian tentang validitas isi pertanyaan tertentu, atau seseorang akan meminta mereka untuk mengembangkan pertanyaan-pertanyaan. Para ahli di bidang tertentu mungkin sangat baik menjadi anggota populasi target itu dimana peneliti bermaksud untuk belajar. Dalam kasus itu, pendekatan yang lebih formal untuk mengembangkan butir pertanyaan dengan konten yang relevan mungkin menggunaan kelompok fokus (lihat bab 18). Karena arti dari kata-kata dan frase sering berbeda antara pengguna dan subgroup, mungkin tidak ada cara untuk menetapkan validitas isi “sekali dan untuk semua”. Baik reliabilitas dan validitas ukuran dapat bervariasi sebagai fungsi dari populasi sasaran dan variabel lain dalam konteks penelitian. Namun, konsensus makna pertanyaan di antara para ahli dari area subyek tertentu sering dapat jauh menuju pembentukan validitas isi.
CRITERION VALIDITY
Pembentukan dari criterion validity adalah difokuskan dengan menggunakan kriteria eksternal untuk memvalidasi pengukuran instrumen yang diberikan. Jika kriteria eksternal terjadi beberapa saat di waktu yang akan datang, maka disebut predictive validity. Untuk membentuk ini, yaitu menggunakan nilai yang didapat melalui alat pengukuran baru untuk memprediksi sebuah outcome atau kriteria eksternal. Misalnya tes untuk pelajar keperawatan diberikan segera sebelum kelulusan dari program s1 dapat divalidasi dengan membandingkan nilai dengan nilai ujian NCLEX-RN sebenarnya diambil untuk lisensi sebagai seorang Registered Nurse di US. Namun, kriteria eksternal itu adalah konsep yang berbeda dari mengukur pertanyaan, seperti ketika memprediksi “keberhasilan pekerjaan” dalam 5 tahun setelah lulus dari sekolah keperawatan berdasarkan nilai NCLEX. Walaupun keberhasilan pekerjaan, namun mendefinisikan, bisa dibayangkan dipikirkan sebuah kriteria eksternal yang mungkin untuk NCLEX, menggunakan ini sebagai kriteria validasi untuk sebuah tes pengetahuan akan diperlukan sebuah teori validitas yang berhubungan dengan keberhasilan kerja. Pada saat ini, membangun kriteria validitas melibatkan penelitian substantiv yang meneliti hubungan antara dua konseptual variabel berbeda .
Jika kriteria eksternal digunakan untuk menetapkan validitas, lebih atau kurang, pada waktu yang sama yang mana nilai pengukuran didapatkan, validitas merujuk kepada concurrent validity. Penggunaan gold standar untuk memvalidasi tes medis adalah salah satu contoh dari concurrent validity. Catatan, bagaimanapun, bahwa batas-batas antara validitas prediktif dan berbarengan(concurrent) mungkin kecil. Ketika kita menggunakan gold standar untuk memvalidasi alat diagnostik, atau lebih umumnya, ketika kita menggunakan sebuah kriteria eksternal untuk memvalidasi sebuah alat ukur, kita biasanya menganggap bahwa kedua pengukur diperoleh "cukup dekat" bersama sehingga mereka mencerminkan beberapa realitas dasar. Untuk memperoleh sebuah contoh ekstrim yang kontra, kita tidak akan mencoba untuk memvalidasi interpretasi atau tingkatan berdasarkan
radiografi menggunakan hasil biopsi yang dilakukan 1 tahun setelahnya. Apa yang dianggap sebagai interval diterima antara nilai tes pengukuran dan penentuan kriteria atau hasil gold standar tergantung pada fenomena dari investigasi. Semakin cepat bisa berubah, semakin pendek periode validasi pengukuran diterima. Sering kriteria pengukuran kembali pada peristiwa yang lalu, seperti ketika peneliti mencoba memvalidasi skala sikap, nilai yang dibandingkan dengan informasi tentang perilaku aktual akhir-akhir ini. Sebagai contoh, dapat dijumpai pada Collins, Stommel, dan King (1991) yang mana peneliti memvalidasi sebuah skala untuk menentukan sikap terhadap pelayanan komunitas dengan menghubungkan masing-masing nilai dengan variabel yang diukur yang sebenarnya digunakan baru-baru ini.Validitas dari prosedur tergantung pada, antara lain anggapan bahwa sikap tidak berubah terlalu besar sejak periode dimana tindakan perilaku merujuk. Dengan demikian, pertimbangan sementara seharusnya selalu menjadi bagian dari evaluasi dari kriteria validitas eksternal.
CONSTRUCT VALIDITY
Menggunakan analisis faktor untuk membangun Validitas Konstruk
Paling dasar, analisis faktor adalah sebuah set dari tehnik statistik yang bisa digunakan untuk menemukan pengelompokan item (Penjelasan analisis faktor a sebuah alat yang sangat diperlukan untuk mencari tahu item pertanyaan yang dikembangkan hasil yang seragam atau bentuk-bentuk respon multidimensi. Tabel 14.11 menunjukkan contoh dari bentuk korelasi yang konsisten dengan dua faktor struktur dimensional.
KESIMPULAN
Pada bab ini, kita telah fokus pada bagaimana cara menilai kualitas dari prosedur pengukuran. Khususnya, dua konsep validitas dan reliabilitas yang dikenal sebagai alat yang dapat digunakan untuk mengeset standar dan mengevaluasi prosedur pengukuran. Reliabilitas mengacu pada reproduktifitas, pengulangan, dan konsistensi dari prosedur pengukuran. Ini adalah bahan penting untuk satu persaratan dari bukti ilmiah, yang bisa ditiru. Validitas bahkan lebih mendasar dalam arti bahwa pengujian teori-teori tentang hubungan antara fenomena dunia nyata dapat terjadi hanya jika operasionalisasi, atau pengukuran, dari konsep adalah representasi empiris yang memadai dari konsep.
Reabilitas pengukuran adalah diperlukan, tetapi itu saja tidak cukup, maka diperlukan validitas (contoh: alat pengukuran atau instrumen menjadi valid, harus memiliki beberapa minimal reliabilitas, karena instrumen yang hanya menghasilkan kesalahan pengukuran tidak menangkap variasi nyata dalam fenomena. Pada waktu yang sama, reliabilitas dari prosedur pengukuran (contoh ini menghasilkan hasil yang konsisten pada pengukuran berulang) adalah bukti yang cukup dari validitas. Misalnya, apakah instrumen pengukuran tertentu mengukur kecemasan dari pada depresi tidak dapat ditentukan hanya berdasarkan dari bukti bahwa skor yang dihasilkan konsisten pada pengukuran berulang. Seperti yang didiskusikan, pertimbangan validitas tidak pernah benar-benar diselesaikan. Baik peneliti maupun pembaca harus tetap waspada terhadap
kemungkinan bahwa bukti mungkin menantang pandangan yang selama ini tentang validitas dari prosedur pengukuran khusus.