Download - handayanilina.files.wordpress.com€¦ · Web viewPengukuran tunggal mungkin ... Hasil ini luar biasa: ia ... Tabel 14.11 menunjukkan contoh dari bentuk korelasi yang konsisten

CHAPTER 14

MENILAI KUALITAS PENGUKURAN

KESELURUHAN PRINSIP EVALUASI INSTRUMEN PENGUKURAN

Dalam bab terakhir, kami memperkenalkan definisi dasar pengukuran dan konsep tingkat

pengukuran dan kesalahan pengukuran. Dalam bab ini, kita membangun konsep-konsep

untuk menyediakan alat-alat untuk evaluasi instrumen dan prosedur pengukuran. Historis,

salah satu tantangan dalam menafsirkan masalah pengukuran literatur penelitian kesehatan

untuk menggambarkan masalah pengukuran dan masalah berasal dari dua tradisi yang

terpisah: 1) tradisi psikometri dan 2) tradisi medis dan kesehatan masyarakat.

TRADISI PSIKOMETRIK: RELIABILITAS DAN VALIDITAS

Tradisi psikometri memberikan perhatian terhadap kurang lebihnya pembangunan skala

pengukuran kontinyu berdasarkan ukuran laporan diri. Bagian mendasar dari tindakan

tersebut adalah tanggapan pasien atau subyek penelitian atas beberapa item pertanyaan,

dengan standar kategori respon yang digabungkan dalam beberapa mode untuk

membentuk satu kesatuan ukuran skala kontinyu (kotak 14-1). Jenis tradisi pengukuran

telah menghasilkan satu rumusan sastra yang sangat kaya dan luas yang berkaitan dengan

validitas dan reliabilitas instrumen pengukuran tersebut. Fokus pada penciptaan skala

kontinu memiliki arti bahwa individu-individu dianggap memiliki persepsi dan sikap,

atribut, dan pengalaman yang mungkin berbeda satu sama lain. Misalnya, SF-36 dan

subskala tertentu adalah skala 0-100, dan pecahan (bilangan bulat antara keramah) nilai

yang mungkin (lihat kotak 16-1). Begitu juga, skala the Center for Epidemiologic Studies

Depression (CES-D), yang telah dibahas dalam bab-bab sebelumnya dalam buku ini,

menggabungkan tanggapan terhadap 20 item dalam skala dengan berbagai potensi 0-60.

TRADISI MEDIS DAN KESEHATAN MASYARAKAT: BENAR POSITIF, BENAR

NEGATIF, POSITIF PALSU, DAN NEGATIF PALSU

Berbeda dengan tradisi psikometri, fokus dari tradisi medis dan kesehatan masyarakat

telah di uji biophysiologic. Tes tersebut telah digunakan terutama untuk membagi pasien

ke dalam beberapa kategori diagnostik. Ini masuk akal mengingat penekanan utama untuk

praktek medis tentang penyebab, diagnosis, dan penyembuhan penyakit. Meskipun medis

dan kesehatan masyarakat juga khawatir dengan kesalahan pengukuran (lihat diskusi

positif palsu dan negatif palsu), hal penting yang perlu diketahui dalam kesalahan

pengukuran erat kaitannya dengan klasifikasi benar atau akurat dari pasien ke sejumlah

kategori diagnostik (Kraemer, 1992). Namun, penggunaan kategori untuk diagnosis tidak

berarti bahwa prosedur pengukuran yang mendasar adalah pengukuran kategoris.

Sebenarnya, banyak tes biophysiologic menghasilkan hasil pengukuran yang mendekati

skala kontinyu, seperti yang kita bahas dalam bab 14, dengan contoh tekanan darah dan

pengujian pulse oximetry. Namun, pada akhirnya, karena alasan kepraktisan dalam

pengambilan keputusan klinis, dokter sering tertarik untuk memilih memotong poin pada

tes kontinyu untuk mendapatkan yang terbaik, mungkin melalui klasifikasi pasien (untuk

tujuan diagnostik dan pengobatan yang diberikan) ke dalam kasus dan non kasus.

PENGGABUNGAN TRADISI PENGUKURAN DISKRIT

Kedua pendekatan pengukuran (psikometri dan kesehatan medis dan masyarakat) memiliki

nilai tersendiri dalam penelitian kesehatan, dan secara bertahap penggabungan tradisi ini

berlangsung. Namun, dokter dan peneliti sama-sama cenderung akrab dengan

menggunakan salah satu teknik dan terminologi dari tradisi tersebut. Meskipun perilaku

peneliti yang bukan dokter cenderung lebih akrab dengan konsep pengukuran berasal dari

tradisi psikometri, dokter yang belum tentu peneliti cenderung lebih akrab dengan konsep

pengukuran berasal dari tradisi medis dan kesehatan masyarakat. Dalam bab ini, kita

mencoba untuk menjembatani kesenjangan ini dengan menekankan isu-isu umum dan

persamaan yang mendasari dua pendekatan. Kunci untuk memahami dan membandingkan

ide-ide dari kedua tradisi pengukuran adalah bahwa dokter dan peneliti akan memiliki

pemahaman yang lebih berkualitas terhadap masalah pengukuran.

RELIABILITAS DALAM PENGUKURAN

Dalam bab terakhir, kita mendefinisikan pengukuran reliabilitas sebagai sesuatu yang tidak

memiliki relatif sistematis, kesalahan pengukuran acak. Meskipun kesalahan pengukuran

tidak dapat sepenuhnya dihilangkan, peneliti dan dokter memiliki minat yang kuat dalam

instrumen dan prosedur yang meminimalkan jenis kesalahan pengukuran. Dengan

demikian, jika atribut yang sedang diukur tidak berubah, instrumen pengukuran yang dapat

diandalkan atau prosedur harus menghasilkan pengamatan yang stabil dan bernilai.

Keinginan untuk hasil pengukuran yang stabil harus dipertimbangkan dalam konteks

berikut:

Hasil pengukuran harus independen dari orang yang melakukan pengukuran.

Idealnya, seharusnya tidak masalah siapa diantara beberapa dokter terlatih

melakukan tes oksimetri pulsa, atau nilai akhir pada instrumen standar, seperti SF-

36, bervariasi tergantung pada sistematis yang mengumpulkan data dari responden

SF-36.

Hasil pengukuran harus independen dari kesempatan yang hal itu dilakukan. Jika

sifat yang diukur relatif stabil, seperti tinggi dan berat badan orang dewasa atau

sifat-sifat seperti kecerdasan umum ("G faktor"), rating yang diperoleh harus sama,

baik dilakukan pada hari Selasa atau Kamis, di pagi atau malam hari. Tentunya,

seperti yang ditekankan dalam bab terakhir, pada kenyataannya ada dua

kesempatan yang persis sama. Suhu kamar, pencahayaan, dan sejumlah faktor lain

akan sedikit berbeda dari satu kesempatan ke yang berikutnya. Namun, selama

tidak ada perubahan sistematis dalam kondisi yang dapat mempengaruhi

pengukuran berikutnya, perbedaan antar kesempatan biasanya mengakibatkan

fluktuasi acak kecil. Misalnya, orang dewasa tidak harus setinggi 5 kaki pada suatu

hari dan setinggi 6 kaki pada hari berikutnya. Prosedur pengukuran yang memberi

kami hasil tersebut akan dianggap benar-benar tidak dapat dipercaya.

Hasil pengukuran harus independen dari lokasi dimana hal itu dilakukan. Contoh

klasik adalah pengukuran suhu tubuh pada lokasi tubuh yang berbeda (sublingual,

ketiak, dubur, timpani, dahi), yang semuanya dalam teori harus memberikan hasil

yang sama, jika inti suhu tubuh dinilai akurat. Begitu juga lokasi wawancara,

seperti di rumah sakit atau di rumah postdischarge, seharusnya tidak sistematis

mempengaruhi jawaban yang diberikan.

Hasil pengukuran harus independen dari pengukuran yang digunakan. Skala yang

digunakan di klinik perawatan primer dan skala yang digunakan di departemen

gawat darurat Rumah Sakit harus memberikan hasil timbangan berat badan yang

sama untuk orang yang sama. Selain itu, apakah kita menggunakan persediaan beck

depresi, skala CES-D, atau skala penilaian depresi hamilton, segala sesuatu alat

standar yang banyak digunakan untuk menilai gejala depresi saat ini, setiap skala

harus serupa dalam kemampuannya untuk mengidentifikasi individu "depresi" vs

"tidak depresi". Sama halnya dengan apakah tekanan darah diukur dengan

sphygmomanometer atau alat pengukur elektronik, seperti dinamap (Ornstein,

Markert, Litchfield, & Zemp, 1988), seharusnya tidak begitu masalah dalam hal

hasil yang diperoleh, khususnya dalam kategorisasi akhir orang sebagai

"hipertensi" atau "darah normal".

Singkatnya, kevalidan merupakan konsistensi hasil pengukuran seluruh orang,

kesempatan, lokasi, dan instrumen. Konsistensi dapat dideteksi hanya jika setidaknya ada

dua ukuran untuk membandingkan, dan sebaiknya lebih dari dua. Ini berarti bahwa

kevalidan (atau kurangnya reliabilitas) dari alat ukur atau prosedur dapat dibentuk hanya

jika kita memiliki beberapa pengamatan untuk membandingkan. Pengukuran tunggal

mungkin atau tidak mungkin akurat, namun kevalidan tidak dapat diketahui.

Misalnya, bahwa Anda ingin menentukan jenis kelamin peserta dalam studi survei.

Kebanyakan kuesioner hanya terpusat dalam satu pertanyaan tentang jenis kelamin

responden (yaitu, jawaban dengan mencentang kotak untuk menunjukkan "laki-laki" atau

"perempuan"). Ini masuk akal pada prinsipnya karena responden jarang membuat

kesalahan dalam menanggapi pertanyaan ini, dan kesalahan sering didapat ketika mereka

terjadi, misalnya, seorang responden yang nama pertama adalah "David" tidak mungkin

perempuan. Meskipun, bisa saja variabel ini tidak sepenuhnya bebas dari kesalahan. Jika

tidak ada yang lain, kesalahan coding sesekali mengarah ke kode seks yang keliru.

Bagaimana Anda menemukan kesalahan? Seperti yang baru saja kita gambarkan dalam

contoh "David" yang tidak mungkin perempuan, kesalahan bisa dilihatt hanya melalui

perbandingan dengan item lainnya pada kuesioner yang sama. Ini adalah prinsip umum

ketika kami memperkirakan kevalidan alat ukur atau prosedur.

Sebagaimana yang kita sebutkan pada bab 13, Reliabilitas didefinisikan sebagai rasio nilai

sejati varians yang dibagi dengan varians yang diamati. Namun, kita tidak pernah bisa

langsung membandingkan skor yang diamati dengan skor yang benar karena satu-satunya

cara untuk mengetahui nilai yang benar adalah dengan memperoleh pengamatan tentang

sifat. Dengan kata lain, nilai yang diamati adalah "semua yang ada untuk pergi".

Yang terbaik yang dapat kita lakukan adalah untuk membandingkan beberapa

pengamatan keliru dan menggunakannya untuk memperkirakan nilai pengukuran yang

benar. Pada bagian berikutnya, kita melihat tiga konsep yang terkait erat (jenis reliabilitas),

yang semuanya telah menemukan aplikasi luas dalam literatur penelitian yang

berhubungan dengan kesehatan: konsistensi internal, uji reliabilitas tes ulang, dan

keandalan interrater.

CRONBACH ALPHA: UKURAN KONSISTENSI INTERNAL DAN RELIABILITAS SKALA MULTI ITEM

CES-D (Radloff, 1977; Radloff & Locke, 1986; Devins & Orme, 1985;. Stommel et al,

1993) adalah ukuran 20-item gejala depresi yang dapat dibagi menjadi empat sub-skala,

lazim berpikir untuk mengukur depresi suasana hati atau yang mempengaruhi (7 item),

somatik dan aktivitas terbelakang (7 item), tidak adanya rasa kesejahteraan (4 item), dan

hubungan interpersonal (2 item). Tabel 14-1 menunjukkan semua daftar tujuh item

"depresi suasana hati" dan kategori respon terkait. Tabel juga menunjukkan respon sampel

rata-rata (dan deviasi standart mereka) untuk n = 787 pasien yang baru didiagnosis dengan

kanker.

Karena segala cara dalam tabel 14-1 kurang dari 1, sebagian besar pasien tidak jarang ada

waktu untuk menjawab pertanyaan ini. Namun, kita hanya fokus pada konsistensi internal

dari tanggapan. Dengan asumsi bahwa semua tujuh item mengukur konsep yang mendasari

"perasaan depresi", kami akan mengecualikan mereka untuk menghasilkan tanggapan yang

sangat mirip karena suasana hati yang mendasari responden menimbulkan ke responses

untuk pertanyaan individu. Misalnya, seorang individu yang menunjukkan bahwa ia

merasa tertekan hanya sedikit atau tidak ada waktu pada minggu lalu juga akan diharapkan

untuk menunjukkan bahwa ia jarang merasa sedih pada waktu yang sama. Tentu saja, tidak

mungkin bahwa semua responden secara konsisten akan memilih kategori respon tunggal

di semua tujuh item, seperti "beberapa waktu". Sebagian hal ini karena tidak ada dua

pertanyaan yang pernah sama persis dalam kemampuan mereka untuk memasuki sebuah

konsep psikologis yang mendasarinya, tetapi ada juga sumber kesalahan pengukuran yang

terkait dengan setiap pertanyaan. Sumber-sumber kesalahan termasuk perbedaan dalam

kemampuan bahasa responden, sedangkan makna emosional berbagai kata-kata tertentu,

seperti "sedih" atau "depresi", bagi responden yang berbeda, atau hanya penglihatan

miskin responden yang menandai jawabannya di halaman yang dicetak.

Selama kita bisa membuat asumsi bahwa kesalahan dalam pengukuran tidak terkait satu

sama lain, kita dapat menggunakan korelasi antara variabel indikator tujuh (tanggapan

terhadap item) untuk memperkirakan konsistensi internal. Ingat bahwa setiap tanggapan ke

item indikator spesifik terdiri dari dua komponen:

1. Salah satu yang mencerminkan besarnya dari "perasaan depresi" yang sebenarnya.

2. Yang lain mencerminkan kesalahan pengukuran acak.

Dalam situasi ini, satu-satunya fitur yang berbeda dua subskala item saham CES-D adalah

indikator perasaan depresi mereka berdua. Sejauh itu dua item yang memasuki

karakteristik yang sama (dalam kasus, ketiadaan atau adanya perasaan depresi), tanggapan

item yang diamati akan berkorelasi. Sebaliknya, kesalahan pengukuran acak tidak akan

memberikan kontribusi pada hubungan antara nilai yang diamati. Untuk memeriksa data

dalam tabel 14-2, pertama lihat pada matriks korelasi. Itu menunjukkan korelasi Pearson

antara tujuh indikator perasaan depresi, dengan diagonal menunjukkan korelasi variabel

dengan dirinya sendiri, yang merupakan sempurna 1,00. Pada akhirnya, kita dapat

menemukan semua kemungkinan 21 korelasi berpasangan antara variabel-variabel

indikator. Seperti yang diharapkan, mereka semua positif, namun mereka jauh dari

sempurna. Korelasi terkecil adalah 0,23 dan terbesar adalah 0,62, dengan korelasi antar

item yang rata-rata (r = nilai rata-rata dari 21 korelasi dalam tabel) r = 0,43. Dengan

demikian, kita tahu dari korelasi ini bivariat bahwa masing-masing item individual dalam

depresi suasana hati skala mencerminkan suasana hati yang mendasari tidak sempurna, dan

ini adalah mengapa korelasi hanya cukup besar, bukannya sempurna 1,00.

Selanjutnya, melihat korelasi item total yang ditampilkan dalam kolom terakhir dari tabel

14-2. Suatu total item korelasi antara item indikator tertentu dan jumlah dari semua item

indikator lainnya yang merupakan bagian dari subskala yang sama. Misalnya,

menghubungkan tanggapan terhadap CES-D10 dengan mereka yang CES-D3 + CES-D6 +

CES-D9 + CES-D14 + CES-D17 + CES-D18 hasil nilai korelasi 0,60. Seperti korelasi

item total yang dapat dianggap sebagai indeks seberapa baik respon terhadap item

indikator tertentu bervariasi dengan tanggapan terhadap item subskala lainnya. Item

dengan korelasi item total yang sangat rendah tidak menghasilkan respon yang konsisten

dengan barang-barang lainnya, dan dengan demikian konsep indikator yang mendasari

dapat diandalkan. Akhirnya, kita mempertimbangkan konsistensi internal reliabilitas

koefisien sendiri, Cronbach Alpha:

A = __k_ (1 - ___k____ ) k-1 k + k (k-1)r

Meskipun rumus ini mungkin tampak relatif rumit, itu benar-benar berisi hanya dua

variabel. k singkatan jumlah indikator, atau barang, yang digunakan dalam instrumen

pengukuran, dan r dengan bar di atasnya (r) singkatan korelasi rata-rata antara item.

Menerapkan hasil dari tabel 14-1, dengan tujuh item indikator "perasaan depresi" (k = 7)

dan korelasi antar item yang rata-rata (r = 0,43), kita mendapatkan nilai alpha: 0,85.

Hasil ini luar biasa: ia mengatakan bahwa jika kita membuat skor skala yang baik jumlah

atau rata-rata nilai disemua tujuh item, mood depresi skala ini akan memiliki keandalan

yang mengesankan (alpha = 0,85), atau 85% benar varian skor. Mengapa harus begitu?

ingat bahwa kita mengasumsikan bahwa tanggapan untuk setiap suasana hati individu

adalah: 1) dipengaruhi oleh kebenaran mood responden dan 2) dipengaruhi oleh segala

macam faktor asing, faktor yang tidak terkait, yang kita sebut sebagai kesalahan. Karena

komponen kesalahan, pernyataan berikut ini benar:

Beberapa item cenderung melebih-lebihkan perasaan depresi yang benar.

Item lainnya cenderung meremehkan perasaan depresi yang benar.

Mengambil rata-rata di beberapa item akan meratakan komponen kesalahan.

Skor skala gabungan akan lebih dekat dengan benar keseluruhan suasana skor

daripada skor dari setiap item tunggal.

Jelas bahwa jika kita memiliki item indikator lebih, yaitu jika kita menghasilkan

pertanyaan tambahan mirip dengan pertanyaan yang ada tentang suasana hati depresi,

mereka juga akan mencerminkan baik perasaan depresi sebenarnya dari subyek dan

beberapa komponen kesalahan. Namun, semakin banyak item yang kita miliki, semakin

besar kemungkinan bahwa kesalahan acak gabungan membatalkan satu sama lain. Sebagai

hasilnya, item tambahan akan meningkatkan keandalan skala, bahkan jika mereka tidak

meningkatkan korelasi rata-rata diantara semua item. Alpha Cronbach mencerminkan fakta

itu. Misalnya, menganggap kami memiliki 10 item pertanyaan yang menyelidiki perasaan

depresi. Bahkan dengan korelasi item yang antar mean yang sama, keandalan skala

keseluruhan akan meningkat menjadi 0,88

Meskipun perubahan ini tidak sangat besar, itu menggambarkan prinsip bahwa semakin

besar sampel item yang digunakan untuk mengukur konsep yang sama, semakin andal

A = __10_ (1 - ___10_________ ) 10-1 10 + 10 (10-1) 0,43

ukuran gabungan. Seperti yang kita lihat dalam contoh pemeriksaan NCLEX (pasal 13),

tes lagi akan memberikan perkiraan yang lebih akurat dan dapat diandalkan pengetahuan

keperawatan siswa daripada yang pendek.

Sekarang, kita akan melihat Alpha Cronbach dari sudut yang berbeda. Kita pegang k

(jumlah item indikator) konstan, tetapi bervariasi r (korelasi rata-rata antara item).

Misalkan korelasi rata-rata antara item pertanyaan adalah nol. Substituing nol untuk r

dalam formula untuk menghasilkan alpha yang juga sama dengan nol. Itulah yang harus

kita harapkan: ketika tanggapan terhadap item pertanyaan tidak berkorelasi sama sekali,

item tidak menangkap kebenaran umum skor. Bukan apa-apa tapi kesalahan varian, nilai

skala benar-benar bisa diandalkan. Di sisi lain, korelasi rata-rata sangat tinggi antara

barang-barang indikator skala menunjukkan komunalitas sibstantial: mereka mengukur

konsep yang mendasari konsisten, dengan kesalahan pengukuran kecil. Dalam ekstrem

teoritis, dimana setiap item indikator individu adalah ukuran sempurna dari konsep yang

mendasari, semua korelasi bevariate harus sama dengan 1 karena semua item akan

menghasilkan respon sangat konsisten. Namun, jika barang konstituen dari skala

pengukuran adalah konsep ukuran sempurna skala itu sendiri, dan kehandalan adalah sama

dengan 1.

Sekarang, kami telah tiba disebuah isu utama dalam pembangunan skala indikator multi

item. Kita selalu dapat memperkuat keandalan skala tersebut dengan meningkatkan jumlah

indikator atau meningkatkan kualitas sejumlah item tertentu. Item yang memproduksi

relatif tanggapan bebas dari kesalahan memiliki komunalitas yang lebih besar, yang

menimbulkan korelasi rata-rata diantara mereka. Di sisi lain, barang-barang yang memiliki

banyak kesalahan pengukuran mengurangi korelasi rata-rata antara indikator. Dengan

demikian, kita dapat terlibat dalam pertukaran antara jumlah indikator dan kualitas mereka.

Misalnya, tabel 14-3 menunjukkan empat kombinasi barang yang berbeda, yang semuanya

akan mencapai keandalan skala .80. Beberapa pelajaran yang dapat ditarik dari ini:

Selalu mungkin untuk mencapai nilai alpha yang tinggi jika menggunakan banyak

item indikator, lebih dari 20. Sebagaimana yang ditunjukkan pada tabel 14-3,

dengan lebih dari 40 item, bahkan korelasi antar item yang rata-rata kurang. 1 hasil

dalam mengesankan sebuah keandalan keseluruhan .80. Namun, korelasi rata-rata

rendah diantara banyak item indikator tidak mungkin hanya menunjukkan adanya

banyak kesalahan pengukuran, tetapi mungkin menyembunyikan fakta bahwa item

mengukur beberapa konsep yang hanya terkait lemah.

Kunci untuk skala unidimensional adalah untuk menemukan item yang relatif

sedikit (katakanlah, 5-10) yang tetap mencapai keandalan yang tinggi. Ini hanya

mungkin jika korelasi antar item yang setidaknya cukup kuat (r≥ .30). Dalam

prakteknya, tidak mudah untuk datang dengan relatif sedikit item terbaik yang

kedua mengukur konsep yang diinginkan dan menghasilkan hasil yangg pasti pada

sub-populasi yang berbeda.

Tersirat dalam diskusi ini adalah gagasan bahwa instrumen pengukuran yang dapat

diandalkan adalah salah satu yang memaksimalkan variasi antara subyek, tetapi

meminimalkan variasi antara barang-barang atau indikator alternatif.

Pembaca laporan penelitian tidak boleh terlalu terkesan dengan nilai keandalan

yang tinggi jika instrumen pengukuran atau skala memiliki banyak item (k≥20). Ini

khususnya terjadi ketika reliabilitas konsistensi internal adalah satu-satunya indeks

reliabilitas yang dilaporkan dalam sebuah artikel. Sering, penulis artikel penelitian

melaporkan reliabilitas konsistensi internal dari skala yang digunakan, tetapi tidak

memberikan informasi validitas. Seperti yang akan kita lihat nanti, kriteria seperti

pertimbangan validitas setidaknya sama penting dalam menilai kualitas instrumen

pengukuran multi-barang.

TES TES ULANG, ATAU TINDAKAN BERULANG, KEHANDALAN

Instrumen pengukuran variabel klinis banyak yang tidak menghasilkan beberapa skor

indikator yang dirancang untuk mengukur variabel tunggal, melainkan hanya

menghasilkan skor diamati tunggal. Untuk memperkirakan reliabilitas dari suatu alat ukur

atau prosedur, seseorang dapat mengulangi pengukuran untuk kedua kalinya, atau bahkan

lebih sering, dan memeriksa konsistensi hasil. Asalkan tidak ada perubahan nyata dalam

atribut yang diukur, pengukuran ulang harus menghasilkan hasil yang stabil.

Misalnya, anggaplah anda tertarik dalam mengevaluasi besarnya kesalahan pengukuran

dalam membaca tekanan darah dalam rentang waktu singkat pada pasien yang sama. Salah

satu cara untuk melakukan ini adalah untuk melakukan dua tes tekanan darah berturut-

turut pada sampel dari 50 pasien, dengan tes diambil dalam waktu 15 menit. Setelah

pencatatan dan pengumpulan data, anda akan memiliki informasi tentang empat variabel:

dua diastolik dan dua bacaan sistolik untuk masing-masing 50 pasien. Misalkan

menghubungkan masing-masing dua pembacaan berturut-turut menghasilkan Pearson

r=.94 untuk tekanan darah diastolik dan r=.90 untuk tekanan darah sistolik. Karena r

Pearson kuadrat dapat diartikan sebagai proporsi (atau persentase) varians dibagi antara

dua variabel, pembacaan diastolik memiliki 88% berbagi varians (R2 = 0,88) dan bacaan

sistolik memiliki 81% berbagi varians (R2 =.81 ).

Apa yang dapat disimpulkan dari data tersebut? Berdasarkan asumsi bahwa tekanan darah

pasien tetap stabil selama periode 15 menit, prosedur pengukuran dapat diasumsikan telah

menghasilkan 88% benar varian skor, ditambah dengan kesalahan pengukuran 12%, untuk

tekanan darah diastolik dan skor yang benar 81% varians, ditambah dengan kesalahan

19%, dalam mengukur tekanan darah sistolik. Dasar untuk kesimpulan ini bergantung pada

perilaku dari kesalahan pengukuran. Seperti yang dibahas dibagian sebelumnya adalah

acak kesalahan pengukuran tidak memberikan kontribusi apa-apa dengan skor yang

diamati hanya mencerminkan sistematis variasi sebagai akibat dari skor varian yang

sebenarnya. Harus ada yang pernah menjadi prosedur pengukuran tanpa kesalahan

ditambah dengan tidak ada perubahan dalam kondisi nyata yang mendasarinya, kita akan

mengharapkan hubungan yang sempurna (r=1) antara dua set pembacaan tekanan darah.

Dengan demikian, ketika menginterpretasikan korelasi, kita memperlakukan

keberangkatan dari korelasi yang sempurna sebagai "komponen kesalahan" dalam

pengukuran.

Perkiraan keandalan 88% dan 81% benar-benar dapat dianggap sebagai batas bawah yang

benar reliabilitas tes-tes ulang. Ingat bahwa kita mengasumsikan bahwa satu-satunya

alasan mengapa dua set pembacaan tekanan darah tidak akan berkorelasi dengan sempurna

adalah bahwa ada kesalahan yang terkait dengan mengukur tekanan darah. Namun, itu

lebih realistis untuk menganggap bahwa kebenaran tekanan darah tidak akan tetap

sepenuhnya stabil selama dua kesempatan pengukuran berturut-turut. Tekanan darah

sistolik pada khususnya lebih rentan terhadap perubahan selama periode yang relatif

singkat. Karena kita tidak atau tidak bisa membedakan antara perubahan yang nyata dan

kesalahan pengukuran, kita mungkin melakukan jumlah kesalahan dalam pengukuran,

sehingga meremehkan keandalan sebenarnya dari pengukuran tekanan darah. Interpretasi

yang paling tepat dalam situasi ini kami akan melihat reliabilitas diperoleh memperkirakan

sebagai "konservatif".

1. Ada dua peringatan penting ketika menafsirkan perkiraan reliabilitas test-retest:

Ketika hubungan antara dua aplikasi berturut prosedur pengukuran tertentu relatif

"rendah", misalnya, kurang dari 0,7, tidak harus mengikuti bahwa prosedur

pengukuran dapat diandalkan. Yaitu jika karakteristik perubahan dalam interval

pengukuran diukur sendiri, kemudian prosedur pengukuran yang dapat diandalkan

akan menghasilkan korelasi rendah. Berikut ini sulit untuk membangun tes-tes

ulang, atau tindakan berulang, keandalan prosedur pengukuran jika ditujukan pada

fenomena yang berfluktuasi secara alami, karena banyak variabel fisiologis

dilakukan. Dalam situasi seperti, interval waktu yang lebih singkat antara titik

pengukuran harus meningkatkan konsistensi hasil.

2. Dalam beberapa situasi, estimasi reliabilitas test-retest yang bias ke atas. Ini terjadi

terutama tes pengetahuan dan tes lainnya yang melibatkan memori manusia. Ketika

subjek mengikuti tes atau menjawab pertanyaan yang kedua kalinya, mereka

mungkin ingat tanggapan mereka sebelumnya dan mengulanginya. Jelas, dalam hal

ini, bias dalam mendukung keandalan melebih-lebihkan akan lebih besar, semakin

pendek interval antara kesempatan uji.

Singkatnya, penilaian keandalan tes-tes ulang tidak selalu mudah. Seorang peneliti harus

memiliki suara, konseptual berdasarkan alasan untuk penilaian, termasuk pemahaman yang

baik tentang bagaimana variabel fenomena yang terukur selama periode yang dimaksud

untuk pengukuran berikutnya.

KEANDALAN DATA PENGAMATAN: KEANDALAN INTERRATER

Kadang-kadang diperlukan untuk menggunakan pengamatan perilaku atau kuasanya

penilaian dari keadaan sebenarnya pasien. Misalnya, karena resiko tinggi terlibat dalam

mendapatkan itu benar, hakim dapat meminta dua atau tiga ahli kesehatan mental untuk

secara independen mengevaluasi orang yang tampaknya mengalami gejala ditandai

psikosis, untuk menentukan apakah orang tersebut cakap melakukan perbuatan hukum

untuk diadili atas tuduhan pidana. Evaluasi akan mencakup penilaian klinis oleh para ahli

kesehatan mental tentang keadaan pasien, tetapi akan didasarkan pada informasi yang

spesifik, seperti pengamatan perilaku seseorang, catatan medis, dan laporan dari anggota

keluarga dan orang lain yang signifikan. Tindakan perilaku atau proxy yang juga dapat

digunakan ketika pasien tidak bisa menjawab laporan pertanyaan diri (misalnya, pasien

dengan demensia berat, anak-anak atau bayi).

Dalam upaya untuk membakukan peringkat melibatkan observasi, peneliti sering

menggunakan dua atau lebih pengamat terlatih yang diminta untuk menilai perilaku

diamati sama secara independen. Misalnya, selama menggati pakaian, dua perawat dapat

secara independen menilai rasa sakit yang dialami oleh pasien di unit luka bakar yang

tidak dapat dipercaya secara verbal atau merekam peringkat nyeri mereka atau intubasi

trakea, delirium berfluktuasi, dan tangan luka bakar parah. Skala penilaian dapat terdiri

dari kategori ordinal, seperti:

KATEGORI TINGKATAN SKALA

Tidak ada rasa sakit jelas 0

Nyeri ringan 1

Nyeri sedang 2

Nyeri substansial 3

Sakit parah 4

Sakit luar biasa 5

Diberikan ini peringkat ordinal, cara sederhana untuk menilai jumlah kesepakatan dalam

pengamatan paralel akan memiliki dua perawat pengamat tingkat nyeri pasien selama tiga

atau lebih perubahan berpakaian dan kemudian menggunakan koefisien korelasi rank-

order, seperti Spearman r , untuk memperkirakan korelasi. Nilai korelasi mendekati 1 akan

menunjukkan kesepakatan yang hampir sempurna antara pengamat, sedangkan nilai nol

menunjukkan tidak ada konsistensi antara rating. Jika lebih dari dua penilai yang

digunakan, koefisien Kendall W dapat digunakan untuk memperkirakan jumlah

kesepakatan antara beberapa penilai.

KAPPA KOHEN

Seperti yang disebutkan sebelumnya dalam bab ini, dalam situasi klinis tujuan utama

melakukan pengamatan adalah untuk mengklasifikasikan pasien dalam beberapa cara.

Pada dasarnya, semua diagnostik jumlah kegiatan untuk menugaskan pasien dalam

kelompok yang sudah ada diagnostik sebelumnya, sebuah proses yang mungkin tidak

mudah jika kriteria tersebut kompleks dan bukti yang tersedia adalah ambigu. Misalnya,

dua ahli radiologi yang memeriksa radiografi untuk set yang sama dari 300 node payudara

untuk menentukan apakah node terlihat harus diklasifikasikan sebagai jinak,

mencurigakan, atau kanker. Tabel 14-4 menyajikan data hypo-thetical membandingkan

peringkat klasifikasi dua ahli radiologi.

Pada awalnya, orang mungkin berpikir bahwa persentase kesepakatan antara semua

klasifikasi dapat digunakan sebagai ukuran sederhana dari keandalan dalam klasifikasi

diagnostik. Tabel 14-4 menunjukkan persentase ini diamati (atau proporsi: P0) sebagai

76%. Namun, penghitungan sederhana ini tidak memperhitungkan berapa banyak

perjanjian antara dua penilai diharapkan hanya sebagai hasil kebetulan. Dua ahli radiologi

menggunakan metode benar independen dari klasifikasi node yang sama. Dengan asumsi

bahwa, setiap klasifikasi yang dibuat oleh ahli radiologi A adalah independen dari setiap

klasifikasi yang dibuat oleh ahli radiologi B. Karena ahli radiologi A mengklasifikasikan

180 (60%) dari node sebagai jinak dan ahli radiologi B mengklasifikasikan 150 (50%) dari

node sebagai jinak, klasifikasi itu sendiri akan menghasilkan 90 (180x150/300) atau 30%

dari semua node diklasifikasikan sebagai jinak oleh kedua ahli radiologi. Juga, 7 (2%)

node diharapkan untuk menerima klasifikasi "mencurigakan" oleh ahli radiologi dan 27

(9%) bisa diharapkan harus diklasifikasikan sebagai "kanker", sehingga kesepakatan penuh

pada 41% dari semua node, meskipun skema klasifikasi hipotetis yang digunakan oleh dua

ahli radiologi tidak berbagi kriteria apapun.

Sebagai contoh ini menunjukkan, keadaan dibawah ini akan lebih bermakna untuk

menanyakan apakah dua ahli radiologi dapat tingkat produk kesepakatan substansial yang

lebih baik daripada yang diharapkan secara kebetulan saja. Perjanjian sempurna akan

berarti bahwa semua klasifikasi dalam tabel 14-4 berakhir pada diagonal, menghasilkan

kesepakatan pada proporsi 1 (300/300). Dengan demikian, rentang yang relevan terhadap

menilai jumlah perjanjian yang sebenarnya sama dengan 1-41 karena kita mengharapkan

ahli radiologi untuk berbuat lebih baik daripada kesempatan. Kappa Cohen (Cohen, 1960)

mengungkapkan jumlah perjanjian antara dua pengklasifikasi sebagai dua rasio perbedaan:

(1) perbedaan antara proporsi perjanjian yang diamati dan proporsi yang diharapkan

berdasarkan kesempatan belaka (dalam pembilang) dan (2) perbedaan antara perjanjian

yang sempurna dan proporsi yang diharapkan dari kesepakatan berdasarkan kesempatan

belaka (dalam penyebut). Jika proporsi perjanjian diamati melebihi kesepakatan yang

diharapkan. Kappa harus lebih besar dari nol. Dan akan mencapai 1 jika proporsi

perjanjian diamati mencapai kesatuan. Menurut Landis dan Koch (1977), nilai Kappa 41

sampai 60 dapat dianggap moderat, nilai 61-80 dapat dianggap subtantial dan nilai-nilai

dari 80 hingga 100 adalah hampir sempurna. Prosedur klasifikasi yang menghasilkan nilai

kappa dari 81 atau lebih tinggi dalam biasanya dianggap memiliki keandalan interrater

tinggi.

VALIDITAS DALAM PENGUKURAN

Pada bagian sebelumnya, dengan jelas disebutkan bahwa yang menentukan akurasi dari tes medis atau biofisiologi adalah meliputi validitas dan reliabilitas. Umumnya, prosedur pengukuran dianggap valid jika mengukur karakteristik atau atribut yang dimaksudkan. Walaupun definisi ini tampak sederhana, pada kenyataannya menentukan validitas dari alat ukur, uji, atau prosedur adalah tidak mudah. Pendekatan yang diambil dengan test medis adalah untuk membandingkan dengan putative gold standar, yang tentunya membawa kepada pertanyaan bagaimana seseorang memvalidasi gold standar. Ada lingkaran tertentu dalam argumen ini. Seperti yang telah kita tekankan sebelumnya, seseorang tidak dapat membandingkan dengan hasil yang sebenarnya, hanya dengan langkah-langkah keliru. Langkah-langkah lainnya mengandung sejumlah kesalahan pengukuran acak, oleh karena itu, terbatas dalam kehandalan/reliabilitas nya, mereka juga tunduk pada pertanyaan yang sama tentang keabsahannya: Apakah mereka sebenarnya bisa mengukur apa yang mereka maksudkan untuk diukur?

Secara tradisional, dalam literatur psikometri, pendekatan pembentukan dari validitas pengukuran terdapat 3 cara. Kita bedakan menjadi 3, yaitu content, criterion dan construct validity.

CONTENT VALIDITY

Validitas isi adalah pendekatan yang mungkin paling sering digunakan untuk membangun validitas dari sebuah skala pengukuran, khususnya, sebuah skala yang didasarkan pada respon standar untuk pertanyaan laporan diri. Perhatian utama dengan validitas isi adalah bahwa item-item pertanyaan dipilih sebgai indikator-indikator skala ke domain konseptual. Contoh tabel 14.1.

Item CES-D9 bertanya kepada responden, “Seberapa sering anda berpikir bahwa kehidupan anda sudah gagal? Seseorang berpendapat bahwa, dari item-item terkandung dalam subskala depresi suasana hati, ini adalah satu-satunya yang meminta responden untuk merenungkan seluruh sejarah kehidupannya, bukan hanya suasana hati yang baru-baru ini. Dengan demikian, tampaknya agak berbeda dari inti konseptual item suasana hati

lain, alasan yang mungkin untuk temuan empiris yang menunjukkan item ini sering memiliki korelasi item total terendah di antara tujuh item subskala.

Pembentukan perbedaan semantik adalah sebuah contoh validitas isi dari item indikator tertentu. Akhirnya orang akan menggunakan ahli di bidang tertentu untuk membuat penilaian tentang validitas isi pertanyaan tertentu, atau seseorang akan meminta mereka untuk mengembangkan pertanyaan-pertanyaan. Para ahli di bidang tertentu mungkin sangat baik menjadi anggota populasi target itu dimana peneliti bermaksud untuk belajar. Dalam kasus itu, pendekatan yang lebih formal untuk mengembangkan butir pertanyaan dengan konten yang relevan mungkin menggunaan kelompok fokus (lihat bab 18). Karena arti dari kata-kata dan frase sering berbeda antara pengguna dan subgroup, mungkin tidak ada cara untuk menetapkan validitas isi “sekali dan untuk semua”. Baik reliabilitas dan validitas ukuran dapat bervariasi sebagai fungsi dari populasi sasaran dan variabel lain dalam konteks penelitian. Namun, konsensus makna pertanyaan di antara para ahli dari area subyek tertentu sering dapat jauh menuju pembentukan validitas isi.

CRITERION VALIDITY

Pembentukan dari criterion validity adalah difokuskan dengan menggunakan kriteria eksternal untuk memvalidasi pengukuran instrumen yang diberikan. Jika kriteria eksternal terjadi beberapa saat di waktu yang akan datang, maka disebut predictive validity. Untuk membentuk ini, yaitu menggunakan nilai yang didapat melalui alat pengukuran baru untuk memprediksi sebuah outcome atau kriteria eksternal. Misalnya tes untuk pelajar keperawatan diberikan segera sebelum kelulusan dari program s1 dapat divalidasi dengan membandingkan nilai dengan nilai ujian NCLEX-RN sebenarnya diambil untuk lisensi sebagai seorang Registered Nurse di US. Namun, kriteria eksternal itu adalah konsep yang berbeda dari mengukur pertanyaan, seperti ketika memprediksi “keberhasilan pekerjaan” dalam 5 tahun setelah lulus dari sekolah keperawatan berdasarkan nilai NCLEX. Walaupun keberhasilan pekerjaan, namun mendefinisikan, bisa dibayangkan dipikirkan sebuah kriteria eksternal yang mungkin untuk NCLEX, menggunakan ini sebagai kriteria validasi untuk sebuah tes pengetahuan akan diperlukan sebuah teori validitas yang berhubungan dengan keberhasilan kerja. Pada saat ini, membangun kriteria validitas melibatkan penelitian substantiv yang meneliti hubungan antara dua konseptual variabel berbeda .

Jika kriteria eksternal digunakan untuk menetapkan validitas, lebih atau kurang, pada waktu yang sama yang mana nilai pengukuran didapatkan, validitas merujuk kepada concurrent validity. Penggunaan gold standar untuk memvalidasi tes medis adalah salah satu contoh dari concurrent validity. Catatan, bagaimanapun, bahwa batas-batas antara validitas prediktif dan berbarengan(concurrent) mungkin kecil. Ketika kita menggunakan gold standar untuk memvalidasi alat diagnostik, atau lebih umumnya, ketika kita menggunakan sebuah kriteria eksternal untuk memvalidasi sebuah alat ukur, kita biasanya menganggap bahwa kedua pengukur diperoleh "cukup dekat" bersama sehingga mereka mencerminkan beberapa realitas dasar. Untuk memperoleh sebuah contoh ekstrim yang kontra, kita tidak akan mencoba untuk memvalidasi interpretasi atau tingkatan berdasarkan

radiografi menggunakan hasil biopsi yang dilakukan 1 tahun setelahnya. Apa yang dianggap sebagai interval diterima antara nilai tes pengukuran dan penentuan kriteria atau hasil gold standar tergantung pada fenomena dari investigasi. Semakin cepat bisa berubah, semakin pendek periode validasi pengukuran diterima. Sering kriteria pengukuran kembali pada peristiwa yang lalu, seperti ketika peneliti mencoba memvalidasi skala sikap, nilai yang dibandingkan dengan informasi tentang perilaku aktual akhir-akhir ini. Sebagai contoh, dapat dijumpai pada Collins, Stommel, dan King (1991) yang mana peneliti memvalidasi sebuah skala untuk menentukan sikap terhadap pelayanan komunitas dengan menghubungkan masing-masing nilai dengan variabel yang diukur yang sebenarnya digunakan baru-baru ini.Validitas dari prosedur tergantung pada, antara lain anggapan bahwa sikap tidak berubah terlalu besar sejak periode dimana tindakan perilaku merujuk. Dengan demikian, pertimbangan sementara seharusnya selalu menjadi bagian dari evaluasi dari kriteria validitas eksternal.

CONSTRUCT VALIDITY

Menggunakan analisis faktor untuk membangun Validitas Konstruk

Paling dasar, analisis faktor adalah sebuah set dari tehnik statistik yang bisa digunakan untuk menemukan pengelompokan item (Penjelasan analisis faktor a sebuah alat yang sangat diperlukan untuk mencari tahu item pertanyaan yang dikembangkan hasil yang seragam atau bentuk-bentuk respon multidimensi. Tabel 14.11 menunjukkan contoh dari bentuk korelasi yang konsisten dengan dua faktor struktur dimensional.

KESIMPULAN

Pada bab ini, kita telah fokus pada bagaimana cara menilai kualitas dari prosedur pengukuran. Khususnya, dua konsep validitas dan reliabilitas yang dikenal sebagai alat yang dapat digunakan untuk mengeset standar dan mengevaluasi prosedur pengukuran. Reliabilitas mengacu pada reproduktifitas, pengulangan, dan konsistensi dari prosedur pengukuran. Ini adalah bahan penting untuk satu persaratan dari bukti ilmiah, yang bisa ditiru. Validitas bahkan lebih mendasar dalam arti bahwa pengujian teori-teori tentang hubungan antara fenomena dunia nyata dapat terjadi hanya jika operasionalisasi, atau pengukuran, dari konsep adalah representasi empiris yang memadai dari konsep.

Reabilitas pengukuran adalah diperlukan, tetapi itu saja tidak cukup, maka diperlukan validitas (contoh: alat pengukuran atau instrumen menjadi valid, harus memiliki beberapa minimal reliabilitas, karena instrumen yang hanya menghasilkan kesalahan pengukuran tidak menangkap variasi nyata dalam fenomena. Pada waktu yang sama, reliabilitas dari prosedur pengukuran (contoh ini menghasilkan hasil yang konsisten pada pengukuran berulang) adalah bukti yang cukup dari validitas. Misalnya, apakah instrumen pengukuran tertentu mengukur kecemasan dari pada depresi tidak dapat ditentukan hanya berdasarkan dari bukti bahwa skor yang dihasilkan konsisten pada pengukuran berulang. Seperti yang didiskusikan, pertimbangan validitas tidak pernah benar-benar diselesaikan. Baik peneliti maupun pembaca harus tetap waspada terhadap

kemungkinan bahwa bukti mungkin menantang pandangan yang selama ini tentang validitas dari prosedur pengukuran khusus.

Download - handayanilina.files.wordpress.com€¦ · Web viewPengukuran tunggal mungkin ... Hasil ini luar biasa: ia ... Tabel 14.11 menunjukkan contoh dari bentuk korelasi yang konsisten

Top Related