Download - harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/... · Stata adalah program komputer untuk analisis statistik, pertama kali dibuat oleh StataCorp

PENGENALANPENGENALANPENGENALANPENGENALAN

STATASTATASTATASTATA

Johan HarlanJohan HarlanJohan HarlanJohan Harlan

Pengenalan StataPengenalan StataPengenalan StataPengenalan Stata

Penulis : Johan Harlan

ISBN : 978-602-9438-79-6

Cetakan Pertama, Juni 2017

Disain cover : Joko Slameto

Diterbitkan pertama kali oleh Gunadarma

Jl. Margonda Raya No. 100, Pondokcina, Depok 16424

Telp. +62-21-78881112, 7863819 Faks. +62-21-7872829

e-mail : [email protected]

Hak Cipta dilindungi undang-undang. Dilarang mengutip atau

memperbanyak dalam bentuk apapun sebagian atau seluruh isi

buku tanpa ijin tertulis dari penerbit.

Kata Pengantar

v

KATA PENGANTAR

Stata adalah program komputer untuk analisis statistik, pertama kali

dibuat oleh StataCorp pada tahun 1985. Stata tersedia untuk Windows, Unix,

dan Mac. Sampai versi 7, Stata masih menggunakan sistem operasi DOS,

tetapi sejak versi 8 ke atas telah berbasis Windows dengan pull-down menu.

Walaupun demikian, pengguna Stata sangat dianjurkan untuk menggunakan

perintah dalam mode interaktif, yang terutama akan dibahas dalam buku ini.

Pembaca buku ini diharapkan telah menguasai dasar-dasar metode dan

analisis statistik, yang tidak akan dibahas lagi secara mendetil dalam buku

ini. Saran dan kritik dari pembaca sangat diharapkan, demi perbaikan isi

buku pada penerbitan selanjutnya.

Jakarta, Juni 2017

Penulis

Daftar Isi

vi

DAFTAR ISI

Kata Pengantar v

Daftar Isi vi

Bab 1 Pendahuluan 1

Membuka dan Menutup Program & File Data 1

Membuat File Data Baru Stata 6

Mengimpor File Excel ke dalam Stata 10

Menyimpan Analisis Data Stata dalam File Log 12

Bab 2 Manajemen Data 17

Membuka file data: use, sysuse, dan webuse 17

Membuka dan menyimpan file data dalam format

Excel: import dan export

18

Menampilkan isi dataset: edit dan browse 18

Pembatasan perintah: ekspresi if dan in 19

Menampilkan nilai-nilai variabel dan definisi nilai-

nilai label: list dan label list

21

Deskripsi data: describe 23

Tipe data dan kompresi data dalam memori: data

types dan compress

24

Konversi variabel string menjadi numeric dan

sebaliknya: destring dan tostring

25

Mengurutkan, membuang, dan mempertahankan

variabel: order, drop, dan keep

25

Daftar Isi

vii

Mengurutkan nilai variabel dan penggunaan hasilnya:

sort dan by

26

Membuat variabel baru dan mengganti nilai variabel:

generate, replace, dan egen

27

Bab 3 Statistika Deskriptif 28

Nilai-nilai Deskriptif Variabel Numerik 28

Nilai-nilai Deskriptif Variabel Kategorik 32

Bab 4 Grafik Statistik 39

Histogram dan Densitas Kernel 39

Histogram untuk Variabel Kategorik 46

Diagram Batang 47

Diagram Tebar 49

Diagram Kotak & Titik 52

Diagram Lingkar 55

Grafik Matriks 56

Bab 5 Analisis Statistik Sederhana 59

Uji t 59

Uji Khi-kuadrat 71

Bab 6 Analisis Variansi 80

Analisis Variansi 1-Arah 80

Analisis Variansi 2-Arah Tanpa Interaksi 84

Analisis Variansi 2-Arah Dengan Interaksi 87

Daftar Isi

viii

Bab 7 Analisis Regresi Linear 90

Regresi Linear Sederhana 90

Regresi Linear Sederhana dengan Prediktor Indikator 95

Regresi Linear Ganda 96

Regresi Linear Ganda dengan Prediktor Kategorik 99

Regresi Linear Ganda dengan Interaksi 101

Bab 8 Analisis Regresi Logistik 106

Model Regresi Logistik Sederhana 106

Model Regresi Logistik Ganda 109

Bab 9 Statistika Nonparametrik 114

Uji ranksum Wilcoxon (Mann-Whitney) 114

Uji signrank Wilcoxon 115

Uji Kesamaan Rank Kruskal-Wallis 116

Kepustakaan 119

Bab 1. Pendahuluan

BAB 1

PENDAHULUAN

� Membuka dan Menutup Program & File

Data

Stata adalah program statistik yang dikeluarkan oleh

Corporation. Salah satu keunikan

pengguna dapat mengembangkan perintah

aplikasi untuk disumbangkan bagi seluruh masyarakat pengguna

Perintah-perintah Stata dapat diberikan baik melalui menu maupun

secara interaktif, meskipun demikian cara yang dianjurkan ialah pemberian

perintah secara interaktif. Stata memiliki empat jendela, yaitu jendela

Command, Variables (terdiri atas

Review, dan Stata Results (Gambar

Gambar 1.1. Tampilan awal pada saat membuka program Stata

Pendahuluan

1

BAB 1

DAHULUAN

Membuka dan Menutup Program & File

adalah program statistik yang dikeluarkan oleh Stata

. Salah satu keunikan Stata yaitu pengguna / organisasi

pengguna dapat mengembangkan perintah-perintah baru untuk berbagai

eluruh masyarakat pengguna Stata.

dapat diberikan baik melalui menu maupun

meskipun demikian cara yang dianjurkan ialah pemberian

memiliki empat jendela, yaitu jendela Stata

terdiri atas 2 bagian: Name dan Properties),

Gambar 1.1).

1. Tampilan awal pada saat membuka program Stata

Bab 1. Pendahuluan

Keempat jendela tersebut diperlihatkan secara terpisah pada Gambar

1.1a.

Gambar 1.1a. Jendela Stata secara terpisah.

Atas Kiri: Jendela Review; Atas

Tengah (Kiri-Kanan): Jendela

Bawah: Jendela

Pendahuluan

2

tersebut diperlihatkan secara terpisah pada Gambar

1a. Jendela Stata secara terpisah.

Atas Kanan: Jendela Stata Results;

Kanan): Jendela Variables;

Jendela Stata Command

Bab 1. Pendahuluan

Menu bar Stata berisi opsi berikut (

Gambar 1.2. Menu Bar Stata

Gambar 1.2a. Tool Bar Stata

Selain menu bar, di bawahnya terdapat

dengan arti masing-masing icon adalah:

: Open

: Save

: Print Results

: New Viewer

: Log (begin/close/suspend/resume)

: Bring graph window to front

: New Do-file Editor

: Data Editor (Edit)

: Data Editor (Browse)

: Variables Manager

: Clear “more” condition

: Break

Membuka file data Stata

dilakukan melalui menu (File > Open

perintah “use”. Misalnya untuk membuka file

pada folder D:\Data\Stata\ diketikkan perintah

. use "D:\Data\Stata\honolulu.dta"

Pendahuluan

3

berisi opsi berikut (Gambar 1.2):

2. Menu Bar Stata

2a. Tool Bar Stata

, di bawahnya terdapat tool bar (Gambar 1.2a)

dalah:

Log (begin/close/suspend/resume)

Bring graph window to front

Clear “more” condition

(file dengan extension *.dta) dapat

Open > . . . ) ataupun dengan menggunakan

. Misalnya untuk membuka file honolulu.dta yang tersimpan

diketikkan perintah:

onolulu.dta"

Bab 1. Pendahuluan

4

Jika sebelumnya ada file data Stata lain yang masih terbuka, maka

ditambahkan opsi “[, clear]” menutup file terdahulu yang masih terbuka dan

menghapus variabel-variabelnya dari memori komputer:

. use "D:\Data\Stata\honolulu.dta", clear

Untuk membersihkan jendela Stata Results, perintahnya adalah “cls”:

. cls

Untuk mengeksekusi tiap baris perintah yang telah diketikkan, tekan

tombol Enter. Tiap perintah diketik pada jendela Stata Command yang

hanya memuat 1 baris perintah, dan setelah dieksekusi akan menggulung ke

atas, sehingga perintah itu tidak terlihat lagi, namun jika ingin dilihat,

perintah tersebut dapat diturunkan kembali dengan menekan tombol PgUp

pada papan ketik. Untuk mengetik perintah berikut, perintah lama tersebut

harus digulung kembali ke atas dengan menekan tombol PgDn. Tiap

perintah yang telah dieksekusi juga akan muncul secara otomatis pada

jendela Review, yang dapat memuat lebih banyak baris perintah.

Perhatikan bahwa jika file honolulu.dta dibuka melalui menu bar

File > Open > D:\Data\Stata\, maka pada jendela Stata Command secara

otomatis akan timbul ketikan use "D:\Data\Stata\honolulu.dta", clear,

walaupun pengguna tidak mengetiknya. Setelah file honolulu.dta terbuka,

semua variabelnya, baik nama maupun properties-nya secara otomatis akan

muncul pada jendela Variables (gambar 1.3).

Bab 1. Pendahuluan

Gambar 1.3. Contoh penggunaan perintah 'use' untuk membuka

file data Sta

Untuk memperoleh informasi

penggunaan (dengan contoh) suatu perintah, digunakan perintah

misalnya untuk mendapatkan informasi tentang

atau “clear”, diketikkan perintah “help use

membuka jendela “help use” atau “help clear

. help use atau:

. help clear dan seterusnya.

Perintah “help“ dapat digunakan, baik dalam keadaan ada ataupun

tidak ada file data yang sedang terbuka.

Jika sudah ada file data yang terbuka, untuk sebelum meninggalkan

program Stata, file yang masih terbuka ini harus dihapus dari memori

(ditutup) setelah sebelumnya di-saved

file, lalu menutup program Stata ialah

. clear

. exit

Pendahuluan

5

. Contoh penggunaan perintah 'use' untuk membuka

file data Stata

Untuk memperoleh informasi lebih detil mengenai pengertian dan

suatu perintah, digunakan perintah “help”,

misalnya untuk mendapatkan informasi tentang penggunaan perintah “use“

help use” atau “help clear” yang akan

help clear”:

seterusnya.

“ dapat digunakan, baik dalam keadaan ada ataupun


data yang terbuka, untuk sebelum meninggalkan

yang masih terbuka ini harus dihapus dari memori

saved jika perlu. Perintah untuk menutup

ialah “clear”, lalu “exit”:

Bab 1. Pendahuluan

6

Dalam sebuah program Stata hanya dapat dibuka 1 file data. Jika

diberi perintah untuk membuka file data kedua, file data pertama otomatis

akan ditutup. Tetapi program Stata yang dibuka dapat lebih daripada satu.

Dengan membuka program Stata kedua, file data kedua dapat dibuka pada

program Stata kedua tanpa mengakibatkan tertutupnya file data pertama pada

program Stata pertama. Setelah itu masih dapat dibuka program Stata ketiga

dengan file data ketiga, dan seterusnya.

� Membuat File Data Baru Stata

Untuk membuat file data baru, cara termudah yaitu membuka jendela

Stata Editor [klik icon Data Editor (Edit) pada tool bar (Gambar 1.4] atau

ketikkan perintah “edit”). Setelah jendela Stata Editor terbuka (Gambar

1.4a), data dapat diisi dengan diketikkan secara langsung seperti pada

penggunaan spreadsheet biasa (gambar 1.4a).

Gambar 1.4. Icon Data Editor (Edit) pada Tool Bar

Bab 1. Pendahuluan

Gambar 1.4a. Jendela Stata Editor untuk pemasukan data

Nama variabel baru dapat diberikan setelah paling sedikit satu

data diisikan pada kolom tersebut. Stata

awal variabel berupa var1, var2, dan

diisi pada kolom pertama, dengan klik kiri ganda pada

Variable Properties akan ditampilkan dan pengguna dapat

variabel sesuai dengan keinginannya.

diawali dengan huruf kecil, bukan huruf besar

Panjang nama variabel dianjurkan tidak melebihi 10 karakter, tanpa ruang

kosong (blank spaces) di antaranya. Ruang kosong akan memisahkan

nama tersebut menjadi 2 nama yang dianggap sebagai nama untuk 2 variabel.

Nama variabel juga dapat diganti dengan menutup jendela

kembali ke jendela Stata Command

rename varname_old varname_new

Tiap variabel dapat diberi label

istilah yang memiliki arti jelas dan

Stata, misalnya label untuk variabel

label dapat dilakukan melalui jendela

diketikkan perintahnya pada jendela

label variable varname ["label"

Pendahuluan

7

. Jendela Stata Editor untuk pemasukan data

Nama variabel baru dapat diberikan setelah paling sedikit satu nilai

Stata secara otomatis akan memberi nama

, dan seterusnya. Setelah ada nilai data yang

dengan klik kiri ganda pada nama var1, jendela

akan ditampilkan dan pengguna dapat mengganti nama

keinginannya. Nama variabel dalam Stata dianjurkan

diawali dengan huruf kecil, bukan huruf besar, angka ataupun garis bawah.


) di antaranya. Ruang kosong akan memisahkan suatu


Nama variabel juga dapat diganti dengan menutup jendela Edit dan

Stata Command dan gunakan sintaks:

varname_old varname_new

label dengan perintah label variable, yaitu

memiliki arti jelas dan akan ditampilkan pada hasil analisis

, misalnya label untuk variabel bb adalah Berat Badan. Pemberian

ukan melalui jendela Variable Properties ataupun

diketikkan perintahnya pada jendela Stata Command dengan sintaks:

"label"]

Bab 1. Pendahuluan

Untuk variabel kategorik, tiap nilai merepresentasikan taraf arti

tertentu, misalnya pada variabel biner

merokok; pada variabel kategorik

pendidikan sekunder, 3 = pendidikan tersier; dan sebagainya. Pada

tiap daftar taraf arti ini disebut nama

yang direpresentasikan oleh suatu

perintah label define.

Misalnya untuk variabel merokok

(label values) “yatidak“ dengan definisi

Untuk variabel tk_pend, dapat diberi

definisi “1 primer 2 sekunder 3 tersier

Perhatikan bahwa tiap nama n

digunakan untuk variabel lain dengan

nilai label “yatidak“ dengan definisi

juga dapat dipakai untuk variabel h

menderita hipertensi atau tidak.

Nama nilai label dan definisinya dapat di

jendela Stata Command seperti pada contoh 1 berikut ataupun diisikan

melalui jendela Variables Manager

Variables Manager pada Tool Bar (Gambar

Gambar 1.5. Icon Variables Manager pada Tool Bar

Contoh 1.1:

Buka program Stata, lalu klik ikon

perintah edit. Masukkan nilai-nilai data mahasiswa

Data Editor (5 baris pertama dan 6 kolom terkiri):

Pendahuluan

8

variabel kategorik, tiap nilai merepresentasikan taraf arti

tertentu, misalnya pada variabel biner merokok, 1 = merokok dan 0 = tidak

merokok; pada variabel kategorik tk_pend, 1 = pendidikan primer, 2 =

pendidikan sekunder, 3 = pendidikan tersier; dan sebagainya. Pada Stata,

nama nilai label (label values) dan nilai-nilai

irepresentasikan oleh suatu nama nilai label didefinisikan dengan

merokok dapat diberi nama nilai label

definisi (label define) “0 tidak 1 ya“.

dapat diberi nama nilai label “kode_pend“ dengan

tersier”.

nilai label yang telah didefinisikan dapat

digunakan untuk variabel lain dengan definisi yang sama, misalnya nama

definisi “0 tidak 1 ya“ untuk variabel merokok

hbp yang menyatakan apakah responden

finisinya dapat dibuat dengan perintah pada

seperti pada contoh 1 berikut ataupun diisikan

Variables Manager yang dibuka dengan mengklik icon

Gambar 1.5).

5. Icon Variables Manager pada Tool Bar

, lalu klik ikon Data Editor atau ketikkan

data mahasiswa berikut pada spreadsheet

(5 baris pertama dan 6 kolom terkiri):

Bab 1. Pendahuluan

9

1 1 18 1 59 1

2 2 21 1 55 1

3 2 22 0 42 0

4 1 19 1 57 0

5 3 20 0 47 0

Stata secara otomatis memberi nama keenam kolom tersebut dengan

var1, var2, . . . , var6. Tutup Data Editor, lalu ketikkan perintah berikut

untuk memberi/mengganti nama-nama variabel:

. rename var1 nores

. rename var2 fak

. rename var3 usia

. rename var 4 seks

. rename var5 bb

. rename var6 nktt

Berikut adalah perintah untuk memberi label bagi tiap variabel:

. label var nores “Nomor Responden”

. label var fak “Fakultas”

. label var usia “Usia”

. label var seks “Jenis Kelamin”

. label var bb “Berat Badan”

. label var nktt “Riwayat Nyeri Kepala”

Variabel pertama nores bukan merupakan variabel sebenarnya.

Variabel kategorik adalah fak, seks, dan nktt. Selanjut adalah pemberian

nama nilai label untuk variabel kategorik dan definisinya.

. label values fak kode_fak

. label define kode_fak 1 “Ilmu Komputer” 2 “Ekonomi” 3 “Psikologi”

. label values seks kode_seks

. label define kode_seks 1 “pria” 0 “wanita”

. label values nktt yesno

Bab 1. Pendahuluan

10

. label define yesno 1 “ya” 0 “tidak”

Ikhtisar variabel kategorik, label, nama nilai label, dan definisinya

pada contoh ini diperlihatkan pada tabel berikut:

No Variabel Label Nilai label Definisi

1 fak Fakultas kode_fak 1 Ilmu Komputer

2 Ekonomi

3 Psikologi

2 seks Jenis Kelamin kode_seks 1 pria 0 wanita

3 nktt Riwayat Nyeri Kepala yesno 1 ya 0 tidak

Untuk variabel kontinu hanya ada labelnya tanpa perlu nama nilai

label.

Simpan file data dengan nama file latihan1.dta. Penyimpanan dapat

dilakukan melalui menu bar dengan mengklik “File > Save >

D:\Data\Stata\“ atau ”File > Save as > D:\Data\Stata\“. Penyimpanan dapat

juga dilakukan dengan mengetikkan perintah:

. save "D:\Data\Stata\latihan1.dta"

file D:\Data\Stata\latihan1.dta saved

� Mengimpor File Excel ke dalam Stata

Membuat file data baru Stata dapat juga dilakukan dengan terlebih

dahulu membuat file Excel-nya, lalu meng-“impor”-nya ke dalam program

Stata. Keuntungan cara ini ialah bahwa file Excel umumnya dapat di-

“impor” ke dalam hampir semua program komputer statistik lainnya, yaitu

jika data juga hendak diolah dengan program komputer statistik lain.

Syarat untuk file Excel agar dapat di-“impor” ke dalam program

Stata (dan juga program komputer statistik lainnya) yaitu:

- File hanya memuat nama variabel dan nilai-nilai datanya, tanpa nama

atau keterangan lain tentang isi file, baik di bagian atas maupun di bagian

bawah isi file. Tidak boleh ada baris jumlah di bagian terbawah. Juga

tidak boleh ada kolom jumlah di bagian terkanan dataset, kecuali jika

Bab 1. Pendahuluan

11

kolom jumlah ini akan diperlakukan sebagai salah satu variabel dalam

analisis data.

- Nama-nama variabel dituliskan pada baris teratas, semuanya diawali

dengan huruf kecil.

- Nilai-nilai data dituliskan pada baris kedua (untuk responden pertama),

baris ketiga (untuk responden kedua), dan seterusnya sampai seluruh

responden termuat datanya, tanpa ada baris kosong yang terselip di antara

baris-baris data.

Prosedur untuk meng-“impor” file Excel ke dalam program Stata

dapat dilakukan melalui menu bar ataupun dengan perintah pada Stata

Command.

Contoh 1.2:

Pada contoh ini akan diperlihatkan prosedur untuk meng-“impor” file

Excel “D:\Data\Stata\bankloan.xls” ke dalam program Stata.

Pada menu bar, klik File > Import > Excel spreadsheet (*.xls,

*xlsx), maka jendela Import Excel akan terbuka. Klik Browse pada jendela

Import Excel untuk mencari lokasi penyimpanan file Excel yang akan di-

“import”, yaitu “D:\Data\Stata\”. Jika file Excel memiliki lebih daripada 1

worksheet, maka Worksheet perlu diisi, jika tidak ataupun tak diisi, nilai

default-nya adalah worksheet pertama (Sheet1). Centang kotak kecil di

depan tulisan “Import first row as variable names”, lalu klik OK., maka

file Excel bankloan.xls tersebut telah terbuka dalam Stata.

Proses meng-“impor” bankloan.xls file di atas dapat juga dilakukan

dengan mengetikkan perintah:

. import excel "D:\Data\Stata\bankloan.xls", sheet("Sheet1") firstrow

File yang terbuka tersebut dapat diolah sebagai file data Stata tanpa

mengubah isi file Excel aslinya. Jika ingin disimpan sebagai file data Stata,

tetap harus melalui prosedur “save”:

. save "D:\Data\Stata\bankloan.dta"

file D:\Data\Stata\bankloan.dta saved

Bab 1. Pendahuluan

12

� Menyimpan Analisis Data Stata dalam File

Log

Seluruh pekerjaan (perintah dan hasil) dalam program Stata dapat

direkam dan disimpan sebagai file log dengan format *.scml yang dapat

dibuka dan dilihat kembali dalam program Stata di lain waktu. Prosedur

selengkapnya diperlihatkan pada contoh berikut.

Contoh 1.3:

Buka file log exercise1.scml untuk disimpan dalam

“D:\Data\Stata\” dengan mengklik File > Log > Begin . . . , dan seterusnya.

Atau ketikkan perintah:

. log using "D:\Data\Stata\exercise1"

name: <unnamed>

log: D:\Data\Stata\exercise1.smcl

log type: smcl

opened on: 10 Jul 2015, 15:26:46

Selanjutnya akan diperlihatkan sejumlah pekerjaan berupa perintah

dan hasil dalam Stata untuk disimpan dalam file log exercise1.scml tanpa

penjelasan rinci mengenai perintah-perintah tersebut. Penjelasan mengenai

perintah-perintah akan diberikan dalam bab-bab berikut.

Misalkan hendak dibuka file data Arctic9.dta.

. use “D:\Data\Stata\Arctic9.dta”, clear

(Arctic September mean sea ice 1979-2011)

Atau klik File > Open > . . . > Arctic9.dta

Untuk melihat deskripsi singkat dataset yang ada dalam memori,

digunakan perintah describe.

. describe

Contains data from D:\Data\Stata\Arctic9.dta

obs: 33 Arctic September mean sea ice 1979-2011

vars: 8 2 Jul 2012 06:11

size: 891

Bab 1. Pendahuluan

13

---------------------------------------------------------------------

storage display value

variable name type format label variable label

---------------------------------------------------------------------

year int %ty Year

month byte %8.0g Month

extent float %9.0g Sea ice extent, million km 2

area float %9.0g Sea ice area, million km 2

volume float %8.0g Sea ice volume, 1000 km 3

volumehi float %9.0g Volume + 1.35 (uncertainty)

volumelo float %9.0g Volume - 1.35 (uncertainty)

tempN float %9.0g Annual air temp anomaly 64N-90N C

---------------------------------------------------------------------

Sorted by: year

Untuk melihat isi dataset pada record No. 1 s.d. 10:

. list in 1/10

+---------------------------------------------------------+

| year month extent area volume volumehi volumelo tempN |

|---------------------------------------------------------|

1. | 1979 9 7.2 5.72 16.9095 18.2595 15.5595 -.57 |

2. | 1980 9 7.85 6.02 16.3194 17.66937 14.96937 .33 |

3. | 1981 9 7.25 5.57 12.8131 14.16307 11.46307 1.21 |

4. | 1982 9 7.45 5.57 13.5099 14.85987 12.15987 -.34 |

5. | 1983 9 7.52 5.83 15.2013 16.5513 13.8513 .27 |

|---------------------------------------------------------|

6. | 1984 9 7.17 5.24 14.6336 15.98357 13.28357 .31 |

7. | 1985 9 6.93 5.36 14.5836 15.93363 13.23363 .3 |

8. | 1986 9 7.54 5.85 16.0803 17.43027 14.73027 -.05 |

9. | 1987 9 7.48 5.91 15.3609 16.7109 14.0109 -.25 |

10. | 1988 9 7.49 5.62 14.988 16.338 13.638 .87 |

+---------------------------------------------------------+

Untuk memperoleh tabel berisi nilai-nilai rerata, standar deviasi,

minimum, dan maksimum digunakan perintah summarize.

Bab 1. Pendahuluan

14

. summarize

Variable | Obs Mean Std. Dev. Min Max

---------+--------------------------------------------

year | 33 1995 9.66954 1979 2011

month | 33 9 0 9 9

extent | 33 6.51697 .9691796 4.3 7.88

area | 33 4.850303 .8468452 3.09 6.02

volume | 33 12.04664 3.346079 4.210367 16.9095

---------+--------------------------------------------

volumehi | 33 13.39664 3.346079 5.560367 18.2595

volumelo | 33 10.69664 3.346079 2.860367 15.5595

tempN | 33 .790303 .7157928 -.57 2.22

Untuk mendapatkan nilai-nilai korelasi antar variabel kontinu:

. correlate

(obs=33)

| year month extent area volume volumehi volumelo tempN

---------+----------------------------------------------------------

year | 1.0000

month | . .

extent | -0.8446 . 1.0000

area | -0.8732 . 0.9826 1.0000

volume | -0.8999 . 0.9308 0.9450 1.0000

volumehi | -0.8999 . 0.9308 0.9450 1.0000 1.0000

volumelo | -0.8999 . 0.9308 0.9450 1.0000 1.0000 1.0000

tempN | 0.7905 . -0.8045 -0.8180 -0.8651 -0.8651 -0.8651 1.0000

Perubahan ice extent dalam perjalanan waktu dapat diperlihatkan

dalam bentuk grafik:

Bab 1. Pendahuluan

15

. graph twoway connect extent year

Jika pengolahan dan analisis data telah selesai, file log dapat ditutup

dan disimpan:

. log close

name: <unnamed>


log type: smcl

closed on: 29 Jun 2014, 15:33:33

Perintah ini sama dengan melalui menu bar File > Log > Close.

Selama file log terbuka pada saat pengolahan dan analisis data, seandainya

program Stata akan ditutup untuk dihentikan sementara, sedangkan analisis

data belum selesai, perekaman dapat dihentikan sementara, kemudian

dilanjutkan dengan sintaks:

log off logname (perintah penghentian sementara)

log on logname (perintah melanjutkan kembali)

File log yang telah ditutup dapat dibuka kembali untuk dilihat dalam

program Stata dengan mengklik File > Log > View. File dalam format

*.scml dapat diubah menjadi format *.log yang dapat dibuka dengan

wordprocessor, misalnya untuk exercise1.scml pada menu bar dengan File

> Log > View yang akan membuka jendela “Translate file” atau dengan

mengetikkan perintah:

45

67

8S

ea ice

exte

nt,

mill

ion k

m^2

1980 1990 2000 2010Year

Bab 1. Pendahuluan

16

. translate “D:\Data\Stata\exercise1.scml” “D:\Data\Stata\exercise1.log”

Selanjutnya file exercise1.log dapat dibuka dengan menggunakan

salah satu wordprocessor dalam MS Office, tanpa melalui program Stata.

Hasil analisis data pada jendela Result juga dapat dipindahkan ke

Word Processor, misalnya MS Word dengan metode “salin-tempel” (copy-

paste). Untuk menjaga kerapian tampilan pada MS Word, gunakan font

Courier New.

Semua file data yang dipergunakan dalam buku ini dapat diunduh

dari http://harlan_johan.staff.gunadarma.ac.id/Publications.

Bab 1. Pendahuluan

BAB 1

PENDAHULUAN

� Membuka dan Menutup Program & File

Data

Stata adalah program statistik yang dikeluarkan oleh

Corporation. Salah satu keunikan

pengguna dapat mengembangkan perintah

aplikasi untuk disumbangkan bagi seluruh masyarakat pengguna

Perintah-perintah Stata dapat diberikan baik melalui menu maupun

secara interaktif, meskipun demikian cara yang dianjurkan ialah pemberian

perintah secara interaktif. Stata memiliki empat jendela, yaitu jendela

Command, Variables (terdiri atas

Review, dan Stata Results (Gambar

Gambar 1. Tampilan awal pada saat membuka program Stata

Pendahuluan

1

BAB 1

DAHULUAN

Membuka dan Menutup Program & File

adalah program statistik yang dikeluarkan oleh Stata

. Salah satu keunikan Stata yaitu pengguna / organisasi

pengguna dapat mengembangkan perintah-perintah baru untuk berbagai

eluruh masyarakat pengguna Stata.

dapat diberikan baik melalui menu maupun

meskipun demikian cara yang dianjurkan ialah pemberian

memiliki empat jendela, yaitu jendela Stata

terdiri atas 2 bagian: Name dan Properties),

Gambar 1).

1. Tampilan awal pada saat membuka program Stata

Bab 1. Pendahuluan

Keempat jendela tersebut diperlihatkan secara terpisah pada Gambar 1a.

Gambar 1a. Jendela Stata secara terpisah.

Atas Kiri: Jendela Review; Atas

Tengah (Kiri-Kanan): Jendela

Bawah: Jendela

Pendahuluan

2

tersebut diperlihatkan secara terpisah pada Gambar 1a.

1a. Jendela Stata secara terpisah.

Atas Kanan: Jendela Stata Results;

Kanan): Jendela Variables;

Jendela Stata Command

Bab 1. Pendahuluan

Menu bar Stata berisi opsi berikut (

Gambar 2. Menu Bar Stata

Gambar 2a. Tool Bar Stata

Selain menu bar, di bawahnya terdapat

arti masing-masing icon adalah:

: Open

: Save

: Print Results

: New Viewer

: Log (begin/close/suspend/resume)

: Bring graph window to front

: New Do-file Editor

: Data Editor (Edit)

: Data Editor (Browse)

: Variables Manager

: Clear “more” condition

: Break

Membuka file data Stata

dilakukan melalui menu (File > Open

perintah “use”. Misalnya untuk membuka file

pada folder D:\Data\Stata\ diketikkan perintah

. use "D:\Data\Stata\honolulu .dta"

Pendahuluan

3

berisi opsi berikut (Gambar 2):

2. Menu Bar Stata

2a. Tool Bar Stata

, di bawahnya terdapat tool bar (Gambar 2a) dengan

Log (begin/close/suspend/resume)

Bring graph window to front

Clear “more” condition

(file dengan extension *.dta) dapat

Open > . . . ) ataupun dengan menggunakan

. Misalnya untuk membuka file honolulu.dta yang tersimpan

diketikkan perintah:

.dta"

Bab 1. Pendahuluan

4

Jika sebelumnya ada file data Stata lain yang masih terbuka, maka

ditambahkan opsi “[, clear]” menutup file terdahulu yang masih terbuka dan

menghapus variabel-variabelnya dari memori komputer:


Untuk membersihkan jendela Stata Results, perintahnya adalah “cls”:

. cls

Untuk mengeksekusi tiap baris perintah yang telah diketikkan, tekan

tombol Enter. Tiap perintah diketik pada jendela Stata Command yang

hanya memuat 1 baris perintah, dan setelah dieksekusi akan menggulung ke

atas, sehingga perintah itu tidak terlihat lagi, namun jika ingin dilihat,

perintah tersebut dapat diturunkan kembali dengan menekan tombol PgUp

pada papan ketik. Untuk mengetik perintah berikut, perintah lama tersebut

harus digulung kembali ke atas dengan menekan tombol PgDn. Tiap

perintah yang telah dieksekusi juga akan muncul secara otomatis pada

jendela Review, yang dapat memuat lebih banyak baris perintah.

Perhatikan bahwa jika file honolulu.dta dibuka melalui menu bar

File > Open > D:\Data\Stata\, maka pada jendela Stata Command secara

otomatis akan timbul ketikan use "D:\Data\Stata\honolulu.dta", clear,

walaupun pengguna tidak mengetiknya. Setelah file honolulu.dta terbuka,

semua variabelnya, baik nama maupun properties-nya secara otomatis akan

muncul pada jendela Variables (gambar 3).

Bab 1. Pendahuluan

Gambar 3. Contoh penggunaan perintah 'use' untuk membuka

file data Sta

Untuk memperoleh informasi

penggunaan (dengan contoh) suatu perintah, digunakan perintah

misalnya untuk mendapatkan informasi tentang

atau “clear”, diketikkan perintah “help use

membuka jendela “help use” atau “help clear

. help use atau:

. help clear dan seterusnya.

Perintah “help“ dapat digunakan, baik dalam keadaan ada ataupun


Jika sudah ada file data yang terbuka, untuk sebelum meninggalkan

program Stata, file yang masih terbuka ini harus dihapus dari memori

(ditutup) setelah sebelumnya di-saved

file, lalu menutup program Stata ialah

. clear

. exit

Pendahuluan

5

. Contoh penggunaan perintah 'use' untuk membuka

file data Stata

Untuk memperoleh informasi lebih detil mengenai pengertian dan

suatu perintah, digunakan perintah “help”,

misalnya untuk mendapatkan informasi tentang penggunaan perintah “use“

help use” atau “help clear” yang akan

help clear”:

seterusnya.

“ dapat digunakan, baik dalam keadaan ada ataupun


data yang terbuka, untuk sebelum meninggalkan

yang masih terbuka ini harus dihapus dari memori

saved jika perlu. Perintah untuk menutup

ialah “clear”, lalu “exit”:

Bab 1. Pendahuluan

6

Dalam sebuah program Stata hanya dapat dibuka 1 file data. Jika

diberi perintah untuk membuka file data kedua, file data pertama otomatis

akan ditutup. Tetapi program Stata yang dibuka dapat lebih daripada satu.

Dengan membuka program Stata kedua, file data kedua dapat dibuka pada

program Stata kedua tanpa mengakibatkan tertutupnya file data pertama pada

program Stata pertama. Setelah itu masih dapat dibuka program Stata ketiga

dengan file data ketiga, dan seterusnya.

� Membuat File Data Baru Stata

Untuk membuat file data baru, cara termudah yaitu membuka jendela

Stata Editor [klik icon Data Editor (Edit) pada tool bar (Gambar 4] atau

ketikkan perintah “edit”). Setelah jendela Stata Editor terbuka (Gambar 4a),

data dapat diisi dengan diketikkan secara langsung seperti pada penggunaan

spreadsheet biasa (gambar 4a).

Gambar 4. Icon Data Editor (Edit) pada Tool Bar

Bab 1. Pendahuluan

Gambar 4a. Jendela Stata Editor untuk pemasukan data

Nama variabel baru dapat diberikan setelah paling sedikit satu

data diisikan pada kolom tersebut. Stata

awal variabel berupa var1, var2, dan

diisi pada kolom pertama, dengan klik kiri ganda pada

Variable Properties akan ditampilkan dan pengguna dapat mengganti nama

variabel sesuai dengan keinginannya.

diawali dengan huruf kecil, bukan huruf besar


kosong (blank spaces) di antaranya.


Nama variabel juga dapat diganti dengan menutup jendela

kembali ke jendela Stata Command

rename varname_old varname_new

Tiap variabel dapat diberi label

istilah yang memiliki arti jelas dan

Stata, misalnya label untuk variabel

label dapat dilakukan melalui jendela

diketikkan perintahnya pada jendela

label variable varname ["label"

Pendahuluan

7

. Jendela Stata Editor untuk pemasukan data

Nama variabel baru dapat diberikan setelah paling sedikit satu nilai

Stata secara otomatis akan memberi nama

, dan seterusnya. Setelah ada nilai data yang

dengan klik kiri ganda pada nama var1, jendela

akan ditampilkan dan pengguna dapat mengganti nama

keinginannya. Nama variabel dalam Stata dianjurkan

diawali dengan huruf kecil, bukan huruf besar, angka ataupun garis bawah.


) di antaranya. Ruang kosong akan memisahkan suatu


Nama variabel juga dapat diganti dengan menutup jendela Edit dan

Stata Command dan gunakan sintaks:

varname_new

label dengan perintah label variable, yaitu

memiliki arti jelas dan akan ditampilkan pada hasil analisis

, misalnya label untuk variabel bb adalah Berat Badan. Pemberian

jendela Variable Properties ataupun

diketikkan perintahnya pada jendela Stata Command dengan sintaks:

"label"]

Bab 1. Pendahuluan

Untuk variabel kategorik, tiap nilai merepresentasikan taraf arti

tertentu, misalnya pada variabel biner

merokok; pada variabel kategorik

pendidikan sekunder, 3 = pendidikan tersier; dan sebagainya. Pada

tiap daftar taraf arti ini disebut nama

yang direpresentasikan oleh suatu

perintah label define.

Misalnya untuk variabel merokok

(label values) “yatidak“ dengan definisi

Untuk variabel tk_pend, dapat diberi

definisi “1 primer 2 sekunder 3 tersier

Perhatikan bahwa tiap nama n

digunakan untuk variabel lain dengan

nilai label “yatidak“ dengan definisi

juga dapat dipakai untuk variabel h

menderita hipertensi atau tidak.

Nama nilai label dan definisinya dapat di

jendela Stata Command seperti pada contoh 1 berikut ataupun diisikan

melalui jendela Variables Manager

Variables Manager pada Tool Bar (Gambar

Gambar 5. Icon Variables Manager pada Tool Bar

Contoh 1.1:

Buka program Stata, lalu klik ikon

perintah edit. Masukkan nilai-nilai data mahasiswa

Data Editor (5 baris pertama dan 6 kolom terkiri):

Pendahuluan

8

variabel kategorik, tiap nilai merepresentasikan taraf arti

tertentu, misalnya pada variabel biner merokok, 1 = merokok dan 0 = tidak

merokok; pada variabel kategorik tk_pend, 1 = pendidikan primer, 2 =

pendidikan sekunder, 3 = pendidikan tersier; dan sebagainya. Pada Stata,

nama nilai label (label values) dan nilai-nilai

irepresentasikan oleh suatu nama nilai label didefinisikan dengan

merokok dapat diberi nama nilai label

definisi (label define) “0 tidak 1 ya“.

dapat diberi nama nilai label “kode_pend“ dengan

tersier”.

nilai label yang telah didefinisikan dapat

digunakan untuk variabel lain dengan definisi yang sama, misalnya nama

definisi “0 tidak 1 ya“ untuk variabel merokok

hbp yang menyatakan apakah responden

finisinya dapat dibuat dengan perintah pada

pada contoh 1 berikut ataupun diisikan

Variables Manager yang dibuka dengan mengklik icon

Gambar 5).

5. Icon Variables Manager pada Tool Bar

, lalu klik ikon Data Editor atau ketikkan

data mahasiswa berikut pada spreadsheet

(5 baris pertama dan 6 kolom terkiri):

Bab 1. Pendahuluan

9

1 1 18 1 59 1

2 2 21 1 55 1

3 2 22 0 42 0

4 1 19 1 57 0

5 3 20 0 47 0

Stata secara otomatis memberi nama keenam kolom tersebut dengan

var1, var2, . . . , var6. Tutup Data Editor, lalu ketikkan perintah berikut

untuk memberi/mengganti nama-nama variabel:

. rename var1 nores

. rename var2 fak

. rename var3 usia

. rename var 4 seks

. rename var5 bb

. rename var6 nktt

Berikut adalah perintah untuk memberi label bagi tiap variabel:

. label var nores “Nomor Responden”

. label var fak “Fakultas”

. label var usia “Usia”

. label var seks “Jenis Kelamin”

. label var bb “Berat Badan”

. label var nktt “Riwayat Nyeri Kepala”

Variabel pertama nores bukan merupakan variabel sebenarnya.

Variabel kategorik adalah fak, seks, dan nktt. Selanjut adalah pemberian

nama nilai label untuk variabel kategorik dan definisinya.

. label values fak kode_fak

. label define kode_fak 1 Ilmu Komputer 2 Ekonomi 3 Psikologi

. label values seks kode_seks

. label define kode_seks 1 pria 0 wanita

. label values nktt yesno

Bab 1. Pendahuluan

10

. label define yesno 1 ya 0 tidak

Ikhtisar variabel kategorik, label, nama nilai label, dan definisinya

pada contoh ini diperlihatkan pada tabel berikut:

No Variabel Label Nilai label Definisi

1 fak Fakultas kode_fak 1 Ilmu Komputer

2 Ekonomi

3 Psikologi

2 seks Jenis Kelamin kode_seks 1 pria 0 wanita

3 nktt Riwayat Nyeri Kepala yesno 1 ya 0 tidak

Untuk variabel kontinu hanya ada labelnya tanpa perlu nama nilai

label.

Simpan file data dengan nama file latihan1.dta. Penyimpanan dapat

dilakukan melalui menu bar dengan mengklik “File > Save >

D:\Data\Stata\“ atau ”File > Save as > D:\Data\Stata\“. Penyimpanan dapat

juga dilakukan dengan mengetikkan perintah:

. save "D:\Data\Stata\latihan1.dta"

file D:\Data\Stata\latihan1.dta saved

� Mengimpor File Excel ke dalam Stata

Membuat file data baru Stata dapat juga dilakukan dengan terlebih

dahulu membuat file Excel-nya, lalu meng-“impor”-nya ke dalam program

Stata. Keuntungan cara ini ialah bahwa file Excel umumnya dapat di-

“impor” ke dalam hampir semua program komputer statistik lainnya, yaitu

jika data juga hendak diolah dengan program komputer statistik lain.

Syarat untuk file Excel agar dapat di-“impor” ke dalam program

Stata (dan juga program komputer statistik lainnya) yaitu:

- File hanya memuat nama variabel dan nilai-nilai datanya, tanpa nama

atau keterangan lain tentang isi file, baik di bagian atas maupun di bagian

bawah isi file. Tidak boleh ada baris jumlah di bagian terbawah. Juga

tidak boleh ada kolom jumlah di bagian terkanan dataset, kecuali jika

Bab 1. Pendahuluan

11

kolom jumlah ini akan diperlakukan sebagai salah satu variabel dalam

analisis data.

- Nama-nama variabel dituliskan pada baris teratas, semuanya diawali

dengan huruf kecil.

- Nilai-nilai data dituliskan pada baris kedua (untuk responden pertama),

baris ketiga (untuk responden kedua), dan seterusnya sampai seluruh

responden termuat datanya, tanpa ada baris kosong yang terselip di antara

baris-baris data.

Prosedur untuk meng-“impor” file Excel ke dalam program Stata

dapat dilakukan melalui menu bar ataupun dengan perintah pada Stata

Command.

Contoh 1.2:

Pada contoh ini akan diperlihatkan prosedur untuk meng-“impor” file

Excel “D:\Data\Stata\bankloan.xls” ke dalam program Stata.

Pada menu bar, klik File > Import > Excel spreadsheet (*.xls,

*xlsx), maka jendela Import Excel akan terbuka. Klik Browse pada jendela

Import Excel untuk mencari lokasi penyimpanan file Excel yang akan di-

“import”, yaitu “D:\Data\Stata\”. Jika file Excel memiliki lebih daripada 1

worksheet, maka Worksheet perlu diisi, jika tidak ataupun tak diisi, nilai

default-nya adalah worksheet pertama (Sheet1). Centang kotak kecil di

depan tulisan “Import first row as variable names”, lalu klik OK., maka

file Excel bankloan.xls tersebut telah terbuka dalam Stata.

Proses meng-“impor” bankloan.xls file di atas dapat juga dilakukan

dengan mengetikkan perintah:


File yang terbuka tersebut dapat diolah sebagai file data Stata tanpa

mengubah isi file Excel aslinya. Jika ingin disimpan sebagai file data Stata,

tetap harus melalui prosedur “save”:

. save "D:\Data\Stata\bankloan.dta"

file D:\Data\Stata\bankloan.dta saved

Bab 1. Pendahuluan

12

� Menyimpan Analisis Data Stata dalam File

Log

Seluruh pekerjaan (perintah dan hasil) dalam program Stata dapat

direkam dan disimpan sebagai file log dengan format *.scml yang dapat

dibuka dan dilihat kembali dalam program Stata di lain waktu. Prosedur

selengkapnya diperlihatkan pada contoh berikut.

Contoh 1.3:

Buka file log exercise1.scml untuk disimpan dalam

“D:\Data\Stata\” dengan mengklik File > Log > Begin . . . , dan seterusnya.

Atau ketikkan perintah:

. log using "D:\Data\Stata\exercise1", clear

name: <unnamed>


log type: smcl

opened on: 10 Jul 2015, 15:26:46

Selanjutnya akan diperlihatkan sejumlah pekerjaan berupa perintah

dan hasil dalam Stata untuk disimpan dalam file log exercise1.scml tanpa

penjelasan rinci mengenai perintah-perintah tersebut. Penjelasan mengenai

perintah-perintah akan diberikan dalam bab-bab berikut.

Misalkan hendak dibuka file data Arctic9.dta.

. use “D:\Data\Stata\Arctic9”, clear


Atau klik File > Open > . . . > Arctic9.dta

Untuk melihat deskripsi singkat dataset yang ada dalam memori,

digunakan perintah describe.

. describe

Contains data from D:\Data\Stata\Arctic9.dta

obs: 33 Arctic September mean sea ice 1979-2011

vars: 8 2 Jul 2012 06:11

size: 891

Bab 1. Pendahuluan

13

---------------------------------------------------------------------



---------------------------------------------------------------------

year int %ty Year

month byte %8.0g Month

extent float %9.0g Sea ice extent, million km 2

area float %9.0g Sea ice area, million km 2

volume float %8.0g Sea ice volume, 1000 km 3

volumehi float %9.0g Volume + 1.35 (uncertainty)

volumelo float %9.0g Volume - 1.35 (uncertainty)

tempN float %9.0g Annual air temp anomaly 64N-90N C

---------------------------------------------------------------------

Sorted by: year

Untuk melihat isi dataset pada record No. 1 s.d. 10:

. list in 1/10

+---------------------------------------------------------+

| year month extent area volume volumehi volumelo tempN |

|---------------------------------------------------------|

1. | 1979 9 7.2 5.72 16.9095 18.2595 15.5595 -.57 |

2. | 1980 9 7.85 6.02 16.3194 17.66937 14.96937 .33 |

3. | 1981 9 7.25 5.57 12.8131 14.16307 11.46307 1.21 |

4. | 1982 9 7.45 5.57 13.5099 14.85987 12.15987 -.34 |

5. | 1983 9 7.52 5.83 15.2013 16.5513 13.8513 .27 |

|---------------------------------------------------------|

6. | 1984 9 7.17 5.24 14.6336 15.98357 13.28357 .31 |

7. | 1985 9 6.93 5.36 14.5836 15.93363 13.23363 .3 |

8. | 1986 9 7.54 5.85 16.0803 17.43027 14.73027 -.05 |

9. | 1987 9 7.48 5.91 15.3609 16.7109 14.0109 -.25 |

10. | 1988 9 7.49 5.62 14.988 16.338 13.638 .87 |

+---------------------------------------------------------+

Untuk memperoleh tabel berisi nilai-nilai rerata, standar deviasi,

minimum, dan maksimum digunakan perintah summarize.

Bab 1. Pendahuluan

14

. summarize


---------+--------------------------------------------

year | 33 1995 9.66954 1979 2011

month | 33 9 0 9 9

extent | 33 6.51697 .9691796 4.3 7.88

area | 33 4.850303 .8468452 3.09 6.02

volume | 33 12.04664 3.346079 4.210367 16.9095

---------+--------------------------------------------

volumehi | 33 13.39664 3.346079 5.560367 18.2595

volumelo | 33 10.69664 3.346079 2.860367 15.5595

tempN | 33 .790303 .7157928 -.57 2.22

Untuk mendapatkan nilai-nilai korelasi antar variabel kontinu:

. correlate

(obs=33)

| year month extent area volume volumehi volumelo tempN

---------+----------------------------------------------------------

year | 1.0000

month | . .

extent | -0.8446 . 1.0000

area | -0.8732 . 0.9826 1.0000

volume | -0.8999 . 0.9308 0.9450 1.0000

volumehi | -0.8999 . 0.9308 0.9450 1.0000 1.0000

volumelo | -0.8999 . 0.9308 0.9450 1.0000 1.0000 1.0000

tempN | 0.7905 . -0.8045 -0.8180 -0.8651 -0.8651 -0.8651 1.0000

Perubahan ice extent dalam perjalanan waktu dapat diperlihatkan

dalam bentuk grafik:

Bab 1. Pendahuluan

15

. graph twoway connect extent year

Jika pengolahan dan analisis data telah selesai, file log dapat ditutup

dan disimpan:

. log close

name: <unnamed>


log type: smcl

closed on: 29 Jun 2014, 15:33:33

Perintah ini sama dengan melalui menu bar File > Log > Close.

Selama file log terbuka pada saat pengolahan dan analisis data, seandainya

program Stata akan ditutup untuk dihentikan sementara, sedangkan analisis

data belum selesai, perekaman dapat dihentikan sementara, kemudian

dilanjutkan dengan sintaks:

log off logname (perintah penghentian sementara)

log on logname (perintah melanjutkan kembali)

File log yang telah ditutup dapat dibuka kembali untuk dilihat dalam

program Stata dengan mengklik File > Log > View. File dalam format

*.scml dapat diubah menjadi format *.log yang dapat dibuka dengan

wordprocessor, misalnya untuk exercise1.scml pada menu bar dengan File

> Log > View yang akan membuka jendela “Translate file” atau dengan

mengetikkan perintah:

45

67

8S

ea ice

exte

nt,

mill

ion k

m^2

1980 1990 2000 2010Year

Bab 1. Pendahuluan

16

. translate exercise1.scml exercise1.log

Selanjutnya file exercise1.log dapat dibuka dengan menggunakan

salah satu wordprocessor dalam MS Office, tanpa melalui program Stata.

Bab 2. Manajemen Data

17

BAB 2

MANAJEMEN DATA

Dalam bab ini akan dibahas beberapa perintah terpenting Stata dalam

proses manajemen data.

� Membuka file data: use, sysuse, dan webuse

Sintaks untuk membuka file data Stata adalah:

use filename [, clear]

Nama file tanpa ekstensi diasumsikan sebagai file *.dta. Opsi [, clear]

diperlukan jika sebelumnya ada file data yang terbuka dalam memori. Jika

membuka file data dilakukan melalui menu bar File > Open > . . . , opsi ini

akan selalu muncul. Contoh:

. use “D:\Data\Stata\honolulu”, clear

Sintaks untuk membuka file data Stata yang terinstalasi bersama

program Stata atau tersimpan dalam ado-path adalah:

sysuse filename [, clear]

Contoh:

. sysuse auto, clear

(1978 Automobile Data)

Sintaks untuk membuka file data yang tersimpan di Web adalah:

webuse filename [, clear]

Secara default, file data untuk Stata 14 diperoleh dari

http://www.stata-press.com/data/r14/. Daftar lengkap datasets yang tersedia

dapat dilihat di http://www.stata-press.com/data/r14/r.html. Contoh:

. webuse lifeexp

(Life expectancy, 1998)


18

� Membuka dan menyimpan file data dalam

format Excel: import dan export

Stata dapat membuka atau menyimpan data dalam format data-based

lain, yang terpenting yaitu dalam Excel. Sintaksnya adalah:

import excel filename [, options]

export excel using filename [, options]

Salah satu opsi pada import excel ialah worksheet akan dibuka.

Default-nya ialah “Sheet1”. Pilihan opsi firstrow menyatakan bahwa baris

pertama file Excel akan diperlakukan sebagai nama variabel.

Pada export excel opsi terpenting adalah pilihan antara

firstrow(variables) atau firstrow(varlabels) untuk menentukan yang akan

dijadikan baris pertama pada file Excel.

Contoh:


clear

. use auto, clear

. export excel using "D:\Data\Stata\auto.xls", firstrow(variables)

� Menampilkan isi dataset: edit dan browse

Isi seluruh ataupun sebagian dataset dalam tampilan spreadsheet

dapat dilihat pada jendela Data Editor atau jendela Data Browser yang

akan terbuka dengan mengklik icon masing-masing pada tool bar (diagram

1).

Diagram 1. Icon Data Editor dan Data Browser pada Tool Bar


19

Dengan membuka jendela Data Editor, data dapat dilihat dan juga

dapat diedit, sedangkan jika yang dibuka jendela Data Browser, data hanya

dapat dilihat tanpa dapat diedit. Kedua jendela ini juga dapat dibuka dengan

sintaks:

edit varlist [if] [in]

dan: browse varlist [if] [in]

� Pembatasan perintah: ekspresi if dan in

Ekspresi [if] dan [in] didapatkan pada sebagian besar sintaks Stata.

Ekspresi [if] menyatakan syarat untuk melaksanakan perintah, sedangkan

ekspresi [in] menyatakan nomor records yang akan menerima perintah Stata.

Dalam ekspresi [if] dan juga sejumlah perintah lain mungkin

diperlukan penggunaan operator, yaitu operator aritmetika (hitung), operator

relasional, dan operator logika.

Operator aritmetika adalah: + (penjumlahan), − (pengurangan), *

(perkalian), / (pembagian), ^ (pangkat), dan prefiks - (negasi/penyangkalan).

Operator relasional adalah: > (lebih daripada), < (kurang daripada),

>= (lebih besar atau sama dengan), <= (kurang atau sama dengan), == (sama

dengan), dan != (atau ~=; tidak sama dengan).

Operator logika adalah:

- dan: &

- atau: |

- tidak: !

Contoh:

. list if income>50000 | income>30000 & age<25

Tanda “&” dikerjakan lebih dulu daripada “|”, yaitu pernyataan

“income>30000” hanya untuk yang “age<25”. Untuk memastikan, perintah

di atas dapat juga dituliskan:

. list if income>50000 | (income>30000 & age<25)


20

Urutan pelaksanaan evaluasi seluruh operator berturut-turut adalah: !

(atau ~), ^, - (negasi/penyangkalan), /, *, − (substraksi/minus), +, != (atau

~=), >, <, <=, >=, ==, &, dan |.

Contoh 2.1:

. use “D:\Data\Stata\honolulu.dta”, clear

. sum glukosa


---------+-----------------------------------

glukosa | 100 152.14 54.75584 58 442

. sum glukosa if merokok==1


---------+-------------------------------------

glukosa | 37 145.5946 65.58686 76 442

. sum tb


---------+-----------------------------------

tb | 100 161.75 5.596491 150 175

. sum tb in 1/50


---------+-----------------------------------

tb | 50 162.26 5.609067 150 175

. sum kolest


---------+-----------------------------------

kolest | 100 216.96 38.85844 134 382

. sum kolest if akt_fisik==2 in 21/80


---------+-------------------------------------

kolest | 32 214.6563 48.86229 134 382


21

� Menampilkan nilai-nilai variabel dan

definisi nilai-nilai label: list dan label list

Tampilan data juga dapat dilihat per variabel, dalam interval records

terbatas, atau dengan syarat tertentu pada jendela Stata Results dengan

mengetikkan perintah pada Stata Command. Sintaksnya adalah:

list varnames [if] [in]

Jika yang ingin ditampilkan hanya 1 nilai suatu variabel untuk 1

record (1 orang responden), sintaksnya adalah:

display varname[#]

label list adalah perintah untuk menampilkan nama nilai label

(lbl.name) dalam dataset beserta definisinya.

label list lblnames

Dengan perintah ini, definisi ditampilkan untuk nama nilai label

(lblnames) yang dispesifikasikan. Jika perintahnya hanya label list, maka

semua nama nilai label yang ada dalam dataset akan ditampilkan beserta

definisinya.

Contoh 2.2:


. list no_id usia td_sist if merokok==1 in 51/70

+------------------------+

| no_id usia td_sist |

|------------------------|

53. | 53 50 116 |

55. | 55 50 108 |

61. | 61 54 114 |

63. | 63 50 98 |

65. | 65 53 130 |

|------------------------|

66. | 66 53 122 |

67. | 67 47 112 |

+------------------------+


22

. list no_id usia td_sist if merokok==0 & usia>=50 in 51/70

+------------------------+

| no_id usia td_sist |

|------------------------|

51. | 51 52 118 |

56. | 56 53 134 |

57. | 57 52 124 |

58. | 58 56 124 |

59. | 59 52 114 |

|------------------------|

. display usia[51]

52

. label list kode_pendidikan yatidak

kode_pendidikan:

1 tidak ada

2 SD

3 SMP

4 SMA

5 SMK

6 Universitas

yatidak:

0 tidak

1 ya

. label list

kode_fisik:

1 hampir selalu duduk

2 moderat

3 giat

yatidak:

0 tidak

1 ya

kode_pendidikan:

1 tidak ada

2 SD

3 SMP

4 SMA

5 SMK

6 Universitas


23

� Deskripsi data: describe

Perintah describe menampilkan ringkasan keterangan tentang

variabel yang ada dalam dataset. Sintaks-nya adalah:

describe [varlist]

Jika tidak ada nama variabel, perintah describe akan menampilkan

ringkasan keterangan tentang semua variabel yang ada dalam dataset.

Contoh 2.3:


. desc usia glukosa kolest td_sist



---------------------------------------------------------

usia byte %10.0g Usia

glukosa int %10.0g Kadar Glukosa Darah

kolest int %10.0g Kadar Kolesterol Darah

td_sist int %10.0g Tekanan Darah Sistolik

. describe

Contains data from D:\Data\Stata\honolulu.dta

obs: 100

vars: 11 18 Aug 2016 14:16

size: 2,200

---------------------------------------------------------



---------------------------------------------------------

no_id byte %10.0g Nomor Identitas

tk_pend byte %10.0g Tingkat Pendidikan

bb byte %10.0g Berat Badan

tb int %10.0g Tinggi Badan

usia byte %10.0g Usia

merokok byte %10.0g Merokok

akt_fisik byte %10.0g Aktivitas Fisik

glukosa int %10.0g Kadar Glukosa Darah

kolest int %10.0g Kadar Kolesterol Darah


24

td_sist int %10.0g Tekanan Darah Sistolik

bmi double %14.2f Indeks Massa Tubuh

-----------------------------------------------------------

Sorted by:

� Tipe data dan kompresi data dalam memori:

data types dan compress

Data dalam dataset Stata dapat tersimpan dalam 2 format, numeric

dan string. Format ketiga ialah untuk dates dan times yang tidak akan

dibahas di sini.

Untuk mengetahui apakah suatu variabel memiliki data numeric atau

string, dapat dilihat dari hasil perintah describe. Data numeric memiliki

tipe penyimpanan (storage type) byte, int, long, float, atau double,

kelimanya ini menurut urutan lebar rentangnya. Misalnya byte untuk

menyimpan rentang nilai dari −127 s.d. 100; int untuk nilai dari −32,767 s.d.

32, 740; dan seterusnya. float dan double dapat menyimpan bilangan pecah.

Data string memiliki tipe penyimpanan str[#], misalnya str5 dapat

menyimpan data dengan maksimum 5 karakter.

Setelah dataset terisi seluruhnya, mungkin ada variabel yang tipe

penyimpanannya terlalu besar bagi nilai-nilai yang tersimpan, misalnya

variabel usia yang disimpan dalam bilangan bulat membutuhkan hanya

tempat penyimpanan maksimum 3 digit, sedangkan tipe penyimpanan yang

semula disiapkan adalah int. Untuk menghemat tempat penyimpanan data

pada basis-data, tipe penyimpanan untuk usia dapat dikompresi dari int

menjadi byte dengan perintah compress. Sintaksnya adalah:

compress [varlist]

Jika perintah compress diberikan tanpa nama variabel, maka Stata

akan mengkompresi semua variabel yang mungkin dikompresi tipe

penyimpanannya.


25

� Konversi variabel string menjadi numeric

dan sebaliknya: destring dan tostring

Program Stata hanya dapat mengolah nilai data dalam format

numeric. Jika ada variabel dalam format string, maka nilai datanya perlu

dikonversi terlebih dahulu dengan perintah destring menjadi format

numeric sebelum diolah dengan program Stata. Adakalanya variabel

dengan format numeric perlu diubah menjadi string dengan perintah

tostring. Sintaks-nya adalah:

destring [varlist] , {generate(newvarlist)|replace}

dan: tostring varlist , {generate(newvarlist)|replace}

Jika tidak ada variabel yang dispesifikasikan, dengan perintah

destring semua variabel string akan dikonversi menjadi numeric. Opsi

generate(newvarlist) akan mempertahankan variabel string lama, konversi

numeric-nya tersimpan dalam variabel baru, sedangkan opsi replace akan

membentuk variabel numeric dengan nama variabel string lama.

� Mengurutkan, membuang, dan

mempertahankan variabel: order, drop, dan

keep

Perintah order digunakan mengatur kembali urutan variabel dalam

dataset menurut kehendak pengguna. Perintah drop akan menghapuskan

variabel yang dispesifikasikan dalam dataset. Perintah keep akan

mempertahankan variabel yang dispesifikasikan dalam dataset, sedangkan

variabel lain dihapus dari dataset. Sintaks-nya masing-masing adalah:

order varlist

Variabel akan tersusun menurut urutan pada varlist jika varlist

mencakup semua variabel, atau variabel yang ada pada varlist akan

diletakkan pada urutan pertama jika varlist tidak mencakup semua variabel.

drop varlist

keep varlist

Perintah drop dan keep dapat juga digunakan untuk menghapus atau

mempertahankan record dengan spesifikasi ekspresi if dan/atau in:


26

drop if exp

drop in range

keep if exp

keep in range

� Mengurutkan nilai variabel dan penggunaan

hasilnya: sort dan by

Perintah sort mengurutkan nilai pengamatan variabel numeric yang

dispesifikasikan dari kecil ke besar. Untuk variabel string, pengamatan akan

diurutkan menurut urutan abjad, huruf besar didahulukan daripada huruf

kecil. Sintaks-nya yaitu:

sort varlist [in] [, stable]

Opsi stable akan mempertahankan keterikatan nilai-nilai dalam suatu

record setelah salah satu variabel di-sort.

Perintah sort juga digunakan bersama by untuk memberikan perintah

summarize, tabulate, dan means (lihat Bab 3) menurut kategori variabel

kategorik yang di- sort. Sintaks-nya adalah:

sort cat_var1

by cat_var1: sum cont_var

atau: by cat_var1: means cont_var

atau: by cat_var1: tab cat_var2

cat_var : variabel kategorik

cont_var : variabel kontinu

Perintah by di sini harus segera mengikuti perintah sort (tidak

diselingi perintah lain dulu).


27

� Membuat variabel baru dan mengganti nilai

variabel: generate, replace, dan egen

Perintah generate digunakan untuk membentuk variabel baru.

Sintaks-nya adalah:

generate newvar[:lblname] = exp [if] [in]

Nilai-nilai dispesifikasikan pada pernyataan exp, yang dapat berupa

suatu nilai tertentu ataupun hasil formula menyangkut salah satu variabel

lama lainnya. Contohnya yaitu:

. gen luas = 0

. gen usia2 = usia^2

. gen usia_kat = 1 if usia<20

Nilai-nilai variabel, baik untuk variabel baru dibuat tersebut ataupun

variabel lama, dapat diganti dengan perintah replace. Sintaks-nya yaitu:

replace oldvar = exp [if] [in]

Misalnya:

. replace gaji_kat = 5 if masa_kerja>=10

Perintah egen merupakan ekstensi terhadap perintah generate, yaitu

ekspresi exp pada generate digantikan dengan suatu fungsi argumen.

Sintaks-nya adalah:

egen newvar = fcn(arguments) [if] [in]

Di sini hanya diberikan 2 contoh fungsi argumen, yaitu mean(exp)

dan median(exp), misalnya:

. egen avg = mean(chol)

. egen med_stay = median(los)

Bab 3. Statistika Deskriptif

28

BAB 3

STATISTIKA DESKRIPTIF

� Nilai-nilai Deskriptif Variabel Numerik

Untuk menampilkan nilai rerata, dan jika perlu disertai standar deviasi

atau standard error, dapat digunakan perintah summarize, mean, atau

means. Sintaks-nya masing-masing adalah:

. summarize varlist [if] [in]

summarize atau cukup singkatan su saja menampilkan nilai-nilai

ringkasan data, yaitu jumlah pengamatan, rerata (hitung), SD, minimum, dan

maksimum.

Dengan perintah sum akan ditampilkan ringkasan seluruh variabel

yang ada dalam file sekaligus. Ringkasan juga dapat dimintakan untuk satu

variabel saja, misalnya sum bb, sum tb, sum usia, ataupun beberapa (tidak

semua) variabel sekaligus, misalnya sum bb tb usia.

Opsi (, detail) dapat ditambahkan pada perintah sum untuk

memperoleh beberapa nilai persentil, nilai-nilai kuartil, variansi, kemencengan

(skewness) dan kurtosis.

. mean varlist [if] [in]

mean menampilkan rerata (hitung), SE, dan estimasi interval rerata

(interval konfidensi 95% sebagai default).

. means varlist [if] [in]

means menampilkan nilai rerata dan nilai tengah lainnya, yaitu

jumlah pengamatan, rerata hitung, rerata geometrik, dan rerata harmonik,

masing-masing beserta interval konfidensi 95%-nya.

Perintah means akan menampilkan rerata untuk seluruh variabel.

Perintah means dapat diberikan untuk satu variabel saja (means bb, means

tb, dan sebagainya) atau untuk beberapa variabel sekaligus seperti means

usia glukosa kolest bmi.


29

Contoh 3.1:


. sum bb tb usia


---------+-----------------------------------

bb | 100 64.22 8.610048 47 91

tb | 100 161.75 5.596491 150 175

usia | 100 53.67 5.101109 46 67

Untuk menampilkan ringkasan yang lebih rinci, misalnya untuk variabel bmi

diketikkan perintah sum bmi, detail.

. sum bmi, det

Indeks Massa Tubuh

-----------------------------------------------

Percentiles Smallest

1% 18.32308 18.28678

5% 19.91923 18.35938

10% 20.78645 18.87066 Obs 100

25% 22.65625 19.10009 Sum of Wgt. 100

50% 24.24242 Mean 24.54841

Largest Std. Dev. 3.052831

75% 26.33097 30.38502

90% 28.68545 30.86301 Variance 9.319776

95% 30.07813 31.48789 Skewness .3563221

99% 32.54082 33.59375 Kurtosis 2.964489

. means usia glukosa kolest bmi

Variable | Type Obs Mean [95% Conf. Interval]

---------+------------------------------------------------

usia | Arithmetic 100 53.67 52.65783 54.68217

| Geometric 100 53.44146 52.47672 54.42393

| Harmonic 100 53.22408 52.30331 54.17786

---------+------------------------------------------------

glukosa | Arithmetic 100 152.14 141.2753 163.0047

| Geometric 100 143.8674 134.6996 153.6591

| Harmonic 100 136.3451 127.8334 146.0712

---------+------------------------------------------------


30

kolest | Arithmetic 100 216.96 209.2496 224.6704

| Geometric 100 213.6993 206.458 221.1946

| Harmonic 100 210.5651 203.6 218.0236

---------+------------------------------------------------

bmi | Arithmetic 100 24.54841 23.94266 25.15415

| Geometric 100 24.36268 23.77141 24.96865

| Harmonic 100 24.17871 23.59809 24.78861

---------+------------------------------------------------

Contoh 3.2:

. use “D:\Data\Stata\Arctic9”, clear


. sum extent volume


---------+---------------------------------------------------

extent | 33 6.51697 .9691796 4.3 7.88

volume | 33 12.04664 3.346079 4.210367 16.9095

. sum extent volume, det

Sea ice extent, million km^2

---------------------------------------------------


1% 4.3 4.3

5% 4.61 4.61

10% 4.9 4.68 Obs 33

25% 6.05 4.9 Sum of Wgt. 33

50% 6.56 Mean 6.51697

Largest Std. Dev. .9691796

75% 7.25 7.54

90% 7.54 7.55 Variance .9393092

95% 7.85 7.85 Skewness -.6647846

99% 7.88 7.88 Kurtosis 2.625661


31

Sea ice volume, 1000 km^3

---------------------------------------------------


1% 4.210367 4.210367

5% 4.586367 4.586367

10% 6.977133 6.527733 Obs 33

25% 10.28357 6.977133 Sum of Wgt. 33

50% 12.81307 Mean 12.04664

Largest Std. Dev. 3.346079

75% 14.63357 15.3609

90% 15.3609 16.08027 Variance 11.19625

95% 16.31937 16.31937 Skewness -.7695098

99% 16.9095 16.9095 Kurtosis 2.7961

. mean extent volume

Mean estimation Number of obs = 33

---------------------------------------------------------

| Mean Std. Err. [95% Conf. Interval]

--------+------------------------------------------------

extent | 6.51697 .1687125 6.173314 6.860626

volume | 12.04664 .5824776 10.86017 13.23311

---------------------------------------------------------

. means extent volume

Variable | Type Obs Mean [95% Conf. Interval]

---------+--------------------------------------------------

extent | Arithmetic 33 6.51697 6.173314 6.860626

| Geometric 33 6.440565 6.085412 6.816445

| Harmonic 33 6.357201 5.990513 6.771707

---------+--------------------------------------------------

volume | Arithmetic 33 12.04664 10.86017 13.23311

| Geometric 33 11.46327 10.13751 12.96241

| Harmonic 33 10.70489 9.237083 12.7273

---------+--------------------------------------------------


32

� Nilai-nilai Deskriptif Variabel Kategorik

� Tabel Satu Arah

Untuk memperoleh tabel satu-arah (one-way table; distribusi

frekuensi), digunakan perintah tabulate:

. tabulate varname [if] [in] [, options]

Perintah tabulate (atau tab saja atau tab1) digunakan untuk

menampilkan distribusi frekuensi variabel kategorik atau variabel numerik

yang dikategorisasikan. Perintah ini selalu harus diikuti dengan nama

variabel, dapat berupa satu variabel saja (misalnya tab tk_pend) ataupun lebih

daripada satu variabel (misalnya tab1 tk_pend akt_fisik).

Beberapa opsi yang tersedia untuk perintah tab yaitu:

- nofreg: tidak menampilkan frekuensi (yang ditampilkan hanya nilai-nilai

persentase.

- nolabel: tidak menggunakan definisi nilai label (jika ada).

- plot: perintah untuk menampilkan diagram batang (bar chart) beserta

tabel distribusi frekuensi.

- sort: perintah untuk meranking isi tabel menurut besarnya frekuensi.

Contoh 3.3:


. tab tk_pend

Tingkat |

Pendidikan | Freq. Percent Cum.

------------+---------------------------

1 | 25 25.00 25.00

2 | 32 32.00 57.00

3 | 24 24.00 81.00

4 | 9 9.00 90.00

5 | 10 10.00 100.00

------------+---------------------------

Total | 100 100.00


33

. tab1 tk_pend akt_fisik

-> tabulation of tk_pend

Tingkat |

Pendidikan | Freq. Percent Cum.

------------+---------------------------

1 | 25 25.00 25.00

2 | 32 32.00 57.00

3 | 24 24.00 81.00

4 | 9 9.00 90.00

5 | 10 10.00 100.00

------------+---------------------------

Total | 100 100.00

-> tabulation of akt_fisik

Aktivitas |

Fisik | Freq. Percent Cum.

------------+---------------------------

1 | 49 49.00 49.00

2 | 51 51.00 100.00

------------+---------------------------

Total | 100 100.00

Contoh 3.4:

. use “D:\Data\Stata\attract”, clear

(Perceived attractiveness and drinking -- DC Hamilton (2003))

. tab drinkfrq

Days |

drinking in |

previous |

week | Freq. Percent Cum.

------------+-----------------------------------

0 | 4 2.04 2.04

.5 | 4 2.04 4.08

1 | 24 12.24 16.33

2 | 52 26.53 42.86

2.5 | 4 2.04 44.90

3 | 40 20.41 65.31


34

3.5 | 12 6.12 71.43

4 | 20 10.20 81.63

4.5 | 4 2.04 83.67

5 | 16 8.16 91.84

6 | 16 8.16 100.00

------------+-----------------------------------

Total | 196 100.00

� Tabel Silang

Untuk menampilkan tabel silang digunakan perintah tab2 sebagai

berikut:

tab2 varname1 varname2 [if] [in] [, options]

Perintah tab2 harus diikuti dengan 2 variabel, misalnya tab2 tk_pend

akt_fisik. Opsi nofreq dan nolabel juga dapat digunakan di sini. Selain itu

tersedia juga opsi row (menampilkan persentase di tiap baris), column

(menampilkan persentase di tiap kolom), dan cell (menampilkan persentase di

tiap sel), misalnya tab2 tk_pend akt_fisik, row.

Contoh 3.5:


. tab2 tk_pend akt_fisik

-> tabulation of tk_pend by akt_fisik

Tingkat | Aktivitas Fisik

Pendidikan | 1 2 | Total

-----------+----------------+-------

1 | 13 12 | 25

2 | 17 15 | 32

3 | 11 13 | 24

4 | 4 5 | 9

5 | 4 6 | 10

-----------+----------------+-------

Total | 49 51 | 100


35

. tab2 tk_pend akt_fisik, row

-> tabulation of tk_pend by akt_fisik

+----------------+

| Key |

|----------------|

| frequency |

| row percentage |

+----------------+

Tingkat | Aktivitas Fisik

Pendidikan | 1 2 | Total

-----------+----------------+-------

1 | 13 12 | 25

| 52.00 48.00 | 100.00

-----------+----------------+-------

2 | 17 15 | 32

| 53.13 46.88 | 100.00

-----------+----------------+-------

3 | 11 13 | 24

| 45.83 54.17 | 100.00

-----------+----------------+-------

4 | 4 5 | 9

| 44.44 55.56 | 100.00

-----------+----------------+-------

5 | 4 6 | 10

| 40.00 60.00 | 100.00

-----------+----------------+-------

Total | 49 51 | 100

| 49.00 51.00 | 100.00

Contoh 3.6:




36

. tab2 drinkfrq gender

Days |

drinking |

in |

previous | Gender

week | Male Female | Total

-----------+----------------------+----------

0 | 4 0 | 4

.5 | 4 0 | 4

1 | 8 16 | 24

2 | 32 20 | 52

2.5 | 0 4 | 4

3 | 32 8 | 40

3.5 | 4 8 | 12

4 | 12 8 | 20

4.5 | 4 0 | 4

5 | 16 0 | 16

6 | 12 4 | 16

-----------+----------------------+----------

Total | 128 68 | 196

. tab2 drinkfrq gender, co

+-------------------+

| Key |

|-------------------|

| frequency |

| column percentage |

+-------------------+


37

Days |

drinking |

in |

previous | Gender

week | Male Female | Total

-----------+----------------------+----------

0 | 4 0 | 4

| 3.13 0.00 | 2.04

-----------+----------------------+----------

.5 | 4 0 | 4

| 3.13 0.00 | 2.04

-----------+----------------------+----------

1 | 8 16 | 24

| 6.25 23.53 | 12.24

-----------+----------------------+----------

2 | 32 20 | 52

| 25.00 29.41 | 26.53

-----------+----------------------+----------

2.5 | 0 4 | 4

| 0.00 5.88 | 2.04

-----------+----------------------+----------

3 | 32 8 | 40

| 25.00 11.76 | 20.41

-----------+----------------------+----------

3.5 | 4 8 | 12

| 3.13 11.76 | 6.12

-----------+----------------------+----------

4 | 12 8 | 20

| 9.38 11.76 | 10.20

-----------+----------------------+----------

4.5 | 4 0 | 4

| 3.13 0.00 | 2.04

-----------+----------------------+----------

5 | 16 0 | 16

| 12.50 0.00 | 8.16

-----------+----------------------+----------

6 | 12 4 | 16

| 9.38 5.88 | 8.16

-----------+----------------------+----------

Total | 128 68 | 196

| 100.00 100.00 | 100.00


38

� Tabel Nilai Ringkasan Variabel Numerik menurut

Kategori Variabel Kategorik

Jika variabel_1 adalah variabel kategorik dan variabel_2 variabel

kontinu, maka perintah summarize untuk variabel_2 dapat diberikan untuk

masing-masing kategori variabel_1. Sintaks-nya adalah:

tabulate varname_1 [if] [in], summarize(varname_2)

Contoh 3.7:



. tab gender, sum(bac)

| Summary of Blood alchohol content

Gender | Mean Std. Dev. Freq.

------------+------------------------------------

Male | .09340909 .08052148 132

Female | .08111111 .06826947 72

------------+------------------------------------

Total | .08906863 .07647798 204

Bab 4. Grafik Statistik

39

BAB 4

G RAFI K STA TI S TI K

� Histogram dan Densitas Kernel

Histogram adalah representasi grafikal untuk sehimpunan pengamatan

terkategorisasi oleh sejumlah batang, 1 batang untuk tiap kategori, masing-

masing memiliki luas yang sebanding dengan frekuensi kategorinya. Proses

kategorisasi (penentuan jumlah dan lebar batang) dapat dilakukan oleh

program komputer ataupun ditentukan oleh pengguna program. Sintaks untuk

histogram yaitu:

histogram varname [if] [in] [, options]

Densitas kernel (kernel density) adalah fungsi licin (smoothed

function), yang diperoleh dari “geseran” histogram (sliding histogram). Bentuk

histogram tidak konstan, tergantung pada titik awal dan lebar batang yang

dipilih, tetapi bentuk densitas kernel relatif konstan, semata-mata tergantung

pada metode estimasi yang dipilih. Sintaks untuk grafik densitas kernel yaitu: kdensity varname [if] [in] [, options]

Contoh 4.1:

. use “D:\Data\Stata\auto”, clear

. histogram weight

(bin=8, start=1760, width=385)S

01.0

e-0

42.0

e-0

43.0

e-0

44.0

e-0

45.0

e-0

4D

ensity

2,000 3,000 4,000 5,000Weight (lbs.)


40

. kdensity weight

Perbandingan histogram dan grafik densitas kernel untuk variabel yang

sama (weight) diperlihatkan sebagai berikut:

0.0

00

1.0

002

.0003

.000

4D

en

sity

1000 2000 3000 4000 5000Weight (lbs.)

kernel = epanechnikov, bandwidth = 295.7504

Kernel density estimate

01

.0e-0

42

.0e-0

43

.0e-0

44.0

e-0

45.0

e-0

4D

en

sity

2,000 3,000 4,000 5,000Weight (lbs.)

0.0

001

.00

02

.00

03

.00

04

Density

1000 2000 3000 4000 5000Weight (lbs.)




41

Untuk membandingkan histogram dan grafik densitas kernel dengan

distribusi normal ditambahkan opsi (, normal):

. histogram weight, normal

. kdensity weight, normal

01

.0e-0

42

.0e

-04

3.0

e-0

44.0

e-0

45

.0e-0

4D

en

sity

2,000 3,000 4,000 5,000Weight (lbs.)

0.0

001

.0002

.0003

.0004

.0005

Density

1000 2000 3000 4000 5000Weight (lbs.)


Normal density




42

Penyajian histogram weight menurut kategorisasi foreign (domestic

dan foreign):

. histogram weight, by(foreign)

Contoh 4.2:



. histogram bac

(bin=14, start=0, width=.02571429)

05.0

e-0

4.0

01

.0015

1,000 2,000 3,000 4,000 5,0001,000 2,000 3,000 4,000 5,000

Domestic Foreign

Density

Weight (lbs.)Graphs by Car type

02

46

810

Density

0 .1 .2 .3 .4Blood alchohol content


43

Pada sumbu X didapatkan nilai bac (blood alcohol content), sedangkan

sumbu Y menyatakan densitasnya. Nilai densitas dapat diganti menjadi

frekuensi dengan perintah:

. histogram bac, frequency

(bin=14, start=0, width=.02571429)

. histogram bac, start(0) width(0.03333333) norm

(bin=11, start=0, width=.03333333)

020

40

60

Fre

quency


02

46

810

Den

sity



44

. histogram bac, by(gender)

. histogram bac, by(gender, total) percent

05

10

15

0 .1 .2 .3 .4 0 .1 .2 .3 .4

Male FemaleD

ensity

Blood alchohol contentGraphs by Gender

010

20

30

010

20

30

0 .1 .2 .3 .4

0 .1 .2 .3 .4

Male Female

Total

Perc

ent

Blood alchohol contentGraphs by Gender


45

. kdensity bac

. kdensity bac, norm

01

23

45

Density




01

23

45

Density



Normal density




46

� Histogram untuk Variabel Kategorik

Dalam Statistika Umum, variabel kategorik biasanya disajikan dalam

bentuk diagram batang, tetapi dalam Stata perintah yang diberikan adalah

sama dengan untuk penyajian histogram dengan sintaks:

histogram varname [if] [in] [, options]

Contoh 4.3:


. histogram rep78

0.2

.4.6

.8D

ensity

1 2 3 4 5Repair Record 1978


47

Contoh 4.4:

. use “D:\Data\Stata\student2”, clear

(Student survey (Ward 1990))

. histogram live, frequency

� Diagram Batang

Pengertian diagram batang (bar diagram) dalam Stata adalah

penyajian nilai-nilai rerata (ataupun statistik lainnya) suatu variabel kontinu

menurut kategori variabel kategorik lainnya. Sintaks-nya adalah:

graph bar [(stat)] cont_var [if] [in], over(cat_var)

(stat) : Statistik yang diminta (umumnya rerata)

cont_var : Variabel kontinu yang dimintakan statistiknya

cat_var : Variabel kategorik

02

040

60

80

Fre

quen

cy

1 2 3 4Year in college


48

Contoh 4.5:


. graph bar (mean) mpg, over(rep78)

Contoh 4.6:



. graph bar (mean) aggress, over(gender)

010

20

30

mean o

f m

pg

1 2 3 4 5

0.5

11.5

2m

ean o

f aggre

ss

Female Male


49

� Diagram Tebar

Diagram tebar (scatter diagram) adalah grafik dua dimensi untuk

pengamatan bivariat. Sintaks untuk diagram tebar adalah:

[graph] twoway scatter yvar xvar [if] [in] [, options]

[graph] : Penulisan perintah graph bersifat opsional

yvar : Variabel pada sumbu Y, biasanya adalah respons

xvar : Variabel pada sumbu X, biasanya adalah prediktor

Contoh 4.7:


. graph twoway scatter weight length

2,0

00

3,0

00

4,0

00

5,0

00

Weig

ht

(lbs.)

140 160 180 200 220 240Length (in.)


50

Menyajikan estimasi garis regresi weight (respons) terhadap length

(prediktor):

. graph twoway lfit weight length

Diagram tebar dapat disajikan secara bersama dengan estimasi garis

regresinya:

. graph twoway scatter weight length || lfit weight length

1000

2000

3000

4000

5000

Fitte

d v

alu

es

140 160 180 200 220 240Length (in.)

1,0

00

2,0

00

3,0

00

4,0

00

5,0

00

140 160 180 200 220 240Length (in.)

Weight (lbs.) Fitted values


51

Contoh 4.8:



. graph twoway scatter gpa study

. graph twoway lfit gpa study

1.5

22.5

33.5

4G

rade P

oin

t A

vera

ge

0 10 20 30 40 50Avg. hours/week studying

2.6

2.8

33.2

Fitte

d v

alu

es



52

. graph twoway lfit gpa study || scatter gpa study

� Diagram Kotak & Titik

Diagram kotak dan titik (box plot) adalah metode penyajian grafik

untuk menampilkan karakteristik penting suatu himpunan pengamatan, yaitu

lima angka ringkasan deskriptif himpunan pengamatan tersebut, berupa nilai

perbatasan bawah (lower adjacent value), kuartil I, median, kuartil III, dan

nilai perbatasan atas (upper adjacent value). Sintaks-nya adalah:

graph box varname [if] [in] [, options]

1.5

22.5

33

.54


Fitted values Grade Point Average


53

Contoh 4.9:


. graph box mpg

Diagram kotak dan titik juga dapat disajikan secara berdampingan

menurut kategori variabel kategorik lainnya:

. graph box mpg, by(foreign)

10

20

30

40

Mile

age (

mpg

)10

20

30

40

Domestic Foreign

Mile

age (

mpg)

Graphs by Car type


54

Contoh 4.10:



. graph box gpa

. graph box gpa, over(gender)

1.5

22.5

33.5

4G

rade

Poin

t A

ve

rage

1.5

22.5

33.5

4G

rade P

oin

t A

vera

ge

Female Male


55

� Diagram Lingkar

Diagram lingkar (pie diagram) adalah penyajian grafikal untuk data

nominal (kategorik), menggunakan lingkaran yang terbagi sejumlah sektor,

masing-masing berukuran proporsional dengan frekuensi yang

direpresentasikannya. Sintaks-nya adalah:

graph pie [if] [in], over(varname) [options]

Contoh 4.11:


. graph pie, over(rep78)

1 2

3 4

5


56

Contoh 4.12:



. graph pie, over(live)

� Grafik Matriks

Grafik matriks adalah matriks yang tiap selnya memuat diagram tebar

untuk 2 variabel yang berpotongan pada sel itu. Sintaks-nya adalah:

graph matrix varlist [if] [in] [, options]

Dorm Greek

Apartmnt w/Parent

other


57

Contoh 4.13:


. graph matrix price mpg weight length, half

Bandingkan grafik matriks di atas dengan matriks korelasi berikut:

. corr price mpg weight length

(obs=74)

| price mpg weight length

-----------+--------------------------------

price | 1.0000

mpg | -0.4686 1.0000

weight | 0.5386 -0.8072 1.0000

length | 0.4318 -0.7958 0.9460 1.0000

Price

Mileage(mpg)

Weight(lbs.)

Length(in.)

5,000 10,000 15,000

10

20

30

40

10 20 30 40

2,000

3,000

4,000

5,000

2,000 3,000 4,000 5,000

150

200

250


58

Contoh 4.14:



. graph matrix age drink gpa study, half

Age atlast

birthday

33-pointdrinkingscale

GradePoint

Average

Avg.hours/week

studying

20 30 40

0

20

40

0 20 40

1

2

3

4

1 2 3 4

0

50

Bab 5. Analisis Statistik Sederhana

59

BAB 5

ANALISIS STATISTIK SEDERHANA

� U j i t

� Uji t untuk 1 kelompok

Uji t untuk 1 kelompok adalah uji statistik untuk menguji hipotesis

0H : µ = 0µ . Sintaks pada uji t untuk 1 kelompok yaitu:

ttest varname == # [if] [in] [, level (#)]

Asumsi-asumsi pada uji t untuk 1 kelompok ini adalah :

- Data berskala kontinu

- Data berdistribusi normal

- Data berasal dari random sampling

Contoh 5.1:

File data yang digunakan adalah auto.dta.

. use “D:\Data\Stata\auto.dta”, clear

(1978 Automobile Data)

. list mpg in 1/10

+-----+

| mpg |

|-----|

1. | 22 |

2. | 17 |

3. | 22 |

4. | 20 |

5. | 15 |

|-----|

6. | 18 |

7. | 26 |

8. | 20 |


60

9. | 16 |

10. | 19 |

+-----+

Untuk pengujian asumsi normalitas terhadap variabel mpg dilakukan

uji normalitas Shapiro-Wilk dengan 0H : Data berdistribusi normal.

. swilk mpg

Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z

---------+--------------------------------------------------

mpg | 74 0.94821 3.335 2.627 0.00430

Hipotesis nol ditolak dengan p = 0.0043 (mpg tidak berdistribusi normal,

ditemukan penyimpangan bermakna terhadap distribusi 0H ), walaupun

demikian uji t di sini diteruskan untuk latihan.

Penilaian normalitas secara kasar dapat dilakukan dengan

menggunakan grafik.

. qnorm mpg, grid

Penilaian terhadap grafik di sini bersifat subjektif. Perintah berikut

adalah untuk menguji 0H : µ = 20.

14

20

34

10

20

30

40

Mile

age (

mpg)

21.2973 30.813611.781

10 15 20 25 30 35Inverse Normal

Grid lines are 5, 10, 25, 50, 75, 90, and 95 percentiles


61

. ttest mpg==20

One-sample t test

-----------------------------------------------------------------

Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]

---------+-------------------------------------------------------

mpg | 74 21.2973 .6725511 5.785503 19.9569 22.63769

-----------------------------------------------------------------

mean = mean(mpg) t = 1.9289

Ho: mean = 20 degrees of freedom = 73

Ha: mean < 20 Ha: mean != 20 Ha: mean > 20

Pr(T < t) = 0.9712 Pr(|T| > |t|) = 0.0576 Pr(T > t) = 0.0288

Diperoleh hasil:

untuk 1H : µ < 20 → p = 0.9712

1H : µ ≠ 20 p = 0.0576

1H : µ > 20 p = 0.0288

Contoh 5.2: Pada contoh ini digunakan file data hsb2.dta.

. use "D:\Data\Stata\hsb2.dta", clear

(highschool and beyond (200 cases))

. list write in 1/10

+-------+

| write |

|-------|

1. | 52 |

2. | 59 |

3. | 33 |

4. | 44 |

5. | 52 |

|-------|

6. | 52 |

7. | 59 |

8. | 46 |

9. | 57 |

10. | 55 |

+-------+


62

. swilk write



---------+--------------------------------------------------

write | 200 0.96286 5.540 3.939 0.00004

write tidak berdistribusi normal (p = 0.00004).

. ttest write=50

One-sample t test

------------------------------------------------------------------


---------+--------------------------------------------------------

write | 200 52.775 .6702372 9.478586 51.45332 54.09668

------------------------------------------------------------------

mean = mean(write) t = 4.1403



Pr(T < t) = 1.0000 Pr(|T| > |t|) = 0.0001 Pr(T > t) = 0.0000

Hipotesis 0H : µ = 50 ditolak dengan p = 0.0001.

� Uji t untuk 2 kelompok independen

Uji t untuk 2 kelompok independen adalah pengujian statistik

terhadap hipotesis 0H : 1µ = 2µ . Sintaks untuk uji hipotesis ini adalah:

ttest varname [if] [in] , by(groupvar) [options] Options yang tersedia antara lain yaitu:

- unequal untuk uji terhadap 2 kelompok yang tidak sama variansinya

- level(#) untuk mengganti nilai default tingkat signifikansi

Asumsi-asumsi untuk uji hipotesis ini adalah:


- Data berdistribusi normal

- Variansi kedua kelompok sama (jika tidak sama, gunakan uji unequal)

- Kedua kelompok independen (jika tidak independen, gunakan paired t-

test)



63

Contoh 5.3:

File data yang digunakan di sini adalah fuel3.dta. . webuse fuel3, clear Mengambil dari Web dan membuka file fuel3.dta. . list in 1/5 Memperlihat isi (database) file untuk record 1 s.d. 5

+---------------+

| mpg treated |

|---------------|

1. | 20 0 |

2. | 23 0 |

3. | 21 0 |

4. | 25 0 |

5. | 18 0 |

+---------------+

Pada uji t untuk 2 kelompok independen ini, uji normalitas harus

dilakukan untuk masing-masing kelompok:

. swilk mpg if treated==0



---------+--------------------------------------------------

mpg | 12 0.93932 1.014 0.027 0.48937

. swilk mpg if treated==1



---------+--------------------------------------------------

mpg | 12 0.97637 0.395 -1.811 0.96493

Tampak bahwa untuk kedua kelompok tidak ditemukan

penyimpangan yang bermakna dari normalitas. Selanjutnya dilakukan

pengujian kesamaan variansi antar kedua kelompok dengan hipotesis 0H :


64

21σ /

22σ = 1. Pengujian dapat dilakukan dengan uji Bartlett yang sensitif

terhadap asumsi normalitas:

. sdtest mpg, by(treated)

Variance ratio test

------------------------------------------------------------------

Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]

---------+--------------------------------------------------------

0 | 12 21 .7881701 2.730301 19.26525 22.73475

1 | 12 22.75 .9384465 3.250874 20.68449 24.81551

---------+--------------------------------------------------------

combined | 24 21.875 .6264476 3.068954 20.57909 23.17091

------------------------------------------------------------------

ratio = sd(0) / sd(1) f = 0.7054

Ho: ratio = 1 degrees of freedom = 11, 11

Ha: ratio < 1 Ha: ratio != 1 Ha: ratio > 1

Pr(F < f) = 0.2862 2*Pr(F < f) = 0.5725 Pr(F > f) = 0.7138

Dari hasil uji Bartlett disimpulkan bahwa variansi kedua kelompok

sama (p = 0.5725). Uji kesamaan variansi juga dapat dilakukan dengan uji

Levene yang bersifat robust terhadap asumsi normalitas: . robvar mpg, by(treated)

| Summary of mpg

treated | Mean Std. Dev. Freq.

------------+------------------------------------

0 | 21 2.7303013 12

1 | 22.75 3.250874 12

------------+------------------------------------

Total | 21.875 3.0689539 24

W0 = 0.03414971 df(1, 22) Pr > F = 0.8550817

W50 = 0.01376721 df(1, 22) Pr > F = 0.9076602

W10 = 0.02949384 df(1, 22) Pr > F = 0.86521366

W0 : Levene’s F statistic

W50 : Brown and Forsythe’s F statistic (median)

W10 : Brown and Forsythe’s F statistic (trimmed mean)


65

Hasil uji Levene yaitu 0H tidak ditolak (p = 0.855), sehingga

disimpulkan bahwa variansi kedua kelompok sama. . ttest mpg, by(treated) Uji t terhadap rerata mpg antar 2 kelompok, treated = 1 vs treated = 0.

Two-sample t test with equal variances

----------------------------------------------------------------


---------+------------------------------------------------------

0 | 12 21 .7881701 2.730301 19.26525 22.73475

1 | 12 22.75 .9384465 3.250874 20.68449 24.81551

---------+------------------------------------------------------

combined | 24 21.875 .6264476 3.068954 20.57909 23.17091

---------+------------------------------------------------------

diff | -1.75 1.225518 -4.291568 .7915684

----------------------------------------------------------------

diff = mean(0) - mean(1) t = -1.4280

Ho: diff = 0 degrees of freedom = 22

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0

Pr(T < t) = 0.0837 Pr(|T| > |t|) = 0.1673 Pr(T > t) = 0.9163

Contoh 5.4:

Digunakan file data hsb2.dta.

. use “D\Data\Stata\hsb2.dta”, clear

. list write female in 1/5

+----------------+

| write female |

|----------------|

1. | 52 male |

2. | 59 female |

3. | 33 male |

4. | 44 male |

5. | 52 male |

+----------------+


66

. ttest write, by(female)


------------------------------------------------------------------


---------+--------------------------------------------------------

male | 91 50.12088 1.080274 10.30516 47.97473 52.26703

female | 109 54.99083 .7790686 8.133715 53.44658 56.53507

---------+--------------------------------------------------------

combined | 200 52.775 .6702372 9.478586 51.45332 54.09668

---------+--------------------------------------------------------

diff | -4.869947 1.304191 -7.441835 -2.298059

------------------------------------------------------------------

diff = mean(male) - mean(female) t = -3.7341



Pr(T < t) = 0.0001 Pr(|T| > |t|) = 0.0002 Pr(T > t) = 0.9999

� Uji t berpasangan (paired t-test)

Uji t berpasangan adalah uji statistik untuk menguji hipotesis 0H : δ =

0, δ adalah rerata selisih 2 variabel berpasangan 1X dan 2X . Sintaks uji

statistik adalah:

ttest varname1 == varname2 [if] [in] [, level(#)]

Asumsi-asumsi pada uji statistik ini yaitu:


- Selisih kedua variabel berpasangan berdistribusi normal



67

Contoh 5.5:

File data untuk contoh ini adalah fuel.dta.

. webuse fuel, clear

. list in 1/5

+-------------+

| mpg1 mpg2 |

|-------------|

1. | 20 24 |

2. | 23 25 |

3. | 21 21 |

4. | 25 22 |

5. | 18 23 |

+-------------+

Uji normalitas untuk selisih kedua variabel mpg1 − mpg2 adalah

sebagai berikut:

. gen diff_mpg = mpg1 - mpg2

. swilk diff_mpg



---------+--------------------------------------------------

diff_mpg | 12 0.92077 1.324 0.547 0.29236

Selisih kedua variabel berpasangan mpg1 − mpg2 = diff_mpg berdistribusi normal (p = 0.29236).

. ttest mpg1==mpg2 (two-sample t test using variables)

Paired t test

---------------------------------------------------------------


---------+-----------------------------------------------------

mpg1 | 12 21 .7881701 2.730301 19.26525 22.73475

mpg2 | 12 22.75 .9384465 3.250874 20.68449 24.81551

---------+-----------------------------------------------------

diff | 12 -1.75 .7797144 2.70101 -3.46614 -.0338602

---------------------------------------------------------------


68

mean(diff) = mean(mpg1 - mpg2) t = -2.2444

Ho: mean(diff) = 0 degrees of freedom = 11

Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0

Pr(T < t) = 0.0232 Pr(|T| > |t|) = 0.0463 Pr(T > t) = 0.9768

Contoh 5.6: Digunakan file data hsb2.dta.

. use “D:\Data\Stata\hsb2”, clear

. list read write in 1/10

+--------------+

| read write |

|--------------|

1. | 57 52 |

2. | 68 59 |

3. | 44 33 |

4. | 63 44 |

5. | 47 52 |

|--------------|

6. | 44 52 |

7. | 50 59 |

8. | 34 46 |

9. | 63 57 |

10. | 57 55 |

+--------------+

Berikut diperlihatkan sebagian dari dataset yang digunakan untuk

contoh uji t berpasangan:

pair read write d

1 57 52 +5

2 68 59 +9

3 44 46 −2

4 63 57 +6

. . . dst.


69

. ttest read==write

Paired t test

------------------------------------------------------------------


---------+--------------------------------------------------------

read | 200 52.23 .7249921 10.25294 50.80035 53.65965

write | 200 52.775 .6702372 9.478586 51.45332 54.09668

---------+--------------------------------------------------------

diff | 200 -.545 .6283822 8.886666 -1.784142 .6941424

------------------------------------------------------------------

mean(diff) = mean(read - write) t = -0.8673

Ho: mean(diff) = 0 degrees of freedom = 199

Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0

Pr(T < t) = 0.1934 Pr(|T| > |t|) = 0.3868 Pr(T > t) = 0.8066

� Uji t tanpa dataset

Uji t juga dapat tanpa membuka dataset tertentu, hanya dengan

diberikan data tentang ukuran sampel, rerata, dan standar deviasi.

o Uji t tanpa dataset untuk 1 kelompok: Yang diuji adalah hipotesis 0H : µ = 0µ . Sintaks untuk uji ini adalah:

ttesti #obs #mean #sd #val [, level(#)]

Contoh 5.7:

. ttesti 24 62.6 15.8 75

(immediate form; n = 24, x = 62.6, SD = 15.8; test µ = 75)

One-sample t test

-----------------------------------------------------------

| Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]

----+------------------------------------------------------

x | 24 62.6 3.225161 15.8 55.92825 69.27175

-----------------------------------------------------------


70

mean = mean(x) t = -3.8448



Pr(T < t) = 0.0004 Pr(|T| > |t|) = 0.0008 Pr(T > t) = 0.9996

o Uji t tanpa dataset untuk 2 kelompok:

Yang diuji adalah hipotesis 0H : 1µ = 2µ . Sintaks untuk uji hipotesis

ini adalah:

ttesti #obs1 #mean1 #sd1 #obs2 #mean2 #sd2 [, options]

Options yang tersedia antara lain yaitu unequal (variansi kedua kelompok

tidak sama) dan level(#) (mengubah nilai default tingkat signifikansi).

Contoh 5.8:

. ttesti 12 21.00 0.788 12 22.75 0.938


---------------------------------------------------------------

| Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]

---------+-----------------------------------------------------

x | 12 21 .227476 .788 20.49933 21.50067

y | 12 22.75 .2707773 .938 22.15402 23.34598

---------+-----------------------------------------------------

combined | 24 21.875 .2513863 1.231536 21.35497 22.39503

---------+-----------------------------------------------------

diff | -1.75 .3536462 -2.483417 -1.016583

---------------------------------------------------------------

diff = mean(x) - mean(y) t = -4.9484



Pr(T < t) = 0.0000 Pr(|T| > |t|) = 0.0001 Pr(T > t) = 1.0000


71

� Uji khi-kuadrat

� Uji Khi-Kuadrat untuk tabel 2×2

Pada uji khi-kuadrat dengan Stata, prediktor akan ditempatkan

sebagai variabel baris dan respons sebagai variabel kolom. Untuk data yang

berasal dari rancangan studi Epidemiologi, prediktor dinamakan sebagai

“exposed” dan respons adalah “case”. Dalam tabel 2×2 ini, prediktor

maupun respons adalah variabel biner dan masing-masing bernilai {0, 1}.

case

1 0

exposed 1 a b

1n

0 c d 2n

1m 2m n

o Uji Khi-kuadrat untuk Studi Kasus-Kontrol

Pada data yang berasal dari rancangan studi kasus-kontrol, ukuran

keeratan hubungan prediktor-respons adalah rasio odds (odds ratio; OR),

yaitu:

ˆOR = ψ = ad

bc (5.1)

Uji hipotesis di sini yaitu uji khi-kuadrat dilakukan terhadap hipotesis

0H : ψ = 1. Asumsi-asumsi dalam pengujian ini yaitu:

- Pengamatan independen satu sama lain

- Frekuensi harapan tiap sel minimum sama dengan 5.

Sintaks untuk uji khi-kuadrat pada tabel 2×2 terhadap hipotesis 0H :

ψ = 1 adalah:

cc var_case var_exposed [if] [in] [, cc_options]


72

Salah satu opsi pada [, cc_options] ialah [, exact], yaitu opsi untuk

meminta uji eksak Fisher.

o Uji Khi-kuadrat untuk Studi Kohort

Pada data yang berasal dari rancangan studi kohort, ukuran keeratan

hubungan prediktor-respons adalah rasio risiko (risk ratio; RR), yaitu:

ˆRR = 1

2

a n

c n (5.2)

Uji hipotesis di sini yaitu uji khi-kuadrat dilakukan terhadap hipotesis

0H : RR = 1. Asumsi-asumsi dalam pengujian ini sama seperti untuk uji

hipotesis 0H : OR = 1.

Sintaks untuk uji khi-kuadrat pada tabel 2×2 terhadap hipotesis 0H :

RR = 1 adalah:

cs var_case var_exposed [if] [in] [, cs_options]

Seperti pada rancangan studi kasus kontrol, di sini juga salah satu

opsi adalah [, exact], yaitu opsi untuk meminta uji eksak Fisher.

o Uji Khi-kuadrat untuk Studi Non-Epidemiologi

Jika data tidak berasal dari salah satu rancangan studi epidemiologi,

sintaksnya adalah:

tab2 varname1 varname2, chi2 exact

o Uji Khi-kuadrat tanpa Dataset

Jika analisis khi-kuadrat hendak dilakukan terhadap nilai-nilai

frekuensi keempat sel pada tabel 2×2 tanpa membuka atau menggunakan file

data tertentu, analogi dengan perintah ttesti pada uji t, sintaks-nya masing-

masing adalah:

cci a b c d

csi a b c d

dan: tabi a b \ c d, chi2 exact


73

Contoh 5.9:

Digunakan file data tt_headache_part-1.dta.

. use “D:\Data\Stata\ tt_headache_part-1”, clear

Membuka file tt_headache_part-1.dta.

. list nktt tpa_kat in 1/5

Memperlihat isi sebagian dataset untuk variabel nktt (respons; variabel baris

pada tabel) dan tpa_kat (prediktor; variabel kolom pada tabel) pada record 1

s.d. 5

+----------------+

| nktt tpa_kat |

|----------------|

1. | 0 1 |

2. | 1 0 |

3. | 1 1 |

4. | 0 0 |

5. | 0 0 |

+----------------+

. tab2 nktt tpa_kat

Perintah untuk melakukan tabulasi silang variabel nktt dengan tpa_kat.

-> tabulation of nktt by tpa_kat

| TPA_kat

NKTT | 0 1 | Total

-----------+----------------------+----------

0 | 86 24 | 110

1 | 44 64 | 108

-----------+----------------------+----------

Total | 130 88 | 218

Selanjutnya dengan asumsi data berasal dari studi kasus-kontrol,

hendak dilakukan pengestimasian nilai rasio odds prediktor tpa_kat

(exposed) dengan respons nktt (case) serta uji hipotesis 0H : OR = 1.


74

. cc nktt tpa_kat

Proportion

| Exposed Unexposed | Total Exposed

----------------+--------------------+--------------------

Cases | 64 44 | 108 0.5926

Controls | 24 86 | 110 0.2182

----------------+--------------------+--------------------

Total | 88 130 | 218 0.4037

| |

| Point estimate |[95% Conf. Interval]

|--------------------+--------------------

Odds ratio | 5.212121 | 2.770114 9.888089 (exact)

Attr. frac. ex. | .8081395 | .639004 .8988682 (exact)

Attr. frac. pop | .4788975 |

+-----------------------------------------

chi2(1) = 31.74 Pr>chi2 = 0.0000

Diperoleh kesimpulan hipotesis 0H : OR = 1 ditolak dengan p =

0.0000. Estimasi titik ˆOR adalah 5.21 dengan interval konfidensi 95% [2.77

; 9.89].

Jika data diasumsikan berasal dari rancangan studi kohort, yang

diestimasi adalah nilai rasio risiko dan hipotesis yang diuji adalah 0H : RR =

1 dengan perintah:

. cs nktt tpa_kat

| TPA_kat |

| Exposed Unexposed | Total

----------------+---------------------+----------

Cases | 64 44 | 108

Noncases | 24 86 | 110

----------------+---------------------+----------

Total | 88 130 | 218

| |

Risk | .7272727 .3384615 | .4954128

| |


75

| Point estimate | [95% Conf. Interval]

|---------------------+---------------------

Risk difference | .3888112 | .2652201 .5124023

Risk ratio | 2.14876 | 1.636615 2.821171

Attr. frac. ex. | .5346154 | .3889827 .6455373

Attr. frac. pop | .3168091 |

+-------------------------------------------

chi2(1) = 31.74 Pr>chi2 = 0.0000

Hipotesis 0H : RR = 1 ditolak dengan p = 0.0000. Estimasi titik untuk

ˆRR adalah 2.15 dengan interval konfidensi 95% [1.64 ; 2.82].

Jika data tidak diasumsikan berasal dari salah satu rancangan studi

Epidemiologi, uji khi-kuadrat untuk asosiasi antara tpa_kat dengan nktt

dapat dilakukan dengan perintah:

. tab2 nktt tpa_kat, chi2

-> tabulation of nktt by tpa_kat

| TPA_kat

NKTT | 0 1 | Total

-----------+----------------------+----------

0 | 86 24 | 110

1 | 44 64 | 108

-----------+----------------------+----------

Total | 130 88 | 218

Pearson chi2(1) = 31.7354 Pr = 0.000


76

Contoh 5.10:

Digunakan file data ccxmpl.dta.

. webuse ccxmpl

. list

+-----------------------+

| case exposed pop |

|-----------------------|

1. | 1 1 4 |

2. | 1 0 386 |

3. | 0 1 4 |

4. | 0 0 1250 |

+-----------------------+

Berbeda dengan contoh file data terdahulu, pada file ccxmpl ini

hanya ada 4 records, tiap record tidak menyatakan data untuk 1 orang

responden, melainkan nilai-nilai frekuensi pada tabel 2×2. Ada 4 responden

dengan nilai case = 1 dan exposed = 1; 386 responden dengan nilai case =

1 dan exposed = 0; dan seterusnya; sehingga jumlah responden seluruhnya

adalah 4 + 386 + 4 + 1250 = 1644 orang responden. Di sini tidak boleh

dilakukan perintah tabulate case exposed, chi2. Perintah yang dapat

digunakan di sini adalah cci.

. cci 4 386 4 1250

Proportion

| Exposed Unexposed | Total Exposed

----------------+---------------------+---------------------

Cases | 4 386 | 390 0.0103

Controls | 4 1250 | 1254 0.0032

----------------+---------------------+---------------------

Total | 8 1636 | 1644 0.0049

| |


|---------------------+---------------------

Odds ratio | 3.238342 | .5997233 17.45614 (exact)

Attr. frac. ex. | .6912 | -.6674356 .9427136 (exact)

Attr. frac. pop | .0070892 |

+-------------------------------------------

chi2(1) = 3.07 Pr>chi2 = 0.0799


77

Contoh 5.11:

. csi 7 12 9 2


-----------------+-------------------+----------

Cases | 7 12 | 19

Noncases | 9 2 | 11

-----------------+-------------------+----------

Total | 16 14 | 30

| |

Risk | .4375 .8571429 | .6333333

| |


|-------------------+---------------------

Risk difference | -.4196429 | -.7240828 -.1152029

Risk ratio | .5104167 | .2814332 .9257086

Prev. frac. ex. | .4895833 | .0742914 .7185668

Prev. frac. pop | .2611111 |

+-----------------------------------------

chi2(1) = 5.66 Pr>chi2 = 0.0173

. csi 7 12 9 2, exact


-----------------+--------------------+----------

Cases | 7 12 | 19

Noncases | 9 2 | 11

-----------------+--------------------+----------

Total | 16 14 | 30

| |

Risk | .4375 .8571429 | .6333333

| |


|--------------------+---------------------

Risk difference | -.4196429 | -.7240828 -.1152029

Risk ratio | .5104167 | .2814332 .9257086

Prev. frac. ex. | .4895833 | .0742914 .7185668

Prev. frac. pop | .2611111 |


78

+------------------------------------------

1-sided Fisher's exact P = 0.0212

2-sided Fisher's exact P = 0.0259

� Uji Khi-kuadrat untuk tabel r × c (r baris dan c kolom):

Uji khi-kuadrat dilakukan pada tabel r×c untuk menguji hipotesis

0H : Tidak asosiasi antara variabel baris dengan variabel kolom. Asumsi-

asumsi yang berlaku sama seperti untuk tabel 2×2. Siktaks untuk uji khi-

kuadrat yaitu:

tabulate varname1 varname2 [if] [in] , chi2

Contoh 5.12:

Digunakan file data citytemp2.dta.

. use "D:\Data\Stata\citytemp2", clear

(City Temperature Data)

. list region agecat in 1/7

+-----------------+

| region agecat |

|-----------------|

1. | NE 19-29 |

2. | NE 19-29 |

3. | NE 19-29 |

4. | NE 19-29 |

5. | NE 19-29 |

|-----------------|

6. | NE 19-29 |

7. | NE 19-29 |

+-----------------+


79

. tabulate region agecat

Census | agecat

Region | 19-29 30-34 35+ | Total

-----------+---------------------------------+----------

NE | 46 83 37 | 166

N Cntrl | 162 92 30 | 284

South | 139 68 43 | 250

West | 160 73 23 | 256

-----------+---------------------------------+----------

Total | 507 316 133 | 956

. tabulate region agecat, chi2

Census | agecat

Region | 19-29 30-34 35+ | Total

-----------+---------------------------------+----------

NE | 46 83 37 | 166

N Cntrl | 162 92 30 | 284

South | 139 68 43 | 250

West | 160 73 23 | 256

-----------+---------------------------------+----------

Total | 507 316 133 | 956

Pearson chi2(6) = 61.2877 Pr = 0.000

Dengan p = 0.000, ditemukan asosiasi yang bermakna antara

kelompok usia responden (agecat) dengan regio sensus mereka (region).

Bab 6. Analisis Variansi

80

BAB 6

ANALISIS VARIANSI

Analisis variansi (analysis of variance; ANOVA) adalah analisis

statistik untuk mengkaji perbedaan rerata antar lebih daripada 2 kategori,

seperti pada uji t, yang mengkaji perbedaan rerata antara 2 kategori.

� Analisis Variansi 1-Arah

Pada analisis variansi 1-arah (one-way ANOVA), populasi penelitian

terbagi atas p kategori, yang lazimnya dinamakan juga taraf-taraf suatu

faktor. Analisis variansi mengkaji apakah ada paling sedikit 1 rerata kategori

(taraf faktor) yang berbeda dengan rerata kategori (taraf faktor) lainnya.

Sintaks-nya adalah:

oneway resp_var fact_var [if] [in] [, options]

resp_var : respons, variabel dependen (kontinu)

fact_var : faktor, variabel independen (kategorik)

Model pada analisis variansi adalah:

ijY = µ + iτ + ijε (6.1)

Hipotesis pada analisis variansi yaitu:

0H : 1τ = 2τ = . . . = pτ (6.1.a)

Asumsi-asumsi pada analisis variansi adalah:

1. Independensi: Galat saling independen

2. Normalitas: Galat berdistribusi normal

3. Homoskedastisitas: Homogenitas variansi (antar kelompok perlakuan)

4. Sampling acak: Data diperoleh dari sampling acak


81

Contoh 6.1:

File data yang digunakan pada contoh ini adalah hsb2.dta, memuat

data tentang 200 siswa yang terbagi atas 3 tipe program (prog), yaitu

general, academic, dan vocation. Akan dikaji apakah ada perbedaan rerata

nilai write antar ketiga tipe program tersebut.

. use “D:\Data\Stata\hsb2”


. tabulate prog, summarize(write)

type of | Summary of writing score

program | Mean Std. Dev. Freq.

------------+---------------------------------

general | 51.333333 9.3977754 45

academic | 56.257143 7.9433433 105

vocation | 46.76 9.3187544 50

------------+---------------------------------

Total | 52.775 9.478586 200

Grafik batang rerata write pada ketiga tipe prog diperlihatkan

sebagai berikut:

. graph bar (mean) write, over(prog)

020

40

60

mea

n o

f w

rite

general academic vocation


82

Analisis variansi 1-arah adalah:

. oneway write prog Analysis of Variance

Source SS df MS F Prob > F

-----------------------------------------------------------

Between groups 3175.69786 2 1587.84893 21.27 0.0000

Within groups 14703.1771 197 74.635417

-----------------------------------------------------------

Total 17878.875 199 89.843593

Bartlett's test for equal variances: chi2(2) = 2.6184

Prob>chi2 = 0.270

Kesimpulan yang diperoleh:

- Variansi antar kelompok perlakuan (antar tipa prog) dapat dianggap

sama (uji Bartlett; p = 0.270)

- Rerata antar kelompok perlakuan (nilai write) tidak sama (uji F; p <

0.0000)

Untuk melihat kelompok perlakuan mana yang berbeda, dilakukan

perbandingan ganda (multiple comparisons) dengan cara Bonferroni atau

Scheffe.

. oneway write prog, bonferroni

Comparison of writing score by type of program

(Bonferroni)

Row Mean-|

Col Mean | general academic

---------+----------------------

academic | 4.92381

| 0.005

|

vocation | -4.57333 -9.49714

| 0.032 0.000

Disimpulkan bahwa perbandingan tiap pasangan kelompok (kontras:

vocation vs general; general vs academic; vocation vs academic) ketiganya

menghasilkan perbedaan yang bermakna secara statistik (p = 0.03; p = 0.05;

p = 0.000).


83

Contoh 6.2:

. use “D:\Data\Stata\apple”, clear (Apple trees)

. oneway weight treatment

Analysis of Variance

Source SS df MS F Prob > F

----------------------------------------------------------

Between groups 5295.54433 3 1765.18144 21.46 0.0013

Within groups 493.591667 6 82.2652778

----------------------------------------------------------

Total 5789.136 9 643.237333

Bartlett's test for equal variances: chi2(3) = 1.3900

Prob>chi2 = 0.708

. oneway weight treatment, tabulate

| Summary of Average weight in grams

Fertilizer | Mean Std. Dev. Freq.

------------+------------------------------------

1 | 111.9 6.7535176 3

2 | 52.733333 5.3928966 3

3 | 78.65 11.667262 2

4 | 77.5 14.424978 2

------------+------------------------------------

Total | 80.62 25.362124 10


84

. graph hbar (mean) weight, over(treatment)

. oneway weight treatment, scheffe

Comparison of Average weight in grams by Fertilizer

(Scheffe)

Row Mean-|

Col Mean | 1 2 3

---------+---------------------------------

2 | -59.1667

| 0.001

|

3 | -33.25 25.9167

| 0.039 0.101

|

4 | -34.4 24.7667 -1.15

| 0.034 0.118 0.999

� Analisis Variansi 2-Arah Tanpa Interaksi

Pada analisis variansi 2-arah (two-way ANOVA) tanpa interaksi ini,

populasi penelitian terbagi berdasarkan 2 faktor, masing-masing yaitu faktor

A dengan p taraf dan faktor B dengan q taraf. Sintaks-nya adalah:

anova resp_var fact_A fact_B [if] [in] [, options]

0 50 100mean of weight

4

3

2

1


85

resp_var : respons, variabel dependen

fact_A : faktor A, variabel independen pertama

fact_B : faktor B, variabel independen kedua

Model penelitian ini adalah:

ijY = µ + iα + jβ + ijε (6.2)

Hipotesis penelitian adalah:

0H : 1α = 2α = . . . = pα (6.2.a)

0H : 1β = 2β = . . . = qβ (6.2.b)

Asumsi-asumsi pada analisis variansi 2-arah ini sama dengan asumsi

pada analisis variansi 1-arah. Perintah anova juga dapat digunakan untuk

analisis variansi 1-arah, namun tak dapat dilanjutkan dengan perbandingan

ganda (Multiple Comparisons) seperti pada oneway.

Contoh 6.3:

. use "D:\Data\Stata\systolic", clear

(Systolic Blood Pressure Data)

. tabulate drug disease, summarize(systolic)

Means, Standard Deviations and Frequencies of Increment in

Systolic B.P.

| Patient's Disease

Drug Used | 1 2 3 | Total

-----------+---------------------------------+----------

1 | 29.333333 28.25 20.4 | 26.066667

| 13.017936 5.85235 13.371612 | 11.677002

| 6 4 5 | 15

-----------+---------------------------------+----------

2 | 28 33.5 18.166667 | 25.533333

| 10.977249 2.081666 12.528634 | 11.61813

| 5 4 6 | 15

-----------+---------------------------------+----------


86

3 | 16.333333 4.4 8.5 | 8.75

| 14.189198 6.9137544 9 | 10.0193

| 3 5 4 | 12

-----------+---------------------------------+----------

4 | 13.6 12.833333 14.2 | 13.5

| 10.549882 10.342469 8.9274856 | 9.3238047

| 5 6 5 | 16

-----------+---------------------------------+----------

Total | 22.789474 18.210526 15.8 | 18.87931

| 13.159614 13.554741 11.302538 | 12.800874

| 19 19 20 | 58

. anova systolic drug disease

Number of obs = 58 R-squared = 0.3803

Root MSE = 10.5503 Adj R-squared = 0.3207

Source | Partial SS df MS F Prob > F

--------+-------------------------------------------

Model | 3552.07225 5 710.414449 6.38 0.0001

|

drug | 3063.43286 3 1021.14429 9.17 0.0001

disease | 418.833741 2 209.41687 1.88 0.1626

|

Residual| 5788.08293 52 111.309287

--------+-------------------------------------------

Total | 9340.15517 57 163.862371

. margins drug disease

Predictive margins Number of obs = 58

Expression : Linear prediction, predict()

---------------------------------------------------------------

| Delta-method

| Margin Std. Err. t P>|t| [95% Conf. Interval]

--------+------------------------------------------------------

drug |

1 | 25.8624 2.734004 9.46 0.000 20.37621 31.34858

2 | 25.758 2.731305 9.43 0.000 20.27724 31.23877

3 | 8.866601 3.059402 2.90 0.005 2.727463 15.00574

4 | 13.39343 2.641496 5.07 0.000 8.092878 18.69398

|


87

disease |

1 | 21.79871 2.43044 8.97 0.000 16.92168 26.67575

2 | 19.65957 2.436121 8.07 0.000 14.77113 24.548

3 | 15.36463 2.363042 6.50 0.000 10.62284 20.10642

---------------------------------------------------------------

. quietly: margins drug

. marginsplot

Variables that uniquely identify margins: drug

� Analisis Variansi 2-Arah Dengan Interaksi

Pada analisis variansi 2-arah dengan interaksi, selain oleh faktor A

dan faktor B, respons juga dipengaruhi oleh interaksi antara faktor A dan

faktor B. Sintaks-nya adalah:

anova resp_var fact_A fact_B fact_A#fact_B [if] [in] [, options]

Modelnya adalah:

ijkY = µ + iα + jβ + ( )ij

αβ + ijkε (6.3)

010

20

30

Lin

ear

Pre

dic

tio

n

1 2 3 4Drug Used

Predictive Margins of drug with 95% CIs


88

Hipotesis penelitian adalah:

0H : 1α = 2α = . . . = pα (6.3.a)

0H : 1β = 2β = . . . = qβ (6.3.b)

0H : ( )ij

αβ = 0 untuk i = 1, 2, . . . , p dan j = 1, 2, . . . , q

(6.3.c)

Contoh 6.4:

. use "D:\Data\Stata\systolic", clear

(Systolic Blood Pressure Data)

. anova systolic drug disease drug#disease

Number of obs = 58 R-squared = 0.4560

Root MSE = 10.5096 Adj R-squared = 0.3259

Source | Partial SS df MS F Prob > F

-------------+--------------------------------------------

Model | 4259.33851 11 387.212591 3.51 0.0013

|

drug | 2997.47186 3 999.157287 9.05 0.0001

disease | 415.873046 2 207.936523 1.88 0.1637

drug#disease | 707.266259 6 117.87771 1.07 0.3958

|

Residual | 5080.81667 46 110.452536

-------------+--------------------------------------------

Total | 9340.15517 57 163.862371

Dengan p = 0.3958, berarti tidak ada interaksi antara antara efek drug

dan disease terhadap systolic.

. margins drug disease drug#disease

Predictive margins Number of obs = 58

Expression : Linear prediction, predict()

---------------------------------------------------------------------

| Delta-method

| Margin Std. Err. t P>|t| [95% Conf. Interval]

-------------+-------------------------------------------------------

drug |

1 | 25.89799 2.750533 9.42 0.000 20.36145 31.43452

2 | 26.41092 2.742762 9.63 0.000 20.89003 31.93181

3 | 9.722989 3.099185 3.14 0.003 3.484652 15.96132

4 | 13.55575 2.640602 5.13 0.000 8.24049 18.871


89

|

disease |

1 | 21.95862 2.442515 8.99 0.000 17.04209 26.87515

2 | 20.4204 2.457703 8.31 0.000 15.4733 25.3675

3 | 15.65 2.360482 6.63 0.000 10.8986 20.4014

|

drug#disease |

1 1 | 29.33333 4.290543 6.84 0.000 20.69692 37.96975

1 2 | 28.25 5.25482 5.38 0.000 17.6726 38.8274

1 3 | 20.4 4.700054 4.34 0.000 10.93928 29.86072

2 1 | 28 4.700054 5.96 0.000 18.53928 37.46072

2 2 | 33.5 5.25482 6.38 0.000 22.9226 44.0774

2 3 | 18.16667 4.290543 4.23 0.000 9.530252 26.80308

3 1 | 16.33333 6.067744 2.69 0.010 4.119599 28.54707

3 2 | 4.4 4.700054 0.94 0.354 -5.060718 13.86072

3 3 | 8.5 5.25482 1.62 0.113 -2.077404 19.0774

4 1 | 13.6 4.700054 2.89 0.006 4.139282 23.06072

4 2 | 12.83333 4.290543 2.99 0.004 4.196919 21.46975

4 3 | 14.2 4.700054 3.02 0.004 4.739282 23.66072

----------------------------------------------------------------------

. quietly: margins drug#disease

. marginsplot

Variables that uniquely identify margins: drug disease

-10

010

20

30

40

Lin

ear

Pre

dic

tio

n

1 2 3 4Drug Used

disease=1 disease=2

disease=3

Adjusted Predictions of drug#disease with 95% CIs

Bab 7. Analisis Regresi Linear

90

BAB 7

ANALISIS REGRESI LINEAR

� Regresi Linear Sederhana (Simple Linear

Regression)

Analisis regresi sederhana adalah pemodelan dan analisis statistik

tentang hubungan antara 1 prediktor dengan 1 respons kontinu. Model

hubungan adalah:

iY = 0β +

1β iX + iε (7.1)

Sintaks-nya untuk pengestimasian model dan garis regresi adalah:

regress depvar indepvar [if] [in] [, options]

Grafik yang dapat dibuat yaitu diagram tebar dan estimasi garis

regresi dengan sintaks:

graph twoway scatter depvar indepvar

twoway lfit depvar indepvar

graph twoway scatter depvar indepvar || lfit depvar indepvar

Pengujian terhadap asumsi analisis regresi linear antara lain yaitu

asumsi normalitas dan homoskedastisitas ditujukan terhadap suku galat,

karena itu harus diawali dengan pembentukan suku galat:

regress depvar indepvar

predict resid, residuals

resid : suku galat

Dilanjutkan dengan:

� Uji normalitas Shapiro-Wilk atau uji Shapiro-Francia:

swilk resid (uji Shapiro-Wilk)

francia resid (uji Shapiro-Francia)

� Uji Breusch-Pagan dan uji White untuk asumsi homoskedatisitas:

estat hettest (uji Breusch-Pagan)

estat imtest, white (uji White)


91

Contoh 7.1:

. use “D:\Data\Stata\elemapi”

. describe enroll api00



------------------------------------------------------

enroll int %9.0g number of students

api00 int %6.0g api 2000

enroll : Jumlah siswa

api00 : Kinerja akademik sekolah pada tahun 2000

. graph twoway scatter api00 enroll || lfit api00 enroll

. regress api00 enroll

Source | SS df MS Number of obs = 400

---------+---------------------------- F( 1, 398) = 44.83

Model | 817326.293 1 817326.293 Prob > F = 0.0000

Residual | 7256345.70 398 18232.0244 R-squared = 0.1012

---------+---------------------------- Adj R-squared = 0.0990

Total | 8073672.00 399 20234.7669 Root MSE = 135.03

400

600

800

1000

0 500 1000 1500number of students

api 2000 Fitted values


92

----------------------------------------------------------------

api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------+--------------------------------------------------------

enroll | -.1998674 .0298512 -6.70 0.000 -.2585532 -.1411817

_cons | 744.2514 15.93308 46.71 0.000 712.9279 775.5749

----------------------------------------------------------------

Hasil dan kesimpulannya yaitu:

- Uji F untuk menguji asumsi bahwa model benar bermakna secara

statistik (p = 0.0000)

- Koefisien determinasi 2R = 0.1012, menyatakan bahwa prediktor enroll

“menjelaskan” 10.12% variansi respons api00.

- Uji t untuk prediktor enroll bermakna secara statistik (p = 0.000)

- Koefisien regresi adalah enroll −0.1998674 ≈ −0.2

- Konstante adalah 744.2514, yaitu nilai prediksi api00 jika enroll = 0. Ini

adalah kesimpulan statistik yang tidak realistik, karena jika tidak ada

siswa (enroll = 0), tidak akan ada kinerja akademik sekolah (api00).

Perintah berikut adalah untuk menyajikan grafik yang dapat menilai

kebenaran asumsi linearitas secara kasar.

. graph twoway scatter api00 enroll || lfit api00 enroll

400

600

800

1000

0 500 1000 1500number of students

api 2000 Fitted values


93

Uji asumsi linearitas yang lebih eksak ialah uji lack-of-fit, yang

menguji hipotesis 0H : Tidak ada “lack of linear fit”


. maxr2

maximum R-square = 0.7917

relative R-square = 0.1279

actual adjusted R-square = 0.0990

relative adjusted R-square = 0.1257

SSLF (df) = 5574305.5 (306) MSLF = 18216.684

SSPE (df) = 1682040.3 (92) MSPE = 18283.046

F (dfn, dfd) for lack-of-fit test (MSLF/MSPE) = 0.9964 (306,92)

prob > F = 0.5206

number of covariate patterns = 308

as ratio of observations = 0.770

Kesimpulannya yaitu hipotesis nol tidak ditolak (p = 0.5206),

sehingga asumsi linearitas dianggap terpenuhi.

Selanjutnya pengujian asumsi normalitas dilakukan dengan uji

Shapiro-Wilk dan uji Shapiro-Francia terhadap hipotesis 0H : Suku galat

berdistribusi normal.


. predict e, residuals

. swilk e



---------+------------------------------------------------

e | 400 0.97083 8.030 4.957 0.00000

. sfrancia e

Shapiro-Francia W' test for normal data

Variable | Obs W' V' z Prob>z

---------+------------------------------------------------

e | 400 0.97214 8.263 4.567 0.00001


94

Baik dengan uji Shapiro-Wilk maupun uji Shapiro-Francia, hipotesis

nol ditolak (p = 0.0000)

Pengujian asumsi homoskedastisitas adalah dengan uji Breusch-

Pagan dan uji White, menguji hipotesis 0H : Homoskedastisitas. Uji

Breusch-Pagan adalah untuk menguji heteroskedastisitas linear, sedangkan

uji White menguji heteroskedastisitas “glasshour”.


. estat hettest

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Ho: Constant variance

Variables: fitted values of api00

chi2(1) = 1.91

Prob > chi2 = 0.1665

Tidak ditemukan heteroskedastisitas (p = 0.1665)

. estat imtest, white

White's test for Ho: homoskedasticity

against Ha: unrestricted heteroskedasticity

chi2(2) = 3.78

Prob > chi2 = 0.1514

Cameron & Trivedi's decomposition of IM-test

---------------------------------------------------

Source | chi2 df p

---------------------+-----------------------------

Heteroskedasticity | 3.78 2 0.1514

Skewness | 34.11 1 0.0000

Kurtosis | 26.44 1 0.0000

---------------------+-----------------------------

Total | 64.32 4 0.0000

---------------------------------------------------

Tidak ditemukan heteroskedastisitas (glasshour) dengan p = 0.1514.


95

� Regresi Linear Sederhana dengan Prediktor

Indikator

Analisis regresi linear sederhana dapat dilakukan jika prediktornya

adalah variabel indikator dengan model:

iY = 0β +

1β iX + iε ; X = {0, 1} (7.2)

Sintaks-nya untuk pengestimasian model dan garis regresi tetap sama,

yaitu:

regress depvar indepvar [if] [in] [, options]

indepvar : prediktor biner (variabel indikator)

Contoh 7.2:

. use “D:\Data\Stata\elemapi.dta”, clear

. tabulate yr_rnd

year round |

school | Freq. Percent Cum.

-----------+-----------------------------------

No | 308 77.00 77.00

Yes | 92 23.00 100.00

-----------+-----------------------------------

Total | 400 100.00

. tabulate yr_rnd, nolabel

year round |

school | Freq. Percent Cum.

-----------+-----------------------------------

0 | 308 77.00 77.00

1 | 92 23.00 100.00

-----------+-----------------------------------

Total | 400 100.00


96

. regress api00 yr_rnd


--------+------------------------- F( 1, 398) = 116.24

Model |1825000.56 1 1825000.56 Prob > F = 0.0000

Residual|6248671.43 398 15700.1795 R-squared = 0.2260

--------+------------------------- Adj R-squared = 0.2241

Total |8073672 399 20234.7669 Root MSE = 125.3

------------------------------------------------------------


-------+----------------------------------------------------

yr_rnd | -160.5064 14.8872 -10.78 0.000 -189.7737 -131.239

_cons | 684.539 7.13965 95.88 0.000 670.5028 698.5751

------------------------------------------------------------

� Regresi Linear Ganda (Multiple Linear

Regression)

Pada analisis regresi linear ganda, didapatkan prediktor lebih

daripada satu dengan model:

iY = 0β +

1β 1iX + 2β 2iX + . . . +

pβ piX + iε (7.3)

Sintaks-nya adalah:

regress depvar indepvars [if] [in] [, options]

Asumsi yang berlaku di sini adalah sama seperti pada regresi linear

sederhana, dengan tambahan asumsi tidak ada multikolinearitas. Perintah

untuk uji multikolinearitas adalah vif yang menampilkan hasil perhitungan

variance inflation factor.

Contoh 7.3:

. use “ D:\Data\Stata\elemapi”

Variabel-variabel dalam dataset adalah:

api00 : Kinerja akademik sekolah tahun 2000

acs_k3 : Rerata ukuran kelas dari TK s.d. kelas 3

meals : Persentase siswa yang mendapat makan gratis (indikator

kemiskinan)


97

full : Persentase guru yang memiliki akreditasi penuh untuk

mengajar

. list api00 acs_k3 meals full in 1/7

+---------------------------------+

| api00 acs_k3 meals full |

|---------------------------------|

1. | 693 16 67 76.00 |

2. | 570 15 92 79.00 |

3. | 546 17 97 68.00 |

4. | 571 20 90 87.00 |

5. | 478 18 89 87.00 |

|---------------------------------|

6. | 858 20 . 100.00 |

7. | 918 19 . 100.00 |

+---------------------------------+

Perintah berikut menampilkan matriks grafik diagram tebar untuk

tiap pasangan variabel kontinu:

. graph matrix api00 acs_k3 meals full, half

api2000

avgclasssizek-3

pctfree

meals

pct fullcredential

400 600 800 1000

-20

0

20

-20 0 20

0

50

100

0 50 100

0.00

50.00

100.00


98

Perintah ini adalah untuk menyajikan matriks korelasi:

. correlate api00 acs_k3 meals full (obs=313)

| api00 acs_k3 meals full

-------------+------------------------------------

api00 | 1.0000

acs_k3 | -0.0641 1.0000

meals | -0.8184 0.0097 1.0000

full | 0.2328 0.1789 -0.2518 1.0000

Estimasi model dan persamaan garis regresi adalah:

. regress api00 acs_k3 meals full


---------+------------------------------ F( 3, 309) = 213.41

Model | 2634884.26 3 878294.754 Prob > F = 0.0000


---------+------------------------------ Adj R-squared = 0.6713

Total | 3906597.47 312 12521.1457 Root MSE = 64.153

--------------------------------------------------------------------------


---------+----------------------------------------------------------------

acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073

meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348

full | .1086104 .090719 1.20 0.232 -.0698947 .2871154

_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555

--------------------------------------------------------------------------

Kesimpulan yang diperoleh yaitu:

- Rerata ukuran kelas (acs_k3, b = −2.68) tampak tak bermakna (p =

0.055). Koefisien negatif mengindikasikan bahwa ukuran kelas yang

lebih besar terkait dengan kinerja akademik yang lebih rendah.

- Efek meals (b = −3.70, p = 0.000) bermakna. Koefisien negatif

menunjukkan bahwa semakin besar proporsi siswa penerima makanan

gratis, semakin rendah kinerja akademik.

Ini tak berarti bahwa makanan gratis menyebabkan kinerja akademik

yang rendah. Variabel meals terkait erat dengan tingkat penghasilan dan


99

berfungsi sebagai proxy untuk kemiskinan. Tingkat kemiskinan yang

lebih tinggi diasosiasikan dengan kinerja akademik yang lebih rendah.

- Persentase guru dengan akreditasi penuh (full, b = 0.11, p = 0.232) tak

terkait dengan kinerja akademik, mengindikasikan bahwa persentase guru

dengan akreditasi penuh bukan merupakan faktor penting untuk

memprediksi kinerja.

Uji multikolinearitas dilakukan sebagai berikut:

. vif Variable | VIF 1/VIF

-------------+----------------------

full | 1.11 0.903713

meals | 1.07 0.933517

acs_k3 | 1.04 0.964781

-------------+----------------------

Mean VIF | 1.07

Kesimpulan yaitu tidak ada multikolinearitas. Multikolinearitas

dianggap ada jika ada variabel dengan nilai vif lebih besar dari pada 10.00

atau nilai Tolerance (= 1/ vif) lebih kecil daripada 0.10.

� Regresi Linear Ganda dengan Prediktor

Kategorik

Misalkan prediktor X akan diregresikan terhadap respons Y, X adalah

variabel kategorik dengan 3 kategori: X = {1, 2, 3}

Digunakan 2 variabel indikator 1Z dan 2Z ; masing-masing adalah

variabel biner; 1Z = {0, 1} dan 2Z = {0, 1}, sehingga model yang digunakan

menjadi:

iY = 0β +

1β 1iZ + 2β 2iZ + iε (7.4)

Konversi variabel kategorik menjadi variabel indikator pada Stata

dilakukan dengan operator i, yaitu 1 variabel kategorik X dengan p taraf

direpresentasikan oleh (p – 1) indikator Z.


100

1Z 2Z

X = 1 0 0

X = 2 1 0

X = 3 0 1

Misalnya, variabel ses dengan 3 taraf direpresentasikan oleh 2

variabel indikator yang dibentuk oleh i.ses (X = 1 menjadi baseline).

Contoh 7.4:

. use “D:\Data\Stata\hsb2”, clear


. tabulate ses

ses | Freq. Percent Cum.

------------+-----------------------------------

low | 47 23.50 23.50

middle | 95 47.50 71.00

high | 58 29.00 100.00

------------+-----------------------------------

Total | 200 100.00

. tabulate ses, nolabel

ses | Freq. Percent Cum.

------------+-----------------------------------

1 | 47 23.50 23.50

2 | 95 47.50 71.00

3 | 58 29.00 100.00

------------+-----------------------------------

Total | 200 100.00

. regress science i.ses


---------+-------------------------- F( 2, 197) = 8.57

Model | 1561.57802 2 780.789008 Prob > F = 0.0003


---------+-------------------------- Adj R-squared = 0.0707

Total | 19507.5 199 98.0276382 Root MSE = 9.5444


101

--------------------------------------------------------------

science | Coef. Std. Err. t P>|t| [95% Conf. Interval]

--------+-----------------------------------------------------

ses |

middle| 4.003135 1.702093 2.35 0.020 .6464741 7.359797

high | 7.746148 1.873189 4.14 0.000 4.052072 11.44022

|

_cons | 47.70213 1.392197 34.26 0.000 44.9566 50.44765

--------------------------------------------------------------

Taraf low pada variabel kategorik ses menjadi baseline untuk

kontras (middle vs low ; high vs low).

� Regresi Linear Ganda dengan Interaksi

Pada model regresi linear ini didapatkan interaksi 2 prediktor, yaitu

interaksi antara 1X dan 2X . Modelnya adalah:

iY = 0β +

1β 1iX + 2β 2iX +

3β 1iX 2iX + iε (7.5)

Sintaks yang digunakan yaitu:

regress depvar indepvars indepvar1#indepvar2 [if] [in] [, options]

indepvar1#indepvar2 : Suku interaksi

Pada pemodelan regresi linear dengan interaksi pada Stata ini

digunakan operator i. dan c.:

- Prediktor/variabel independen yang tidak dalam suku interaksi dalam

model regresi linear harus merupakan variabel kontinu atau indikator.

Operator i. mengubah variabel kategorik dengan kategori/taraf lebih

daripada 2, yang tidak dalam suku interaksi menjadi variabel indikator

agar dapat dimasukkan ke dalam model regresi linear.

- Prediktor/variabel independen dalam suku interaksi dalam model regresi

linear harus merupakan variabel kategorik atau indikator.

Operator c. mengubah variabel kontinu yang dalam suku interaksi

menjadi variabel kategorik.

Ikhtisar penggunaan operator i. dan c. pada prediktor dalam model

regresi linear diperlihatkan sebagai berikut:


102

Variabel tunggal:

X

Suku Interaksi:

1X # 2X

Biner {0, 1} varname varname

Kategorik

(taraf > 2) i.varname varname

Kontinu varname c.varname

Contoh 7.5:

. use “D:\Data\Stata\honolulu”

. regress tek_darah usia kolesterol


---------+--------------------------- F( 2, 97) = 4.02

Model | 3404.78195 2 1702.39098 Prob > F = 0.0211


---------+--------------------------- Adj R-squared = 0.0574

Total | 44523 99 449.727273 Root MSE = 20.589

-----------------------------------------------------------------

tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]

----------+------------------------------------------------------

usia | .8469443 .408067 2.08 0.041 .0370443 1.656844

kolesterol| .0906782 .0535687 1.69 0.094 -.0156407 .1969972

_cons | 64.97095 23.74061 2.74 0.007 17.85242 112.0895

-----------------------------------------------------------------

. regress tek_darah usia kolesterol c.usia#c.kolesterol

usia dan kolesterol keduanya adalah variabel kontinu, jika

dimasukkan ke dalam suku interaksi masing-masing memerlukan operator c.


---------+---------------------------- F( 3, 96) = 3.27

Model | 4127.36425 3 1375.78808 Prob > F = 0.0246


---------+---------------------------- Adj R-squared = 0.0643

Total | 44523 99 449.727273 Root MSE = 20.513


103

------------------------------------------------------------------------------


--------------------+---------------------------------------------------------

usia | 4.383427 2.729183 1.61 0.112 -1.033959 9.800813

kolesterol | .9399724 .6503 1.45 0.152 -.3508628 2.230808

|

c.usia#c.kolesterol | -.0158138 .0120677 -1.31 0.193 -.0397681 .0081404

|

_cons | -124.6174 146.5978 -0.85 0.397 -415.6118 166.377

------------------------------------------------------------------------------

. regress tek_darah usia rokok


---------+------------------------- F( 2, 97) = 2.87

Model | 2485.12693 2 1242.56346 Prob > F = 0.0617


---------+------------------------- Adj R-squared = 0.0363

Total | 44523 99 449.727273 Root MSE = 20.818

-----------------------------------------------------------------


----------+------------------------------------------------------

usia | .9466804 .4112442 2.30 0.023 .1304745 1.762886

rokok | 3.566772 4.323255 0.83 0.411 -5.013693 12.14724

_cons | 77.97196 22.34209 3.49 0.001 33.6291 122.3148

-----------------------------------------------------------------

. regress tek_darah usia rokok c.usia#rokok

usia adalah variabel kontinu, jika dimasukkan ke dalam suku

interaksi memerlukan operator c. rokok adalah variabel indikator, sehingga

selalu tidak memerlukan operator.


---------+--------------------------- F( 3, 96) = 1.93

Model | 2531.81794 3 843.939314 Prob > F = 0.1300


---------+--------------------------- Adj R-squared = 0.0274

Total | 44523 99 449.727273 Root MSE = 20.914


104

-----------------------------------------------------------------------


-------------+---------------------------------------------------------

usia | 1.040749 .5035781 2.07 0.041 .041154 2.040343

rokok | 18.94451 47.26727 0.40 0.689 -74.88028 112.7693

|

rokok#c.usia |

1 | -.2877643 .8807723 -0.33 0.745 -2.036083 1.460555

|

_cons | 72.89675 27.29671 2.67 0.009 18.7132 127.0803

-----------------------------------------------------------------------

. regress tek_darah usia i.pend

pend adalah variabel kategorik, jika digunakan sebagai prediktor

tunggal (tidak dalam suku interaksi), memerlukan operator i.


---------+--------------------------- F( 5, 94) = 1.68

Model | 3658.43513 5 731.687027 Prob > F = 0.1462


---------+--------------------------- Adj R-squared = 0.0333

Total | 44523 99 449.727273 Root MSE = 20.85

-----------------------------------------------------------------


----------+------------------------------------------------------

usia | .8387384 .420814 1.99 0.049 .0032023 1.674275

|

pend |

2 | -1.292157 5.573684 -0.23 0.817 -12.35884 9.774523

3 | -.0548732 6.053667 -0.01 0.993 -12.07457 11.96482

4 | -12.39448 8.182403 -1.51 0.133 -28.64083 3.851877

5 | -7.623154 7.872033 -0.97 0.335 -23.25326 8.006951

|

_cons | 87.38939 23.51743 3.72 0.000 40.69497 134.0838

-----------------------------------------------------------------

. regress tek_darah usia i.pend c.usia#pend

Dalam suku interaksi, pend sebagai variabel kategorik tidak

memerlukan lagi operator i., sedangkan usia sebagai variabel kontinu dalam

suku interaksi memerlukan operator c.


105


---------+--------------------------- F( 9, 90) = 1.25

Model | 4941.84363 9 549.093736 Prob > F = 0.2762


---------+--------------------------- Adj R-squared = 0.0221

Total | 44523 99 449.727273 Root MSE = 20.971

---------------------------------------------------------------------


-------------+-------------------------------------------------------

usia | 1.328125 .7005981 1.90 0.061 -.0637355 2.719985

|

pend |

2 | 49.26815 52.90101 0.93 0.354 -55.82895 154.3652

3 | -11.77593 69.6128 -0.17 0.866 -150.0739 126.5221

4 | 17.71206 126.0571 0.14 0.889 -232.7224 268.1465

5 | 155.7896 116.6524 1.34 0.185 -75.96074 387.5399

|

pend#c.usia |

2 | -.9249705 .9623264 -0.96 0.339 -2.8368 .9868588

3 | .2471469 1.303531 0.19 0.850 -2.342544 2.836838

4 | -.5503472 2.392998 -0.23 0.819 -5.304456 4.203761

5 | -3.089319 2.206097 -1.40 0.165 -7.472116 1.293478

|

_cons | 60.47312 38.76049 1.56 0.122 -16.53136 137.4776

---------------------------------------------------------------------

Bab 8. Analisis Regresi Logistik

106

BAB 8

ANALISIS REGRESI LOGISTIK

� Model Regresi Logistik Sederhana

Model regresi logistik adalah model hubungan antara prediktor

dengan respons biner, sedemikian hingga logit probabilitas respons

merupakan fungsi linear prediktornya:

Y = P [ 1Y X= ] (8.1)

dan: logit Y = ln ˆ

ˆ1

Y

Y− = 0β + 1β X (8.2)

dengan Y biner; iY = 0, 1.

Estimasinya yang diperoleh dari data sampel adalah:

logit Y = ln ˆ

ˆ1

Y

Y− = 0b + 1b X (8.2.a)

Perhatikan bahwa:

- Untuk model regresi logistik sederhana, ruas kanan persamaan (2)

hanya memiliki satu prediktor X.

- Pada ruas kanan persamaan (2) tidak didapatkan suku galat seperti

halnya pada model regresi linear dengan respons kontinu.

Prediktor X dapat berupa variabel kontinu ataupun kategorik. Jika

prediktor X kategorik, dalam persamaan (2) dinyatakan dengan satu atau

lebih variabel indikator seperti halnya pada model regresi linear.

Karena nilai Y merupakan sebuah nilai probabilitas, nilai Y dibagi

dengan komplemennya (= 1 − Y ) adalah nilai odds Y :

Odds Y = ˆ

ˆ1

Y

Y− (8.3)

dan logit Y dinamakan juga ln odds Y :

logit Y = log odds Y


107

dan Y = P [ 1Y X= ] = ( )0 1

1

1 exp Xβ β++ − (8.4)

Estimasinya dari data sampel adalah:

Y = P [ 1Y X= ] = ( )0 11 exp

1

b b X− ++ (8.4.a)

Dari persamaan ln ˆ

ˆ1

Y

Y− = 0β + 1β X , diperoleh:

Odds Y = ˆ

ˆ1

Y

Y− = ( )0 1 exp Xβ β− +

Jika X juga biner, maka:

untuk X = 1 → Odds 1Y = ( )0 1e p x β β− +

dan untuk X = 0 → Odds 0Y = ( )0exp β−

Rasio antara keduanya adalah rasio odds respons Y dengan prediktor

X, yaitu:

OR = 1exp β− (8.5)

dan estimasinya adalah:

OR = 1exp b− (8.5.a)

Dalam praktik, ringkasan data sampel yang dikumpulkan dapat

disajikan dalam bentuk tabel 2×2 sebagai berikut:

Y = 1 Y = 0

X = 1 a b

X = 0 c d

Di sini estimasi untuk rasio odds dapat dinyatakan sebagai:

OR = a b

c d =

ad

bc (8.6)

Perhatikan tampilan baku tabel 2×2 untuk perhitungan rasio odds

adalah sebagai berikut:

- Prediktor X pada baris dan respons Y pada kolom.

- Prediktor ada (X = 1) pada baris atas dan prediktor tidak ada (X = 0)

pada baris bawah.


108

- Respons ada (Y = 1) pada kolom kiri dan respons tidak ada (Y = 0) pada

kolom kanan.

Jika X kontinu, maka X = 0 pada tabel di atas diganti dengan X = x

dan X = 1 diganti dengan X = x + 1 (diasumsikan rasio odds konstan untuk

tiap pertambahan nilai X sebesar 1 satuan):

Y = 1 Y = 0

X = x + 1 a b

X = x c d

dengan estimasi rasio odds tetap adalah:

OR = a b

c d =

ad

bc

Perintah Stata untuk melakukan analisis regresi logistik sederhana

adalah:

logit depvar indepvar [if] [in], [, options]

Jika yang diinginkan adalah estimasi nilai rasio odds, perintahnya

adalah:

logistic depvar indepvar [if] [in], [, options]

Contoh 8.1:

. use "D:\Data\Stata\tension-type headache.dta", clear

. logit nktt hos

Iteration 0: log likelihood = -151.09691




Logistic regression Number of obs = 218

LR chi2(1) = 24.88

Prob > chi2 = 0.0000

Log likelihood = -138.65922 Pseudo R2 = 0.0823


109

-----------------------------------------------------------

nktt | Coef. Std. Err. z P>|z| [95% Conf. Interval]

------+----------------------------------------------------

hos | .1537723 .0330478 4.65 0.000 .0889998 .2185448

_cons | -1.918308 .4331991 -4.43 0.000 -2.767363 -1.069253

-----------------------------------------------------------

. logistic nktt hos


LR chi2(1) = 24.88

Prob > chi2 = 0.0000


----------------------------------------------------------

nktt |Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

------+---------------------------------------------------

hos | 1.166225 .0385412 4.65 0.000 1.09308 1.244265

_cons | .1468553 .0636176 -4.43 0.000 .0628275 .3432648

----------------------------------------------------------

� Model Regresi Logistik Ganda

Misalkan untuk model regresi logistik di atas dimiliki p prediktor,

maka model logitnya menjadi:

logit Y = ln ˆ

ˆ1

Y

Y− = 0β + 1β 1X + 2β 2X + . . . + pβ pX (8.7)

dan probabilitas bersyarat responsnya adalah:

Y = P [ 1Y X= ] = ( )0 1 1 2 2 . . .

1

1 exp p pX X Xβ β β β+ + + ++ − (8.8)

Estimasinya dari data sampel masing-masing adalah:

logit Y = ln ˆ

ˆ1

Y

Y− = 0b + 1b 1X + 2b 2X + . . . + pb pX (8.7.a)

dan

Y = P [ 1Y X= ] = ( )0 1 1 2 2 . . .e p

1

1 x p pb b X b X b X+ + + ++ − (8.8.a)


110

Di sini didapatkan p nilai rasio odds, masing-masing menyatakan

rasio odds hubungan respons Y dengan prediktor iX ; i = 1, 2, . . . , p.

iOR = exp iβ− (8.9)

dan estimasinya adalah:

ˆiOR = exp ib− (8.9.a)

Contoh 8.2:

Dalam contoh ini digunakan file data binary.dta, yang memuat data

penerimaan mahasiswa program pascasarjana (admit) sebagai respons.

Prediktornya adalah nilai-nilai mahasiswa di program sarjana, yaitu gre

(skor Graduate Record Exam), gpa (Grade Point Average), dan rank

(prestise perguruan tinggi asal).

. use "D:\Data\Stata\binary.dta", clear

. summarize gre gpa

gre dan gpa adalah variabel kontinu.


---------+--------------------------------------

gre | 400 587.7 115.5165 220 800

gpa | 400 3.3899 .3805668 2.26 4

. tab rank

rank adalah variabel kategorik.

rank | Freq. Percent Cum.

-------+------------------------------

1 | 61 15.25 15.25

2 | 151 37.75 53.00

3 | 121 30.25 83.25

4 | 67 16.75 100.00

-------+------------------------------

Total | 400 100.00


111

. tab admit

admit sebagai respons, merupakan variabel biner.

admit | Freq. Percent Cum.

-------+------------------------------

0 | 273 68.25 68.25

1 | 127 31.75 100.00

-------+------------------------------

Total | 400 100.00

Berikut ditampilkan tabulasi silang admit dan rank.

. tab2 admit rank

| rank

admit | 1 2 3 4 | Total

------+--------------------------------+----------

0 | 28 97 93 55 | 273

1 | 33 54 28 12 | 127

------+--------------------------------+----------

Total | 61 151 121 67 | 400

Model regresi logistik ganda diperoleh sebagai berikut.

. logit admit gre gpa i.rank







LR chi2(5) = 41.46

Prob > chi2 = 0.0000


-----------------------------------------------------------------

admit | Coef. Std. Err. z P>|z| [95% Conf. Interval]

------+----------------------------------------------------------

gre | .0022644 .001094 2.07 0.038 .0001202 .0044086

gpa | .8040377 .3318193 2.42 0.015 .1536838 1.454392

|


112

rank |

2 | -.6754429 .3164897 -2.13 0.033 -1.295751 -.0551346

3 | -1.340204 .3453064 -3.88 0.000 -2.016992 -.6634158

4 | -1.551464 .4178316 -3.71 0.000 -2.370399 -.7325287

|

_cons | -3.989979 1.139951 -3.50 0.000 -6.224242 -1.755717

-----------------------------------------------------------------

Perintah test menguji efek menyeluruh (overall effect) prediktor

rank.

. test 2.rank 3.rank 4.rank

( 1) [admit]2.rank = 0



chi2( 3) = 20.90

Prob > chi2 = 0.0001

Tampak bahwa efek menyeluruh rank bermakna secara statistik.

Dalam perintah berikut akan diuji kesamaan koefisien rank=2 dengan

koefisien rank=3.

. test 2.rank = 3.rank

( 1) [admit]2.rank - [admit]3.rank = 0

chi2( 1) = 5.51

Prob > chi2 = 0.0190

. logit , or

Perintah ini adalah untuk mendapatkan estimasi nilai-nilai rasio odds.


LR chi2(5) = 41.46

Prob > chi2 = 0.0000


-----------------------------------------------------------------

admit | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

------+----------------------------------------------------------

gre | 1.002267 .0010965 2.07 0.038 1.00012 1.004418

gpa | 2.234545 .7414652 2.42 0.015 1.166122 4.281877

|


113

rank |

2 | .5089309 .1610714 -2.13 0.033 .2736922 .9463578

3 | .2617923 .0903986 -3.88 0.000 .1330551 .5150889

4 | .2119375 .0885542 -3.71 0.000 .0934435 .4806919

|

_cons | .0185001 .0210892 -3.50 0.000 .0019808 .1727834

-----------------------------------------------------------------

Perintah “logit , or” dapat juga diberikan dalam bentuk “logistic

admit gre gpa i.rank”.

. margins rank, atmeans

Perintah margins adalah untuk menghitung probabilitas prediksi

respons untuk masing-masing prediktor.

Adjusted predictions Number of obs = 400

Model VCE : OIM

Expression : Pr(admit), predict()

at : gre = 587.7 (mean)

gpa = 3.3899 (mean)

1.rank = .1525 (mean)

2.rank = .3775 (mean)

3.rank = .3025 (mean)

4.rank = .1675 (mean)

---------------------------------------------------------------

| Delta-method

| Margin Std. Err. z P>|z| [95% Conf. Interval]

-----+---------------------------------------------------------

rank |

1 | .5166016 .0663153 7.79 0.000 .3866261 .6465771

2 | .3522846 .0397848 8.85 0.000 .2743078 .4302614

3 | .218612 .0382506 5.72 0.000 .1436422 .2935819

4 | .1846684 .0486362 3.80 0.000 .0893432 .2799937

---------------------------------------------------------------

Bab 9. Statistika Nonparametrik

114

BAB 9

STATISTIKA NONPARAMETRIK

� Uji ranksum Wilcoxon (Mann-Whitney)

Uji ranksum Wilcoxon (Mann-Whitney) menguji hipotesis bahwa

dua sampel independen berasal dari populasi dengan distribusi yang sama.

Sintaks-nya adalah:

ranksum varname [if] [in], by(groupvar)

Uji ini dapat dianggap sebagai padanan uji t untuk 2 sampel

independen pada Statistika Paramerik.

Contoh 9.1:

Hendak diuji efektivitas fuel additive baru dengan 24 mobil, 12

dengan fuel treatment dan 12 tanpa treatment. Dataset memuat variabel mpg

(mileage rating) untuk treat yang bernilai 0 (mobil tanpa treatment) serta

mpg untuk treat bernilai 1 (mobil dengan treatment).

. use “D:\Data\Stata\fuel2”, clear

. ranksum mpg, by(treat)

Two-sample Wilcoxon rank-sum (Mann-Whitney) test

treat | obs rank sum expected

-------------+---------------------------------

untreated | 12 128 150

treated | 12 172 150

-------------+---------------------------------

combined | 24 300 300

unadjusted variance 300.00

adjustment for ties -4.04

----------

adjusted variance 295.96


115

Ho: mpg(treat==untreated) = mpg(treat==treated)

z = -1.279

Prob > |z| = 0.2010

Hasil uji mengindikasikan nilai median kedua populasi tidak berbeda

secara bermakna.

� Uji signrank Wilcoxon

Uji signrank Wilcoxon menguji kesamaan distribusi data

berpasangan. Sintaks-nya jika pasangan data berada dalam 2 variabel

terpisah adalah:

signrank var_1 = var_2

Jika pasangan data terpisah dalam 1 variabel yang ditentukan oleh

taraf variabel kategoriknya:

by cat_var: signrank var_name

Uji ini dapat dianggap sebagai padanan uji t untuk 2 sampel

berpasangan pada Statistika Paramerik.

Contoh 9.2:

Seperti pada contoh 9.1, tetapi di sini tiap mobil dengan treatment

dipasangkan dengan 1 mobil tanpa treatment. Data mileage rating untuk tiap

pasangan berada dalam variabel mpg1 dan mpg2.

. use "D:\Data\Stata\fuel.dta", clear

. signrank mpg1=mpg2

Wilcoxon signed-rank test

sign | obs sum ranks expected

-------------+---------------------------------

positive | 3 13.5 38.5

negative | 8 63.5 38.5

zero | 1 1 1

-------------+---------------------------------

all | 12 78 78



adjustment for zeros -0.25


116

----------


Ho: mpg1 = mpg2

z = -1.973

Prob > |z| = 0.0485

Didapatkan perbedaan yang bermakna antara distribusi kedua

pasangan data.

� Uji Kesamaan Rank Kruskal-Wallis Uji Kruskal-Wallis menguji bahwa beberapa (lebih daripada 2)

sampel berasal dari populasi yang sama. Uji ini merupakan perluasan uji

ranksum Wilcoxon. Sintaks-nya adalah:

kwallis varname [if] [in] , by(groupvar)

Uji ini dapat dianggap sebagai padanan ANOVA 1-arah pada

Statistika Parametrik.

Contoh 9.3:

. use “D:\Data\Stata\census”, clear

(1980 Census data by state)

. tab region

Census |

region | Freq. Percent Cum.

---------+---------------------------

NE | 9 18.00 18.00

N Cntrl | 12 24.00 42.00

South | 16 32.00 74.00

West | 13 26.00 100.00

---------+---------------------------

Total | 50 100.00


117

. tab region, nolabel

Census |

region | Freq. Percent Cum.

---------+---------------------------

1 | 9 18.00 18.00

2 | 12 24.00 42.00

3 | 16 32.00 74.00

4 | 13 26.00 100.00

---------+---------------------------

Total | 50 100.00

Untuk menguji adanya perbedaan medage pada keempat region:

. kwallis medage, by(region)

Kruskal-Wallis equality-of-populations rank test

+--------------------------+

| region | Obs | Rank Sum |

|---------+-----+----------|

| NE | 9 | 376.50 |

| N Cntrl | 12 | 294.00 |

| South | 16 | 398.00 |

| West | 13 | 206.50 |

+--------------------------+

chi-squared = 17.041 with 3 d.f.

probability = 0.0007

chi-squared with ties = 17.062 with 3 d.f.

probability = 0.0007

Tampak bahwa ada paling sedikit 1 pasang region yang medage -

nya berbeda secara bermakna.

Jika yang hendak diuji hanya perbedaan antara 2 region, misalnya

“NE” dan “N Cntrl”, dapat digunakan uji ranksum Wilcoxon:


118

. ranksum medage if region==1 | region==2, by(region)

Two-sample Wilcoxon rank-sum (Mann-Whitney) test

region | obs rank sum expected

-----------+---------------------------

NE | 9 144 99

N Cntrl | 12 87 132

-----------+---------------------------

combined | 21 231 231



----------


Ho: medage(region==NE) = medage(region==N Cntrl)

z = 3.202

Prob > |z| = 0.0014

Tampak bahwa medage antara kedua region berbeda secara

bermakna.

Kepustakaan

119

KEPUSTAKAAN

Acock AC. A Gentle Introduction to Stata, 4rd Ed. College Station: Stata

Press, 2014.

Baum CF. Introduction to Stata. Faculty Micro Resource Center, Boston

College, August 2011. View 1 June 2017, available from

http://fmwww.bc.edu/GStat/docs/StataIntrp.pdf.

Bhattacharya PK, Burman P. Theory and Methods of Statistics.

Amsterdam: Elsevier, 2016.

Hamilton LC. Statistics with Stata: Updated for Version 12. Boston, MA:

Brooks/Cole, Cenage Learning, 2013.

Kohler U, Kreuter F. Data Analysis Using Stata, 3rd Ed. College Station:

Stata Press, 2012.

Kothari P. Data Analysis with Stata. Birmingham: Packt Publishing, 2015.

Kraska-Miller M. Nonparametric Statistics for Social and Behavioral

Sciences. Boca Raton, FL: CRC Press, 2014.

Long JS, Freese J. Regression Models for Categorical Dependent

Variables Using Stata, 3rd Ed. College Station: Stata Press, 2014.

Longest KC. Using Stata for Quantitative Analysis. Thousand Oaks,

California: Sage Publications, 2012.

Mitchell MN. A Visual Guide to Stata Graphics. College Station: Stata

Press, 2004.

Montgomery DC, Peck EA, Vining GG. Introduction to Linear Regression

Analysis, 5th Ed. Hoboken, New Jersey: John Wiley & Sons, 2012.

Rabe-Hesketh S, Everitt B. A Handbook of Statistical Analyses Using

Stata, 4th Ed. Boca Raton: Chapman & Hall/CRC, 2007.

Kepustakaan

120

StataCorp LP. Stata Base Reference Manual: Release 14. College Station,

Texas: Stata Press, 2015.

_______. Stata Data-Management Reference Manual: Release 14.

College Station, Texas: Stata Press, 2015.

_______. Stata Graphics Reference Manual: Release 14. College Station,

Texas: Stata Press, 2015.

_______. Stata User’s Guide: Release 14. College Station, Texas: Stata

Press, 2015.

Suárez EL, Pérez CM, Nogueras GM, Moreno-Gorrín C. Biostatistics in

Public Health Using Stata. Boca Raton, FL: CRC Press, 2016.

Download - harlan_johan.staff.gunadarma.ac.idharlan_johan.staff.gunadarma.ac.id/Publications/files/... · Stata adalah program komputer untuk analisis statistik, pertama kali dibuat oleh StataCorp

Top Related