PENGENALANPENGENALANPENGENALANPENGENALAN
STATASTATASTATASTATA
Johan HarlanJohan HarlanJohan HarlanJohan Harlan
Pengenalan StataPengenalan StataPengenalan StataPengenalan Stata
Penulis : Johan Harlan
ISBN : 978-602-9438-79-6
Cetakan Pertama, Juni 2017
Disain cover : Joko Slameto
Diterbitkan pertama kali oleh Gunadarma
Jl. Margonda Raya No. 100, Pondokcina, Depok 16424
Telp. +62-21-78881112, 7863819 Faks. +62-21-7872829
e-mail : [email protected]
Hak Cipta dilindungi undang-undang. Dilarang mengutip atau
memperbanyak dalam bentuk apapun sebagian atau seluruh isi
buku tanpa ijin tertulis dari penerbit.
Kata Pengantar
v
KATA PENGANTAR
Stata adalah program komputer untuk analisis statistik, pertama kali
dibuat oleh StataCorp pada tahun 1985. Stata tersedia untuk Windows, Unix,
dan Mac. Sampai versi 7, Stata masih menggunakan sistem operasi DOS,
tetapi sejak versi 8 ke atas telah berbasis Windows dengan pull-down menu.
Walaupun demikian, pengguna Stata sangat dianjurkan untuk menggunakan
perintah dalam mode interaktif, yang terutama akan dibahas dalam buku ini.
Pembaca buku ini diharapkan telah menguasai dasar-dasar metode dan
analisis statistik, yang tidak akan dibahas lagi secara mendetil dalam buku
ini. Saran dan kritik dari pembaca sangat diharapkan, demi perbaikan isi
buku pada penerbitan selanjutnya.
Jakarta, Juni 2017
Penulis
Daftar Isi
vi
DAFTAR ISI
Kata Pengantar v
Daftar Isi vi
Bab 1 Pendahuluan 1
Membuka dan Menutup Program & File Data 1
Membuat File Data Baru Stata 6
Mengimpor File Excel ke dalam Stata 10
Menyimpan Analisis Data Stata dalam File Log 12
Bab 2 Manajemen Data 17
Membuka file data: use, sysuse, dan webuse 17
Membuka dan menyimpan file data dalam format
Excel: import dan export
18
Menampilkan isi dataset: edit dan browse 18
Pembatasan perintah: ekspresi if dan in 19
Menampilkan nilai-nilai variabel dan definisi nilai-
nilai label: list dan label list
21
Deskripsi data: describe 23
Tipe data dan kompresi data dalam memori: data
types dan compress
24
Konversi variabel string menjadi numeric dan
sebaliknya: destring dan tostring
25
Mengurutkan, membuang, dan mempertahankan
variabel: order, drop, dan keep
25
Daftar Isi
vii
Mengurutkan nilai variabel dan penggunaan hasilnya:
sort dan by
26
Membuat variabel baru dan mengganti nilai variabel:
generate, replace, dan egen
27
Bab 3 Statistika Deskriptif 28
Nilai-nilai Deskriptif Variabel Numerik 28
Nilai-nilai Deskriptif Variabel Kategorik 32
Bab 4 Grafik Statistik 39
Histogram dan Densitas Kernel 39
Histogram untuk Variabel Kategorik 46
Diagram Batang 47
Diagram Tebar 49
Diagram Kotak & Titik 52
Diagram Lingkar 55
Grafik Matriks 56
Bab 5 Analisis Statistik Sederhana 59
Uji t 59
Uji Khi-kuadrat 71
Bab 6 Analisis Variansi 80
Analisis Variansi 1-Arah 80
Analisis Variansi 2-Arah Tanpa Interaksi 84
Analisis Variansi 2-Arah Dengan Interaksi 87
Daftar Isi
viii
Bab 7 Analisis Regresi Linear 90
Regresi Linear Sederhana 90
Regresi Linear Sederhana dengan Prediktor Indikator 95
Regresi Linear Ganda 96
Regresi Linear Ganda dengan Prediktor Kategorik 99
Regresi Linear Ganda dengan Interaksi 101
Bab 8 Analisis Regresi Logistik 106
Model Regresi Logistik Sederhana 106
Model Regresi Logistik Ganda 109
Bab 9 Statistika Nonparametrik 114
Uji ranksum Wilcoxon (Mann-Whitney) 114
Uji signrank Wilcoxon 115
Uji Kesamaan Rank Kruskal-Wallis 116
Kepustakaan 119
Bab 1. Pendahuluan
BAB 1
PENDAHULUAN
� Membuka dan Menutup Program & File
Data
Stata adalah program statistik yang dikeluarkan oleh
Corporation. Salah satu keunikan
pengguna dapat mengembangkan perintah
aplikasi untuk disumbangkan bagi seluruh masyarakat pengguna
Perintah-perintah Stata dapat diberikan baik melalui menu maupun
secara interaktif, meskipun demikian cara yang dianjurkan ialah pemberian
perintah secara interaktif. Stata memiliki empat jendela, yaitu jendela
Command, Variables (terdiri atas
Review, dan Stata Results (Gambar
Gambar 1.1. Tampilan awal pada saat membuka program Stata
Pendahuluan
1
BAB 1
DAHULUAN
Membuka dan Menutup Program & File
adalah program statistik yang dikeluarkan oleh Stata
. Salah satu keunikan Stata yaitu pengguna / organisasi
pengguna dapat mengembangkan perintah-perintah baru untuk berbagai
eluruh masyarakat pengguna Stata.
dapat diberikan baik melalui menu maupun
meskipun demikian cara yang dianjurkan ialah pemberian
memiliki empat jendela, yaitu jendela Stata
terdiri atas 2 bagian: Name dan Properties),
Gambar 1.1).
1. Tampilan awal pada saat membuka program Stata
Bab 1. Pendahuluan
Keempat jendela tersebut diperlihatkan secara terpisah pada Gambar
1.1a.
Gambar 1.1a. Jendela Stata secara terpisah.
Atas Kiri: Jendela Review; Atas
Tengah (Kiri-Kanan): Jendela
Bawah: Jendela
Pendahuluan
2
tersebut diperlihatkan secara terpisah pada Gambar
1a. Jendela Stata secara terpisah.
Atas Kanan: Jendela Stata Results;
Kanan): Jendela Variables;
Jendela Stata Command
Bab 1. Pendahuluan
Menu bar Stata berisi opsi berikut (
Gambar 1.2. Menu Bar Stata
Gambar 1.2a. Tool Bar Stata
Selain menu bar, di bawahnya terdapat
dengan arti masing-masing icon adalah:
: Open
: Save
: Print Results
: New Viewer
: Log (begin/close/suspend/resume)
: Bring graph window to front
: New Do-file Editor
: Data Editor (Edit)
: Data Editor (Browse)
: Variables Manager
: Clear “more” condition
: Break
Membuka file data Stata
dilakukan melalui menu (File > Open
perintah “use”. Misalnya untuk membuka file
pada folder D:\Data\Stata\ diketikkan perintah
. use "D:\Data\Stata\honolulu.dta"
Pendahuluan
3
berisi opsi berikut (Gambar 1.2):
2. Menu Bar Stata
2a. Tool Bar Stata
, di bawahnya terdapat tool bar (Gambar 1.2a)
dalah:
Log (begin/close/suspend/resume)
Bring graph window to front
Clear “more” condition
(file dengan extension *.dta) dapat
Open > . . . ) ataupun dengan menggunakan
. Misalnya untuk membuka file honolulu.dta yang tersimpan
diketikkan perintah:
onolulu.dta"
Bab 1. Pendahuluan
4
Jika sebelumnya ada file data Stata lain yang masih terbuka, maka
ditambahkan opsi “[, clear]” menutup file terdahulu yang masih terbuka dan
menghapus variabel-variabelnya dari memori komputer:
. use "D:\Data\Stata\honolulu.dta", clear
Untuk membersihkan jendela Stata Results, perintahnya adalah “cls”:
. cls
Untuk mengeksekusi tiap baris perintah yang telah diketikkan, tekan
tombol Enter. Tiap perintah diketik pada jendela Stata Command yang
hanya memuat 1 baris perintah, dan setelah dieksekusi akan menggulung ke
atas, sehingga perintah itu tidak terlihat lagi, namun jika ingin dilihat,
perintah tersebut dapat diturunkan kembali dengan menekan tombol PgUp
pada papan ketik. Untuk mengetik perintah berikut, perintah lama tersebut
harus digulung kembali ke atas dengan menekan tombol PgDn. Tiap
perintah yang telah dieksekusi juga akan muncul secara otomatis pada
jendela Review, yang dapat memuat lebih banyak baris perintah.
Perhatikan bahwa jika file honolulu.dta dibuka melalui menu bar
File > Open > D:\Data\Stata\, maka pada jendela Stata Command secara
otomatis akan timbul ketikan use "D:\Data\Stata\honolulu.dta", clear,
walaupun pengguna tidak mengetiknya. Setelah file honolulu.dta terbuka,
semua variabelnya, baik nama maupun properties-nya secara otomatis akan
muncul pada jendela Variables (gambar 1.3).
Bab 1. Pendahuluan
Gambar 1.3. Contoh penggunaan perintah 'use' untuk membuka
file data Sta
Untuk memperoleh informasi
penggunaan (dengan contoh) suatu perintah, digunakan perintah
misalnya untuk mendapatkan informasi tentang
atau “clear”, diketikkan perintah “help use
membuka jendela “help use” atau “help clear
. help use atau:
. help clear dan seterusnya.
Perintah “help“ dapat digunakan, baik dalam keadaan ada ataupun
tidak ada file data yang sedang terbuka.
Jika sudah ada file data yang terbuka, untuk sebelum meninggalkan
program Stata, file yang masih terbuka ini harus dihapus dari memori
(ditutup) setelah sebelumnya di-saved
file, lalu menutup program Stata ialah
. clear
. exit
Pendahuluan
5
. Contoh penggunaan perintah 'use' untuk membuka
file data Stata
Untuk memperoleh informasi lebih detil mengenai pengertian dan
suatu perintah, digunakan perintah “help”,
misalnya untuk mendapatkan informasi tentang penggunaan perintah “use“
help use” atau “help clear” yang akan
help clear”:
seterusnya.
“ dapat digunakan, baik dalam keadaan ada ataupun
tidak ada file data yang sedang terbuka.
data yang terbuka, untuk sebelum meninggalkan
yang masih terbuka ini harus dihapus dari memori
saved jika perlu. Perintah untuk menutup
ialah “clear”, lalu “exit”:
Bab 1. Pendahuluan
6
Dalam sebuah program Stata hanya dapat dibuka 1 file data. Jika
diberi perintah untuk membuka file data kedua, file data pertama otomatis
akan ditutup. Tetapi program Stata yang dibuka dapat lebih daripada satu.
Dengan membuka program Stata kedua, file data kedua dapat dibuka pada
program Stata kedua tanpa mengakibatkan tertutupnya file data pertama pada
program Stata pertama. Setelah itu masih dapat dibuka program Stata ketiga
dengan file data ketiga, dan seterusnya.
� Membuat File Data Baru Stata
Untuk membuat file data baru, cara termudah yaitu membuka jendela
Stata Editor [klik icon Data Editor (Edit) pada tool bar (Gambar 1.4] atau
ketikkan perintah “edit”). Setelah jendela Stata Editor terbuka (Gambar
1.4a), data dapat diisi dengan diketikkan secara langsung seperti pada
penggunaan spreadsheet biasa (gambar 1.4a).
Gambar 1.4. Icon Data Editor (Edit) pada Tool Bar
Bab 1. Pendahuluan
Gambar 1.4a. Jendela Stata Editor untuk pemasukan data
Nama variabel baru dapat diberikan setelah paling sedikit satu
data diisikan pada kolom tersebut. Stata
awal variabel berupa var1, var2, dan
diisi pada kolom pertama, dengan klik kiri ganda pada
Variable Properties akan ditampilkan dan pengguna dapat
variabel sesuai dengan keinginannya.
diawali dengan huruf kecil, bukan huruf besar
Panjang nama variabel dianjurkan tidak melebihi 10 karakter, tanpa ruang
kosong (blank spaces) di antaranya. Ruang kosong akan memisahkan
nama tersebut menjadi 2 nama yang dianggap sebagai nama untuk 2 variabel.
Nama variabel juga dapat diganti dengan menutup jendela
kembali ke jendela Stata Command
rename varname_old varname_new
Tiap variabel dapat diberi label
istilah yang memiliki arti jelas dan
Stata, misalnya label untuk variabel
label dapat dilakukan melalui jendela
diketikkan perintahnya pada jendela
label variable varname ["label"
Pendahuluan
7
. Jendela Stata Editor untuk pemasukan data
Nama variabel baru dapat diberikan setelah paling sedikit satu nilai
Stata secara otomatis akan memberi nama
, dan seterusnya. Setelah ada nilai data yang
dengan klik kiri ganda pada nama var1, jendela
akan ditampilkan dan pengguna dapat mengganti nama
keinginannya. Nama variabel dalam Stata dianjurkan
diawali dengan huruf kecil, bukan huruf besar, angka ataupun garis bawah.
Panjang nama variabel dianjurkan tidak melebihi 10 karakter, tanpa ruang
) di antaranya. Ruang kosong akan memisahkan suatu
nama tersebut menjadi 2 nama yang dianggap sebagai nama untuk 2 variabel.
Nama variabel juga dapat diganti dengan menutup jendela Edit dan
Stata Command dan gunakan sintaks:
varname_old varname_new
label dengan perintah label variable, yaitu
memiliki arti jelas dan akan ditampilkan pada hasil analisis
, misalnya label untuk variabel bb adalah Berat Badan. Pemberian
ukan melalui jendela Variable Properties ataupun
diketikkan perintahnya pada jendela Stata Command dengan sintaks:
"label"]
Bab 1. Pendahuluan
Untuk variabel kategorik, tiap nilai merepresentasikan taraf arti
tertentu, misalnya pada variabel biner
merokok; pada variabel kategorik
pendidikan sekunder, 3 = pendidikan tersier; dan sebagainya. Pada
tiap daftar taraf arti ini disebut nama
yang direpresentasikan oleh suatu
perintah label define.
Misalnya untuk variabel merokok
(label values) “yatidak“ dengan definisi
Untuk variabel tk_pend, dapat diberi
definisi “1 primer 2 sekunder 3 tersier
Perhatikan bahwa tiap nama n
digunakan untuk variabel lain dengan
nilai label “yatidak“ dengan definisi
juga dapat dipakai untuk variabel h
menderita hipertensi atau tidak.
Nama nilai label dan definisinya dapat di
jendela Stata Command seperti pada contoh 1 berikut ataupun diisikan
melalui jendela Variables Manager
Variables Manager pada Tool Bar (Gambar
Gambar 1.5. Icon Variables Manager pada Tool Bar
Contoh 1.1:
Buka program Stata, lalu klik ikon
perintah edit. Masukkan nilai-nilai data mahasiswa
Data Editor (5 baris pertama dan 6 kolom terkiri):
Pendahuluan
8
variabel kategorik, tiap nilai merepresentasikan taraf arti
tertentu, misalnya pada variabel biner merokok, 1 = merokok dan 0 = tidak
merokok; pada variabel kategorik tk_pend, 1 = pendidikan primer, 2 =
pendidikan sekunder, 3 = pendidikan tersier; dan sebagainya. Pada Stata,
nama nilai label (label values) dan nilai-nilai
irepresentasikan oleh suatu nama nilai label didefinisikan dengan
merokok dapat diberi nama nilai label
definisi (label define) “0 tidak 1 ya“.
dapat diberi nama nilai label “kode_pend“ dengan
tersier”.
nilai label yang telah didefinisikan dapat
digunakan untuk variabel lain dengan definisi yang sama, misalnya nama
definisi “0 tidak 1 ya“ untuk variabel merokok
hbp yang menyatakan apakah responden
finisinya dapat dibuat dengan perintah pada
seperti pada contoh 1 berikut ataupun diisikan
Variables Manager yang dibuka dengan mengklik icon
Gambar 1.5).
5. Icon Variables Manager pada Tool Bar
, lalu klik ikon Data Editor atau ketikkan
data mahasiswa berikut pada spreadsheet
(5 baris pertama dan 6 kolom terkiri):
Bab 1. Pendahuluan
9
1 1 18 1 59 1
2 2 21 1 55 1
3 2 22 0 42 0
4 1 19 1 57 0
5 3 20 0 47 0
Stata secara otomatis memberi nama keenam kolom tersebut dengan
var1, var2, . . . , var6. Tutup Data Editor, lalu ketikkan perintah berikut
untuk memberi/mengganti nama-nama variabel:
. rename var1 nores
. rename var2 fak
. rename var3 usia
. rename var 4 seks
. rename var5 bb
. rename var6 nktt
Berikut adalah perintah untuk memberi label bagi tiap variabel:
. label var nores “Nomor Responden”
. label var fak “Fakultas”
. label var usia “Usia”
. label var seks “Jenis Kelamin”
. label var bb “Berat Badan”
. label var nktt “Riwayat Nyeri Kepala”
Variabel pertama nores bukan merupakan variabel sebenarnya.
Variabel kategorik adalah fak, seks, dan nktt. Selanjut adalah pemberian
nama nilai label untuk variabel kategorik dan definisinya.
. label values fak kode_fak
. label define kode_fak 1 “Ilmu Komputer” 2 “Ekonomi” 3 “Psikologi”
. label values seks kode_seks
. label define kode_seks 1 “pria” 0 “wanita”
. label values nktt yesno
Bab 1. Pendahuluan
10
. label define yesno 1 “ya” 0 “tidak”
Ikhtisar variabel kategorik, label, nama nilai label, dan definisinya
pada contoh ini diperlihatkan pada tabel berikut:
No Variabel Label Nilai label Definisi
1 fak Fakultas kode_fak 1 Ilmu Komputer
2 Ekonomi
3 Psikologi
2 seks Jenis Kelamin kode_seks 1 pria 0 wanita
3 nktt Riwayat Nyeri Kepala yesno 1 ya 0 tidak
Untuk variabel kontinu hanya ada labelnya tanpa perlu nama nilai
label.
Simpan file data dengan nama file latihan1.dta. Penyimpanan dapat
dilakukan melalui menu bar dengan mengklik “File > Save >
D:\Data\Stata\“ atau ”File > Save as > D:\Data\Stata\“. Penyimpanan dapat
juga dilakukan dengan mengetikkan perintah:
. save "D:\Data\Stata\latihan1.dta"
file D:\Data\Stata\latihan1.dta saved
� Mengimpor File Excel ke dalam Stata
Membuat file data baru Stata dapat juga dilakukan dengan terlebih
dahulu membuat file Excel-nya, lalu meng-“impor”-nya ke dalam program
Stata. Keuntungan cara ini ialah bahwa file Excel umumnya dapat di-
“impor” ke dalam hampir semua program komputer statistik lainnya, yaitu
jika data juga hendak diolah dengan program komputer statistik lain.
Syarat untuk file Excel agar dapat di-“impor” ke dalam program
Stata (dan juga program komputer statistik lainnya) yaitu:
- File hanya memuat nama variabel dan nilai-nilai datanya, tanpa nama
atau keterangan lain tentang isi file, baik di bagian atas maupun di bagian
bawah isi file. Tidak boleh ada baris jumlah di bagian terbawah. Juga
tidak boleh ada kolom jumlah di bagian terkanan dataset, kecuali jika
Bab 1. Pendahuluan
11
kolom jumlah ini akan diperlakukan sebagai salah satu variabel dalam
analisis data.
- Nama-nama variabel dituliskan pada baris teratas, semuanya diawali
dengan huruf kecil.
- Nilai-nilai data dituliskan pada baris kedua (untuk responden pertama),
baris ketiga (untuk responden kedua), dan seterusnya sampai seluruh
responden termuat datanya, tanpa ada baris kosong yang terselip di antara
baris-baris data.
Prosedur untuk meng-“impor” file Excel ke dalam program Stata
dapat dilakukan melalui menu bar ataupun dengan perintah pada Stata
Command.
Contoh 1.2:
Pada contoh ini akan diperlihatkan prosedur untuk meng-“impor” file
Excel “D:\Data\Stata\bankloan.xls” ke dalam program Stata.
Pada menu bar, klik File > Import > Excel spreadsheet (*.xls,
*xlsx), maka jendela Import Excel akan terbuka. Klik Browse pada jendela
Import Excel untuk mencari lokasi penyimpanan file Excel yang akan di-
“import”, yaitu “D:\Data\Stata\”. Jika file Excel memiliki lebih daripada 1
worksheet, maka Worksheet perlu diisi, jika tidak ataupun tak diisi, nilai
default-nya adalah worksheet pertama (Sheet1). Centang kotak kecil di
depan tulisan “Import first row as variable names”, lalu klik OK., maka
file Excel bankloan.xls tersebut telah terbuka dalam Stata.
Proses meng-“impor” bankloan.xls file di atas dapat juga dilakukan
dengan mengetikkan perintah:
. import excel "D:\Data\Stata\bankloan.xls", sheet("Sheet1") firstrow
File yang terbuka tersebut dapat diolah sebagai file data Stata tanpa
mengubah isi file Excel aslinya. Jika ingin disimpan sebagai file data Stata,
tetap harus melalui prosedur “save”:
. save "D:\Data\Stata\bankloan.dta"
file D:\Data\Stata\bankloan.dta saved
Bab 1. Pendahuluan
12
� Menyimpan Analisis Data Stata dalam File
Log
Seluruh pekerjaan (perintah dan hasil) dalam program Stata dapat
direkam dan disimpan sebagai file log dengan format *.scml yang dapat
dibuka dan dilihat kembali dalam program Stata di lain waktu. Prosedur
selengkapnya diperlihatkan pada contoh berikut.
Contoh 1.3:
Buka file log exercise1.scml untuk disimpan dalam
“D:\Data\Stata\” dengan mengklik File > Log > Begin . . . , dan seterusnya.
Atau ketikkan perintah:
. log using "D:\Data\Stata\exercise1"
name: <unnamed>
log: D:\Data\Stata\exercise1.smcl
log type: smcl
opened on: 10 Jul 2015, 15:26:46
Selanjutnya akan diperlihatkan sejumlah pekerjaan berupa perintah
dan hasil dalam Stata untuk disimpan dalam file log exercise1.scml tanpa
penjelasan rinci mengenai perintah-perintah tersebut. Penjelasan mengenai
perintah-perintah akan diberikan dalam bab-bab berikut.
Misalkan hendak dibuka file data Arctic9.dta.
. use “D:\Data\Stata\Arctic9.dta”, clear
(Arctic September mean sea ice 1979-2011)
Atau klik File > Open > . . . > Arctic9.dta
Untuk melihat deskripsi singkat dataset yang ada dalam memori,
digunakan perintah describe.
. describe
Contains data from D:\Data\Stata\Arctic9.dta
obs: 33 Arctic September mean sea ice 1979-2011
vars: 8 2 Jul 2012 06:11
size: 891
Bab 1. Pendahuluan
13
---------------------------------------------------------------------
storage display value
variable name type format label variable label
---------------------------------------------------------------------
year int %ty Year
month byte %8.0g Month
extent float %9.0g Sea ice extent, million km 2
area float %9.0g Sea ice area, million km 2
volume float %8.0g Sea ice volume, 1000 km 3
volumehi float %9.0g Volume + 1.35 (uncertainty)
volumelo float %9.0g Volume - 1.35 (uncertainty)
tempN float %9.0g Annual air temp anomaly 64N-90N C
---------------------------------------------------------------------
Sorted by: year
Untuk melihat isi dataset pada record No. 1 s.d. 10:
. list in 1/10
+---------------------------------------------------------+
| year month extent area volume volumehi volumelo tempN |
|---------------------------------------------------------|
1. | 1979 9 7.2 5.72 16.9095 18.2595 15.5595 -.57 |
2. | 1980 9 7.85 6.02 16.3194 17.66937 14.96937 .33 |
3. | 1981 9 7.25 5.57 12.8131 14.16307 11.46307 1.21 |
4. | 1982 9 7.45 5.57 13.5099 14.85987 12.15987 -.34 |
5. | 1983 9 7.52 5.83 15.2013 16.5513 13.8513 .27 |
|---------------------------------------------------------|
6. | 1984 9 7.17 5.24 14.6336 15.98357 13.28357 .31 |
7. | 1985 9 6.93 5.36 14.5836 15.93363 13.23363 .3 |
8. | 1986 9 7.54 5.85 16.0803 17.43027 14.73027 -.05 |
9. | 1987 9 7.48 5.91 15.3609 16.7109 14.0109 -.25 |
10. | 1988 9 7.49 5.62 14.988 16.338 13.638 .87 |
+---------------------------------------------------------+
Untuk memperoleh tabel berisi nilai-nilai rerata, standar deviasi,
minimum, dan maksimum digunakan perintah summarize.
Bab 1. Pendahuluan
14
. summarize
Variable | Obs Mean Std. Dev. Min Max
---------+--------------------------------------------
year | 33 1995 9.66954 1979 2011
month | 33 9 0 9 9
extent | 33 6.51697 .9691796 4.3 7.88
area | 33 4.850303 .8468452 3.09 6.02
volume | 33 12.04664 3.346079 4.210367 16.9095
---------+--------------------------------------------
volumehi | 33 13.39664 3.346079 5.560367 18.2595
volumelo | 33 10.69664 3.346079 2.860367 15.5595
tempN | 33 .790303 .7157928 -.57 2.22
Untuk mendapatkan nilai-nilai korelasi antar variabel kontinu:
. correlate
(obs=33)
| year month extent area volume volumehi volumelo tempN
---------+----------------------------------------------------------
year | 1.0000
month | . .
extent | -0.8446 . 1.0000
area | -0.8732 . 0.9826 1.0000
volume | -0.8999 . 0.9308 0.9450 1.0000
volumehi | -0.8999 . 0.9308 0.9450 1.0000 1.0000
volumelo | -0.8999 . 0.9308 0.9450 1.0000 1.0000 1.0000
tempN | 0.7905 . -0.8045 -0.8180 -0.8651 -0.8651 -0.8651 1.0000
Perubahan ice extent dalam perjalanan waktu dapat diperlihatkan
dalam bentuk grafik:
Bab 1. Pendahuluan
15
. graph twoway connect extent year
Jika pengolahan dan analisis data telah selesai, file log dapat ditutup
dan disimpan:
. log close
name: <unnamed>
log: D:\Data\Stata\exercise1.smcl
log type: smcl
closed on: 29 Jun 2014, 15:33:33
Perintah ini sama dengan melalui menu bar File > Log > Close.
Selama file log terbuka pada saat pengolahan dan analisis data, seandainya
program Stata akan ditutup untuk dihentikan sementara, sedangkan analisis
data belum selesai, perekaman dapat dihentikan sementara, kemudian
dilanjutkan dengan sintaks:
log off logname (perintah penghentian sementara)
log on logname (perintah melanjutkan kembali)
File log yang telah ditutup dapat dibuka kembali untuk dilihat dalam
program Stata dengan mengklik File > Log > View. File dalam format
*.scml dapat diubah menjadi format *.log yang dapat dibuka dengan
wordprocessor, misalnya untuk exercise1.scml pada menu bar dengan File
> Log > View yang akan membuka jendela “Translate file” atau dengan
mengetikkan perintah:
45
67
8S
ea ice
exte
nt,
mill
ion k
m^2
1980 1990 2000 2010Year
Bab 1. Pendahuluan
16
. translate “D:\Data\Stata\exercise1.scml” “D:\Data\Stata\exercise1.log”
Selanjutnya file exercise1.log dapat dibuka dengan menggunakan
salah satu wordprocessor dalam MS Office, tanpa melalui program Stata.
Hasil analisis data pada jendela Result juga dapat dipindahkan ke
Word Processor, misalnya MS Word dengan metode “salin-tempel” (copy-
paste). Untuk menjaga kerapian tampilan pada MS Word, gunakan font
Courier New.
Semua file data yang dipergunakan dalam buku ini dapat diunduh
dari http://harlan_johan.staff.gunadarma.ac.id/Publications.
Bab 1. Pendahuluan
BAB 1
PENDAHULUAN
� Membuka dan Menutup Program & File
Data
Stata adalah program statistik yang dikeluarkan oleh
Corporation. Salah satu keunikan
pengguna dapat mengembangkan perintah
aplikasi untuk disumbangkan bagi seluruh masyarakat pengguna
Perintah-perintah Stata dapat diberikan baik melalui menu maupun
secara interaktif, meskipun demikian cara yang dianjurkan ialah pemberian
perintah secara interaktif. Stata memiliki empat jendela, yaitu jendela
Command, Variables (terdiri atas
Review, dan Stata Results (Gambar
Gambar 1. Tampilan awal pada saat membuka program Stata
Pendahuluan
1
BAB 1
DAHULUAN
Membuka dan Menutup Program & File
adalah program statistik yang dikeluarkan oleh Stata
. Salah satu keunikan Stata yaitu pengguna / organisasi
pengguna dapat mengembangkan perintah-perintah baru untuk berbagai
eluruh masyarakat pengguna Stata.
dapat diberikan baik melalui menu maupun
meskipun demikian cara yang dianjurkan ialah pemberian
memiliki empat jendela, yaitu jendela Stata
terdiri atas 2 bagian: Name dan Properties),
Gambar 1).
1. Tampilan awal pada saat membuka program Stata
Bab 1. Pendahuluan
Keempat jendela tersebut diperlihatkan secara terpisah pada Gambar 1a.
Gambar 1a. Jendela Stata secara terpisah.
Atas Kiri: Jendela Review; Atas
Tengah (Kiri-Kanan): Jendela
Bawah: Jendela
Pendahuluan
2
tersebut diperlihatkan secara terpisah pada Gambar 1a.
1a. Jendela Stata secara terpisah.
Atas Kanan: Jendela Stata Results;
Kanan): Jendela Variables;
Jendela Stata Command
Bab 1. Pendahuluan
Menu bar Stata berisi opsi berikut (
Gambar 2. Menu Bar Stata
Gambar 2a. Tool Bar Stata
Selain menu bar, di bawahnya terdapat
arti masing-masing icon adalah:
: Open
: Save
: Print Results
: New Viewer
: Log (begin/close/suspend/resume)
: Bring graph window to front
: New Do-file Editor
: Data Editor (Edit)
: Data Editor (Browse)
: Variables Manager
: Clear “more” condition
: Break
Membuka file data Stata
dilakukan melalui menu (File > Open
perintah “use”. Misalnya untuk membuka file
pada folder D:\Data\Stata\ diketikkan perintah
. use "D:\Data\Stata\honolulu .dta"
Pendahuluan
3
berisi opsi berikut (Gambar 2):
2. Menu Bar Stata
2a. Tool Bar Stata
, di bawahnya terdapat tool bar (Gambar 2a) dengan
Log (begin/close/suspend/resume)
Bring graph window to front
Clear “more” condition
(file dengan extension *.dta) dapat
Open > . . . ) ataupun dengan menggunakan
. Misalnya untuk membuka file honolulu.dta yang tersimpan
diketikkan perintah:
.dta"
Bab 1. Pendahuluan
4
Jika sebelumnya ada file data Stata lain yang masih terbuka, maka
ditambahkan opsi “[, clear]” menutup file terdahulu yang masih terbuka dan
menghapus variabel-variabelnya dari memori komputer:
. use "D:\Data\Stata\honolulu.dta", clear
Untuk membersihkan jendela Stata Results, perintahnya adalah “cls”:
. cls
Untuk mengeksekusi tiap baris perintah yang telah diketikkan, tekan
tombol Enter. Tiap perintah diketik pada jendela Stata Command yang
hanya memuat 1 baris perintah, dan setelah dieksekusi akan menggulung ke
atas, sehingga perintah itu tidak terlihat lagi, namun jika ingin dilihat,
perintah tersebut dapat diturunkan kembali dengan menekan tombol PgUp
pada papan ketik. Untuk mengetik perintah berikut, perintah lama tersebut
harus digulung kembali ke atas dengan menekan tombol PgDn. Tiap
perintah yang telah dieksekusi juga akan muncul secara otomatis pada
jendela Review, yang dapat memuat lebih banyak baris perintah.
Perhatikan bahwa jika file honolulu.dta dibuka melalui menu bar
File > Open > D:\Data\Stata\, maka pada jendela Stata Command secara
otomatis akan timbul ketikan use "D:\Data\Stata\honolulu.dta", clear,
walaupun pengguna tidak mengetiknya. Setelah file honolulu.dta terbuka,
semua variabelnya, baik nama maupun properties-nya secara otomatis akan
muncul pada jendela Variables (gambar 3).
Bab 1. Pendahuluan
Gambar 3. Contoh penggunaan perintah 'use' untuk membuka
file data Sta
Untuk memperoleh informasi
penggunaan (dengan contoh) suatu perintah, digunakan perintah
misalnya untuk mendapatkan informasi tentang
atau “clear”, diketikkan perintah “help use
membuka jendela “help use” atau “help clear
. help use atau:
. help clear dan seterusnya.
Perintah “help“ dapat digunakan, baik dalam keadaan ada ataupun
tidak ada file data yang sedang terbuka.
Jika sudah ada file data yang terbuka, untuk sebelum meninggalkan
program Stata, file yang masih terbuka ini harus dihapus dari memori
(ditutup) setelah sebelumnya di-saved
file, lalu menutup program Stata ialah
. clear
. exit
Pendahuluan
5
. Contoh penggunaan perintah 'use' untuk membuka
file data Stata
Untuk memperoleh informasi lebih detil mengenai pengertian dan
suatu perintah, digunakan perintah “help”,
misalnya untuk mendapatkan informasi tentang penggunaan perintah “use“
help use” atau “help clear” yang akan
help clear”:
seterusnya.
“ dapat digunakan, baik dalam keadaan ada ataupun
tidak ada file data yang sedang terbuka.
data yang terbuka, untuk sebelum meninggalkan
yang masih terbuka ini harus dihapus dari memori
saved jika perlu. Perintah untuk menutup
ialah “clear”, lalu “exit”:
Bab 1. Pendahuluan
6
Dalam sebuah program Stata hanya dapat dibuka 1 file data. Jika
diberi perintah untuk membuka file data kedua, file data pertama otomatis
akan ditutup. Tetapi program Stata yang dibuka dapat lebih daripada satu.
Dengan membuka program Stata kedua, file data kedua dapat dibuka pada
program Stata kedua tanpa mengakibatkan tertutupnya file data pertama pada
program Stata pertama. Setelah itu masih dapat dibuka program Stata ketiga
dengan file data ketiga, dan seterusnya.
� Membuat File Data Baru Stata
Untuk membuat file data baru, cara termudah yaitu membuka jendela
Stata Editor [klik icon Data Editor (Edit) pada tool bar (Gambar 4] atau
ketikkan perintah “edit”). Setelah jendela Stata Editor terbuka (Gambar 4a),
data dapat diisi dengan diketikkan secara langsung seperti pada penggunaan
spreadsheet biasa (gambar 4a).
Gambar 4. Icon Data Editor (Edit) pada Tool Bar
Bab 1. Pendahuluan
Gambar 4a. Jendela Stata Editor untuk pemasukan data
Nama variabel baru dapat diberikan setelah paling sedikit satu
data diisikan pada kolom tersebut. Stata
awal variabel berupa var1, var2, dan
diisi pada kolom pertama, dengan klik kiri ganda pada
Variable Properties akan ditampilkan dan pengguna dapat mengganti nama
variabel sesuai dengan keinginannya.
diawali dengan huruf kecil, bukan huruf besar
Panjang nama variabel dianjurkan tidak melebihi 10 karakter, tanpa ruang
kosong (blank spaces) di antaranya.
nama tersebut menjadi 2 nama yang dianggap sebagai nama untuk 2 variabel.
Nama variabel juga dapat diganti dengan menutup jendela
kembali ke jendela Stata Command
rename varname_old varname_new
Tiap variabel dapat diberi label
istilah yang memiliki arti jelas dan
Stata, misalnya label untuk variabel
label dapat dilakukan melalui jendela
diketikkan perintahnya pada jendela
label variable varname ["label"
Pendahuluan
7
. Jendela Stata Editor untuk pemasukan data
Nama variabel baru dapat diberikan setelah paling sedikit satu nilai
Stata secara otomatis akan memberi nama
, dan seterusnya. Setelah ada nilai data yang
dengan klik kiri ganda pada nama var1, jendela
akan ditampilkan dan pengguna dapat mengganti nama
keinginannya. Nama variabel dalam Stata dianjurkan
diawali dengan huruf kecil, bukan huruf besar, angka ataupun garis bawah.
Panjang nama variabel dianjurkan tidak melebihi 10 karakter, tanpa ruang
) di antaranya. Ruang kosong akan memisahkan suatu
nama tersebut menjadi 2 nama yang dianggap sebagai nama untuk 2 variabel.
Nama variabel juga dapat diganti dengan menutup jendela Edit dan
Stata Command dan gunakan sintaks:
varname_new
label dengan perintah label variable, yaitu
memiliki arti jelas dan akan ditampilkan pada hasil analisis
, misalnya label untuk variabel bb adalah Berat Badan. Pemberian
jendela Variable Properties ataupun
diketikkan perintahnya pada jendela Stata Command dengan sintaks:
"label"]
Bab 1. Pendahuluan
Untuk variabel kategorik, tiap nilai merepresentasikan taraf arti
tertentu, misalnya pada variabel biner
merokok; pada variabel kategorik
pendidikan sekunder, 3 = pendidikan tersier; dan sebagainya. Pada
tiap daftar taraf arti ini disebut nama
yang direpresentasikan oleh suatu
perintah label define.
Misalnya untuk variabel merokok
(label values) “yatidak“ dengan definisi
Untuk variabel tk_pend, dapat diberi
definisi “1 primer 2 sekunder 3 tersier
Perhatikan bahwa tiap nama n
digunakan untuk variabel lain dengan
nilai label “yatidak“ dengan definisi
juga dapat dipakai untuk variabel h
menderita hipertensi atau tidak.
Nama nilai label dan definisinya dapat di
jendela Stata Command seperti pada contoh 1 berikut ataupun diisikan
melalui jendela Variables Manager
Variables Manager pada Tool Bar (Gambar
Gambar 5. Icon Variables Manager pada Tool Bar
Contoh 1.1:
Buka program Stata, lalu klik ikon
perintah edit. Masukkan nilai-nilai data mahasiswa
Data Editor (5 baris pertama dan 6 kolom terkiri):
Pendahuluan
8
variabel kategorik, tiap nilai merepresentasikan taraf arti
tertentu, misalnya pada variabel biner merokok, 1 = merokok dan 0 = tidak
merokok; pada variabel kategorik tk_pend, 1 = pendidikan primer, 2 =
pendidikan sekunder, 3 = pendidikan tersier; dan sebagainya. Pada Stata,
nama nilai label (label values) dan nilai-nilai
irepresentasikan oleh suatu nama nilai label didefinisikan dengan
merokok dapat diberi nama nilai label
definisi (label define) “0 tidak 1 ya“.
dapat diberi nama nilai label “kode_pend“ dengan
tersier”.
nilai label yang telah didefinisikan dapat
digunakan untuk variabel lain dengan definisi yang sama, misalnya nama
definisi “0 tidak 1 ya“ untuk variabel merokok
hbp yang menyatakan apakah responden
finisinya dapat dibuat dengan perintah pada
pada contoh 1 berikut ataupun diisikan
Variables Manager yang dibuka dengan mengklik icon
Gambar 5).
5. Icon Variables Manager pada Tool Bar
, lalu klik ikon Data Editor atau ketikkan
data mahasiswa berikut pada spreadsheet
(5 baris pertama dan 6 kolom terkiri):
Bab 1. Pendahuluan
9
1 1 18 1 59 1
2 2 21 1 55 1
3 2 22 0 42 0
4 1 19 1 57 0
5 3 20 0 47 0
Stata secara otomatis memberi nama keenam kolom tersebut dengan
var1, var2, . . . , var6. Tutup Data Editor, lalu ketikkan perintah berikut
untuk memberi/mengganti nama-nama variabel:
. rename var1 nores
. rename var2 fak
. rename var3 usia
. rename var 4 seks
. rename var5 bb
. rename var6 nktt
Berikut adalah perintah untuk memberi label bagi tiap variabel:
. label var nores “Nomor Responden”
. label var fak “Fakultas”
. label var usia “Usia”
. label var seks “Jenis Kelamin”
. label var bb “Berat Badan”
. label var nktt “Riwayat Nyeri Kepala”
Variabel pertama nores bukan merupakan variabel sebenarnya.
Variabel kategorik adalah fak, seks, dan nktt. Selanjut adalah pemberian
nama nilai label untuk variabel kategorik dan definisinya.
. label values fak kode_fak
. label define kode_fak 1 Ilmu Komputer 2 Ekonomi 3 Psikologi
. label values seks kode_seks
. label define kode_seks 1 pria 0 wanita
. label values nktt yesno
Bab 1. Pendahuluan
10
. label define yesno 1 ya 0 tidak
Ikhtisar variabel kategorik, label, nama nilai label, dan definisinya
pada contoh ini diperlihatkan pada tabel berikut:
No Variabel Label Nilai label Definisi
1 fak Fakultas kode_fak 1 Ilmu Komputer
2 Ekonomi
3 Psikologi
2 seks Jenis Kelamin kode_seks 1 pria 0 wanita
3 nktt Riwayat Nyeri Kepala yesno 1 ya 0 tidak
Untuk variabel kontinu hanya ada labelnya tanpa perlu nama nilai
label.
Simpan file data dengan nama file latihan1.dta. Penyimpanan dapat
dilakukan melalui menu bar dengan mengklik “File > Save >
D:\Data\Stata\“ atau ”File > Save as > D:\Data\Stata\“. Penyimpanan dapat
juga dilakukan dengan mengetikkan perintah:
. save "D:\Data\Stata\latihan1.dta"
file D:\Data\Stata\latihan1.dta saved
� Mengimpor File Excel ke dalam Stata
Membuat file data baru Stata dapat juga dilakukan dengan terlebih
dahulu membuat file Excel-nya, lalu meng-“impor”-nya ke dalam program
Stata. Keuntungan cara ini ialah bahwa file Excel umumnya dapat di-
“impor” ke dalam hampir semua program komputer statistik lainnya, yaitu
jika data juga hendak diolah dengan program komputer statistik lain.
Syarat untuk file Excel agar dapat di-“impor” ke dalam program
Stata (dan juga program komputer statistik lainnya) yaitu:
- File hanya memuat nama variabel dan nilai-nilai datanya, tanpa nama
atau keterangan lain tentang isi file, baik di bagian atas maupun di bagian
bawah isi file. Tidak boleh ada baris jumlah di bagian terbawah. Juga
tidak boleh ada kolom jumlah di bagian terkanan dataset, kecuali jika
Bab 1. Pendahuluan
11
kolom jumlah ini akan diperlakukan sebagai salah satu variabel dalam
analisis data.
- Nama-nama variabel dituliskan pada baris teratas, semuanya diawali
dengan huruf kecil.
- Nilai-nilai data dituliskan pada baris kedua (untuk responden pertama),
baris ketiga (untuk responden kedua), dan seterusnya sampai seluruh
responden termuat datanya, tanpa ada baris kosong yang terselip di antara
baris-baris data.
Prosedur untuk meng-“impor” file Excel ke dalam program Stata
dapat dilakukan melalui menu bar ataupun dengan perintah pada Stata
Command.
Contoh 1.2:
Pada contoh ini akan diperlihatkan prosedur untuk meng-“impor” file
Excel “D:\Data\Stata\bankloan.xls” ke dalam program Stata.
Pada menu bar, klik File > Import > Excel spreadsheet (*.xls,
*xlsx), maka jendela Import Excel akan terbuka. Klik Browse pada jendela
Import Excel untuk mencari lokasi penyimpanan file Excel yang akan di-
“import”, yaitu “D:\Data\Stata\”. Jika file Excel memiliki lebih daripada 1
worksheet, maka Worksheet perlu diisi, jika tidak ataupun tak diisi, nilai
default-nya adalah worksheet pertama (Sheet1). Centang kotak kecil di
depan tulisan “Import first row as variable names”, lalu klik OK., maka
file Excel bankloan.xls tersebut telah terbuka dalam Stata.
Proses meng-“impor” bankloan.xls file di atas dapat juga dilakukan
dengan mengetikkan perintah:
. import excel "D:\Data\Stata\bankloan.xls", sheet("Sheet1") firstrow
File yang terbuka tersebut dapat diolah sebagai file data Stata tanpa
mengubah isi file Excel aslinya. Jika ingin disimpan sebagai file data Stata,
tetap harus melalui prosedur “save”:
. save "D:\Data\Stata\bankloan.dta"
file D:\Data\Stata\bankloan.dta saved
Bab 1. Pendahuluan
12
� Menyimpan Analisis Data Stata dalam File
Log
Seluruh pekerjaan (perintah dan hasil) dalam program Stata dapat
direkam dan disimpan sebagai file log dengan format *.scml yang dapat
dibuka dan dilihat kembali dalam program Stata di lain waktu. Prosedur
selengkapnya diperlihatkan pada contoh berikut.
Contoh 1.3:
Buka file log exercise1.scml untuk disimpan dalam
“D:\Data\Stata\” dengan mengklik File > Log > Begin . . . , dan seterusnya.
Atau ketikkan perintah:
. log using "D:\Data\Stata\exercise1", clear
name: <unnamed>
log: D:\Data\Stata\exercise1.smcl
log type: smcl
opened on: 10 Jul 2015, 15:26:46
Selanjutnya akan diperlihatkan sejumlah pekerjaan berupa perintah
dan hasil dalam Stata untuk disimpan dalam file log exercise1.scml tanpa
penjelasan rinci mengenai perintah-perintah tersebut. Penjelasan mengenai
perintah-perintah akan diberikan dalam bab-bab berikut.
Misalkan hendak dibuka file data Arctic9.dta.
. use “D:\Data\Stata\Arctic9”, clear
(Arctic September mean sea ice 1979-2011)
Atau klik File > Open > . . . > Arctic9.dta
Untuk melihat deskripsi singkat dataset yang ada dalam memori,
digunakan perintah describe.
. describe
Contains data from D:\Data\Stata\Arctic9.dta
obs: 33 Arctic September mean sea ice 1979-2011
vars: 8 2 Jul 2012 06:11
size: 891
Bab 1. Pendahuluan
13
---------------------------------------------------------------------
storage display value
variable name type format label variable label
---------------------------------------------------------------------
year int %ty Year
month byte %8.0g Month
extent float %9.0g Sea ice extent, million km 2
area float %9.0g Sea ice area, million km 2
volume float %8.0g Sea ice volume, 1000 km 3
volumehi float %9.0g Volume + 1.35 (uncertainty)
volumelo float %9.0g Volume - 1.35 (uncertainty)
tempN float %9.0g Annual air temp anomaly 64N-90N C
---------------------------------------------------------------------
Sorted by: year
Untuk melihat isi dataset pada record No. 1 s.d. 10:
. list in 1/10
+---------------------------------------------------------+
| year month extent area volume volumehi volumelo tempN |
|---------------------------------------------------------|
1. | 1979 9 7.2 5.72 16.9095 18.2595 15.5595 -.57 |
2. | 1980 9 7.85 6.02 16.3194 17.66937 14.96937 .33 |
3. | 1981 9 7.25 5.57 12.8131 14.16307 11.46307 1.21 |
4. | 1982 9 7.45 5.57 13.5099 14.85987 12.15987 -.34 |
5. | 1983 9 7.52 5.83 15.2013 16.5513 13.8513 .27 |
|---------------------------------------------------------|
6. | 1984 9 7.17 5.24 14.6336 15.98357 13.28357 .31 |
7. | 1985 9 6.93 5.36 14.5836 15.93363 13.23363 .3 |
8. | 1986 9 7.54 5.85 16.0803 17.43027 14.73027 -.05 |
9. | 1987 9 7.48 5.91 15.3609 16.7109 14.0109 -.25 |
10. | 1988 9 7.49 5.62 14.988 16.338 13.638 .87 |
+---------------------------------------------------------+
Untuk memperoleh tabel berisi nilai-nilai rerata, standar deviasi,
minimum, dan maksimum digunakan perintah summarize.
Bab 1. Pendahuluan
14
. summarize
Variable | Obs Mean Std. Dev. Min Max
---------+--------------------------------------------
year | 33 1995 9.66954 1979 2011
month | 33 9 0 9 9
extent | 33 6.51697 .9691796 4.3 7.88
area | 33 4.850303 .8468452 3.09 6.02
volume | 33 12.04664 3.346079 4.210367 16.9095
---------+--------------------------------------------
volumehi | 33 13.39664 3.346079 5.560367 18.2595
volumelo | 33 10.69664 3.346079 2.860367 15.5595
tempN | 33 .790303 .7157928 -.57 2.22
Untuk mendapatkan nilai-nilai korelasi antar variabel kontinu:
. correlate
(obs=33)
| year month extent area volume volumehi volumelo tempN
---------+----------------------------------------------------------
year | 1.0000
month | . .
extent | -0.8446 . 1.0000
area | -0.8732 . 0.9826 1.0000
volume | -0.8999 . 0.9308 0.9450 1.0000
volumehi | -0.8999 . 0.9308 0.9450 1.0000 1.0000
volumelo | -0.8999 . 0.9308 0.9450 1.0000 1.0000 1.0000
tempN | 0.7905 . -0.8045 -0.8180 -0.8651 -0.8651 -0.8651 1.0000
Perubahan ice extent dalam perjalanan waktu dapat diperlihatkan
dalam bentuk grafik:
Bab 1. Pendahuluan
15
. graph twoway connect extent year
Jika pengolahan dan analisis data telah selesai, file log dapat ditutup
dan disimpan:
. log close
name: <unnamed>
log: D:\Data\Stata\exercise1.smcl
log type: smcl
closed on: 29 Jun 2014, 15:33:33
Perintah ini sama dengan melalui menu bar File > Log > Close.
Selama file log terbuka pada saat pengolahan dan analisis data, seandainya
program Stata akan ditutup untuk dihentikan sementara, sedangkan analisis
data belum selesai, perekaman dapat dihentikan sementara, kemudian
dilanjutkan dengan sintaks:
log off logname (perintah penghentian sementara)
log on logname (perintah melanjutkan kembali)
File log yang telah ditutup dapat dibuka kembali untuk dilihat dalam
program Stata dengan mengklik File > Log > View. File dalam format
*.scml dapat diubah menjadi format *.log yang dapat dibuka dengan
wordprocessor, misalnya untuk exercise1.scml pada menu bar dengan File
> Log > View yang akan membuka jendela “Translate file” atau dengan
mengetikkan perintah:
45
67
8S
ea ice
exte
nt,
mill
ion k
m^2
1980 1990 2000 2010Year
Bab 1. Pendahuluan
16
. translate exercise1.scml exercise1.log
Selanjutnya file exercise1.log dapat dibuka dengan menggunakan
salah satu wordprocessor dalam MS Office, tanpa melalui program Stata.
Bab 2. Manajemen Data
17
BAB 2
MANAJEMEN DATA
Dalam bab ini akan dibahas beberapa perintah terpenting Stata dalam
proses manajemen data.
� Membuka file data: use, sysuse, dan webuse
Sintaks untuk membuka file data Stata adalah:
use filename [, clear]
Nama file tanpa ekstensi diasumsikan sebagai file *.dta. Opsi [, clear]
diperlukan jika sebelumnya ada file data yang terbuka dalam memori. Jika
membuka file data dilakukan melalui menu bar File > Open > . . . , opsi ini
akan selalu muncul. Contoh:
. use “D:\Data\Stata\honolulu”, clear
Sintaks untuk membuka file data Stata yang terinstalasi bersama
program Stata atau tersimpan dalam ado-path adalah:
sysuse filename [, clear]
Contoh:
. sysuse auto, clear
(1978 Automobile Data)
Sintaks untuk membuka file data yang tersimpan di Web adalah:
webuse filename [, clear]
Secara default, file data untuk Stata 14 diperoleh dari
http://www.stata-press.com/data/r14/. Daftar lengkap datasets yang tersedia
dapat dilihat di http://www.stata-press.com/data/r14/r.html. Contoh:
. webuse lifeexp
(Life expectancy, 1998)
Bab 2. Manajemen Data
18
� Membuka dan menyimpan file data dalam
format Excel: import dan export
Stata dapat membuka atau menyimpan data dalam format data-based
lain, yang terpenting yaitu dalam Excel. Sintaksnya adalah:
import excel filename [, options]
export excel using filename [, options]
Salah satu opsi pada import excel ialah worksheet akan dibuka.
Default-nya ialah “Sheet1”. Pilihan opsi firstrow menyatakan bahwa baris
pertama file Excel akan diperlakukan sebagai nama variabel.
Pada export excel opsi terpenting adalah pilihan antara
firstrow(variables) atau firstrow(varlabels) untuk menentukan yang akan
dijadikan baris pertama pada file Excel.
Contoh:
. import excel "D:\Data\Stata\bankloan.xls", sheet("Sheet1") firstrow
clear
. use auto, clear
. export excel using "D:\Data\Stata\auto.xls", firstrow(variables)
� Menampilkan isi dataset: edit dan browse
Isi seluruh ataupun sebagian dataset dalam tampilan spreadsheet
dapat dilihat pada jendela Data Editor atau jendela Data Browser yang
akan terbuka dengan mengklik icon masing-masing pada tool bar (diagram
1).
Diagram 1. Icon Data Editor dan Data Browser pada Tool Bar
Bab 2. Manajemen Data
19
Dengan membuka jendela Data Editor, data dapat dilihat dan juga
dapat diedit, sedangkan jika yang dibuka jendela Data Browser, data hanya
dapat dilihat tanpa dapat diedit. Kedua jendela ini juga dapat dibuka dengan
sintaks:
edit varlist [if] [in]
dan: browse varlist [if] [in]
� Pembatasan perintah: ekspresi if dan in
Ekspresi [if] dan [in] didapatkan pada sebagian besar sintaks Stata.
Ekspresi [if] menyatakan syarat untuk melaksanakan perintah, sedangkan
ekspresi [in] menyatakan nomor records yang akan menerima perintah Stata.
Dalam ekspresi [if] dan juga sejumlah perintah lain mungkin
diperlukan penggunaan operator, yaitu operator aritmetika (hitung), operator
relasional, dan operator logika.
Operator aritmetika adalah: + (penjumlahan), − (pengurangan), *
(perkalian), / (pembagian), ^ (pangkat), dan prefiks - (negasi/penyangkalan).
Operator relasional adalah: > (lebih daripada), < (kurang daripada),
>= (lebih besar atau sama dengan), <= (kurang atau sama dengan), == (sama
dengan), dan != (atau ~=; tidak sama dengan).
Operator logika adalah:
- dan: &
- atau: |
- tidak: !
Contoh:
. list if income>50000 | income>30000 & age<25
Tanda “&” dikerjakan lebih dulu daripada “|”, yaitu pernyataan
“income>30000” hanya untuk yang “age<25”. Untuk memastikan, perintah
di atas dapat juga dituliskan:
. list if income>50000 | (income>30000 & age<25)
Bab 2. Manajemen Data
20
Urutan pelaksanaan evaluasi seluruh operator berturut-turut adalah: !
(atau ~), ^, - (negasi/penyangkalan), /, *, − (substraksi/minus), +, != (atau
~=), >, <, <=, >=, ==, &, dan |.
Contoh 2.1:
. use “D:\Data\Stata\honolulu.dta”, clear
. sum glukosa
Variable | Obs Mean Std. Dev. Min Max
---------+-----------------------------------
glukosa | 100 152.14 54.75584 58 442
. sum glukosa if merokok==1
Variable | Obs Mean Std. Dev. Min Max
---------+-------------------------------------
glukosa | 37 145.5946 65.58686 76 442
. sum tb
Variable | Obs Mean Std. Dev. Min Max
---------+-----------------------------------
tb | 100 161.75 5.596491 150 175
. sum tb in 1/50
Variable | Obs Mean Std. Dev. Min Max
---------+-----------------------------------
tb | 50 162.26 5.609067 150 175
. sum kolest
Variable | Obs Mean Std. Dev. Min Max
---------+-----------------------------------
kolest | 100 216.96 38.85844 134 382
. sum kolest if akt_fisik==2 in 21/80
Variable | Obs Mean Std. Dev. Min Max
---------+-------------------------------------
kolest | 32 214.6563 48.86229 134 382
Bab 2. Manajemen Data
21
� Menampilkan nilai-nilai variabel dan
definisi nilai-nilai label: list dan label list
Tampilan data juga dapat dilihat per variabel, dalam interval records
terbatas, atau dengan syarat tertentu pada jendela Stata Results dengan
mengetikkan perintah pada Stata Command. Sintaksnya adalah:
list varnames [if] [in]
Jika yang ingin ditampilkan hanya 1 nilai suatu variabel untuk 1
record (1 orang responden), sintaksnya adalah:
display varname[#]
label list adalah perintah untuk menampilkan nama nilai label
(lbl.name) dalam dataset beserta definisinya.
label list lblnames
Dengan perintah ini, definisi ditampilkan untuk nama nilai label
(lblnames) yang dispesifikasikan. Jika perintahnya hanya label list, maka
semua nama nilai label yang ada dalam dataset akan ditampilkan beserta
definisinya.
Contoh 2.2:
. use “D:\Data\Stata\honolulu.dta”, clear
. list no_id usia td_sist if merokok==1 in 51/70
+------------------------+
| no_id usia td_sist |
|------------------------|
53. | 53 50 116 |
55. | 55 50 108 |
61. | 61 54 114 |
63. | 63 50 98 |
65. | 65 53 130 |
|------------------------|
66. | 66 53 122 |
67. | 67 47 112 |
+------------------------+
Bab 2. Manajemen Data
22
. list no_id usia td_sist if merokok==0 & usia>=50 in 51/70
+------------------------+
| no_id usia td_sist |
|------------------------|
51. | 51 52 118 |
56. | 56 53 134 |
57. | 57 52 124 |
58. | 58 56 124 |
59. | 59 52 114 |
|------------------------|
. display usia[51]
52
. label list kode_pendidikan yatidak
kode_pendidikan:
1 tidak ada
2 SD
3 SMP
4 SMA
5 SMK
6 Universitas
yatidak:
0 tidak
1 ya
. label list
kode_fisik:
1 hampir selalu duduk
2 moderat
3 giat
yatidak:
0 tidak
1 ya
kode_pendidikan:
1 tidak ada
2 SD
3 SMP
4 SMA
5 SMK
6 Universitas
Bab 2. Manajemen Data
23
� Deskripsi data: describe
Perintah describe menampilkan ringkasan keterangan tentang
variabel yang ada dalam dataset. Sintaks-nya adalah:
describe [varlist]
Jika tidak ada nama variabel, perintah describe akan menampilkan
ringkasan keterangan tentang semua variabel yang ada dalam dataset.
Contoh 2.3:
. use “D:\Data\Stata\honolulu.dta”, clear
. desc usia glukosa kolest td_sist
storage display value
variable name type format label variable label
---------------------------------------------------------
usia byte %10.0g Usia
glukosa int %10.0g Kadar Glukosa Darah
kolest int %10.0g Kadar Kolesterol Darah
td_sist int %10.0g Tekanan Darah Sistolik
. describe
Contains data from D:\Data\Stata\honolulu.dta
obs: 100
vars: 11 18 Aug 2016 14:16
size: 2,200
---------------------------------------------------------
storage display value
variable name type format label variable label
---------------------------------------------------------
no_id byte %10.0g Nomor Identitas
tk_pend byte %10.0g Tingkat Pendidikan
bb byte %10.0g Berat Badan
tb int %10.0g Tinggi Badan
usia byte %10.0g Usia
merokok byte %10.0g Merokok
akt_fisik byte %10.0g Aktivitas Fisik
glukosa int %10.0g Kadar Glukosa Darah
kolest int %10.0g Kadar Kolesterol Darah
Bab 2. Manajemen Data
24
td_sist int %10.0g Tekanan Darah Sistolik
bmi double %14.2f Indeks Massa Tubuh
-----------------------------------------------------------
Sorted by:
� Tipe data dan kompresi data dalam memori:
data types dan compress
Data dalam dataset Stata dapat tersimpan dalam 2 format, numeric
dan string. Format ketiga ialah untuk dates dan times yang tidak akan
dibahas di sini.
Untuk mengetahui apakah suatu variabel memiliki data numeric atau
string, dapat dilihat dari hasil perintah describe. Data numeric memiliki
tipe penyimpanan (storage type) byte, int, long, float, atau double,
kelimanya ini menurut urutan lebar rentangnya. Misalnya byte untuk
menyimpan rentang nilai dari −127 s.d. 100; int untuk nilai dari −32,767 s.d.
32, 740; dan seterusnya. float dan double dapat menyimpan bilangan pecah.
Data string memiliki tipe penyimpanan str[#], misalnya str5 dapat
menyimpan data dengan maksimum 5 karakter.
Setelah dataset terisi seluruhnya, mungkin ada variabel yang tipe
penyimpanannya terlalu besar bagi nilai-nilai yang tersimpan, misalnya
variabel usia yang disimpan dalam bilangan bulat membutuhkan hanya
tempat penyimpanan maksimum 3 digit, sedangkan tipe penyimpanan yang
semula disiapkan adalah int. Untuk menghemat tempat penyimpanan data
pada basis-data, tipe penyimpanan untuk usia dapat dikompresi dari int
menjadi byte dengan perintah compress. Sintaksnya adalah:
compress [varlist]
Jika perintah compress diberikan tanpa nama variabel, maka Stata
akan mengkompresi semua variabel yang mungkin dikompresi tipe
penyimpanannya.
Bab 2. Manajemen Data
25
� Konversi variabel string menjadi numeric
dan sebaliknya: destring dan tostring
Program Stata hanya dapat mengolah nilai data dalam format
numeric. Jika ada variabel dalam format string, maka nilai datanya perlu
dikonversi terlebih dahulu dengan perintah destring menjadi format
numeric sebelum diolah dengan program Stata. Adakalanya variabel
dengan format numeric perlu diubah menjadi string dengan perintah
tostring. Sintaks-nya adalah:
destring [varlist] , {generate(newvarlist)|replace}
dan: tostring varlist , {generate(newvarlist)|replace}
Jika tidak ada variabel yang dispesifikasikan, dengan perintah
destring semua variabel string akan dikonversi menjadi numeric. Opsi
generate(newvarlist) akan mempertahankan variabel string lama, konversi
numeric-nya tersimpan dalam variabel baru, sedangkan opsi replace akan
membentuk variabel numeric dengan nama variabel string lama.
� Mengurutkan, membuang, dan
mempertahankan variabel: order, drop, dan
keep
Perintah order digunakan mengatur kembali urutan variabel dalam
dataset menurut kehendak pengguna. Perintah drop akan menghapuskan
variabel yang dispesifikasikan dalam dataset. Perintah keep akan
mempertahankan variabel yang dispesifikasikan dalam dataset, sedangkan
variabel lain dihapus dari dataset. Sintaks-nya masing-masing adalah:
order varlist
Variabel akan tersusun menurut urutan pada varlist jika varlist
mencakup semua variabel, atau variabel yang ada pada varlist akan
diletakkan pada urutan pertama jika varlist tidak mencakup semua variabel.
drop varlist
keep varlist
Perintah drop dan keep dapat juga digunakan untuk menghapus atau
mempertahankan record dengan spesifikasi ekspresi if dan/atau in:
Bab 2. Manajemen Data
26
drop if exp
drop in range
keep if exp
keep in range
� Mengurutkan nilai variabel dan penggunaan
hasilnya: sort dan by
Perintah sort mengurutkan nilai pengamatan variabel numeric yang
dispesifikasikan dari kecil ke besar. Untuk variabel string, pengamatan akan
diurutkan menurut urutan abjad, huruf besar didahulukan daripada huruf
kecil. Sintaks-nya yaitu:
sort varlist [in] [, stable]
Opsi stable akan mempertahankan keterikatan nilai-nilai dalam suatu
record setelah salah satu variabel di-sort.
Perintah sort juga digunakan bersama by untuk memberikan perintah
summarize, tabulate, dan means (lihat Bab 3) menurut kategori variabel
kategorik yang di- sort. Sintaks-nya adalah:
sort cat_var1
by cat_var1: sum cont_var
atau: by cat_var1: means cont_var
atau: by cat_var1: tab cat_var2
cat_var : variabel kategorik
cont_var : variabel kontinu
Perintah by di sini harus segera mengikuti perintah sort (tidak
diselingi perintah lain dulu).
Bab 2. Manajemen Data
27
� Membuat variabel baru dan mengganti nilai
variabel: generate, replace, dan egen
Perintah generate digunakan untuk membentuk variabel baru.
Sintaks-nya adalah:
generate newvar[:lblname] = exp [if] [in]
Nilai-nilai dispesifikasikan pada pernyataan exp, yang dapat berupa
suatu nilai tertentu ataupun hasil formula menyangkut salah satu variabel
lama lainnya. Contohnya yaitu:
. gen luas = 0
. gen usia2 = usia^2
. gen usia_kat = 1 if usia<20
Nilai-nilai variabel, baik untuk variabel baru dibuat tersebut ataupun
variabel lama, dapat diganti dengan perintah replace. Sintaks-nya yaitu:
replace oldvar = exp [if] [in]
Misalnya:
. replace gaji_kat = 5 if masa_kerja>=10
Perintah egen merupakan ekstensi terhadap perintah generate, yaitu
ekspresi exp pada generate digantikan dengan suatu fungsi argumen.
Sintaks-nya adalah:
egen newvar = fcn(arguments) [if] [in]
Di sini hanya diberikan 2 contoh fungsi argumen, yaitu mean(exp)
dan median(exp), misalnya:
. egen avg = mean(chol)
. egen med_stay = median(los)
Bab 3. Statistika Deskriptif
28
BAB 3
STATISTIKA DESKRIPTIF
� Nilai-nilai Deskriptif Variabel Numerik
Untuk menampilkan nilai rerata, dan jika perlu disertai standar deviasi
atau standard error, dapat digunakan perintah summarize, mean, atau
means. Sintaks-nya masing-masing adalah:
. summarize varlist [if] [in]
summarize atau cukup singkatan su saja menampilkan nilai-nilai
ringkasan data, yaitu jumlah pengamatan, rerata (hitung), SD, minimum, dan
maksimum.
Dengan perintah sum akan ditampilkan ringkasan seluruh variabel
yang ada dalam file sekaligus. Ringkasan juga dapat dimintakan untuk satu
variabel saja, misalnya sum bb, sum tb, sum usia, ataupun beberapa (tidak
semua) variabel sekaligus, misalnya sum bb tb usia.
Opsi (, detail) dapat ditambahkan pada perintah sum untuk
memperoleh beberapa nilai persentil, nilai-nilai kuartil, variansi, kemencengan
(skewness) dan kurtosis.
. mean varlist [if] [in]
mean menampilkan rerata (hitung), SE, dan estimasi interval rerata
(interval konfidensi 95% sebagai default).
. means varlist [if] [in]
means menampilkan nilai rerata dan nilai tengah lainnya, yaitu
jumlah pengamatan, rerata hitung, rerata geometrik, dan rerata harmonik,
masing-masing beserta interval konfidensi 95%-nya.
Perintah means akan menampilkan rerata untuk seluruh variabel.
Perintah means dapat diberikan untuk satu variabel saja (means bb, means
tb, dan sebagainya) atau untuk beberapa variabel sekaligus seperti means
usia glukosa kolest bmi.
Bab 3. Statistika Deskriptif
29
Contoh 3.1:
. use "D:\Data\Stata\honolulu.dta", clear
. sum bb tb usia
Variable | Obs Mean Std. Dev. Min Max
---------+-----------------------------------
bb | 100 64.22 8.610048 47 91
tb | 100 161.75 5.596491 150 175
usia | 100 53.67 5.101109 46 67
Untuk menampilkan ringkasan yang lebih rinci, misalnya untuk variabel bmi
diketikkan perintah sum bmi, detail.
. sum bmi, det
Indeks Massa Tubuh
-----------------------------------------------
Percentiles Smallest
1% 18.32308 18.28678
5% 19.91923 18.35938
10% 20.78645 18.87066 Obs 100
25% 22.65625 19.10009 Sum of Wgt. 100
50% 24.24242 Mean 24.54841
Largest Std. Dev. 3.052831
75% 26.33097 30.38502
90% 28.68545 30.86301 Variance 9.319776
95% 30.07813 31.48789 Skewness .3563221
99% 32.54082 33.59375 Kurtosis 2.964489
. means usia glukosa kolest bmi
Variable | Type Obs Mean [95% Conf. Interval]
---------+------------------------------------------------
usia | Arithmetic 100 53.67 52.65783 54.68217
| Geometric 100 53.44146 52.47672 54.42393
| Harmonic 100 53.22408 52.30331 54.17786
---------+------------------------------------------------
glukosa | Arithmetic 100 152.14 141.2753 163.0047
| Geometric 100 143.8674 134.6996 153.6591
| Harmonic 100 136.3451 127.8334 146.0712
---------+------------------------------------------------
Bab 3. Statistika Deskriptif
30
kolest | Arithmetic 100 216.96 209.2496 224.6704
| Geometric 100 213.6993 206.458 221.1946
| Harmonic 100 210.5651 203.6 218.0236
---------+------------------------------------------------
bmi | Arithmetic 100 24.54841 23.94266 25.15415
| Geometric 100 24.36268 23.77141 24.96865
| Harmonic 100 24.17871 23.59809 24.78861
---------+------------------------------------------------
Contoh 3.2:
. use “D:\Data\Stata\Arctic9”, clear
(Arctic September mean sea ice 1979-2011)
. sum extent volume
Variable | Obs Mean Std. Dev. Min Max
---------+---------------------------------------------------
extent | 33 6.51697 .9691796 4.3 7.88
volume | 33 12.04664 3.346079 4.210367 16.9095
. sum extent volume, det
Sea ice extent, million km^2
---------------------------------------------------
Percentiles Smallest
1% 4.3 4.3
5% 4.61 4.61
10% 4.9 4.68 Obs 33
25% 6.05 4.9 Sum of Wgt. 33
50% 6.56 Mean 6.51697
Largest Std. Dev. .9691796
75% 7.25 7.54
90% 7.54 7.55 Variance .9393092
95% 7.85 7.85 Skewness -.6647846
99% 7.88 7.88 Kurtosis 2.625661
Bab 3. Statistika Deskriptif
31
Sea ice volume, 1000 km^3
---------------------------------------------------
Percentiles Smallest
1% 4.210367 4.210367
5% 4.586367 4.586367
10% 6.977133 6.527733 Obs 33
25% 10.28357 6.977133 Sum of Wgt. 33
50% 12.81307 Mean 12.04664
Largest Std. Dev. 3.346079
75% 14.63357 15.3609
90% 15.3609 16.08027 Variance 11.19625
95% 16.31937 16.31937 Skewness -.7695098
99% 16.9095 16.9095 Kurtosis 2.7961
. mean extent volume
Mean estimation Number of obs = 33
---------------------------------------------------------
| Mean Std. Err. [95% Conf. Interval]
--------+------------------------------------------------
extent | 6.51697 .1687125 6.173314 6.860626
volume | 12.04664 .5824776 10.86017 13.23311
---------------------------------------------------------
. means extent volume
Variable | Type Obs Mean [95% Conf. Interval]
---------+--------------------------------------------------
extent | Arithmetic 33 6.51697 6.173314 6.860626
| Geometric 33 6.440565 6.085412 6.816445
| Harmonic 33 6.357201 5.990513 6.771707
---------+--------------------------------------------------
volume | Arithmetic 33 12.04664 10.86017 13.23311
| Geometric 33 11.46327 10.13751 12.96241
| Harmonic 33 10.70489 9.237083 12.7273
---------+--------------------------------------------------
Bab 3. Statistika Deskriptif
32
� Nilai-nilai Deskriptif Variabel Kategorik
� Tabel Satu Arah
Untuk memperoleh tabel satu-arah (one-way table; distribusi
frekuensi), digunakan perintah tabulate:
. tabulate varname [if] [in] [, options]
Perintah tabulate (atau tab saja atau tab1) digunakan untuk
menampilkan distribusi frekuensi variabel kategorik atau variabel numerik
yang dikategorisasikan. Perintah ini selalu harus diikuti dengan nama
variabel, dapat berupa satu variabel saja (misalnya tab tk_pend) ataupun lebih
daripada satu variabel (misalnya tab1 tk_pend akt_fisik).
Beberapa opsi yang tersedia untuk perintah tab yaitu:
- nofreg: tidak menampilkan frekuensi (yang ditampilkan hanya nilai-nilai
persentase.
- nolabel: tidak menggunakan definisi nilai label (jika ada).
- plot: perintah untuk menampilkan diagram batang (bar chart) beserta
tabel distribusi frekuensi.
- sort: perintah untuk meranking isi tabel menurut besarnya frekuensi.
Contoh 3.3:
. use "D:\Data\Stata\honolulu.dta", clear
. tab tk_pend
Tingkat |
Pendidikan | Freq. Percent Cum.
------------+---------------------------
1 | 25 25.00 25.00
2 | 32 32.00 57.00
3 | 24 24.00 81.00
4 | 9 9.00 90.00
5 | 10 10.00 100.00
------------+---------------------------
Total | 100 100.00
Bab 3. Statistika Deskriptif
33
. tab1 tk_pend akt_fisik
-> tabulation of tk_pend
Tingkat |
Pendidikan | Freq. Percent Cum.
------------+---------------------------
1 | 25 25.00 25.00
2 | 32 32.00 57.00
3 | 24 24.00 81.00
4 | 9 9.00 90.00
5 | 10 10.00 100.00
------------+---------------------------
Total | 100 100.00
-> tabulation of akt_fisik
Aktivitas |
Fisik | Freq. Percent Cum.
------------+---------------------------
1 | 49 49.00 49.00
2 | 51 51.00 100.00
------------+---------------------------
Total | 100 100.00
Contoh 3.4:
. use “D:\Data\Stata\attract”, clear
(Perceived attractiveness and drinking -- DC Hamilton (2003))
. tab drinkfrq
Days |
drinking in |
previous |
week | Freq. Percent Cum.
------------+-----------------------------------
0 | 4 2.04 2.04
.5 | 4 2.04 4.08
1 | 24 12.24 16.33
2 | 52 26.53 42.86
2.5 | 4 2.04 44.90
3 | 40 20.41 65.31
Bab 3. Statistika Deskriptif
34
3.5 | 12 6.12 71.43
4 | 20 10.20 81.63
4.5 | 4 2.04 83.67
5 | 16 8.16 91.84
6 | 16 8.16 100.00
------------+-----------------------------------
Total | 196 100.00
� Tabel Silang
Untuk menampilkan tabel silang digunakan perintah tab2 sebagai
berikut:
tab2 varname1 varname2 [if] [in] [, options]
Perintah tab2 harus diikuti dengan 2 variabel, misalnya tab2 tk_pend
akt_fisik. Opsi nofreq dan nolabel juga dapat digunakan di sini. Selain itu
tersedia juga opsi row (menampilkan persentase di tiap baris), column
(menampilkan persentase di tiap kolom), dan cell (menampilkan persentase di
tiap sel), misalnya tab2 tk_pend akt_fisik, row.
Contoh 3.5:
. use "D:\Data\Stata\honolulu.dta", clear
. tab2 tk_pend akt_fisik
-> tabulation of tk_pend by akt_fisik
Tingkat | Aktivitas Fisik
Pendidikan | 1 2 | Total
-----------+----------------+-------
1 | 13 12 | 25
2 | 17 15 | 32
3 | 11 13 | 24
4 | 4 5 | 9
5 | 4 6 | 10
-----------+----------------+-------
Total | 49 51 | 100
Bab 3. Statistika Deskriptif
35
. tab2 tk_pend akt_fisik, row
-> tabulation of tk_pend by akt_fisik
+----------------+
| Key |
|----------------|
| frequency |
| row percentage |
+----------------+
Tingkat | Aktivitas Fisik
Pendidikan | 1 2 | Total
-----------+----------------+-------
1 | 13 12 | 25
| 52.00 48.00 | 100.00
-----------+----------------+-------
2 | 17 15 | 32
| 53.13 46.88 | 100.00
-----------+----------------+-------
3 | 11 13 | 24
| 45.83 54.17 | 100.00
-----------+----------------+-------
4 | 4 5 | 9
| 44.44 55.56 | 100.00
-----------+----------------+-------
5 | 4 6 | 10
| 40.00 60.00 | 100.00
-----------+----------------+-------
Total | 49 51 | 100
| 49.00 51.00 | 100.00
Contoh 3.6:
. use “D:\Data\Stata\attract”, clear
(Perceived attractiveness and drinking -- DC Hamilton (2003))
Bab 3. Statistika Deskriptif
36
. tab2 drinkfrq gender
Days |
drinking |
in |
previous | Gender
week | Male Female | Total
-----------+----------------------+----------
0 | 4 0 | 4
.5 | 4 0 | 4
1 | 8 16 | 24
2 | 32 20 | 52
2.5 | 0 4 | 4
3 | 32 8 | 40
3.5 | 4 8 | 12
4 | 12 8 | 20
4.5 | 4 0 | 4
5 | 16 0 | 16
6 | 12 4 | 16
-----------+----------------------+----------
Total | 128 68 | 196
. tab2 drinkfrq gender, co
+-------------------+
| Key |
|-------------------|
| frequency |
| column percentage |
+-------------------+
Bab 3. Statistika Deskriptif
37
Days |
drinking |
in |
previous | Gender
week | Male Female | Total
-----------+----------------------+----------
0 | 4 0 | 4
| 3.13 0.00 | 2.04
-----------+----------------------+----------
.5 | 4 0 | 4
| 3.13 0.00 | 2.04
-----------+----------------------+----------
1 | 8 16 | 24
| 6.25 23.53 | 12.24
-----------+----------------------+----------
2 | 32 20 | 52
| 25.00 29.41 | 26.53
-----------+----------------------+----------
2.5 | 0 4 | 4
| 0.00 5.88 | 2.04
-----------+----------------------+----------
3 | 32 8 | 40
| 25.00 11.76 | 20.41
-----------+----------------------+----------
3.5 | 4 8 | 12
| 3.13 11.76 | 6.12
-----------+----------------------+----------
4 | 12 8 | 20
| 9.38 11.76 | 10.20
-----------+----------------------+----------
4.5 | 4 0 | 4
| 3.13 0.00 | 2.04
-----------+----------------------+----------
5 | 16 0 | 16
| 12.50 0.00 | 8.16
-----------+----------------------+----------
6 | 12 4 | 16
| 9.38 5.88 | 8.16
-----------+----------------------+----------
Total | 128 68 | 196
| 100.00 100.00 | 100.00
Bab 3. Statistika Deskriptif
38
� Tabel Nilai Ringkasan Variabel Numerik menurut
Kategori Variabel Kategorik
Jika variabel_1 adalah variabel kategorik dan variabel_2 variabel
kontinu, maka perintah summarize untuk variabel_2 dapat diberikan untuk
masing-masing kategori variabel_1. Sintaks-nya adalah:
tabulate varname_1 [if] [in], summarize(varname_2)
Contoh 3.7:
. use “D:\Data\Stata\attract”, clear
(Perceived attractiveness and drinking -- DC Hamilton (2003))
. tab gender, sum(bac)
| Summary of Blood alchohol content
Gender | Mean Std. Dev. Freq.
------------+------------------------------------
Male | .09340909 .08052148 132
Female | .08111111 .06826947 72
------------+------------------------------------
Total | .08906863 .07647798 204
Bab 4. Grafik Statistik
39
BAB 4
G RAFI K STA TI S TI K
� Histogram dan Densitas Kernel
Histogram adalah representasi grafikal untuk sehimpunan pengamatan
terkategorisasi oleh sejumlah batang, 1 batang untuk tiap kategori, masing-
masing memiliki luas yang sebanding dengan frekuensi kategorinya. Proses
kategorisasi (penentuan jumlah dan lebar batang) dapat dilakukan oleh
program komputer ataupun ditentukan oleh pengguna program. Sintaks untuk
histogram yaitu:
histogram varname [if] [in] [, options]
Densitas kernel (kernel density) adalah fungsi licin (smoothed
function), yang diperoleh dari “geseran” histogram (sliding histogram). Bentuk
histogram tidak konstan, tergantung pada titik awal dan lebar batang yang
dipilih, tetapi bentuk densitas kernel relatif konstan, semata-mata tergantung
pada metode estimasi yang dipilih. Sintaks untuk grafik densitas kernel yaitu: kdensity varname [if] [in] [, options]
Contoh 4.1:
. use “D:\Data\Stata\auto”, clear
. histogram weight
(bin=8, start=1760, width=385)S
01.0
e-0
42.0
e-0
43.0
e-0
44.0
e-0
45.0
e-0
4D
ensity
2,000 3,000 4,000 5,000Weight (lbs.)
Bab 4. Grafik Statistik
40
. kdensity weight
Perbandingan histogram dan grafik densitas kernel untuk variabel yang
sama (weight) diperlihatkan sebagai berikut:
0.0
00
1.0
002
.0003
.000
4D
en
sity
1000 2000 3000 4000 5000Weight (lbs.)
kernel = epanechnikov, bandwidth = 295.7504
Kernel density estimate
01
.0e-0
42
.0e-0
43
.0e-0
44.0
e-0
45.0
e-0
4D
en
sity
2,000 3,000 4,000 5,000Weight (lbs.)
0.0
001
.00
02
.00
03
.00
04
Density
1000 2000 3000 4000 5000Weight (lbs.)
kernel = epanechnikov, bandwidth = 295.7504
Kernel density estimate
Bab 4. Grafik Statistik
41
Untuk membandingkan histogram dan grafik densitas kernel dengan
distribusi normal ditambahkan opsi (, normal):
. histogram weight, normal
. kdensity weight, normal
01
.0e-0
42
.0e
-04
3.0
e-0
44.0
e-0
45
.0e-0
4D
en
sity
2,000 3,000 4,000 5,000Weight (lbs.)
0.0
001
.0002
.0003
.0004
.0005
Density
1000 2000 3000 4000 5000Weight (lbs.)
Kernel density estimate
Normal density
kernel = epanechnikov, bandwidth = 295.7504
Kernel density estimate
Bab 4. Grafik Statistik
42
Penyajian histogram weight menurut kategorisasi foreign (domestic
dan foreign):
. histogram weight, by(foreign)
Contoh 4.2:
. use “D:\Data\Stata\attract”, clear
(Perceived attractiveness and drinking -- DC Hamilton (2003))
. histogram bac
(bin=14, start=0, width=.02571429)
05.0
e-0
4.0
01
.0015
1,000 2,000 3,000 4,000 5,0001,000 2,000 3,000 4,000 5,000
Domestic Foreign
Density
Weight (lbs.)Graphs by Car type
02
46
810
Density
0 .1 .2 .3 .4Blood alchohol content
Bab 4. Grafik Statistik
43
Pada sumbu X didapatkan nilai bac (blood alcohol content), sedangkan
sumbu Y menyatakan densitasnya. Nilai densitas dapat diganti menjadi
frekuensi dengan perintah:
. histogram bac, frequency
(bin=14, start=0, width=.02571429)
. histogram bac, start(0) width(0.03333333) norm
(bin=11, start=0, width=.03333333)
020
40
60
Fre
quency
0 .1 .2 .3 .4Blood alchohol content
02
46
810
Den
sity
0 .1 .2 .3 .4Blood alchohol content
Bab 4. Grafik Statistik
44
. histogram bac, by(gender)
. histogram bac, by(gender, total) percent
05
10
15
0 .1 .2 .3 .4 0 .1 .2 .3 .4
Male FemaleD
ensity
Blood alchohol contentGraphs by Gender
010
20
30
010
20
30
0 .1 .2 .3 .4
0 .1 .2 .3 .4
Male Female
Total
Perc
ent
Blood alchohol contentGraphs by Gender
Bab 4. Grafik Statistik
45
. kdensity bac
. kdensity bac, norm
01
23
45
Density
0 .1 .2 .3 .4Blood alchohol content
kernel = epanechnikov, bandwidth = 0.0238
Kernel density estimate
01
23
45
Density
0 .1 .2 .3 .4Blood alchohol content
Kernel density estimate
Normal density
kernel = epanechnikov, bandwidth = 0.0238
Kernel density estimate
Bab 4. Grafik Statistik
46
� Histogram untuk Variabel Kategorik
Dalam Statistika Umum, variabel kategorik biasanya disajikan dalam
bentuk diagram batang, tetapi dalam Stata perintah yang diberikan adalah
sama dengan untuk penyajian histogram dengan sintaks:
histogram varname [if] [in] [, options]
Contoh 4.3:
. use “D:\Data\Stata\auto”, clear
. histogram rep78
0.2
.4.6
.8D
ensity
1 2 3 4 5Repair Record 1978
Bab 4. Grafik Statistik
47
Contoh 4.4:
. use “D:\Data\Stata\student2”, clear
(Student survey (Ward 1990))
. histogram live, frequency
� Diagram Batang
Pengertian diagram batang (bar diagram) dalam Stata adalah
penyajian nilai-nilai rerata (ataupun statistik lainnya) suatu variabel kontinu
menurut kategori variabel kategorik lainnya. Sintaks-nya adalah:
graph bar [(stat)] cont_var [if] [in], over(cat_var)
(stat) : Statistik yang diminta (umumnya rerata)
cont_var : Variabel kontinu yang dimintakan statistiknya
cat_var : Variabel kategorik
02
040
60
80
Fre
quen
cy
1 2 3 4Year in college
Bab 4. Grafik Statistik
48
Contoh 4.5:
. use “D:\Data\Stata\auto”, clear
. graph bar (mean) mpg, over(rep78)
Contoh 4.6:
. use “D:\Data\Stata\student2”, clear
(Student survey (Ward 1990))
. graph bar (mean) aggress, over(gender)
010
20
30
mean o
f m
pg
1 2 3 4 5
0.5
11.5
2m
ean o
f aggre
ss
Female Male
Bab 4. Grafik Statistik
49
� Diagram Tebar
Diagram tebar (scatter diagram) adalah grafik dua dimensi untuk
pengamatan bivariat. Sintaks untuk diagram tebar adalah:
[graph] twoway scatter yvar xvar [if] [in] [, options]
[graph] : Penulisan perintah graph bersifat opsional
yvar : Variabel pada sumbu Y, biasanya adalah respons
xvar : Variabel pada sumbu X, biasanya adalah prediktor
Contoh 4.7:
. use “D:\Data\Stata\auto”, clear
. graph twoway scatter weight length
2,0
00
3,0
00
4,0
00
5,0
00
Weig
ht
(lbs.)
140 160 180 200 220 240Length (in.)
Bab 4. Grafik Statistik
50
Menyajikan estimasi garis regresi weight (respons) terhadap length
(prediktor):
. graph twoway lfit weight length
Diagram tebar dapat disajikan secara bersama dengan estimasi garis
regresinya:
. graph twoway scatter weight length || lfit weight length
1000
2000
3000
4000
5000
Fitte
d v
alu
es
140 160 180 200 220 240Length (in.)
1,0
00
2,0
00
3,0
00
4,0
00
5,0
00
140 160 180 200 220 240Length (in.)
Weight (lbs.) Fitted values
Bab 4. Grafik Statistik
51
Contoh 4.8:
. use “D:\Data\Stata\student2”, clear
(Student survey (Ward 1990))
. graph twoway scatter gpa study
. graph twoway lfit gpa study
1.5
22.5
33.5
4G
rade P
oin
t A
vera
ge
0 10 20 30 40 50Avg. hours/week studying
2.6
2.8
33.2
Fitte
d v
alu
es
0 10 20 30 40 50Avg. hours/week studying
Bab 4. Grafik Statistik
52
. graph twoway lfit gpa study || scatter gpa study
� Diagram Kotak & Titik
Diagram kotak dan titik (box plot) adalah metode penyajian grafik
untuk menampilkan karakteristik penting suatu himpunan pengamatan, yaitu
lima angka ringkasan deskriptif himpunan pengamatan tersebut, berupa nilai
perbatasan bawah (lower adjacent value), kuartil I, median, kuartil III, dan
nilai perbatasan atas (upper adjacent value). Sintaks-nya adalah:
graph box varname [if] [in] [, options]
1.5
22.5
33
.54
0 10 20 30 40 50Avg. hours/week studying
Fitted values Grade Point Average
Bab 4. Grafik Statistik
53
Contoh 4.9:
. use “D:\Data\Stata\auto”, clear
. graph box mpg
Diagram kotak dan titik juga dapat disajikan secara berdampingan
menurut kategori variabel kategorik lainnya:
. graph box mpg, by(foreign)
10
20
30
40
Mile
age (
mpg
)10
20
30
40
Domestic Foreign
Mile
age (
mpg)
Graphs by Car type
Bab 4. Grafik Statistik
54
Contoh 4.10:
. use “D:\Data\Stata\student2”, clear
(Student survey (Ward 1990))
. graph box gpa
. graph box gpa, over(gender)
1.5
22.5
33.5
4G
rade
Poin
t A
ve
rage
1.5
22.5
33.5
4G
rade P
oin
t A
vera
ge
Female Male
Bab 4. Grafik Statistik
55
� Diagram Lingkar
Diagram lingkar (pie diagram) adalah penyajian grafikal untuk data
nominal (kategorik), menggunakan lingkaran yang terbagi sejumlah sektor,
masing-masing berukuran proporsional dengan frekuensi yang
direpresentasikannya. Sintaks-nya adalah:
graph pie [if] [in], over(varname) [options]
Contoh 4.11:
. use “D:\Data\Stata\auto”, clear
. graph pie, over(rep78)
1 2
3 4
5
Bab 4. Grafik Statistik
56
Contoh 4.12:
. use “D:\Data\Stata\student2”, clear
(Student survey (Ward 1990))
. graph pie, over(live)
� Grafik Matriks
Grafik matriks adalah matriks yang tiap selnya memuat diagram tebar
untuk 2 variabel yang berpotongan pada sel itu. Sintaks-nya adalah:
graph matrix varlist [if] [in] [, options]
Dorm Greek
Apartmnt w/Parent
other
Bab 4. Grafik Statistik
57
Contoh 4.13:
. use “D:\Data\Stata\auto”, clear
. graph matrix price mpg weight length, half
Bandingkan grafik matriks di atas dengan matriks korelasi berikut:
. corr price mpg weight length
(obs=74)
| price mpg weight length
-----------+--------------------------------
price | 1.0000
mpg | -0.4686 1.0000
weight | 0.5386 -0.8072 1.0000
length | 0.4318 -0.7958 0.9460 1.0000
Price
Mileage(mpg)
Weight(lbs.)
Length(in.)
5,000 10,000 15,000
10
20
30
40
10 20 30 40
2,000
3,000
4,000
5,000
2,000 3,000 4,000 5,000
150
200
250
Bab 4. Grafik Statistik
58
Contoh 4.14:
. use “D:\Data\Stata\student2”, clear
(Student survey (Ward 1990))
. graph matrix age drink gpa study, half
Age atlast
birthday
33-pointdrinkingscale
GradePoint
Average
Avg.hours/week
studying
20 30 40
0
20
40
0 20 40
1
2
3
4
1 2 3 4
0
50
Bab 5. Analisis Statistik Sederhana
59
BAB 5
ANALISIS STATISTIK SEDERHANA
� U j i t
� Uji t untuk 1 kelompok
Uji t untuk 1 kelompok adalah uji statistik untuk menguji hipotesis
0H : µ = 0µ . Sintaks pada uji t untuk 1 kelompok yaitu:
ttest varname == # [if] [in] [, level (#)]
Asumsi-asumsi pada uji t untuk 1 kelompok ini adalah :
- Data berskala kontinu
- Data berdistribusi normal
- Data berasal dari random sampling
Contoh 5.1:
File data yang digunakan adalah auto.dta.
. use “D:\Data\Stata\auto.dta”, clear
(1978 Automobile Data)
. list mpg in 1/10
+-----+
| mpg |
|-----|
1. | 22 |
2. | 17 |
3. | 22 |
4. | 20 |
5. | 15 |
|-----|
6. | 18 |
7. | 26 |
8. | 20 |
Bab 5. Analisis Statistik Sederhana
60
9. | 16 |
10. | 19 |
+-----+
Untuk pengujian asumsi normalitas terhadap variabel mpg dilakukan
uji normalitas Shapiro-Wilk dengan 0H : Data berdistribusi normal.
. swilk mpg
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z
---------+--------------------------------------------------
mpg | 74 0.94821 3.335 2.627 0.00430
Hipotesis nol ditolak dengan p = 0.0043 (mpg tidak berdistribusi normal,
ditemukan penyimpangan bermakna terhadap distribusi 0H ), walaupun
demikian uji t di sini diteruskan untuk latihan.
Penilaian normalitas secara kasar dapat dilakukan dengan
menggunakan grafik.
. qnorm mpg, grid
Penilaian terhadap grafik di sini bersifat subjektif. Perintah berikut
adalah untuk menguji 0H : µ = 20.
14
20
34
10
20
30
40
Mile
age (
mpg)
21.2973 30.813611.781
10 15 20 25 30 35Inverse Normal
Grid lines are 5, 10, 25, 50, 75, 90, and 95 percentiles
Bab 5. Analisis Statistik Sederhana
61
. ttest mpg==20
One-sample t test
-----------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+-------------------------------------------------------
mpg | 74 21.2973 .6725511 5.785503 19.9569 22.63769
-----------------------------------------------------------------
mean = mean(mpg) t = 1.9289
Ho: mean = 20 degrees of freedom = 73
Ha: mean < 20 Ha: mean != 20 Ha: mean > 20
Pr(T < t) = 0.9712 Pr(|T| > |t|) = 0.0576 Pr(T > t) = 0.0288
Diperoleh hasil:
untuk 1H : µ < 20 → p = 0.9712
1H : µ ≠ 20 p = 0.0576
1H : µ > 20 p = 0.0288
Contoh 5.2: Pada contoh ini digunakan file data hsb2.dta.
. use "D:\Data\Stata\hsb2.dta", clear
(highschool and beyond (200 cases))
. list write in 1/10
+-------+
| write |
|-------|
1. | 52 |
2. | 59 |
3. | 33 |
4. | 44 |
5. | 52 |
|-------|
6. | 52 |
7. | 59 |
8. | 46 |
9. | 57 |
10. | 55 |
+-------+
Bab 5. Analisis Statistik Sederhana
62
. swilk write
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z
---------+--------------------------------------------------
write | 200 0.96286 5.540 3.939 0.00004
write tidak berdistribusi normal (p = 0.00004).
. ttest write=50
One-sample t test
------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------
write | 200 52.775 .6702372 9.478586 51.45332 54.09668
------------------------------------------------------------------
mean = mean(write) t = 4.1403
Ho: mean = 50 degrees of freedom = 199
Ha: mean < 50 Ha: mean != 50 Ha: mean > 50
Pr(T < t) = 1.0000 Pr(|T| > |t|) = 0.0001 Pr(T > t) = 0.0000
Hipotesis 0H : µ = 50 ditolak dengan p = 0.0001.
� Uji t untuk 2 kelompok independen
Uji t untuk 2 kelompok independen adalah pengujian statistik
terhadap hipotesis 0H : 1µ = 2µ . Sintaks untuk uji hipotesis ini adalah:
ttest varname [if] [in] , by(groupvar) [options] Options yang tersedia antara lain yaitu:
- unequal untuk uji terhadap 2 kelompok yang tidak sama variansinya
- level(#) untuk mengganti nilai default tingkat signifikansi
Asumsi-asumsi untuk uji hipotesis ini adalah:
- Data berskala kontinu
- Data berdistribusi normal
- Variansi kedua kelompok sama (jika tidak sama, gunakan uji unequal)
- Kedua kelompok independen (jika tidak independen, gunakan paired t-
test)
- Data berasal dari random sampling
Bab 5. Analisis Statistik Sederhana
63
Contoh 5.3:
File data yang digunakan di sini adalah fuel3.dta. . webuse fuel3, clear Mengambil dari Web dan membuka file fuel3.dta. . list in 1/5 Memperlihat isi (database) file untuk record 1 s.d. 5
+---------------+
| mpg treated |
|---------------|
1. | 20 0 |
2. | 23 0 |
3. | 21 0 |
4. | 25 0 |
5. | 18 0 |
+---------------+
Pada uji t untuk 2 kelompok independen ini, uji normalitas harus
dilakukan untuk masing-masing kelompok:
. swilk mpg if treated==0
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z
---------+--------------------------------------------------
mpg | 12 0.93932 1.014 0.027 0.48937
. swilk mpg if treated==1
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z
---------+--------------------------------------------------
mpg | 12 0.97637 0.395 -1.811 0.96493
Tampak bahwa untuk kedua kelompok tidak ditemukan
penyimpangan yang bermakna dari normalitas. Selanjutnya dilakukan
pengujian kesamaan variansi antar kedua kelompok dengan hipotesis 0H :
Bab 5. Analisis Statistik Sederhana
64
21σ /
22σ = 1. Pengujian dapat dilakukan dengan uji Bartlett yang sensitif
terhadap asumsi normalitas:
. sdtest mpg, by(treated)
Variance ratio test
------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------
0 | 12 21 .7881701 2.730301 19.26525 22.73475
1 | 12 22.75 .9384465 3.250874 20.68449 24.81551
---------+--------------------------------------------------------
combined | 24 21.875 .6264476 3.068954 20.57909 23.17091
------------------------------------------------------------------
ratio = sd(0) / sd(1) f = 0.7054
Ho: ratio = 1 degrees of freedom = 11, 11
Ha: ratio < 1 Ha: ratio != 1 Ha: ratio > 1
Pr(F < f) = 0.2862 2*Pr(F < f) = 0.5725 Pr(F > f) = 0.7138
Dari hasil uji Bartlett disimpulkan bahwa variansi kedua kelompok
sama (p = 0.5725). Uji kesamaan variansi juga dapat dilakukan dengan uji
Levene yang bersifat robust terhadap asumsi normalitas: . robvar mpg, by(treated)
| Summary of mpg
treated | Mean Std. Dev. Freq.
------------+------------------------------------
0 | 21 2.7303013 12
1 | 22.75 3.250874 12
------------+------------------------------------
Total | 21.875 3.0689539 24
W0 = 0.03414971 df(1, 22) Pr > F = 0.8550817
W50 = 0.01376721 df(1, 22) Pr > F = 0.9076602
W10 = 0.02949384 df(1, 22) Pr > F = 0.86521366
W0 : Levene’s F statistic
W50 : Brown and Forsythe’s F statistic (median)
W10 : Brown and Forsythe’s F statistic (trimmed mean)
Bab 5. Analisis Statistik Sederhana
65
Hasil uji Levene yaitu 0H tidak ditolak (p = 0.855), sehingga
disimpulkan bahwa variansi kedua kelompok sama. . ttest mpg, by(treated) Uji t terhadap rerata mpg antar 2 kelompok, treated = 1 vs treated = 0.
Two-sample t test with equal variances
----------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+------------------------------------------------------
0 | 12 21 .7881701 2.730301 19.26525 22.73475
1 | 12 22.75 .9384465 3.250874 20.68449 24.81551
---------+------------------------------------------------------
combined | 24 21.875 .6264476 3.068954 20.57909 23.17091
---------+------------------------------------------------------
diff | -1.75 1.225518 -4.291568 .7915684
----------------------------------------------------------------
diff = mean(0) - mean(1) t = -1.4280
Ho: diff = 0 degrees of freedom = 22
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Pr(T < t) = 0.0837 Pr(|T| > |t|) = 0.1673 Pr(T > t) = 0.9163
Contoh 5.4:
Digunakan file data hsb2.dta.
. use “D\Data\Stata\hsb2.dta”, clear
. list write female in 1/5
+----------------+
| write female |
|----------------|
1. | 52 male |
2. | 59 female |
3. | 33 male |
4. | 44 male |
5. | 52 male |
+----------------+
Bab 5. Analisis Statistik Sederhana
66
. ttest write, by(female)
Two-sample t test with equal variances
------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------
male | 91 50.12088 1.080274 10.30516 47.97473 52.26703
female | 109 54.99083 .7790686 8.133715 53.44658 56.53507
---------+--------------------------------------------------------
combined | 200 52.775 .6702372 9.478586 51.45332 54.09668
---------+--------------------------------------------------------
diff | -4.869947 1.304191 -7.441835 -2.298059
------------------------------------------------------------------
diff = mean(male) - mean(female) t = -3.7341
Ho: diff = 0 degrees of freedom = 198
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Pr(T < t) = 0.0001 Pr(|T| > |t|) = 0.0002 Pr(T > t) = 0.9999
� Uji t berpasangan (paired t-test)
Uji t berpasangan adalah uji statistik untuk menguji hipotesis 0H : δ =
0, δ adalah rerata selisih 2 variabel berpasangan 1X dan 2X . Sintaks uji
statistik adalah:
ttest varname1 == varname2 [if] [in] [, level(#)]
Asumsi-asumsi pada uji statistik ini yaitu:
- Data berskala kontinu
- Selisih kedua variabel berpasangan berdistribusi normal
- Data berasal dari random sampling
Bab 5. Analisis Statistik Sederhana
67
Contoh 5.5:
File data untuk contoh ini adalah fuel.dta.
. webuse fuel, clear
. list in 1/5
+-------------+
| mpg1 mpg2 |
|-------------|
1. | 20 24 |
2. | 23 25 |
3. | 21 21 |
4. | 25 22 |
5. | 18 23 |
+-------------+
Uji normalitas untuk selisih kedua variabel mpg1 − mpg2 adalah
sebagai berikut:
. gen diff_mpg = mpg1 - mpg2
. swilk diff_mpg
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z
---------+--------------------------------------------------
diff_mpg | 12 0.92077 1.324 0.547 0.29236
Selisih kedua variabel berpasangan mpg1 − mpg2 = diff_mpg berdistribusi normal (p = 0.29236).
. ttest mpg1==mpg2 (two-sample t test using variables)
Paired t test
---------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+-----------------------------------------------------
mpg1 | 12 21 .7881701 2.730301 19.26525 22.73475
mpg2 | 12 22.75 .9384465 3.250874 20.68449 24.81551
---------+-----------------------------------------------------
diff | 12 -1.75 .7797144 2.70101 -3.46614 -.0338602
---------------------------------------------------------------
Bab 5. Analisis Statistik Sederhana
68
mean(diff) = mean(mpg1 - mpg2) t = -2.2444
Ho: mean(diff) = 0 degrees of freedom = 11
Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0
Pr(T < t) = 0.0232 Pr(|T| > |t|) = 0.0463 Pr(T > t) = 0.9768
Contoh 5.6: Digunakan file data hsb2.dta.
. use “D:\Data\Stata\hsb2”, clear
. list read write in 1/10
+--------------+
| read write |
|--------------|
1. | 57 52 |
2. | 68 59 |
3. | 44 33 |
4. | 63 44 |
5. | 47 52 |
|--------------|
6. | 44 52 |
7. | 50 59 |
8. | 34 46 |
9. | 63 57 |
10. | 57 55 |
+--------------+
Berikut diperlihatkan sebagian dari dataset yang digunakan untuk
contoh uji t berpasangan:
pair read write d
1 57 52 +5
2 68 59 +9
3 44 46 −2
4 63 57 +6
. . . dst.
Bab 5. Analisis Statistik Sederhana
69
. ttest read==write
Paired t test
------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------
read | 200 52.23 .7249921 10.25294 50.80035 53.65965
write | 200 52.775 .6702372 9.478586 51.45332 54.09668
---------+--------------------------------------------------------
diff | 200 -.545 .6283822 8.886666 -1.784142 .6941424
------------------------------------------------------------------
mean(diff) = mean(read - write) t = -0.8673
Ho: mean(diff) = 0 degrees of freedom = 199
Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0
Pr(T < t) = 0.1934 Pr(|T| > |t|) = 0.3868 Pr(T > t) = 0.8066
� Uji t tanpa dataset
Uji t juga dapat tanpa membuka dataset tertentu, hanya dengan
diberikan data tentang ukuran sampel, rerata, dan standar deviasi.
o Uji t tanpa dataset untuk 1 kelompok: Yang diuji adalah hipotesis 0H : µ = 0µ . Sintaks untuk uji ini adalah:
ttesti #obs #mean #sd #val [, level(#)]
Contoh 5.7:
. ttesti 24 62.6 15.8 75
(immediate form; n = 24, x = 62.6, SD = 15.8; test µ = 75)
One-sample t test
-----------------------------------------------------------
| Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
----+------------------------------------------------------
x | 24 62.6 3.225161 15.8 55.92825 69.27175
-----------------------------------------------------------
Bab 5. Analisis Statistik Sederhana
70
mean = mean(x) t = -3.8448
Ho: mean = 75 degrees of freedom = 23
Ha: mean < 75 Ha: mean != 75 Ha: mean > 75
Pr(T < t) = 0.0004 Pr(|T| > |t|) = 0.0008 Pr(T > t) = 0.9996
o Uji t tanpa dataset untuk 2 kelompok:
Yang diuji adalah hipotesis 0H : 1µ = 2µ . Sintaks untuk uji hipotesis
ini adalah:
ttesti #obs1 #mean1 #sd1 #obs2 #mean2 #sd2 [, options]
Options yang tersedia antara lain yaitu unequal (variansi kedua kelompok
tidak sama) dan level(#) (mengubah nilai default tingkat signifikansi).
Contoh 5.8:
. ttesti 12 21.00 0.788 12 22.75 0.938
Two-sample t test with equal variances
---------------------------------------------------------------
| Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+-----------------------------------------------------
x | 12 21 .227476 .788 20.49933 21.50067
y | 12 22.75 .2707773 .938 22.15402 23.34598
---------+-----------------------------------------------------
combined | 24 21.875 .2513863 1.231536 21.35497 22.39503
---------+-----------------------------------------------------
diff | -1.75 .3536462 -2.483417 -1.016583
---------------------------------------------------------------
diff = mean(x) - mean(y) t = -4.9484
Ho: diff = 0 degrees of freedom = 22
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Pr(T < t) = 0.0000 Pr(|T| > |t|) = 0.0001 Pr(T > t) = 1.0000
Bab 5. Analisis Statistik Sederhana
71
� Uji khi-kuadrat
� Uji Khi-Kuadrat untuk tabel 2×2
Pada uji khi-kuadrat dengan Stata, prediktor akan ditempatkan
sebagai variabel baris dan respons sebagai variabel kolom. Untuk data yang
berasal dari rancangan studi Epidemiologi, prediktor dinamakan sebagai
“exposed” dan respons adalah “case”. Dalam tabel 2×2 ini, prediktor
maupun respons adalah variabel biner dan masing-masing bernilai {0, 1}.
case
1 0
exposed 1 a b
1n
0 c d 2n
1m 2m n
o Uji Khi-kuadrat untuk Studi Kasus-Kontrol
Pada data yang berasal dari rancangan studi kasus-kontrol, ukuran
keeratan hubungan prediktor-respons adalah rasio odds (odds ratio; OR),
yaitu:
ˆOR = ψ = ad
bc (5.1)
Uji hipotesis di sini yaitu uji khi-kuadrat dilakukan terhadap hipotesis
0H : ψ = 1. Asumsi-asumsi dalam pengujian ini yaitu:
- Pengamatan independen satu sama lain
- Frekuensi harapan tiap sel minimum sama dengan 5.
Sintaks untuk uji khi-kuadrat pada tabel 2×2 terhadap hipotesis 0H :
ψ = 1 adalah:
cc var_case var_exposed [if] [in] [, cc_options]
Bab 5. Analisis Statistik Sederhana
72
Salah satu opsi pada [, cc_options] ialah [, exact], yaitu opsi untuk
meminta uji eksak Fisher.
o Uji Khi-kuadrat untuk Studi Kohort
Pada data yang berasal dari rancangan studi kohort, ukuran keeratan
hubungan prediktor-respons adalah rasio risiko (risk ratio; RR), yaitu:
ˆRR = 1
2
a n
c n (5.2)
Uji hipotesis di sini yaitu uji khi-kuadrat dilakukan terhadap hipotesis
0H : RR = 1. Asumsi-asumsi dalam pengujian ini sama seperti untuk uji
hipotesis 0H : OR = 1.
Sintaks untuk uji khi-kuadrat pada tabel 2×2 terhadap hipotesis 0H :
RR = 1 adalah:
cs var_case var_exposed [if] [in] [, cs_options]
Seperti pada rancangan studi kasus kontrol, di sini juga salah satu
opsi adalah [, exact], yaitu opsi untuk meminta uji eksak Fisher.
o Uji Khi-kuadrat untuk Studi Non-Epidemiologi
Jika data tidak berasal dari salah satu rancangan studi epidemiologi,
sintaksnya adalah:
tab2 varname1 varname2, chi2 exact
o Uji Khi-kuadrat tanpa Dataset
Jika analisis khi-kuadrat hendak dilakukan terhadap nilai-nilai
frekuensi keempat sel pada tabel 2×2 tanpa membuka atau menggunakan file
data tertentu, analogi dengan perintah ttesti pada uji t, sintaks-nya masing-
masing adalah:
cci a b c d
csi a b c d
dan: tabi a b \ c d, chi2 exact
Bab 5. Analisis Statistik Sederhana
73
Contoh 5.9:
Digunakan file data tt_headache_part-1.dta.
. use “D:\Data\Stata\ tt_headache_part-1”, clear
Membuka file tt_headache_part-1.dta.
. list nktt tpa_kat in 1/5
Memperlihat isi sebagian dataset untuk variabel nktt (respons; variabel baris
pada tabel) dan tpa_kat (prediktor; variabel kolom pada tabel) pada record 1
s.d. 5
+----------------+
| nktt tpa_kat |
|----------------|
1. | 0 1 |
2. | 1 0 |
3. | 1 1 |
4. | 0 0 |
5. | 0 0 |
+----------------+
. tab2 nktt tpa_kat
Perintah untuk melakukan tabulasi silang variabel nktt dengan tpa_kat.
-> tabulation of nktt by tpa_kat
| TPA_kat
NKTT | 0 1 | Total
-----------+----------------------+----------
0 | 86 24 | 110
1 | 44 64 | 108
-----------+----------------------+----------
Total | 130 88 | 218
Selanjutnya dengan asumsi data berasal dari studi kasus-kontrol,
hendak dilakukan pengestimasian nilai rasio odds prediktor tpa_kat
(exposed) dengan respons nktt (case) serta uji hipotesis 0H : OR = 1.
Bab 5. Analisis Statistik Sederhana
74
. cc nktt tpa_kat
Proportion
| Exposed Unexposed | Total Exposed
----------------+--------------------+--------------------
Cases | 64 44 | 108 0.5926
Controls | 24 86 | 110 0.2182
----------------+--------------------+--------------------
Total | 88 130 | 218 0.4037
| |
| Point estimate |[95% Conf. Interval]
|--------------------+--------------------
Odds ratio | 5.212121 | 2.770114 9.888089 (exact)
Attr. frac. ex. | .8081395 | .639004 .8988682 (exact)
Attr. frac. pop | .4788975 |
+-----------------------------------------
chi2(1) = 31.74 Pr>chi2 = 0.0000
Diperoleh kesimpulan hipotesis 0H : OR = 1 ditolak dengan p =
0.0000. Estimasi titik ˆOR adalah 5.21 dengan interval konfidensi 95% [2.77
; 9.89].
Jika data diasumsikan berasal dari rancangan studi kohort, yang
diestimasi adalah nilai rasio risiko dan hipotesis yang diuji adalah 0H : RR =
1 dengan perintah:
. cs nktt tpa_kat
| TPA_kat |
| Exposed Unexposed | Total
----------------+---------------------+----------
Cases | 64 44 | 108
Noncases | 24 86 | 110
----------------+---------------------+----------
Total | 88 130 | 218
| |
Risk | .7272727 .3384615 | .4954128
| |
Bab 5. Analisis Statistik Sederhana
75
| Point estimate | [95% Conf. Interval]
|---------------------+---------------------
Risk difference | .3888112 | .2652201 .5124023
Risk ratio | 2.14876 | 1.636615 2.821171
Attr. frac. ex. | .5346154 | .3889827 .6455373
Attr. frac. pop | .3168091 |
+-------------------------------------------
chi2(1) = 31.74 Pr>chi2 = 0.0000
Hipotesis 0H : RR = 1 ditolak dengan p = 0.0000. Estimasi titik untuk
ˆRR adalah 2.15 dengan interval konfidensi 95% [1.64 ; 2.82].
Jika data tidak diasumsikan berasal dari salah satu rancangan studi
Epidemiologi, uji khi-kuadrat untuk asosiasi antara tpa_kat dengan nktt
dapat dilakukan dengan perintah:
. tab2 nktt tpa_kat, chi2
-> tabulation of nktt by tpa_kat
| TPA_kat
NKTT | 0 1 | Total
-----------+----------------------+----------
0 | 86 24 | 110
1 | 44 64 | 108
-----------+----------------------+----------
Total | 130 88 | 218
Pearson chi2(1) = 31.7354 Pr = 0.000
Bab 5. Analisis Statistik Sederhana
76
Contoh 5.10:
Digunakan file data ccxmpl.dta.
. webuse ccxmpl
. list
+-----------------------+
| case exposed pop |
|-----------------------|
1. | 1 1 4 |
2. | 1 0 386 |
3. | 0 1 4 |
4. | 0 0 1250 |
+-----------------------+
Berbeda dengan contoh file data terdahulu, pada file ccxmpl ini
hanya ada 4 records, tiap record tidak menyatakan data untuk 1 orang
responden, melainkan nilai-nilai frekuensi pada tabel 2×2. Ada 4 responden
dengan nilai case = 1 dan exposed = 1; 386 responden dengan nilai case =
1 dan exposed = 0; dan seterusnya; sehingga jumlah responden seluruhnya
adalah 4 + 386 + 4 + 1250 = 1644 orang responden. Di sini tidak boleh
dilakukan perintah tabulate case exposed, chi2. Perintah yang dapat
digunakan di sini adalah cci.
. cci 4 386 4 1250
Proportion
| Exposed Unexposed | Total Exposed
----------------+---------------------+---------------------
Cases | 4 386 | 390 0.0103
Controls | 4 1250 | 1254 0.0032
----------------+---------------------+---------------------
Total | 8 1636 | 1644 0.0049
| |
| Point estimate | [95% Conf. Interval]
|---------------------+---------------------
Odds ratio | 3.238342 | .5997233 17.45614 (exact)
Attr. frac. ex. | .6912 | -.6674356 .9427136 (exact)
Attr. frac. pop | .0070892 |
+-------------------------------------------
chi2(1) = 3.07 Pr>chi2 = 0.0799
Bab 5. Analisis Statistik Sederhana
77
Contoh 5.11:
. csi 7 12 9 2
| Exposed Unexposed | Total
-----------------+-------------------+----------
Cases | 7 12 | 19
Noncases | 9 2 | 11
-----------------+-------------------+----------
Total | 16 14 | 30
| |
Risk | .4375 .8571429 | .6333333
| |
| Point estimate | [95% Conf. Interval]
|-------------------+---------------------
Risk difference | -.4196429 | -.7240828 -.1152029
Risk ratio | .5104167 | .2814332 .9257086
Prev. frac. ex. | .4895833 | .0742914 .7185668
Prev. frac. pop | .2611111 |
+-----------------------------------------
chi2(1) = 5.66 Pr>chi2 = 0.0173
. csi 7 12 9 2, exact
| Exposed Unexposed | Total
-----------------+--------------------+----------
Cases | 7 12 | 19
Noncases | 9 2 | 11
-----------------+--------------------+----------
Total | 16 14 | 30
| |
Risk | .4375 .8571429 | .6333333
| |
| Point estimate | [95% Conf. Interval]
|--------------------+---------------------
Risk difference | -.4196429 | -.7240828 -.1152029
Risk ratio | .5104167 | .2814332 .9257086
Prev. frac. ex. | .4895833 | .0742914 .7185668
Prev. frac. pop | .2611111 |
Bab 5. Analisis Statistik Sederhana
78
+------------------------------------------
1-sided Fisher's exact P = 0.0212
2-sided Fisher's exact P = 0.0259
� Uji Khi-kuadrat untuk tabel r × c (r baris dan c kolom):
Uji khi-kuadrat dilakukan pada tabel r×c untuk menguji hipotesis
0H : Tidak asosiasi antara variabel baris dengan variabel kolom. Asumsi-
asumsi yang berlaku sama seperti untuk tabel 2×2. Siktaks untuk uji khi-
kuadrat yaitu:
tabulate varname1 varname2 [if] [in] , chi2
Contoh 5.12:
Digunakan file data citytemp2.dta.
. use "D:\Data\Stata\citytemp2", clear
(City Temperature Data)
. list region agecat in 1/7
+-----------------+
| region agecat |
|-----------------|
1. | NE 19-29 |
2. | NE 19-29 |
3. | NE 19-29 |
4. | NE 19-29 |
5. | NE 19-29 |
|-----------------|
6. | NE 19-29 |
7. | NE 19-29 |
+-----------------+
Bab 5. Analisis Statistik Sederhana
79
. tabulate region agecat
Census | agecat
Region | 19-29 30-34 35+ | Total
-----------+---------------------------------+----------
NE | 46 83 37 | 166
N Cntrl | 162 92 30 | 284
South | 139 68 43 | 250
West | 160 73 23 | 256
-----------+---------------------------------+----------
Total | 507 316 133 | 956
. tabulate region agecat, chi2
Census | agecat
Region | 19-29 30-34 35+ | Total
-----------+---------------------------------+----------
NE | 46 83 37 | 166
N Cntrl | 162 92 30 | 284
South | 139 68 43 | 250
West | 160 73 23 | 256
-----------+---------------------------------+----------
Total | 507 316 133 | 956
Pearson chi2(6) = 61.2877 Pr = 0.000
Dengan p = 0.000, ditemukan asosiasi yang bermakna antara
kelompok usia responden (agecat) dengan regio sensus mereka (region).
Bab 6. Analisis Variansi
80
BAB 6
ANALISIS VARIANSI
Analisis variansi (analysis of variance; ANOVA) adalah analisis
statistik untuk mengkaji perbedaan rerata antar lebih daripada 2 kategori,
seperti pada uji t, yang mengkaji perbedaan rerata antara 2 kategori.
� Analisis Variansi 1-Arah
Pada analisis variansi 1-arah (one-way ANOVA), populasi penelitian
terbagi atas p kategori, yang lazimnya dinamakan juga taraf-taraf suatu
faktor. Analisis variansi mengkaji apakah ada paling sedikit 1 rerata kategori
(taraf faktor) yang berbeda dengan rerata kategori (taraf faktor) lainnya.
Sintaks-nya adalah:
oneway resp_var fact_var [if] [in] [, options]
resp_var : respons, variabel dependen (kontinu)
fact_var : faktor, variabel independen (kategorik)
Model pada analisis variansi adalah:
ijY = µ + iτ + ijε (6.1)
Hipotesis pada analisis variansi yaitu:
0H : 1τ = 2τ = . . . = pτ (6.1.a)
Asumsi-asumsi pada analisis variansi adalah:
1. Independensi: Galat saling independen
2. Normalitas: Galat berdistribusi normal
3. Homoskedastisitas: Homogenitas variansi (antar kelompok perlakuan)
4. Sampling acak: Data diperoleh dari sampling acak
Bab 6. Analisis Variansi
81
Contoh 6.1:
File data yang digunakan pada contoh ini adalah hsb2.dta, memuat
data tentang 200 siswa yang terbagi atas 3 tipe program (prog), yaitu
general, academic, dan vocation. Akan dikaji apakah ada perbedaan rerata
nilai write antar ketiga tipe program tersebut.
. use “D:\Data\Stata\hsb2”
(highschool and beyond (200 cases))
. tabulate prog, summarize(write)
type of | Summary of writing score
program | Mean Std. Dev. Freq.
------------+---------------------------------
general | 51.333333 9.3977754 45
academic | 56.257143 7.9433433 105
vocation | 46.76 9.3187544 50
------------+---------------------------------
Total | 52.775 9.478586 200
Grafik batang rerata write pada ketiga tipe prog diperlihatkan
sebagai berikut:
. graph bar (mean) write, over(prog)
020
40
60
mea
n o
f w
rite
general academic vocation
Bab 6. Analisis Variansi
82
Analisis variansi 1-arah adalah:
. oneway write prog Analysis of Variance
Source SS df MS F Prob > F
-----------------------------------------------------------
Between groups 3175.69786 2 1587.84893 21.27 0.0000
Within groups 14703.1771 197 74.635417
-----------------------------------------------------------
Total 17878.875 199 89.843593
Bartlett's test for equal variances: chi2(2) = 2.6184
Prob>chi2 = 0.270
Kesimpulan yang diperoleh:
- Variansi antar kelompok perlakuan (antar tipa prog) dapat dianggap
sama (uji Bartlett; p = 0.270)
- Rerata antar kelompok perlakuan (nilai write) tidak sama (uji F; p <
0.0000)
Untuk melihat kelompok perlakuan mana yang berbeda, dilakukan
perbandingan ganda (multiple comparisons) dengan cara Bonferroni atau
Scheffe.
. oneway write prog, bonferroni
Comparison of writing score by type of program
(Bonferroni)
Row Mean-|
Col Mean | general academic
---------+----------------------
academic | 4.92381
| 0.005
|
vocation | -4.57333 -9.49714
| 0.032 0.000
Disimpulkan bahwa perbandingan tiap pasangan kelompok (kontras:
vocation vs general; general vs academic; vocation vs academic) ketiganya
menghasilkan perbedaan yang bermakna secara statistik (p = 0.03; p = 0.05;
p = 0.000).
Bab 6. Analisis Variansi
83
Contoh 6.2:
. use “D:\Data\Stata\apple”, clear (Apple trees)
. oneway weight treatment
Analysis of Variance
Source SS df MS F Prob > F
----------------------------------------------------------
Between groups 5295.54433 3 1765.18144 21.46 0.0013
Within groups 493.591667 6 82.2652778
----------------------------------------------------------
Total 5789.136 9 643.237333
Bartlett's test for equal variances: chi2(3) = 1.3900
Prob>chi2 = 0.708
. oneway weight treatment, tabulate
| Summary of Average weight in grams
Fertilizer | Mean Std. Dev. Freq.
------------+------------------------------------
1 | 111.9 6.7535176 3
2 | 52.733333 5.3928966 3
3 | 78.65 11.667262 2
4 | 77.5 14.424978 2
------------+------------------------------------
Total | 80.62 25.362124 10
Bab 6. Analisis Variansi
84
. graph hbar (mean) weight, over(treatment)
. oneway weight treatment, scheffe
Comparison of Average weight in grams by Fertilizer
(Scheffe)
Row Mean-|
Col Mean | 1 2 3
---------+---------------------------------
2 | -59.1667
| 0.001
|
3 | -33.25 25.9167
| 0.039 0.101
|
4 | -34.4 24.7667 -1.15
| 0.034 0.118 0.999
� Analisis Variansi 2-Arah Tanpa Interaksi
Pada analisis variansi 2-arah (two-way ANOVA) tanpa interaksi ini,
populasi penelitian terbagi berdasarkan 2 faktor, masing-masing yaitu faktor
A dengan p taraf dan faktor B dengan q taraf. Sintaks-nya adalah:
anova resp_var fact_A fact_B [if] [in] [, options]
0 50 100mean of weight
4
3
2
1
Bab 6. Analisis Variansi
85
resp_var : respons, variabel dependen
fact_A : faktor A, variabel independen pertama
fact_B : faktor B, variabel independen kedua
Model penelitian ini adalah:
ijY = µ + iα + jβ + ijε (6.2)
Hipotesis penelitian adalah:
0H : 1α = 2α = . . . = pα (6.2.a)
0H : 1β = 2β = . . . = qβ (6.2.b)
Asumsi-asumsi pada analisis variansi 2-arah ini sama dengan asumsi
pada analisis variansi 1-arah. Perintah anova juga dapat digunakan untuk
analisis variansi 1-arah, namun tak dapat dilanjutkan dengan perbandingan
ganda (Multiple Comparisons) seperti pada oneway.
Contoh 6.3:
. use "D:\Data\Stata\systolic", clear
(Systolic Blood Pressure Data)
. tabulate drug disease, summarize(systolic)
Means, Standard Deviations and Frequencies of Increment in
Systolic B.P.
| Patient's Disease
Drug Used | 1 2 3 | Total
-----------+---------------------------------+----------
1 | 29.333333 28.25 20.4 | 26.066667
| 13.017936 5.85235 13.371612 | 11.677002
| 6 4 5 | 15
-----------+---------------------------------+----------
2 | 28 33.5 18.166667 | 25.533333
| 10.977249 2.081666 12.528634 | 11.61813
| 5 4 6 | 15
-----------+---------------------------------+----------
Bab 6. Analisis Variansi
86
3 | 16.333333 4.4 8.5 | 8.75
| 14.189198 6.9137544 9 | 10.0193
| 3 5 4 | 12
-----------+---------------------------------+----------
4 | 13.6 12.833333 14.2 | 13.5
| 10.549882 10.342469 8.9274856 | 9.3238047
| 5 6 5 | 16
-----------+---------------------------------+----------
Total | 22.789474 18.210526 15.8 | 18.87931
| 13.159614 13.554741 11.302538 | 12.800874
| 19 19 20 | 58
. anova systolic drug disease
Number of obs = 58 R-squared = 0.3803
Root MSE = 10.5503 Adj R-squared = 0.3207
Source | Partial SS df MS F Prob > F
--------+-------------------------------------------
Model | 3552.07225 5 710.414449 6.38 0.0001
|
drug | 3063.43286 3 1021.14429 9.17 0.0001
disease | 418.833741 2 209.41687 1.88 0.1626
|
Residual| 5788.08293 52 111.309287
--------+-------------------------------------------
Total | 9340.15517 57 163.862371
. margins drug disease
Predictive margins Number of obs = 58
Expression : Linear prediction, predict()
---------------------------------------------------------------
| Delta-method
| Margin Std. Err. t P>|t| [95% Conf. Interval]
--------+------------------------------------------------------
drug |
1 | 25.8624 2.734004 9.46 0.000 20.37621 31.34858
2 | 25.758 2.731305 9.43 0.000 20.27724 31.23877
3 | 8.866601 3.059402 2.90 0.005 2.727463 15.00574
4 | 13.39343 2.641496 5.07 0.000 8.092878 18.69398
|
Bab 6. Analisis Variansi
87
disease |
1 | 21.79871 2.43044 8.97 0.000 16.92168 26.67575
2 | 19.65957 2.436121 8.07 0.000 14.77113 24.548
3 | 15.36463 2.363042 6.50 0.000 10.62284 20.10642
---------------------------------------------------------------
. quietly: margins drug
. marginsplot
Variables that uniquely identify margins: drug
� Analisis Variansi 2-Arah Dengan Interaksi
Pada analisis variansi 2-arah dengan interaksi, selain oleh faktor A
dan faktor B, respons juga dipengaruhi oleh interaksi antara faktor A dan
faktor B. Sintaks-nya adalah:
anova resp_var fact_A fact_B fact_A#fact_B [if] [in] [, options]
Modelnya adalah:
ijkY = µ + iα + jβ + ( )ij
αβ + ijkε (6.3)
010
20
30
Lin
ear
Pre
dic
tio
n
1 2 3 4Drug Used
Predictive Margins of drug with 95% CIs
Bab 6. Analisis Variansi
88
Hipotesis penelitian adalah:
0H : 1α = 2α = . . . = pα (6.3.a)
0H : 1β = 2β = . . . = qβ (6.3.b)
0H : ( )ij
αβ = 0 untuk i = 1, 2, . . . , p dan j = 1, 2, . . . , q
(6.3.c)
Contoh 6.4:
. use "D:\Data\Stata\systolic", clear
(Systolic Blood Pressure Data)
. anova systolic drug disease drug#disease
Number of obs = 58 R-squared = 0.4560
Root MSE = 10.5096 Adj R-squared = 0.3259
Source | Partial SS df MS F Prob > F
-------------+--------------------------------------------
Model | 4259.33851 11 387.212591 3.51 0.0013
|
drug | 2997.47186 3 999.157287 9.05 0.0001
disease | 415.873046 2 207.936523 1.88 0.1637
drug#disease | 707.266259 6 117.87771 1.07 0.3958
|
Residual | 5080.81667 46 110.452536
-------------+--------------------------------------------
Total | 9340.15517 57 163.862371
Dengan p = 0.3958, berarti tidak ada interaksi antara antara efek drug
dan disease terhadap systolic.
. margins drug disease drug#disease
Predictive margins Number of obs = 58
Expression : Linear prediction, predict()
---------------------------------------------------------------------
| Delta-method
| Margin Std. Err. t P>|t| [95% Conf. Interval]
-------------+-------------------------------------------------------
drug |
1 | 25.89799 2.750533 9.42 0.000 20.36145 31.43452
2 | 26.41092 2.742762 9.63 0.000 20.89003 31.93181
3 | 9.722989 3.099185 3.14 0.003 3.484652 15.96132
4 | 13.55575 2.640602 5.13 0.000 8.24049 18.871
Bab 6. Analisis Variansi
89
|
disease |
1 | 21.95862 2.442515 8.99 0.000 17.04209 26.87515
2 | 20.4204 2.457703 8.31 0.000 15.4733 25.3675
3 | 15.65 2.360482 6.63 0.000 10.8986 20.4014
|
drug#disease |
1 1 | 29.33333 4.290543 6.84 0.000 20.69692 37.96975
1 2 | 28.25 5.25482 5.38 0.000 17.6726 38.8274
1 3 | 20.4 4.700054 4.34 0.000 10.93928 29.86072
2 1 | 28 4.700054 5.96 0.000 18.53928 37.46072
2 2 | 33.5 5.25482 6.38 0.000 22.9226 44.0774
2 3 | 18.16667 4.290543 4.23 0.000 9.530252 26.80308
3 1 | 16.33333 6.067744 2.69 0.010 4.119599 28.54707
3 2 | 4.4 4.700054 0.94 0.354 -5.060718 13.86072
3 3 | 8.5 5.25482 1.62 0.113 -2.077404 19.0774
4 1 | 13.6 4.700054 2.89 0.006 4.139282 23.06072
4 2 | 12.83333 4.290543 2.99 0.004 4.196919 21.46975
4 3 | 14.2 4.700054 3.02 0.004 4.739282 23.66072
----------------------------------------------------------------------
. quietly: margins drug#disease
. marginsplot
Variables that uniquely identify margins: drug disease
-10
010
20
30
40
Lin
ear
Pre
dic
tio
n
1 2 3 4Drug Used
disease=1 disease=2
disease=3
Adjusted Predictions of drug#disease with 95% CIs
Bab 7. Analisis Regresi Linear
90
BAB 7
ANALISIS REGRESI LINEAR
� Regresi Linear Sederhana (Simple Linear
Regression)
Analisis regresi sederhana adalah pemodelan dan analisis statistik
tentang hubungan antara 1 prediktor dengan 1 respons kontinu. Model
hubungan adalah:
iY = 0β +
1β iX + iε (7.1)
Sintaks-nya untuk pengestimasian model dan garis regresi adalah:
regress depvar indepvar [if] [in] [, options]
Grafik yang dapat dibuat yaitu diagram tebar dan estimasi garis
regresi dengan sintaks:
graph twoway scatter depvar indepvar
twoway lfit depvar indepvar
graph twoway scatter depvar indepvar || lfit depvar indepvar
Pengujian terhadap asumsi analisis regresi linear antara lain yaitu
asumsi normalitas dan homoskedastisitas ditujukan terhadap suku galat,
karena itu harus diawali dengan pembentukan suku galat:
regress depvar indepvar
predict resid, residuals
resid : suku galat
Dilanjutkan dengan:
� Uji normalitas Shapiro-Wilk atau uji Shapiro-Francia:
swilk resid (uji Shapiro-Wilk)
francia resid (uji Shapiro-Francia)
� Uji Breusch-Pagan dan uji White untuk asumsi homoskedatisitas:
estat hettest (uji Breusch-Pagan)
estat imtest, white (uji White)
Bab 7. Analisis Regresi Linear
91
Contoh 7.1:
. use “D:\Data\Stata\elemapi”
. describe enroll api00
storage display value
variable name type format label variable label
------------------------------------------------------
enroll int %9.0g number of students
api00 int %6.0g api 2000
enroll : Jumlah siswa
api00 : Kinerja akademik sekolah pada tahun 2000
. graph twoway scatter api00 enroll || lfit api00 enroll
. regress api00 enroll
Source | SS df MS Number of obs = 400
---------+---------------------------- F( 1, 398) = 44.83
Model | 817326.293 1 817326.293 Prob > F = 0.0000
Residual | 7256345.70 398 18232.0244 R-squared = 0.1012
---------+---------------------------- Adj R-squared = 0.0990
Total | 8073672.00 399 20234.7669 Root MSE = 135.03
400
600
800
1000
0 500 1000 1500number of students
api 2000 Fitted values
Bab 7. Analisis Regresi Linear
92
----------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+--------------------------------------------------------
enroll | -.1998674 .0298512 -6.70 0.000 -.2585532 -.1411817
_cons | 744.2514 15.93308 46.71 0.000 712.9279 775.5749
----------------------------------------------------------------
Hasil dan kesimpulannya yaitu:
- Uji F untuk menguji asumsi bahwa model benar bermakna secara
statistik (p = 0.0000)
- Koefisien determinasi 2R = 0.1012, menyatakan bahwa prediktor enroll
“menjelaskan” 10.12% variansi respons api00.
- Uji t untuk prediktor enroll bermakna secara statistik (p = 0.000)
- Koefisien regresi adalah enroll −0.1998674 ≈ −0.2
- Konstante adalah 744.2514, yaitu nilai prediksi api00 jika enroll = 0. Ini
adalah kesimpulan statistik yang tidak realistik, karena jika tidak ada
siswa (enroll = 0), tidak akan ada kinerja akademik sekolah (api00).
Perintah berikut adalah untuk menyajikan grafik yang dapat menilai
kebenaran asumsi linearitas secara kasar.
. graph twoway scatter api00 enroll || lfit api00 enroll
400
600
800
1000
0 500 1000 1500number of students
api 2000 Fitted values
Bab 7. Analisis Regresi Linear
93
Uji asumsi linearitas yang lebih eksak ialah uji lack-of-fit, yang
menguji hipotesis 0H : Tidak ada “lack of linear fit”
. regress api00 enroll
. maxr2
maximum R-square = 0.7917
relative R-square = 0.1279
actual adjusted R-square = 0.0990
relative adjusted R-square = 0.1257
SSLF (df) = 5574305.5 (306) MSLF = 18216.684
SSPE (df) = 1682040.3 (92) MSPE = 18283.046
F (dfn, dfd) for lack-of-fit test (MSLF/MSPE) = 0.9964 (306,92)
prob > F = 0.5206
number of covariate patterns = 308
as ratio of observations = 0.770
Kesimpulannya yaitu hipotesis nol tidak ditolak (p = 0.5206),
sehingga asumsi linearitas dianggap terpenuhi.
Selanjutnya pengujian asumsi normalitas dilakukan dengan uji
Shapiro-Wilk dan uji Shapiro-Francia terhadap hipotesis 0H : Suku galat
berdistribusi normal.
. regress api00 enroll
. predict e, residuals
. swilk e
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z
---------+------------------------------------------------
e | 400 0.97083 8.030 4.957 0.00000
. sfrancia e
Shapiro-Francia W' test for normal data
Variable | Obs W' V' z Prob>z
---------+------------------------------------------------
e | 400 0.97214 8.263 4.567 0.00001
Bab 7. Analisis Regresi Linear
94
Baik dengan uji Shapiro-Wilk maupun uji Shapiro-Francia, hipotesis
nol ditolak (p = 0.0000)
Pengujian asumsi homoskedastisitas adalah dengan uji Breusch-
Pagan dan uji White, menguji hipotesis 0H : Homoskedastisitas. Uji
Breusch-Pagan adalah untuk menguji heteroskedastisitas linear, sedangkan
uji White menguji heteroskedastisitas “glasshour”.
. regress api00 enroll
. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of api00
chi2(1) = 1.91
Prob > chi2 = 0.1665
Tidak ditemukan heteroskedastisitas (p = 0.1665)
. estat imtest, white
White's test for Ho: homoskedasticity
against Ha: unrestricted heteroskedasticity
chi2(2) = 3.78
Prob > chi2 = 0.1514
Cameron & Trivedi's decomposition of IM-test
---------------------------------------------------
Source | chi2 df p
---------------------+-----------------------------
Heteroskedasticity | 3.78 2 0.1514
Skewness | 34.11 1 0.0000
Kurtosis | 26.44 1 0.0000
---------------------+-----------------------------
Total | 64.32 4 0.0000
---------------------------------------------------
Tidak ditemukan heteroskedastisitas (glasshour) dengan p = 0.1514.
Bab 7. Analisis Regresi Linear
95
� Regresi Linear Sederhana dengan Prediktor
Indikator
Analisis regresi linear sederhana dapat dilakukan jika prediktornya
adalah variabel indikator dengan model:
iY = 0β +
1β iX + iε ; X = {0, 1} (7.2)
Sintaks-nya untuk pengestimasian model dan garis regresi tetap sama,
yaitu:
regress depvar indepvar [if] [in] [, options]
indepvar : prediktor biner (variabel indikator)
Contoh 7.2:
. use “D:\Data\Stata\elemapi.dta”, clear
. tabulate yr_rnd
year round |
school | Freq. Percent Cum.
-----------+-----------------------------------
No | 308 77.00 77.00
Yes | 92 23.00 100.00
-----------+-----------------------------------
Total | 400 100.00
. tabulate yr_rnd, nolabel
year round |
school | Freq. Percent Cum.
-----------+-----------------------------------
0 | 308 77.00 77.00
1 | 92 23.00 100.00
-----------+-----------------------------------
Total | 400 100.00
Bab 7. Analisis Regresi Linear
96
. regress api00 yr_rnd
Source | SS df MS Number of obs = 400
--------+------------------------- F( 1, 398) = 116.24
Model |1825000.56 1 1825000.56 Prob > F = 0.0000
Residual|6248671.43 398 15700.1795 R-squared = 0.2260
--------+------------------------- Adj R-squared = 0.2241
Total |8073672 399 20234.7669 Root MSE = 125.3
------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+----------------------------------------------------
yr_rnd | -160.5064 14.8872 -10.78 0.000 -189.7737 -131.239
_cons | 684.539 7.13965 95.88 0.000 670.5028 698.5751
------------------------------------------------------------
� Regresi Linear Ganda (Multiple Linear
Regression)
Pada analisis regresi linear ganda, didapatkan prediktor lebih
daripada satu dengan model:
iY = 0β +
1β 1iX + 2β 2iX + . . . +
pβ piX + iε (7.3)
Sintaks-nya adalah:
regress depvar indepvars [if] [in] [, options]
Asumsi yang berlaku di sini adalah sama seperti pada regresi linear
sederhana, dengan tambahan asumsi tidak ada multikolinearitas. Perintah
untuk uji multikolinearitas adalah vif yang menampilkan hasil perhitungan
variance inflation factor.
Contoh 7.3:
. use “ D:\Data\Stata\elemapi”
Variabel-variabel dalam dataset adalah:
api00 : Kinerja akademik sekolah tahun 2000
acs_k3 : Rerata ukuran kelas dari TK s.d. kelas 3
meals : Persentase siswa yang mendapat makan gratis (indikator
kemiskinan)
Bab 7. Analisis Regresi Linear
97
full : Persentase guru yang memiliki akreditasi penuh untuk
mengajar
. list api00 acs_k3 meals full in 1/7
+---------------------------------+
| api00 acs_k3 meals full |
|---------------------------------|
1. | 693 16 67 76.00 |
2. | 570 15 92 79.00 |
3. | 546 17 97 68.00 |
4. | 571 20 90 87.00 |
5. | 478 18 89 87.00 |
|---------------------------------|
6. | 858 20 . 100.00 |
7. | 918 19 . 100.00 |
+---------------------------------+
Perintah berikut menampilkan matriks grafik diagram tebar untuk
tiap pasangan variabel kontinu:
. graph matrix api00 acs_k3 meals full, half
api2000
avgclasssizek-3
pctfree
meals
pct fullcredential
400 600 800 1000
-20
0
20
-20 0 20
0
50
100
0 50 100
0.00
50.00
100.00
Bab 7. Analisis Regresi Linear
98
Perintah ini adalah untuk menyajikan matriks korelasi:
. correlate api00 acs_k3 meals full (obs=313)
| api00 acs_k3 meals full
-------------+------------------------------------
api00 | 1.0000
acs_k3 | -0.0641 1.0000
meals | -0.8184 0.0097 1.0000
full | 0.2328 0.1789 -0.2518 1.0000
Estimasi model dan persamaan garis regresi adalah:
. regress api00 acs_k3 meals full
Source | SS df MS Number of obs = 313
---------+------------------------------ F( 3, 309) = 213.41
Model | 2634884.26 3 878294.754 Prob > F = 0.0000
Residual | 1271713.21 309 4115.57673 R-squared = 0.6745
---------+------------------------------ Adj R-squared = 0.6713
Total | 3906597.47 312 12521.1457 Root MSE = 64.153
--------------------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+----------------------------------------------------------------
acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073
meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348
full | .1086104 .090719 1.20 0.232 -.0698947 .2871154
_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555
--------------------------------------------------------------------------
Kesimpulan yang diperoleh yaitu:
- Rerata ukuran kelas (acs_k3, b = −2.68) tampak tak bermakna (p =
0.055). Koefisien negatif mengindikasikan bahwa ukuran kelas yang
lebih besar terkait dengan kinerja akademik yang lebih rendah.
- Efek meals (b = −3.70, p = 0.000) bermakna. Koefisien negatif
menunjukkan bahwa semakin besar proporsi siswa penerima makanan
gratis, semakin rendah kinerja akademik.
Ini tak berarti bahwa makanan gratis menyebabkan kinerja akademik
yang rendah. Variabel meals terkait erat dengan tingkat penghasilan dan
Bab 7. Analisis Regresi Linear
99
berfungsi sebagai proxy untuk kemiskinan. Tingkat kemiskinan yang
lebih tinggi diasosiasikan dengan kinerja akademik yang lebih rendah.
- Persentase guru dengan akreditasi penuh (full, b = 0.11, p = 0.232) tak
terkait dengan kinerja akademik, mengindikasikan bahwa persentase guru
dengan akreditasi penuh bukan merupakan faktor penting untuk
memprediksi kinerja.
Uji multikolinearitas dilakukan sebagai berikut:
. vif Variable | VIF 1/VIF
-------------+----------------------
full | 1.11 0.903713
meals | 1.07 0.933517
acs_k3 | 1.04 0.964781
-------------+----------------------
Mean VIF | 1.07
Kesimpulan yaitu tidak ada multikolinearitas. Multikolinearitas
dianggap ada jika ada variabel dengan nilai vif lebih besar dari pada 10.00
atau nilai Tolerance (= 1/ vif) lebih kecil daripada 0.10.
� Regresi Linear Ganda dengan Prediktor
Kategorik
Misalkan prediktor X akan diregresikan terhadap respons Y, X adalah
variabel kategorik dengan 3 kategori: X = {1, 2, 3}
Digunakan 2 variabel indikator 1Z dan 2Z ; masing-masing adalah
variabel biner; 1Z = {0, 1} dan 2Z = {0, 1}, sehingga model yang digunakan
menjadi:
iY = 0β +
1β 1iZ + 2β 2iZ + iε (7.4)
Konversi variabel kategorik menjadi variabel indikator pada Stata
dilakukan dengan operator i, yaitu 1 variabel kategorik X dengan p taraf
direpresentasikan oleh (p – 1) indikator Z.
Bab 7. Analisis Regresi Linear
100
1Z 2Z
X = 1 0 0
X = 2 1 0
X = 3 0 1
Misalnya, variabel ses dengan 3 taraf direpresentasikan oleh 2
variabel indikator yang dibentuk oleh i.ses (X = 1 menjadi baseline).
Contoh 7.4:
. use “D:\Data\Stata\hsb2”, clear
(highschool and beyond (200 cases))
. tabulate ses
ses | Freq. Percent Cum.
------------+-----------------------------------
low | 47 23.50 23.50
middle | 95 47.50 71.00
high | 58 29.00 100.00
------------+-----------------------------------
Total | 200 100.00
. tabulate ses, nolabel
ses | Freq. Percent Cum.
------------+-----------------------------------
1 | 47 23.50 23.50
2 | 95 47.50 71.00
3 | 58 29.00 100.00
------------+-----------------------------------
Total | 200 100.00
. regress science i.ses
Source | SS df MS Number of obs = 200
---------+-------------------------- F( 2, 197) = 8.57
Model | 1561.57802 2 780.789008 Prob > F = 0.0003
Residual | 17945.922 197 91.0960507 R-squared = 0.0801
---------+-------------------------- Adj R-squared = 0.0707
Total | 19507.5 199 98.0276382 Root MSE = 9.5444
Bab 7. Analisis Regresi Linear
101
--------------------------------------------------------------
science | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+-----------------------------------------------------
ses |
middle| 4.003135 1.702093 2.35 0.020 .6464741 7.359797
high | 7.746148 1.873189 4.14 0.000 4.052072 11.44022
|
_cons | 47.70213 1.392197 34.26 0.000 44.9566 50.44765
--------------------------------------------------------------
Taraf low pada variabel kategorik ses menjadi baseline untuk
kontras (middle vs low ; high vs low).
� Regresi Linear Ganda dengan Interaksi
Pada model regresi linear ini didapatkan interaksi 2 prediktor, yaitu
interaksi antara 1X dan 2X . Modelnya adalah:
iY = 0β +
1β 1iX + 2β 2iX +
3β 1iX 2iX + iε (7.5)
Sintaks yang digunakan yaitu:
regress depvar indepvars indepvar1#indepvar2 [if] [in] [, options]
indepvar1#indepvar2 : Suku interaksi
Pada pemodelan regresi linear dengan interaksi pada Stata ini
digunakan operator i. dan c.:
- Prediktor/variabel independen yang tidak dalam suku interaksi dalam
model regresi linear harus merupakan variabel kontinu atau indikator.
Operator i. mengubah variabel kategorik dengan kategori/taraf lebih
daripada 2, yang tidak dalam suku interaksi menjadi variabel indikator
agar dapat dimasukkan ke dalam model regresi linear.
- Prediktor/variabel independen dalam suku interaksi dalam model regresi
linear harus merupakan variabel kategorik atau indikator.
Operator c. mengubah variabel kontinu yang dalam suku interaksi
menjadi variabel kategorik.
Ikhtisar penggunaan operator i. dan c. pada prediktor dalam model
regresi linear diperlihatkan sebagai berikut:
Bab 7. Analisis Regresi Linear
102
Variabel tunggal:
X
Suku Interaksi:
1X # 2X
Biner {0, 1} varname varname
Kategorik
(taraf > 2) i.varname varname
Kontinu varname c.varname
Contoh 7.5:
. use “D:\Data\Stata\honolulu”
. regress tek_darah usia kolesterol
Source | SS df MS Number of obs = 100
---------+--------------------------- F( 2, 97) = 4.02
Model | 3404.78195 2 1702.39098 Prob > F = 0.0211
Residual | 41118.218 97 423.899155 R-squared = 0.0765
---------+--------------------------- Adj R-squared = 0.0574
Total | 44523 99 449.727273 Root MSE = 20.589
-----------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+------------------------------------------------------
usia | .8469443 .408067 2.08 0.041 .0370443 1.656844
kolesterol| .0906782 .0535687 1.69 0.094 -.0156407 .1969972
_cons | 64.97095 23.74061 2.74 0.007 17.85242 112.0895
-----------------------------------------------------------------
. regress tek_darah usia kolesterol c.usia#c.kolesterol
usia dan kolesterol keduanya adalah variabel kontinu, jika
dimasukkan ke dalam suku interaksi masing-masing memerlukan operator c.
Source | SS df MS Number of obs = 100
---------+---------------------------- F( 3, 96) = 3.27
Model | 4127.36425 3 1375.78808 Prob > F = 0.0246
Residual | 40395.6358 96 420.787872 R-squared = 0.0927
---------+---------------------------- Adj R-squared = 0.0643
Total | 44523 99 449.727273 Root MSE = 20.513
Bab 7. Analisis Regresi Linear
103
------------------------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------------------+---------------------------------------------------------
usia | 4.383427 2.729183 1.61 0.112 -1.033959 9.800813
kolesterol | .9399724 .6503 1.45 0.152 -.3508628 2.230808
|
c.usia#c.kolesterol | -.0158138 .0120677 -1.31 0.193 -.0397681 .0081404
|
_cons | -124.6174 146.5978 -0.85 0.397 -415.6118 166.377
------------------------------------------------------------------------------
. regress tek_darah usia rokok
Source | SS df MS Number of obs = 100
---------+------------------------- F( 2, 97) = 2.87
Model | 2485.12693 2 1242.56346 Prob > F = 0.0617
Residual | 42037.8731 97 433.380135 R-squared = 0.0558
---------+------------------------- Adj R-squared = 0.0363
Total | 44523 99 449.727273 Root MSE = 20.818
-----------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+------------------------------------------------------
usia | .9466804 .4112442 2.30 0.023 .1304745 1.762886
rokok | 3.566772 4.323255 0.83 0.411 -5.013693 12.14724
_cons | 77.97196 22.34209 3.49 0.001 33.6291 122.3148
-----------------------------------------------------------------
. regress tek_darah usia rokok c.usia#rokok
usia adalah variabel kontinu, jika dimasukkan ke dalam suku
interaksi memerlukan operator c. rokok adalah variabel indikator, sehingga
selalu tidak memerlukan operator.
Source | SS df MS Number of obs = 100
---------+--------------------------- F( 3, 96) = 1.93
Model | 2531.81794 3 843.939314 Prob > F = 0.1300
Residual | 41991.1821 96 437.408146 R-squared = 0.0569
---------+--------------------------- Adj R-squared = 0.0274
Total | 44523 99 449.727273 Root MSE = 20.914
Bab 7. Analisis Regresi Linear
104
-----------------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+---------------------------------------------------------
usia | 1.040749 .5035781 2.07 0.041 .041154 2.040343
rokok | 18.94451 47.26727 0.40 0.689 -74.88028 112.7693
|
rokok#c.usia |
1 | -.2877643 .8807723 -0.33 0.745 -2.036083 1.460555
|
_cons | 72.89675 27.29671 2.67 0.009 18.7132 127.0803
-----------------------------------------------------------------------
. regress tek_darah usia i.pend
pend adalah variabel kategorik, jika digunakan sebagai prediktor
tunggal (tidak dalam suku interaksi), memerlukan operator i.
Source | SS df MS Number of obs = 100
---------+--------------------------- F( 5, 94) = 1.68
Model | 3658.43513 5 731.687027 Prob > F = 0.1462
Residual | 40864.5649 94 434.729413 R-squared = 0.0822
---------+--------------------------- Adj R-squared = 0.0333
Total | 44523 99 449.727273 Root MSE = 20.85
-----------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+------------------------------------------------------
usia | .8387384 .420814 1.99 0.049 .0032023 1.674275
|
pend |
2 | -1.292157 5.573684 -0.23 0.817 -12.35884 9.774523
3 | -.0548732 6.053667 -0.01 0.993 -12.07457 11.96482
4 | -12.39448 8.182403 -1.51 0.133 -28.64083 3.851877
5 | -7.623154 7.872033 -0.97 0.335 -23.25326 8.006951
|
_cons | 87.38939 23.51743 3.72 0.000 40.69497 134.0838
-----------------------------------------------------------------
. regress tek_darah usia i.pend c.usia#pend
Dalam suku interaksi, pend sebagai variabel kategorik tidak
memerlukan lagi operator i., sedangkan usia sebagai variabel kontinu dalam
suku interaksi memerlukan operator c.
Bab 7. Analisis Regresi Linear
105
Source | SS df MS Number of obs = 100
---------+--------------------------- F( 9, 90) = 1.25
Model | 4941.84363 9 549.093736 Prob > F = 0.2762
Residual | 39581.1564 90 439.790626 R-squared = 0.1110
---------+--------------------------- Adj R-squared = 0.0221
Total | 44523 99 449.727273 Root MSE = 20.971
---------------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+-------------------------------------------------------
usia | 1.328125 .7005981 1.90 0.061 -.0637355 2.719985
|
pend |
2 | 49.26815 52.90101 0.93 0.354 -55.82895 154.3652
3 | -11.77593 69.6128 -0.17 0.866 -150.0739 126.5221
4 | 17.71206 126.0571 0.14 0.889 -232.7224 268.1465
5 | 155.7896 116.6524 1.34 0.185 -75.96074 387.5399
|
pend#c.usia |
2 | -.9249705 .9623264 -0.96 0.339 -2.8368 .9868588
3 | .2471469 1.303531 0.19 0.850 -2.342544 2.836838
4 | -.5503472 2.392998 -0.23 0.819 -5.304456 4.203761
5 | -3.089319 2.206097 -1.40 0.165 -7.472116 1.293478
|
_cons | 60.47312 38.76049 1.56 0.122 -16.53136 137.4776
---------------------------------------------------------------------
Bab 8. Analisis Regresi Logistik
106
BAB 8
ANALISIS REGRESI LOGISTIK
� Model Regresi Logistik Sederhana
Model regresi logistik adalah model hubungan antara prediktor
dengan respons biner, sedemikian hingga logit probabilitas respons
merupakan fungsi linear prediktornya:
Y = P [ 1Y X= ] (8.1)
dan: logit Y = ln ˆ
ˆ1
Y
Y− = 0β + 1β X (8.2)
dengan Y biner; iY = 0, 1.
Estimasinya yang diperoleh dari data sampel adalah:
logit Y = ln ˆ
ˆ1
Y
Y− = 0b + 1b X (8.2.a)
Perhatikan bahwa:
- Untuk model regresi logistik sederhana, ruas kanan persamaan (2)
hanya memiliki satu prediktor X.
- Pada ruas kanan persamaan (2) tidak didapatkan suku galat seperti
halnya pada model regresi linear dengan respons kontinu.
Prediktor X dapat berupa variabel kontinu ataupun kategorik. Jika
prediktor X kategorik, dalam persamaan (2) dinyatakan dengan satu atau
lebih variabel indikator seperti halnya pada model regresi linear.
Karena nilai Y merupakan sebuah nilai probabilitas, nilai Y dibagi
dengan komplemennya (= 1 − Y ) adalah nilai odds Y :
Odds Y = ˆ
ˆ1
Y
Y− (8.3)
dan logit Y dinamakan juga ln odds Y :
logit Y = log odds Y
Bab 8. Analisis Regresi Logistik
107
dan Y = P [ 1Y X= ] = ( )0 1
1
1 exp Xβ β++ − (8.4)
Estimasinya dari data sampel adalah:
Y = P [ 1Y X= ] = ( )0 11 exp
1
b b X− ++ (8.4.a)
Dari persamaan ln ˆ
ˆ1
Y
Y− = 0β + 1β X , diperoleh:
Odds Y = ˆ
ˆ1
Y
Y− = ( )0 1 exp Xβ β− +
Jika X juga biner, maka:
untuk X = 1 → Odds 1Y = ( )0 1e p x β β− +
dan untuk X = 0 → Odds 0Y = ( )0exp β−
Rasio antara keduanya adalah rasio odds respons Y dengan prediktor
X, yaitu:
OR = 1exp β− (8.5)
dan estimasinya adalah:
OR = 1exp b− (8.5.a)
Dalam praktik, ringkasan data sampel yang dikumpulkan dapat
disajikan dalam bentuk tabel 2×2 sebagai berikut:
Y = 1 Y = 0
X = 1 a b
X = 0 c d
Di sini estimasi untuk rasio odds dapat dinyatakan sebagai:
OR = a b
c d =
ad
bc (8.6)
Perhatikan tampilan baku tabel 2×2 untuk perhitungan rasio odds
adalah sebagai berikut:
- Prediktor X pada baris dan respons Y pada kolom.
- Prediktor ada (X = 1) pada baris atas dan prediktor tidak ada (X = 0)
pada baris bawah.
Bab 8. Analisis Regresi Logistik
108
- Respons ada (Y = 1) pada kolom kiri dan respons tidak ada (Y = 0) pada
kolom kanan.
Jika X kontinu, maka X = 0 pada tabel di atas diganti dengan X = x
dan X = 1 diganti dengan X = x + 1 (diasumsikan rasio odds konstan untuk
tiap pertambahan nilai X sebesar 1 satuan):
Y = 1 Y = 0
X = x + 1 a b
X = x c d
dengan estimasi rasio odds tetap adalah:
OR = a b
c d =
ad
bc
Perintah Stata untuk melakukan analisis regresi logistik sederhana
adalah:
logit depvar indepvar [if] [in], [, options]
Jika yang diinginkan adalah estimasi nilai rasio odds, perintahnya
adalah:
logistic depvar indepvar [if] [in], [, options]
Contoh 8.1:
. use "D:\Data\Stata\tension-type headache.dta", clear
. logit nktt hos
Iteration 0: log likelihood = -151.09691
Iteration 1: log likelihood = -138.66458
Iteration 2: log likelihood = -138.65922
Iteration 3: log likelihood = -138.65922
Logistic regression Number of obs = 218
LR chi2(1) = 24.88
Prob > chi2 = 0.0000
Log likelihood = -138.65922 Pseudo R2 = 0.0823
Bab 8. Analisis Regresi Logistik
109
-----------------------------------------------------------
nktt | Coef. Std. Err. z P>|z| [95% Conf. Interval]
------+----------------------------------------------------
hos | .1537723 .0330478 4.65 0.000 .0889998 .2185448
_cons | -1.918308 .4331991 -4.43 0.000 -2.767363 -1.069253
-----------------------------------------------------------
. logistic nktt hos
Logistic regression Number of obs = 218
LR chi2(1) = 24.88
Prob > chi2 = 0.0000
Log likelihood = -138.65922 Pseudo R2 = 0.0823
----------------------------------------------------------
nktt |Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
------+---------------------------------------------------
hos | 1.166225 .0385412 4.65 0.000 1.09308 1.244265
_cons | .1468553 .0636176 -4.43 0.000 .0628275 .3432648
----------------------------------------------------------
� Model Regresi Logistik Ganda
Misalkan untuk model regresi logistik di atas dimiliki p prediktor,
maka model logitnya menjadi:
logit Y = ln ˆ
ˆ1
Y
Y− = 0β + 1β 1X + 2β 2X + . . . + pβ pX (8.7)
dan probabilitas bersyarat responsnya adalah:
Y = P [ 1Y X= ] = ( )0 1 1 2 2 . . .
1
1 exp p pX X Xβ β β β+ + + ++ − (8.8)
Estimasinya dari data sampel masing-masing adalah:
logit Y = ln ˆ
ˆ1
Y
Y− = 0b + 1b 1X + 2b 2X + . . . + pb pX (8.7.a)
dan
Y = P [ 1Y X= ] = ( )0 1 1 2 2 . . .e p
1
1 x p pb b X b X b X+ + + ++ − (8.8.a)
Bab 8. Analisis Regresi Logistik
110
Di sini didapatkan p nilai rasio odds, masing-masing menyatakan
rasio odds hubungan respons Y dengan prediktor iX ; i = 1, 2, . . . , p.
iOR = exp iβ− (8.9)
dan estimasinya adalah:
ˆiOR = exp ib− (8.9.a)
Contoh 8.2:
Dalam contoh ini digunakan file data binary.dta, yang memuat data
penerimaan mahasiswa program pascasarjana (admit) sebagai respons.
Prediktornya adalah nilai-nilai mahasiswa di program sarjana, yaitu gre
(skor Graduate Record Exam), gpa (Grade Point Average), dan rank
(prestise perguruan tinggi asal).
. use "D:\Data\Stata\binary.dta", clear
. summarize gre gpa
gre dan gpa adalah variabel kontinu.
Variable | Obs Mean Std. Dev. Min Max
---------+--------------------------------------
gre | 400 587.7 115.5165 220 800
gpa | 400 3.3899 .3805668 2.26 4
. tab rank
rank adalah variabel kategorik.
rank | Freq. Percent Cum.
-------+------------------------------
1 | 61 15.25 15.25
2 | 151 37.75 53.00
3 | 121 30.25 83.25
4 | 67 16.75 100.00
-------+------------------------------
Total | 400 100.00
Bab 8. Analisis Regresi Logistik
111
. tab admit
admit sebagai respons, merupakan variabel biner.
admit | Freq. Percent Cum.
-------+------------------------------
0 | 273 68.25 68.25
1 | 127 31.75 100.00
-------+------------------------------
Total | 400 100.00
Berikut ditampilkan tabulasi silang admit dan rank.
. tab2 admit rank
| rank
admit | 1 2 3 4 | Total
------+--------------------------------+----------
0 | 28 97 93 55 | 273
1 | 33 54 28 12 | 127
------+--------------------------------+----------
Total | 61 151 121 67 | 400
Model regresi logistik ganda diperoleh sebagai berikut.
. logit admit gre gpa i.rank
Iteration 0: log likelihood = -249.98826
Iteration 1: log likelihood = -229.66446
Iteration 2: log likelihood = -229.25955
Iteration 3: log likelihood = -229.25875
Iteration 4: log likelihood = -229.25875
Logistic regression Number of obs = 400
LR chi2(5) = 41.46
Prob > chi2 = 0.0000
Log likelihood = -229.25875 Pseudo R2 = 0.0829
-----------------------------------------------------------------
admit | Coef. Std. Err. z P>|z| [95% Conf. Interval]
------+----------------------------------------------------------
gre | .0022644 .001094 2.07 0.038 .0001202 .0044086
gpa | .8040377 .3318193 2.42 0.015 .1536838 1.454392
|
Bab 8. Analisis Regresi Logistik
112
rank |
2 | -.6754429 .3164897 -2.13 0.033 -1.295751 -.0551346
3 | -1.340204 .3453064 -3.88 0.000 -2.016992 -.6634158
4 | -1.551464 .4178316 -3.71 0.000 -2.370399 -.7325287
|
_cons | -3.989979 1.139951 -3.50 0.000 -6.224242 -1.755717
-----------------------------------------------------------------
Perintah test menguji efek menyeluruh (overall effect) prediktor
rank.
. test 2.rank 3.rank 4.rank
( 1) [admit]2.rank = 0
( 2) [admit]3.rank = 0
( 3) [admit]4.rank = 0
chi2( 3) = 20.90
Prob > chi2 = 0.0001
Tampak bahwa efek menyeluruh rank bermakna secara statistik.
Dalam perintah berikut akan diuji kesamaan koefisien rank=2 dengan
koefisien rank=3.
. test 2.rank = 3.rank
( 1) [admit]2.rank - [admit]3.rank = 0
chi2( 1) = 5.51
Prob > chi2 = 0.0190
. logit , or
Perintah ini adalah untuk mendapatkan estimasi nilai-nilai rasio odds.
Logistic regression Number of obs = 400
LR chi2(5) = 41.46
Prob > chi2 = 0.0000
Log likelihood = -229.25875 Pseudo R2 = 0.0829
-----------------------------------------------------------------
admit | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
------+----------------------------------------------------------
gre | 1.002267 .0010965 2.07 0.038 1.00012 1.004418
gpa | 2.234545 .7414652 2.42 0.015 1.166122 4.281877
|
Bab 8. Analisis Regresi Logistik
113
rank |
2 | .5089309 .1610714 -2.13 0.033 .2736922 .9463578
3 | .2617923 .0903986 -3.88 0.000 .1330551 .5150889
4 | .2119375 .0885542 -3.71 0.000 .0934435 .4806919
|
_cons | .0185001 .0210892 -3.50 0.000 .0019808 .1727834
-----------------------------------------------------------------
Perintah “logit , or” dapat juga diberikan dalam bentuk “logistic
admit gre gpa i.rank”.
. margins rank, atmeans
Perintah margins adalah untuk menghitung probabilitas prediksi
respons untuk masing-masing prediktor.
Adjusted predictions Number of obs = 400
Model VCE : OIM
Expression : Pr(admit), predict()
at : gre = 587.7 (mean)
gpa = 3.3899 (mean)
1.rank = .1525 (mean)
2.rank = .3775 (mean)
3.rank = .3025 (mean)
4.rank = .1675 (mean)
---------------------------------------------------------------
| Delta-method
| Margin Std. Err. z P>|z| [95% Conf. Interval]
-----+---------------------------------------------------------
rank |
1 | .5166016 .0663153 7.79 0.000 .3866261 .6465771
2 | .3522846 .0397848 8.85 0.000 .2743078 .4302614
3 | .218612 .0382506 5.72 0.000 .1436422 .2935819
4 | .1846684 .0486362 3.80 0.000 .0893432 .2799937
---------------------------------------------------------------
Bab 9. Statistika Nonparametrik
114
BAB 9
STATISTIKA NONPARAMETRIK
� Uji ranksum Wilcoxon (Mann-Whitney)
Uji ranksum Wilcoxon (Mann-Whitney) menguji hipotesis bahwa
dua sampel independen berasal dari populasi dengan distribusi yang sama.
Sintaks-nya adalah:
ranksum varname [if] [in], by(groupvar)
Uji ini dapat dianggap sebagai padanan uji t untuk 2 sampel
independen pada Statistika Paramerik.
Contoh 9.1:
Hendak diuji efektivitas fuel additive baru dengan 24 mobil, 12
dengan fuel treatment dan 12 tanpa treatment. Dataset memuat variabel mpg
(mileage rating) untuk treat yang bernilai 0 (mobil tanpa treatment) serta
mpg untuk treat bernilai 1 (mobil dengan treatment).
. use “D:\Data\Stata\fuel2”, clear
. ranksum mpg, by(treat)
Two-sample Wilcoxon rank-sum (Mann-Whitney) test
treat | obs rank sum expected
-------------+---------------------------------
untreated | 12 128 150
treated | 12 172 150
-------------+---------------------------------
combined | 24 300 300
unadjusted variance 300.00
adjustment for ties -4.04
----------
adjusted variance 295.96
Bab 9. Statistika Nonparametrik
115
Ho: mpg(treat==untreated) = mpg(treat==treated)
z = -1.279
Prob > |z| = 0.2010
Hasil uji mengindikasikan nilai median kedua populasi tidak berbeda
secara bermakna.
� Uji signrank Wilcoxon
Uji signrank Wilcoxon menguji kesamaan distribusi data
berpasangan. Sintaks-nya jika pasangan data berada dalam 2 variabel
terpisah adalah:
signrank var_1 = var_2
Jika pasangan data terpisah dalam 1 variabel yang ditentukan oleh
taraf variabel kategoriknya:
by cat_var: signrank var_name
Uji ini dapat dianggap sebagai padanan uji t untuk 2 sampel
berpasangan pada Statistika Paramerik.
Contoh 9.2:
Seperti pada contoh 9.1, tetapi di sini tiap mobil dengan treatment
dipasangkan dengan 1 mobil tanpa treatment. Data mileage rating untuk tiap
pasangan berada dalam variabel mpg1 dan mpg2.
. use "D:\Data\Stata\fuel.dta", clear
. signrank mpg1=mpg2
Wilcoxon signed-rank test
sign | obs sum ranks expected
-------------+---------------------------------
positive | 3 13.5 38.5
negative | 8 63.5 38.5
zero | 1 1 1
-------------+---------------------------------
all | 12 78 78
unadjusted variance 162.50
adjustment for ties -1.63
adjustment for zeros -0.25
Bab 9. Statistika Nonparametrik
116
----------
adjusted variance 160.63
Ho: mpg1 = mpg2
z = -1.973
Prob > |z| = 0.0485
Didapatkan perbedaan yang bermakna antara distribusi kedua
pasangan data.
� Uji Kesamaan Rank Kruskal-Wallis Uji Kruskal-Wallis menguji bahwa beberapa (lebih daripada 2)
sampel berasal dari populasi yang sama. Uji ini merupakan perluasan uji
ranksum Wilcoxon. Sintaks-nya adalah:
kwallis varname [if] [in] , by(groupvar)
Uji ini dapat dianggap sebagai padanan ANOVA 1-arah pada
Statistika Parametrik.
Contoh 9.3:
. use “D:\Data\Stata\census”, clear
(1980 Census data by state)
. tab region
Census |
region | Freq. Percent Cum.
---------+---------------------------
NE | 9 18.00 18.00
N Cntrl | 12 24.00 42.00
South | 16 32.00 74.00
West | 13 26.00 100.00
---------+---------------------------
Total | 50 100.00
Bab 9. Statistika Nonparametrik
117
. tab region, nolabel
Census |
region | Freq. Percent Cum.
---------+---------------------------
1 | 9 18.00 18.00
2 | 12 24.00 42.00
3 | 16 32.00 74.00
4 | 13 26.00 100.00
---------+---------------------------
Total | 50 100.00
Untuk menguji adanya perbedaan medage pada keempat region:
. kwallis medage, by(region)
Kruskal-Wallis equality-of-populations rank test
+--------------------------+
| region | Obs | Rank Sum |
|---------+-----+----------|
| NE | 9 | 376.50 |
| N Cntrl | 12 | 294.00 |
| South | 16 | 398.00 |
| West | 13 | 206.50 |
+--------------------------+
chi-squared = 17.041 with 3 d.f.
probability = 0.0007
chi-squared with ties = 17.062 with 3 d.f.
probability = 0.0007
Tampak bahwa ada paling sedikit 1 pasang region yang medage -
nya berbeda secara bermakna.
Jika yang hendak diuji hanya perbedaan antara 2 region, misalnya
“NE” dan “N Cntrl”, dapat digunakan uji ranksum Wilcoxon:
Bab 9. Statistika Nonparametrik
118
. ranksum medage if region==1 | region==2, by(region)
Two-sample Wilcoxon rank-sum (Mann-Whitney) test
region | obs rank sum expected
-----------+---------------------------
NE | 9 144 99
N Cntrl | 12 87 132
-----------+---------------------------
combined | 21 231 231
unadjusted variance 198.00
adjustment for ties -0.51
----------
adjusted variance 197.49
Ho: medage(region==NE) = medage(region==N Cntrl)
z = 3.202
Prob > |z| = 0.0014
Tampak bahwa medage antara kedua region berbeda secara
bermakna.
Kepustakaan
119
KEPUSTAKAAN
Acock AC. A Gentle Introduction to Stata, 4rd Ed. College Station: Stata
Press, 2014.
Baum CF. Introduction to Stata. Faculty Micro Resource Center, Boston
College, August 2011. View 1 June 2017, available from
http://fmwww.bc.edu/GStat/docs/StataIntrp.pdf.
Bhattacharya PK, Burman P. Theory and Methods of Statistics.
Amsterdam: Elsevier, 2016.
Hamilton LC. Statistics with Stata: Updated for Version 12. Boston, MA:
Brooks/Cole, Cenage Learning, 2013.
Kohler U, Kreuter F. Data Analysis Using Stata, 3rd Ed. College Station:
Stata Press, 2012.
Kothari P. Data Analysis with Stata. Birmingham: Packt Publishing, 2015.
Kraska-Miller M. Nonparametric Statistics for Social and Behavioral
Sciences. Boca Raton, FL: CRC Press, 2014.
Long JS, Freese J. Regression Models for Categorical Dependent
Variables Using Stata, 3rd Ed. College Station: Stata Press, 2014.
Longest KC. Using Stata for Quantitative Analysis. Thousand Oaks,
California: Sage Publications, 2012.
Mitchell MN. A Visual Guide to Stata Graphics. College Station: Stata
Press, 2004.
Montgomery DC, Peck EA, Vining GG. Introduction to Linear Regression
Analysis, 5th Ed. Hoboken, New Jersey: John Wiley & Sons, 2012.
Rabe-Hesketh S, Everitt B. A Handbook of Statistical Analyses Using
Stata, 4th Ed. Boca Raton: Chapman & Hall/CRC, 2007.
Kepustakaan
120
StataCorp LP. Stata Base Reference Manual: Release 14. College Station,
Texas: Stata Press, 2015.
_______. Stata Data-Management Reference Manual: Release 14.
College Station, Texas: Stata Press, 2015.
_______. Stata Graphics Reference Manual: Release 14. College Station,
Texas: Stata Press, 2015.
_______. Stata User’s Guide: Release 14. College Station, Texas: Stata
Press, 2015.
Suárez EL, Pérez CM, Nogueras GM, Moreno-Gorrín C. Biostatistics in
Public Health Using Stata. Boca Raton, FL: CRC Press, 2016.