statistika industri pak mame - sampling 1
TRANSCRIPT
SAMPLING THEORY
(Probabilitas, Test Significance, Estimasi Parameter, Testing Hypothesa)
(Walpole, Chapters 8,9,10 )
Secara teoritis, dari suatu populasi yang terbatas dapat dihitung harga rata-rata populasi
(misalnya: rata-rata berat badan mahasiswa ITB Notasi = ). Besaran tersebut (harga
rata-rata) hanya ada satu harga, karena dihitung dari populasi, disebut juga parameter.
Dengan demikian parameter bukanlah variabel tetapi konstanta.
Dalam kenyataannya, walaupun suatu populasi sebenarnya terbatas, dalam praktek
mungkin kita tidak bisa mengukur parameter yang sesungguhnya karena masalah teknis
yang tidak memungkinkan. Contohnya rata2 berat badan warganegara Indonesia.
Kenyataan tersebut dan juga pertimbangan biaya memaksa kita untuk bekerja dengan
sample, sehingga hubungan fungsional antara sample dan population menjadi sangat
penting untuk diketahui karena kita akan menyimpulkan parameter (besaran karakteristik
populasi ) hanya berdasarkan pengetahuan kita dari sample (statistics)
Sampling theory berkaitan dengan sifat-sifat dari distribusi statistik sebagaimana berbagai
model probabilistic lainnya. Dari sifat-sifat distribusi statistik itulah dapat dilakukan
inferensi (generalisasi) terhadap populasi dan perkiraan error yang terkandung.
Dengan demikian sampling theory berkaitan dengan konstruksi atau pembentukan
distribusi probability dari statistik dan evaluasi tentang sifat-sifatnya.
Statistik yang dihitung dari random sample merupakan “random variable” oleh karena
nilai yang muncul tidak dapat dipastikan sebelumnya tetapi masih berupa kemungkinan.
Oleh karena itu setiap statistik akan bersifat probabilistic dan memiliki distribusi
probabilistic-nya sendiri (seringkali disebut sampling distribution, sebenarnya adalah
distribusi probability statistic yang dihitung dari sample)
Ke 4 aspek yang dibahas ( probabilitas, test significance, estimasi parameter dan testing
hypothesa) sebenarnya bukan topic yang terpisah, akan tetapi berkaitan satu sama lain
atau memiliki pemahaman yang sama.
Parameter = Besaran yang dihitung dari populasi, notasi : , 2
Statistics = Besaran yang dihitung dari sample, notasi : X , S 2
1. Sampling Distribution of Mean (Distribusi Probability dari Harga Rata-rata)
Dari suatu populasi dapat diambil sample dengan ukuran n < N berulang kali sampai
tidak terhingga, dan setiap sample akan memiliki harga rata-rata sample
)...,,( 321 dstXXX ,dengan nilai yang berbeda-beda , maka semua iX tersebut akan
membentuk populasi statistic harga rata2 yang akan berdistribusi dengan harga rata-rata
(harga rata-rata dari harga rata-rata sample): p
XX i
(p = banyaknya sample bukan ukuran sample)
karena banyaknya sampel yang diambil ber-ulang adalah tidak terhingga maka p ~
atau nilai harga rata2 iX akan membentuk populasi yang tidak terhingga maka notasi
statistic :p
XX i diatas berubah menjadi parameter :
X harga rata
2 dari populasi
harga rata2 sampel iX
Oleh karena dalam kenyataannya banyaknya sampel p yang bisa diambil jumlahnya tidak
terbatas, kita tidak bisa melakukan penghitungan X
secara empiris sehingga sifat-sifat
dari distribusi statistik ini harus diturunkan secara teoritis dalam kaitannya dengan
distribusi populasi X.
Central Limit Theorem:
Bila X adalah harga rata-rata dari sample dengan ukuran n yang diambil dari populasi
dengan mean = dan variance 2 , maka X akan mengikuti distribusi normal dengan
harga rata-rata dari X (notasi X
) = dan variance 2
X =
n
2
Bila 30n , theorem tersebut valid apapun distribusi dari populasi.
Bila 30n , theorem tersebut valid bila distribusi dari populasi adalah distribusi normal.
Dari formulasi diatas, dapat dilihat bahwa bila ukuran sampel semakin besar, maka
deviasi atau variance dari distribusi statistic X akan semakin kecil dan akan mendekati
nol bila ukuran sampel (n) mendekati ukuran populasi ( N )
Contoh 1: Perusahaan lampu memproduksi lampu dengan umur (lifetime) yang
mengikuti distribusi normal dengan rata-rata umur = 800 jam dan standar
deviasi = 40 jam.
Bila diambil random sample sebanyak 16 lampu berapa probability rata-rata
umur lampu tersebut sama atau kurang dari 775 jam?
Dalam soal tersebut, hanya diandaikan 1 sample diambil dengan ukuran sample = 16, dan
dari sample tersebut kita harus menyimpulkan probability bahwa harga rata-rata lifetime
≤ 775 jam. Jadi dalam kasus ini sampel belum diambil.
a. Probabilitas
Dari CLT kita mengetahui bahwa sample yang diambil akan menghasilkan harga rata-
rata sample iX yang akan berdistribusi normal dengan 800 X
dan
104
40
16
40
nX
Sample hanya diambil 1 x, dan dari CLT kita mengeahui bahwa nilai 775X adalah
bagian dari distribusi random variable iX dengan harga rata-rata X
= 800 dan
standar deviasi dari populasi 10X
Karena harga rata-rata )(X tersebut mengikuti distribusi normal, kita dapat
menggunakan table normal dengan memperlakukan harga rata-rata iX sama seperti
variable random lain yang berdistribusi normal. Untuk dapat menggunakan tabel
probabilitas standard normal, kita harus melakukan konversi nilai )(X menjadi nilai Z
standard normal.
Konversi nilai variable random X ke standar normal
Xz dimana X dalam
kasus ini adalah 775iX dan adalah 800X
dan adalah 10X
5,210
25
10
800775
z atau 0062,0)5,2()775( zPXP
Probabilitas sebesar (0,62%) perlu di- interpretasikan apakah cukup besar atau relatif
kecil? dan
apa artinya dalam pengambilan keputusan ? Pengertian tentang hal itu
berkaitan dengan aspek lain (test significance, test hypothesa) yang akan dibahas pada
bagian selanjutnya.
Untuk sementara ini dapat diartikan bahwa dari 1000 sample hanya akan ada ± 6 sampel
yang akan memiliki harga rata2 lifetime 775 jam.
775i
X
X 800
10X
denganXDistribusi
40dgnXDistribusi Sample sebanyak 16n bisa
diambil berulang-ulang dan akan
menghasilkan distribusi populasi
harga rata-rata (sampling
distribution of mean)
Jadi Probabilitas = 0,0062 bukanlah proporsi banyaknya produk yang akan memiliki
lifetime 775 jam, tetapi proporsi atau probability banyaknya sampel yang memiliki
harga rata2 lifetime 775 jam.
Untuk menentukan proporsi atau probability dari produk yang akan memiliki
lifetime 775 , dapat dihitung langsung dari distribusi populasi (dengan asumsi bahwa
=800 dan =40 adalah benar). Atau banyaknya produk dengan lifetime 775 jam
adalah P(X 775 )=P(z )625,040
)800775(
= 0,2676 atau 26,76 %.
Contoh 2 : Suatu pabrik diminta untuk memproduksi komponen (shaft) dengan ukuran
diameter rata-rata 5mm dan deviasi dari produksi ukuran tersebut adalah =
0,1. Untuk pengujian dilakukan random sampling sebanyak 100 dan
setelah dihitung ternyata rata-rata dari sample= 5,027.
Apa kesimpulan yang dapat diambil?
Dalam kasus ini sample diambil untuk mengkaji apakah proses produksi
memang menghasilkan produk dengan 0,5mm?
Kita mengetahui bahwa ukuran rata-rata produk yang dihasilkan tidak
mungkin seluruhnya tepat 5mm, tetapi akan bervariasi.
Bila kasus produksi memang menghasilkan produk dengan =5mm, maka
kemungkinan besar ukuran sample akan berada sekitar = 5mm atau dpl
tidak terlalu jauh dari 5mm. Rata-rata sample= 5,027 apakah dipandang
dekat/jauh dari ukuran yang diharapkan?
Kejadian bahwa harga rata2
sampel menyimpang lebih besar 0,027 dari yang diharapkan
bisa juga terjadi sebaliknya yaitu menyimpang lebih kecil atau menghasilkan harga rata2
= 5 - 0,027 = 4,973, sehingga probabilitas yang harus dicari adalah probabilitas sampel
akan menghasilkan )027,5( X dan )973,4( X
Harga rata2
X akan mengikuti distribusi normal dengan X
5 dan standard deviasi
01,010
1,0
100
1,0
nX
. Maka konversi nilai )027,5( X ke standard normal
adalah : Z = 7,201,0
027,0
01,0
5027,5
Probability terjadinya %35,00035,0)7,2()027,5( zPXP
dan %35,0)973,4()}027,05({ XPXP . Atau total Probability = 0,7%
Apa artinya besaran probability = 0,7% tersebut ?
Uraian
Dalam soal no.1 dan 2, kita bekerja dengan 3 distribusi:
a. Distribusi populasi dengan variable random Xi (umur lampu, diameter).
Distribusi populasi ini diasumsikan menghasilkan )40&800( 11 dan
)1,05( 22 &
b. Distribusi random variable Xi dalam sample yang menghasilkan 7751 X , dan
027,52 X (variance/deviasi dalam sample tidak diketahui).
c. Distribusi dari random variable iX . Berdasarkan CLT distribusi ini akan
mengikuti distribusi normal dan menghasilkan X
dan n
X
.
7751 X dan 027,52 X adalah bagian dari distribusi ini.
Oleh karena 21 & XX terambil (atau diasumsikan) maka seharusnya 21 & XX
tersebut memiliki peluang yang besar atau mendekati X
masing2. Bila ternyata
dari konversi ke standar normal (z), nilai 1X atau 2X jauh dari parameterX
(memiliki probability sangat kecil untuk terjadi) maka kita mungkin meragukan
bahwa harga rata-rata dari populasi )( adalah sama seperti yang dinyatakan.
Catatan:
Dari no.1 dan no.2, prosedur pengambilan kesimpulan dilakukan dengan cara
yang sama walaupun sebenarnya persoalannya berbeda.
Soal No.1:
Harga rata-rata populasi dianggap/diyakini benar dan kita ingin mengetahui
berapa besar probability mendapatkan ukuran rata-rata produk suatu harga
tertentu (dalam hal ini 775X ) (Note: sample sendiri belum diambil).
Soal No.2:
Harga rata-rata populasi tidak diyakini dengan pasti dan pengambilan sample
dilakukan untuk menguji apakah proses produksi memang menghasilkan produk
dengan ukuran rata-rata yang diharapkan? Sampling sudah dilakukan dan harga
rata-rata sample sudah dihitung
Kasus:
X diketahui
b. Test Significance.
Dari kedua soal diatas kita melihat bahwa masalah yang dihadapi adalah kita harus
mengartikan besar kecilnya probability yang terkait dengan suatu kejadian (event).
Probability harga rata2 lifetime sampel 775 jam=0,0062 dan Probability mesin
diketahui
menghasilkan produk dengan diameter rata2 027,5X apakah dipandang cukup
besar atau kecil.
Bila Probabilitas dianggap kecil untuk terjadi akan tetapi dalam kenyataannya itu
terjadi (artinya probability kejadian itu seharusnya besar), maka kita memiliki dasar
yang cukup rasional untuk mempertanyakan bahwa proses produksi kita mungkin
sudah menyimpang dari apa yang diharapkan.
Permasalahan assessment besar kecilnya probabilitas tersebut merupakan persoalan
yang sifatnya subjective, sehingga untuk bisa lebih rasional maka kita harus
menentukan batas besaran probabilitas yang dianggap besar dan kecil.
Batas tersebut seringkali disebut sebagai rejection level atau significance level (bila
dinyatakan dalam nilai Z ). Luas area atau probability atau proporsi yang terkait
dengan batas tersebut seringkali disebut sebagai rejection area atau daerah penolakan
kesalahan dan , bila dinyatakan dalam % probabililitas.
Pengujian significance sebenarnya mempertanyakan apakah besaran statitistik yang
didapat (dalam hal ini misalnya rata2 lifetime lampu = 775 jam atau rata
2 diameter =
5,027 mm) dapat dikatakan berbeda dari apa yang dinyatakan tentang besaran
parameter ( 1 = 800 dan 2 = 5 mm ) ?
Bila dalam soal no 1, sampel sebanyak 16 benar-benar diambil dan ternyata harga
rata2 sampel memang 7751 X , maka kita memperkirakan bahwa harga rata
2
populasi juga = 775 berdasarkan logika bahwa harga X yang terambil sebagai sampel
haruslah X yang memiliki probabilitas terbesar. Harga X yang memiliki probabilitas
terbesar adalah harga X yang seharusnya memiliki nilai = X
. Jadi bila sampel
menunjukkan harga X = 775 maka seharusnya nilai ini adalah = X
dan karena
berdasarkan CLT X
= , maka harga rata2 populasi juga = 775.
Dari pemikiran tersebut maka kemudian timbul pertanyaan, bila memang benar
demikian apakah kita dapat menyimpulkan bahwa penyimpangan tersebut (perbedaan
antara 775 dan 800 ) dapat dipandang sebagai perbedaan yang serius atau tidak?
Dalam terminology statistic pertanyaannya adalah :
Apakah nilai = 775 itu berbeda significance dengan nilai = 800 ? Pertanyaan ini
penting karena kita mengetahui bahwa setiap kali kita mengambil sampel maka nilai
harga rata2
sampel atau iX akan selalu berubah2 karena merupakan bagian dari suatu
distribusi. Sepanjang perbedaan tersebut dapat dipandang tidak significance, maka
kita menyimpulkan bahwa pernyataan tentang nilai parameter adalah benar dan
sebaliknya.
Dalam pengertian awam, tentu saja angka atau nilai 775 berbeda dengan 800, akan
tetapi dalam analisa statistic kita tidak dapat menyimpulkan seperti itu, karena
signifikasi perbedaan antara nilai dari dua distribusi akan tergantung kepada besar
kecilnya variance distribusi tersebut.
Pertanyaan diatas seringkali juga dinyatakan dalam bentuk lain ” Apakah sample
yang diambil berasal dari populasi lain ? ” Sampel akan dianggap berasal dari
populasi lain bila harga atau nilai statistic sampel memang berbeda significance
dengan apa yang dinyatakan sebagai parameter populasi.
Untuk melakukan test significance kita perlu menentukan daerah atau batas
probabilitas untuk rejection atau sering disebut (alpha).
Dalam kenyataannya tidak ada rumusan yang pasti untuk menentukan besar-kecilnya
, akan tetapi didasarkan pada kebiasaan atau konvensi, biasanya antara 2.5% sd
10%
Area rejection atau probabilitas terkait langsung dengan pengertian probabilitas
kesalahan pengambilan kesimpulan atau sering disebut Error Type I yang sekaligus
menentukan besarnya probabilitas kesalahan β atau Error Type II
Dalam kenyataannnya, untuk setiap pengambilan kesimpulan statistic, kita tidak akan
pernah bebas dari kemungkinan kesalahan, karena kaitan antara dan β. Bila kita
mencoba memperkecil probabilitas kesalahan maka kita akan memperbesar
probabilitas kesalahan β, demikian pula sebaliknya.
Rejection α dan
Risiko menolak hypothesa yang seharusnya tidak ditolak (type I error)
Risiko ”menerima” (tidak bisa menolak) hypothesa yang seharusnya ditolak (type II
error)
Bila A adalah distribusi populasi dan B distribusi sample
A 1BX
Pengujian significance dilakukan dengan membandingkan antara probabilitas terjadinya
suatu kejadian dengan batas α yang ditetapkan. Bila probabilitas kejadian yang dihitung
< α maka disimpulkan bahwa perbedaan cukup significance, demikian sebaliknya.
Misalnya bila ditetapkan batas α = 5%, maka untuk contoh soal no 1, dimana hanya
dipermasalahkan kejadian X 775 dan dari perhitungan P( X 775 ) = 0,62 % atau
BX
Sample menunjukkan harga di
BX jadi ditolak padahal BX bisa saja
berasal dari distribusi A.
Sebaliknya, harga 1BX bisa saja
berada pada daerah , sehingga tidak
ditolak, padahal nilai 1BX memang
berasal dari distribusi B1 bukan
distribusi A
kurang dari 5%, maka bila sampel menghasilkan rata2 775X , maka perbedaan dengan
μ = 800 dipandang significance atau sampel dipandang berasal dari distribusi lain
dengan 800 .
Untuk soal no 2, karena yang dipertanyakan adalah nilai 973,4X dan 027,5X maka
batas rejection α = 5% akan terbagi pada kedua sisi distribusi (two tails), masing2 =
2,5%
Dari perhitungan yang didapat, probabilitas masing2 untuk kedua kejadian tersebut
besarnya adalah 0,35% atau lebih kecil dari batas 2
. Artinya kita menyimpulkan
bahwa perbedaan harga rata2 027,5X
cukup
significance berbeda dari harga rata
2
populasi yang dinyatakan yaitu μ = 5. Kesimpulan itu dapat diartikan bahwa parameter
harga rata2 populasi 5
c. Testing Hypothesa
Analisis yang menyangkut perhitungan probabilitas dan test significance sebenarnya
terkait langsung dengan apa yang secara formal disebut pengujian Hypothesa.
Sebagaimana dikemukakan terdahulu, data parameter dalam kenyataannya sulit untuk
diketahui kecuali populasi yang terbatas dan memang secara teknis dapat dihitung. Dalam
kebanyakan kasus data parameter selalu bersifat hypotethetic karena tidak diketahui.
Parameter mungkin ditetapkan berdasarkan data masa lalu, hasil perhitungan
perencanaan teknis, atau sekedar asumsi, perkiraan atau harapan.
Dengan demikian, semua pernyataan tentang parameter sebenarnya adalah hypothesa
yang harus diuji, dimana pengujian empiric hanya dapat dilakukan melalui sampel karena
pendataan dan perhitungan populasi (sensus) sulit untuk dilakukan.
Untuk contoh soal no 1 diatas maka pernyataan bahwa 800 sebenarnya adalah
hypothesa yang harus diuji sehingga formulasi masalahnya adalah sbb :
H0 : 800 (hypothesa nol)
H1: 800 (hypothesa alternative)
Dalam kasus ini Hypothesa alternative hanya tertarik untuk melakukan pengujian 1 arah
(one tail) yaitu kearah nilai harga rata2 < 800, karena kasusnya menyangkut produksi
lampu dimana kemungkinan konsumen complaint adalah bila umur lampu dibawah atau
kurang dari yang dinyatakan oleh produsen.
Dari perhitungan probabilitas 775X sebesar 0,62 % < α = 5%, telah disimpulkan
bahwa harga rata2 sampel 775X berbeda significance dari apa yang dinyatakan
produsen bahwa 800 atau Hypothesa Nol : H0 ditolak.
Dalam pengujian significance, walaupun H1 adalah (< 800) akan tetapi untuk pengujian
yang digunakan adalah nilai harga rata2
dari sampel ( 775X ).
Untuk contoh soal no 2, pengujian dilakukan 2 arah (two tails) karena hasil produk tidak
boleh memiliki ukuran rata2 yang lebih besar atau lebih kecil dari yang seharusnya.
H0 : 5 Hasilnya adalah sebagaimana dalam test significance
H1 : 5 dimana H0 ditolak karena total probability 0,7%<2,5%
d. Estimasi Parameter
Sebagaimana dikemukakan terdahulu, pernyataan atau data parameter pada dasarnya
bersifat hypothetic. Walaupun pengujian significance menyimpulkan bahwa H0 tidak
dapat ditolak atau kita tertbebas dari kesalahan α akan tetapi kita tetap memiliki risiko
kesalahan β.
Karena nilai parameter sesunggguhnya tidak pernah bisa diketahui, maka yang bisa kita
lakukan hanyalah memperkirakan atau melakukan estimasi nilai parameter berdasarkan
satu-satunya sumber informasi kita yaitu data statistic dari sampel.
Point estimate dan Intervale Estimate
Untuk perkiraan data harga rata2
populasi atau μ, apa yang kita miliki dengan pasti
hanyalah data harga rata2 sampel X . Kita dapat menggunakan statistic X tersebut
sebagai estimate μ dan bila dilakukan seperti itu maka kita melakukan perkiraan yang
disebut Point Estimate. Pendekatan ini memang memberikan satu estimate atau angka
perkiraan yang exact akan tetapi seberapa jauh kita bisa meyakini perkiraan yang exact
tersebut karena pada umumnya perkiraan seperti itu pasti tidak benar atau tingkat
keyakinan/kepercayaan kita atas point estimate tsb mendekati nol.
Dari kenyataan tersebut maka proses estimasi akan selalu terkait dengan tingkat
keyakinan/kepercayaan atas kebenaran estimate tersebut atau yang sering disebut
confidence level (atau confidence coefficient atau degree of confidence
Bila confidence level dari point estimate adalah nol atau dpl point estimate sama sekali
tidak dapat dipercaya, maka satu2 nya cara untuk meningkatkan tingkat keyakinan atau
confidence level tersebut adalah dengan membuat estimate yang bukan hanya 1 (satu)
angka, akan tetapi suatu interval estimate.
Walaupun demikian, interval estimate juga tidak bisa memberikan confidence level 100%
karena 100% confidence level hanya bisa diberikan bila interval estimate tersebut
mencakup estimate dari (- ~) sampai (+ ~) .
Oleh karena itu seringkali batas interval estimate ditetapkan berdasarkan confidence level
yang disesuaikan dengan besaran α, atau confidence level = (1- α)
Bila confidence level ditetapkan = (1- α), maka interval estimate adalah: X
ZX 2
dimananX
disebut sebagai standard error of estimate
Batas atas dan bawah interval yaitu X
ZX 2
dan X
ZX 2
disebut confidence limit
Dari hubungan dalam interval estimate tersebut dapat dilihat bahwa bila hanya X
digunakan sebagi point estimate maka 2
Z haruslah = 0 atau 2
haruslah 50%, artinya
confidence level haruslah = 1 – %502 = 0
Dari contoh soal no.1 diatas, bila ditetapkan %5 maka interval estimate dimana
parameter berada adalah :
6,197751096,17752
X
ZX atau 6,7944,755 .
Jadi berdasarkan statistic sample dapat dilihat bahwa perkiraan harga estimate
parameter tidak pernah mencapai nilai 800 .
Risiko kesalahan α dan β
Hasil perhitungan estimasi parameter diatas sekaligus juga sebenarnya merupakan cara
lain untuk konfirmasi perhitungan probabilitas, perbedaan significance ataupun test
hypothesa yang dihitung pada bagian sebelumnya yang intinya pernyataan bahwa
800 harus ditolak.
Dengan menolak H0 maka kesimpulan kita terbebas dari risiko β (type II error) tetapi kita
memiliki risiko α sebesar 5% oleh karena ada 5% kemungkinan bahwa sampel dengan
harga 775X berasal dari distribusi dengan 800 .
Seandainya sampel kita menunjukkan harga 790X , maka probability
%51587,0)0,110
800790()790(
ZPXP artinya kita tidak bisa
menolak H0.
Dengan tidak menolak H0 maka kita terbebas dari risiko α akan tetapi kita memiliki risiko
kesalahan β.
Untuk menghitung besarnya risiko β, prosedurnya adalah sbb :
1. Nilai batas rejection utk α=5% one tail, adalah z = -1,65 (sebelah kiri 800 )
2. Konversikan nilai Z = - 1,65 menjadi nilai X pada distribusi dengan 800 ,
-1,65= 783,5101,65-800 XX
atau 10
800
3. Konversikan nilai X = 783,5 menjadi nilai Zstandard normal pada distribusi dengan
790 .
65,010
7905,783
Z dan dari tabel normal maka P( 65,0Z ) =0,7422 atau
kita menghadapi risiko sebesar 74,22 % melakukan kesalahan β (tidak menolak
hypothesa yang seharusnya ditolak )
Kasus σ tidak diketahui
Dalam pembahasan sebelumnya, nilai parameter σ diasumsikan diketahui. Apabila nilai
parameter σ tersebut tidak diketahui maka kita dapat menggunakan deviasi/variance S
yang dapat dihitung dari sampel sebagai estimate σ.
Dengan menggunakan S sebagai estimate σ maka dalam konversi nilai X melalui
formula : X
X
, besaran yang dihasilkan lebih mengikuti distribusi t dan bukan
distribusi normal atau X
Xt
dengan degree of freedom v = n-1, Nilai t yang didapat
dibandingkan dengan rejection level 2
t , atau dicari probabilitasnya untuk dibandingkan
dengan 2
yang ditetapkan.
Untuk interval estimate : n
StX2
Untuk contoh soal no 1, maka variance sampling distribution adalah: n
SX .
Bila deviasi tidak diketahui dan misalkan yang diketahui adalah S =40, maka sampling
distribution dari X akan memiliki deviasi 1016
40 X
, maka konversi X =775
adalah : t = 10
800775
X
XX
= -2,5. Maka P( t<-2,5 ) untuk dof 15adalah antara 1-
1,5 %. ( Bandingkan dengan solusi awal dimana diketahui = 40, melalui konversi ke
distribusi normal maka P(Z<-2,5)=0,62%.
Walaupun angka probabilitas tersebut dalam kasus ini tetap menunjukan signifikasi
perbedaan, akan tetapi dengan n semakin kecil kecenderungan untuk melakukan
kesalahan menjadi semakin besar. Bila n >30, maka utk nilai 5,2t besarnya
probabilitas adalah sekitar 0,75% yang tidak banyak berbeda dengan pengujian Z.
Degree of Freedom
Banyaknya informasi yang independent yang dapat digunakan (measure of sample
informasi)
a) Banyaknya besaran (kuantitas) yang tidak diketahui minus banyaknya persamaan
independent yang menghubungkan besaran yang tidak diketahui tersebut.
Contoh : Dalam persamaan aljabar kita hanya bisa menetapkan besaran yang tidak
diketahui bila kita memiliki persamaan yang independent sebanyak besaran
yang tidak diketahui tersebut.
Misalnya: a + b + c = d, maka kita memiliki 3 dof karena ada 4 besaran
yang tidak diketahui dan persamaan hanya ada satu, artinya bila 3 besaran
kita tetapkan maka besaran ke 4 akan terdefinisi.
Bila ada persamaan lain mis: a + b = 3, maka dof kita 4 -2 = 2. Artinya bila
kita tentukan 2 besaran, maka besaran ke 3 dan ke 4 akan terdefinisi. Bila
ada persamaan lain : a + c = 4, maka dof = 1, cukup 1 besaran kita tetapkan
maka ke 3 besaran lain terdefinisi. Bila ada lagi persamaan a + d = 5, maka
dof = 0. Atau tidak ada degree of freedom, untuk 4 besaran yang tidak
diketahui, 4 persamaan independent akan mendefinisikan besaran-besaran
tersebut.
a + b + c = d a = 2,5
a + b = 3 b = 0,5
a + c = 4 c = 1,5
b + d = 5 d = 4,5
Dalam menentukan harga rata-rata X kita memiliki n dof karena untuk:
Xn
X i
, .. dimana untuk sebanyak n besaran yang tidak diketahui (X1, X2, ... Xn) kita
tidak memiliki persamaan apapun yang menghubungkan antara harga Xi ersebu
jadi ki a bebas menen ukan se iap harga i tersebut
Dalam menentukan 1n
)X(XS
2
i2
kita memiliki (n – 1) dof karena :
1iX s/d n , kita memiliki satu persamaan yang menghubungkan nilai )X(X i
tersebut, yaitu 0)X(Xi
RESUME
a. Nilai parameter yang dinyatakan pada dasarnya bersifat hypothetic karena
ditetapkan berdasarkan design teknis/perencanaan, data masa lalu atau sekedar
harapan/keinginan sehingga harus diuji melalui data empiris yang diambil dari
sampel.
b. Sampel menghasilkan statistic yang memiliki hubungan fungsional dengan
parameter, sehingga inferensi mengenai parameter populasi dapat dilakukan.
c. Nilai statistic iX dari sampel adalah nilai dari variabel random yang memiliki
probabilitas tertentu untuk terjadi sehingga besar kecilnya nilai probabilitas dapat
digunakan untuk menentukan kesimpulan benar tidaknya nilai parameter yang
dinyatakan sebelumnya.
d. Perhitungan probabilitas, test significance, interval estimate dan test hypothesa
pada dasarnya adalah sama dan digunakan untuk menguji hypothetic parameter
yang dinyatakan.
e. Untuk kasus dimana tidak diketahui, maka S (standard deviasi sampel) dapat
digunakan sebagai pengganti (estimate) , tetapi konversi variabel random iX
akan mengikuti distribusi t, bukan distribusi normal.