resume jurnet
Post on 09-Dec-2015
10 Views
Preview:
DESCRIPTION
TRANSCRIPT
Spreadsheet Berbasis Derivasi dari Distribusi Probabilitas dari
Sampel Acak
1. Pendahuluan
Program spreadsheet sering digunakan sebagai alternatif untuk perangkat
lunak statistika profesional. Banyak masalah Statistik dapat dengan cepat dan
akurat diselesaikan dalam spreadsheet. Semua langkah-langkah ringkasan utama,
probabilitas fungsi, tabel, grafik, dll, yang juga didukung oleh program
spreadsheet kontemporer. Meskipun demikian, ada beberapa tugas yang
membutuhkan perhatian khusus dan perawatan untuk memastikan hasil yang
tepat. Makalah ini menyajikan kasus yang lengkap untuk menghasilkan distribusi
frekuensi empiris untuk terus-menerus menggunakan program Microsoft Excel
spreadsheet kompatibel. Ini menunjukkan bagaimana untuk menyelaraskan teori
terbaik dan praktek berbasis spreadsheet sehubungan dengan produksi distribusi
frekuensi. Sebuah survei singkat dan analisis spreadsheet metode, digunakan
untuk menghasilkan distribusi frekuensi, juga disediakan.
Probabilitas distribusi adalah untuk meningkatkan kesadaran akan keadaan
keputusan yang tidak pasti. Probabilitas Distribusi yang paling nyaman dan kuat
sumber informasi tentang beberapa karakteristik (variabel) dari situasi yang tidak
menentu. Dalam rangka untuk siswa, mengambil kursus Statistik Bisnis, mampu
menghasilkan informasi tersebut seharusnya. Tahu bagaimana untuk menangkap
sampel dalam spreadsheet, berhati-hati pada pilihan yang berbeda dan isu-isu
yang berkaitan dengan menghasilkan distribusi frekuensi. Pelajari cara
menerapkan prosedur khas spreadsheet untuk menghasilkan distribusi frekuensi,
memahami kekuatan dan kelemahan dari prosedur spreadsheet yang berbeda,
dapat memilih distribusi probabilitas yang cocok berdasarkan penilaian (visual)
intuitif distribusi frekuensi [empiris], dan belajar bagaimana untuk melakukan tes
kebaikan dari Fit, melibatkan distribusi frekuensi dan distribusi probabilitas
dipilih.
1
2. Latar Belakang
Sebagian besar buku pelajaran Statistik modern pengantar mulai
menjelajahi Statistik dengan topik data centric, misalnya (Anderson di al., 2012,
Black 2012, Donnelly, 2012, Larose, 2010, Levine, et al., 2011, Pelosi di al.,
2003, Triola, 2007). Siswa pertama kali belajar tentang tujuan statistik, termasuk
statistik deskriptif. Selanjutnya mereka menjadi akrab dengan data cakupan dan
jenis. Khususnya, di dalam lingkup, mereka belajar secara umum tentang
perbedaan dan hubungan antara sampel dan populasi. Mengenai jenis data, siswa
menjadi akrab dengan sifat dan perbedaan antara data kualitatif dan kuantitatif
data. Pada tahap ini, meskipun demikian Statistik berkaitan dengan data acak, ada
beberapa referensi untuk kemungkinan atau distribusi probabilitas data.
Diperdebatkan dalam konteks statistik, set data acak terbaik digambarkan
oleh distribusi probabilitas. Informasi yang dapat diperoleh secara langsung dari
sebuah set data (misalnya, dari sampel) juga boleh didapati dari distribusi
probabilitas. Namun, kemungkinan terkait topik yang biasanya dibahas dalam
bab-bab kemudiannya, setelah siswa belajar tentang bagaimana memperlakukan
data empirik.
Tidak diragukan lagi, ada hubungan yang sangat kuat antara statistik dan
probabilitas. Orang bisa mengatakan bahwa statistik adalah tempat bermain untuk
probabilitas atau bahwa kemungkinan adalah jiwa untuk Statistik. Seperti dalam
disiplin lain (seperti fisika) terdapat banyak alasan baik untuk memperoleh
setidaknya pemahaman dasar teori sebelum mencoba untuk mempelajari aplikasi.
Meskipun demikian, buku pelajaran kontemporer pergi ke arah lain di sekitar.
Cukuplah untuk mengatakan, gagal untuk mematuhi aturan-aturan dasar teori
(probabilitas) dapat mengakibatkan kesalahan atau ketidaksempurnaan ketika
mengembangkan aplikasi Statistik.
Banyak buku, meliputi pengenalan statistik, memberikan petunjuk rinci
tentang bagaimana membangun distribusi frekuensi, menggunakan tabel dan
grafis representasi (Anderson pada al., 2012 p. 49-52, hitam, 2012 p.20-22,
Donnelly, 2012, ms 30-34, Larose, 2010, p.47-50, Levine, et al., 2011, ha1.26-30,
Pelosi di al., 2003, p.64-67, Triola, 2007, p.). Di saat yang sama, siswa tidak perlu
2
belajar dari petunjuk ini tentang hubungan penting antara distribusi frekuensi yang
berasal dari sampel dan distribusi probabilitas, mewakili populasi yang dipilih
sampel.
3. Analisis dan Pembahasan
Ada banyak metode untuk menghasilkan distribusi frekuensi empiris dalam
spreadsheet. Hal ini menunjukkan dua metode: CountIf metode dan metode
frekuensi. Pertama menggunakan spreadsheet fungsi CountIf untuk pertama
menghasilkan distribusi frekuensi kumulatif dan lalu fungsi frekuensi untuk
menghasilkan distribusi frekuensi . Metode kedua kompatibel dengan definisi
teori probabilitas distribusi (seperti yang ditunjukkan di bagian sebelumnya).
Menerapkan frekuensi metode dengan Setup 1 gambar 2 menunjukkan
fragmen lembar dicap sebagai metode frekuensi.
Berbagai A2:A626 berisi sampel yang dipilih secara acak dari Distribusi
Normal dengan μ = 1000 dan σ = 160. Petunjuk berikut menyediakan semua
formula yang diperlukan. Itu berasal dari sebuah prosedur, yang melibatkan fungsi
frekuensi, disajikan di (Pelosi et al. 1998, ms. 103-117).
Langkah 1 : Setting up the intervals:
a) Cell C2: =Count(A2:A626) -- sample size, n.
b) Cell C4: =Log(C2,2) -- suggested number of intervals
c) Cell C5: 10 -- accepted number of intervals, m
d) Cell C7: =Min(A2:A626) -- sample minimum
e) Cell C8: =Max(A2:A626) - - sample maximum
f) Cell C9: =C8-C7 -- sample range
g) Cell C10: =C9/C5 -- suggested interval width, w
h) Cell C11: 80 -- accepted interval width
i) Cell C13: 600 -- left limit of the first interval
Dicatat bahwa jumlah disarankan interval 9.29 (sel C4). Masuk akal untuk
menggunakan m = 10 interval. Lebar disarankan interval adalah 76.3195. Nilai
dipilih w = 80 . Akhirnya, titik awal (kiri batas interval pertama) dipilih sebagai l0
= 600, nilai sedikit lebih kecil daripada minimum sampel (630.4197). Sejak batas
3
tepat interval terakhir, lm = 600 10 * 80 = 1.400, lebih besar dari sampel
maksimum (1,393.6150), seluruh ditutupi oleh interval. Jadi, dengan setup seperti
itu, interval terbuka, (-∞, l0], (lm, ∞), kosong. Hal ini penting untuk dicatat bahwa
interval dihasilkan tidak menutupi seluruh domain teoritis penduduk (variabel) X.
Dengan demikian, mereka tidak sepenuhnya kompatibel dengan domain teoritis.
Langkah 2: Tiga parameter m w, l0, ditetapkan pada langkah sebelumnya, yang
digunakan untuk membangun batas interval:
a) Range E4:E14, labeled as j, contains a sequence of indexes, j = 0, 1, 2, …,
m, in this case: 0,1,2,3,4,5,6,7,8,9,10.
b) Range F4:F14, labeled as bin, defines the interval limits, lj, j = 0, 1, 2, …,
m, Cell F4: =C13 ( l0 ) Cell F5: =F4+$C$11 ( l0 + w ) Range F6:F14:
Copy the formula in cell F5 and paste it to range F6:F14.
c) Range G5:G14, labeled as interval, contains the intervals (l0, l1], (l1, l2], (
l2, l3], …, (lm-1, lm] Cell G5: ="("&F4&","&F5&"]" ( (l0, l1] ) Range
G6:G14: Copy the formula in cell G5 and paste it to range G6:G14.
Langkah 3: Sudah sekarang waktu yang baik untuk menghasilkan distribusi
frekuensi, menggunakan rumus dengan pertama menghitung frekuensi absolut:
a) Select range H4:H15, labeled as fsn() absolute frequency, type formula
=FREQUENCY(A2:A626,F4:F14), hold down keys Shift+ Ctrl and
press Enter. This array-based formula will fill the H4:H15 range with
absolute frequencies associated with all the intervals, including the open-
ended intervals, (-∞,l0] and ( lm,+ ∞). As expected the open-ended
intervals contain no data, since l0 > min(Xs) and lm < max(Xs). The
absolute frequency distribution, fsn(), is then used to define the
frequency distribution in the range I4:I15, labeled as fs() frequency.
b) Cell I4: =H4/$C$2
c) Range I5:I14: Copy the formula in cell I4 and paste it to range I5:I14.
d) Range J4:J14: Based on formula (vi) one can develop formulas for the
cumulative frequency, Fs(l0) = fs(-,l0) Fs(lj) = Fs(lj-1) + fs(lj-1,lj), for j
= 1, 2, …, m. Cell J4: =I4 ( Fs(l0) = fs(-,l0) ) Cell J5: =J4+I5 ( Fs(l1) =
4
Fs(l0) + fs(l0,l1) ) Range J6:J14: Copy the formula in cell J6 and paste it
to range J6:J14.
Memeriksa visual distribusi frekuensi dapat merumuskan sebuah hipotesis
(hipotesis nol, Ho) berasal dari populasi Normal. Hipotesis alternatif (hipotesis,
HA) akan menegaskan bahwa sampel tidak datang dari populasi Normal.
CountIf dan frekuensi fungsi yang tidak berarti hanya spreadsheet untuk
menghasilkan distribusi frekuensi. Fungsi CountIf menyediakan tetapi paling
mampu, di saat yang sama, solusi yang paling rumit untuk pekerjaan ini. Ia bisa
menangani semua jenis data dan pengaturan interval semua untuk tipe data
numerik. Fungsi frekuensi mungkin memberikan solusi yang paling elegan dan
sederhana. Namun, itu hanya dapat menangani tipe numerik data. Microsoft Excel
dilengkapi dengan dua alat yang dapat digunakan untuk menghasilkan distribusi
frekuensi, Analisis Data dalam iklan di Histogram perintah dan perintah tabel
Pivot.
Perintah Histogram dapat digunakan untuk menghasilkan distribusi
frekuensi untuk data kuantitatif. Jika interval kelas tidak disertakan, perintah ini
akan menentukan sendiri interval, menggunakan setup terbuka, dimana jumlah
interval berada dekat dengan akar kuadrat dari ukuran sampel. Perintah ini dapat
secara otomatis menghasilkan histogram (kolom-grafik). Perintah tabel Pivot is
cool tapi ini sering disalahgunakan. Itu tidak boleh digunakan untuk pengolahan
data kuantitatif karena tidak kompatibel untuk definisi distribusi probabilitas.
Gambar 7 menunjukkan, sisi-by-side, hasil untuk pengolahan sama sampel
menggunakan tabel Pivot (Anderson di al., 2012, ms. 51) dan menerapkan fungsi
frekuensi, di mana kedua memberikan hasil yang benar. Sampel terdiri dari
nomor-nomor berikut:
12,13,14,14,15,15,16,17,18,18,18,19,20,21,22,22 ,23,27,28,33, mewakili waktu
Audit. Meskipun demikian hal ini terus-menerus tabel Pivot dihasilkan urutan
aneh interval kelas: [10-14], [15-19], [20-24], [25-29], [30-34]. Semua batas
interval inklusif dan ada kesenjangan antara batas atas dari interval sebelumnya
dan batas bawah interval berhasil. Setup seperti itu tidak kompatibel dengan
definisi dari distribusi probabilitas. Perintah tabel Pivot harus dihindari saat
5
memproses data kuantitatif. Itu pekerjaan yang baik dengan penanganan data
kualitatif.
4. Kesimpulan
Kasus yang disajikan dalam tulisan ini menggunakan sampel yang
dihasilkan secara acak pemrograman berasal dari populasi Normal. Ukuran
sampel cukup besar (n = 625). Orang akan berharap tanpa setiap pengujian resmi
bahwa distribusi frekuensi diamati adalah Normal. Gambar 6 menunjukkan dua
frekuensi histogram Diperoleh dari dua distribusi frekuensi. Satu dapat dengan
jelas melihat bahwa histogram untuk langkah 2, termasuk interval terbuka, hampir
sempurna berbentuk lonceng. Mungkin yang serupa. Meskipun demikian, salah
satu keuntungan yang jelas langkah 2 adalah bahwa itu adalah 100% konsisten
dengan domain teoritis dari populasi [Normal] (-∞, ∞).
Karena Seting interval yang berbeda memberikan distribusi frekuensi
[empiris] yang berbeda, pertanyaan yang jelas adalah: yang satu adalah kualitas
terbaik? Banyak buku Statistik menyarankan visual penilaian kualitas ini, yang
berfokus terutama pada kelancaran histogram terkait, menghindari interval kosong
dan interval penuh melanggar, dll. Seperti ditunjukkan dalam tulisan ini, penilaian
akhir dalam menilai kualitas ini dapat didasarkan pada nilai diamati ukuran X2.
Langkah-langkah yang lebih kecil dari X2 menyediakan lebih cocok untuk
distribusi probabilitas [teoritis]. Apakah optimasi atau tidak optimasi penuh
pengaturan interval dilakukan, itu penting untuk diingat bahwa setiap studi dari
suatu distribusi frekuensi harus mempertimbangkan banyak pengaturan yang
berbeda dari interval. Idealnya, seleksi akhir harus didasarkan pada kebaikan Fit
tes.
Jika tes mendukung cocok, kemudian menilai probabilitas yang relevan
dapat disederhanakan dengan memanfaatkan distribusi probabilitas teoritis.
Dengan kata lain, distribusi dapat berfungsi sebagai model baik probabilitas.
Ketika memilih alat spreadsheet untuk menghasilkan distribusi frekuensi,
memimpin jalan untuk distribusi probabilitas, salah satu harus
6
mempertimbangkan untuk menerapkan: fungsi CountIf, fungsi frekuensi atau
perintah Histogram.
LAMPIRAN
Gambar 1. Sampel ke Populasi
Gambar 2. Fungsi Frekuensi
7
Gambar 3. Test Fit untuk Langkah 1
Gambar 4. Fungsi CountIF
8
Gambar 5. Test Fit untuk Langkah 2
Gambar 6. Grafik Perbedaan Langkah 1 dan Langkah 2
9
Gambar 7. Tabel Pivot dan Fungsi Frekuensi
10
top related