eksplorasi sebaran data univariate menggunakan histogram...
TRANSCRIPT
Apa itu Histogram
• Histogram– Histos: sesuatu yang diatur tegak
– Gramma: gambar, tulisan
• Grafik yang menggambarkan distribusi dari data (kontinu) yang berupa deretan batang sama lebar berdampingan yang tingginya menggambarkan banyaknya data untuk berbagai selang nilai
Tampilan Histogram
Sumbu vertikal menunjukkan persentase atau frekuensi dari setiap selang nilai
Sumbu horizontal menampilkan selang-selang nilai variabel yang akan dilihat distribusinya
Antar batang tidak ada celah
Tinggi rendahnya batang menggambarkan besar
kecilnya frekuensi masing-masing selang nilai
Cara Membuat Histogram
• Tahapan Pembuatan
1. Susun selang-selang nilai yang sama lebar, dan meliputi seluruh nilai data yang dimiliki
2. Hitung banyaknya amatan yang tercakup dalam masing-masing selang
3. Pada sumbu mendatar, tandai untuk setiap batas selang nilai
4. Pada setiap selang nilai, gambarkan batang yang tingginya sesuai dengan frekuensinya
Selang Nilai Frekuensi32-33 133-34 134-35 035-36 436-37 737-38 1538-39 1539-40 1440-41 441-42 1242-43 1143-44 744-45 745-46 546-47 747-48 1048-49 1249-50 2250-51 4051-52 4752-53 6053-54 6854-55 4155-56 3156-57 2257-58 1558-59 1159-60 660-61 161-62 262-63 2
proc univariate data=a.a;var x;histogram x / endpoints=31 to 64 by 1 vscale=COUNT;run;
Dapat diganti dengan PERCENT atau PROPORTION
Kegunaan Histogram
• Memberikan informasi ukuran pemusatan dan penyebaran data secara ringkas, meskipun ukuran contohnya sangat besar
• Mengenali pola umum sebaran
• Mengidentifikasi keberadaan data yang ‘kurang wajar’ dan ekstrim
• Memberikan informasi secara cepat banyaknya amatan yang termasuk dalam selang minat tertentu (misal: produk cacat)
Beberapa usulan penentuan banyaknya selang
• Akar kuadrat dari banyaknya amatan
• Formula yang diusulkan H.A. Sturges
• Formula yang diusulkan Rice University
nk
1log2 nk
3
1
2nk
Beberapa usulan penentuan banyaknya selang
• Formula yang diusulkan DP Doane
• Formula yang diusulkan David Freedman dan P Diaconis
31
5.3
n
sk
31
IQR 2
nk
Perbandingan Sebaran antar Kelompok
libname a 'D:\bagusco\Kuliah S1 --- STK 335 Analisis Eksplorasi Data\STK335 Analisis Eksplorasi Data -- 2015-2016';
data a;set a.a;if _n_ le 100 then group=1; else group=2;
proc univariate data=a;class group;var x;histogram x / midpoints = 32 to 60 by 1 outhistogram=b;run;
Perbandingan Sebaran antar Kelompok
proc univariate data=a;class group;var x;histogram x / endpoints=31 to 64 by 1;run;
Perbandingan Sebaran antar Kelompok
symbol1 i = join ci=red w=2;symbol2 i = join ci=blue w=2;proc gplot data=b;plot _obspct_ * _midpt_ = group;run;
Apa lagi kegunaan histogram?
• Keberhasilan program pengentasan kemiskinan
• Keberhasilan program kampanye marketing
• Apa lagi?
Kegunaan Histogram
Mengevaluasi Model Skoring
16
• Melihat apakah model mampu menghasilkan skor yang dapat membedakan Bad-Good, Defaulf vs Non Default
• Kondisi Ideal: antara Bad dan Good distribusi skor-nya terpisah
• Model 2 lebih baik dibandingkan Model 1
18
BOXPLOT
• informasi ukuran pemusatan dan penyebaran (berupa kuartil)
• informasi bentuk sebaran
• informasi data ekstrim
20
Tahapan• hitung statistik lima serangkai (Min, Q1, Q2, Q3, Max)
• hitung batas atasBA = Q3 + 3/2 (Q3-Q1)
• hitung batas bawahBB = Q1 - 3/2 (Q3-Q1)
• deteksi keberadaan pencilan, yaitu data yang nilainyakurang dari BB atau data yang lebih besar dari BA
• gambar kotak, dengan batas Q1 sampai Q3, danletakkan tanda garis di tengah kotak pada posisi Q2
21
• Tarik garis ke kanan, mulai dari Q3 sampai data terbesar di dalam batas atas
• Tarik garis ke kiri, mulai dari Q1 sampai data terkecil di dalam batas bawah
• Tandai pencilan dengan lingkaran kecil