artikel

9
Kajian Keandalan Formula Ukuran Sampel sebagai Alat Inferensi Statistika dalam Era Data Besar Joko Ade N Data Besar adalah sebuah istilah yang saat ini menjadi topik utama perstatistikan dunia. Sudah barang tentu, istilah tersebut juga tidak asing lagi dalam perstatistikan Indonesia. Dalam perkembangannya, Data Besar mulai masuk dan dikenal di Indonesia sejak tahun 2000 seiring dengan kebutuhan manusia yang semakin banyak dan keinginan pemenuhan kebutuhannya yang semakin cepat dan serba praktis. Oleh karena itu, Data Besar merupakan sebuah tantangan baru dan harus dieksekusi sesegera mungkin dan seefisien mungkin. Semakin banyaknya kebutuhan Data Besar secara otomatis juga menjadi tantangan besar dalam me-manage data secara sistematis dan komprehensif. Hal tersebut dikarenakan Data Besar tidak hanya mencakup mengenai suatu data yang berjumlah besar tetapi lebih pada sebuah sistem yang merupakan perpaduan dari tiga unsur utama, yaitu volume, variasi dan kecepatan. Volume menyangkut mengenai jumlah dari data yang besar, bahkan mencapai angka miliar data. Selain itu, volume juga menunjukkan berbagai sub-sub populasi dari berbagai karakteristik yang bersatu padu dalam kapasitas yang besar, misalnya data mengenai jumlah update status akun facebook sedunia atau data nodes atau pengguna akun Twitter yang mencapai 47,1 Miliar nodes 1 . Sudah barang tentu hal yang demikian tidaklah mampu untuk ditampung dalam media berkapasitas yang kecil karena nantinya juga dibutuhkan sebagai frame pengambilan sampel untuk analisis. Variasi, elemen variasi dalam Data Besar menunjukkan besarnya keragaman karakteristik yang ada dari setiap kombinasi antar data dalam jumlah yang besar dalam satuan volume tertentu. Misalnya data mengenai jumlah angkatan kerja Indonesia tahun 1997-2013 berdasarkan umur dan status pendidikan menurut provinsi, dari data semacam ini pastinya akan menimbulkan variasi data yang bisa besar atau malah kecil. Secara mendalam adanya variasi menunjukkan keanekaragaman informasi dalam suatu data sehingga semakin bervariasi artinya data tersebut semakin besar memberikan informasi dalam beragam karakteristik. Oleh karena itu, dalam Data Besar terdapat informasi yang memungkinkan hampir tidak terbatas jumlahnya sehingga sangat diperlukan alat yang sesuai untuk analisis yang nantinya digunakan sebagai pengambilan 1 Lu,Jianguo dan Li, Dingding.2012. Bias Correction in Small Sample from Big Data. Hal. 1.

Upload: joko-stis

Post on 26-Nov-2015

15 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Artikel

Kajian Keandalan Formula Ukuran Sampel sebagai Alat Inferensi Statistika dalam

Era Data Besar

Joko Ade N

Data Besar adalah sebuah istilah yang saat ini menjadi topik utama perstatistikan dunia.

Sudah barang tentu, istilah tersebut juga tidak asing lagi dalam perstatistikan Indonesia. Dalam

perkembangannya, Data Besar mulai masuk dan dikenal di Indonesia sejak tahun 2000 seiring

dengan kebutuhan manusia yang semakin banyak dan keinginan pemenuhan kebutuhannya yang

semakin cepat dan serba praktis. Oleh karena itu, Data Besar merupakan sebuah tantangan baru

dan harus dieksekusi sesegera mungkin dan seefisien mungkin. Semakin banyaknya kebutuhan

Data Besar secara otomatis juga menjadi tantangan besar dalam me-manage data secara

sistematis dan komprehensif. Hal tersebut dikarenakan Data Besar tidak hanya mencakup

mengenai suatu data yang berjumlah besar tetapi lebih pada sebuah sistem yang merupakan

perpaduan dari tiga unsur utama, yaitu volume, variasi dan kecepatan. Volume menyangkut

mengenai jumlah dari data yang besar, bahkan mencapai angka miliar data. Selain itu, volume

juga menunjukkan berbagai sub-sub populasi dari berbagai karakteristik yang bersatu padu

dalam kapasitas yang besar, misalnya data mengenai jumlah update status akun facebook sedunia

atau data nodes atau pengguna akun Twitter yang mencapai 47,1 Miliar nodes1. Sudah barang

tentu hal yang demikian tidaklah mampu untuk ditampung dalam media berkapasitas yang kecil

karena nantinya juga dibutuhkan sebagai frame pengambilan sampel untuk analisis. Variasi,

elemen variasi dalam Data Besar menunjukkan besarnya keragaman karakteristik yang ada dari

setiap kombinasi antar data dalam jumlah yang besar dalam satuan volume tertentu. Misalnya

data mengenai jumlah angkatan kerja Indonesia tahun 1997-2013 berdasarkan umur dan status

pendidikan menurut provinsi, dari data semacam ini pastinya akan menimbulkan variasi data

yang bisa besar atau malah kecil. Secara mendalam adanya variasi menunjukkan

keanekaragaman informasi dalam suatu data sehingga semakin bervariasi artinya data tersebut

semakin besar memberikan informasi dalam beragam karakteristik. Oleh karena itu, dalam Data

Besar terdapat informasi yang memungkinkan hampir tidak terbatas jumlahnya sehingga sangat

diperlukan alat yang sesuai untuk analisis yang nantinya digunakan sebagai pengambilan

1 Lu,Jianguo dan Li, Dingding.2012. Bias Correction in Small Sample from Big Data. Hal. 1.

Page 2: Artikel

kebijakan. Kecepatan, elemen ketiga ini sangat erat hubungannya dengan kendala waktu atas

keinginan para pengguna data karena selain ada beberapa sifat data yang sangat sensitif dan

strategis juga terdapat pula data yang memang pelu waktu relatif lama untuk digunakan,

misalnya data mengenai inflasi Badan Pusat Statistik (BPS) dan data Indeks Harga Saham

Gabungan (IHSG). Dalam hal ini kecepatan diperlukan karena menyangkut strategi bisnis dan

perdagangan sehingga menuntut agar informasi mengenai data tersebut bisa didapatkan oleh

pengguna data dengan cepat untuk segera mengambil keputusan dan kebijakan bisnis dan

perdagangan.

Menyangkut mengenai prosedur pengambilan keputusan dalam analisis Data Besar juga

merupakan tantangan tersendiri karena Data Besar lebih dari sekedar “populasi” data. Disinilah

muncul pemikiran prosedur pengambilan keputusan dengan penggunaan sampel. Pertanyaan

yang mungkin muncul adalah mengapa harus menggunakan sampel, bukankah dengan

menggunakan populasi akan menjamin terdapat informasi yang diperoleh lebih banyak. Mungkin

perlu dikemukakan terlebih dahulu mengenai definisi dan kendala penggunaan sampel. Menurut

Sugiyono (2007, hal. 116), sampel adalah bagian dari jumlah dan karakteristik yang dimiliki oleh

populasi bila populasi besar, dan peneliti tidak mampu mempelajari semua yang ada pada

populasi, misalnya karena keterbatasan dana, tenaga dan waktu maka peneliti dapat

menggunakan sampel yang diambil dari populasi tersebut untuk menggambarkan karakteristik

dari populasi. Urgensitas pengambilan Data Besar dengan penggunaan sampel saja merupakan

keharusan untuk efisiensi dan efektivitas proses analisis. Selain itu, dikarenakan penggunaan

populasi untuk dianalisis juga menjadi sia-sia ketika hal tersebut mempunyai keuntungan dan

manfaat yang sama jika hanya menggunakan sampel sehingga tidak efisien. Sebagai ilustrasi

kecil dalam kehidupan sehari-hari, dengan hanya mengambil sedikit nasi saja sudah cukup untuk

memperkirakan apakah seluruh nasi apakah sudah matang atau belum. Disinilah peranan sampel

dalam mendukung analisis Data besar.

Sejalan dengan kemajuan dan perkembangan ilmu pengetahuan dan teknologi, peranan

ilmu statistika mengalami banyak perubahan ke arah yang lebih baik, khususnya metodologi

penelitian, baik eksak maupun non-eksak. Keterkaitan dengan metodologi penelitian, dalam

prosedur untuk sampai tahapan analisis secara umum menggunakan metode sampling. Metode

sampling merupakan metode untuk mendapatkan sampel dari populasi, mulai dari tahapan

perencanaan hingga tahap akhir, yakni tahapan estimasi atau inferensia statistik.

Page 3: Artikel

Terkait dalam upaya mendapatkan sampel, dalam perkembangannya para ahli statistika

telah mengembangkan berbagai bentuk formula mengenai seberapa besar jumlah sampel yang

relevan untuk digunakan sebagai pondasi bahan baku analisis data. Relasinya dengan Data Besar,

dengan volumenya yang banyak dengan variasi yang besar serta adanya kendala waku dalam

aspek kecepatan dalam penyajian hasil kepada konsumen data, menjadikan peranan metode

untuk menentukan ukuran sampel juga sangat diperlukan karena menyangkut pemenuhan aspek

keterwakilan sampel terhadap populasi yang ada sehingga akan mampu menggambarkan seluruh

karakteristik dari populasi. Sampai saat ini, terdapat banyak bentuk formula untuk menentukan

sampel tersebut. Diantara beragam bentuk formula tersebut, yang dipakai dalam penelitian

adalah berdasarkan tingkat presisi, formula Slovin, formula Isaac-Michael dan formula Newbold.

Penggunaan beberapa formula tersebut yang sering dipakai dalam penelitian sangat

berhubungan dengan aspek kemudahan, biaya ekonomis. Namun lebih jauh lagi, penggunaan

formula tersebut tanpa didasari konsep atau dasar kuat justru akan menimbulkan kerancuan dan

keraguan terhadap ukuran sampel yang dipakai untuk dasar inferensia statistik nantinya. Menurut

Setiawan (2007, hal. 3), ketika seorang peneliti telah memutuskan untuk menggunakan

pendekatan statistika dalam menentukan ukuran sampel, paling tidak harus sangat

memperhatikan empat aspek mendasar, yaitu tujuan penelitian yang akan dilaksanakan, besar

tingkat keandalan pendugaan yang diinginkan, besar galat pendugaan yang akan ditolelir dan

kondisi keragaman populasi yang akan diteliti. Tidak hanya itu, ukuran atau jumlah populasi itu

sendiri juga perlu menjadi perhatian dalam semua tahapan menuju analisis data, apalagi dalam

hal ini dalam jumlah besar, seperti nodes (pengguna) jaringan akun Facebook dan Twitter atau

data jumlah penduduk dunia dalam kurun waktu 50 tahun menurut negara. Artinya perlu

dilakukan peninjauan jika populasinya mencapai ribuan bahkan mencapai miliaran. Sebagai

tambahan lagi, dalam hal ini juga dibutuhkan pemilihan pendekatan yang sesuai, apakah dengan

pendekatan probabilita statistik atau cukup menggunakan non-probabilita statistik. Namun,

sebaiknya dalam penelitian dengan Data Besar menggunakan pendekatan probabilita statistik

karena ketersediaan datanya sudah terpenuhi meskipun terkendala masalah efisiensi dan biaya.

Oleh karena adanya beberapa kriteria dan kendala tersebut, menjadikan pembahasan mengenai

formula penentuan ukuran sampel terkait fenomena Data Besar sangat menarik untuk dikaji

secara mendalam berdasarkan kajian literatur dan simulasi dengan berbagai ukuran populasi

yang merepresentasikan Data Besar.

Page 4: Artikel

Pertama mengenai formula ukuran sampel berdasarkan tingkat presisi atau derajat risiko

sampling umumnya digunakan untuk menentukan ukuran sampel yang sederhana dan

memberikan suatu ukuran peluang bahwa ukuran yang ditentukan mempunyai kekuatan dalam

tingkat kepercayaan tertentu. Secara matematis formula ukuran sampel tersebut dinyatakan

sebagai berikut :

2 2

22

Sn

αθ

ε= (1)

dimana : 2

αθ adalah karakteristik tertentu yang mengikuti distribusi peluang tertentu, misalnya

distribusi t atau distribusi normal (Z) dengan tingkat kesalahan sebesar 2α , dengan estimator

variasi dari populasi serta error marginal (tingkat kesalahan marginal) tertentu sebesar ε . Secara

teoritis formula tersebut digunakan dalam pengambilan sampel dengan pengembalian, sementara

yang digunakan dalam pengambilan sampel tanpa pengembalian diformulasikan sebagai berikut :

2 2

22 2 2

2

ˆ

ˆ( 1)

S Nn

N S

α

α

θ

ε θ=

− + (2)

Dalam berbagai penelitian kebanyakan memakai metode pengambilan sampel tanpa

pengembalian yang tergantung pada jumlah populasi (N). Berdasarkan ada beberapa hal yang

perlu diperhatikan sebelum menggunakan formula tersebut. Pertama adalah jumlah populasi

apakah sangat besar atau tidak karena erat kaitannya dengan Data Besar, misal jumlah populasi

blog buatan Indonesia tahun 2013. Sehingga formula tersebut diturunkan sebagai berikut :

2 22 2 2 2 2 2

22 2 22 22 2 2 2 2 2 2

2 2

ˆˆ ˆ ˆlimlim

ˆ ˆ 0 0( 1) ( )lim

N

N

N

NSS N S S

NN S N S

N

αα α α

α α

θθ θ θ

ε εε θ ε ε θ

= = =− + − + − +

uuur

uuur

uuur

(3)

Dalam hal ini dengan Data Besar, jumlah populasi sedemikian banyak sangat dipengaruhi oleh

distribusi peluang karakteristik, variasi data serta tingkat kesalahan marjinal yang ditentukan,

tetapi dalam hal ini perlu ditinjau ulang mengenai variasi dari populasinya, semakin besar

populasi (Data Besar) akan membuat variasi menjadi homogen sehingga diharapkan estimator

dari variasi sampel dapat mendekati variasi data yang sebenarnya. Penurunan formula tersebut

Page 5: Artikel

juga sama untuk formula Isaac-Michael, hanya saja distribusi yang digunakan adalah distribusi

Chi-square dengan derajat kebebasan sebesar 1.

Kedua, menentukan ukuran sampel berdasarkan formula Slovin. Formula ini sangat

sering bahkan menjadi umum digunakan oleh para peneliti untuk mendapatkan ukuran dalam

penelitiannya. Ketika penggunaan tersebut ditelisik lebih jauh, mungkin terdapat beberapa hal

yang perlu diperhatikan mengenai penggunaannya, khususnya untuk Data Besar. Formula Slovin

merupakan formula ukuran sampel yang sangat sederhana tetapi mengandung beberapa hal

didalamnya. Formula Slovin secara umum dinyatakan sebagai berikut :

21

Nn

Nε=

+ (4)

Berdasarkan formula diatas, terlihat bahwa ukuran sampel dipengaruhi oleh dua hal, yaitu jumlah

populasi serta besarnya kesalahan marjinal yang diinginkan oleh peneliti. Menurut Setiawan

(2007, hal. 7), formula Slovin dapat diuraikan sebagai berikut :

2

22

2

20,025

2 20,025

2

2 2

2

2 2 2

2

. . .(1 )

. . .(1 )

. . .(1 )

. . .(1 )

.1,96 .0,5.(1 0,5)

. 1,96 .0,5.(1 0,5)

.2 .0,5.(1 0,5) .4.0,25

. 2 .0,5.(1 0,5) . 4.0,25

1 .

N Z P Pn

N Z P P

N Z P Pn

N Z P P

Nn

N

N Nn

N N

Nn

N

α

αε

ε

ε

ε ε

ε

−=

+ −

−=

+ −

−=+ −

−= =+ − +

=+

(5)

Dan disimpulkan bahwa formula Slovin hanya dapat dipakai untuk menentukan ukuran

sampel untuk tujuan menduga porporsi populasi. Kemudian asumsi tingkat keandalan formula

Slovin sebesar 95% dengan α = 0,05 dan diperoleh nilai Z=1,96 dan dibulatkan menjadi 2.

Selain itu, asumsi keragaman populasi yang dimasukkan dalam perhitungan adalah P(1-P)

dengan nilai P=0,5). Dari hasil simulasi tersebut, terlihat bahwa penentuan mengenai ukuran

sampel dengan menggunakan tingkat keandalan 95% yang menghasilkan nilai Z dengan

pembulatan. Lebih tepatnya tingkat keandalan formula tersebut adalah 95,45% dengan α

Page 6: Artikel

=0,04552. Lebih lanjut jika dihadapkan pada Data Besar, formula Slovin dapat diturunkan

sebagai berikut :

2 2 2 22

limlim 1 1lim

1 lim (1 ) 0(1 )lim

NN

NN

N

NNN N

N N N

N

ε ε ε εε

∞∞

∞∞

= = = =+ + + +

uuuruuur

uuuruuur

uuur

(6)

Dari penurunan tersebut terlihat

bahwa jika formula Slovin digunakan

untuk Data Besar (populasi sangat

besar) maka besarnya ukuran sampel

hanya bergantung pada tingkat

kesalahan marjinal yang ditentukan

oleh peneliti. Dengan memperhatikan

hasil simulasi disamping dapat

diperoleh bahwa ukuran sampel

maksimal yang dapat dihasilkan

formula Slovin adalah 400 untuk dan

batas maksimal jumlah populasi

sebesar 320.0003 (dengan nilai ε=0,05). Angka 400 sebagai angka

ukuran sampel maksimal tersebut didapatkan dengan formula 2

1

ε= 1/0,052 = 400. Hal ini

menunjukkan keandalan formula Slovin tidak serta merta mampu digunakan untuk Data Besar

karena mempunyai kecenderungan menghasilkan ukuran sampel yang stagnan pada angka seper-

kesalahan marjinal. Jikapun digunakan formula Slovin hanya dapat digunakan untuk populasi

berjumlah 320.000.

Ketiga, menentukan ukuran sampel dengan formula Isaac-Michael. Sebenarnya formula

Isaac-Michael sama dengan metode berdasarkan presisi, hanya saja Isaac-Michael menggunakan

2 Spiegel, Murray, Schiller, John and Srinivasan, R.Alu. 2002. Schaum’s Outlines, Probabilitas dan Statistik Edisi kedua [alih bahasa oleh Refina Indriasari]. Hal. 167. 3 Berdasarkan perhitungan manual dengan bantuan Excell.

No N n n/N

1 10 10 0.98

2 30 28 0.93

3 70 60 0.85

4 150 109 0.73

5 400 200 0.50

6 1000 286 0.29

7 10000 385 0.04

8 100000 398 0.00

9 1000000 400 0.00

10 10000000 400 0.00

11 100000000 400 0.00

12 1000000000 400 0.00

13 10000000000 400 0.00

14 1E+11 400 0.00

15 1E+12 400 0.00

16 1E+17 400 0.00

Page 7: Artikel

distribusi Chi-square berderajat 1 dalam perhitungannya dan secara sistematis dituliskan sebagai

berikut :

2(1)

2 2( ,1)

2(1)

2 2(1)

2

2 2

2

2 2 2

2

. . .(1 )

. . .(1 )

. . .(1 )

. . .(1 )

.2 .0,5.(1 0,5)

. 2 .0,5.(1 0,5)

.2 .0,5.(1 0,5) .4.0,25

. 2 .0,5.(1 0,5) . 4.0,25

1 .

N P Pn

N P P

N P Pn

N P P

Nn

N

N Nn

N N

Nn

N

α

χε χ

χε χ

ε

ε ε

ε

−=

+ −

−=

+ −

−=+ −

−= =+ − +

=+

(7)

Kesamaan ini didapatkan ketika menggunakan tingkat kepercayaan 82,34%4 Chi-square

berderajat 1 dengan α = 0,1766 dengan asumsi bahwa 1

N n N n

N N

− −≈−

. Dengan jalan me-limit-

kan formula Isaac-Michael untuk Data Besar (dimana N mendekati tidak berhingga), didapatkan

formula 21

2

. .(1 )P Pn

χε

−≈ . Disini tampak bahwa formula Isaac-Michael mempunyai kesamaan

kehandalan dengan metode berdasarkan presisi, hanya saja keduanya dibedakan berdasarkan

tujuan penelitian, bahwa formula Isaac-Michael baik digunakan untuk menduga proporsi

populasi.

Terakhir adalah menentukan ukuran sampel dari Data Besar dengan menggunakan

formula Newbold (1995). Formula Newbold lebih sering digunakan dalam penelitian-penelitian

bidang pertanian. Beberapa penelitian dengan menggunakan formula Newbold diantaranya

Gunden, Miran dan Unakitan (2006), Korctuk (2006), Sahin et.al (2009), Artukoglu, Olgun dan

Adanacioglu (2010), Ozudogru (2011), Bektas et.al (2011), Engindeniz dan Cosar (2012),

Artukoglu, Olgun dan Adanacioglu (2012) dengan formula berikut :

2

. .(1 )

( 1) .(1 )px

N p pn

N p pσ−=

− + − (8)

4 Hasil ini didapatkan dengan metode interpolasi antara Chi-square denga tingkat signifikansi 75% dan Chi-square dengan tingkat signifikansi 90% pada derajat 1.

Page 8: Artikel

Dan dalam penelitian Sharafat (2013), menggunakan formula Newbold yang termodifikasi

menjadi sebagai berikut :

/22

2/2

2

. .

. . .

Z p q

nN Z p q

N

α

α

εε

ε

=

+ (9)

Untuk melihat keandalan formula tersebut jika digunakan untuk Data Besar, maka diturunkan

sebagai berikut :

2 22

2 22 2

22

2 2

22

lim . .(1 )lim . .(1 ). .(1 )lim

( 1) .(1 )lim [( 1) .(1 )] [( 1) .(1 )]

lim

. .(1 ).(1 )

0 0

NN

Npx

N

N

Np pN p pN p p N

N p pN p p N p p

Z Z

N

Z p pp p

Z

α α

α

α

ε εσ

ε ε

∞∞

−−− = =− + − − + − − + −

−−= =+ +

uuuruuur

uuur

uuur

uuur (10.1)

Dan formula termodifikasi diturunkan sebagai berikut :

2 2/22

2 2

2 2 2 2 2/2

2 2 2

2

2

. .(1 ). . .(1 ) lim . . .(1 )

lim lim. . .(1 ) . . .(1 ) lim . . .(1 )

lim . . .(1 )

.lim

N

N N

N

N

N

Z p pZ N p p Z N p p

N Z p p N Z p p N Z p pN

NZ p p

N

N

αα α

α α α

α

εε ε ε

ε

∞ ∞

− − − = =

+ − + − + −

−=

uuur

uuur uuur

uuur

uuur

uuur

2

22

2 2

2

. .(1 )

. .(1 )

Z p p

Z p p

N

α

αεε

−=

+ −

(10.2)

Berdasarkan hasil kedua formula tersebut, terlihat keduanya bergantung pada komponen yang

sama bila digunakan untuk Data Besar. Secara umum, formula tersebut digunakan dalam

penelitian untuk menduga besarnya proporsi populasi.

Dari keseluruhan formula yang digunakan untuk menentukan ukuran sampel, terlihat

semakin banyak jumlah populasi (N) keandalan formula tersebut semakin berkurang. Hal

tersebut tampak dari jumlah sampel yang dihasilkan stagnan pada jumlah tertentu saja dengan

kendala distribusi yang ditentukan, tingkat kesalahan marjinal, serta terhadap proporsi. Namun,

hal ini tidak serta merta bahwa sampel kurang mewakili terhadap populasi, melainkan ukuran

sampel maksimal tersebut memang sudah cukup dengan pertimbangan lain termasuk biaya

Page 9: Artikel

penelitian serta diharapakan sudah mencakup keseluruhan informasi dari populasi meskipun

jumlahnya besar.

Terlihat pula, semakin banyak asumsi yang digunakan dalam suatu formula ukuran

sampel menunjukkan ketidakmampuan formula tersebut untuk menangkap elemen lain yang

dalam populasi, misalnya karena varian populasi sebenarnya tidak diketahui, rerata sebenarnya

tidak diketahui atau hanya untuk aspek kemudahan serta biaya yang ekonomis. Selain itu,

semakin sederhana formula tersebut juga menjelaskan sejumlah asumsi yang harus dipenuhi dan

diperhatikan sehingga berguna sebagai informasi awal untuk keputusan penggunaan formula

ukuran sampel tertentu.