laporan tugas pengantar big data library biglm &...
TRANSCRIPT
LAPORAN TUGAS PENGANTAR BIG DATA
LIBRARY BIGLM & SPEEDGLM
DALAM R
Disusun oleh: Kelompok 10
Anggota:
1. Maulinda 10/305449/PA/13516
2. Paramitha Kurniajati 13/350039/PA/15609
3. Fariz Budi Arafat 13/350108/PA/15620
4. Ayun Prabastiningtias 14/368602/PA/16295
PROGRAM STUDI STATISTIKA
DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS GADJAH MADA
YOGYAKARTA
2017
BAB I
PENDAHULUAN
1.1. TUJUAN
1. Mengetahui hubungan pengaruh jarak tempuh (Distance) dengan waktu pesawat
di udara (Airtime). Kemudian akan dibandingkan hasilnya dengan menggunakan
fungsi BIGLM, LM, dan SPEEDLM.
2. Mengetahui besarnya peluang pesawat mengalami delay dari statistik data
keterlambatan kedatangan (StatAD) dengan variabel keterlambatan
keberangkatan (DepDelay), waktu penerbangan (AirTime), dan jarak tempuh
(Distance). Kemudian akan dibandingkan hasilnya dengan fungsi BIGGLM,
GLM, dan SPEEDGLM.
1.2. PRINSIP LIBRARY
1.2.1. BIGLM
Deskripsi
BIGLM berfungsi untuk membuat sebuah model linier yang hanya
menggunakan memori p2 untuk variabel p. Biglm dapat diperbarui dengan
lebih banyak data menggunakan update. Hal ini memungkinkan regresi linear
pada sekumpulan data yang lebih besar dari pada memori.
Penggunaan Fungsi:
biglm(formula, data, weights=NULL, sandwich=FALSE)
1.2.2. Lm
Deskripsi
LM dapat digunakan digunakan untuk melakukan regresi, analisis stratum
tunggal varians dan analisis kovarians.
Penggunaan Fungsi
lm(formula, data, subset, weights, na.action, method = "qr", model = TRUE, x
= FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, contrasts = NULL,
offset, ...)
1.2.3. SPEEDLM
Deskrisi
Fungsi kelas SPEEDLM dapat mempercepat pemasangan LMs ke kumpulan
data yang besar. Kinerja tinggi dapat diperoleh terutama jika R dikaitkan
dengan BLAS yang dioptimalkan, seperti ATLAS.
Penggunaan Fungsi
speedlm(formula, data, weights = NULL, offset = NULL, sparse = NULL,
set.default = list(), method=c('eigen','Cholesky','qr'), model = FALSE, y =
FALSE, fitted = FALSE, subset=NULL, ...)
1.2.4. BIGGLM
Deskrisi
BIGGLM digunakan untuk membentuk objek model liniar umum yang hanya
menggunakan memori p2 untuk variabel p.
Penggunaan Fungsi
bigglm(formula, data, family=gaussian(),...)
1.2.5. GLM
Deskripsi
GLM digunakan untuk menyesuaikan model linier umum yang ditentukan
dengan memberikan deskripsi simbolis prediktor linier dan deskripsi distribusi
kesalahan.
Penggunaan Fungsi
glm(formula, family = gaussian, data, weights, subset, na.action, start =
NULL, etastart, mustart, offset, control = list(...), model = TRUE, method =
"glm.fit", x = FALSE, y = TRUE, contrasts = NULL, ...)
1.2.6. SPEEDGLM
Deskripsi
SPEEDGLM sesuai dengan GLMs ke set data berukuran sedang, yaitu yang
tersimpan ke memori R. Kinerja tertinggi, dalam hal waktu komputasi,
diperoleh saat R dihubungkan dengan BLAS yang dioptimalkan, seperti
ATLAS.
Penggunaan Fungsi
speedglm(formula,data,family=gaussian(),weights=NULL,start=NULL,
etastart=NULL,mustart=NULL,offset=NULL,maxit=25,k=2,sparse=NULL,
set.default=list(),trace=FALSE,method=c('eigen','Cholesky','qr'),model=FALS
E, y=FALSE, fitted=FALSE,...)
BAB II
IMPLEMENTASI
Data yang digunakan dalam laporan ini adalah data penerbangan dari tahun 2008
dimana total data yaitu 7.009.728. Dari jumlah data tersebut telah diselidiki bahwa terdapat
misiing value yang harus dihapus karena dapat mempengaruhi hasil analisis.
Setelah dilakukan clearing missing value diperoleh data sejumlah 6.855.029 yang
dapat digunakan untuk proses analisis selanjutnya,
Seperti sudah dijelaskan di atas package yang digunakan adalah biglm dan speedlm
dimana variabel yang digunakan dalam data penerbangan adalah jarak tempuh pesawat
(distance) dan waktu pesawat di udara (airtime).
Ingin diketahui hubungan antara pengaruh variabel distance sebagai variabel
independen dengan variabel airtime sebagai variabel dependen. Selain itu ingin mengetahui
besarnya peluang pesawat mengalami keterlambatan (delay) dengan menggunakan statistik
data keterlambatan kedatangan (StatAD) dengan variabel keterlambatan keberangkatan
(DepDelay), waktu penerbangan (AirTime), dan jarak tempuh (distance).
Setelah mengetahui hasilnya kemudian akan saling dibandingkan dengan masing –
masing fungsi yang ada yaitu fungsi biglm, glm dan speedglm. Akan dibandingkan waktu
dari masing-masing perhitungan yaitu lama proses dari masing-masing fungsinya
2.1.Pre-Processing
Diperoleh jumlah data sebesar 7009728. Karena terdapat missing value, maka perlu
dilakukan clearing missing value untuk melanjutkan analisis.
Setelah missing value dihapus diperoleh data sebanyak 6855029.
2.2. Fungsi BIGLM
Pada proses pengolahan data dengan menggunakan fungsi BIGLM diperlukan waktu
sebesar 9,4 detik.
Syntax dan Output
Model
Airtime = 18,257 + 0,1177*Distance
2.3. Fungsi LM
Pada proses pengolahan data dengan menggunakan fungsi LM diperlukan waktu
sebesar 10,3 detik.
Syntax dan Output
Model
Airtime = 18,257 + 0,1177*Distance
2.4.Fungsi SPEEDLM
Pada proses pengolahan data dengan menggunakan fungsi SPEEDLM diperlukan
waktu sebesar 10,04 detik.
Syntax dan Output
Model
Airtime = 18,2570 + 0,1177*Distance
2.5. Interpretasi Model dengan Fungsi BIGLM, LM, dan SPEEDLM
Berdasarkan perhitungan di atas telah diketahui hubungan pengaruh variabel
airtime (waktu tempuh pesawat) dengan variabel distance (jarak tempuh pesawat)
yaitu hubungan linear dengan menggunakan fungsi yang berbeda diperoleh model
persamaan yang sama yaitu:
Airtime = 18,2570 + 0,1177*Distance
Artinya setiap kenaikan satu satuan variabel distance maka mengakibatkan waktu
penerbangan akan lebih lama sebesar 0,1177 menit.
2.6. Membentuk Variabel StatAD
Selanjutnya akan dibentuk variabel StatAD dimana akan dihitung besarnya peluang
pesawat mengalami keterlambatan (delay) dimana variabel status arrival delay
bernilai 0 dan 1. Dengan
0 = tidak mengalami delay dan
1 = mengalami delay
Nilai Status Arrival Delay ditentukan dari delay tidaknya pesawat yang didapatkan
dari variabel lama waktu keterlambatan kedatangan (ArrDelay).
2.7.Fungsi BIGGLM
Dengan fungsi bigglm waktu proses yang dibutuhkan adala sebesar 5 menit 37,5
detik.
Syntax dan Output
Model
( | )
( )
( )
( | )
Interpretasi
- Setiap kenaikan satu satuan variabel DepDelay maka peluang pesawat mengalami
delay akan naik.
- Setiap kenaikan satu satuan variabel AirTime maka peluang pesawat mengalami
delay akan naik.
- Setiap kenaikan satu satuan variabel Distance maka peluang pesawat mengalami
akan turun.
2.8.Fungsi SPEEDGLM
Dengan fungsi speedglm waktu proses yang dibutuhkan adalah sebesar 8 menit 6,4
detik.
Syntax dan Output
Model
( | )
( )
( )
( | )
Interpretasi
- Setiap kenaikan satu satuan variabel DepDelay maka peluang pesawat mengalami
delay akan naik.
- Setiap kenaikan satu satuan variabel AirTime maka peluang pesawat mengalami
delay akan naik.
- Setiap kenaikan satu satuan variabel Distance maka peluang pesawat mengalami
akan turun.
-
2.9.Fungsi GLM
Dengan fungsi glm waktu proses yang dibutuhkan adalah sebesar 14 menit
26,7 detik. Namun , fungsi glm tidak bisa menyelesaikan persamaan tersebut karena
kehabisan memori seperti pada output dibawah ini:
BAB III
KESIMPULAN
1. Penggunakan library BIGLM dan SPEEDGLM dalam data penerbangan tahun
2008 dapat dilakukan. Dalam kasus ini Ingin diketahui hubungan antara pengaruh
variabel distance sebagai variabel independen dengan variabel airtime sebagai
variabel dependen. Selain itu ingin mengetahui besarnya peluang pesawat
mengalami keterlambatan (delay) dengan menggunakan statistik data
keterlambatan kedatangan (StatAD) dengan variabel keterlambatan keberangkatan
(DepDelay), waktu penerbangan (AirTime), dan jarak tempuh (distance).
2. Diperoleh persamaan model yang sama antara fungsi BIGLM, LM, dan
SPEEDLM yaitu :
Airtime = 18,257 + 0,1177*Distance
Ini berarti tiap kenaikan satu satuan variabel distance maka mengakibatkan waktu
penerbangan akan lebih lama sebesar 0,1177 menit.
3. Dari ketiga fungsi tersebut diperoleh waktu proses berbeda yaitu :
a. Fungsi BIGLM : 9,4 detik
b. Fungsi SPEEDLM : 10,04 detik
c. Fungsi LM : 10,3 detik
4. Diperoleh pula besarnya besarnya peluang pesawat mengalami keterlambatan
(delay) dengan menggunakan fungsi yang berbeda diperoleh model sebagai
berikut :
a. Fungsi BIGGLM
( | )
( )
( )
( | )
b. Fungsi SPEEDGLM
( | )
( )
( )
( | )
c. Fungsi GLM
Pada fungsi ini tidak dapat diperoleh persamaan dikarenakan kehabisan
memori.
5. Interpretasi dari persamaan model tersebut adalah :
Setiap kenaikan satu satuan variabel DepDelay maka peluang pesawat
mengalami delay akan naik.
Setiap kenaikan satu satuan variabel AirTime maka peluang pesawat
mengalami delay akan naik.
Setiap kenaikan satu satuan variabel Distance maka peluang pesawat
mengalami akan turun.
6. Selain persamaan model, diperoleh pula besarnya waktu proses yang diperlukan
sehingga dapat dibandingkan hasilnya tiap fungsi yaitu,
a. Fungsi BIGGLM : 5 menit 37,5 detik
b. Fungsi SPEEDGLM : 8 menit 6,4 detik
c. Fungsi GLM : 14 menit 26,7 detik