laporan tugas pengantar big data library biglm &...

12
LAPORAN TUGAS PENGANTAR BIG DATA LIBRARY BIGLM & SPEEDGLM DALAM R Disusun oleh: Kelompok 10 Anggota: 1. Maulinda 10/305449/PA/13516 2. Paramitha Kurniajati 13/350039/PA/15609 3. Fariz Budi Arafat 13/350108/PA/15620 4. Ayun Prabastiningtias 14/368602/PA/16295 PROGRAM STUDI STATISTIKA DEPARTEMEN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS GADJAH MADA YOGYAKARTA 2017

Upload: vocong

Post on 04-Apr-2019

236 views

Category:

Documents


0 download

TRANSCRIPT

LAPORAN TUGAS PENGANTAR BIG DATA

LIBRARY BIGLM & SPEEDGLM

DALAM R

Disusun oleh: Kelompok 10

Anggota:

1. Maulinda 10/305449/PA/13516

2. Paramitha Kurniajati 13/350039/PA/15609

3. Fariz Budi Arafat 13/350108/PA/15620

4. Ayun Prabastiningtias 14/368602/PA/16295

PROGRAM STUDI STATISTIKA

DEPARTEMEN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS GADJAH MADA

YOGYAKARTA

2017

BAB I

PENDAHULUAN

1.1. TUJUAN

1. Mengetahui hubungan pengaruh jarak tempuh (Distance) dengan waktu pesawat

di udara (Airtime). Kemudian akan dibandingkan hasilnya dengan menggunakan

fungsi BIGLM, LM, dan SPEEDLM.

2. Mengetahui besarnya peluang pesawat mengalami delay dari statistik data

keterlambatan kedatangan (StatAD) dengan variabel keterlambatan

keberangkatan (DepDelay), waktu penerbangan (AirTime), dan jarak tempuh

(Distance). Kemudian akan dibandingkan hasilnya dengan fungsi BIGGLM,

GLM, dan SPEEDGLM.

1.2. PRINSIP LIBRARY

1.2.1. BIGLM

Deskripsi

BIGLM berfungsi untuk membuat sebuah model linier yang hanya

menggunakan memori p2 untuk variabel p. Biglm dapat diperbarui dengan

lebih banyak data menggunakan update. Hal ini memungkinkan regresi linear

pada sekumpulan data yang lebih besar dari pada memori.

Penggunaan Fungsi:

biglm(formula, data, weights=NULL, sandwich=FALSE)

1.2.2. Lm

Deskripsi

LM dapat digunakan digunakan untuk melakukan regresi, analisis stratum

tunggal varians dan analisis kovarians.

Penggunaan Fungsi

lm(formula, data, subset, weights, na.action, method = "qr", model = TRUE, x

= FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, contrasts = NULL,

offset, ...)

1.2.3. SPEEDLM

Deskrisi

Fungsi kelas SPEEDLM dapat mempercepat pemasangan LMs ke kumpulan

data yang besar. Kinerja tinggi dapat diperoleh terutama jika R dikaitkan

dengan BLAS yang dioptimalkan, seperti ATLAS.

Penggunaan Fungsi

speedlm(formula, data, weights = NULL, offset = NULL, sparse = NULL,

set.default = list(), method=c('eigen','Cholesky','qr'), model = FALSE, y =

FALSE, fitted = FALSE, subset=NULL, ...)

1.2.4. BIGGLM

Deskrisi

BIGGLM digunakan untuk membentuk objek model liniar umum yang hanya

menggunakan memori p2 untuk variabel p.

Penggunaan Fungsi

bigglm(formula, data, family=gaussian(),...)

1.2.5. GLM

Deskripsi

GLM digunakan untuk menyesuaikan model linier umum yang ditentukan

dengan memberikan deskripsi simbolis prediktor linier dan deskripsi distribusi

kesalahan.

Penggunaan Fungsi

glm(formula, family = gaussian, data, weights, subset, na.action, start =

NULL, etastart, mustart, offset, control = list(...), model = TRUE, method =

"glm.fit", x = FALSE, y = TRUE, contrasts = NULL, ...)

1.2.6. SPEEDGLM

Deskripsi

SPEEDGLM sesuai dengan GLMs ke set data berukuran sedang, yaitu yang

tersimpan ke memori R. Kinerja tertinggi, dalam hal waktu komputasi,

diperoleh saat R dihubungkan dengan BLAS yang dioptimalkan, seperti

ATLAS.

Penggunaan Fungsi

speedglm(formula,data,family=gaussian(),weights=NULL,start=NULL,

etastart=NULL,mustart=NULL,offset=NULL,maxit=25,k=2,sparse=NULL,

set.default=list(),trace=FALSE,method=c('eigen','Cholesky','qr'),model=FALS

E, y=FALSE, fitted=FALSE,...)

BAB II

IMPLEMENTASI

Data yang digunakan dalam laporan ini adalah data penerbangan dari tahun 2008

dimana total data yaitu 7.009.728. Dari jumlah data tersebut telah diselidiki bahwa terdapat

misiing value yang harus dihapus karena dapat mempengaruhi hasil analisis.

Setelah dilakukan clearing missing value diperoleh data sejumlah 6.855.029 yang

dapat digunakan untuk proses analisis selanjutnya,

Seperti sudah dijelaskan di atas package yang digunakan adalah biglm dan speedlm

dimana variabel yang digunakan dalam data penerbangan adalah jarak tempuh pesawat

(distance) dan waktu pesawat di udara (airtime).

Ingin diketahui hubungan antara pengaruh variabel distance sebagai variabel

independen dengan variabel airtime sebagai variabel dependen. Selain itu ingin mengetahui

besarnya peluang pesawat mengalami keterlambatan (delay) dengan menggunakan statistik

data keterlambatan kedatangan (StatAD) dengan variabel keterlambatan keberangkatan

(DepDelay), waktu penerbangan (AirTime), dan jarak tempuh (distance).

Setelah mengetahui hasilnya kemudian akan saling dibandingkan dengan masing –

masing fungsi yang ada yaitu fungsi biglm, glm dan speedglm. Akan dibandingkan waktu

dari masing-masing perhitungan yaitu lama proses dari masing-masing fungsinya

2.1.Pre-Processing

Diperoleh jumlah data sebesar 7009728. Karena terdapat missing value, maka perlu

dilakukan clearing missing value untuk melanjutkan analisis.

Setelah missing value dihapus diperoleh data sebanyak 6855029.

2.2. Fungsi BIGLM

Pada proses pengolahan data dengan menggunakan fungsi BIGLM diperlukan waktu

sebesar 9,4 detik.

Syntax dan Output

Model

Airtime = 18,257 + 0,1177*Distance

2.3. Fungsi LM

Pada proses pengolahan data dengan menggunakan fungsi LM diperlukan waktu

sebesar 10,3 detik.

Syntax dan Output

Model

Airtime = 18,257 + 0,1177*Distance

2.4.Fungsi SPEEDLM

Pada proses pengolahan data dengan menggunakan fungsi SPEEDLM diperlukan

waktu sebesar 10,04 detik.

Syntax dan Output

Model

Airtime = 18,2570 + 0,1177*Distance

2.5. Interpretasi Model dengan Fungsi BIGLM, LM, dan SPEEDLM

Berdasarkan perhitungan di atas telah diketahui hubungan pengaruh variabel

airtime (waktu tempuh pesawat) dengan variabel distance (jarak tempuh pesawat)

yaitu hubungan linear dengan menggunakan fungsi yang berbeda diperoleh model

persamaan yang sama yaitu:

Airtime = 18,2570 + 0,1177*Distance

Artinya setiap kenaikan satu satuan variabel distance maka mengakibatkan waktu

penerbangan akan lebih lama sebesar 0,1177 menit.

2.6. Membentuk Variabel StatAD

Selanjutnya akan dibentuk variabel StatAD dimana akan dihitung besarnya peluang

pesawat mengalami keterlambatan (delay) dimana variabel status arrival delay

bernilai 0 dan 1. Dengan

0 = tidak mengalami delay dan

1 = mengalami delay

Nilai Status Arrival Delay ditentukan dari delay tidaknya pesawat yang didapatkan

dari variabel lama waktu keterlambatan kedatangan (ArrDelay).

2.7.Fungsi BIGGLM

Dengan fungsi bigglm waktu proses yang dibutuhkan adala sebesar 5 menit 37,5

detik.

Syntax dan Output

Model

( | )

( )

( )

( | )

Interpretasi

- Setiap kenaikan satu satuan variabel DepDelay maka peluang pesawat mengalami

delay akan naik.

- Setiap kenaikan satu satuan variabel AirTime maka peluang pesawat mengalami

delay akan naik.

- Setiap kenaikan satu satuan variabel Distance maka peluang pesawat mengalami

akan turun.

2.8.Fungsi SPEEDGLM

Dengan fungsi speedglm waktu proses yang dibutuhkan adalah sebesar 8 menit 6,4

detik.

Syntax dan Output

Model

( | )

( )

( )

( | )

Interpretasi

- Setiap kenaikan satu satuan variabel DepDelay maka peluang pesawat mengalami

delay akan naik.

- Setiap kenaikan satu satuan variabel AirTime maka peluang pesawat mengalami

delay akan naik.

- Setiap kenaikan satu satuan variabel Distance maka peluang pesawat mengalami

akan turun.

-

2.9.Fungsi GLM

Dengan fungsi glm waktu proses yang dibutuhkan adalah sebesar 14 menit

26,7 detik. Namun , fungsi glm tidak bisa menyelesaikan persamaan tersebut karena

kehabisan memori seperti pada output dibawah ini:

BAB III

KESIMPULAN

1. Penggunakan library BIGLM dan SPEEDGLM dalam data penerbangan tahun

2008 dapat dilakukan. Dalam kasus ini Ingin diketahui hubungan antara pengaruh

variabel distance sebagai variabel independen dengan variabel airtime sebagai

variabel dependen. Selain itu ingin mengetahui besarnya peluang pesawat

mengalami keterlambatan (delay) dengan menggunakan statistik data

keterlambatan kedatangan (StatAD) dengan variabel keterlambatan keberangkatan

(DepDelay), waktu penerbangan (AirTime), dan jarak tempuh (distance).

2. Diperoleh persamaan model yang sama antara fungsi BIGLM, LM, dan

SPEEDLM yaitu :

Airtime = 18,257 + 0,1177*Distance

Ini berarti tiap kenaikan satu satuan variabel distance maka mengakibatkan waktu

penerbangan akan lebih lama sebesar 0,1177 menit.

3. Dari ketiga fungsi tersebut diperoleh waktu proses berbeda yaitu :

a. Fungsi BIGLM : 9,4 detik

b. Fungsi SPEEDLM : 10,04 detik

c. Fungsi LM : 10,3 detik

4. Diperoleh pula besarnya besarnya peluang pesawat mengalami keterlambatan

(delay) dengan menggunakan fungsi yang berbeda diperoleh model sebagai

berikut :

a. Fungsi BIGGLM

( | )

( )

( )

( | )

b. Fungsi SPEEDGLM

( | )

( )

( )

( | )

c. Fungsi GLM

Pada fungsi ini tidak dapat diperoleh persamaan dikarenakan kehabisan

memori.

5. Interpretasi dari persamaan model tersebut adalah :

Setiap kenaikan satu satuan variabel DepDelay maka peluang pesawat

mengalami delay akan naik.

Setiap kenaikan satu satuan variabel AirTime maka peluang pesawat

mengalami delay akan naik.

Setiap kenaikan satu satuan variabel Distance maka peluang pesawat

mengalami akan turun.

6. Selain persamaan model, diperoleh pula besarnya waktu proses yang diperlukan

sehingga dapat dibandingkan hasilnya tiap fungsi yaitu,

a. Fungsi BIGGLM : 5 menit 37,5 detik

b. Fungsi SPEEDGLM : 8 menit 6,4 detik

c. Fungsi GLM : 14 menit 26,7 detik