metode partial least squares untuk pra · pdf filemetode regresi kuadrat terkecil parsial...

Click here to load reader

Post on 12-Mar-2019

224 views

Category:

Documents

1 download

Embed Size (px)

TRANSCRIPT

Metode Regresi Kuadrat Terkecil Parsial Untuk Pra-Pemrosesan Data

Luaran GCM CSIRO Mk-3

TUGAS AKHIR

Oleh:

Alin Fitriani

1306 100 066

Pembimbing:

Dr.Ir. Setiawan, M.S

NIP 198701 1 001

JURUSAN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT TEKNOLOGI SEPULUH NOPEMBER

SURABAYA

2010

Latar Belakang

iklim Gas rumah kacaPemanasan

global

Perubahan iklimPola curah hujan

GCM

Resolusirendah, skala

tinggidownscalling

multikolinieritas Reduksi dimensi

Permasalahan

Bagaimana memodelkan data hujan lokal (variabel respon) dengan data luaran GCM (reduksi) dengan metode PCA danmetode PLS (Partial Least Squares).

Bagaimana hasil kinerja reduksi dimensi dan pemodelan menggunakan metode PCA dan metode PLS (Partial Least Squares).

Tujuan penelitian

Memodelkan data hujan lokal (variabel respon) dengan dataluaran GCM (reduksi)dengan metode PCA dan metode PLS(Partial Least Squares).

Membandingkan hasil kinerja reduksi dimensi dan pemodelanmenggunakan metode PCA dan metode PLS (Partial LeastSquares).

Manfaat Penelitian

Memberikan alternatif bagi BMKG, LAPAN, dan instansilainnya untuk kajian-kajian dampak iklim dengan basisluaran GCM dalam tahap pra-pemrosesan data luaran GCMyang kemudian akan digunakan untuk memodelkanStatistical Downscaling (SD).

Batasan Masalah Studi kasus pra-pemrosesan pada data pemodelan

statistical downscaling adalah data luaran GCM CSIRO-Mk3

dengan 5 statiun yang digunakan sebagai daerah penelitian

yaitu Losarang, Indramayu, Juntinyuat, Kroya, dan

Sumurwatu .

Data luaran GCM diasumsikan bersifat linear

Reduksi dimensi dengan metode PLS (Partial Least Squares)

untuk mengatasi adanya multikolinieritas.

Penelitian Terdahulu

Metode regresi robust PCA dilakukan Chusnul Khotimah

tahun 2009

Transformasi wavelet diskrit dengan mother wavelet Harr

dilakukan Anggreini Suprapti tahun 2009

Tinjauan Pustaka

Regresi Linear

Regresi linier adalah metode statistika yang digunakan untukmembentuk model hubungan antara variabel terikat (dependen;respon; Y) dengan satu atau lebih variabel bebas (independen,prediktor, X) (Deni, 2008).Apabila banyaknya variabel bebas hanya ada satu, disebut sebagairegresi linier sederhana, sedangkan apabila terdapat lebih dari satuvariabel bebas, disebut sebagai regresi linier berganda.Secara umum model yang menggambarkan hubungan antara variabelpenjelas (X) dengan variabel respon (Y) adalah:

Multikolinieritas

Multikolinearitas (kolinearitas ganda) adalah hubungan linear yang sempurnaatau pasti diantara beberapa atau semua variabel eksplanatori (bebas) darimodel regresi ganda.Multikolinieritas yang tinggi akan menyebabkan koefisien regresi yangdiperoleh tidak unik.Salah satu ukuran untuk mendeteksi adanya multikolinieritas adalah VIF(Variation Inflation Factor). VIF merupakan faktor yang mengukur seberapabesar kenaikan varian dari koefisien regresi dibandingkan dengan variabelbebas lain yang saling orthogonal.

dengan adalah koefisien determinasi dari variabel bebas Xi jika diregresikandengan semua variabel bebas X lainnya di dalam model

Principal Component Analysis (PCA)

Metode PCA merupakan prosedur untuk mereduksi dimensi data dengan caramentransformasi variabel-variabel asal yang berkorelasi menjadi sekumpulanvariabel baru yang tidak berkorelasi. Variabel-variabel baru itu dikatakan sebagaiprincipal component (PC) (Johnson and Winchren, 2002).

Partial Least Squares (PLS)

Metode PLS merupakan metode statistik yang menggeneralisasi danmengkombinasikan antara metode analisis faktor, principal component analysisdan multiple regression (Abdi, 2007). Tujuan PLS adalah membentuk komponenyang dapat menangkap informasi dari variabel bebas untuk memprediksi variabelresponPCA terfokus pada keragaman di dalam variabel bebas, sedangkan PLS fokus padakovarians diantara variabel bebas dan variabel tak bebas.

data

Buliding set (membangun model)

Validation

(prediction set)

Validasi Model

Ukuran kebaikan model yang digunakan untuk validasi data RMSE dan RMSEP

R2 dan R2prediction

General Circulation Model (GCM)

GCM (General Circulation Model) adalah suatu model berbasis komputer yangterdiri dari berbagai persamaan numerik dan deterministik yang terpadu danmengikuti kaidah-kaidah fisika (Wigena, 2006).

Donwscaling

Downscaling didefinisikan sebagai upaya menghubungkan antara sirkulasivariabel skala global (variabel penjelas) dan variabel skala lokal (variabelrespon) (Sutikno, 2008).

Statistical Donwscaling

Statistical Downscaling (SD) adalah suatu proses downscaling yangbersifat statik dimana data pada grid-grid berskala besar dalam periodedan jangka waktu tertentu digunakan sebagai dasar untuk menentukandata pada grid berskala lebih kecil (Wigena, 2006).Metode Statistical Downscaling (SD) didasarkan pada asumsi bahwa iklimregional dikendalikan oleh dua faktor yaitu: kondisi iklim skala besar(resolusi rendah) dan kondisi/karakteristik fisiografik regional/lokal(misal: topografi distribusi daratan-lautan dan tataguna lahan) (vonStroch et al. 1999 dalam Sutikno, 2008).Kegunaaan penggunaan metode SD menggunakan data regional atauglobal adalah untuk memperoleh hubungan fungsional antara skala lokaldengan skala global GCM.

Metodologi Penelitian

Sumber Data

Data yang digunakan dalam penelitian ini adalah data sekunder yang diperolehdari data luaran GCM model CSIRO-Mk3 dari Australia dengan eksperimen20th century in coupled models (20 C3M).Data diambil pada tahun 1967-2000 dengan lokasi grid berada ditengah tengahKabupaten Indramayu. Grid yang digunakan adalah 3x3, 8x8, dan 12x12dengan domain GCM yang digunakan domain 3x3 (9 grid), yaitu 4.660 LS- 8.390

LS;106.870 BT 110.640 BT, domain 8x8 (64 grid), yaitu 0.930-13.990 LS; 101.120

BT - 114.380 BT, dan domain 12x12 (144 grid), yaitu 2.790 LU-17.720 LS; 97.500

BT 118.1250 BT

gambar

Variabel Penelitian

Data luaran GCM CSIRO- Mk3 yang merupakan variabel prediktor meliputi:precipitable water (prw), tekanan permukaan laut (slp), komponen anginmeridional (va), komponen zonal (ua), ketinggian geopotensial (zg), dankelembaban spesifik (hus). Ketinggian (level) yang digunakan dalam penelitianadalah 850 hPa, 500 hPa, dan 200 hPa.Variabel respon adalah data curah hujan bulanan meliputi stasiun: Losarang(6.410 LS, 108.150 BT) pada tahun 1967-1999, Indramayu (6.350 LS, 108.320 BT)pada tahun 1974-1999, Tulangkacang (6.360 LS, 107.010 BT ) pada tahun 1991-1999, Sumurwatu (6.520 LS, 108.100 BT) pada tahun 1978-1999, dan Juntinyuat(6.430 LS, 108.440 BT) pada tahun 1974-1999.

gambar

Analisa dan Pembahasan

Tabel 4.1 Matrik korelasi antar variabel HUSS pada grid 3x3

huss1 huss2 huss3 huss4 huss5 huss6 huss7 huss8 huss9

huss1 1.00 0.38 0.62 0.97 0.76 0.53 0.80 0.73 0.40

huss2 0.38 1.00 0.22 0.40 0.39 0.17 0.36 0.26 0.12

huss3 0.62 0.22 1.00 0.61 0.53 0.94 0.36 0.88 0.88

huss4 0.97 0.40 0.61 1.00 0.80 0.55 0.86 0.76 0.44

huss5 0.76 0.39 0.53 0.80 1.00 0.50 0.74 0.66 0.41

huss6 0.53 0.17 0.94 0.55 0.50 1.00 0.32 0.91 0.95

huss7 0.80 0.36 0.36 0.86 0.74 0.32 1.00 0.56 0.26

huss8 0.73 0.26 0.88 0.76 0.66 0.91 0.56 1.00 0.85

huss9 0.40 0.12 0.88 0.44 0.41 0.95 0.26 0.85 1.00

Identifikasi multikolinieritas

Pra-pemrosesan data dengan PCA

PC grid 3x3 grid 8x8 grid 12x12

nilai

eigen

prop

kum

nilai

eigen

prop

kum

nilai

eigen

prop

kum

1 5.8186 0.647 36.913 0.577 78.281 0.544

2 1.7276 0.838 10.089 0.734 22.655 0.701

3 0.7702 0.924 4.078 0.798 10.26 0.772

4 0.2878 0.956 2.026 0.83 4.416 0.803

5 0.2201 0.98 1.174 0.848 2.73 0.822

6 0.0929 0.991 1.078 0.865 1.665 0.833

7 0.0483 0.996 0.987 0.88 1.461 0.844

8 0.021 0.998 0.965 0.895 1.291 0.852

9 0.0136 1 0.88 0.909 1.146 0.86

10 - - 0.794 0.922 1.099 0.868

Kumulatif Proporsi dan Nilai Eigen Variabel HUSS

grid 3x3 grid 8x8 grid 12x12

No variabel

jumlah

PC

prop

kom

jumlah

PC

prop

kom

jumlah

PC

prop

kom

1 HUSS 200 1 97.50% 2 94.90% 1 99.40%

2 HUSS 500 1 96.70% 2 92.50% 2 85.50%

3 HUSS 850 1 93.50% 2 90.10% 3 88%

4 HUSS 3 92.40% 6 86.50% 9 86%

5 PRW 1 92.30% 2 87.90% 3 89.60%

6 PSL 1 97.35% 1 87% 2 95.70%

7 UA 200 1 98.60% 1 91.90% 2 97.40%

8 UA 500 1 91.60% 2 88.80% 3 90.50%

9 UA 850 1 98.40% 1 86.10% 2 86.20%

10 UAS 1 95.35 2 91.70% 3 87.60%

11 VA 200 1 97.20% 2 93.40% 2 87.20%

12 VA 500 1 92.30% 3 89,7% 5 87.60%

13 VA 850 2 96.10% 3 91.30% 5 90%

14 VAS 2 97.30% 3 88.30% 5 88%

15 ZG 200 1 99.50% 1 93.90% 1 87.10%

16 ZG 500 1 99.60% 1 95.70% 1 88.70%

17 ZG 850 1 99.10% 1 93.40% 1 89.80%

Jumlah PC Optimal dan Keragaman Kumulatif PC Variabel Luaran GCM dengan Menggunakan Metode PC

grid 3x3 grid 8x8 grid 12x12

stasiun RMSEP R2pred RMSEP R2

pred RMSEP R2

pred

Sumurwatu 110.9176 31.20% 114.3645 31.30% 121.9155 27.40%

losarang 108.3221 32.50% 109.5804 33.30% 115.8183 27.70%

kroya 98.05002 40.50% 130.4405 28.50% 153.1108 20.70%

Juntinyuat 84.86531 25.80% 109.6141 25.20% 118.838 22.30%

Indramayu 125.0302 31.10% 131.09