its undergraduate 9319 metode regresi kuadrat terkecil dengan pra pemrosesan analisis komponen utama...
TRANSCRIPT
-
Metode Regresi Kuadrat Terkecil Parsial Untuk Pra-Pemrosesan Data
Luaran GCM CSIRO Mk-3
TUGAS AKHIR
Oleh:
Alin Fitriani
1306 100 066
Pembimbing:
Dr.Ir. Setiawan, M.S
NIP 198701 1 001
JURUSAN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT TEKNOLOGI SEPULUH NOPEMBER
SURABAYA
2010
-
Latar Belakang
iklim Gas rumah kacaPemanasan
global
Perubahan iklimPola curah hujan
GCM
Resolusirendah, skala
tinggidownscalling
multikolinieritas Reduksi dimensi
-
Permasalahan
Bagaimana memodelkan data hujan lokal (variabel respon) dengan data luaran GCM (reduksi) dengan metode PCA danmetode PLS (Partial Least Squares).
Bagaimana hasil kinerja reduksi dimensi dan pemodelan menggunakan metode PCA dan metode PLS (Partial Least Squares).
-
Tujuan penelitian
Memodelkan data hujan lokal (variabel respon) dengan dataluaran GCM (reduksi)dengan metode PCA dan metode PLS(Partial Least Squares).
Membandingkan hasil kinerja reduksi dimensi dan pemodelanmenggunakan metode PCA dan metode PLS (Partial LeastSquares).
-
Manfaat Penelitian
Memberikan alternatif bagi BMKG, LAPAN, dan instansilainnya untuk kajian-kajian dampak iklim dengan basisluaran GCM dalam tahap pra-pemrosesan data luaran GCMyang kemudian akan digunakan untuk memodelkanStatistical Downscaling (SD).
-
Batasan Masalah Studi kasus pra-pemrosesan pada data pemodelan
statistical downscaling adalah data luaran GCM CSIRO-Mk3
dengan 5 statiun yang digunakan sebagai daerah penelitian
yaitu Losarang, Indramayu, Juntinyuat, Kroya, dan
Sumurwatu .
Data luaran GCM diasumsikan bersifat linear
Reduksi dimensi dengan metode PLS (Partial Least Squares)
untuk mengatasi adanya multikolinieritas.
-
Penelitian Terdahulu
Metode regresi robust PCA dilakukan Chusnul Khotimah
tahun 2009
Transformasi wavelet diskrit dengan mother wavelet Harr
dilakukan Anggreini Suprapti tahun 2009
-
Tinjauan Pustaka
Regresi Linear
Regresi linier adalah metode statistika yang digunakan untukmembentuk model hubungan antara variabel terikat (dependen;respon; Y) dengan satu atau lebih variabel bebas (independen,prediktor, X) (Deni, 2008).Apabila banyaknya variabel bebas hanya ada satu, disebut sebagairegresi linier sederhana, sedangkan apabila terdapat lebih dari satuvariabel bebas, disebut sebagai regresi linier berganda.Secara umum model yang menggambarkan hubungan antara variabelpenjelas (X) dengan variabel respon (Y) adalah:
-
Multikolinieritas
Multikolinearitas (kolinearitas ganda) adalah hubungan linear yang sempurnaatau pasti diantara beberapa atau semua variabel eksplanatori (bebas) darimodel regresi ganda.Multikolinieritas yang tinggi akan menyebabkan koefisien regresi yangdiperoleh tidak unik.Salah satu ukuran untuk mendeteksi adanya multikolinieritas adalah VIF(Variation Inflation Factor). VIF merupakan faktor yang mengukur seberapabesar kenaikan varian dari koefisien regresi dibandingkan dengan variabelbebas lain yang saling orthogonal.
dengan adalah koefisien determinasi dari variabel bebas Xi jika diregresikandengan semua variabel bebas X lainnya di dalam model
-
Principal Component Analysis (PCA)
Metode PCA merupakan prosedur untuk mereduksi dimensi data dengan caramentransformasi variabel-variabel asal yang berkorelasi menjadi sekumpulanvariabel baru yang tidak berkorelasi. Variabel-variabel baru itu dikatakan sebagaiprincipal component (PC) (Johnson and Winchren, 2002).
Partial Least Squares (PLS)
Metode PLS merupakan metode statistik yang menggeneralisasi danmengkombinasikan antara metode analisis faktor, principal component analysisdan multiple regression (Abdi, 2007). Tujuan PLS adalah membentuk komponenyang dapat menangkap informasi dari variabel bebas untuk memprediksi variabelresponPCA terfokus pada keragaman di dalam variabel bebas, sedangkan PLS fokus padakovarians diantara variabel bebas dan variabel tak bebas.
-
data
Buliding set (membangun model)
Validation
(prediction set)
Validasi Model
Ukuran kebaikan model yang digunakan untuk validasi data RMSE dan RMSEP
R2 dan R2prediction
-
General Circulation Model (GCM)
GCM (General Circulation Model) adalah suatu model berbasis komputer yangterdiri dari berbagai persamaan numerik dan deterministik yang terpadu danmengikuti kaidah-kaidah fisika (Wigena, 2006).
Donwscaling
Downscaling didefinisikan sebagai upaya menghubungkan antara sirkulasivariabel skala global (variabel penjelas) dan variabel skala lokal (variabelrespon) (Sutikno, 2008).
-
Statistical Donwscaling
Statistical Downscaling (SD) adalah suatu proses downscaling yangbersifat statik dimana data pada grid-grid berskala besar dalam periodedan jangka waktu tertentu digunakan sebagai dasar untuk menentukandata pada grid berskala lebih kecil (Wigena, 2006).Metode Statistical Downscaling (SD) didasarkan pada asumsi bahwa iklimregional dikendalikan oleh dua faktor yaitu: kondisi iklim skala besar(resolusi rendah) dan kondisi/karakteristik fisiografik regional/lokal(misal: topografi distribusi daratan-lautan dan tataguna lahan) (vonStroch et al. 1999 dalam Sutikno, 2008).Kegunaaan penggunaan metode SD menggunakan data regional atauglobal adalah untuk memperoleh hubungan fungsional antara skala lokaldengan skala global GCM.
-
Metodologi Penelitian
Sumber Data
Data yang digunakan dalam penelitian ini adalah data sekunder yang diperolehdari data luaran GCM model CSIRO-Mk3 dari Australia dengan eksperimen20th century in coupled models (20 C3M).Data diambil pada tahun 1967-2000 dengan lokasi grid berada ditengah tengahKabupaten Indramayu. Grid yang digunakan adalah 3x3, 8x8, dan 12x12dengan domain GCM yang digunakan domain 3x3 (9 grid), yaitu 4.660 LS- 8.390
LS;106.870 BT 110.640 BT, domain 8x8 (64 grid), yaitu 0.930-13.990 LS; 101.120
BT - 114.380 BT, dan domain 12x12 (144 grid), yaitu 2.790 LU-17.720 LS; 97.500
BT 118.1250 BT
gambar
-
Variabel Penelitian
Data luaran GCM CSIRO- Mk3 yang merupakan variabel prediktor meliputi:precipitable water (prw), tekanan permukaan laut (slp), komponen anginmeridional (va), komponen zonal (ua), ketinggian geopotensial (zg), dankelembaban spesifik (hus). Ketinggian (level) yang digunakan dalam penelitianadalah 850 hPa, 500 hPa, dan 200 hPa.Variabel respon adalah data curah hujan bulanan meliputi stasiun: Losarang(6.410 LS, 108.150 BT) pada tahun 1967-1999, Indramayu (6.350 LS, 108.320 BT)pada tahun 1974-1999, Tulangkacang (6.360 LS, 107.010 BT ) pada tahun 1991-1999, Sumurwatu (6.520 LS, 108.100 BT) pada tahun 1978-1999, dan Juntinyuat(6.430 LS, 108.440 BT) pada tahun 1974-1999.
gambar
-
Analisa dan Pembahasan
Tabel 4.1 Matrik korelasi antar variabel HUSS pada grid 3x3
huss1 huss2 huss3 huss4 huss5 huss6 huss7 huss8 huss9
huss1 1.00 0.38 0.62 0.97 0.76 0.53 0.80 0.73 0.40
huss2 0.38 1.00 0.22 0.40 0.39 0.17 0.36 0.26 0.12
huss3 0.62 0.22 1.00 0.61 0.53 0.94 0.36 0.88 0.88
huss4 0.97 0.40 0.61 1.00 0.80 0.55 0.86 0.76 0.44
huss5 0.76 0.39 0.53 0.80 1.00 0.50 0.74 0.66 0.41
huss6 0.53 0.17 0.94 0.55 0.50 1.00 0.32 0.91 0.95
huss7 0.80 0.36 0.36 0.86 0.74 0.32 1.00 0.56 0.26
huss8 0.73 0.26 0.88 0.76 0.66 0.91 0.56 1.00 0.85
huss9 0.40 0.12 0.88 0.44 0.41 0.95 0.26 0.85 1.00
Identifikasi multikolinieritas
-
Pra-pemrosesan data dengan PCA
PC grid 3x3 grid 8x8 grid 12x12
nilai
eigen
prop
kum
nilai
eigen
prop
kum
nilai
eigen
prop
kum
1 5.8186 0.647 36.913 0.577 78.281 0.544
2 1.7276 0.838 10.089 0.734 22.655 0.701
3 0.7702 0.924 4.078 0.798 10.26 0.772
4 0.2878 0.956 2.026 0.83 4.416 0.803
5 0.2201 0.98 1.174 0.848 2.73 0.822
6 0.0929 0.991 1.078 0.865 1.665 0.833
7 0.0483 0.996 0.987 0.88 1.461 0.844
8 0.021 0.998 0.965 0.895 1.291 0.852
9 0.0136 1 0.88 0.909 1.146 0.86
10 - - 0.794 0.922 1.099 0.868
Kumulatif Proporsi dan Nilai Eigen Variabel HUSS
-
grid 3x3 grid 8x8 grid 12x12
No variabel
jumlah
PC
prop
kom
jumlah
PC
prop
kom
jumlah
PC
prop
kom
1 HUSS 200 1 97.50% 2 94.90% 1 99.40%
2 HUSS 500 1 96.70% 2 92.50% 2 85.50%
3 HUSS 850 1 93.50% 2 90.10% 3 88%
4 HUSS 3 92.40% 6 86.50% 9 86%
5 PRW 1 92.30% 2 87.90% 3 89.60%
6 PSL 1 97.35% 1 87% 2 95.70%
7 UA 200 1 98.60% 1 91.90% 2 97.40%
8 UA 500 1 91.60% 2 88.80% 3 90.50%
9 UA 850 1 98.40% 1 86.10% 2 86.20%
10 UAS 1 95.35 2 91.70% 3 87.60%
11 VA 200 1 97.20% 2 93.40% 2 87.20%
12 VA 500 1 92.30% 3 89,7% 5 87.60%
13 VA 850 2 96.10% 3 91.30% 5 90%
14 VAS 2 97.30% 3 88.30% 5 88%
15 ZG 200 1 99.50% 1 93.90% 1 87.10%
16 ZG 500 1 99.60% 1 95.70% 1 88.70%
17 ZG 850 1 99.10% 1 93.40% 1 89.80%
Jumlah PC Optimal dan Keragaman Kumulatif PC Variabel Luaran GCM dengan Menggunakan Metode PC
-
grid 3x3 grid 8x8 grid 12x12
stasiun RMSEP R2pred RMSEP R2
pred RMSEP R2
pred
Sumurwatu 110.9176 31.20% 114.3645 31.30% 121.9155 27.40%
losarang 108.3221 32.50% 109.5804 33.30% 115.8183 27.70%
kroya 98.05002 40.50% 130.4405 28.50% 153.1108 20.70%
Juntinyuat 84.86531 25.80% 109.6141 25.20% 118.838 22.30%
Indramayu 125.0302 31.10% 131.0903 31.7% 144.622 23%
Pemodelan SD
1. Metode Regresi dengan Pre-pemrosesan PCA
Nilai RMSEP, dan R2 dengan menggunakan metode regresi PCA
2. Metode Regresi PLS
grid 3x3 grid 8x8 grid 12x12
Stasiun RMSEP R2pred RMSEP R2
pred RMSEP R2
pred
sumurwatu 102.4966 40.80% 100.5751 42.70% 102.1293 40.80%
losarang 104.2476 37.20% 102.6259 39% 102.4574 39.40%
Kroya 99.08801 38.50% 96.84099 40.20% 97.61049 36.60%
juntinyuat 76.73118 30.20% 101.4372 30.70% 100.477 31.90%
indrmayu 113.3752 40.90% 111.5253 42.70% 110.091 44.10%
Nilai RMSEP, dan R2 pada regresi PLS
-
Plot Residual dan y (topi)
RESI2
OLS
6005004003002001000-100-200-300
600
500
400
300
200
100
0
-100
Scatterplot of OLS vs RESI2
RESI1
PLS
4003002001000-100-200-300
350
300
250
200
150
100
50
0
Scatterplot of PLS vs RESI1
PCA PLS
-
kriteria
Losarang Indramayu Juntinyuat
PCA PLS PCA PLS PCA
grid 3x3
RMSEP 107.87 106.526 125.03 113.375 84.865
R2pred 32.60% 34.50% 31.10% 40.90% 25.80%
grid 8x8
RMSEP 109.58 102.626 131.09 111.525 109.61
R2pred 33.30% 39.00% 31.70% 42.70% 25.20%
grid 12x12
RMSEP 115.82 102.45 144.62 110.09 118.84
R2pred 27.70% 39% 23% 44.10% 22.30%
kriteria
juntinyuat Kroya Sumurwatu
PLS PCA PLS PCA PLS
grid 3x3
RMSEP 76.7312 98.05 99.08 110.92 102.5
R2pred 30.20% 40.50% 38.50% 31.20% 40.80%
grid 8x8
RMSEP 101.437 130.44 96.841 114.36 100.58
R2pred 30.70% 28.50% 40.20% 31.30% 42.70%
grid 12x12
RMSEP 100.477 153.11 97.61 121.92 102.13
R2pred 31.90% 20.70% 36.60% 27.40% 40.80%
RMSEP dan R2 Pemodelan SD Menggunakan Metode Regresi PCA dan Regresi PLS
Perbandingan Metode Pemodelan SD
-
reduksi demansi
stasiun
semua variabel per variabel
PCA PLS PCA PLS
RMSEP R2 RMSEP R2 RMSEP R2 RMSEP R2
sumurwatu 106.21 36.40% 105.41 37.30% 110.92 31.20% 102.5 40.80%
indramayu 116.49 38% 115.46 38.95% 107.87 32.60% 106.52 34.50%
juntinyuat 103.46 27,8% 103.94 27,4% 99.088 38.50% 98.05 40.50%
kroya 100.77 34.30% 99.09 35.70% 84.86 25.80% 76.73 30.20%
losarang 107.87 32.6 106.53 34.5 125.03 31.10% 113.38 40.90%
RMSEP dan R2 Pemodelan SD Menggunakan Metode Regresi PCA dan Regresi PLS (reduksi dimensi
lengkap dan per variabel)
-
Kesimpulan dan Saran
Jumlah Principal Component data luaran GCM yang dihasilkan setiap grid tidak lebih dari 5komponen kecuali untuk variabel HUSS.
Pemodelan dengan menggunakan metode PLS model terbaik berdasarkan RMSEP, grid 3x3pada stasiun Juntinyuat, grid 9x9 dan grid 12x12 pada stasiun Kroya. Berdasarkan nilai R2
model terbaik pada grid 3x3, grid 9x9, dan grid 12x12 terdapat stasiun yang sama yaitustasiun Indramayu.
Pemodelan terbaik berdasarkan nilai RMSEP dengan metode PCA, grid 3x3 pada stasiunJuntinyuat, grid 9x9 pada stasiun Losarang, dan grid 12x12 pada stasiun Indramayu.Sedangkan dengan nilai R2 metode terbaik grid 3x3 pada stasiun Kroya, grid 9x9 dan grid12x12 pada stasiun Losarang.
Pemodelan dengan menggunakan metode regresi PLS lebih baik dibandingkan denganpemodelan regresi dengan pra-pemrosesan PC. Walaupun tidak terlalu besar perbedaanya,pada regresi PLS menghasilkan RMSEP yang lebih kecil dan R2 yang lebih besar dibandingkandengan RMSEP dan R2 yang dihasilkan dengan menggunakan metode regresi dengan pra-pemrosesan PC kecuali pada Stasiun Kroya dengan grid 3x3.
KESIMPULAN
-
Metode PLS dan PCA hanya cocok untuk data yang bersifat linear,sedangkan data luaran GCM bersifat nonlinier. Hal ini menyebabkanpemodelan menghasilkan R2 yang Kecil. Oleh karena itu, perlu dilakukanpenelitian lebih lanjut untuk mengatasi masalah non linier pada dataluaran GCM tersebut.
SARAN
-
Daftar PustakaAnonim (a), (2009), Verifikasi dan Validasi Model. http://didi.staff.gunadarma.ac.id [12 Oktober2009]
Anonim (b), (2009). Analisis Komponen Utama.http://www.wikipwedia.org [ 10 September 2009].
Draper, N.R & Smith, H. (1992). Analisis Regresi Terapan. Edisi Kedua. Jakarta: PT. GramediaPustaka Utama
Herwindiawati, D.E. (1997). Pengkajian Regresi Komponen Utama, Regresi Ridge dan Regresi Kuadrat
Terkecil Parsial untuk Mengatasi Kolinieritas. Thesis-S2, IPB, Bogor.
Johnson, R.A & Wichern, D.W. (2002). Applied Multivariate Statistical Analysis. 5th Ed. New
Jersey: Prentice Hall.
Neter, J. Wassermen W., dan Kutner, M.H. (1990). Applied Linear Statistical Models, 3rd editon, Illinois. Irwin.
Ohyver, M (2008), Transformasi Wavelet Kontinu pada Model Kalibrasi Peubah Ganda. Thesis, ITS,
Surabaya.
Sujatmiko, Irwan. (2003). Analisis Komponen Utama dengan Menggunakan Matriks Varian-Kovarian yang
Robust. Thesis Magister ITS. Surabaya
Sutikno. (2008). Statistical Downscaling Luaran GCM dan Pemanfaatannya untuk Peramalan Produksi PadiDisertasi. Bogor: Program Pascasarjana, Institut Pertanian Bogor.
Wigena, A.H. (2006). Pemodelan Statistical Downscaling dengan Regresi Projection Persuit untuk Peramalan
Curah Hujan [disertasi]. Bogor: Program Pascasarjana, Institut Pertanian Bogor.
Wold, S. (2001). Personal memories of the early PLS development.Chemometrics and Intelligent Laboratory
Systems, 58,8384.Wulandari, S.P., (2000). Analisis Hubungan Antara Variabel Ekonomi dengan Kesejahteraan Menggunakan
Metode PLS (Partial Least Squares). Tidak dipublikasikan.Thesis-S2, IPB, Bogor.
-
Terima Kasih
PLS is my way
-
(A)
(B)
(C)
Lokasi penelitian
Lokasi Domain 3x3 (A), 8x8 (B), dan 12x12 (C) (Sumber : Sutikno, 2008)
back
-
No. Variabel Satuan
Ketinggian/level
Ketinggian/level850 hPa 500 hPa 200 hPa
1 Precipitable water Kg m-2Prw - - -
2 Tekanan permukaan lautPa Slp - - -
3 Komponen angin meridionalm s-1 Vas va850 va500 va200
4 Komponen angin zonal m s-1 Uas ua850 ua500 ua200
5 Ketinggian geopotensial m - zg850 zg500 zg200
6 Kelembaban spesifikltr Huss hus850 hus500 hus200
Variabel penjelas yang di ambil dari model luaran CSIRO-Mk3 dan
Pengkodingan
Stasiun Periode
Losarang 1981-2000
Sudikampiran 1981-2000
Sumurwatu 1981-2000
Indramayu 1981-2000
Juntinyuat 1981-2000
Stasiun Peubah Lokal dan Periode di Kabupaten Indramayu
back
-
Wavelet Diskrit
Stasiun
grid 3x3 grid 8x8 grid 12x12
RMSE R^2pred R^2pred R^2pred
Losarang 100.68 26.1 113.44 14.3 106.94 18.7
Sudikampiran 77.59 32.7 87.83 23.5 103.34 17.4
Sumurwatu 114.27 46.5 120.29 51.3 125.88 31.2
Indramayu 153.7 22.2 168.42 13.6 182.88 31.2
Juntinyuat 117.1 13.8 125.9 9.8 131.1 3.3
ROBPCA
Stasiun
Domain 3x3 Domain 8x8 Domain 12x12
RMSEP R2 RMSEP R2 RMSEP R2
Losarang 102.55 24.60% 95.69 33.20% 100.24 24.40%
Sumurwatu 114.82 48.50% 111.31 46.30% 134.22 26.20%
Indramayu 150.77 24.90% 151.03 29.10% 157.89 24.80%
Tulangkacang 102.66 18.80% 95.39 25.70% 103.35 23.80%
Juntinyuat 121.01 12.50% 108.52 53% 121.67 11.70%
PCA
grid 3x3 grid 8x8 grid 12x12
stasiun RMSEP R2pred RMSEP R2
pred RMSEP R2
pred
Sumurwatu 110.92 31.20% 114.3645 31.30% 121.92 27.40%
losarang 108.32 32.50% 109.5804 33.30% 115.82 27.70%
kroya 98.05 40.50% 130.4405 28.50% 153.11 20.70%
Juntinyuat 84.865 25.80% 109.6141 25.20% 118.84 22.30%
Indramayu 125.03 31.10% 131.0903 31.70% 144.62 23%
PLS
grid 3x3 grid 8x8 grid 12x12
Stasiun RMSEP R2pred RMSEP R2
pred RMSEP R2
pred
sumurwatu 102.5 40.80% 100.58 42.70% 102.13 40.80%
losarang 104.25 37.20% 102.63 39% 102.46 39.40%
Kroya 99.088 38.50% 96.841 40.20% 97.61 36.60%
juntinyuat 76.731 30.20% 101.44 30.70% 100.48 31.90%
indrmayu 113.38 40.90% 111.53 42.70% 110.09 44.10%