its undergraduate 9319 metode regresi kuadrat terkecil dengan pra pemrosesan analisis komponen utama...

Post on 24-Nov-2015

62 Views

Category:

Documents

8 Downloads

Preview:

Click to see full reader

TRANSCRIPT

  • Metode Regresi Kuadrat Terkecil Parsial Untuk Pra-Pemrosesan Data

    Luaran GCM CSIRO Mk-3

    TUGAS AKHIR

    Oleh:

    Alin Fitriani

    1306 100 066

    Pembimbing:

    Dr.Ir. Setiawan, M.S

    NIP 198701 1 001

    JURUSAN STATISTIKA

    FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

    INSTITUT TEKNOLOGI SEPULUH NOPEMBER

    SURABAYA

    2010

  • Latar Belakang

    iklim Gas rumah kacaPemanasan

    global

    Perubahan iklimPola curah hujan

    GCM

    Resolusirendah, skala

    tinggidownscalling

    multikolinieritas Reduksi dimensi

  • Permasalahan

    Bagaimana memodelkan data hujan lokal (variabel respon) dengan data luaran GCM (reduksi) dengan metode PCA danmetode PLS (Partial Least Squares).

    Bagaimana hasil kinerja reduksi dimensi dan pemodelan menggunakan metode PCA dan metode PLS (Partial Least Squares).

  • Tujuan penelitian

    Memodelkan data hujan lokal (variabel respon) dengan dataluaran GCM (reduksi)dengan metode PCA dan metode PLS(Partial Least Squares).

    Membandingkan hasil kinerja reduksi dimensi dan pemodelanmenggunakan metode PCA dan metode PLS (Partial LeastSquares).

  • Manfaat Penelitian

    Memberikan alternatif bagi BMKG, LAPAN, dan instansilainnya untuk kajian-kajian dampak iklim dengan basisluaran GCM dalam tahap pra-pemrosesan data luaran GCMyang kemudian akan digunakan untuk memodelkanStatistical Downscaling (SD).

  • Batasan Masalah Studi kasus pra-pemrosesan pada data pemodelan

    statistical downscaling adalah data luaran GCM CSIRO-Mk3

    dengan 5 statiun yang digunakan sebagai daerah penelitian

    yaitu Losarang, Indramayu, Juntinyuat, Kroya, dan

    Sumurwatu .

    Data luaran GCM diasumsikan bersifat linear

    Reduksi dimensi dengan metode PLS (Partial Least Squares)

    untuk mengatasi adanya multikolinieritas.

  • Penelitian Terdahulu

    Metode regresi robust PCA dilakukan Chusnul Khotimah

    tahun 2009

    Transformasi wavelet diskrit dengan mother wavelet Harr

    dilakukan Anggreini Suprapti tahun 2009

  • Tinjauan Pustaka

    Regresi Linear

    Regresi linier adalah metode statistika yang digunakan untukmembentuk model hubungan antara variabel terikat (dependen;respon; Y) dengan satu atau lebih variabel bebas (independen,prediktor, X) (Deni, 2008).Apabila banyaknya variabel bebas hanya ada satu, disebut sebagairegresi linier sederhana, sedangkan apabila terdapat lebih dari satuvariabel bebas, disebut sebagai regresi linier berganda.Secara umum model yang menggambarkan hubungan antara variabelpenjelas (X) dengan variabel respon (Y) adalah:

  • Multikolinieritas

    Multikolinearitas (kolinearitas ganda) adalah hubungan linear yang sempurnaatau pasti diantara beberapa atau semua variabel eksplanatori (bebas) darimodel regresi ganda.Multikolinieritas yang tinggi akan menyebabkan koefisien regresi yangdiperoleh tidak unik.Salah satu ukuran untuk mendeteksi adanya multikolinieritas adalah VIF(Variation Inflation Factor). VIF merupakan faktor yang mengukur seberapabesar kenaikan varian dari koefisien regresi dibandingkan dengan variabelbebas lain yang saling orthogonal.

    dengan adalah koefisien determinasi dari variabel bebas Xi jika diregresikandengan semua variabel bebas X lainnya di dalam model

  • Principal Component Analysis (PCA)

    Metode PCA merupakan prosedur untuk mereduksi dimensi data dengan caramentransformasi variabel-variabel asal yang berkorelasi menjadi sekumpulanvariabel baru yang tidak berkorelasi. Variabel-variabel baru itu dikatakan sebagaiprincipal component (PC) (Johnson and Winchren, 2002).

    Partial Least Squares (PLS)

    Metode PLS merupakan metode statistik yang menggeneralisasi danmengkombinasikan antara metode analisis faktor, principal component analysisdan multiple regression (Abdi, 2007). Tujuan PLS adalah membentuk komponenyang dapat menangkap informasi dari variabel bebas untuk memprediksi variabelresponPCA terfokus pada keragaman di dalam variabel bebas, sedangkan PLS fokus padakovarians diantara variabel bebas dan variabel tak bebas.

  • data

    Buliding set (membangun model)

    Validation

    (prediction set)

    Validasi Model

    Ukuran kebaikan model yang digunakan untuk validasi data RMSE dan RMSEP

    R2 dan R2prediction

  • General Circulation Model (GCM)

    GCM (General Circulation Model) adalah suatu model berbasis komputer yangterdiri dari berbagai persamaan numerik dan deterministik yang terpadu danmengikuti kaidah-kaidah fisika (Wigena, 2006).

    Donwscaling

    Downscaling didefinisikan sebagai upaya menghubungkan antara sirkulasivariabel skala global (variabel penjelas) dan variabel skala lokal (variabelrespon) (Sutikno, 2008).

  • Statistical Donwscaling

    Statistical Downscaling (SD) adalah suatu proses downscaling yangbersifat statik dimana data pada grid-grid berskala besar dalam periodedan jangka waktu tertentu digunakan sebagai dasar untuk menentukandata pada grid berskala lebih kecil (Wigena, 2006).Metode Statistical Downscaling (SD) didasarkan pada asumsi bahwa iklimregional dikendalikan oleh dua faktor yaitu: kondisi iklim skala besar(resolusi rendah) dan kondisi/karakteristik fisiografik regional/lokal(misal: topografi distribusi daratan-lautan dan tataguna lahan) (vonStroch et al. 1999 dalam Sutikno, 2008).Kegunaaan penggunaan metode SD menggunakan data regional atauglobal adalah untuk memperoleh hubungan fungsional antara skala lokaldengan skala global GCM.

  • Metodologi Penelitian

    Sumber Data

    Data yang digunakan dalam penelitian ini adalah data sekunder yang diperolehdari data luaran GCM model CSIRO-Mk3 dari Australia dengan eksperimen20th century in coupled models (20 C3M).Data diambil pada tahun 1967-2000 dengan lokasi grid berada ditengah tengahKabupaten Indramayu. Grid yang digunakan adalah 3x3, 8x8, dan 12x12dengan domain GCM yang digunakan domain 3x3 (9 grid), yaitu 4.660 LS- 8.390

    LS;106.870 BT 110.640 BT, domain 8x8 (64 grid), yaitu 0.930-13.990 LS; 101.120

    BT - 114.380 BT, dan domain 12x12 (144 grid), yaitu 2.790 LU-17.720 LS; 97.500

    BT 118.1250 BT

    gambar

  • Variabel Penelitian

    Data luaran GCM CSIRO- Mk3 yang merupakan variabel prediktor meliputi:precipitable water (prw), tekanan permukaan laut (slp), komponen anginmeridional (va), komponen zonal (ua), ketinggian geopotensial (zg), dankelembaban spesifik (hus). Ketinggian (level) yang digunakan dalam penelitianadalah 850 hPa, 500 hPa, dan 200 hPa.Variabel respon adalah data curah hujan bulanan meliputi stasiun: Losarang(6.410 LS, 108.150 BT) pada tahun 1967-1999, Indramayu (6.350 LS, 108.320 BT)pada tahun 1974-1999, Tulangkacang (6.360 LS, 107.010 BT ) pada tahun 1991-1999, Sumurwatu (6.520 LS, 108.100 BT) pada tahun 1978-1999, dan Juntinyuat(6.430 LS, 108.440 BT) pada tahun 1974-1999.

    gambar

  • Analisa dan Pembahasan

    Tabel 4.1 Matrik korelasi antar variabel HUSS pada grid 3x3

    huss1 huss2 huss3 huss4 huss5 huss6 huss7 huss8 huss9

    huss1 1.00 0.38 0.62 0.97 0.76 0.53 0.80 0.73 0.40

    huss2 0.38 1.00 0.22 0.40 0.39 0.17 0.36 0.26 0.12

    huss3 0.62 0.22 1.00 0.61 0.53 0.94 0.36 0.88 0.88

    huss4 0.97 0.40 0.61 1.00 0.80 0.55 0.86 0.76 0.44

    huss5 0.76 0.39 0.53 0.80 1.00 0.50 0.74 0.66 0.41

    huss6 0.53 0.17 0.94 0.55 0.50 1.00 0.32 0.91 0.95

    huss7 0.80 0.36 0.36 0.86 0.74 0.32 1.00 0.56 0.26

    huss8 0.73 0.26 0.88 0.76 0.66 0.91 0.56 1.00 0.85

    huss9 0.40 0.12 0.88 0.44 0.41 0.95 0.26 0.85 1.00

    Identifikasi multikolinieritas

  • Pra-pemrosesan data dengan PCA

    PC grid 3x3 grid 8x8 grid 12x12

    nilai

    eigen

    prop

    kum

    nilai

    eigen

    prop

    kum

    nilai

    eigen

    prop

    kum

    1 5.8186 0.647 36.913 0.577 78.281 0.544

    2 1.7276 0.838 10.089 0.734 22.655 0.701

    3 0.7702 0.924 4.078 0.798 10.26 0.772

    4 0.2878 0.956 2.026 0.83 4.416 0.803

    5 0.2201 0.98 1.174 0.848 2.73 0.822

    6 0.0929 0.991 1.078 0.865 1.665 0.833

    7 0.0483 0.996 0.987 0.88 1.461 0.844

    8 0.021 0.998 0.965 0.895 1.291 0.852

    9 0.0136 1 0.88 0.909 1.146 0.86

    10 - - 0.794 0.922 1.099 0.868

    Kumulatif Proporsi dan Nilai Eigen Variabel HUSS

  • grid 3x3 grid 8x8 grid 12x12

    No variabel

    jumlah

    PC

    prop

    kom

    jumlah

    PC

    prop

    kom

    jumlah

    PC

    prop

    kom

    1 HUSS 200 1 97.50% 2 94.90% 1 99.40%

    2 HUSS 500 1 96.70% 2 92.50% 2 85.50%

    3 HUSS 850 1 93.50% 2 90.10% 3 88%

    4 HUSS 3 92.40% 6 86.50% 9 86%

    5 PRW 1 92.30% 2 87.90% 3 89.60%

    6 PSL 1 97.35% 1 87% 2 95.70%

    7 UA 200 1 98.60% 1 91.90% 2 97.40%

    8 UA 500 1 91.60% 2 88.80% 3 90.50%

    9 UA 850 1 98.40% 1 86.10% 2 86.20%

    10 UAS 1 95.35 2 91.70% 3 87.60%

    11 VA 200 1 97.20% 2 93.40% 2 87.20%

    12 VA 500 1 92.30% 3 89,7% 5 87.60%

    13 VA 850 2 96.10% 3 91.30% 5 90%

    14 VAS 2 97.30% 3 88.30% 5 88%

    15 ZG 200 1 99.50% 1 93.90% 1 87.10%

    16 ZG 500 1 99.60% 1 95.70% 1 88.70%

    17 ZG 850 1 99.10% 1 93.40% 1 89.80%

    Jumlah PC Optimal dan Keragaman Kumulatif PC Variabel Luaran GCM dengan Menggunakan Metode PC

  • grid 3x3 grid 8x8 grid 12x12

    stasiun RMSEP R2pred RMSEP R2

    pred RMSEP R2

    pred

    Sumurwatu 110.9176 31.20% 114.3645 31.30% 121.9155 27.40%

    losarang 108.3221 32.50% 109.5804 33.30% 115.8183 27.70%

    kroya 98.05002 40.50% 130.4405 28.50% 153.1108 20.70%

    Juntinyuat 84.86531 25.80% 109.6141 25.20% 118.838 22.30%

    Indramayu 125.0302 31.10% 131.0903 31.7% 144.622 23%

    Pemodelan SD

    1. Metode Regresi dengan Pre-pemrosesan PCA

    Nilai RMSEP, dan R2 dengan menggunakan metode regresi PCA

    2. Metode Regresi PLS

    grid 3x3 grid 8x8 grid 12x12

    Stasiun RMSEP R2pred RMSEP R2

    pred RMSEP R2

    pred

    sumurwatu 102.4966 40.80% 100.5751 42.70% 102.1293 40.80%

    losarang 104.2476 37.20% 102.6259 39% 102.4574 39.40%

    Kroya 99.08801 38.50% 96.84099 40.20% 97.61049 36.60%

    juntinyuat 76.73118 30.20% 101.4372 30.70% 100.477 31.90%

    indrmayu 113.3752 40.90% 111.5253 42.70% 110.091 44.10%

    Nilai RMSEP, dan R2 pada regresi PLS

  • Plot Residual dan y (topi)

    RESI2

    OLS

    6005004003002001000-100-200-300

    600

    500

    400

    300

    200

    100

    0

    -100

    Scatterplot of OLS vs RESI2

    RESI1

    PLS

    4003002001000-100-200-300

    350

    300

    250

    200

    150

    100

    50

    0

    Scatterplot of PLS vs RESI1

    PCA PLS

  • kriteria

    Losarang Indramayu Juntinyuat

    PCA PLS PCA PLS PCA

    grid 3x3

    RMSEP 107.87 106.526 125.03 113.375 84.865

    R2pred 32.60% 34.50% 31.10% 40.90% 25.80%

    grid 8x8

    RMSEP 109.58 102.626 131.09 111.525 109.61

    R2pred 33.30% 39.00% 31.70% 42.70% 25.20%

    grid 12x12

    RMSEP 115.82 102.45 144.62 110.09 118.84

    R2pred 27.70% 39% 23% 44.10% 22.30%

    kriteria

    juntinyuat Kroya Sumurwatu

    PLS PCA PLS PCA PLS

    grid 3x3

    RMSEP 76.7312 98.05 99.08 110.92 102.5

    R2pred 30.20% 40.50% 38.50% 31.20% 40.80%

    grid 8x8

    RMSEP 101.437 130.44 96.841 114.36 100.58

    R2pred 30.70% 28.50% 40.20% 31.30% 42.70%

    grid 12x12

    RMSEP 100.477 153.11 97.61 121.92 102.13

    R2pred 31.90% 20.70% 36.60% 27.40% 40.80%

    RMSEP dan R2 Pemodelan SD Menggunakan Metode Regresi PCA dan Regresi PLS

    Perbandingan Metode Pemodelan SD

  • reduksi demansi

    stasiun

    semua variabel per variabel

    PCA PLS PCA PLS

    RMSEP R2 RMSEP R2 RMSEP R2 RMSEP R2

    sumurwatu 106.21 36.40% 105.41 37.30% 110.92 31.20% 102.5 40.80%

    indramayu 116.49 38% 115.46 38.95% 107.87 32.60% 106.52 34.50%

    juntinyuat 103.46 27,8% 103.94 27,4% 99.088 38.50% 98.05 40.50%

    kroya 100.77 34.30% 99.09 35.70% 84.86 25.80% 76.73 30.20%

    losarang 107.87 32.6 106.53 34.5 125.03 31.10% 113.38 40.90%

    RMSEP dan R2 Pemodelan SD Menggunakan Metode Regresi PCA dan Regresi PLS (reduksi dimensi

    lengkap dan per variabel)

  • Kesimpulan dan Saran

    Jumlah Principal Component data luaran GCM yang dihasilkan setiap grid tidak lebih dari 5komponen kecuali untuk variabel HUSS.

    Pemodelan dengan menggunakan metode PLS model terbaik berdasarkan RMSEP, grid 3x3pada stasiun Juntinyuat, grid 9x9 dan grid 12x12 pada stasiun Kroya. Berdasarkan nilai R2

    model terbaik pada grid 3x3, grid 9x9, dan grid 12x12 terdapat stasiun yang sama yaitustasiun Indramayu.

    Pemodelan terbaik berdasarkan nilai RMSEP dengan metode PCA, grid 3x3 pada stasiunJuntinyuat, grid 9x9 pada stasiun Losarang, dan grid 12x12 pada stasiun Indramayu.Sedangkan dengan nilai R2 metode terbaik grid 3x3 pada stasiun Kroya, grid 9x9 dan grid12x12 pada stasiun Losarang.

    Pemodelan dengan menggunakan metode regresi PLS lebih baik dibandingkan denganpemodelan regresi dengan pra-pemrosesan PC. Walaupun tidak terlalu besar perbedaanya,pada regresi PLS menghasilkan RMSEP yang lebih kecil dan R2 yang lebih besar dibandingkandengan RMSEP dan R2 yang dihasilkan dengan menggunakan metode regresi dengan pra-pemrosesan PC kecuali pada Stasiun Kroya dengan grid 3x3.

    KESIMPULAN

  • Metode PLS dan PCA hanya cocok untuk data yang bersifat linear,sedangkan data luaran GCM bersifat nonlinier. Hal ini menyebabkanpemodelan menghasilkan R2 yang Kecil. Oleh karena itu, perlu dilakukanpenelitian lebih lanjut untuk mengatasi masalah non linier pada dataluaran GCM tersebut.

    SARAN

  • Daftar PustakaAnonim (a), (2009), Verifikasi dan Validasi Model. http://didi.staff.gunadarma.ac.id [12 Oktober2009]

    Anonim (b), (2009). Analisis Komponen Utama.http://www.wikipwedia.org [ 10 September 2009].

    Draper, N.R & Smith, H. (1992). Analisis Regresi Terapan. Edisi Kedua. Jakarta: PT. GramediaPustaka Utama

    Herwindiawati, D.E. (1997). Pengkajian Regresi Komponen Utama, Regresi Ridge dan Regresi Kuadrat

    Terkecil Parsial untuk Mengatasi Kolinieritas. Thesis-S2, IPB, Bogor.

    Johnson, R.A & Wichern, D.W. (2002). Applied Multivariate Statistical Analysis. 5th Ed. New

    Jersey: Prentice Hall.

    Neter, J. Wassermen W., dan Kutner, M.H. (1990). Applied Linear Statistical Models, 3rd editon, Illinois. Irwin.

    Ohyver, M (2008), Transformasi Wavelet Kontinu pada Model Kalibrasi Peubah Ganda. Thesis, ITS,

    Surabaya.

    Sujatmiko, Irwan. (2003). Analisis Komponen Utama dengan Menggunakan Matriks Varian-Kovarian yang

    Robust. Thesis Magister ITS. Surabaya

    Sutikno. (2008). Statistical Downscaling Luaran GCM dan Pemanfaatannya untuk Peramalan Produksi PadiDisertasi. Bogor: Program Pascasarjana, Institut Pertanian Bogor.

    Wigena, A.H. (2006). Pemodelan Statistical Downscaling dengan Regresi Projection Persuit untuk Peramalan

    Curah Hujan [disertasi]. Bogor: Program Pascasarjana, Institut Pertanian Bogor.

    Wold, S. (2001). Personal memories of the early PLS development.Chemometrics and Intelligent Laboratory

    Systems, 58,8384.Wulandari, S.P., (2000). Analisis Hubungan Antara Variabel Ekonomi dengan Kesejahteraan Menggunakan

    Metode PLS (Partial Least Squares). Tidak dipublikasikan.Thesis-S2, IPB, Bogor.

  • Terima Kasih

    PLS is my way

  • (A)

    (B)

    (C)

    Lokasi penelitian

    Lokasi Domain 3x3 (A), 8x8 (B), dan 12x12 (C) (Sumber : Sutikno, 2008)

    back

  • No. Variabel Satuan

    Ketinggian/level

    Ketinggian/level850 hPa 500 hPa 200 hPa

    1 Precipitable water Kg m-2Prw - - -

    2 Tekanan permukaan lautPa Slp - - -

    3 Komponen angin meridionalm s-1 Vas va850 va500 va200

    4 Komponen angin zonal m s-1 Uas ua850 ua500 ua200

    5 Ketinggian geopotensial m - zg850 zg500 zg200

    6 Kelembaban spesifikltr Huss hus850 hus500 hus200

    Variabel penjelas yang di ambil dari model luaran CSIRO-Mk3 dan

    Pengkodingan

    Stasiun Periode

    Losarang 1981-2000

    Sudikampiran 1981-2000

    Sumurwatu 1981-2000

    Indramayu 1981-2000

    Juntinyuat 1981-2000

    Stasiun Peubah Lokal dan Periode di Kabupaten Indramayu

    back

  • Wavelet Diskrit

    Stasiun

    grid 3x3 grid 8x8 grid 12x12

    RMSE R^2pred R^2pred R^2pred

    Losarang 100.68 26.1 113.44 14.3 106.94 18.7

    Sudikampiran 77.59 32.7 87.83 23.5 103.34 17.4

    Sumurwatu 114.27 46.5 120.29 51.3 125.88 31.2

    Indramayu 153.7 22.2 168.42 13.6 182.88 31.2

    Juntinyuat 117.1 13.8 125.9 9.8 131.1 3.3

    ROBPCA

    Stasiun

    Domain 3x3 Domain 8x8 Domain 12x12

    RMSEP R2 RMSEP R2 RMSEP R2

    Losarang 102.55 24.60% 95.69 33.20% 100.24 24.40%

    Sumurwatu 114.82 48.50% 111.31 46.30% 134.22 26.20%

    Indramayu 150.77 24.90% 151.03 29.10% 157.89 24.80%

    Tulangkacang 102.66 18.80% 95.39 25.70% 103.35 23.80%

    Juntinyuat 121.01 12.50% 108.52 53% 121.67 11.70%

    PCA

    grid 3x3 grid 8x8 grid 12x12

    stasiun RMSEP R2pred RMSEP R2

    pred RMSEP R2

    pred

    Sumurwatu 110.92 31.20% 114.3645 31.30% 121.92 27.40%

    losarang 108.32 32.50% 109.5804 33.30% 115.82 27.70%

    kroya 98.05 40.50% 130.4405 28.50% 153.11 20.70%

    Juntinyuat 84.865 25.80% 109.6141 25.20% 118.84 22.30%

    Indramayu 125.03 31.10% 131.0903 31.70% 144.62 23%

    PLS

    grid 3x3 grid 8x8 grid 12x12

    Stasiun RMSEP R2pred RMSEP R2

    pred RMSEP R2

    pred

    sumurwatu 102.5 40.80% 100.58 42.70% 102.13 40.80%

    losarang 104.25 37.20% 102.63 39% 102.46 39.40%

    Kroya 99.088 38.50% 96.841 40.20% 97.61 36.60%

    juntinyuat 76.731 30.20% 101.44 30.70% 100.48 31.90%

    indrmayu 113.38 40.90% 111.53 42.70% 110.09 44.10%

top related