tugas analisis regresi_12..7066

14
TUGAS ANALISIS REGRESI II - Resume video P.Robert Resume Learning Video – Brian Caffo A. Model Regresi linier (ch.5) Dalam analisis regresi kita perlu menentukan garis regressi pada scatter plot, yang akan digunakan untuk memprediksi nilai respon terhadap nilai predictor, model regressi sangat berperan penting. Secara sederhana, model regressi yang digunakan dalam regressi linear adalah Y i =β 0 +β 1 X i + ε i di mana Y i merupakan respond ke i; X i merupakan predictor ke i; ɛ i merupakan residual; dan β 0 dan β 1 menunjukkan intercept dan slope atau kemiringan. Pada model tersebut, garis regressi linear ditunjukkan oleh β 0 +β 1 X i . Selain itu nilai dari β 0 +β 1 X i merupakan nilai yang tetap /fitted. Dari model tersebut perlu terdapat sebuah asumsi penting bahwa ε i merupakan sebuah random variable yang independent dan identic mengikuti distribusi Normal (0,σ 2 ). Sehingga dengan melihat asumsi tersebut Y i mempunyai 2 sifat, yaitu: 1. E( Y i | X i =x ) = µ i = β 0 +β 1 X i 2. Var ( Y i | X i =x ) = Var ( ε i ) = σ 2 ; Atau dengan kata lain Y i akan secara independent dan indentic mengikuti distribusi Normal (µ i = β 0 +β 1 X i , σ 2 ). 1. Inferensia β 0 β 1

Upload: bima-sakti

Post on 20-Nov-2015

220 views

Category:

Documents


0 download

DESCRIPTION

ini tugas tentang pengolahan

TRANSCRIPT

TUGAS ANALISIS REGRESI II - Resume video P.Robert

Resume Learning Video Brian CaffoA. Model Regresi linier (ch.5)Dalam analisis regresi kita perlu menentukan garis regressi pada scatter plot, yang akan digunakan untuk memprediksi nilai respon terhadap nilai predictor, model regressi sangat berperan penting. Secara sederhana, model regressi yang digunakan dalam regressi linear adalah

di mana Yi merupakan respond ke i; Xi merupakan predictor ke i; i merupakan residual; dan 0 dan 1 menunjukkan intercept dan slope atau kemiringan. Pada model tersebut, garis regressi linear ditunjukkan oleh . Selain itu nilai dari merupakan nilai yang tetap /fitted. Dari model tersebut perlu terdapat sebuah asumsi penting bahwa merupakan sebuah random variable yang independent dan identic mengikuti distribusi Normal (0,2). Sehingga dengan melihat asumsi tersebut mempunyai 2 sifat, yaitu:1. E(|) = i = 2. Var (|) = Var () = 2;Atau dengan kata lain akan secara independent dan indentic mengikuti distribusi Normal (i = , 2).1. Inferensia Untuk menentukan nilai estimasi Yi pada regressi linear, nilai perlu didapatkan dulu menggunakan estimasi . Salah satu metode yang dapat dilakukan untuk mendapatkan nilai estimasi adalah dengan menggunakan metode MLE (Maximum Likelihood Estimator). Seperti yang terpaparkan dalam video: ;dimana . Kemudian dengan memberikan fungsi -2 log pada persamaan kiri dan kanan akan diperoleh :

dimana i = . Untuk mendapatkan estimasi , persamaan tersebut akan dimaksimumkan terhadap Begitu pula untuk mendapatkan estimasi . Sehingga, akan diperoleh :

2. Interpretasi Nilai disebut dengan intercept, yaitu nilai ekspetasi respon (Y) ketika nilai predictor (X) = 0. Nilai (slope) merupakan estimasi perubahan yang terjadi pada response untuk penambahan 1 unit predictor. Perubahan / konversi nilai predictor , dengan adanya pengalian dengan factor a, akan menyebabkan perubahan nilai slope (pembagian nilai dengan a). 3. Prediksi nilai Dari estimasi yang telah didapatkan, maka untuk memprediksi nilai respon terhadap predictor Xi, dapat digunakan sebuah fungsi yang mengacu pada model regressi linear sebelumnya, yakni

B. Chapter 6. Residual & Residual Variation (ch.6)Jika ; di mana atau residual pada model berdistribusi Normal (0,2); dan prediksi nilai , terdapat sebuah statistic baru, yakni ei =. Statistik ei bukan residual namun dapat dikatakan estimasi dari residual pada model (). Akan tetapi, apabila nilai parameter diketahui dan tidak didapat melalui estimasi maka nilai ei akan sama dengan . Selain itu, statistic ei juga dapat dikatakan sebagai jarak antara .

Sifat-Sifat Statistik ei a) Karena ei merupakan estimasi dari , maka E(ei)=0b) Dengan melihat model linear pada model regressi dan mengikut sertakan intercept maka c) Selain itu hubungan antara ei dengan Xi adalah d) Untuk penentuan tanda: Apabila ei berada di ATAS garis regressi maka ei bernilai (+) Apabila ei berada di BAWAH garis regressi maka ei bernilai (-)e) Variasi residual berbeda dengan variasi systematicf) Statistik residual berguna untuk mengecek baik tidaknya sebuah model regressi linearResidual PlotResidual plot merupakan plot di mana sumbu x merupakan variable independent pada model regressi (X) dan pada sumbu y terdapat ei. Dengan memplotting nilai ei pada Xi yang bersesuaian, kita akan dapat melakukan analisis terhadap residual. Analisis ini berperan penting untuk mengetahui apakah model regressi linear yang kita gunakan baik atau tidak. Apabila dalam plot terdapat terdapat sebuah pattern/pola yang ditunjukkan pada residual maka model linear yang digunakan tidak bagus, hal ini terjadi akibat adanya sifat heteroskedasitas pada model yang digunakan. Sifat heteroskedasitas terlihat apabila residual satu menmperngaruhi nilai residual yang lain atau varians antar residual tidak sama.Contoh

Scatter Plot dan Garis Regressi

Residual PlotEstimasi Varians eiDengan menggunakan metode MLE (Maximum Likelihood Estimator), yang digunakan untuk estimasi , estimasi nilai varians ei adalah

Estimasi ini tidak digunakan karena dalam pembuktianya, estimasi tersebut merupakan estimasi yang bias. Sehingga estimasi yang digunakan adalah:

Sum of Square pada Regressi LinearPada model regressi linear, sum of square regressi ditunjukakan pada:

Karena dan ;

=0

SST =SSE+SSRKoefisien Determinasi (R2)Pada regressi linear sederhana koefisen determinasi ditunjukan oleh

Koefisien Determinasi mennjukkan berapa persen perubahan Y yang dijelaskan oleh X atau seberapa beasar (%) dari variable yang dijelaskan oleh model regrsi linear. Selain dari rumus di atas Koefisien Determinasi juga dapat diperoleh melalui

Sifat dari koefisein determinasi :1. R2 bernilai dari 0 sampai 1 (0R2 1)2. Menghapus sebagian data akan melambungkan nilai R23. Menambahkan model regressi akan menaikkan nilai R2

C. Chpater 7 Inference in RegressionSeperti yang kita ketahui, dalam penginferensian, statistic mengikuti distribusi Normal (0,1) dan akan mengikuti distribusi Student T apabila digantin dengan estimasinya (varians dari sample dengan ketentuan masih berada dalam asumsi distribusi normal). Statistik tersebut akan berguna dalam pengujian hipotesis H0 melawan Ha dan penentuan Confidence Interval untuk dimana Confidence Interval dapat ditunjukkan pada dimana merupakan quantile yang relevan pada distribusi tertentu. Selain itu, dalam penginferensian, asumsi asumsi normal pada model regressi harus telah dipenuhi terlebih dahulu.1. Standar Error pada Statistic standar error sangat diperlukan dalam memperoleh statistic yang akan digunakan dalam penginferensian.Statistic ini diperoleh dari varians dari statistic yang akan dicari standar erronya.

Dengan cara yang sama akan didapatkan . Dengan mengikuti statistic maka untuk pengujian hipotesi terhadap ; akan duginakan statistic

Statistic tersebut mengikuti distribusi Student T dengan derajat bebas n-2.Pada formula , akan besar apabila kecil, hal ini akan menyebabkan munculnya banyak kemungkinan garis regressi yang mungkin terjadi. Dan akan kecil apabila Var(ei) atau kecil sehingga akan muncul garis regressi yang akan melalui titik respon.2. Prediction of OutcomeSeperti pada sebelumnya, dalam memprediksi sebuah respon terhadap nilai predictor dapat digunakan . Namun, akan lebih baik dalam sebuah prediksi nilai respon disertakan pula confidence interval untuk mencegah kesalahan estimasi respon. Dalam membuat sebuah confidence interval, standar error sangat diperlukan. Terdapat dua standar error yang digunakan dalam meprediksi respon yakni standar error untuk memprediksi garis regressi linear / model linear (yang akan digunakan dalam memprediksi ), dan standar error yang digunakan dalam memprediksi respon untuk sebuah titik predictor yang baru (yang akan digunakan dalam memprediksi )Standar error untuk memprediksi garis regressi linear

Sedangkan standar error untuk memprediksi respon untuk sebuah titik predictor yang baru

Kemudian akan didapatkan Confidence Interval ; dimana menunjukkan standar error untuk 2 formula diatas dan Q menujukkan quantile pada distribusi yang sesuai.Beberapa hal yang harus diingat:1. Baik kedua Confidence Interval mempunyai harak yang berbeda-beda (setidaknya jarak terhadap )2. Apabila garis regresi linear yang dibuat sudah cukup baik maka interval yang dihasilkan cukup pendek. Bahkan apabila diketahui dan tidak perlu diestmasi interval yang dihasilkan akan mendekati 03. Interval prediksi harus sesuai dengan variabilitas data di sekitar garis, meskipun diketahui interval tidak akan sama dengan 0.

TUGAS MENGOLAH DATA SOAL MUSCLE MASS (NETER) DENGAN RDiketahui Dari sebuah penelitian mengenai degenearsi massa otot pada perempuan yang berada pada rentang umur 40-79 dan didapatkan data sebagia berikut

Dengan menggunakan program R dan setelah mempelajari video learning, olahan data yang dihasilkan adalah sebagai berikut:1. Masukkan data ke dalam notepad simpan dengan file .txt2. Read .txt tadi dengan R, dengan sintax assaOtot.dat residual plot (x, residual)

11. UJI Tn #Standar Deviasi residual#sgm