ordinal regression
DESCRIPTION
ORDINAL REGRESSION. KELOMPOK 4 / 3SE1 AKBAR DARMAWAN BAKRI MALIK AHMAD ISMAEL IDHO NAJIBULAH Y. S. KARINA ASTUTI SUNDARI TIARA SETYATI. Seorang kreditor ingin mengetahui apakah peminjam memiliki risiko kredit yang baik Telah diketahui beragam informasi keuangan dan pribadi peminjam - PowerPoint PPT PresentationTRANSCRIPT
ORDINAL REGRESSIONKELOMPOK 4 / 3SE1•AKBAR DARMAWAN•BAKRI MALIK AHMAD ISMAEL•IDHO NAJIBULAH Y. S.•KARINA ASTUTI•SUNDARI•TIARA SETYATI
Menggunakan Regresi Ordinal dalam Credit scoring model
Seorang kreditor ingin mengetahui apakah peminjam memiliki risiko kredit yang baik
Telah diketahui beragam informasi keuangan dan pribadi peminjam
Dari database nasabah, kreditor menetapkan variabel respon “status account ” dalam lima kategori yaitu :
Tidak ada catatan hutang Tidak sedang berhutang Sedang dalam proses pembayaran hutang Melewati jatuh tempo pembayaran hutang Kritis / Memiliki catatan buruk di Bank
Variabel Prediktor terdiri dari : Usia Banyak kredit di bank Tipe Rumah Jangka waktu berhutang (dalam bulan) Hutang lain yang menjadi tanggungan
Data yang Digunakansampel SPSS : german_credit.sav
Running Data
Klik Analyze >> Regression >> Ordinal
Running Data
• Isikan Variabel Dependen “Account Status”
• Masukkan Variabel kategorik dalam Kotak Factor(s)
• Banyak kredit di bank• Tipe Rumah• Hutang lain yang menjadi
tanggungan• Masukkan Variabel non Kategorik sebagai
kovariat• Usia• Jangka Waktu Pinjaman
Running Data
Pada menu output, centang “Test of parallel lines” untuk mengetahui apakah semua parameter data kategorik memiliki slope/parameter sama
HasilDari hasil, muncul peringatan bahwa terdapat 78,3% cell yang berfrekuensi nol.
Sedangkan tabel di bawah menunjukkan ringkasan data yang diolah.Semua data valid untuk digunakan.
HasilMelalui tabel Model Fitting Information, kita dapat mengetahui apakah model dengan prediktor (model final) memberikan pengaruh yang signifikan terhadap model yang hanya menggunakan intercept saja.Dari tabel di samping, terlihat bahwa p-value kurang dari 0,05; sehingga dapat disimpulkan bahwa model dengan prediktor memberikan hasil yang lebih baik daripada model dengan intercept saja.
Pengujian ini bertujuan untuk menguji apakah data yng diobservasi tidak konsisten dengan model yang di-fitkan. Jika nilai p-value besar, maka dapat disimpulkan bahwa data dan prediksi dari model mirip => model yang dibuat baik.Tetapi karena terdapat banyak sel-sel yang kosong, sehingga tidak dapat dipastikan apakah statistik mengikuti dist. Chi square, memungkinkan nilai p-value yang didapatkan tidak akurat.
HasilPendekatan nilai R2 dengan menggunakan berbagai metode menghasilkan nilai yang tidak terlalu besar. Yang dapat diartikan bahwa variabel respon yang dijelaskan variabel-variabel prediktor tidak terlalu besar.
Terlihat bahwa variabel prediktor yang signifikan mempengaruhi variabel respon adalah:•Jangka waktu berhutang•Usia•Banyak hutang =1•Hutang lain yang menjadi tanggungan
Hasil
Dari pengujian Parallel Lines di atas, telihat bahwa p-value signifikan, dapat disimpulkan bahwa parameter lokasi (koef. slope) tidak sama untuk semua kategori respon. Sehingga asumsi bahwa parameter sama untuk semua kategori tidak berlaku.
Persamaan dan Interptretasi𝑙𝑛𝑃( ≤0/ ( >0)=𝑌 𝑃 𝑌 -4,631-0,011duration+0,0163age-2,007numcred-1,0384othstal-0,188housng
Interpretasi:•Tanda (-) pada variabel duration berarti peminjam yang memiliki jangka waktu berhutang lebih lama memiliki kecenderungan lebih kecil untuk memiliki status account “tidak ada catatan hutang” (dibandingkan minimal status account “kritis”).
•Tanda (-) pada variabel numcred berarti peminjam yang memiliki hutang sebanyak 1, cenderung lebih kecil untuk memiliki status account “tidak ada catatan hutang” (dibandingkan minimal status account “kritis”).
•Tanda (-) pada variabel othstal berarti peminjam yang memiliki hutang lain di bank (kategori 1) memiliki kecenderungan lebih kecil untuk memiliki status account “tidak ada catatan hutang” (dibandingkan minimal status account “kritis”).
•Tanda (-) pada variabel housng berarti peminjam yang status perumahannya sewa (kategori 1) memiliki kecenderungan lebih kecil untuk memiliki status account “tidak ada catatan hutang” (dibandingkan minimal status account “kritis”).
Persamaan dan Interptretasi (2)•Koef. Variabel duration = -0,011, berarti peminjam yang memiliki jangka waktu berhutang lebih lama memiliki kecenderungan sebesar 0,989 untuk memiliki status account “tidak ada catatan hutang” (dibandingkan minimal status account “kritis”).
•Koef. Variabel age = 0,016, peminjam yang memiliki usia lebih tua memiliki kecenderungan 1,016 untuk memiliki status account “tidak ada catatan hutang” (dibandingkan minimal status account “kritis”).
•Koef. Variabel numcred = -0,2007, berarti peminjam yang memiliki hutang sebanyak 1 (kategori 1) memiliki kecenderungan 0,134 untuk memiliki status account “tidak ada catatan hutang” (dibandingkan minimal status account “kritis”).
•Koef. Variabel othstal = -1,038, berarti peminjam yang memiliki pinjaman lain di bank (kategori 1) memiliki kecenderungan 0,354 untuk memiliki status account “tidak ada catatan hutang” (dibandingkan minimal status account “kritis”).
•Koef. Variabel housng = -0,188, berarti peminjam yang memiliki status perumahan sewa (kategori 1) memiliki kecenderungan 0,828 untuk memiliki status account “tidak ada catatan hutang” (dibandingkan minimal status account “kritis”).
Kelompok 1 :
Alzira Doutel Ayu Paramudita Fanisa Dwita Hanggarani Hari Akhiardy Tofri Rezky Mayda Putri Rizki Tri Anggara
Sebuah studi bertujuan untuk melihat faktor-faktor yang mempengaruhi Confidence in Education. Variabel yang di teliti meliputi : Get news from newspapers, Get news from news magazines, Get news from televisions, Get news from radios, dan Get news from internets.
Analisis Logistik Ordinal dgn SPSS
Case Processing Summary
Marginal Percentage bernilai 100% menunjukkan semua data valid digunakan.
Model Fitting Information
Nilai significant sebesar 0,000 < α (α=5 %), menunjukkan bahwa model dengan variabel bebas lebih baik dari model tnpa variabel bebas.
Goodness of Fit
Ho : Model yang digunakan cocok.H1 : Model yang digunakan tidak cocok.
Hasil menunjukkan bahwa nilai significant atau p-value > α, yg berarti model regresi telah cocok.
Pseudo R-Square
Pada hasil terlihat nilai seperti pada OLS.
Parameter Estimates
Get news from newspapers dan Get news from internet significant mempengaruhi Confidence Education.
Test of Parallel Lines
Tujuan dari Test of Parallel Lines adalah untuk menguji apakah koefisien slope sama untuk semua kategori variabel respon.Ho : Koefisien slope sama untuk semua variabel respon.H1 : Koefisien slope tidak sama untuk semua variabel respon.
KELOMPOK 2
• ALIFIA NIDYA HAPSARI (11.6530)
• FARIDATUN NIHAYAH (11.6659)
• EMILIA ANISA (11.6637)
• M. FIKRI ANWAR (11.6792)
• RAISSA SAMANTHA H (11.6851)
• RISMA KARLIA (11.6870)
Regresi Logistik OrdinalData :α = 0,05
Sumber : 1991,General Social Survey
Jenis Kelamin
Pendapatan Kepuasan Pekerjaan(dollars) Sangat
Tidak PuasAgak Tidak
PuasAgak Puas Sangat Puas
Perempuan
<5.000 1 3 11 2
5.000-15.000 2 3 17 3
15.000-25.000 0 1 8 5
>25000 0 2 4 2
Laki-laki
<5.000 1 1 2 1
5.000-15.000 0 3 5 1
15.000-25.000 0 0 7 3
>25.000 0 1 9 6
Variabel Dependent (Respon) : • Kepuasan pekerjaan (Job)
1 = Sangat tidak puas (very dissatisfied)2 = Agak tidak puas ( A little satisfied)3 = Agak puas (moderately satisfied)4 = Sangat puas (very satisfied)
Variabel Independent (Predictors) : • Jenis Kelamin(Gender)
0 = laki-laki (male)1 = perempuan (female)
• Pendapatan (Income)1 = < 5.0002 = 5.000 – 15.0003 = 15.000 – 25.0004 = > 25.000
Output
Semua data valid
Case Processing Summary
NMarginal
PercentageJob very dissatified 4 3.8%
a little satisfied 14 13.5%moderately satisfied 63 60.6%very satisfied 23 22.1%
Gender male 40 38.5%female 64 61.5%
Income <5000 22 21.2%5000-15000 34 32.7%15000-25000 24 23.1%>25000 24 23.1%
Valid 104 100.0%Missing 0 Total 104
Output (2)
H0 : Model dengan variabel bebas dan tanpa variabel bebas(hanya intersep) sama baiknya
H1 : Model dengan variabel bebas lebih baik daripada tanpa variabel bebas(hanya intersep)
Nilai sig. sebesar 0.038 < α (0,05) menunjukkan bahwa model dg variabel bebas lebih baik dari model tanpa variabel bebas (hanya intersep).
Model Fitting Information
Model -2 Log Likelihood Chi-Square df Sig.Intercept Only 62.833 Final 52.665 10.168 4 .038
Link function: Logit.
Output (3)
H0 : Model yang digunakan dapat menjelaskan variabel bebasH1 : Model yang digunakan belum dapat menjelaskan variabel bebas
Karena kedua nilai sig. > α (0,05) maka model yang digunakan dapat menjelaskan variabel bebas
Goodness-of-Fit
Chi-Square df Sig.Pearson 10.569 17 .878
Deviance 10.505 17 .881
Link function: Logit.
Output (4)
• Merupakan perkiraan/pendekatan untuk R2 seperti pada regresi OLS pada model non linier. (pada model non linier tidak bisa dihitung R2 scr langsung spt pada model regresi OLS).
• Untuk nilai cox and snell : variabel predictors dapat menjelaskan variasi dari variabel respon sebesar 9,3%
Pseudo R-Square
Cox and Snell.093
Nagelkerke.107
McFadden.047
Link function: Logit.
Output (5)
Beberapa persamaan : • 𝑙𝑛()=-3,956+0,029gender-1,231Pendapatan(1)• 𝑙𝑛()=-2.254+0,029gender-1,231Pendapatan(1)
Parameter Estimates
Estimate Std. Error Wald df Sig.
95% Confidence Interval
Lower Bound Upper Bound
Threshold [Job = 1] -3.956 .720 30.225 1 .000 -5.367 -2.546
[Job = 2] -2.254 .563 16.003 1 .000 -3.358 -1.150
[Job = 3] .812 .503 2.603 1 .107 -.174 1.798
Location [Gender=0] .029 .428 .005 1 .945 -.810 .869
[Gender=1] 0a . . 0 . . .
[Income=1] -1.231 .639 3.709 1 .054 -2.484 .022
[Income=2] -1.131 .580 3.809 1 .051 -2.268 .005
[Income=3] .218 .582 .140 1 .708 -.922 1.357
[Income=4] 0a . . 0 . . .
Link function: Logit. a. This parameter is set to zero because it is redundant.
Output (6)
H0 : koefisien slope paralelH1 : koefisien slope tidak paralel
Karena nilai sig. 0,892 > α (0,05) maka koefisien adalah paralel atau sama untuk setiap kategori variabel respon sehingga modelnya benar
Test of Parallel Linesa
Model -2 Log Likelihood Chi-Square df Sig.Null Hypothesis 52.665 General 49.069 3.596 8 .892
The null hypothesis states that the location parameters (slope coefficients) are the same across response categories.
a. Link function: Logit.
MODEL REGRESI LOGISTIK ORDINAL
KELOMPOK 3
Contoh :
Seorang mahasiswa STIS melakukan suatu penelitian yang bertujuan untuk mengetahui faktor-faktor yang dapat mempengaruhi minat belajar mahasiswa pada semester 2. Studi ini dilakukan pada 20 orang mahasiswa. Penilaian terhadap minat tersebut dikualifikasikan menjadi tidak minat,minat dan minat sekali. Beberapa variabel yang awalnya yang dinilai dapat mempengaruhi minat belajar mahasiswa tersebut adalah jenis kelamin,IPK semester 1 dan ikut tidaknya mahasiswa pada kegiatan non akademik.
Variabel-variabel1. Dependent : Minat belajar mahasiswatidak minat (0)minat (1)minat sekali (2)2. Independent : - Jenis kelamin perempuan (0)laki-laki (1)- IP semester 1 (kuantitatif)- kegiatan non akademiktidak ikut (0)ikut (1)
Hasil dan Pembahasan (SPSS)
1
Berdasarkan output SPSS di atas,nilai valid 100% menyatakan bahwa data-data yang ada valid dan dapat dapat diteliti lebih lanjut.
Pemilihan modelHipotesisH0: Model tanpa variabel bebasH1: Model dengan varibel bebas
α = 5 %
Berdasarkan output SPSS di atas,nilai signifikan 0,007 dimana lebih kecil dari nilai α (0,05) berarti keputusannya menolak H0 , yang menunjukkan bahwa model dengan variabel bebas lebih baik daripada model tanpa variabel bebas.
KECOCOKAN MODELHipotesisH0 : Model cocokH1 : Model tidak cocokα=5%
Berdasarkan output SPSS diatas,nilai signifikannya lebih besar dari nilai α,yang berarti model yang digunakan cocok.
Hasil output SPSS di atas merupakan beberapa nilai perkiraan/pendekatan untuk seperti pada regresi OLS pada model non linier. (pada model non linier tidak bisa dihitung R2 scr langsung spt pada model regresi OLS). Dari output tersebut terlihat bahwa besarnya pengaruh variabel2 independent terhadap variasi dari variabel dependent adalah 45,1% dan sisanya di pengaruhi oleh faktor lain.
Jenis kelamin,IP semester 1 dan keikutsertaan dalam kegiatan non akademik signifikan (pd α = 5%) mempengaruhi minat belajar mahasiswa pada semester 2.
Test of Parallel LinesHipotesisHo : koefisien slopenya sama H1: koefisien slopenya tidak sama
Berdasarkan output SPSS di atas,nilai signifikan lebih besar dari nilai α (0,05),yaitu menerima Ho dimana slope yang digunakan adalah berdasarkan kategori yang cocok atau koefisien yang digunakan sama.
PENULISAN PERSAMAAN DAN INTERPRETASIPersamaan regresi logistik ordinal:
( ≤0/ ( >0)=14,062−1,135 jeniskelamin-0,439kegnonakdmik 𝑙𝑛𝑃 𝑌 𝑃 𝑌+4,675IPKs1
( ≤1/ ( >1)=17,931−1,135jeniskelamin-𝑙𝑛𝑃 𝑌 𝑃 𝑌0,439kegnonakdmik+4,675IPKs1
interpretasi:- mahasiswa pada semester 2 yang memiliki minat belajar tersebut lebih besar exp(3,869) kali dibandingkan mahasiswa yang yang tidak memiliki minat belajar ,dengan tanpa dipengaruhi oleh faktor lain.- tanda (-) pada variabel jenis kelamin berarti mahasiswa yang bejenis kelamin perempuan cenderung lebih besar exp(-1,135)kali minatnya untuk belajar dibandingkan dengan mahasiswa yang berjenis kelamin laki-laki.- tanda (-) pada variabel aktif dalam kegiatan non akademik berarti mahasiswa yang tidak mengikuti kegiatan non akademik minatnya untuk belajar cenderung lebih besar exp(-0,439)kali dibandingkan dengan mahasiswa yang mengikuti kegiatan non akademik. -Tanda (+) pada variabel IP semester 1 berarti semakin besar nilai IP mahasiswa pada semester 1 maka semakin besar pula minat mahasiswa untuk belajar pada semester 2.
TERIMA KASIH
ANALISIS DATA KATEGORIK
MODEL REGRESI LOGISTIK ORDINAL
Kelompok 51. Adelina Namira2. Amelia
Tangdilambi3. Friska S4. Resti Deni Mira5. Teguh Haryono6. Ulfa
CONTOH SOALSebuah studi bertujuan untuk melihat faktor-faktor yang mempengaruhi 30 mahasiswa mudah terkena penyakit selama sebulan terakhir (masing-masing berkode 0=sangat sering, 1=sering, 2=jarang, dan 3=tidak pernah). Variabel yang diteliti ialah banyaknya konsumsi vitC (gram), jumlah jam istirahat, bnyaknya makan nasi per hari (kali), dan jam istirahat malam (masing-masing berkode 0 untuk ≤ pukul 20.00, 1 untuk 20.01-22.00, 2 untuk 22.01-24.00, 3 untuk 00.01-02.00, dan 4 untuk > 02.00)
DATA
OUTPUT
- Valid 100% menyatakan semua data valid
- Pada final terdapat signifikansi sebesar 0.031, yang menyatakan kurang dari alpha 0.05, sehingga menunjukkan bahwa model dengan variabel bebas lebih baik daripada model tanpa variabel bebas
- Untuk menguji hipotesis:Ho: Model cocok vs H1: model tidak cocokHasil menunjukkan terima Ho karena nilai sig p-value > alpha (0.05) yang berarti model regresi cocok
OUTPUT (LANJUTAN)- Nilai Pseudo R-square
merupakan perkiraan/pendekatan untuk Rsquare seperti pada regresi OLS pada model non linear.
- Terdapat banyak jenis pseudo Rsquare, dan masing-masing akan memberikan nilai perkiraan yang berbeda
- Pada nilai parameter estimasi, hanya variabel vitC yang signifikan mempengaruhi seorang mahasiswa terkena penyakit
- Untuk test of parallel lines: Ho: koefisien slope sama untuk setiap kategori variabel respon H1: koefisien slope tidak sama untuk setiap kategori variabel responKeputusan: sig > 0.05. maka terima Ho atau koefisen slope sama untuk setiap kategori variabel respon
PENULISAN PERSAMAANPersamaan regresi logistik ordinal:
ln = 7,029-0,274X1-0,656X2-0,351X3+2,046X40+0,633X41-1,254X42
ln = 8,119-0,274X1-0,656X2-0,351X3+2,046X40+0,633X41-1,254X42
ln = 9,561-0,274X1-0,656X2-0,351X3+2,046X40+0,633X41-1,254X42
ln = 10,469-0,274X1-0,656X2-0,351X3+2,046X40+0,633X41-
1,254X42
INTERPRETASIKoefiesien variabel vitC = -0,274, berarti konsumsi vitC (per gram) mengakibatkan kecendrungan pengaruh sebesar 0.76 kali lebih besar daripada variabel lainnya terhadap menyebabkan penyakit
Koefiesien variabel rata2 jumlah jam tidur = -0,656, berarti rata2 jmlh jam tidur mengakibatkan kecendrungan sebesar 0.519 kali lebih besar dari pada variabel lainnya untuk menyebabkan penyakit
Koefiesien variabel rata2 bnyak makan nasi= -0,351, berarti rata2 bnyak makan nasi mengakibatkan kecendrungan sebesar 0.703 kali lebih besar dari pada variabel lainnya untuk menyebabkan penyakit
INTERPRETASI (LANJUTAN)Koefisien variabel rata2 jam tidur malam pada ≤ pukul 20.00 = 2,046, berarti seseorang yg memiliki rata2 jam tidur ≤ 20.00 memiliki kecendrungan 7,7368 kali lebih besar dibandingkan yang memiliki jam tidur lainnya.
Koefisien variabel rata2 jam tidur malam pada antara pukul 20.01 – 22.00 = 0,633, berarti seseorang yg memiliki rata2 jam tidur antara pukul 20.01 – 22.00 memiliki kecendrungan 1,883 kali lebih besar dibandingkan yang memiliki jam tidur lainnya.
Koefisien variabel rata2 jam tidur malam pada antara pukul 22.01 – 24.00 = -1,254, berarti seseorang yg memiliki rata2 jam tidur antara pukul 22.01 – 24.00 memiliki kecendrungan 0,285 kali lebih besar dibandingkan yang memiliki jam tidur lainnya.
DEWI MAULIZARESTERIA SIAGIAN
JULMIATIMUH. SYAIFULYESDI CALVIN
KELOMPOK 6
Data
Hasil outputWarningsThere are 357 (54,1%) cells (i.e., dependentvariable levels by combinations of predictorvariable values) with zero frequencies.
Menunjukan data kuantitatif/kontinu
Hasil outputCase Processing Summary
N
Marginal Percentage
apply tidak ingin 220 55,0%keinginan kuat
140 35,0%
sangat kuat 40 10,0%
Valid 400 100,0%Missing 0 Total 400
Menunjukan semua data valid
Model Fitting InformationModel -2 Log Likelihood Chi-Square df Sig.Intercept Only
557,272
Final
533,091 24,180 3 ,000
Sig 0,000 menunjukkan model dengan variabel variabel bebas lebih baik daripada tanpavariabel bebas
Nilai sig lebih besar dari 5%, berarti model regresi cocok
Goodness-of-Fit
Chi-Square df Sig.
Pearson 400,843 435 ,878
Deviance 400,749 435 ,879
Pseudo R-SquareCox and Snell ,059
Nagelkerke ,070
McFadden ,033
Pared dan gpa signifikanmempengaruhi keinginan melanjutkan studi
Parameter Estimates
Estimate Std. Error Wald df Sig.
95% Confidence Interval
Lower Bound
Upper Bound
Threshold [apply = ,00]
2,203 ,784 7,890 1 ,005 ,666 3,741
[apply = 1,00]
4,299 ,809 28,224 1 ,000 2,713 5,885
Location pared 1,048 ,268 15,231 1 ,000 ,522 1,574public -,059 ,289 ,041 1 ,839 -,624 ,507gpa ,616 ,263 5,499 1 ,019 ,101 1,130
Test of Parallel Linesa
Model-2 Log
Likelihood Chi-Square df Sig.Null Hypothesis
533,091
General 529,077 4,014 3 ,260