bab ii tinjauan pustaka 2.1 regresi logistik ii.pdf · 8 bab ii tinjauan pustaka 2.1 regresi...

18
8 BAB II TINJAUAN PUSTAKA 2.1 Regresi Logistik Menurut Hosmer dan Lemeshow (2000) tujuan melakukan analisis data kategori menggunakan regresi logistik adalah mendapatkan model terbaik dan sederhana untuk menjelaskan hubungan antara keluaran dari variabel respons () dengan variabel-variabel prediktornya (). Variabel respons dalam regresi logistik dapat berupa kategori atau kualitatif, sedangkan variabel prediktornya dapat berupa kualitatif dan kuantitatif. Jika variabel merupakan variabel biner atau dikotomi dalam artian variabel respons terdiri dari dua kategori yaitu “sukses” ( = 1) atau “gagal” ( = 0), maka variabel mengikuti sebaran Bernoulli yang memiliki fungsi densitas peluang: ( ) = ( ) (1 − ( )) 1− , ; = 0,1 (2.1) sehingga diperoleh: Untuk =0, maka (0) = ( ) 0 (1 − ( )) 1−0 = 1 − ( ), untuk =1, maka (1) = ( ) 1 (1 − ( )) 1−1 = ( ). Misalkan probabilitas dari variabel respons untuk nilai yang diberikan, dinotasikan sebagai (). Model umum () dinotasikan sebagai berikut: () = exp( 0 + 1 1 + 2 2 +⋯+ ) 1 + exp( 0 + 1 1 + 2 2 +⋯+ ) , Persamaan (2.2) disebut fungsi regresi logistik yang menunjukkan hubungan antara variabel prediktor dan probabilitas yang tidak linear, sehingga untuk mendapatkan (2.2)

Upload: vanhanh

Post on 08-Mar-2019

233 views

Category:

Documents


3 download

TRANSCRIPT

8

BAB II

TINJAUAN PUSTAKA

2.1 Regresi Logistik

Menurut Hosmer dan Lemeshow (2000) tujuan melakukan analisis data

kategori menggunakan regresi logistik adalah mendapatkan model terbaik dan

sederhana untuk menjelaskan hubungan antara keluaran dari variabel respons (𝑌)

dengan variabel-variabel prediktornya (𝑋). Variabel respons dalam regresi logistik

dapat berupa kategori atau kualitatif, sedangkan variabel prediktornya dapat berupa

kualitatif dan kuantitatif. Jika variabel 𝑌 merupakan variabel biner atau dikotomi

dalam artian variabel respons terdiri dari dua kategori yaitu “sukses” (𝑌 = 1) atau

“gagal” (𝑌 = 0), maka variabel 𝑌 mengikuti sebaran Bernoulli yang memiliki

fungsi densitas peluang:

𝑓(𝑦𝑖) = 𝜋(𝑥𝑖)𝑦𝑖(1 − 𝜋(𝑥𝑖))1−𝑦𝑖 , ; 𝑦𝑖 = 0,1 (2.1)

sehingga diperoleh:

Untuk 𝑦𝑖 = 0, maka 𝑓(0) = 𝜋(𝑥𝑖)0(1 − 𝜋(𝑥𝑖))1−0 = 1 − 𝜋(𝑥𝑖),

untuk 𝑦𝑖 = 1, maka 𝑓(1) = 𝜋(𝑥𝑖)1(1 − 𝜋(𝑥𝑖))1−1 = 𝜋(𝑥𝑖).

Misalkan probabilitas dari variabel respons 𝑌 untuk nilai 𝑥 yang diberikan,

dinotasikan sebagai 𝜋(𝑥). Model umum 𝜋(𝑥) dinotasikan sebagai berikut:

𝜋(𝑥) =exp(𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + ⋯ + 𝛽𝑝𝑥𝑝)

1 + exp(𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + ⋯ + 𝛽𝑝𝑥𝑝),

Persamaan (2.2) disebut fungsi regresi logistik yang menunjukkan hubungan antara

variabel prediktor dan probabilitas yang tidak linear, sehingga untuk mendapatkan

(2.2)

9

hubungan yang linear dilakukan transformasi yang sering disebut dengan

transformasi logit. Bentuk logit dari 𝜋(𝑥) dinyatakan sebagai 𝑔(𝑥), yaitu:

logit [𝜋(𝑥)] = 𝑔(𝑥) = ln (𝜋(𝑥)

1−𝜋(𝑥)) = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + ⋯ + 𝛽𝑝𝑥𝑝. (2.3)

Persamaan (2.3) merupakan bentuk fungsi hubungan model regresi logistik

yang disebut model regresi logistik berganda (Hosmer dan Lemeshow, 2000).

2.2 Regresi Logistik Ordinal

Regresi logistik adalah model regresi yang digunakan apabila variabel

respons bersifat kualitatif. Model ini terdiri dari regresi logistik sederhana yang

bersifat dikotomus yang mensyaratkan variabel respons terdiri dari dua kategori,

dan regresi logistik polytomous dengan variabel respons lebih dari dua kategori.

Regresi logistik polytomous dengan variabel respons bertingkat dikenal dengan

regresi logistik ordinal. Variabel prediktor yang dapat disertakan dalam model

berupa data kategori dan kontinu yang terdiri atas dua variabel atau lebih

(Hosmer dan Lemeshow, 2000).

2.2.1 Model Odd Proporsional

Suatu variabel respons 𝑌 berskala ordinal dapat terdiri dari 𝐾 + 1 dan

dinyatakan dengan 0,1,2, . . . , 𝐾. Ekspresi umum peluang bersyarat 𝑌 = 𝑘 pada

vektor 𝑥 dari 𝑝 variabel prediktor adalah Pr[𝑌 = 𝑘|𝑥] = 𝜙𝑘(𝑥). Misalkan

𝜙𝑘(𝑥) = 𝜋𝑘(𝑥), maka untuk 𝐾 = 0,1,2, model yang terbentuk dijelaskan oleh

persamaan berikut:

10

𝑃(𝑌 = 0|𝑥) =1

1 + 𝑒g1(𝑥) + 𝑒g2(𝑥)= 𝜙0(𝑥)

𝑃(𝑌 = 1|𝑥) =𝑒𝑔1(𝑥)

1 + 𝑒g1(𝑥) + 𝑒g2(𝑥)= 𝜙1(𝑥)

𝑃(𝑌 = 2|𝑥) =𝑒𝑔2(𝑥)

1 + 𝑒g1(𝑥) + 𝑒g2(𝑥)= 𝜙2(𝑥) ,

sehingga bentuk persamaan tersebut adalah sebagai berikut:

𝑃(𝑌 = 𝑘|𝑥) = 𝑒g𝑘(𝑥)

∑ 𝑒g𝑖(𝑥)𝐾𝑖=1

, (2.4)

dengan g0(𝑥) = 0, dan 𝑘 = 0,1, … , 𝐾.

Model logit garis dasar mempunyai 𝐾(𝑝 + 1) koefisien, bentuk ini muncul dari

fakta bahwa model biasanya diparameterisasi, sehingga koefisien-koefisien log

odds membandingkan kategori 𝑦 = 𝑘 dengan kategori dasar 𝑦 = 0.

g𝑘(𝑥) = ln [𝜙𝑘(𝑥)

𝜙0(𝑥)]

= ln [𝑃(𝑌 = 𝑘|𝑥)

𝑃(𝑌 = 0|𝑥)]

= 𝛽𝑘0 + 𝑥′𝛽𝑘 , 𝑘 = 0,1,2, … , 𝐾, (2.5)

persamaan (2.5) disebut model logit dasar (baseline logit model), dengan 𝛽𝑘0

sebagai intersep.

Pada regresi logistik ordinal, model dapat diperoleh dengan model odds

proporsional (proportional odds model). Model logit ini merupakan model yang

didapatkan dengan membandingkan peluang kumulatif yaitu peluang kurang dari

atau sama dengan kategori respons ke-𝑘 pada 𝑝 variabel prediktor yang dinyatakan

dalam vektor 𝑥, 𝑃(𝑌 ≤ 𝑘|𝑥), dengan peluang yang lebih besar dari kategori

respons ke-𝑘, 𝑃(𝑌 > 𝑘|𝑥) yang didefinisikan sebagai berikut:

11

logit 𝑃(𝑌 ≤ 𝑘|𝑥) = 𝑐𝑘(𝑥) = ln [𝑃(𝑌 ≤ 𝑘|𝑥)

𝑃(𝑌 > 𝑘|𝑥)]

= ln [𝜙0(𝑥) + 𝜙1(𝑥) + ⋯ + 𝜙𝑘(𝑥)

𝜙𝑘+1(𝑥) + 𝜙𝑘+2(𝑥) + ⋯ + 𝜙𝐾(𝑥)]

= 𝜏𝑘 − 𝑥′𝛽, (2.6)

untuk 𝑘 = 0,1,2, . . . 𝐾 − 1 (Hosmer dan Lemeshow, 2000).

2.3 Pendugaan Parameter

Metode yang paling umum digunakan untuk menduga parameter pada

model regresi logistik adalah metode maksimum likelihood (method of maximum

likelihood). Langkah awal untuk menerapkan metode maksimum likelihood adalah

dengan membentuk sebuah fungsi yang disebut fungsi likelihood. Fungsi ini

menggambarkan fungsi peluang dari data-data yang diamati sebagai fungsi dari

penduga parameter (Hosmer dan Lemeshow, 2000). Secara umum fungsi likelihood

didefinisikan sebagai fungsi peluang bersama dari variabel acak yang dibentuk oleh

sampel. Khusus untuk sampel berukuran 𝑛 dengan amatannya (𝑦1, 𝑦2, … , 𝑦𝑛)

berkoresponden dengan variabel acak (𝑌1, 𝑌2, … , 𝑌𝑛). Selama 𝑌𝑖 dianggap

independen, maka fungsi densitas peluang bersamanya adalah sebagai berikut:

g(𝑌1, 𝑌2, … , 𝑌𝑛) = ∏ 𝑓(𝑌𝑖)𝑛𝑖=1 . (2.7)

Metode yang digunakan untuk mencocokkan setiap model didasarkan

penyesuaian pada multinomial likelihood. Bentuk umum dari likelihood untuk

sampel dari 𝑛 amatan yang saling bebas (𝑧𝑖 , 𝑥𝑖), 𝑖 = 1,2, … , 𝑛; adalah sebagai

berikut:

12

𝑙(𝛽) = ∏ [𝜙0(𝑥𝑖)𝑧0𝑖 × 𝜙1(𝑥𝑖)𝑧1𝑖 × …𝑛𝑖=1 × 𝜙𝐾(𝑥𝑖)𝑧𝐾𝑖], (2.8)

dengan 𝜙𝑘(𝑥) merupakan fungsi dari parameter yang tidak diketahui dan

𝑧′ = (𝑧0, 𝑧1, … 𝑧𝑘) dibentuk dari respons yang ordinal.

Metode kemungkinan maksimum memberikan nilai penduga dari vektor

𝛽𝑘′ = (𝛽0𝑘, 𝛽1𝑘 , … 𝛽𝑝𝑘) dengan memaksimumkan fungsi kemungkinan bersama

pada persamaan (2.8). Logaritma dari fungsi kemungkinan bersamanya dapat

ditulis sebagai berikut:

𝐿(𝛽) = ∑ 𝑧0𝑖ln𝑛𝑖=0 [𝜙0(𝑥𝑖)] + ⋯ + 𝑧𝐾𝑖 ln[𝜙𝐾𝑖(𝑥𝑖)]. (2.9)

Untuk mendapatkan nilai penduga dari 𝛽𝑘′ = (𝛽0𝑘, 𝛽1𝑘 , … 𝛽𝑝𝑘) yang

memaksimalkan 𝐿(𝛽), didapat dengan cara menurunkan persamaan disamakan

dengan nol (Hosmer dan Lemeshow, 2000), persamaan-persamaan yang diperoleh

adalah sebagai berikut:

𝜕𝐿(𝛽)

𝜕𝛽𝑗𝑘= ∑ 𝑥𝑘𝑖(𝑧𝑗𝑖 − 𝜙𝑗𝑖)

𝑛

𝑖=1

= 0,

dengan 𝑗 = 1,2, … , 𝐽 − 1 dan 𝑘 = 0,1,2, . . . , 𝑝 dengan 𝑥0𝑖 = 1 untuk masing-

masing subjek.

Metode penduga ragam dan koragam dari koefisien penduga diperoleh

berdasarkan teori penduga maksimum. Penduga ragam dan koragam yang diperoleh

adalah suatu matriks yang berasal dari turunan parsial kedua dari persamaan (2.10)

(Hosmer dan Lemeshow, 2000).

Bentuk umum dari elemen dalam matriks turunan parsial kedua sebagai

berikut:

(2.10)

13

𝜕2𝐿(𝛽)

𝜕𝛽𝑗𝑘𝜕𝛽𝑗𝑘′= − ∑ 𝑥𝑘′𝑖𝑥𝑘𝑖𝜙𝑗𝑖(1 − 𝜙𝑗𝑖),

𝑛

𝑖=1

dan

𝜕2𝐿(𝛽)

𝜕𝛽𝑗𝑘𝜕𝛽𝑗′𝑘′ = ∑ 𝑥𝑘′𝑖𝑥𝑘𝑖𝜙𝑗𝑖𝜙𝑗′𝑖

𝑛

𝑖=1

,

untuk 𝑗 dan 𝑗’ = 1,2 dan 𝑘 dan 𝑘’ = 0,1,2, . . . , 𝑝. Selanjutnya didefinisikan 𝐼(𝛽)

suatu matriks berukuran 2(𝑝 + 1) × 2(𝑝 + 1) yang elemen-elemennya adalah

negatif dari nilai pada persamaan (2.11) dan (2.12). Matriks tersebut disebut

dengan matriks informasi. Matriks koragam dari penduga maksimum likelihood

merupakan invers dari matriks informasi, ∑(𝛽) = 𝐼(𝛽)−1. Penduga dari matriks

informasi dan koragam diperoleh dengan mengganti parameter dengan nilai

dugaannya.

2.4 Pengujian Parameter

Pengujian terhadap parameter-parameter estimasi model dilakukan untuk

mengetahui peran seluruh variabel prediktor baik secara simultan (bersama-sama)

maupun secara parsial. Menurut Hosmer dan Lemeshow (2000), untuk pengujian

parameter secara bersama dapat digunakan uji keberartian model yaitu uji G dengan

hipotesis:

𝐻0: 𝛽1 = 𝛽2 = ⋯ = 𝛽𝑝 = 0 (tidak ada pengaruh sekumpulan variabel bebas

terhadap variabel respons),

𝐻1: minimal ada satu 𝛽𝑖 ≠ 0.

(2.11)

(2.12)

14

Statistik uji G dinotasikan sebagai berikut:

𝐺 = −2 ln [𝐿0

𝐿𝑘].

Keterangan:

𝐿0= fungsi kemungkinan maksimum tanpa variabel prediktor

𝐿𝑘= fungsi kemungkinan maksimum dengan variabel prediktor

Dengan mengambil taraf signifikansi 𝛼, hipotesisi nol (𝐻0) ditolak apabila

𝐺 > 𝜒𝑑𝑏,𝛼 2 atau 𝑝𝑉𝑎𝑙𝑢𝑒 < 𝛼. Derajat kebebasan ((𝐾 + 1) − 2) × 𝑝, (𝐾 + 1)

merupakan jumlah variabel respons dan 𝑝 adalah jumlah variabel prediktor.

Sedangkan pengujian parameter 𝛽 secara parsial dilakukan dengan

membandingkan model terbaik yang dihasilkan oleh uji simultan terhadap model

tanpa variabel bebas di dalam model terbaik. Pengujian hipotesis yang dilakukan

yaitu:

𝐻0: 𝛽𝑖 = 0 (tidak ada pengaruh variabel bebas yang diuji terhadap variabel

respons),

𝐻1: 𝛽𝑖 ≠ 0 (terdapat pengaruh variabel bebas yang diuji terhadap variabel respons).

Statistik ujinya adalah:

𝑊 =𝛽�̂�

𝑆𝐸(𝛽�̂�).

Statistik uji Wald mengikuti sebaran normal baku 𝑍, 𝐻0 akan ditolak jika

𝑊 > 𝑍𝛼/2 atau 𝑝𝑉𝑎𝑙𝑢𝑒 < 𝛼.

(2.14)

(2.13)

15

2.5 Interpretasi Koefisien

Pada regresi logistik dengan suatu variabel bebas (𝛽𝑖) menunjukkan

perubahan nilai logit untuk setiap unit perubahan pada variabel 𝑥. Interpretasi

regresi logistik ordinal dapat dijelaskan dengan odds rasio. Nilai odds rasio yaitu

nilai yang menunjukkan perbandingan tingkat kecenderungan dari dua kategori

dalam satu variabel prediktor dengan salah satu kategorinya dijadikan pembanding

kategori dasar (Hosmer dan Lemeshow, 2000).

Tabel 2.1 Nilai-Nilai dari Model Logistik

Variabel respons Variabel bebas

𝑥 = 𝑎 𝑥 = 𝑏

𝑌 = 2 𝜙2(𝑎) =𝑒g2(𝑎)

∑ 𝑒g𝑖(𝑎)3𝑖=1

𝜙2(𝑏) =𝑒g2(𝑏)

∑ 𝑒g𝑖(𝑏)3𝑖=1

𝑌 = 1 𝜙1(𝑎) =𝑒g1(𝑎)

∑ 𝑒g𝑖(𝑎)3𝑖=1

𝜙1(𝑏) =𝑒g1(𝑏)

∑ 𝑒g𝑖(𝑏)3𝑖=1

𝑌 = 0 𝜙0(𝑎) =𝑒g0(𝑎)

∑ 𝑒g𝑖(𝑎)3𝑖=1

𝜙0(𝑏) =𝑒g0(𝑏)

∑ 𝑒g𝑖(𝑏)3𝑖=1

Secara umum, nilai odds rasio pada model ke-𝑗 dapat dicari dengan

𝑂𝑅𝑘(𝑎, 𝑏) =𝑃(𝑌 = 𝑘|𝑥 = 𝑎)/𝑃(𝑌 = 0|𝑥 = 𝑎)

𝑃(𝑌 = 𝑘|𝑥 = 𝑏)/𝑃(𝑌 = 0|𝑥 = 𝑏).

(2.15)

Misalkan nilai 𝑎 = 1 dan 𝑏 = 0 kemudian ingin dicari nilai odd pada saat

𝑌 = 3 dengan 𝑌 = 0 untuk nilai 𝑥 = 1 dan 𝑥 = 0 adalah

𝑂𝑅3(1,0) =𝑃(𝑌 = 3|𝑥 = 1)/𝑃(𝑌 = 0|𝑥 = 1)

𝑃(𝑌 = 3|𝑥 = 0)/𝑃(𝑌 = 0|𝑥 = 0)=

𝜙3(1)/[𝜙0(1)]

𝜙3(0)/[𝜙0(0)]= exp(𝛽31),

(2.16)

16

ln(𝑂𝑅3(1,0)) = ln (

𝜙3(1)[𝜙0(1)]

𝜙3(0)/[𝜙0(0)]) = ln(exp(𝛽31)) = 𝛽31.

(2.17)

Model logistik dengan satu variabel bebas dikotomi, koefisien 𝛽𝑘1 adalah

beda logit sedangkan exp(𝛽𝑘1) adalah nilai odds rasio (Hosmer dan Lemeshow,

2000).

Berdasarkan persamaan (2.17), dapat diinterpretasikan bahwa rasio odds

(𝑂𝑅3(1,0)) = 1 berarti bahwa individu dengan nilai 𝑥 = 1 mempunyai peluang

yang sama dengan individu dengan nilai 𝑥 = 0 dalam kaitannya dengan 𝑌 = 3.

Apabila (𝑂𝑅3(1,0)) > 1 maka individu dengan nilai 𝑥 = 1 mempunyai peluang

yang lebih besar dibandingkan dengan 𝑥 = 0 terhadap 𝑌 = 3. Sebaliknya apabila

0 ≤ (𝑂𝑅3(1,0)) < 1 individu 𝑥 = 1 mempunyai peluang yang lebih kecil

dibandingkan dengan 𝑥 = 0 untuk 𝑌 = 3.

2.6 Prosedur Klasifikasi

Menurut Johnson dan Wichern (2007) prosedur klasifikasi adalah suatu

evaluasi untuk melihat peluang kesalahan klasifikasi (misclassification) yang

dilakukan oleh suatu fungsi klasifikasi. Prosedur klasifikasi yang baik ditentukan

dengan nilai misklasifikasi yang kecil.

Satu hal penting untuk menghasilkan prosedur klasifikasi ialah dengan

menghitung tingkat error atau probabilitas kesalahan klasifikasi (misklasifikasi).

Terdapat alat ukur yang dapat digunakan untuk menentukan kesalahan klasifikasi

17

yang tidak bergantung pada distribusi populasi dan dapat mempermudah

perhitungan berbagai prosedur klasifikasi. Salah satu ukuran yang apa digunakan

adalah apparent error rate (APER) yang merupakan fraksi observasi dalam sampel

yang salah diklasifikasikan atau misclasified pada fungsi klasifikasi.

Penentuan kesalahan pengklasifikasian dapat diketahui melalui tabel

klasifikasi. Tabel klasifikasi merupakan tabel kontingensi (𝑘 × 𝑘) berdasarkan data

empiris dari variabel respons.

Tabel 2.1 Tabel Klasifikasi

Keanggotaan

sebenarnya

Keanggotaan prediksi Total

�̂�1 �̂�2 �̂�3

𝜋1 𝑛11 𝑛12 𝑛13 A

𝜋2 𝑛21 𝑛22 𝑛23 B

𝜋3 𝑛31 𝑛32 𝑛33 C

Total D E F G

Keterangan:

𝑛11 : jumlah 𝑦𝑖 dari 𝜋1 yang tepat diklasifikasikan sebagai �̂�1

𝑛12 : jumlah 𝑦𝑖 dari 𝜋1 yang tidak tepat diklasifikasikan sebagai �̂�2

𝑛13 : jumlah 𝑦𝑖 dari 𝜋1 yang tidak tepat diklasifikasikan sebagai �̂�3

𝑛21 : jumlah 𝑦𝑖 dari 𝜋2 yang tidak tepat diklasifikasikan sebagai �̂�1

𝑛22 : jumlah 𝑦𝑖 dari 𝜋2 yang tepat diklasifikasikan sebagai �̂�2

𝑛23 : jumlah 𝑦𝑖 dari 𝜋2 yang tidak tepat diklasifikasikan sebagai �̂�3

𝑛31 : jumlah 𝑦𝑖 dari 𝜋3 yang tidak tepat diklasifikasikan sebagai �̂�1

𝑛32 : jumlah 𝑦𝑖 dari 𝜋3 yang tidak tepat diklasifikasikan sebagai �̂�2

𝑛33 : jumlah 𝑦𝑖 dari 𝜋3 yang tepat diklasifikasikan sebagai �̂�3

18

Sehingga diperoleh rumus kesalahan klasifikasi secara keseluruhan nilai

APER adalah:

𝐴𝑃𝐸𝑅 = (𝑛12 + 𝑛13 + 𝑛21 + 𝑛23 + 𝑛31 + 𝑛32

𝐺).

Kemudian, untuk mendapatkan nilai ketepatan klasifikasi (correct classification)

digunakan rumus: 1 − 𝐴𝑃𝐸𝑅.

2.7 Bootstrap Aggregating (Bagging)

Bagging merupakan sebuah metode yang diusulkan oleh Breiman (1994).

Metode ini digunakan sebagai alat untuk memperbaiki stabilitas dan kekuatan

prediksi dengan cara mereduksi variansi dari suatu prediktor pada metode

klasifikasi dan regresi yang penggunaannya tidak dibatasi hanya untuk

memperbaiki estimator. Versi berganda dibentuk dengan replikasi bootstrap dari

sebuah data set. Pada beberapa kasus, bagging pada data set real atau simulasi

dapat meningkatkan akurasi. Jika perubahan pada data set menyebabkan perubahan

yang signifikan maka bagging dapat meningkatkan akurasi.

Ide dasar dari bagging adalah menggunakan bootstrap resampling untuk

membangkitkan prediktor dengan versi berganda, di mana ketika dikombinasikan

seharusnya hasilnya lebih baik dibandingkan dengan prediktor tunggal yang

dibangun untuk menyelesaikan masalah yang sama (Breiman, 1996).

Tabel 2.3 Skema proses Bagging

Data set tunggal (data asli):

ℒ = {(𝑦𝑖, 𝑥𝑖), 𝑖 = 1,2, … , 𝑛} 1, 2, 3, 4, 5, 6, 7, 8

Bootstrap

resampling

ℒ∗1 = (𝑦1

∗, 𝑥1∗) 2, 7, 8, 3, 7, 6, 3, 1

ℒ∗2 = (𝑦2

∗, 𝑥2∗) 7, 8, 5, 6, 4, 2, 7, 1

ℒ∗3 = (𝑦3

∗, 𝑥3∗) 3, 6, 2, 7, 5, 6, 2, 2

ℒ∗𝑖 = (𝑦𝑖

∗, 𝑥𝑖∗) 4, 5, 1, 4, 6, 4, 3, 8

(2.18)

19

Sebuah data set ℒ terdiri dari data {(𝑦𝑛, 𝑥𝑛), 𝑛 = 1, … , 𝑁} dengan 𝑦 dapat

berupa kelas label atau respons numerik. Jika input adalah 𝑥 maka 𝑦 diprediksi

dengan 𝜑(𝑥, ℒ) di mana 𝜑(𝑥, ℒ) adalah prediktor. Prediktor diperoleh dengan

melakukan replikasi bootstrap dari data asli ℒ𝑘 yang kemudian disebut 𝜑(𝑥, ℒ𝑘).

Replikasi bootstrap dilakukan sebanyak B kali sehingga {ℒ (𝐵)} dari ℒ (data set)

dan dibentuk prediktor {𝜑(𝑥, ℒ(𝐵))}. Pengulangan {ℒ (𝐵)} adalah resampling

dengan pengembalian (Breiman,1996).

Ambil bootstrap sampel dengan pengulangan {ℒ (𝐵)} dari ℒ dan membentuk

{𝜑(𝑥, ℒ (𝐵))}. Jika 𝑦 merupakan data numerik, diberikan 𝜑𝐵 sebagai

𝜑𝐵(𝑥) = average𝐵𝜑(𝑥, ℒ (𝐵)), (2.19)

Jika 𝑦 merupakan kelas label, maka untuk menentukan kategori dengan melakukan

vote pada{𝜑(𝑥, ℒ (𝐵))} dari 𝜑𝐵(𝑥). Metode bootstrap yang seperti ini dinamakan

bagging (bootstrap aggregating).

Bagging bekerja dengan baik pada metode yang bersifat tidak stabil, yang

mana perubahan kecil pada data set akan menghasilkan perubahan besar pada

model yang diperoleh. Beberapa metode yang tidak stabil adalah neural networks,

regresi, klasifikasi, dan regresi pohon (regression tree). Sedangkan contoh metode

yang stabil adalah k-nearest neighboor (Breiman, 1996).

2.7.1 Estimasi Probabilitas Bagging Class

Beberapa metode klasifikasi mengestimasi probabilitas �̂�(𝑘|𝑥) suatu objek

dengan memprediksi vector 𝑥 termasuk dalam kelas 𝑘. Kemudian kelas yang sesuai

20

𝑥 ditaksir sebagai arg max𝑘 �̂�(𝑘|𝑥). Pada metode bagging, dari semua replikasi

bootstrap diperoleh estimasi �̂�𝐵(𝑘|𝑥) yang kemudian digunakan untuk

memprediksi kelas arg max𝑘 �̂�𝐵(𝑘|𝑥). Dari hasil prediksi kelas, dilakukan

perhitungan kesalahan klasifikasi untuk setiap replikasi B kali. Terdapat dua cara

berbeda dalam mendapatkan nilai kesalahan klasifikasi pada bagging untuk

klasifikasi, yaitu dengan majority voting dan average. Hasil proses voting ataupun

average dalam hal ini (𝑒�̅�) ditentukan dari prediksi kelas label tiap-tiap replikasi

B kali. Penentuan 𝑒�̅� dengan voting ataupun average pada bagging memiliki hasil

yang hampir sama (Breiman, 1996).

Breiman (1996) menyatakan bahwa bagging mengestimasi lebih akurat

daripada estimator tunggal. Hal tersebut ditunjukkan dengan membandingkan nilai

estimasi error antara estimator tunggal dengan estimator bagging.

Algoritma bagging untuk regresi logistik ordinal adalah sebagai berikut:

1. Mengambil sampel bootstrap ℒ𝐵 sebanyak 𝑛 dari data set ℒ, pengambilan

sampel dengan pengembalian untuk setiap replikasi sebanyak 𝐵.

2. Memodelkan regresi logistik ordinal pada sampel bootstrap ℒ𝐵.

3. Menentukan prediksi variabel respons dari model bagging regresi logistik

ordinal untuk setiap replikasi.

4. Mengulang langkah 1 sampai langkah 4 sebanyak B kali.

5. Menentukan prediksi kelas maksimum dengan majority voting dan menghitung

nilai kesalahan klasifikasi bagging (𝑒�̅�) dari nilai prediksi kelas maksimum

setiap pengulangan sampai B kali.

21

2.8 Akaike’s Information Criterion (AIC)

Metode AIC secara umum dianggap sebagai kriteria pemilihan model yang

sampai saat ini terus berkembang dan dipergunakan sebagai salah satu metode

dalam pemilihan model terbaik. Metode AIC didasarkan pada metode maximum

likelihood estimation (MLE). Untuk menghitung nilai AIC digunakan rumus

sebagai berikut (Grasa dalam Fathurahman, 2009):

𝐴𝐼𝐶 = 𝑒2𝑘/𝑛∑ �̂�𝑖

2𝑛𝑖=1

𝑛,

dengan:

𝑘 = banyak parameter yang diestimasi dalam model regresi

𝑛 = banyak observasi

𝑒 = 2,718

𝑢 = sisa (residual)

Berdasarkan nilai AIC, suatu model regresi dikatakan sebagai model terbaik adalah

jika model regresi memiliki nilai AIC terkecil (Widarjono dalam Fathurahman,

2009).

2.9 Status Gizi

Salah satu indikator kesehatan yang dinilai pencapaiannya dalam MDG’s

adalah status gizi balita (Dinas Kesehatan Provinsi Bali, 2014). Upaya perbaikan

gizi dilakukan untuk mengatasi masalah gizi dan sekaligus untuk meningkatkan

status gizi serta derajat kesehatan masyarakat. Gizi yang baik pada balita sangat

penting bagi pertumbuhan dan perkembangan tubuh balita. Pada balita kurang gizi

ada kecenderungan kurang gairah dan lincah, serta terhambat dalam belajar karena

(2.20)

22

gizi kurang akan memengaruhi pertumbuhan otak balita sehingga berakibat dalam

merugikan usaha mencerdaskan bangsa (Roedjito, 1989).

Status gizi balita merupakan hal yang harus diketahui oleh setiap orang tua.

Perlunya perhatian lebih dalam tumbuh kembang di usia balita didasarkan fakta

bahwa kurang gizi yang terjadi pada masa emas ini, bersifat irreversible

(Mufida dkk., 2015).

Menurut Kementerian Kesehatan (2013), status gizi balita dapat diukur

berdasarkan umur, berat badan (BB), dan tinggi badan (TB). Variabel umum, BB

dan TB ini disajikan dalam bentuk tiga indikator antropometri, yaitu: berat badan

menurut umur (BB/U), tinggi badan menurut umur (TB/U), dan berat badan

menurut tinggi badan (BB/TB). Masing-masing indikator tersebut memiliki

pembagian kategori sebagai berikut:

a. BB/U: indeks ini diperoleh dari perbandingan antara berat badan dengan umur

yang dapat digunakan untuk menilai kemungkinan anak dengan kategori gizi

buruk atau gizi kurang.

b. TB/U: indeks ini diperoleh dari perbandingan antara tinggi badan dengan umur

yang dapat digunakan untuk menggambarkan keadaan kurang gizi kronis yaitu

pendek (stunting).

c. BB/TB: indeks ini diperoleh dari perbandingan antara berat badan dengan tinggi

badan yang dapat digunakan untuk menilai kemungkinan anak dengan kategori

kurus atau sangat kurus yang merupakan masalah gizi akut.

23

2.9.1 Balita

Anak bawah lima tahun atau sering disingkat sebagai anak balita adalah

anak yang telah menginjak usia di atas satu tahun atau lebih populer dengan

pengertian usia anak di bawah lima tahun (Muaris dalam Depkes, 2015) atau biasa

digunakan perhitungan bulan yaitu 12-59 bulan. Para ahli menggolongkan usia

balita sebagai tahapan perkembangan anak yang cukup rentan terhadap berbagai

serangan penyakit. Setiap tahun lebih dari sepertiga kematian anak di dunia

berkaitan dengan masalah kurang gizi (Depkes, 2015).

2.9.2 Stunting pada Balita

Indikator tinggi badan menurut umur (TB/U) digunakan untuk

menggambarkan keadaan kurang gizi pendek. Balita pendek (stunting) adalah balita

yang mengalami kegagalan untuk mencapai pertumbuhan yang optimal. Stunting

dapat mengindikasikan adanya gangguan kronis pada pertumbuhan anak akibat

tidak terpenuhinya suplai makanan dalam waktu lama, adanya penyakit infeksi atau

kondisi kesehatan lingkungan buruk yang disebabkan oleh kemiskinan (SCN Task

Force dalam Tahir, 2012).

Berdasarkan Kementerian Kesehatan (2013), pada anak balita masalah

stunting lebih banyak dibandingkan dengan masalah kurang gizi lainnya. Di

Provinsi Bali pada tahun 2013 kejadian stunting terjadi sebanyak 32,6% lebih

tinggi dibandingkan kejadian gizi buruk 13,2% dan kurus 8,8%.

24

2.9.3 Status Anemia Ibu

Ibu hamil yang mengalami anemia dapat mengakibatkan janin dalam tubuh

ibu mengalami hambatan pertumbuhan, lahir prematur, bayi dengan berat badan

lahir rendah (BBLR), serta lahir dengan cadangan zat besi kurang sampai dengan

kematian janin di dalam kandungan. Sedangkan bagi ibu hamil sendiri akan

menyebabkan komplikasi, gangguan pada saat persalinan dan dapat

membahayakan kondisi ibu seperti badan lemah, pingsan hingga menyebabkan

mudahnya terinfeksi penyakit (Sulistyoningsih, 2011).

2.9.4 Pengukuran LILA Ibu

Pengukuran lingkar lengan atas (LILA) dilakukan ibu hamil untuk

mengetahui risiko kekurangan energi kronis (KEK) pada ibu tersebut. KEK

merupakan suatu keadaan yang menunjukkan kekurangan energi dan protein dalam

jangka waktu yang lama (Kemenkes R.I. dalam Suciari, 2015).

2.9.5 Berat Badan Lahir

Berat badan lahir sangat terkait dengan pertumbuhan dan perkembangan

jangka panjang pada balita. Menurut Unicef dan WHO (2004) bayi dengan berat

badan lahir rendah (BBLR) merupakan hasil dari kelahiran prematur atau

dikarenakan terhambatnya pertumbuhan janin dalam kandungan. BBLR telah

didefinisikan oleh WHO sebagai bayi yang lahir dengan berat lahir kurang dari

2500 gr. BBLR berkaitan erat dengan kematian dan morbiditas dari janin dan

neonatus, terhambatnya pertumbuhan dan perkembangan kognitif, dan timbulnya

25

penyakit kronis di kemudian hari. Banyak faktor yang menyebabkan BBLR yaitu,

durasi kehamilan dan perkembangan janin. Hal tersebut berkaitan dengan bayi, ibu,

atau lingkungan fisik dan memainkan peranan penting dalam menentukan berat

badan lahir dan masa depan kesehatan bayi.

2.9.6 Panjang Badan Lahir

Asupan gizi yang kurang adekuasi sebelum masa kehamilan gangguan

pertumbuhan pada janin sehingga dapat menyebabkan bayi lahir dengan panjang

badan lahir pendek . bayi yang dilahirkan memiliki panjang badan lahir normal bila

panjang badan lahir bayi tersebut berada pada panjang 48-52 cm (Kemenkes R.I.

dalam Suciari, 2015).

2.9.7 MP-ASI

Makanan pendamping ASI (MP-ASI) merupakan makanan pendamping

ASI, bukan makanan pengganti ASI. Dikatakan pendamping, berarti bila sudah

waktunya diberikan makanan pendamping ini, bukan berarti pemberian ASI harus

dihentikan. Umpasi (Umur Pemberian Usia MP-ASI) pada usia 6 bulan dianggap

merupakan saat yang tepat untuk pemberian MP-ASI. Pada usia ini, saluran

pencernaan bayi sudah cukup mampu untuk menerima makanan selain ASI dan

kebutuhan bayi sudah tidak lagi tercukupi hanya dengan pemberian ASI, sehingga

dibutuhkan sumber nutrisi lain untuk mencukupi kebutuhannya (Nopri, 2013).