bab ii tinjauan pustaka - sinta.unud.ac.id ii.pdf · 2.2.3 uji levene f uji ... jika tidak ada...

6

BAB II

TINJAUAN PUSTAKA

Bab ini akan membahas pengertian metode klasifikasi berstruktur pohon,

konsep-konsep dasar pada QUEST dan CHAID, algoritma QUEST, algoritma

CHAID, keakuratan dan kesalahan dalam klasifikasi, dan perbedaan antara

QUEST dan CHAID.

2.1 Metode Klasifikasi Berstruktur Pohon

Metode klasifikasi berstruktur pohon merupakan metode statistika yang

digunakan untuk memperkirakan keanggotaan amatan yang diduga dari

pengukuran satu variabel prediktor atau lebih dalam kelas variabel respon

kategorik. Metode ini menghasilkan pohon klasifikasi yang dibentuk melalui

penyekatan secara berulang. Metode klasifikasi berstruktur pohon digunakan

sebagai alternatif apabila beberapa asumsi pada metode parametrik tidak

terpenuhi. Metode ini juga memiliki beberapa kelebihan antara lain mudah untuk

diinterpretasikan karena tampilan berupa diagram pohon, lebih fleksibel serta

mampu memeriksa pengaruh variabel prediktor satu per satu (Lewis, 2000).

2.2 Konsep-Konsep Dasar pada QUEST dan CHAID

Konsep-konsep statistika yang menjadi dasar pada metode QUEST yaitu uji

khi-kuadrat, uji ANOVA F, uji Levene, dan analisis diskriminan kuadtratik.

Metode CHAID menggunakan uji khi-kuadrat dan uji koreksi Bonferroni.

7

2.2.1 Uji khi-kuadrat (𝝌𝟐)

Uji khi-kuadrat (𝜒2) pada dasarnya menyangkut pembuatan tabulasi silang

yang digunakan untuk mengetahui hubungan antara dua variabel kategorik.

Hubungan yang didapatkan tersebut digunakan untuk mengontrol susunan dari

pohon klasifikasi.

Misalkan suatu variabel pertama memiliki 𝑟 kategori dan variabel kedua

memiliki 𝑘 kategori maka 𝑂𝑖𝑗 adalah pengamatan pada variabel pertama di level

𝑖 dan variabel kedua di level 𝑗, secara umum tabel disajikan sebagai berikut.

Tabel 2.1 Struktur Data Uji Khi-kuadrat

Variabel 1 / Variabel 2 1 2 … 𝑘 Total

1 𝑂11 𝑂12 … 𝑂1𝑘 𝑛1.

2 𝑛21 𝑛22 … 𝑂2𝑘 𝑛2.

⋮ ⋮ ⋮ ⋮ ⋮ ⋮

𝑟 𝑂𝑟1 𝑂𝑟2 … 𝑂𝑟𝑘 𝑛𝑟 .

Total 𝑛.1 𝑛.2 … 𝑛.𝑘 𝑛

Sumber: Usman dan Setiady (2006)

Hipotesis pada pengujian khi-kuadrat adalah:

𝐻0 : Kedua variabel saling bebas

𝐻1 : Kedua variabel tidak saling bebas

Sedangkan statistik ujinya adalah:

𝜒2 = (𝑂𝑖𝑗−𝐸𝑖𝑗 )2

𝐸𝑖𝑗

𝑐𝑗=1

𝑟𝑖=1 dengan 𝐸𝑖𝑗 =

𝑛𝑖 .𝑛 .𝑗

𝑛 (2.1)

dengan 𝐸𝑖𝑗 menyatakan nilai harapan pengamatan pada baris ke-𝑖 dan kolom ke-𝑗,

𝑛𝑖 . menyatakan total banyaknya pengamatan pada baris ke-𝑖, 𝑛.𝑗 menyatakan total

8

banyaknya pengamatan pada baris ke-𝑗, dan 𝑛 menyatakan total banyaknya

responden.

Keputusan yang diambil dari uji khi-kuadrat ini adalah 𝐻0 ditolak jika nilai

𝜒2𝑕𝑖𝑡

> 𝜒2𝑡𝑎𝑏𝑒𝑙

atau 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 𝛼.

2.2.2 Uji ANOVA F

Uji ANOVA F digunakan untuk menguji perbedaan rata-rata dari beberapa

kelompok sampel yang saling bebas. Bila 𝜇𝑘 adalah rata-rata dari kelompok ke-k

(k = 1, 2, …, K), maka hipotesis yang digunakan adalah:

H0: 𝜇1 = 𝜇2 = ⋯ = 𝜇𝐾 (tidak ada perbedaan rata-rata antarkelompok)

H1: Minimal ada satu 𝜇𝑘 yang berbeda

Uji yang digunakan adalah uji F yang diperoleh dengan membentuk tabel

ANOVA F seperti tabel di bawah ini:

Tabel 2.2 ANOVA F

Sumber

keragaman

(SK)

Jumlah kuadrat (JK)

Derajat

bebas

(db)

Kuadrat

tengah

(KT)

F hitung

Rata-rata

Kolom (K) JKK=

𝑋𝑘 .2

𝑛𝑘

𝐾𝑘=1 −

𝑋..2

𝑁 K-1 KTK=

𝐽𝐾𝐾

𝐾−1

𝐹 =KTK

KTG

Galat (G) JKG= JKT-JKK N-K KTG=𝐽𝐾𝐺

𝑁−𝐾

Total JKT= 𝑥𝑘𝑖2𝑛𝑘

𝑖=1𝐾𝑘=1 −

𝑋..2

𝑁 N-1

Sumber: Riduwan (2010)

dengan i=1,2,…,nk , k=1,2,…,K. xki menyatakan pengamatan ke-i dari kelompok

ke-k, 𝑁 menyatakan jumlah seluruh data, 𝐾 menyatakan jumlah kelompok, 𝑛𝑘

9

menyatakan ukuran data kelompok ke-k, 𝑋𝑘 menyatakan jumlah pengamatan

kelompok ke-k, dan 𝑋.. menyatakan jumlah pengamatan seluruh data.

Keputusan yang diambil dari uji ANOVA F adalah 𝐻0 ditolak jika nilai

𝐹𝑕𝑖𝑡 > 𝐹𝑡𝑎𝑏𝑒𝑙 atau 𝑝_𝑣𝑎𝑙𝑢𝑒 < 𝛼.

2.2.3 Uji Levene F

Uji Levene F digunakan untuk menguji kesamaan ragam variabel dari

beberapa kelompok. Bila σ𝑘 adalah simpangan baku populasi dari kelompok ke-

k, maka hipotesis yang digunakan adalah:

H0: 𝜎12 = 𝜎2

2 = ⋯ = 𝜎𝐾2 , (data homogen)

H1: Minimal ada satu 𝜎𝑘2 yang heterogen

Uji levene F: 𝑤 =(𝑁−𝐾) 𝑁𝑘 (𝑦𝑘 . −𝑦.. )2𝐾

𝑘=1

𝐾−1 (𝑦𝑘𝑖 −𝑦𝑘 . 𝑛𝑘𝑖=1

𝐾𝑘=1 )2

(2.2)

dengan, 𝑦𝑘𝑖 = 𝑥𝑘𝑖 − 𝑥 𝑘 , 𝑥 𝑘 menyatakan rata-rata dari kelompok ke-k,

𝑦𝑘 . menyatakan rata-rata kelompok dari yi, dan 𝑦.. menyatakan rata-rata

menyeluruh dari yki.

Keputusan yang diambil dari uji Levene F adalah 𝐻0 ditolak jika nilai

𝐹𝑕𝑖𝑡 > 𝐹𝑡𝑎𝑏𝑒𝑙 atau 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 𝛼.

10

2.2.4 Analisis Diskriminan Kuadratik

Analisis diskriminan merupakan teknik menganalisis data, dimana variabel

respon merupakan variabel kategorik sedangkan variabel prediktor merupakan

variabel numerik (Supranto, 2010). Fungsi diskriminan yang dibangun dengan

asumsi bahwa kelompok-kelompok memiliki matriks ragam peragam yang sama

disebut fungsi diskriminan linear, sedangkan fungsi yang dibangun tanpa asumsi

tersebut disebut fungsi diskriminan kuadratik.

Jika fk(x) adalah fungsi kepekatan peluang bersama dari sampel acak yang

berasal dari kelompok ke-k dan menyebar mengikuti sebaran normal multivariat,

maka menurut Johnson dan Winchern dalam Kurniasari dkk (2014) didapat:

𝑓𝑘 𝑥 = 1

(2𝜋)𝑝

2 | |𝑘1

2 𝑒𝑥𝑝 −

1

2(𝑥 − 𝜇𝑘)𝑡 (𝑥 − 𝜇𝑘)−1

𝑘 ,𝑘 = 1,2,… ,𝐾 (2.3)

dengan, 𝜇𝑘 menyatakan vektor rata-rata kelompok ke-k, ∑k menyatakan matriks

ragam peragam kelompok ke-k, dan p menyatakan banyaknya variabel.

Skor diskriminan kuadratik untuk sebuah pengamat dengan nilai

𝑥 = 𝑥1, 𝑥2,…𝑥𝑝 terhadap kelompok ke-k dan 𝑝𝑘 menyatakan peluang awal dari

kelompok ke-k:

𝑑𝑘𝑄 𝑥 = −

1

2𝑙𝑛| |𝑘 −

1

2(𝑥 − 𝜇𝑘)𝑡 (𝑥 − 𝜇𝑘)−1

𝑘 + 𝑙𝑛 𝑝𝑘 (2.4)

Apabila 𝜇𝑘 dan ∑k tidak diketahui, maka harus dicari taksiran dari 𝜇𝑘 dan

∑k dengan memanfaatkan data sampel yang telah dikelompokkan dengan benar.

Taksiran dari skor diskriminan kuadratik menjadi:

11

𝑑 𝑘𝑄 𝑥 = −

1

2𝑙𝑛 𝑠𝑘 −

1

2(𝑥 − 𝑥 𝑘)𝑡𝑠𝑘

−1(𝑥 − 𝑥 𝑘) + 𝑙𝑛 𝑝𝑘 (2.5)

dengan 𝑠𝑘 menyatakan matriks peragam sampel dari kelompok ke-k dan 𝑥 𝑘

menyatakan vektor rata-rata sampel dari kelompok ke-k (Jin dan An dalam

Kurniasari dkk, 2014).

2.2.5 Koreksi Bonferroni (Bonferroni Correction)

Jika tidak ada pengurangan dari tabel kontingensi asal pada algoritma

CHAID, maka statistik uji khi-kuadrat dapat digunakan untuk uji signifikansi.

Apabila terjadi pengurangan tabel kontingensi, yaitu dari 𝑐 kategori menjadi 𝑟

kategori (𝑟 < 𝑐), maka nilai khi-kuadrat tersebut dikalikan dengan pengganda

Bonferroni sesuai dengan jenis variabelnya. Menurut Gallagher (2000) pengali

Bonferroni untuk masing-masing jenis variabel-variabel prediktor adalah sebagai

berikut:

1. Variabel prediktor monotonik : 𝑀 = 𝑐 − 1𝑟 − 1

(2.6)

2. Variabel prediktor bebas : 𝑀 = −1 𝑖 𝑟−𝑖 𝑐

𝑖! 𝑟−𝑖 !

𝑟−1𝑖=0 (2.7)

3. Variabel prediktor mengambang : 𝑀 = 𝑐 − 2𝑟 − 2

+ 𝑟 𝑐 − 2𝑟 − 1

(2.8)

dengan 𝑐 menyatakan banyaknya kategori variabel prediktor asal, 𝑟 menyatakan

banyaknya kategori variabel prediktor setelah penggabungan.

12

2.3 Metode QUEST (Quick, Unbiased, Efficient Statistical Trees)

QUEST merupakan pengembangan dari FACT (Factor Analysis

Classification Trees) yang memiliki kecepatan komputasi yang tinggi (Loh dan

Shih, 1997) dan suatu metode pohon klasifikasi yang menghasilkan pohon biner.

QUEST merupakan modifikasi dari analisis diskriminan kuadratik. Analisis

diskriminan kuadratik diterapkan pada proses penentuan simpul penyekat.

Apabila variabel penyekat yang dipilih adalah variabel kategorik, maka dilakukan

transformasi ke variabel numerik dan selanjutnya diterapkan analisis diskriminan

kudratik. Komponen dasar QUEST terdiri dari beberapa variabel prediktor

kategorik atau numerik dan variabel respon yang merupakan variabel kategorik.

2.3.1 Algoritma QUEST

Menurut Loh dan Shih (1997), algoritma QUEST dibagi menjadi tiga

bagian yaitu, algoritma pemilihan variabel penyekat, algoritma penentuan simpul

penyekat, dan algoritma penghentian pembentukan pohon.

1. Algoritma Pemilihan Variabel Penyekat

Langkah-langkah algoritma pemilihan variabel penyekat adalah sebagai

berikut (Loh dan Shih, 1997):

a. Untuk setiap variabel prediktor numerik, lakukan uji ANOVA F dan hitung

nilai p-value berdasarkan statistika uji F. Untuk setiap variabel prediktor

kategorik, lakukan uji khi-kuadrat dan hitung nilai p-value berdasarkan

statistika uji khi-kuadrat.

b. Pilih variabel prediktor yang memiliki nilai p-value terkecil.

13

c. Bandingkan nilai p-value terkecil dengan 𝛼/𝑀1, dengan taraf nyata α dan 𝑀1

adalah banyaknya variabel prediktor.

i. Jika nilai p-value kurang dari 𝛼/𝑀1, maka pilih variabel yang besesuaian

sebagai variabel penyekat dan teruskan ke langkah (e).

ii. Jika nilai p-value lebih dari α/M1, maka teruskan ke langkah (d).

d. Untuk setiap variabel prediktor X yang numerik, maka:

i. Hitung nilai p-value dari uji Levene untuk menguji kehomogenan ragam.

ii. Pilih variabel prediktor yang memilik nilai p-value terkecil.

iii. Bandingkan nilai p-value dari uji Levene tersebut dengan

taraf 𝛼 (𝑀1 + 𝑀2) , dengan 𝑀2 adalah banyaknya variabel prediktor

numerik.

iv. Jika p-value kurang dari 𝛼 (𝑀1 + 𝑀2) , maka pilih variabel yang bersesuaian

sebagai variabel penyekat dan teruskan ke langkah (e).

v. Jika p-value lebih dari 𝛼 (𝑀1 + 𝑀2) , maka variabel tersebut tidak dipilih

menjadi variabel penyekat.

e. Misalkan X* adalah variabel penyekat yang diperoleh pada langkah (c) atau

(d), maka langkah selanjutnya menentukan simpul penyekat.

2. Algoritma Penentuan Simpul Penyekat

Setelah terpilih variabel penyekat, langkah selanjutnya adalah menentukan

simpul penyekat. Algoritma penentuan simpul penyekat dijelaskan sebagai

berikut:

14

a. Variabel Prediktor Kategorik

Apabila X*

yang terpilih berupa kategorik dan terdiri lebih dari dua

kategori, maka QUEST akan mentransformasi ke dalam variabel numerik yang

dilambangkan dengan ξ. Selanjutnya QUEST menggunakan algoritma pemilihan

simpul penyekat untuk variabel prediktor numerik pada ξ untuk menentukan

simpul penyekat.

Misalkan X* adalah variabel prediktor kategorik, dengan kategori b1, b2, …,

bL. X* akan ditransformasi menjadi variabel numerik ξ untuk setiap kelas X

*

dengan langkah-langkah sebagai berikut (Loh dan Shih, 1997):

1. Transformasi setiap nilai x dari X* ke dalam vektor dummy L dimensi

𝑣 = (𝑣1, 𝑣2,… , 𝑣𝐿) dengan 𝑣𝑙 = 1, 𝑥 = 𝑏𝑙0, 𝑥 ≠ 𝑏𝑙

, 𝑙 = 1,2,… , 𝐿

2. Cari rata-rata untuk X*

𝑣 = 𝑓𝑙𝑣𝑙𝐿𝑙=1

𝑁𝑡 (2.9)

𝑣 (𝑘) = 𝑛𝑙𝑣𝑙𝐿𝑙=1

𝑁𝑘 ,𝑡 (2.10)

dengan, 𝑣𝑙 menyatakan pengamatan ke-l, 𝑣 menyatakan rata-rata untuk semua

pengamatan pada simpul t, 𝑣 (𝑘) menyatakan rata-rata untuk semua pengamatan

pada simpul t untuk kelompok ke-k, 𝑓𝑙 menyatakan jumlah pengamatan pada

simpul t untuk 𝑣𝑙 , 𝑛𝑙 menyatakan jumlah pengamatan pada simpul t kelompok

ke-k untuk 𝑣𝑙 , 𝑁𝑡 menyatakan jumlah pengamatan pada simpul t, dan 𝑁𝑘 ,𝑡

menyatakan jumlah pengamatan pada simpul t kelompok ke-k.

15

3. Tentukan matriks L x L berikut:

𝐵 = 𝑁𝑘 ,𝑡 𝑣 𝑘 − 𝑣 (𝑣 𝑘 − 𝑣 )𝐾

𝑘=1 ′ (2.11)

𝑇 = 𝑓𝑙 𝑣𝑙 − 𝑣 𝑣𝑙 − 𝑣 ′𝐿𝑙=1 (2.12)

4. Lakukan SVD (singular value decomposition) pada T untuk memperoleh

T=QDQ’, dimana Q adalah matriks orthogonal L x L, D = diag(d1,d2…,dL)

dengan d≥,d2≥…≥dL≥0. Misalkan D-1/2

=diag(d1*,d2

*,…,dL

*), dengan

𝑑𝑙∗ =

𝑑𝑙−1/2

, 𝑗𝑖𝑘𝑎 𝑑𝑙 > 0

0 , 𝑙𝑎𝑖𝑛𝑛𝑦𝑎

5. Lakukan SVD pada 𝐷−12 𝑄′𝐵𝑄𝐷−1

2 untuk memperoleh vektor eigen a yang

berhubungan dengan nilai eigen yang terbesar.

6. Tentukan koordinat diskriminan terbesar dari v, yaitu ξ = 𝑎′𝐷−12 𝑄′𝑣 (2.13)

b. Variabel Prediktor Numerik

Misalkan variabel respon terdiri dari dua kategori dan variabel prediktor X*

yang terpilih berupa variabel numerik. Langkah penentuan variabel prediktor

penyekat sebagai berikut (Loh dan Shih, 1997):

1. Definisikan 𝑥 𝐴 dan 𝑠𝐴2 adalah rata-rata dan ragam X

* dari pengamatan variabel

respon A, sedangkan 𝑥 𝐵 dan 𝑠𝐵2 adalah rata-rata dan ragam X

* dari pengamatan

variabel respon B. Misalkan 𝑃 𝑗 𝑡 =𝑁𝑗 .𝑡

𝑁𝑗 merupakan peluang dari masing-

masing kategori variabel respon, dengan Nj,t adalah jumlah data pada simpul t

untuk respon j dan Nj adalah jumlah data pada simpul awal untuk respon j.

2. Berikan log pada kedua ruas persamaan:

𝑃 𝐴 𝑡 𝑠𝐴−1𝜑

𝑥−𝑥 𝐴

𝑠𝐴 = 𝑃(𝐵|𝑡)𝑠𝐵

−1𝜑 𝑥−𝑥 𝐵

𝑠𝐵 (2.14)

16

untuk memperoleh persamaan kuadrat 𝑎𝑥2 + 𝑏𝑥 + 𝑐 = 0, dengan:

𝑎 = 𝑠𝐴2 − 𝑠𝐵

2 (2.15)

𝑏 = 2(𝑥 𝐴𝑠𝐵2 − 𝑥 𝐵𝑠𝐴

2) (2.16)

𝑐 = (𝑥 𝐵𝑠𝐴 )2 − (𝑥 𝐴𝑠𝐵)2 + 2𝑠𝐴

2𝑠𝐵2𝑙𝑜𝑔

𝑃(𝐴|𝑡)𝑠𝐵

𝑃(𝐵|𝑡)𝑠𝐴 (2.17)

3. Sebuah simpul disekat pada X*= d, dimana d didefinisikan sebagai berikut:

a. Jika 𝑥 𝐴< 𝑥 𝐵 , maka d =𝑥 𝐴

b. Jika a = 0, maka 𝑑 = (𝑥 𝐴+𝑥 𝐵 )

2−

𝑠𝐴2

(𝑥 𝐴+𝑥 𝐵 )log

𝑃(𝐴|𝑡)

𝑃(𝐵|𝑡) , 𝑥 𝐴 ≠ 𝑥 𝐵

𝑥 𝐴 , 𝑥 𝐴 = 𝑥 𝐵

(2.18)

c. Jika a≠0, maka:

i. Jika b2-4ac<0, maka 𝑑 =

(𝑥 𝐴+𝑥 𝐵 )

2 (2.19)

ii. Jika b2-4ac≥0, maka 𝑑 =

−𝑏± 𝑏2−4𝑎𝑐

2𝑎 (2.20)

dimana d adalah akar dari persamaan (2.20) yang lebih mendekati nilai 𝑥 𝐴,

dengan syarat menghasilkan dua simpul tak kosong.

3. Algoritma Penghentian Pembentukan Pohon

Proses pemilihan simpul secara rekursif akan terhenti apabila salah satu dari

aturan penghentian tercapai. Ada empat aturan penghentian pembentukan pohon

yaitu:

a. Jika simpul penyekat menjadi murni yaitu apabila semua kasus masuk ke

dalam salah satu kategori variabel respon.

b. Jika semua kasus yang terdapat di dalam simpul memiliki nilai-nilai identik

untuk tiap variabel prediktor.

17

c. Jika kedalaman pohon sudah mencapai kedalaman pohon maksimum yang

ditetapkan.

d. Jika banyaknya kasus yang masuk ke dalam simpul sudah mencapai jumlah

minimum yang ditetapkan.

2.3.2 Pohon Klasifikasi QUEST

QUEST menerapkan modifikasi analisis diskriminan kuadratik rekursif

untuk mendapatkan simpul penyekat. Pada saat pembentukan pohon, QUEST

menyeleksi variabel serta memilih simpul penyekat secara terpisah.

Gambar 2.1 Diagram Pohon dalam Analisis QUEST

Pada Gambar 2.1, struktur pohon QUEST memiliki satu simpul akar yang

dinyatakan dengan 𝑡1 yang mengandung semua gugus (simpul) data. Pertama-

pertama, 𝑡1disekat menjadi dua anak simpul kemudian diperiksa kembali secara

terpisah dan dibagi lagi, demikian seterusnya sampai tercapai kriteria berhenti

anak simpul yang tidak dapat disekat lagi yang disebut simpul akhir. Simpul akhir

dilambangkan dengan kotak yaitu pada 𝑡4, 𝑡6 , 𝑡8 , 𝑡10 , 𝑡11 , 𝑡12 , dan 𝑡13 . Simpul

t9

t5 t7

t10 t11

t6 t4

t8

t13 t12

t1

t2

t3

18

dalam adalah simpul yang bisa disekat menjadi simpul anak, karena masih bisa

disekat simpul ini dilambangkan dengan lingkaran yaitu pada 𝑡2, 𝑡3 , 𝑡5 , 𝑡7, dan 𝑡9.

2.4 Metode CHAID (Chi-Squared Automatic Interaction Detection)

CHAID merupakan bagian dari teknik terdahulu yang dikenal dengan AID

(Automatic Interaction Detection) yang digunakan untuk variabel respon

kategorik dan suatu metode pohon klasifikasi yang menghasilkan pohon non

biner (Kass, 1980).

Didalam Kunto dan Hasana (2006), metode CHAID akan membagi data ke

dalam kelompok–kelompok melalui beberapa tahapan. Tahapan pertama adalah

membagi data menjadi beberapa kelompok berdasarkan satu variabel prediktor

yang pengaruhnya paling signifikan terhadap variabel respon. Variabel prediktor

yang signifikan ditentukan dengan khi-kuadrat. Setelah mendapatkan pembagian

kelompok–kelompok tersebut, periksa kelompok-kelompok tersebut secara

terpisah untuk membagi lagi menjadi beberapa kelompok yang lebih kecil

berdasarkan variabel prediktor yang lain. Hal tersebut dilakukan sampai tidak

ditemukan lagi variabel–variabel prediktor yang signifikan secara statistik.

Pembangunan CHAID akan dihentikan ketika tidak ada lagi nilai khi-kuadrat

yang signifikan dari variabel prediktor terhadap variabel responnya (Wilkinson,

1992).

2.4.1 Variabel CHAID

Menurut Gallagher (2000), CHAID akan membedakan variabel-variabel

prediktor kategorik menjadi tiga bentuk yang berbeda, yaitu:

19

1. Monotonik, yaitu variabel prediktor yang kategorinya dapat dikombinasikan

atau digabungkan oleh CHAID hanya jika keduanya berdekatan satu sama

lain, yaitu variabel-variabel yang kategorinya mengikuti urutan aslinya (data

ordinal).

2. Bebas, yaitu variabel prediktor yang kategorinya dapat dikombinasikan atau

digabungkan ketika keduanya berdekatan atau tidak satu sama lain (data

nominal).

3. Mengambang, yaitu variabel prediktor yang kategori didalamnya dapat

diperlakukan seperti monotonik kecuali untuk kategori yang missing value,

yang dapat berkombinasi dengan kategori manapun.

2.4.2 Algoritma CHAID

Menurut Kass (1980) algoritma CHAID secara lengkap yaitu sebagai

berikut:

1. Untuk setiap variabel prediktor, buat tabulasi silang kategori-kategori variabel

prediktor dengan kategori-kategori variabel respon.

2. Untuk setiap tabulasi silang yang diperoleh (susun subtabel yang berukuran

2 × 𝑑 yang mungkin, 𝑑 adalah banyaknya kategori variabel respon) cari

pasangan kategori variabel prediktor yang memiliki angka uji paling kecil. Jika

angka uji tidak mencapai nilai kritis, gabungkan kedua kategori tersebut

menjadi satu kategori campuran. Ulangi langkah ini sampai angka uji kategori

campuran melampaui nilai kritis.

3. Untuk setiap kategori gabungan yang terbentuk dari 3 atau lebih kategori asal,

temukan pemisahan biner yang memiliki angka uji yang paling besar

20

(pemisahan berdasarkan tipe variabel prediktor). Jika angka uji ini lebih besar

dari nilai kritis, buatlah pemisahan tersebut dan kembali ke langkah 2 di atas.

4. Untuk setiap tabulasi silang variabel prediktor yang telah digabungkan secara

optimal, pilih yang memiliki angka uji paling besar. Jika angka uji ini lebih

besar dari nilai kritis, bagilah data menurut kategori–kategori yang telah

digabungkan dari variabel prediktor yang telah dipilih. Pada tahap ini apabila

terjadi pengurangan tabel kontingensi dari tabel asal maka gunakan uji koreksi

Bonferoni dan jika tidak maka lakukan uji khi-kuadrat untuk uji signifikansi.

5. Untuk setiap pembagian data yang belum dianalisis, kembali ke langkah 1.

2.4.3 Pohon Klasifikasi CHAID

Menurut Myers dalam Kunto dan Hasana (2006), diagram pohon CHAID

mengikuti aturan “dari atas ke bawah” (Top-down stopping rule), diagram pohon

disusun mulai dari kelompok induk, berlanjut di bawahnya sub kelompok yang

berturut-turut dari hasil pembagian kelompok induk berdasarkan kriteria tertentu.

Setiap simpul akan berisi keseluruhan sampel dan frekuensi absolut 𝑛𝑖

untuk tiap kategori yang disusun di atasnya. Pada pohon klasifikasi CHAID

terdapat istilah kedalaman yang berarti banyaknya tingkatan simpul-simpul sub

kelompok sampai ke bawah pada simpul sub kelompok yang terakhir. Pada

kedalaman pertama, sampel dibagi oleh 𝑋1 sebagai variabel prediktor terbaik

untuk variabel respon berdasarkan uji khi-kuadrat. Tiap simpul berisi informasi

tentang frekuensi variabel 𝑌, sebagai variabel respon, yang merupakan bagian dari

sub kelompok yang dihasilkan berdasarkan kategori yang disebutkan (𝑋1). Pada

kedalaman ke-2 (simpul 𝑋2 dan 𝑋3) merupakan pembagian dari 𝑋1 (untuk simpul

21

ke-1 dan ke-3). Dengan cara yang sama, sampel selanjutnya dibagi oleh variabel

prediktor yang lain, yaitu 𝑋2 dan 𝑋3 , dan selanjutnya menjadi sub kelompok pada

simpul ke-4, 5, 6, dan 7. Secara umum diagram pohon dari CHAID adalah sebagai

berikut (Lehmann dan Eherler, 2001):

ny = 1

ny = 2

ny = 3

ny = 1, x1 = 3

ny = 2, x1 = 3

ny = 3, x1 = 3

ny = 1, x1 = 2

ny = 2, x1 = 2

ny = 3, x1 = 2

ny = 1, x1 = 1

ny = 2, x1 = 1

ny = 3, x1 = 1

ny = 1, x1 = 1, x2 = 2

ny = 2, x1 = 1, x2 = 2

ny = 3, x1 = 1, x2 = 2

ny = 1, x1 = 1, x2 = 1

ny = 2, x1 = 1, x2 = 1

ny = 3, x1 = 1, x2 = 1

ny = 1, x1 = 3, x3 = 1

ny = 2, x1 = 3, x3 = 1

ny = 3, x1 = 3, x3 = 1

ny = 1, x1 = 3, x3 = 2

ny = 2, x1 = 3, x3 = 2

ny = 3, x1 = 3, x3 = 2

X1

2

1 3

X2

4 5 6 7

X3

Y

Gambar 2.2 Diagram Pohon dalam Analisis CHAID

2.5 Keakuratan dan Kesalahan Klasifikasi

Persentase keakuratan klasifikasi (corret classification) dihitung untuk

menaksir keakuratan klasifikasi secara keseluruhan, yaitu keakuratan klasifikasi

dalam memprediksi kejadian secara keseluruhan yang dinyatakan sebagai nilai

amatan yang secara tepat dapat diprediksi oleh model yaitu 𝑎+𝑑

𝑛 × 100%,

seperti diuraikan dalam Tabel 2.3.

Selain keakuratan klasifikasi, bisa juga diketahui besarnya kesalahan

klasifikasi (misclassification rate). Prediksi rata-rata kesalahan dapat diperoleh

22

dengan cara penggantian kembali (Abdelrahman & Hady, 2010). Hasil persentase

kesalahan klasifikasi penggantian kembali disebut rata-rata kesalahan yang

nampak yaitu 𝑏+𝑐

𝑛 × 100% seperti diuraikan dalam Tabel 2.3.

Keakuratan dan kesalahan klasifikasi dapat diketahui dengan tabel

klasifikasi sebagai berikut:

Tabel 2.3 Hasil Klasifikasi

Amatan Prediksi Total Keakuratan

1 0

1 𝑎 𝑏 𝑎 + 𝑏 = 𝑛1 𝑎

𝑛1

0 𝑐 𝑑 (𝑐 + 𝑑) = 𝑛0 𝑑

𝑛0

Total 𝑎 + 𝑐 = 𝑛1 𝑏 + 𝑑 = 𝑛0 (𝑎 + 𝑏 + 𝑐 + 𝑑) = 𝑛 (𝑎 + 𝑑)

𝑛

Kesalahan 𝑐

𝑛1

𝑏

𝑛0

(𝑏 + 𝑐)

𝑛

2.6 Perbedaan Metode QUEST dan CHAID

Metode QUEST dan CHAID memiliki perbedaan dalam proses

pembentukan pohon klasifikasi. QUEST menentukan penyekatan berdasarkan

analisis diskriminan kuadratik dan hanya membentuk dua cabang untuk setiap

pemisahannya. Sedangkan CHAID menentukan penyekatan berdasarkan uji khi-

kuadrat dan membentuk dua atau lebih cabang untuk setiap pemisahannya.

Pembentukan pohon CHAID akan berhenti ketika tidak ada lagi nilai khi-kuadrat

yang signifikan dari variabel prediktor terhadap variabel respon. Berbeda dengan

CHAID, QUEST akan berhenti ketika salah satu dari aturan penghentian tercapai

atau sampai simpul tidak bisa disekat lagi dengan aturan penghentian

pembentukan pohon.

23

Tabel 2.4 Ciri Metode QUEST dan CHAID

Ciri QUEST CHAID

Tipe variabel respon Kategorik Kategorik

Tipe variabel prediktor Kategorik, numerik Kategorik

Jumlah cabang pohon 2 ≥ 2

Penentuan simpul penyekat Diskriminan kuadratik Uji khi-kuadrat

bab ii tinjauan pustaka - sinta.unud.ac.id ii.pdf · 2.2.3 uji levene f uji ... jika tidak ada...

Documents