bab ii tinjauan pustaka - sinta.unud.ac.id ii.pdf · 2.2.3 uji levene f uji ... jika tidak ada...
TRANSCRIPT
6
BAB II
TINJAUAN PUSTAKA
Bab ini akan membahas pengertian metode klasifikasi berstruktur pohon,
konsep-konsep dasar pada QUEST dan CHAID, algoritma QUEST, algoritma
CHAID, keakuratan dan kesalahan dalam klasifikasi, dan perbedaan antara
QUEST dan CHAID.
2.1 Metode Klasifikasi Berstruktur Pohon
Metode klasifikasi berstruktur pohon merupakan metode statistika yang
digunakan untuk memperkirakan keanggotaan amatan yang diduga dari
pengukuran satu variabel prediktor atau lebih dalam kelas variabel respon
kategorik. Metode ini menghasilkan pohon klasifikasi yang dibentuk melalui
penyekatan secara berulang. Metode klasifikasi berstruktur pohon digunakan
sebagai alternatif apabila beberapa asumsi pada metode parametrik tidak
terpenuhi. Metode ini juga memiliki beberapa kelebihan antara lain mudah untuk
diinterpretasikan karena tampilan berupa diagram pohon, lebih fleksibel serta
mampu memeriksa pengaruh variabel prediktor satu per satu (Lewis, 2000).
2.2 Konsep-Konsep Dasar pada QUEST dan CHAID
Konsep-konsep statistika yang menjadi dasar pada metode QUEST yaitu uji
khi-kuadrat, uji ANOVA F, uji Levene, dan analisis diskriminan kuadtratik.
Metode CHAID menggunakan uji khi-kuadrat dan uji koreksi Bonferroni.
7
2.2.1 Uji khi-kuadrat (𝝌𝟐)
Uji khi-kuadrat (𝜒2) pada dasarnya menyangkut pembuatan tabulasi silang
yang digunakan untuk mengetahui hubungan antara dua variabel kategorik.
Hubungan yang didapatkan tersebut digunakan untuk mengontrol susunan dari
pohon klasifikasi.
Misalkan suatu variabel pertama memiliki 𝑟 kategori dan variabel kedua
memiliki 𝑘 kategori maka 𝑂𝑖𝑗 adalah pengamatan pada variabel pertama di level
𝑖 dan variabel kedua di level 𝑗, secara umum tabel disajikan sebagai berikut.
Tabel 2.1 Struktur Data Uji Khi-kuadrat
Variabel 1 / Variabel 2 1 2 … 𝑘 Total
1 𝑂11 𝑂12 … 𝑂1𝑘 𝑛1.
2 𝑛21 𝑛22 … 𝑂2𝑘 𝑛2.
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝑟 𝑂𝑟1 𝑂𝑟2 … 𝑂𝑟𝑘 𝑛𝑟 .
Total 𝑛.1 𝑛.2 … 𝑛.𝑘 𝑛
Sumber: Usman dan Setiady (2006)
Hipotesis pada pengujian khi-kuadrat adalah:
𝐻0 : Kedua variabel saling bebas
𝐻1 : Kedua variabel tidak saling bebas
Sedangkan statistik ujinya adalah:
𝜒2 = (𝑂𝑖𝑗−𝐸𝑖𝑗 )2
𝐸𝑖𝑗
𝑐𝑗=1
𝑟𝑖=1 dengan 𝐸𝑖𝑗 =
𝑛𝑖 .𝑛 .𝑗
𝑛 (2.1)
dengan 𝐸𝑖𝑗 menyatakan nilai harapan pengamatan pada baris ke-𝑖 dan kolom ke-𝑗,
𝑛𝑖 . menyatakan total banyaknya pengamatan pada baris ke-𝑖, 𝑛.𝑗 menyatakan total
8
banyaknya pengamatan pada baris ke-𝑗, dan 𝑛 menyatakan total banyaknya
responden.
Keputusan yang diambil dari uji khi-kuadrat ini adalah 𝐻0 ditolak jika nilai
𝜒2𝑖𝑡
> 𝜒2𝑡𝑎𝑏𝑒𝑙
atau 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 𝛼.
2.2.2 Uji ANOVA F
Uji ANOVA F digunakan untuk menguji perbedaan rata-rata dari beberapa
kelompok sampel yang saling bebas. Bila 𝜇𝑘 adalah rata-rata dari kelompok ke-k
(k = 1, 2, …, K), maka hipotesis yang digunakan adalah:
H0: 𝜇1 = 𝜇2 = ⋯ = 𝜇𝐾 (tidak ada perbedaan rata-rata antarkelompok)
H1: Minimal ada satu 𝜇𝑘 yang berbeda
Uji yang digunakan adalah uji F yang diperoleh dengan membentuk tabel
ANOVA F seperti tabel di bawah ini:
Tabel 2.2 ANOVA F
Sumber
keragaman
(SK)
Jumlah kuadrat (JK)
Derajat
bebas
(db)
Kuadrat
tengah
(KT)
F hitung
Rata-rata
Kolom (K) JKK=
𝑋𝑘 .2
𝑛𝑘
𝐾𝑘=1 −
𝑋..2
𝑁 K-1 KTK=
𝐽𝐾𝐾
𝐾−1
𝐹 =KTK
KTG
Galat (G) JKG= JKT-JKK N-K KTG=𝐽𝐾𝐺
𝑁−𝐾
Total JKT= 𝑥𝑘𝑖2𝑛𝑘
𝑖=1𝐾𝑘=1 −
𝑋..2
𝑁 N-1
Sumber: Riduwan (2010)
dengan i=1,2,…,nk , k=1,2,…,K. xki menyatakan pengamatan ke-i dari kelompok
ke-k, 𝑁 menyatakan jumlah seluruh data, 𝐾 menyatakan jumlah kelompok, 𝑛𝑘
9
menyatakan ukuran data kelompok ke-k, 𝑋𝑘 menyatakan jumlah pengamatan
kelompok ke-k, dan 𝑋.. menyatakan jumlah pengamatan seluruh data.
Keputusan yang diambil dari uji ANOVA F adalah 𝐻0 ditolak jika nilai
𝐹𝑖𝑡 > 𝐹𝑡𝑎𝑏𝑒𝑙 atau 𝑝_𝑣𝑎𝑙𝑢𝑒 < 𝛼.
2.2.3 Uji Levene F
Uji Levene F digunakan untuk menguji kesamaan ragam variabel dari
beberapa kelompok. Bila σ𝑘 adalah simpangan baku populasi dari kelompok ke-
k, maka hipotesis yang digunakan adalah:
H0: 𝜎12 = 𝜎2
2 = ⋯ = 𝜎𝐾2 , (data homogen)
H1: Minimal ada satu 𝜎𝑘2 yang heterogen
Uji levene F: 𝑤 =(𝑁−𝐾) 𝑁𝑘 (𝑦𝑘 . −𝑦.. )2𝐾
𝑘=1
𝐾−1 (𝑦𝑘𝑖 −𝑦𝑘 . 𝑛𝑘𝑖=1
𝐾𝑘=1 )2
(2.2)
dengan, 𝑦𝑘𝑖 = 𝑥𝑘𝑖 − 𝑥 𝑘 , 𝑥 𝑘 menyatakan rata-rata dari kelompok ke-k,
𝑦𝑘 . menyatakan rata-rata kelompok dari yi, dan 𝑦.. menyatakan rata-rata
menyeluruh dari yki.
Keputusan yang diambil dari uji Levene F adalah 𝐻0 ditolak jika nilai
𝐹𝑖𝑡 > 𝐹𝑡𝑎𝑏𝑒𝑙 atau 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 𝛼.
10
2.2.4 Analisis Diskriminan Kuadratik
Analisis diskriminan merupakan teknik menganalisis data, dimana variabel
respon merupakan variabel kategorik sedangkan variabel prediktor merupakan
variabel numerik (Supranto, 2010). Fungsi diskriminan yang dibangun dengan
asumsi bahwa kelompok-kelompok memiliki matriks ragam peragam yang sama
disebut fungsi diskriminan linear, sedangkan fungsi yang dibangun tanpa asumsi
tersebut disebut fungsi diskriminan kuadratik.
Jika fk(x) adalah fungsi kepekatan peluang bersama dari sampel acak yang
berasal dari kelompok ke-k dan menyebar mengikuti sebaran normal multivariat,
maka menurut Johnson dan Winchern dalam Kurniasari dkk (2014) didapat:
𝑓𝑘 𝑥 = 1
(2𝜋)𝑝
2 | |𝑘1
2 𝑒𝑥𝑝 −
1
2(𝑥 − 𝜇𝑘)𝑡 (𝑥 − 𝜇𝑘)−1
𝑘 ,𝑘 = 1,2,… ,𝐾 (2.3)
dengan, 𝜇𝑘 menyatakan vektor rata-rata kelompok ke-k, ∑k menyatakan matriks
ragam peragam kelompok ke-k, dan p menyatakan banyaknya variabel.
Skor diskriminan kuadratik untuk sebuah pengamat dengan nilai
𝑥 = 𝑥1, 𝑥2,…𝑥𝑝 terhadap kelompok ke-k dan 𝑝𝑘 menyatakan peluang awal dari
kelompok ke-k:
𝑑𝑘𝑄 𝑥 = −
1
2𝑙𝑛| |𝑘 −
1
2(𝑥 − 𝜇𝑘)𝑡 (𝑥 − 𝜇𝑘)−1
𝑘 + 𝑙𝑛 𝑝𝑘 (2.4)
Apabila 𝜇𝑘 dan ∑k tidak diketahui, maka harus dicari taksiran dari 𝜇𝑘 dan
∑k dengan memanfaatkan data sampel yang telah dikelompokkan dengan benar.
Taksiran dari skor diskriminan kuadratik menjadi:
11
𝑑 𝑘𝑄 𝑥 = −
1
2𝑙𝑛 𝑠𝑘 −
1
2(𝑥 − 𝑥 𝑘)𝑡𝑠𝑘
−1(𝑥 − 𝑥 𝑘) + 𝑙𝑛 𝑝𝑘 (2.5)
dengan 𝑠𝑘 menyatakan matriks peragam sampel dari kelompok ke-k dan 𝑥 𝑘
menyatakan vektor rata-rata sampel dari kelompok ke-k (Jin dan An dalam
Kurniasari dkk, 2014).
2.2.5 Koreksi Bonferroni (Bonferroni Correction)
Jika tidak ada pengurangan dari tabel kontingensi asal pada algoritma
CHAID, maka statistik uji khi-kuadrat dapat digunakan untuk uji signifikansi.
Apabila terjadi pengurangan tabel kontingensi, yaitu dari 𝑐 kategori menjadi 𝑟
kategori (𝑟 < 𝑐), maka nilai khi-kuadrat tersebut dikalikan dengan pengganda
Bonferroni sesuai dengan jenis variabelnya. Menurut Gallagher (2000) pengali
Bonferroni untuk masing-masing jenis variabel-variabel prediktor adalah sebagai
berikut:
1. Variabel prediktor monotonik : 𝑀 = 𝑐 − 1𝑟 − 1
(2.6)
2. Variabel prediktor bebas : 𝑀 = −1 𝑖 𝑟−𝑖 𝑐
𝑖! 𝑟−𝑖 !
𝑟−1𝑖=0 (2.7)
3. Variabel prediktor mengambang : 𝑀 = 𝑐 − 2𝑟 − 2
+ 𝑟 𝑐 − 2𝑟 − 1
(2.8)
dengan 𝑐 menyatakan banyaknya kategori variabel prediktor asal, 𝑟 menyatakan
banyaknya kategori variabel prediktor setelah penggabungan.
12
2.3 Metode QUEST (Quick, Unbiased, Efficient Statistical Trees)
QUEST merupakan pengembangan dari FACT (Factor Analysis
Classification Trees) yang memiliki kecepatan komputasi yang tinggi (Loh dan
Shih, 1997) dan suatu metode pohon klasifikasi yang menghasilkan pohon biner.
QUEST merupakan modifikasi dari analisis diskriminan kuadratik. Analisis
diskriminan kuadratik diterapkan pada proses penentuan simpul penyekat.
Apabila variabel penyekat yang dipilih adalah variabel kategorik, maka dilakukan
transformasi ke variabel numerik dan selanjutnya diterapkan analisis diskriminan
kudratik. Komponen dasar QUEST terdiri dari beberapa variabel prediktor
kategorik atau numerik dan variabel respon yang merupakan variabel kategorik.
2.3.1 Algoritma QUEST
Menurut Loh dan Shih (1997), algoritma QUEST dibagi menjadi tiga
bagian yaitu, algoritma pemilihan variabel penyekat, algoritma penentuan simpul
penyekat, dan algoritma penghentian pembentukan pohon.
1. Algoritma Pemilihan Variabel Penyekat
Langkah-langkah algoritma pemilihan variabel penyekat adalah sebagai
berikut (Loh dan Shih, 1997):
a. Untuk setiap variabel prediktor numerik, lakukan uji ANOVA F dan hitung
nilai p-value berdasarkan statistika uji F. Untuk setiap variabel prediktor
kategorik, lakukan uji khi-kuadrat dan hitung nilai p-value berdasarkan
statistika uji khi-kuadrat.
b. Pilih variabel prediktor yang memiliki nilai p-value terkecil.
13
c. Bandingkan nilai p-value terkecil dengan 𝛼/𝑀1, dengan taraf nyata α dan 𝑀1
adalah banyaknya variabel prediktor.
i. Jika nilai p-value kurang dari 𝛼/𝑀1, maka pilih variabel yang besesuaian
sebagai variabel penyekat dan teruskan ke langkah (e).
ii. Jika nilai p-value lebih dari α/M1, maka teruskan ke langkah (d).
d. Untuk setiap variabel prediktor X yang numerik, maka:
i. Hitung nilai p-value dari uji Levene untuk menguji kehomogenan ragam.
ii. Pilih variabel prediktor yang memilik nilai p-value terkecil.
iii. Bandingkan nilai p-value dari uji Levene tersebut dengan
taraf 𝛼 (𝑀1 + 𝑀2) , dengan 𝑀2 adalah banyaknya variabel prediktor
numerik.
iv. Jika p-value kurang dari 𝛼 (𝑀1 + 𝑀2) , maka pilih variabel yang bersesuaian
sebagai variabel penyekat dan teruskan ke langkah (e).
v. Jika p-value lebih dari 𝛼 (𝑀1 + 𝑀2) , maka variabel tersebut tidak dipilih
menjadi variabel penyekat.
e. Misalkan X* adalah variabel penyekat yang diperoleh pada langkah (c) atau
(d), maka langkah selanjutnya menentukan simpul penyekat.
2. Algoritma Penentuan Simpul Penyekat
Setelah terpilih variabel penyekat, langkah selanjutnya adalah menentukan
simpul penyekat. Algoritma penentuan simpul penyekat dijelaskan sebagai
berikut:
14
a. Variabel Prediktor Kategorik
Apabila X*
yang terpilih berupa kategorik dan terdiri lebih dari dua
kategori, maka QUEST akan mentransformasi ke dalam variabel numerik yang
dilambangkan dengan ξ. Selanjutnya QUEST menggunakan algoritma pemilihan
simpul penyekat untuk variabel prediktor numerik pada ξ untuk menentukan
simpul penyekat.
Misalkan X* adalah variabel prediktor kategorik, dengan kategori b1, b2, …,
bL. X* akan ditransformasi menjadi variabel numerik ξ untuk setiap kelas X
*
dengan langkah-langkah sebagai berikut (Loh dan Shih, 1997):
1. Transformasi setiap nilai x dari X* ke dalam vektor dummy L dimensi
𝑣 = (𝑣1, 𝑣2,… , 𝑣𝐿) dengan 𝑣𝑙 = 1, 𝑥 = 𝑏𝑙0, 𝑥 ≠ 𝑏𝑙
, 𝑙 = 1,2,… , 𝐿
2. Cari rata-rata untuk X*
𝑣 = 𝑓𝑙𝑣𝑙𝐿𝑙=1
𝑁𝑡 (2.9)
𝑣 (𝑘) = 𝑛𝑙𝑣𝑙𝐿𝑙=1
𝑁𝑘 ,𝑡 (2.10)
dengan, 𝑣𝑙 menyatakan pengamatan ke-l, 𝑣 menyatakan rata-rata untuk semua
pengamatan pada simpul t, 𝑣 (𝑘) menyatakan rata-rata untuk semua pengamatan
pada simpul t untuk kelompok ke-k, 𝑓𝑙 menyatakan jumlah pengamatan pada
simpul t untuk 𝑣𝑙 , 𝑛𝑙 menyatakan jumlah pengamatan pada simpul t kelompok
ke-k untuk 𝑣𝑙 , 𝑁𝑡 menyatakan jumlah pengamatan pada simpul t, dan 𝑁𝑘 ,𝑡
menyatakan jumlah pengamatan pada simpul t kelompok ke-k.
15
3. Tentukan matriks L x L berikut:
𝐵 = 𝑁𝑘 ,𝑡 𝑣 𝑘 − 𝑣 (𝑣 𝑘 − 𝑣 )𝐾
𝑘=1 ′ (2.11)
𝑇 = 𝑓𝑙 𝑣𝑙 − 𝑣 𝑣𝑙 − 𝑣 ′𝐿𝑙=1 (2.12)
4. Lakukan SVD (singular value decomposition) pada T untuk memperoleh
T=QDQ’, dimana Q adalah matriks orthogonal L x L, D = diag(d1,d2…,dL)
dengan d≥,d2≥…≥dL≥0. Misalkan D-1/2
=diag(d1*,d2
*,…,dL
*), dengan
𝑑𝑙∗ =
𝑑𝑙−1/2
, 𝑗𝑖𝑘𝑎 𝑑𝑙 > 0
0 , 𝑙𝑎𝑖𝑛𝑛𝑦𝑎
5. Lakukan SVD pada 𝐷−12 𝑄′𝐵𝑄𝐷−1
2 untuk memperoleh vektor eigen a yang
berhubungan dengan nilai eigen yang terbesar.
6. Tentukan koordinat diskriminan terbesar dari v, yaitu ξ = 𝑎′𝐷−12 𝑄′𝑣 (2.13)
b. Variabel Prediktor Numerik
Misalkan variabel respon terdiri dari dua kategori dan variabel prediktor X*
yang terpilih berupa variabel numerik. Langkah penentuan variabel prediktor
penyekat sebagai berikut (Loh dan Shih, 1997):
1. Definisikan 𝑥 𝐴 dan 𝑠𝐴2 adalah rata-rata dan ragam X
* dari pengamatan variabel
respon A, sedangkan 𝑥 𝐵 dan 𝑠𝐵2 adalah rata-rata dan ragam X
* dari pengamatan
variabel respon B. Misalkan 𝑃 𝑗 𝑡 =𝑁𝑗 .𝑡
𝑁𝑗 merupakan peluang dari masing-
masing kategori variabel respon, dengan Nj,t adalah jumlah data pada simpul t
untuk respon j dan Nj adalah jumlah data pada simpul awal untuk respon j.
2. Berikan log pada kedua ruas persamaan:
𝑃 𝐴 𝑡 𝑠𝐴−1𝜑
𝑥−𝑥 𝐴
𝑠𝐴 = 𝑃(𝐵|𝑡)𝑠𝐵
−1𝜑 𝑥−𝑥 𝐵
𝑠𝐵 (2.14)
16
untuk memperoleh persamaan kuadrat 𝑎𝑥2 + 𝑏𝑥 + 𝑐 = 0, dengan:
𝑎 = 𝑠𝐴2 − 𝑠𝐵
2 (2.15)
𝑏 = 2(𝑥 𝐴𝑠𝐵2 − 𝑥 𝐵𝑠𝐴
2) (2.16)
𝑐 = (𝑥 𝐵𝑠𝐴 )2 − (𝑥 𝐴𝑠𝐵)2 + 2𝑠𝐴
2𝑠𝐵2𝑙𝑜𝑔
𝑃(𝐴|𝑡)𝑠𝐵
𝑃(𝐵|𝑡)𝑠𝐴 (2.17)
3. Sebuah simpul disekat pada X*= d, dimana d didefinisikan sebagai berikut:
a. Jika 𝑥 𝐴< 𝑥 𝐵 , maka d =𝑥 𝐴
b. Jika a = 0, maka 𝑑 = (𝑥 𝐴+𝑥 𝐵 )
2−
𝑠𝐴2
(𝑥 𝐴+𝑥 𝐵 )log
𝑃(𝐴|𝑡)
𝑃(𝐵|𝑡) , 𝑥 𝐴 ≠ 𝑥 𝐵
𝑥 𝐴 , 𝑥 𝐴 = 𝑥 𝐵
(2.18)
c. Jika a≠0, maka:
i. Jika b2-4ac<0, maka 𝑑 =
(𝑥 𝐴+𝑥 𝐵 )
2 (2.19)
ii. Jika b2-4ac≥0, maka 𝑑 =
−𝑏± 𝑏2−4𝑎𝑐
2𝑎 (2.20)
dimana d adalah akar dari persamaan (2.20) yang lebih mendekati nilai 𝑥 𝐴,
dengan syarat menghasilkan dua simpul tak kosong.
3. Algoritma Penghentian Pembentukan Pohon
Proses pemilihan simpul secara rekursif akan terhenti apabila salah satu dari
aturan penghentian tercapai. Ada empat aturan penghentian pembentukan pohon
yaitu:
a. Jika simpul penyekat menjadi murni yaitu apabila semua kasus masuk ke
dalam salah satu kategori variabel respon.
b. Jika semua kasus yang terdapat di dalam simpul memiliki nilai-nilai identik
untuk tiap variabel prediktor.
17
c. Jika kedalaman pohon sudah mencapai kedalaman pohon maksimum yang
ditetapkan.
d. Jika banyaknya kasus yang masuk ke dalam simpul sudah mencapai jumlah
minimum yang ditetapkan.
2.3.2 Pohon Klasifikasi QUEST
QUEST menerapkan modifikasi analisis diskriminan kuadratik rekursif
untuk mendapatkan simpul penyekat. Pada saat pembentukan pohon, QUEST
menyeleksi variabel serta memilih simpul penyekat secara terpisah.
Gambar 2.1 Diagram Pohon dalam Analisis QUEST
Pada Gambar 2.1, struktur pohon QUEST memiliki satu simpul akar yang
dinyatakan dengan 𝑡1 yang mengandung semua gugus (simpul) data. Pertama-
pertama, 𝑡1disekat menjadi dua anak simpul kemudian diperiksa kembali secara
terpisah dan dibagi lagi, demikian seterusnya sampai tercapai kriteria berhenti
anak simpul yang tidak dapat disekat lagi yang disebut simpul akhir. Simpul akhir
dilambangkan dengan kotak yaitu pada 𝑡4, 𝑡6 , 𝑡8 , 𝑡10 , 𝑡11 , 𝑡12 , dan 𝑡13 . Simpul
t9
t5 t7
t10 t11
t6 t4
t8
t13 t12
t1
t2
t3
18
dalam adalah simpul yang bisa disekat menjadi simpul anak, karena masih bisa
disekat simpul ini dilambangkan dengan lingkaran yaitu pada 𝑡2, 𝑡3 , 𝑡5 , 𝑡7, dan 𝑡9.
2.4 Metode CHAID (Chi-Squared Automatic Interaction Detection)
CHAID merupakan bagian dari teknik terdahulu yang dikenal dengan AID
(Automatic Interaction Detection) yang digunakan untuk variabel respon
kategorik dan suatu metode pohon klasifikasi yang menghasilkan pohon non
biner (Kass, 1980).
Didalam Kunto dan Hasana (2006), metode CHAID akan membagi data ke
dalam kelompok–kelompok melalui beberapa tahapan. Tahapan pertama adalah
membagi data menjadi beberapa kelompok berdasarkan satu variabel prediktor
yang pengaruhnya paling signifikan terhadap variabel respon. Variabel prediktor
yang signifikan ditentukan dengan khi-kuadrat. Setelah mendapatkan pembagian
kelompok–kelompok tersebut, periksa kelompok-kelompok tersebut secara
terpisah untuk membagi lagi menjadi beberapa kelompok yang lebih kecil
berdasarkan variabel prediktor yang lain. Hal tersebut dilakukan sampai tidak
ditemukan lagi variabel–variabel prediktor yang signifikan secara statistik.
Pembangunan CHAID akan dihentikan ketika tidak ada lagi nilai khi-kuadrat
yang signifikan dari variabel prediktor terhadap variabel responnya (Wilkinson,
1992).
2.4.1 Variabel CHAID
Menurut Gallagher (2000), CHAID akan membedakan variabel-variabel
prediktor kategorik menjadi tiga bentuk yang berbeda, yaitu:
19
1. Monotonik, yaitu variabel prediktor yang kategorinya dapat dikombinasikan
atau digabungkan oleh CHAID hanya jika keduanya berdekatan satu sama
lain, yaitu variabel-variabel yang kategorinya mengikuti urutan aslinya (data
ordinal).
2. Bebas, yaitu variabel prediktor yang kategorinya dapat dikombinasikan atau
digabungkan ketika keduanya berdekatan atau tidak satu sama lain (data
nominal).
3. Mengambang, yaitu variabel prediktor yang kategori didalamnya dapat
diperlakukan seperti monotonik kecuali untuk kategori yang missing value,
yang dapat berkombinasi dengan kategori manapun.
2.4.2 Algoritma CHAID
Menurut Kass (1980) algoritma CHAID secara lengkap yaitu sebagai
berikut:
1. Untuk setiap variabel prediktor, buat tabulasi silang kategori-kategori variabel
prediktor dengan kategori-kategori variabel respon.
2. Untuk setiap tabulasi silang yang diperoleh (susun subtabel yang berukuran
2 × 𝑑 yang mungkin, 𝑑 adalah banyaknya kategori variabel respon) cari
pasangan kategori variabel prediktor yang memiliki angka uji paling kecil. Jika
angka uji tidak mencapai nilai kritis, gabungkan kedua kategori tersebut
menjadi satu kategori campuran. Ulangi langkah ini sampai angka uji kategori
campuran melampaui nilai kritis.
3. Untuk setiap kategori gabungan yang terbentuk dari 3 atau lebih kategori asal,
temukan pemisahan biner yang memiliki angka uji yang paling besar
20
(pemisahan berdasarkan tipe variabel prediktor). Jika angka uji ini lebih besar
dari nilai kritis, buatlah pemisahan tersebut dan kembali ke langkah 2 di atas.
4. Untuk setiap tabulasi silang variabel prediktor yang telah digabungkan secara
optimal, pilih yang memiliki angka uji paling besar. Jika angka uji ini lebih
besar dari nilai kritis, bagilah data menurut kategori–kategori yang telah
digabungkan dari variabel prediktor yang telah dipilih. Pada tahap ini apabila
terjadi pengurangan tabel kontingensi dari tabel asal maka gunakan uji koreksi
Bonferoni dan jika tidak maka lakukan uji khi-kuadrat untuk uji signifikansi.
5. Untuk setiap pembagian data yang belum dianalisis, kembali ke langkah 1.
2.4.3 Pohon Klasifikasi CHAID
Menurut Myers dalam Kunto dan Hasana (2006), diagram pohon CHAID
mengikuti aturan “dari atas ke bawah” (Top-down stopping rule), diagram pohon
disusun mulai dari kelompok induk, berlanjut di bawahnya sub kelompok yang
berturut-turut dari hasil pembagian kelompok induk berdasarkan kriteria tertentu.
Setiap simpul akan berisi keseluruhan sampel dan frekuensi absolut 𝑛𝑖
untuk tiap kategori yang disusun di atasnya. Pada pohon klasifikasi CHAID
terdapat istilah kedalaman yang berarti banyaknya tingkatan simpul-simpul sub
kelompok sampai ke bawah pada simpul sub kelompok yang terakhir. Pada
kedalaman pertama, sampel dibagi oleh 𝑋1 sebagai variabel prediktor terbaik
untuk variabel respon berdasarkan uji khi-kuadrat. Tiap simpul berisi informasi
tentang frekuensi variabel 𝑌, sebagai variabel respon, yang merupakan bagian dari
sub kelompok yang dihasilkan berdasarkan kategori yang disebutkan (𝑋1). Pada
kedalaman ke-2 (simpul 𝑋2 dan 𝑋3) merupakan pembagian dari 𝑋1 (untuk simpul
21
ke-1 dan ke-3). Dengan cara yang sama, sampel selanjutnya dibagi oleh variabel
prediktor yang lain, yaitu 𝑋2 dan 𝑋3 , dan selanjutnya menjadi sub kelompok pada
simpul ke-4, 5, 6, dan 7. Secara umum diagram pohon dari CHAID adalah sebagai
berikut (Lehmann dan Eherler, 2001):
ny = 1
ny = 2
ny = 3
ny = 1, x1 = 3
ny = 2, x1 = 3
ny = 3, x1 = 3
ny = 1, x1 = 2
ny = 2, x1 = 2
ny = 3, x1 = 2
ny = 1, x1 = 1
ny = 2, x1 = 1
ny = 3, x1 = 1
ny = 1, x1 = 1, x2 = 2
ny = 2, x1 = 1, x2 = 2
ny = 3, x1 = 1, x2 = 2
ny = 1, x1 = 1, x2 = 1
ny = 2, x1 = 1, x2 = 1
ny = 3, x1 = 1, x2 = 1
ny = 1, x1 = 3, x3 = 1
ny = 2, x1 = 3, x3 = 1
ny = 3, x1 = 3, x3 = 1
ny = 1, x1 = 3, x3 = 2
ny = 2, x1 = 3, x3 = 2
ny = 3, x1 = 3, x3 = 2
X1
2
1 3
X2
4 5 6 7
X3
Y
Gambar 2.2 Diagram Pohon dalam Analisis CHAID
2.5 Keakuratan dan Kesalahan Klasifikasi
Persentase keakuratan klasifikasi (corret classification) dihitung untuk
menaksir keakuratan klasifikasi secara keseluruhan, yaitu keakuratan klasifikasi
dalam memprediksi kejadian secara keseluruhan yang dinyatakan sebagai nilai
amatan yang secara tepat dapat diprediksi oleh model yaitu 𝑎+𝑑
𝑛 × 100%,
seperti diuraikan dalam Tabel 2.3.
Selain keakuratan klasifikasi, bisa juga diketahui besarnya kesalahan
klasifikasi (misclassification rate). Prediksi rata-rata kesalahan dapat diperoleh
22
dengan cara penggantian kembali (Abdelrahman & Hady, 2010). Hasil persentase
kesalahan klasifikasi penggantian kembali disebut rata-rata kesalahan yang
nampak yaitu 𝑏+𝑐
𝑛 × 100% seperti diuraikan dalam Tabel 2.3.
Keakuratan dan kesalahan klasifikasi dapat diketahui dengan tabel
klasifikasi sebagai berikut:
Tabel 2.3 Hasil Klasifikasi
Amatan Prediksi Total Keakuratan
1 0
1 𝑎 𝑏 𝑎 + 𝑏 = 𝑛1 𝑎
𝑛1
0 𝑐 𝑑 (𝑐 + 𝑑) = 𝑛0 𝑑
𝑛0
Total 𝑎 + 𝑐 = 𝑛1 𝑏 + 𝑑 = 𝑛0 (𝑎 + 𝑏 + 𝑐 + 𝑑) = 𝑛 (𝑎 + 𝑑)
𝑛
Kesalahan 𝑐
𝑛1
𝑏
𝑛0
(𝑏 + 𝑐)
𝑛
2.6 Perbedaan Metode QUEST dan CHAID
Metode QUEST dan CHAID memiliki perbedaan dalam proses
pembentukan pohon klasifikasi. QUEST menentukan penyekatan berdasarkan
analisis diskriminan kuadratik dan hanya membentuk dua cabang untuk setiap
pemisahannya. Sedangkan CHAID menentukan penyekatan berdasarkan uji khi-
kuadrat dan membentuk dua atau lebih cabang untuk setiap pemisahannya.
Pembentukan pohon CHAID akan berhenti ketika tidak ada lagi nilai khi-kuadrat
yang signifikan dari variabel prediktor terhadap variabel respon. Berbeda dengan
CHAID, QUEST akan berhenti ketika salah satu dari aturan penghentian tercapai
atau sampai simpul tidak bisa disekat lagi dengan aturan penghentian
pembentukan pohon.
23
Tabel 2.4 Ciri Metode QUEST dan CHAID
Ciri QUEST CHAID
Tipe variabel respon Kategorik Kategorik
Tipe variabel prediktor Kategorik, numerik Kategorik
Jumlah cabang pohon 2 ≥ 2
Penentuan simpul penyekat Diskriminan kuadratik Uji khi-kuadrat