metode ensemble pada cart untuk perbaikan klasifikasi

6
1 Abstrak— CART (Classification and Regression Tree) merupakan salah satu metode klasifikasi nonparametrik yang populer digunakan di berbagai bidang. Metode tersebut dinilai mampu menghadapi berbagai kondisi data. Guna memperbaiki prediksi dari pohon klasifikasi CART, dikembangkan metode ensemble yang mengkombinasikan banyak pohon klasifikasi untuk menentukan prediksi klasifikasi. Dua metode ensemble yang terlebih dahulu populer adalah Bagging (bootstrap aggregating) dan Boosting sedangkan yang dikembangkan terbaru adalah Random Forest. Pada penelitian ini, ingin dibandingkan kinerja ketiga metode ensemble tersebut dalam memperbaiki akurasi klasifikasi dari CART. Sedangkan kasus yang digunakan dalam penelitian ini adalah klasifikasi kemiskinan di Kabupaten Jombang pada tingkatan rumah tangga. Data sampel keseluruhan berjumlah 1971 rumah tangga dengan kelas miskin dan sangat miskin dimana jumlah antara rumah tangga miskin dan rumah tangga sangat miskin tidak berimbang (imbalanced). Data sampel rumah tangga miskin berjumlah 1353 sedangkan data sampel rumah tangga sangat miskin berjumlah 618 dengan perbandingan 2,19:1. Hasil analisis menunjukkan bahwa akurasi semua metode klasifikasi bagus untuk kelas rumah tangga miskin. Namun, akurasi klasifikasi kelas sangat miskin oleh pohon klasifikasi CART bernilai sangat rendah yaitu 5,02%, sedangkan semua metode ensemble memberikan akurasi yang lebih baik. Akurasi Bagging CART dalam prediksi kelas sangat miskin sebesar 19,26%, Boosting CART 75,89%, dan yang terbaik adalah Random Forest yaitu 94,66%. Adapun berdasarkan kecepatan akurasi klasifikasi metode ensemble untuk mencapai konvergen, Bagging CART merupakan metode terbaik. Kata KunciCART, Ensemble, Bagging, Boosting, Random Forest, klasifikasi, kemiskinan I. PENDAHULUAN ART (Classification And Regression Trees) merupakan salah satu metode klasifikasi nonparametrik berupa pohon keputusan. Metode ini telah digunakan dalam penyelesaian masalah di berbagai bidang seperti bidang kesehatan, marketing, sosial, finansial, dan lain sebagainya. Metode ini mampu menghadapi berbagai kondisi data dimana beberapa kelebihannya ialah mampu mengeksplorasi data berdimensi tinggi dengan komputasi yang efisien, dapat digunakan pada kombinasi data kontinu maupun kategorik, serta interpretasi yang mudah dilakukan [1]. Ensemble merupakan metode dengan ide melakukan kombinasi dari banyak classifier tunggal dimana hasil prediksi masing-masing classifier digabungkan menjadi prediksi akhir melalui proses voting mayoritas. Metode ensemble dikem- bangkan untuk meningkatkan akurasi prediksi klasifikasi [2]. Penelitian sebelumnya menunjukkan bahwa metode ensemble seringkali menghasilkan prediksi yang lebih akurat diban- dingkan dengan classifier tunggal. Pada penelitian ini dila- kukan analisis mengenai identifikasi penentuan status rumah tangga miskin dengan pohon klasifikasi CART serta analisis metode ensemble dengan CART sebagai classifier pada kasus klasifikasi rumah tangga miskin di Kabupaten Jombang. Bagging (bootstrap aggregating) dan Boosting merupakan metode ensemble yang relatif baru namun telah menjadi populer. Bagging dikembangkan oleh Breiman pada Tahun 1996 sedangkan Boosting dikembangkan Freund dan Schapire pada tahun yang sama. Jika dibandingkan dengan pohon klasifikasi tunggal, prediksi Bagging hampir selalu lebih akurat namun kadang tidak lebih akurat dibanding Boosting. Sedangkan pada Boosting, walaupun kadang lebih akurat dibanding Bagging, namun bisa juga kurang akurat diban- dingkan pohon klasifikasi tunggal. Performa Boosting sangat tergantung pada karakteristik data sehingga akurasi klasifikasi sangat bervariasi [3]. Salah satu metode ensemble yang terbaru ialah Random Forest yang dikembangkan dari proses Bagging. Random Forest pertama kali dikenalkan oleh Breiman pada Tahun 2003. Kelebihan ensemble ini ialah lebih cepat dalam proses iterasi komputasi [4] dan [5]. Berbagai penelitian tentang kemiskinan dan kesejahteraan di Indonesia telah banyak dilakukan. [6] melakukan penelitian mengenai ukuran kesejahteraan keluarga untuk penargetan kemiskinan di beberapa daerah. Kesimpulan penelitian tersebut menunjukkan bahwa ukuran kesejahteraan keluarga berbeda- beda untuk tiap daerah. Sedangkan penelitian mengenai klasifikasi kemiskinan dengan metode ensemble pernah dilakukan oleh [7] dan [8]. [7] melakukan penelitian tentang klasifikasi kesejahteraan rumah tangga di Provinsi Jawa Tengah dengan metode CART sebagai classifier yang disim-pulkan bahwa karakteristik utama rumah tangga miskin ialah pekerjaan di bidang pertanian, rendahnya pendidikan, serta banyaknya anggota rumah tangga dengan akurasi klasifikasi CART sebesar 66,4%. Metode ensemble Arcing yang dilakukan dapat meningkatkan akurasi klasifikasi sebesar 12,7% menjadi Metode Ensemble pada CART untuk Perbaikan Klasifikasi Kemiskinan di Kabupaten Jombang Muhammad Jamal Muttaqin, Bambang W. Otok, dan Santi Puteri Rahayu Jurusan Statistika, Fakultas MIPA, Institut Teknologi Sepuluh Nopember (ITS) Jl. Arief Rahman Hakim, Surabaya 60111 E-mail: [email protected] ; [email protected] ; [email protected] C

Upload: others

Post on 03-Nov-2021

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Metode Ensemble pada CART untuk Perbaikan Klasifikasi

1

Abstrak— CART (Classification and Regression Tree) merupakan salah satu metode klasifikasi nonparametrik yang populer digunakan di berbagai bidang. Metode tersebut dinilai mampu menghadapi berbagai kondisi data. Guna memperbaiki prediksi dari pohon klasifikasi CART, dikembangkan metode ensemble yang mengkombinasikan banyak pohon klasifikasi untuk menentukan prediksi klasifikasi. Dua metode ensemble yang terlebih dahulu populer adalah Bagging (bootstrap aggregating) dan Boosting sedangkan yang dikembangkan terbaru adalah Random Forest. Pada penelitian ini, ingin dibandingkan kinerja ketiga metode ensemble tersebut dalam memperbaiki akurasi klasifikasi dari CART. Sedangkan kasus yang digunakan dalam penelitian ini adalah klasifikasi kemiskinan di Kabupaten Jombang pada tingkatan rumah tangga. Data sampel keseluruhan berjumlah 1971 rumah tangga dengan kelas miskin dan sangat miskin dimana jumlah antara rumah tangga miskin dan rumah tangga sangat miskin tidak berimbang (imbalanced). Data sampel rumah tangga miskin berjumlah 1353 sedangkan data sampel rumah tangga sangat miskin berjumlah 618 dengan perbandingan 2,19:1. Hasil analisis menunjukkan bahwa akurasi semua metode klasifikasi bagus untuk kelas rumah tangga miskin. Namun, akurasi klasifikasi kelas sangat miskin oleh pohon klasifikasi CART bernilai sangat rendah yaitu 5,02%, sedangkan semua metode ensemble memberikan akurasi yang lebih baik. Akurasi Bagging CART dalam prediksi kelas sangat miskin sebesar 19,26%, Boosting CART 75,89%, dan yang terbaik adalah Random Forest yaitu 94,66%. Adapun berdasarkan kecepatan akurasi klasifikasi metode ensemble untuk mencapai konvergen, Bagging CART merupakan metode terbaik.

Kata Kunci— CART, Ensemble, Bagging, Boosting,

Random Forest, klasifikasi, kemiskinan

I. PENDAHULUAN ART (Classification And Regression Trees) merupakan salah satu metode klasifikasi nonparametrik berupa pohon keputusan. Metode ini telah digunakan dalam penyelesaian

masalah di berbagai bidang seperti bidang kesehatan, marketing, sosial, finansial, dan lain sebagainya. Metode ini mampu menghadapi berbagai kondisi data dimana beberapa kelebihannya ialah mampu mengeksplorasi data berdimensi tinggi dengan komputasi yang efisien, dapat digunakan pada kombinasi data kontinu maupun kategorik, serta interpretasi yang mudah dilakukan [1].

Ensemble merupakan metode dengan ide melakukan kombinasi dari banyak classifier tunggal dimana hasil prediksi masing-masing classifier digabungkan menjadi prediksi akhir melalui proses voting mayoritas. Metode ensemble dikem-bangkan untuk meningkatkan akurasi prediksi klasifikasi [2]. Penelitian sebelumnya menunjukkan bahwa metode ensemble seringkali menghasilkan prediksi yang lebih akurat diban-dingkan dengan classifier tunggal. Pada penelitian ini dila-kukan analisis mengenai identifikasi penentuan status rumah tangga miskin dengan pohon klasifikasi CART serta analisis metode ensemble dengan CART sebagai classifier pada kasus klasifikasi rumah tangga miskin di Kabupaten Jombang.

Bagging (bootstrap aggregating) dan Boosting merupakan metode ensemble yang relatif baru namun telah menjadi populer. Bagging dikembangkan oleh Breiman pada Tahun 1996 sedangkan Boosting dikembangkan Freund dan Schapire pada tahun yang sama. Jika dibandingkan dengan pohon klasifikasi tunggal, prediksi Bagging hampir selalu lebih akurat namun kadang tidak lebih akurat dibanding Boosting. Sedangkan pada Boosting, walaupun kadang lebih akurat dibanding Bagging, namun bisa juga kurang akurat diban-dingkan pohon klasifikasi tunggal. Performa Boosting sangat tergantung pada karakteristik data sehingga akurasi klasifikasi sangat bervariasi [3]. Salah satu metode ensemble yang terbaru ialah Random Forest yang dikembangkan dari proses Bagging. Random Forest pertama kali dikenalkan oleh Breiman pada Tahun 2003. Kelebihan ensemble ini ialah lebih cepat dalam proses iterasi komputasi [4] dan [5]. Berbagai penelitian tentang kemiskinan dan kesejahteraan di Indonesia telah banyak dilakukan. [6] melakukan penelitian mengenai ukuran kesejahteraan keluarga untuk penargetan kemiskinan di beberapa daerah. Kesimpulan penelitian tersebut menunjukkan bahwa ukuran kesejahteraan keluarga berbeda-beda untuk tiap daerah. Sedangkan penelitian mengenai klasifikasi kemiskinan dengan metode ensemble pernah dilakukan oleh [7] dan [8]. [7] melakukan penelitian tentang klasifikasi kesejahteraan rumah tangga di Provinsi Jawa Tengah dengan metode CART sebagai classifier yang disim-pulkan bahwa karakteristik utama rumah tangga miskin ialah pekerjaan di bidang pertanian, rendahnya pendidikan, serta banyaknya anggota rumah tangga dengan akurasi klasifikasi CART sebesar 66,4%. Metode ensemble Arcing yang dilakukan dapat meningkatkan akurasi klasifikasi sebesar 12,7% menjadi

Metode Ensemble pada CART untuk Perbaikan Klasifikasi Kemiskinan

di Kabupaten Jombang

Muhammad Jamal Muttaqin, Bambang W. Otok, dan Santi Puteri Rahayu Jurusan Statistika, Fakultas MIPA, Institut Teknologi Sepuluh Nopember (ITS)

Jl. Arief Rahman Hakim, Surabaya 60111 E-mail: [email protected]; [email protected]; [email protected]

C

Page 2: Metode Ensemble pada CART untuk Perbaikan Klasifikasi

2

79,1%. Sedangkan [8] melakukan klasifikasi kemiskinan di Provinsi Jawa Timur dengan Boosting MARS yang disim-pulkan bahwa karakteristik yang menentukan daerah miskin ialah penggunaan jamban, rata-rata lama sekolah, sektor pekerjaan, dan angka melek huruf suatu daerah. Metode ensemble Boosting yang dilakukan dapat meningkatkan akurasi MARS yang semula sebesar 89,47% menjadi 97,37%. Pada penelitian ini, dilakukan penerapan CART pada status kemiskinan rumah tangga di Kabupaten Jombang. Selain itu, dilakukan juga analisis ensemble Bagging CART, Boosting CART, dan Random Forest untuk dibandingkan metode mana yang memiliki kinerja paling baik.

II. TINJAUAN PUSTAKA

A. Classification and Regression Trees (CART) CART merupakan salah satu metode Machine Learning

yang dikembangkan oleh [9]. Metode pohon keputusan ini merupakan teknik klasifikasi dengan algoritma penyekatan rekursif biner dimana pemilahan dilakukan pada sekelompok data yang terkumpul dalam suatu ruang yang disebut simpul menjadi dua simpul anak. Setiap simpul anak kemudian dapat dipilah kembali menjadi dua simpul anak lagi, dan begitu seterusnya sampai memenuhi kriteria tertentu. Pemilah simpul ditentukan berdasarkan kriteria variabel yang paling mampu memilah sedemikian hingga simpul anak menjadi lebih homogen dibanding simpul awal.

Kriteria pemilahan terbaik diukur dari Indeks Gini dimana formulanya dituliskan sebagai berikut:

, 1( ) ( | ) ( | ) ,

i ji t p j t p i t i j

=−

= ≠∑

dimana p(j|t) ialah proporsi kelas j pada simpul t dan p(i|t) ialah proporsi kelas i pada simpul t.

Evaluasi pemilahan digunakan goodness of split φ(s,t) dari pemilah s pada simpul t didefinisikan sebagai penurunan heterogenitas:

( , ) ( ) ( ) ( )L L R Rs t i t p i t p i tφ = − − dimana i(t) = fungsi heterogenitas pada simpul t pL = proporsi pengamatan simpul kiri pR = proporsi pengamatan menuju simpul kanan i(tL) = fungsi heterogenitas pada simpul anak kiri i(tR) = fungsi heterogenitas pada simpul anak kanan. Pemilah yang menghasilkan φ(s,t) lebih tinggi merupakan pemilah terbaik karena mereduksi heterogenitas lebih tinggi. B. Metode Ensemble

Metode ensemble dikembangkan dengan harapan dapat meningkatkan akurasi klasifikasi dari sebuah classifier tunggal. Ide dasarnya adalah dengan menggunakan banyak classifier dari metode yang sama dan kemudian meng-kombinasikannya melalui proses voting untuk memperoleh dugaan klasifikasi akhir [2].

C. Bagging Bagging merupakan akronim dari Bootstrap Aggregatting

yang dikenalkan oleh [10] dengan tujuan mereduksi varians

prediktor. Ide dasar metode ensemble ini adalah menggunakan resampling acak dengan pengembalian pada dataset awal sehingga diperoleh dataset baru untuk membangkitkan pohon klasifikasi dengan banyak versi yang kemudian dikombinasikan untuk memperoleh prediksi akhir. Kombinasi banyak versi pohon klasifikasi diharapkan dapat memperbaiki akurasi klasifikasi dari pohon klasifikasi tunggal.

Gambar 1. Ilustrasi Bagging CART

D. Boosting Boosting merupakan sebuah keluarga ensemble yang

meliputi banyak algoritma, dimana AdaBoost merupakan salah satu yang paling populer. Boosting secara umum berfokus untuk membuat sebuah deret pohon klasifikasi. Dataset yang digunakan pada setiap pohon klasifikasi bergantung pada pohon klasifikasi sebelumnya dan fokus pada data yang salah diprediksi. Data yang salah diprediksi akan diperbaiki terus menerus oleh pohon klasifikasi - pohon klasifikasi selanjutnya. [11] menyatakan bahwa Boosting merupakan salah satu metode ensemble yang paling baik. Berikut merupakan algoritma AdaBoost.M1 untuk klasifikasi biner:

Input: Dataset D = {(x1, y1), (x2, y2), ..., (xm, ym)}

Algoritma Base Learning L; Jumlah replikasi R;

Proses: (i) Inisialisasi bobot sampel data D1(i) = 1/m (ii) Untuk r = 1, ..., R:

a. Lakukan prediksi hr untuk dataset D yang telah diboboti Dr : hr = L(D, Dr)

b. Hitung bobot Dr dari data yang salah diklasifikasikan εr c. Hitung bobot voting

d. Perbaharui bobot sampel data

1

( ) exp( ) , ( )( )

( ) exp( ) , ( )

rr r i i

rr

rr r i i

r

D i h x yZ

D iD i h x y

Z

α

α+

× − == × ≠

dimana Zr merupakan faktor normalisasi agar

11

( ) 1m

ri

D i+=

=∑

(iii) selesai Output: Voting prediksi klasifikasi akhir:

( )1( ) ( )R

r rrH x sign h xα

== ∑

Ilustrasi AdaBoost.M1 ditunjukkan pada Gambar 2 sebagai berikut:

Dataset 1

Dataset 2

Dataset R

CART 1

CART 2

CART R

Prediksi 1

Prediksi 2

Prediksi R

Voting

⋮ ⋮ ⋮

11 ln2r

rr

εαε

−=

Page 3: Metode Ensemble pada CART untuk Perbaikan Klasifikasi

3

Gambar 2. Boosting CART

E. Random Forest [12] menyatakan bahwa Random Forest dikembangkan

dengan ide bahwa perlu ada penambahan layer dari proses resampling acak pada Bagging. Selain data sampel yang diambil secara acak untuk membentuk pohon klasifikasi, pada Random Forest variabel prediktor juga diambil sebagian secara acak dan baru dipilih sebagai pemilah terbaik saat penentuan pemilah pohon. Berikut merupakan ilustrasi Random Forest.

Gambar 3. Random Forest

F. Konsep Kemiskinan Kemiskinan menurut BPS adalah ketidakmampuan untuk

memenuhi standar minimum kebutuhan dasar, baik makanan maupun bukan makanan [13]. Inti dari model pengukuran versi BPS adalah membandingkan tingkat konsumsi penduduk baik makanan maupun nonmakanan dengan garis kemiskinan yaitu jumlah rupiah untuk konsumsi per orang per bulan.

[14] menjelaskan indikator kemiskinan yang digunakan BPS ada 14 variabel yaitu luas bangunan tempat tinggal, jenis lantai, jenis dinding, fasilitas Buang Air Besar, sumber air minum, sumber penerangan, jenis bahan bakar untuk memasak, frekuensi makan sehari, kemampuan membeli daging/ayam/ susu dalam seminggu, kemampuan membeli pakaian baru bagi setiap ART, kemampuan berobat ke puskesmas/poliklinik, lapangan pekerjaan kepala rumat tangga, pendidikan kepala rumah tangga, dan kepemilikan asset.

Pada penelitian-penelitian yang telah dilakukan, [15] mengungkapkan bahwa sebagian besar rumah tangga miskin tinggal di desa, bekerja di sektor pertanian, sifat pekerjaan adalah informal serta status pekerjaan sebagai pekerja keluarga yang tidak di bayar. Sedangkan [7] dalam penelitiannya menunjukkan bahwa faktor yang paling mempengaruhi kemiskinan adalah lapangan usaha kepala rumah tangga, pendidikan kepala rumah tangga, dan jumlah anggota rumah tangga.

III. METODOLOGI PENELITIAN Data yang digunakan dalam penelitian ini adalah data

sekunder. Data diperoleh dari hasil Survey Verifikasi Rumah Tangga Miskin Kabupaten Jombang Tahun 2010. Survey tersebut dirancang oleh Badan Perencanaan Pembangunan (Bappeda) Kabupaten Jombang untuk mengumpulkan data berkaitan tentang karakteristik rumah tangga miskin di kabupaten tersebut.

Data sampel keseluruhan berjumlah 1971 dimana jumlah antara rumah tangga miskin dan rumah tangga sangat miskin tidak berimbang (imbalanced). Data sampel rumah tangga miskin berjumlah 1353 sedangkan data sampel rumah tangga sangat miskin berjumlah 618 dimana perbandingannya 2,19 : 1. Tabel 1 merupakan variabel yang digunakan pada penelitian ini.

Tabel 1: Variabel Penelitian

Variabel Definisi Operasional Keterangan

y Status kemiskinan rumah tangga 1: rumah tangga sangat miskin -1: rumah tangga miskin

x1 Status penguasaan bangunan tempat tinggal

a: milik sendiri c: bebas sewa b: kontrak/sewa d: rumah dinas e: rumah milik orangtua/saudara

x2 Luas kavling termasuk bangunan (m2) - x3 Luas lantai (m2) - x4 Jenis atap terluas a: beton b: genteng c: kayu sirap d: seng e: asbes f: ijuk/rumbia x5 Jenis dinding terluas a: tembok c: bambu b: kayu d: lainnya

x6 Jenis lantai terluas a: keramik/marmer/granit c: semen/bata merah e: bambu g: lainnya b: ubin/tegel/teraso d: kayu/papan f: tanah

x7 Tempat buang air besar (jamban) a: milik sendiri b: milik bersama c: umum d: tidak ada

x8 Tempat pembuangan air tinja a: septictank c: sungai/waduk e: tanah lapang/kebun b: kolam/sawah d: lubang tanah f: lainnya

x9 Sumber penerangan utama a: listrik PLN meteran c: listrik non PLN b: listrik PLN bukan meteran (menumpang, dsb.) d: bukan listrik

x10 Sumber air minum a: air dalam kemasan c: pompa e: mata air g: lainnya b: ledeng d: sumur f: air sungai

x11 Bahan bakar memasak a: listrik c: minyak tanah e: kayu bakar b: gas/elpiji d: arang kayu/tempurung f: lainnya

x12 Pengobatan a: RS/puskesmas/pustu c: praktik paramedic e: lainnya b: praktik dokter d: praktik pengobatan tradisional

x13 Ijazah terakhir kepala keluarga a: tidak punya b: SD/setara c: SLTP/setara d: SLTA/setara e: perguruan tinggi x14 Penghasilan tiap bulan (Rp) -

Dataset 1

Dataset 2

Dataset R

CART 1

CART 2

CART R

Prediksi 1

Prediksi 2

Prediksi R

Voting

⋮ ⋮ ⋮

Dataset 1

Dataset 2

Dataset R

CART 1 (prediktor acak)

CART 2 (prediktor acak)

CART R (prediktor acak)

Prediksi 1

Prediksi 2

Prediksi R

Voting

⋮ ⋮ ⋮

Page 4: Metode Ensemble pada CART untuk Perbaikan Klasifikasi

4

Sebelum dilakukan analisis, terlebih dahulu dilakukan pre-processing data. Data missing berskala nominal dan ordinal akan diisi dengan nilai modus sedangkan data missing berskala rasio akan diisi dengan nilai mean. Pada analisis ensemble, replikasi yang dilakukan ialah sebanyak 20 kali.

Analisis dilakukan dengan membandingkan kinerja klasifikasi Bagging CART, Boosting CART, dan Random Forest. Perbandingan akurasi klasifikasi dilakukan berdasarkan 1-APER 20 replikasi, sensitivity, specificity, G-means, dan luas AUC. 1-APER menunjukkan akurasi klasifikasi kese-luruhan. Sensitivity menunjukkan akurasi klasifikasi untuk kelas sangat miskin sedangkan specificity menunjukkan akurasi klasifikasi untuk kelas miskin. Akurasi prediksi juga dapat diukur dari nilai G-means dimana biasa digunakan untuk mengukur permasalahan data imbalanced dengan formula sebagai berikut.

G-means = sensitivity specificity× Keseimbangan akurasi prediksi untuk tiap kelas juga dapat

diukur dengan menghitung luasan di bawah kurva ROC. Adapun kurva ROC merupakan kurva yang menggambarkan koordinat antara sensitivity dan 1-specificity. Sedangkan perbandingan kecepatan akurasi klasifikasi untuk mencapai konvergen digunakan standar deviasi 1-APER. Statistik Press’s Q juga digunakan untuk menguji signifikansi prediksi klasifikasi yang dibandingkan dengan nilai kritis yang diperoleh dari distribusi Chi-Square derajat bebas 1 pada tingkat signifikansi 0,01.

IV. HASIL DAN PEMBAHASAN

Output CART yang berupa pohon keputusan setelah diterapkan pada klasifikasi kemiskinan di Kabupaten Jombang ditunjukkan pada Gambar 4. Berdasarkan pohon klasifikasi tersebut diketahui bahwa dari 14 variabel, variabel yang digunakan sebagai pemilah pohon klasifikasi CART dan paling menentukan status kemiskinan rumah tangga secara berurutan adalah penghasilan kepala rumah tangga tiap bulan (x14), luas lantai bangunan tempat tinggal (x3), luas kavling termasuk bangunan (x2), dan sumber air minum (x10).

|x14< 2.125e+05

x3>=4.5

x10=abdefg

x3>=13.5

x14< 8.75e+05

x2< 49

miskin432/141

miskin770/363

miskin130/74

sangat3/9

sangat4/11

miskin14/9

sanga0/11

Gambar 4. Pohon Klasifikasi Kemiskinan

Berdasarkan Gambar 4, kriteria rumah tangga miskin

terbagi menjadi 4 simpul dengan karakteristik sebagai berikut:

1. Kepala rumah tangga memiliki penghasilan per-bulan kurang dari Rp 212.500.

2. Kepala rumah tangga memiliki penghasilan per-bulan lebih dari Rp 212.500; luas lantai bangunan tempat tinggal lebih dari atau sama dengan 4,5m2; sumber air minum selain pompa.

3. Kepala rumah tangga memiliki penghasilan per-bulan antara Rp 212.500 sampai Rp 875.000; luas lantai bangunan tempat tinggal lebih dari atau sama dengan 13,5m2; sumber air minum pompa.

4. Kepala rumah tangga memiliki penghasilan per-bulan lebih dari Rp 212.500; luas lantai bangunan tempat tinggal kurang dari 4,5m2; luas kavling termasuk bangunan kurang dari 49m2.

Sedangkan kriteria rumah tangga sangat miskin terbagi menjadi 3 simpul dengan karakteristik sebagai berikut: 1. Kepala rumah tangga memiliki penghasilan per-bulan lebih

dari Rp 875.000; luas lantai bangunan tempat tinggal lebih dari atau sama dengan 13,5m2; sumber air minum pompa.

2. Kepala rumah tangga memiliki penghasilan per-bulan lebih dari Rp 212.500; luas lantai bangunan tempat tinggal antara 4,5m2

sampai 13,5m2; sumber air minum pompa. 3. Kepala rumah tangga memiliki penghasilan per-bulan lebih

dari Rp 212.500; luas lantai bangunan tempat tinggal kurang dari 4,5m2; luas kavling termasuk bangunan lebih dari 49m2.

Hasil perhitungan klasifikasi menunjukkan bahwa 1-APER pohon klasifikasi CART bernilai 0,6986 atau dengan kata lain, data sampel yang tepat diklasifikasikan secara keseluruhan sebanyak 69,86%. Lebih detil, akurasi klasifikasi perlu diperhatikan untuk tiap kelas, mengingat data yang digunakan bersifat imbalanced. Sensitivity pohon klasifikasi CART bernilai 0,0502 yang artinya hanya 5,02% data sampel rumah tangga sangat miskin tepat diklasifikasikan sangat miskin. Adapun specificity bernilai 0,9948 yang artinya sebanyak 99,48% rumah tangga miskin tepat diklasifikasikan miskin.

Hasil akurasi klasifikasi tersebut menunjukkan bahwa CART hanya bagus dalam mengklasifikasikan rumah tangga miskin. Sedangkan akurasi klasifikasi untuk kelas rumah tangga sangat miskin sangat rendah. Selanjutnya, metode ensemble digunakan untuk memperbaiki akurasi klasifikasi CART.

Tabel 2. Ukuran Kinerja Metode Klasifikasi Akurasi CART Bagging Boosting Random Forest

1-APER 0,6986* 0,7438* (0,014)

0,9006* (0,069)

0,9812* (0,039)

Sensitivity 0,0502 0,1926 0,7589 0,9466

Specificity 0,9948 0,9956 0,9653 0,9970

G-Means 0,2234 0,4378 0,8559 0,9715

Luas AUC 0,568 0,872 0,967 0,999

Keterangan:* Statistik Press’s Q signifikan ( ) Standar deviasi

Tabel 2 menunjukkan bahwa secara umum, metode ensem-ble dengan 20 pohon klasifikasi memiliki nilai 1-APER lebih besar dibanding CART. Hal tersebut berarti bahwa metode ensemble mampu meningkatkan akurasi klasifikasi CART

Page 5: Metode Ensemble pada CART untuk Perbaikan Klasifikasi

5

secara umum. Sedangkan akurasi metode ensemble juga lebih baik dalam memprediksi kelas sangat miskin yang tampak dari nilai sensitivity yang lebih besar. Metode ensemble yang paling baik dalam prediksi kelas sangat miskin ialah Random Forest dimana sensitivity bernilai 0,9466 atau tepat memprediksi kelas sangat miskin sebesar 94,66%, jauh lebih baik dari akurasi pohon klasifikasi CART.

Keseimbangan akurasi prediksi untuk tiap kelas dapat diukur dari nilai G-means. Aspek ini perlu diperhitungkan karena metode klasifikasi cenderung baik dalam memprediksi kelas dengan data sampel yang lebih banyak namun buruk dalam memprediksi kelas dengan data sampel sedikit. Berdasarkan Tabel 2 nampak bahwa pohon klasifikasi CART memiliki G-means bernilai 0,2234. Sedangkan semua metode ensemble dengan 20 pohon klasifikasi memiliki nilai G-means yang lebih besar dibanding CART yang artinya akurasi prediksi metode ensemble cenderung lebih seimbang dalam melakukan prediksi di tiap kelas. Adapun metode ensemble yang paling baik dalam memprediksi data sampel dilihat dari G-means ialah Random Forest dimana nilai G-means sebesar 0,9715.

Gambar 5. Kurva ROC Metode Klasifikasi

Kemampuan metode klasifikasi dalam melakukan prediksi pada data imbalanced juga dapat diketahui dari luasan di bawah kurva ROC (AUC). Semakin luas AUC, maka semakin baik metode klasifikasi dalam melakukan prediksi data imbalanced. Berdasarkan Tabel 2 dapat diketahui bahwa Luas AUC pohon klasifikasi CART sebesar 0,568. Adapun semua metode ensemble dengan 20 pohon klasifikasi yang diteliti memiliki luas AUC yang lebih besar. Sedangkan Random Forest merupakan metode ensemble yang memiliki luas AUC terbesar yaitu 0,999. Artinya, Random Forest lebih baik dalam memprediksi data imbalanced dimana lebih mampu untuk memprediksi kelas baik untuk kelas dengan data sampel banyak maupun sedikit.

Kecepatan akurasi prediksi untuk mencapai konvergen diukur dari standar deviasi 1-APER. Ukuran ini merupakan indikator berapa pohon yang dibutuhkan untuk mencapai akurasi klasifikasi yang konvergen. Semakin kecil standar deviasi 1-APER, maka semakin cepat mencapai akurasi yang konvergen atau semakin sedikit pohon klasifikasi yang di-butuhkan untuk mencapai akurasi yang konvergen. Berda-

sarkan stabilitas akurasi prediksi, Bagging CART merupakan metode ensemble terbaik. Bagging CART memiliki standar deviasi 1-APER paling kecil yaitu sebesar 0,014. Artinya, Bagging CART lebih cepat mencapai akurasi prediksi yang konvergen atau membutuhkan jumlah pohon klasifikasi yang lebih sedikit untuk mencapai akurasi yang konvergen. Hal ini diperkuat dari Gambar 6. Pada gambar, nampak bahwa akurasi Bagging CART telah mencapai konvergen dengan 6 pohon klasifikasi, sedangkan Random Forest baru mencapai kovergen pada jumlah pohon 14 dan Boosting CART baru mencapai konvergen dengan 15 pohon klasifikasi.

20151050

1.00

0.95

0.90

0.85

0.80

0.75

0.70

Jumlah Pohon1

-AP

ER

BaggingBoostingRF

Ensemble

Gambar 6. 1-APER Metode Ensemble

V. KESIMPULAN

Penerapan pohon klasifikasi CART untuk klasifikasi rumah tangga miskin di Kabupaten Jombang menunjukkan bahwa variabel yang digunakan sebagai pemilah pohon klasifikasi CART dan paling menentukan status kemiskinan rumah tangga secara berurutan adalah penghasilan kepala rumah tangga tiap bulan (x14), luas lantai bangunan tempat tinggal (x3), luas kavling termasuk bangunan (x2), dan sumber air minum (x10). Berkaitan dengan akurasi klasifikasi, data sampel yang tepat diklasifikasikan secara keseluruhan sebesar 69,86%. Namun, akurasi prediksi pohon klasifikasi CART untuk kelas sangat miskin hanya sebesar 5,02%.

Secara umum, metode ensemble menghasilkan akurasi klasifikasi yang lebih baik dibandingkan dengan pohon klasifikasi CART. Bagging CART mampu meningkatkan 1-APER pohon klasifikasi CART sebesar 4,52%, Boosting CART sebesar 20,19%, dan Random Forest sebesar 28,26%. Adapun untuk peningkatan akurasi pada kelas sangat miskin yang ditunjukkan oleh nilai sensitivity, Bagging CART mampu meningkatkan akurasi 14,24%, Boosting CART 70,87%, dan Random Forest 89,64%.

Dibandingkan dengan metode ensemble lain, Random Forest lebih baik dalam akurasi prediksi klasifikasi dilihat dari 1-APER, sensitivity, specificity, G-means, dan luas AUC. Berkaitan dengan stabilitas akurasi prediksi, metode ensemble terbaik adalah Bagging CART yang artinya lebih cepat mencapai akurasi konvergen atau paling sedikit memerlukan pohon klasifikasi untuk mencapai akurasi prediksi yang konvergen.

Page 6: Metode Ensemble pada CART untuk Perbaikan Klasifikasi

6

DAFTAR PUSTAKA

[1] Timofeev, (2004). Classification And Regression Trees (CART) Theory and Applications. Thesis Ph.D. Humboldt University, Berlin.

[2] Wezel, M.V. dan Potharst, R., (2007). Improved Customer Choice Predictions using Ensemble Methods. European Journal of Operational Research, Vol. 181, hal.436-452.

[3] Opitz, D. dan Maclin, R., (1999). Popular Ensemble Methods: An Empirical Study. Journal of Artificial Intelligence Research, Vol. 11, hal. 169-198.

[4] Chan, J.C.W. dan Paelinckx, D. (2008), “Evaluation of Random Forest and Adaboost Tree-based Ensemble Classification and Spectral Band Selection for Ecotope Mapping using Airborne Hyperspectral Imagery”, Remote Sensing of Environment, Vol. 112, hal. 2999-3011.

[5] Gislason, P.O., Benediktsson, J.A., dan Sveinsson, J.R. (2006), “Random Forest for Land Cover Classification”, Pattern Recognition Letters, Vol. 27, hal. 294-300.

[6] Suryadarma, D., Akhmad, H., dan Nina, T., (2005). Ukuran Obyektif Kesejahteraan Keluarga untuk Penargetan Kemiskinan: Hasil Uji Coba Sistem Pemantauan Kesejahteraan oleh Masyarakat di Indonesia. SMERU, Jakarta.

[7] Aeni, E.Q., (2009). Pendekatan CART Arcing untuk Klasifikasi Kesejahteraan Rumah Tangga di Propinsi Jawa Tengah. Tesis Magister. Institut Teknologi Sepuluh Nopember, Surabaya.

[8] Permatasari, E.O., (2013). Pendekatan Boosting Multivariate Adaptive Regression Spline (MARS) untuk Klasifikasi Kemiskinan di Propinsi Jawa Timur. Tesis Magister. Institut Teknologi Sepuluh Nopember, Surabaya.

[9] Breiman, L., Friedman, J., Olshen, R., dan Stone, C., (1993). Classification and Regression Trees. Chapman Hall, New York - London.

[10] Breiman, L., (1994). Bagging Predictors, Technical Report No. 241. University of California, California.

[11] Cao, D.S, Xu, Q.S., Liang, Y.Z, Zhang, L.X, dan Li, H.D., (2010). The Boosting: A New Idea of Building Models. Chemometrics and Intelligent Laboratory Systems, Vol. 100, hal. 1-11.

[12] Liaw, A. dan Wiener, M. (2002), “Classification and Regression by Random Forest”, R News, Vol. 2, hal.18-22.

[13] Cahyat, A. (2004), “Bagaimana Kemiskinan diukur? Beberapa Model Penghitungan Kemiskinan di Indonesia”, Governance Brief CIFOR, No.2, hal.1-8.

[14] Kementrian Komunikasi dan Informatika RI. (2011), Program Penanggulangan Kemiskinan Kabinet Indonesia Bersatu II. Kementrian Komunikasi dan Informatika RI Direktorat Jenderal Informasi dan Komunikasi Publik.

[15] Rusastra, I.W. dan Napitupulu, T.A., (2007). Karakteristik Wilayah dan Keluarga Miskin di Pedesaan: Basis Perumusan dan Intervensi Kebijakan. Pusat Analisis Sosial Ekonomi Pertanian, Bogor.