pohon regresi
Post on 26-Jun-2015
553 Views
Preview:
TRANSCRIPT
REGRESI POHON
Nama : Budi Haryanto
NRP/Mayor : G151090121/STK
DEPARTEMAN STATISTIKA
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR
2009
1
POHON REGRESI
LATAR BELAKANG
Analisis regresi digunakan untuk melihat hubungan antara peubah respon dengan peubah-peubah
penjelasnya. Hubungan ini dinyatakan dalam suatu model, baik linear maupun non linear. Metode
kuadrat terkecil merupakan metode yang paling sering digunakan dalam penyusunan model
regresi. Metode kuadrat terkecil ini memberikan kemudahan perhitungan, tetapi tidak semua
permasalahan regresi dapat diselesaikan oleh metode kuadrat terkecil. Banyak asumsi yang harus
terpenuhi untuk memberikan landasan keyakinan atas kesimpulan-kesimpulan yang ditarik
berdasarkan metode tersebut.
Masalah pelanggaran asumsi pada metode regresi linear yang bertumpu pada asumsi-asumsi
melahirkan metode lain yang bertujuan sama seperti regresi yaitu untuk menjelaskan hubungan
antara peubah respon dengan peubah-peubah penjelasnya. Salah satu di antaranya adalah metode
pohon regresi (regression trees method).
Guna memenuhi asumsi-asumsi yang menjadi dasar bagi analisis regresi kemudian menimulkan
masalah berikutnya pada metode regresi linear yaitu masalah penginterpretasian. Sebuah model
regresi linear dengan penelusuran yang ekstensif terhadap asumsi-asumsinya melahirkan model
yang terlalu rumit untuk diinterpretasikan. Sebagai contoh, hasil analisis regresi dengan metode
kuadrat terkecil menghasilkan model sebagai berikut.
2
1 2 3 4 5 6 7
2
8 9 10 11 12 13
14
log log log
63 logb
MV a a RM a AGE a DIS a RAD a TAX a P T
a B a LSTAT a TAX a ZN a INDUS a CHAS
a NOX
(Harrison dan Rubinfield dalam Breiman et. al., 1993)
Model di atas sulit untuk diinterpretasikan, bahkan untuk memperoleh nilai dugaan apabila
diberikan nilai-nilai tertentu pada peubah penjelas juga tidak mudah.
TUJUAN
Pada dasarnya metode regresi berusaha untuk menjelaskan keragaman yang ada pada peubah
respon berdasarkan keragaman pada peubah penjelas. Berangkat dari hal tersebut, model dengan
pendekatan regresi pohon akan membagi dua peubah penjelas berdasarkan peubah bebas yang
akan memaksimalkan penjelasan keragaman peubah bebas berdasarkan peubah penjelas. Regresi
2
pohon dimulai dengan mengelompokkan peubah respon berdasarkan peubah penjelasnya ke
dalam dua kelompok yang paling terpisah secara rekursif sehingga peubah respon menjadi mudah
untuk diinterpretasikan. Jadi tujuan dari regresi pohon adalah sebagai alat untuk membagi peubah
respon ke dalam kelompok-kelompok yang terbentuk oleh nilai-nilai pada peubah bebas sehingga
dapat memberikan penjelasan secara lebih mudah untuk diinterpretasikan.
METODE BERSTRUKTUR POHON
Metode berstruktur pohon telah digunakan di berbagai riset dalam beberapa tahun terakhir
terutama dibidang terapan. Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan Charles J.
Stone sekitar tahun 1980-an dalam buku Breiman et al.(1993) mengusulkan suatu algoritma baru
untuk penyusunan pohon yaitu Classification and Regression Tree (CART).
CART adalah salah satu metode atau algoritma dari salah satu teknik eksplorasi data yaitu teknik
pohon keputusan. CART merupakan metodologi statistik nonparametrik yang dikembangkan untuk
topik analisis klasifikasi, baik untuk peubah respon kategorik maupun kontinu. Dalam
penggunaannya, CART menghasilkan suatu pohon klasifikasi jika peubah responnya kategorik, dan
menghasilkan pohon regresi jika peubah responnya kontinu.
Tujuan utama CART adalah untuk melihat hubungan antara peubah respon dengan peubah
penjelas melalui pengelompokkan berdasar peubah penjelas. Struktur pohon pada metode ini
diperoleh melalui suatu algoritma penyekatan rekursif terhadap ruang penjelas X. Metode
penyekatan tersebut dimulai dengan menyekat peubah penjelas menjadi dua anak gugus yang
disebut simpul (node). Selanjutnya anak gugus ini disekat lagi menjadi dua anak gugus yang baru.
Penyekatan ini diulang sampai diperoleh sekatan-sekatan yang berdasarkan aturan tertentu tidak
dapat disekat lebih lanjut. Sekatan akhir yang dihasilkan disebut simpul akhir (terminal node),
sedangkan sekatan yang masih mungkin disekat lebih lanjut dinamakan simpul dalam (non terminal
node). Hasil dari proses penyekatan ini dipresentasikan dalam suatu struktur pohon seperti pada
Gambar 1 berikut.
3
Gambar 1. Diagram Pohon (Breiman et.al, 1993)
Pada Gambar 1 di atas memperlihatkan hasil proses penyekatan yang direpresentasikan dalam
struktur pohon. Struktur pohon ini memiliki simpul akar 1t yang mengandung semua gugus data.
Beberapa simpul dalam yang dilambangkan dengan lingkaran ( 1t dan 2t ) dan simpul akhir yang
dilambangkan dengan persegi ( 3 4 5, , dan t t t ). Pada simpul dalam, diberikan pertanyaan untuk
melakukan pemisahan. ”Apakah anggota 1t tidak lebih dari ?” kemudian masing-masing
dikelompokkan ke dalam 2 3 dan t t . Begitu selanjutnya hingga mencapai simpul akhir. Pada simpul
akhir diberikan ringkasan statistik bagi peubah respon.
METODE POHON REGRESI
Sebagaimana pada regresi parametrik, yang berusaha mencari hubungan peubah respon dengan
peubah-peubah penjelasnya, begitu pula dengan pohon regresi. Peubah penjelas yang
merupakanpeubah yang berpengaruh dalam metode regresi biasa juga akan merupakan peubah
penjelas yang berpengaruh dalam pohon regresi. Pada pohon regresi, peubah yang menentukan
pemilahan (splitting) merupakan peubah yang berpengaruh. Pemilahan tersebut akan
memperlihatkan perbedaan dugaan terhadap peubah respon. Karakteristik dari pohon regresi
dijabarkan sebagai berikut:
Ada sebanyak p peubah penjelas 1 , , pX X dan ada satu peubah respon
Peubah penjelas bersifat kategorik atau kontinu
1t
3t
2t
Ya
Ya
Tidak
Tidak
Node/Simpul
Simpul-cabang
Simpul Akhir
?1 x
?2 x
4t 5t
4y t 5y t
Simpul Akhir
6y t
4
Peubah respon bersifat kontinu
Membutuhkan jumlah sampel yang relatif besar
Analisis exploratory dan confirmatory
Pada proses pembentukan pohon regresi, komponen yang diperlukan adalah (Breiman et.al,
1993):
1. Aturan penyekatan yang akan menyekat amatan masuk ke dalam sub ruang tertentu.
2. Memilih penyekatan terbaik dengan mengevaluasi hasil sekatan yang terbentuk dengan
,s t sebagai alat evaluasi bagi penyekatan s pada simpul t
3. Kriteria Pemangkasan Pohon (Prunning) yaitu ukuran yang digunakan untuk menentukan
ukuran pohon yang layak (right sized tree).
4. Statistik yang digunakan sebagai ringkasan dari tiap simpul akhir sebagai pendugaan
terhadap peubah respon
Berikut ini adalah ilustrasi dari sebuah pohon regresi.
Gambar 2. Pohon regresi mengenai hubungan antara harga mobil dengan kekuatan (horsepower)
dan panjang mobil (wheelbase) tahun 1993, dengan harga mobil yang sudah
distandardisasi sehingga nilai rata-rata keseluruhannya adalah nol. (Shalizi: 2006)
Gambar 2 mengilustrasikan penggunaan metode pohon regresi dalam menjelaskan hubungan
antara harga mobil (yang terstandardisasi) dengan kekuatan dan panjang mobil. Gambar sebelah
kiri adalah pohon regresi yang terbentuk. Gambar sebelah kanan adalah representasi geometris
atas pemilahan yang terjadi. Pohon regresi tersebut memperlihatkan bahwa harga mobil terbagi ke
5
dalam 6 sekatan. Nilai-nilai dugaan atas harga (price) ada pada tiap-tiap sekatan. Pohon regresi
juga memperlihatkan adanya faktor interaksi dari kedua peubah penjelas yaitu pada kekuatan di
bawah 0.6 sedangkan pada kekuatan di atas 0.6 jarak roda sudah tidak memberikan pengaruh
(dugaan terhadap harga hanya dipengaruhi oleh kekuatan saja).
ATURAN PENYEKATAN
Pohon regresi dibentuk dari penyekatan data pada tiap simpul ke dalam dua simpul anak.
Aturannya adalah sebagai berikut:
1. Tiap penyekatan tergantung pada nilai yang hanya berasal dari satu peubah penjelas.
2. Apabila jX peubah kontinu, penyekatan yang diperbolehkan berasal dari pertanyaan
”apakah jX c ?” untuk c dan c adalah nilai tengah antara dua nilai amatan peubah
jX yang berurutan yang berbeda. Jadi jika jX mempunyai n nilai yang berbeda maka akan
terdapat sebanyak-banyaknya n-1 macam penyekatan.
3. Untuk peubah penjelas kategorik, penyekatan yang terjadi berasal dari semua
kemungkinan penyekatan berdasarkan terbentuknya dua anak gugus yang saling lepas
(disjoint). Jika peubah jX merupakan peubah kategorik nominal dengan L kategori, maka
akan ada 2L-1-1 penyekatan yang mungkin, sedangakan jika berupa peubah kategorik
ordinal, maka akan ada L-1 penyekatan yang mungkin.
Proses Penyekatan (growing tree) dan Pemilihan Penyekatan Terbaik
Pohon regresi dibentuk dengan penyekatan yang rekursif berdasarkan kriteria tertentu
sebagaimana tertera dalam aturan penyekatan. Penyekatan dilakukan pada seluruh penyekatan
yang mungkin dilakukan. “Penyekatan terbaik” adalah penyekatan yang memaksimumkan ukuran
kehomogenan di dalam masing-masing simpul anak relatif terhadap simpul induknya dan yang
memaksimumkan ukuran penyekatan (separation) antara dua simpul anak tersebut.
Jumlah kuadrat sisaan (JKS) digunakan sebagai kriteria kehomogenan di dalam masing-masing
simpul. Misalkan simpul t berisi anak contoh nn YX , , dengan n t adalah banyaknya amatan
dalam simpul t dan rataan respon dalam simpul t adalah
tx
n
n
Ytn
tY1
(1)
maka jumlah kuadrat sisaan di dalam simpul t adalah:
6
2)(
tx
ti
n
tYYtJKS (2)
Dimana i tY = nilai individu peubah respon pada simpul ke-t
)(ty = nilai tengah peubah respon pada simpul ke-t
Misalkan ada penyekatan s yang menyekat t menjadi simpul anak kiri Lt dan simpul anak kanan Rt
. Ukuran kehomogenan ditentukan dengan fungsi:.
RL tJKStJKStJKSts , (3)
dan penyekat terbaik s adalah:
tsts
s,max,*
(4)
Dengan Ω adalah gugus yang berisi semua kemungkinan penyekatan.
Pohon regresi dibentuk melalui penyekatan simpul secara rekursif yang memaksimumkan fungsi
di atas. Penyekatan tersebut dihentikan jika banyaknya amatan dalam simpul tersebut berjumlah
“tertentu” atau pada saat nilai lebih kecil dari suatu nilai ambang (treshold). Pemilihan aturan
penghentian ini tentu saja akan berpengaruh pada ukuran pohon akhir yang terbentuk. Breiman
et.al (1993) menetapkan banyaknya amatan pada simpul akhir kurang atau sama dengan 5
sedangkan menurut Schmoor et al. (1993), menetapkan banyaknya amatan kurang dari 25 amatan
(dalam Kudus: 1999).
Penyekatan terbaik pada sebuah simpul adalah penyekat pada peubah X yang paling mampu
memisahkan nilai reson yang besar dan kecil pada dua simpul yang berbeda. Pada setiap simpul
dalam t, salah satu dari
PENENTUAN UKURAN POHON
Prinsip dasar metode pohon regresi adalah:
1. Tumbuhkan pohon hingga semaksimal mungkin. Buat pohon hingga berhenti pada setiap
terminal akhir
a. Memiliki jumlah anggota ( )n t n tertentu yang disyaratkan (Breiman memberikan
batasan 5).
7
b. Setiap amatan yang merupakan anggota dari terminal akhir sebisa mungkin
”sama”, sehomogen mungkin.
2. Setelah pohon yang maksimal terbentuk, susun pohon bersarang, pangkas bagian-bagian
tertentu guna mengurangi kompleksitas pohon regresi yang terbentuk.
Prinsip dasar tersebut analog dengan pencarian model terbaik pada analisis regresi biasa. Makin
banyak peubah penjelas yang masuk akan semakin meningkatkan koefisien determinasi, tetapi
menjumlahkan peubah secara terus-menerus sebanyak-banyaknya bukanlah hal yang dimau dalam
penyusunan model regresi.
Pohon yang besar dengan tingkat kedalaman yang panjang akan memberikan kesulitan bagi
penginterpretasian model. Pohon yang besar bisa menimbulkan dugaan adanya overfitting.
Sebaliknya kasus underfitting terjadi karena tidak adanya penyekatan lebih lanjut akibat adanya
tetapan ambang ts ,* , padahal sebenarnya penyekatan yang terjadi adalah layak. Cara
mengatasi masalah ini adalah mencari ukuran pohon yang layak dengan dilakukan pemangkasan
(prunning).
Proses pemangkasan terhadap pohon yang terbentuk dilakukan berdasarkan ukuran biaya
kompleksitas (Breiman et al. 1993). Dimisalkan suatu pohon yang berukuran besar yaitu maxG akan
dipangkas menjadi pohon yang lebih kecil. Untuk sembarang G yang merupakan subpohon dari
maxG , didefinisikan ukuran biaya kompleksitas
R G R G G (5)
Dengan G adalah gugus simpul akhir pada subpohon G dan G adalah banyaknya anggota dari G
dan merupakan ukuran kompleksitas subpohon G. Parameter kompleksitas 0 dapat dipandang
sebagai biaya yang harus dikeluarkan bagi suatu simpul akhir pada subpohon G. R G
didefinisikan sebagai
g G
R G R g
(6)
dimana R g adalah jumlah kuadrat sisaan pada suatu simpul akhir g . Dalam prosesnya
pemangkasan dilakukan terhadap suatu 1G , yaitu pohon terkecil yang memenuhi kondisi:
max 1R G R G (7)
8
Guna menemukan 1G dari maxG dilakukan evaluasi terhadap semua Lg dan Rg yang merupakan
simpul anak kiri dan anak kanan dari simpul g yang diperoleh dari penyekatan simpul maxg G .
Jumlah kuadrat sisaan dari suatu simpul induk g akan selalu lebih besar atau sama dengan total
jumlah kuadrat sisaan dari kedua simpul anak yang dihasilkannya L RR g R g R g . Bila
diperoleh nilai L RR g R g R g , maka pemangkasan dilakukan pada kedua simpul anak.
Pemangkasan pohon ini akan memotong jalur terlemah (weakest-link). Untuk sembarang gG yang
merupakan anak cabang dari 1G , didefinsikan
g
gg G
R G R g
(8)
dengan gG adalah gugus simpul akhir dari gG
Untuk sembarang simpul dalam g dari pohon 1G berlaku sifat gR g R G dan ukuran biaya
kompleksitas dari g didenisikan sebagai
R g R g (9)
Ukuran biaya kompleksitas dari subpohon gG adalah
g g gR G R G G .
(10)
Ukuran biaya kompleksitas suatu simpul g akan bernilai sama dengan ukuran kompleksitas pada
subpohon gG bila
1
g
g
R g R G
G
(11)
Untuk setiap 1g G , didefinisikan suatu fungsi 1h g sebagai berikut
9
1
;1
;
g
g
R g R Gg G
h g G
g G
(12)
Jalur terlemah dalam 1G dinotasikan dengan 1g adalah simpul yang memenuhi kriteria:
1
1 1 1ming G
h g h g
(13)
Sedangkan nilai parameter kompleksitas 2 dihitung sebagai berikut
2 1 1h g
(14)
Selanjutnya dibentuk pohon baru dengan cara memangkas cabang baru dari simpul 1g dan pohon
baru ini dinamakan 2G . Jadi pohon 2G diperoleh dengan cara:
12 1 gG G G dimana 1gG adalah cabang atau sub-pohon yang simpul utamanya adalah 1g ,
dengan demikian 2G adalah pohon yang memenuhi kriteria biaya kompleksitas minimum dengan
parameter kompleksitas 2 .
Selanjutnya dilakukan lagi pemangkasan pada sub pohon berikutnya, 2G dengan prosedur yang
sama sehingga akhirnya diperoleh deretan pohon yang tersarang dan makin kecil, yaitu
1 2 1, , ,G G g di mana 1 2 1G G g dan deretan dalam urutan yang meningkat;
1 2 10; dan seterusnya.
Langkah terakhir adalah pemilihan pohon terbaik dari deret pohon yang terbentuk. Dalam
pemilihan pohon terbaik ini, digunakan sebagai suatu penduga yang dinamakan penduga jujur bagi
R G . Ada dua penduga jujur bagi R G , yaitu penduga uji contoh uji tsR G dan penduga
validasi silang CVR G . Penduga contoh uji diperoleh dengan membagi secara acak amatan
10
menjadi dua bagian, yaitu learning sample 1L dan test sample 2L . Melalui proses pemangkasan
dibentuk deretan pohon dari 1L sedangkan 2L digunakan untuk membentuk tsR G yang
didefinisikan sebagai
2
2
,2
1ˆ
i i
tsi i
x y L
R G y y xn
(15)
Dengan 2n adalah ukuran dari test sampel 2L dan ˆk iy x adalah dugaan respon dari amatan ke-i
pada simpul ke-k.
Pohon terbaik adalah 0kG yang memenuhi
0 mints tsk k
kR G R G
(16)
Untuk membentuk cross validation estimate RCV(T) dengan V-fold amatan induk L yang
berukuran n dibagi secara acak menjadi V kelompok, yakni L1, L2,...,LV yang berukuran sama.
Learning sample ke-v adalah L-v=L-LV, v=1,2,...,V yang digunakan untuk membentuk sekuen pohon
Tk dan sekuen parameter complexity k . Jika terdapat v sekuen Tk dan v sekuen k .
Kemudian gunakan amatan induk L untuk membentuk sekuen Tk dan k . Definisikan
1
'
kkk . Jika n
v
k xy ˆ adalah dugaan respon dari amatan ke–n pada pohon yang
bersesuaian dengan '
k yang dibentuk oleh Leaning sample ke-v, maka
V
v Lyx
n
v
knk
CV
vnn
xyyn
TR1 ,
2ˆ
1
(17)
Pohon terbaik adalah Gk0, yang memenuhi kriteria:
11
0 minCV CVk k
kR G R G
(18)
cross validation estimate dengan 10-fold, menghasilkan resubstitution estimate yang paling kecil
(Breiman et al., 1993).
PENENTUAN NILAI DUGAAN RESPON PADA SETIAP SIMPUL AKHIR.
Nilai dugaan respon pada masing-masing kelompok pengamatan yang dihasilkan adalah rataan
responnya.
Beberapa informasi yang dapat kita peroleh dari pohon regresi antara lain:
Mengetahui peubah penjelas(predictor) mana yang berpengaruh terhadap peubah respon
Mengetahui apakah data memiliki interaksi atau tidak
Dalam analisis ragam (ANOVA) interaksi terjadi jika respon suatu faktor(peubah) berubah pola
(tidak paralel) dari kondisi tertentu ke kondisi yang lain untuk faktor yang lain. Namun dalam
pohon regresi interaksi ditemui dengan beberapa indikasi, antara lain:
Cabang dari node yang sama memiliki peubah penyekat yang berbeda
Respon yang dihasilkan tidak memiliki kesimpulan yang sama
Gambar berikut mengilustrasikan bentuk pohon yang menunjukkan adanya interaksi dan
pohon tanpa interaksi. Pada pohon A terlihat peubah-peubah penyekat disebelah kiri maupun
kanan node adalah sama. Sedangkan pada pohon B, peubah-peubah yang menjadi penyekat
disebelah kiri dan sebelah kanan berbeda.
KESTABILAN POHON REGRESI
Kestabilan pohon yang terbentuk memiliki arti yang sangat penting (Breiman, et al. 1993). Pohon
klasifikasi yang stabil memberikan infornasi yang konsisten tentang hasil pengelompokkan amatan,
12
meskipun jumlah amatannya direduksi. Untuk menyelidiki kestabilan dari sebuah pohon, dilakukan
tahapan sebagai berikut:
1. Membagi seluruh amatan menjadi dua kelompok amatan dengan jumlah yang sama.
Kelompok amatan pertama disebut building set sedangkan kelompok kedua disebut
validating set.
2. Kedua pohon regresi yang terbentuk berdasarkan building set dan validating set
diperbandingkan pada seluruh amatan.
CONTOH PENGGUNAAN
Sebagai ilustrasi penggunaan pohon regresi, diberikan data mengenai nilai kriminalitas (crimerate)
di beberapa kota (contoh data dari file bostonhousing.sta). Contoh penggunaan pohon regresi ini
menggunakan bantuan paket Statistica 7 yang dikeluarkan oleh Statsoft.
Peubah respon dalam model ini adalah tingkat kriminalitas yang dihitung dalam indeks per
penduduk, sedangkan unit pengamatan adalah kota. Model akan disusun untuk mencari penjelasan
mengenai tingkat kriminalitas berdasarkan peubah penjelas berupa: proporsi luas lahan tempat
tinggal, proporsi luas lahan tempat bisnis non-retail, apakah kota dibatasi oleh sungai atau tidak,
tingkat pencemaran udara (dihitung dengan tingkat nitric oxide dalam ppm), rata-rata jumlah
ruang di dalam rumah, proporsi dari kepemilikan rumah, bobot jarak dari pusat pekerjaan di
Boston, indeks aksessibilitas ke jalan tol, tingkat pajak, rasio antara siswa dan guru, persentase
tingkat warga miskin, nilai tengah dari nilai rumah tempat tinggal.
Gambar 3. Pemilihan peubah dalam menu Interactive Tree guna penyusunan model pohon regresi.
Model pohon pertama disusun dengan aturan penyekatan anggota simpul akhir tidak kurang dari 5
dan simpul induk tidak kurang dari 10.
13
Gambar 4. Penentuan aturan penghentian penyekatan.
Hasil yang diperoleh, dengan menggunakan aturan tersebut adalah
Tree graph for Crim e Rate
Num . of non-term inal nodes : 80, Num . of term inal nodes : 81
M odel : C&RT
I D=1N=506
M u=3. 613524
Var : 73. 840360
I D=2N=374
M u=0. 385606
Var : 0. 389714
I D=4N=358
M u=0. 298327
Var : 0. 200417
I D=6N=244
M u=0. 126177
Var : 0. 014894
I D=8N=220
M u=0. 099424
Var : 0. 006385
I D=10N=122
M u=0. 054578
Var : 0. 001050
I D=12N=35
M u=0. 079256
Var : 0. 001103
I D=15N=34
M u=0. 075400
Var : 0. 000615
I D=16N=19
M u=0. 062845
Var : 0. 000228
I D=18N=16
M u=0. 057491
Var : 0. 000081
I D=17N=15
M u=0. 091303
Var : 0. 000651
I D=22N=13
M u=0. 085797
Var : 0. 000502
I D=13N=87
M u=0. 044650
Var : 0. 000686
I D=26N=78
M u=0. 040155
Var : 0. 000456
I D=28N=64
M u=0. 044503
Var : 0. 000437
I D=30N=23
M u=0. 033610
Var : 0. 000260
I D=31N=41
M u=0. 050614
Var : 0. 000433
I D=29N=14
M u=0. 020279
Var : 0. 000059
I D=11N=98
M u=0. 155254
Var : 0. 007406
I D=39N=94
M u=0. 147446
Var : 0. 006011
I D=40N=81
M u=0. 160927
Var : 0. 005549
I D=42N=66
M u=0. 174383
Var : 0. 005516
I D=45N=64
M u=0. 178980
Var : 0. 004992
I D=43N=15
M u=0. 101718
Var : 0. 001388
I D=49N=11
M u=0. 090156
Var : 0. 000640
I D=41N=13
M u=0. 063451
Var : 0. 000704
I D=9N=24
M u=0. 371410
Var : 0. 026188
I D=54N=18
M u=0. 449906
Var : 0. 010070
I D=56N=13
M u=0. 422357
Var : 0. 010699
I D=7N=114
M u=0. 666789
Var : 0. 398309
I D=60N=26
M u=1. 287372
Var : 0. 519523
I D=62N=12
M u=0. 630630
Var : 0. 010689
I D=63N=14
M u=1. 850294
Var : 0. 269091
I D=67N=10
M u=2. 060087
Var : 0. 219441
I D=61N=88
M u=0. 483435
Var : 0. 215090
I D=70N=34
M u=0. 142956
Var : 0. 006723
I D=72N=10
M u=0. 067265
Var : 0. 001102
I D=73N=24
M u=0. 174494
Var : 0. 005684
I D=76N=23
M u=0. 165239
Var : 0. 003876
I D=79N=15
M u=0. 131288
Var : 0. 001554
I D=81N=11
M u=0. 116652
Var : 0. 000964
I D=71N=54
M u=0. 697811
Var : 0. 227337
I D=85N=52
M u=0. 642647
Var : 0. 144172
I D=86N=22
M u=0. 964475
Var : 0. 073784
I D=88N=10
M u=1. 190706
Var : 0. 047331
I D=89N=12
M u=0. 775950
Var : 0. 017637
I D=92N=10
M u=0. 725502
Var : 0. 005761
I D=87N=30
M u=0. 406640
Var : 0. 064136
I D=96N=25
M u=0. 457618
Var : 0. 061057
I D=98N=15
M u=0. 533550
Var : 0. 082383
I D=99N=10
M u=0. 343719
Var : 0. 007445
I D=5N=16
M u=2. 338462
Var : 0. 641132
I D=105N=12
M u=2. 642573
Var : 0. 472595
I D=3N=132
M u=12. 759291
Var : 168. 783676
I D=108N=32
M u=25. 036893
Var : 372. 211782
I D=110N=31
M u=22. 974334
Var : 248. 085917
I D=113N=29
M u=20. 894199
Var : 183. 052767
I D=114N=28
M u=20. 006631
Var : 166. 744838
I D=116N=20
M u=22. 385879
Var : 210. 035482
I D=118N=16
M u=18. 518642
Var : 65. 805132
I D=109N=100
M u=8. 830458
Var : 40. 014317
I D=122N=22
M u=15. 020277
Var : 99. 197391
I D=124N=11
M u=19. 605672
Var : 138. 619295
I D=127N=10
M u=16. 452659
Var : 43. 124836
I D=125N=11
M u=10. 434882
Var : 17. 723793
I D=123N=78
M u=7. 084612
Var : 9. 467204
I D=132N=28
M u=5. 162176
Var : 6. 534886
I D=135N=22
M u=4. 645888
Var : 1. 787808
I D=137N=18
M u=5. 009739
Var : 1. 406994
I D=138N=11
M u=5. 519633
Var : 1. 310675
I D=133N=50
M u=8. 161177
Var : 7. 880685
I D=143N=41
M u=7. 552985
Var : 5. 421277
I D=144N=24
M u=8. 707669
Var : 4. 214150
I D=147N=20
M u=9. 161244
Var : 3. 721113
I D=149N=16
M u=8. 728404
Var : 2. 767609
I D=150N=11
M u=8. 097880
Var : 2. 445890
I D=145N=17
M u=5. 922844
Var : 2. 585797
I D=154N=14
M u=5. 443493
Var : 1. 557809
I D=157N=11
M u=4. 960395
Var : 0. 568061
I D=159N=10
M u=4. 776317
Var : 0. 252137
I D=14N=1
M u=0. 210380
Var =0. 000000
I D=20N=4
M u=0. 048945
Var =0. 000043
I D=21N=12
M u=0. 060340
Var =0. 000061
I D=19N=3
M u=0. 091397
Var =0. 000048
I D=24N=3
M u=0. 109497
Var =0. 000386
I D=25N=10
M u=0. 078687
Var =0. 000318
I D=23N=2
M u=0. 127090
Var =0. 000145
I D=32N=22
M u=0. 031999
Var =0. 000212
I D=33N=1
M u=0. 069050
Var =0. 000000
I D=34N=33
M u=0. 045393
Var =0. 000356
I D=35N=8
M u=0. 072153
Var =0. 000174
I D=36N=5
M u=0. 013718
Var =0. 000007
I D=37N=9
M u=0. 023924
Var =0. 000051
I D=27N=9
M u=0. 083602
Var =0. 000985
I D=38N=4
M u=0. 338728
Var =0. 005099
I D=44N=2
M u=0. 027300
Var =0. 000000
I D=46N=63
M u=0. 175965
Var =0. 004489
I D=47N=1
M u=0. 368940
Var =0. 000000
I D=48N=4
M u=0. 133513
Var =0. 002067
I D=50N=1
M u=0. 141030
Var =0. 000000
I D=51N=10
M u=0. 085069
Var =0. 000419
I D=52N=6
M u=0. 038997
Var =0. 000048
I D=53N=7
M u=0. 084411
Var =0. 000314
I D=58N=5
M u=0. 353782
Var =0. 002723
I D=59N=8
M u=0. 465216
Var =0. 010908
I D=57N=5
M u=0. 521532
Var =0. 001331
I D=55N=6
M u=0. 135922
Var =0. 000603
I D=64N=9
M u=0. 577220
Var =0. 002613
I D=65N=3
M u=0. 790860
Var =0. 000688
I D=66N=4
M u=1. 325810
Var =0. 008100
I D=68N=9
M u=2. 154828
Var =0. 154065
I D=69N=1
M u=1. 207420
Var =0. 000000
I D=74N=5
M u=0. 041446
Var =0. 000350
I D=75N=5
M u=0. 093084
Var =0. 000520
I D=78N=8
M u=0. 228898
Var =0. 002016
I D=80N=4
M u=0. 171538
Var =0. 000965
I D=82N=1
M u=0. 169020
Var =0. 000000
I D=83N=10
M u=0. 111415
Var =0. 000759
I D=77N=1
M u=0. 387350
Var =0. 000000
I D=84N=2
M u=2. 132060
Var =0. 253432
I D=90N=8
M u=1. 263844
Var =0. 031588
I D=91N=2
M u=0. 898155
Var =0. 003319
I D=94N=6
M u=0. 781333
Var =0. 001597
I D=95N=4
M u=0. 641755
Var =0. 000318
I D=93N=2
M u=1. 028190
Var =0. 000663
I D=100N=7
M u=0. 334967
Var =0. 008486
I D=101N=8
M u=0. 707310
Var =0. 082345
I D=102N=4
M u=0. 269685
Var =0. 000821
I D=103N=6
M u=0. 393075
Var =0. 005771
I D=97N=5
M u=0. 151750
Var =0. 001571
I D=104N=4
M u=1. 426130
Var =0. 036944
I D=106N=3
M u=3. 399397
Var =0. 292440
I D=107N=9
M u=2. 390299
Var =0. 278077
I D=112N=2
M u=53. 136300
Var =218. 581440
I D=120N=9
M u=22. 452300
Var =67. 443387
I D=121N=7
M u=13. 461081
Var =18. 225172
I D=119N=4
M u=37. 854825
Var =487. 846499
I D=117N=8
M u=14. 058511
Var =8. 986055
I D=115N=1
M u=45. 746100
Var =0. 000000
I D=111N=1
M u=88. 976200
Var =0. 000000
I D=126N=1
M u=51. 135800
Var =0. 000000
I D=128N=2
M u=24. 686000
Var =15. 759312
I D=129N=8
M u=14. 394324
Var =28. 782497
I D=130N=7
M u=7. 708786
Var =4. 878306
I D=131N=4
M u=15. 205550
Var =4. 438822
I D=134N=6
M u=7. 055232
Var =19. 379818
I D=136N=4
M u=3. 008555
Var =0. 224866
I D=140N=4
M u=6. 443490
Var =1. 144532
I D=141N=7
M u=4. 991714
Var =0. 639195
I D=139N=7
M u=4. 208479
Var =0. 507776
I D=142N=9
M u=10. 931826
Var =9. 723071
I D=146N=4
M u=6. 439795
Var =0. 507429
I D=148N=4
M u=10. 892602
Var =3. 788126
I D=152N=4
M u=7. 004840
Var =1. 035061
I D=153N=7
M u=8. 722474
Var =2. 179254
I D=151N=5
M u=10. 115558
Var =0. 676561
I D=156N=3
M u=7. 214853
Var =1. 193425
I D=158N=1
M u=6. 801170
Var =0. 000000
I D=160N=7
M u=5. 031017
Var =0. 108067
I D=161N=3
M u=4. 182017
Var =0. 083740
I D=155N=3
M u=8. 159813
Var =1. 306749
Accessibilit y t o Highways
= 1, 2, 3, 6, 7, 8, . . . = 24
Nit r ic O xide
<= 0. 759000 > 0. 759000
Nit r ic O xide
<= 0. 531000 > 0. 531000
Accessibilit y t o Highways
= 1, 2, 6, 3, 4, 5, . . . = 8
Non- r et ail Business acr es
<= 5. 750000 > 5. 750000
Dist ance t o Em ploym ent Cent er s
<= 4. 630700 > 4. 630700
Pupil- Teacher Rat io
<= 15. 050000 > 15. 050000
Pr oper t y Tax Rat e
<= 273. 000000 > 273. 000000
O wner O ccupied Unit s
<= 88. 050000> 88. 050000
Accessibilit y t o Highways
= 2 = 7, 3
% of Lower St at us
<= 10. 725000> 10. 725000
% of Lower St at us
<= 4. 945000> 4. 945000
Accessibilit y t o Highways
= 1, 3, 2, 5, 4 = 6
Resident ial Land Zone
<= 81. 250000 > 81. 250000
Accessibilit y t o Highways
= 1, 3, 2 = 5, 4
Value of O ccupied Hom es
<= 35. 550000> 35. 550000
Pr oper t y Tax Rat e
<= 384. 000000> 384. 000000
Accessibilit y t o Highways
= 1, 5 = 3, 4, 2
Aver age Room s
<= 5. 502500 > 5. 502500
Resident ial Land Zone
<= 25. 000000 > 25. 000000
Non- r et ail Business acr es
<= 10. 700000 > 10. 700000
Accessibilit y t o Highways
= 2 = 4, 3, 5, 7
Value of O ccupied Hom es
<= 39. 000000> 39. 000000
Nit r ic O xide
<= 0. 425000> 0. 425000
Aver age Room s
<= 5. 832000> 5. 832000
Value of O ccupied Hom es
<= 25. 700000> 25. 700000
Dist ance t o Em ploym ent Cent er s
<= 5. 483250 > 5. 483250
Dist ance t o Em ploym ent Cent er s
<= 3. 661700> 3. 661700
% of Lower St at us
<= 4. 385000> 4. 385000
Pupil- Teacher Rat io
<= 15. 000000 > 15. 000000
Non- r et ail Business acr es
<= 11. 775000 > 11. 775000
% of Lower St at us
<= 10. 020000> 10. 020000
Dist ance t o Em ploym ent Cent er s
<= 2. 005800> 2. 005800
% of Lower St at us
<= 13. 285000> 13. 285000
Accessibilit y t o Highways
= 1, 5, 2, 6 = 4
Accessibilit y t o Highways
= 1, 5 = 2, 6
O wner O ccupied Unit s
<= 82. 950000> 82. 950000
% of Lower St at us
<= 26. 335000 > 26. 335000
Non- r et ail Business acr es
<= 9. 850000 > 9. 850000
Value of O ccupied Hom es
<= 18. 750000> 18. 750000
Dist ance t o Em ploym ent Cent er s
<= 1. 999600> 1. 999600
Aver age Room s
<= 5. 056000 > 5. 056000
Non- r et ail Business acr es
<= 9. 020000 > 9. 020000
Value of O ccupied Hom es
<= 15. 400000 > 15. 400000
Dist ance t o Em ploym ent Cent er s
<= 4. 343200> 4. 343200
Value of O ccupied Hom es
<= 20. 700000> 20. 700000
Dist ance t o Em ploym ent Cent er s
<= 4. 458300> 4. 458300
Non- r et ail Business acr es
<= 24. 815000 > 24. 815000
Dist ance t o Em ploym ent Cent er s
<= 2. 737150 > 2. 737150
Dist ance t o Em ploym ent Cent er s
<= 1. 973400> 1. 973400
Value of O ccupied Hom es
<= 20. 050000> 20. 050000
% of Lower St at us
<= 14. 560000> 14. 560000
Dist ance t o Em ploym ent Cent er s
<= 1. 415450> 1. 415450
Value of O ccupied Hom es
<= 10. 950000 > 10. 950000
Aver age Room s
<= 6. 896000 > 6. 896000
Value of O ccupied Hom es
<= 5. 300000 > 5. 300000
% of Lower St at us
<= 35. 500000 > 35. 500000
Aver age Room s
<= 6. 212500 > 6. 212500
Aver age Room s
<= 5. 946000> 5. 946000
Aver age Room s
<= 5. 639000> 5. 639000
Dist ance t o Em ploym ent Cent er s
<= 1. 601300 > 1. 601300
Value of O ccupied Hom es
<= 16. 750000 > 16. 750000
% of Lower St at us
<= 11. 775000> 11. 775000
Nit r ic O xide
<= 0. 663500> 0. 663500
Dist ance t o Em ploym ent Cent er s
<= 1. 460100> 1. 460100
% of Lower St at us
<= 14. 675000 > 14. 675000
Dist ance t o Em ploym ent Cent er s
<= 2. 027400 > 2. 027400
O wner O ccupied Unit s
<= 52. 550000 > 52. 550000
O wner O ccupied Unit s
<= 85. 700000> 85. 700000
Value of O ccupied Hom es
<= 22. 000000> 22. 000000
Aver age Room s
<= 5. 931000 > 5. 931000
Dist ance t o Em ploym ent Cent er s
<= 2. 283450 > 2. 283450
Aver age Room s
<= 6. 173500 > 6. 173500
% of Lower St at us
<= 16. 515000 > 16. 515000
Aver age Room s
<= 6. 438000> 6. 438000
O wner O ccupied Unit s
<= 96. 550000> 96. 550000
Aver age Room s
<= 6. 714500 > 6. 714500
O wner O ccupied Unit s
<= 83. 850000 > 83. 850000
% of Lower St at us
<= 15. 460000> 15. 460000
Value of O ccupied Hom es
<= 17. 850000> 17. 850000
Gambar 5. Pohon regresi tingkat kriminalitas di suatu kota berdasarkan peubah-peubah penjelasnya.
Gambar pohon di atas memperlihatkan bahwa peubah penjelas utama yang berpengaruh terhadap
tingkat kriminalitas adalah akses terhadap jalan tol. Model pohon tersebut adalah model pohon
yang tidak efisien, terlalu rumit untuk dijelaskan. Agar pohon tersebut dapat diinterpretasikan
dengan lebih mudah, diperlukan usaha pemangkasan (prunning). Pemangkasan dilakukan dengan
memperhatikan keragaman data pada peubah respon yang dapat dijelaskan oleh peubah penjelas.
Sebagaimana dijelaskan di awal, penentuan penyekatan dilakukan dengan memperhitungan
penurunan yang maksimal pada jumlah kuadrat simpul. Dengan memperhitungan penurunan
keragaman yang maksimum untuk simpul yang sesedikit mungkin, diperoleh pohon yang optimum.
14
Gambar 6. Biaya kompleksitas dalam struktur pohon bersarang yang dihasilkan
Dari gambar 6 terlihat biaya yang kompleksitas yang minimum diperoleh pada pohon bersarang ke-
140. Pohon regresi nomor 140 yang diperoleh adalah:
Tree 140 graph for Crime Rate
Num. of non-terminal nodes: 3, Num. of terminal nodes: 4
ID=1 N=506
Mu=3.613524
Var=73.840360
ID=2 N=132
Mu=12.759291
Var=168.783676
ID=4 N=32
Mu=25.036893
Var=372.211782
ID=6 N=31
Mu=22.974334
Var=248.085917
ID=7 N=1
Mu=88.976200
Var=0.000000
ID=5 N=100
Mu=8.830458
Var=40.014317
ID=3 N=374
Mu=0.385606
Var=0.389714
Accessibility to Highways
= 24 = Other(s)
Value of Occupied Homes
<= 10.950000 > 10.950000
Average Rooms
<= 6.896000 > 6.896000
15
Gambar 7. Pohon regresi dari tingkat kriminalitas hasil pemangkasan
INTERPRETASI ATAS POHON REGRESI
Pohon regresi hasil pemangkasan dapat diinterpretasikan sebagai berikut.
1. Nilai aksesibilitas ke jalan tol merupakan peubah penjelas yang paling berpengaruh
terhadap tingkat kriminalitas. Peubah nilai aksesibilitas ini adalah peubah bertipe ordinal.
Dari pohon regresi diketahui bahwa pertama-tama tingkat kriminalitas dibagi menjadi dua
berdasarkan peubah nilai aksesibilitas ke jalan tol. Nilai aksesibilitas sama dengan 24
dipisahkan dengan nilai aksesibilitas yang lain.
2. Amatan dengan nilai aksesibilitas selain 24 akan dikelompokkan kembali menjadi dua
kelompok berdasarkan nilai rumah tempat tinggal, dengan pemisahaan (splitting) pada
nilai 10.95. Nilai rumah yang lebih tinggi dari 10.95 memiliki tingkat kriminalitas yang lebih
rendah, dari pada kelompok sampel dengan nilai rumah tempat tinggal yang kurang dari
atau sama dengan 10.95. Sampel dengan nilai rumah yang lebih tinggi dari 10.95
menempati simpul akhir, tidak dibagi lagi menjadi simpul-simpul anakan.
3. Sampel kota dengan nilai rumah tempat tinggal yang tidak lebih dari 10.95 dibagi menjadi
dua simpul akhir, yang dipisahkan berdasarkan pertanyaan apakah “rata-rata jumlah
ruangan dalam rumah lebih dari 6.896?”. Sampel dengan rata-rata jumlah ruangan dalam
rumah lebih besar dari 6.896 memiliki tingkat kriminalitas yang lebih tinggi daripada rumah
dengan rata-rata jumlah
4. Pendugaan tingkat kriminalitas suatu kota berdasarkan peubah penjelas dapat disajikan ke
dalam tabel berikut (diurutkan berdasarkan tingkat kriminalitas yang terendah).
No Simpul N Rata-rata Tingkat
kriminalitas Peubah Penciri
1 3 374 0.385 Nilai akses ke Jalan Tol (Highway) sebesar 1,
2, dst (selain 24)
2 5 100 8.830 Nilai akses ke jalan tol adalah 24 dan nilai
rumah tempat tinggal > 10.95
3 6 31 22.974
Nilai akses ke jalan tol adalah 24, nilai rumah
tempat tinggal ≤ 10.95 dan rata-rata jumlah
ruangan dalam rumah ≤ 6.896
4 7 1 88.976
Nilai akses ke jalan tol adalah 24, nilai rumah
tempat tinggal ≤ 10.95 dan rata-rata jumlah
ruangan dalam rumah > 6.896
KESIMPULAN
Peubah penjelas yang memiliki pengaruh terhadap tingkat kriminalitas adalah nilai aksesibilitas ke
jalan tol, nilai dari rumah tempat tinggal, dan rata-rata jumlah ruangan dalam rumah.
16
Tingkat kriminalitas yang tertinggi ada pada kelompok amatan dengan nilai aksesibilitas ke jalan tol
sebesar 24 dan nilai harga rumah yang rendah, hal ini memperlihatkan wilayah yang mudah
terjangkau oleh jalur jalan tol (highway) yang memungkinkan pertukaran orang asing yang lebih
tinggi dan dengan tingkat ekonomi penduduk yang rendah (ditandai dengan harga rumah tempat
tinggal yang rendah) memiliki nilai kriminalitas yang paling tinggi dibandingkan dengan kelompok
amatan yang lain. Sedangkan kota dengan tingkat kriminalitas yang paling rendah adalah kota
dengan tingkat aksesibilitas ke jalan tol selain 24. Berdasarkan pohon regresi tersebut, apabila
diinginkan untuk mencari tempat tinggal dengan tingkat kriminalitas paling kecil, hindarilah
tempat dengan tingkat akses ke jalan tol yang sangat tinggi.
Pohon regresi memberikan cara interpretasi yang lebih mudah daripada model regresi linear,
terutama apabila dibandingkan dengan model regresi linear yang melibatkan banyak peubah dan
banyak transformasi atas peubah-peubahnya. Hal ini menjelaskan bahwa metode pohon regresi ini
cocok untuk dipergunakan sebagai alat eksplorasi data. Semakin dalam suatu pohon, interpretasi
semakin sulit untuk dilakukan, hal ini analog dengan model regresi linear biasa yang akan semakin
sulit diinterpretasikan apabila model semakin banyak dan banyak transformasi pada peubah-
peubahnya.
DAFTAR PUSTAKA
Denis White, Jean C. Sifneos, Regression Tree Cartography. Journal of Computational and Graphical Statistics 11(3):600-614, 2002.
Leland Wilkinson, Tree Structured Data Analysis: AID, CHAID and CART. Illinois: SPSS Inc., Department of Statistics, Northwestern University.
Breiman L., Friedman J.H., Olshen R.A., Stone C.J., Classification and Regression Tree, New York: Chapman & Hall, 1993.
Kudus, A. 1999. Penerapan Metode Regresi Berstruktur Pohon pada Pendugaan Masa Rawat Kelahiran Bayi (Studi Kasus di Rumah Sakin Hasan Sadikin Bandung). [Tesis]. Bogor: Program Pascasarjana, Institut Pertanian Bogor
Hutabarat, I.M. 2005. Pohon Klasifikasi dan Pohon Regresi Keberhasilan Mahasiswa Pascasarjana Program Studi Statistika IPB [Tesis]. Bogor: Program Pascasarjana, Institut Pertanian Bogor.
Timofeev R., Classification and Regression Tree (CART) Theory and Application, Berlin: Center of Statistics and Economics, Hamboldt University, 2004.
top related