repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/analyze regression tree.docx · web...

30
Analisis Regresi Terapan Pohon Regresi {Regression Tree} Darwis, M.Si Irmayani, M.Si

Upload: others

Post on 07-Aug-2021

14 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

Analisis Regresi Terapan

Pohon Regresi{Regression Tree}

Darwis, M.SiIrmayani, M.Si

Program Studi Statistika TerapanSekolah Pascasarjana Institut Pertanian Bogor

2015

Page 2: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

1 PENDAHULUAN

Latar Belakang

Dalam kehidupan sehari-hari, sering kali kita ingin melihat hubungan antar peubah, seperti hubungan antara panjang dan bobot bayi, tingkat pendidikan ibu dan gizi balita. Umumnya suatu peubah bersifat mempengaruhi peubah yang lainnya, peubah pertama disebut peubah penjelas (independent variable), sedangkan peubah yang kedua disebut peubah respon (dependent variable). Analisis Regresi adalah analisis statistik yang mempelajari bagaimana membangun sebuah model fungsional (Hubungan Kausal /Sebab Akibat) dari data untuk dapat menjelaskan ataupun meramalkan suatu fenomena alami atas dasar fenomena yang lain. Hubungan yang terbentuk dapat melibatkan satu atau lebih peubah respon dengan satu atau lebih peubah penjelas. Keabsahan penggunaan analisis regresi sangat tergantung pada banyak asumsi, sehingga untuk mendapatkan dugaan persamaan regresi yang memenuhi semua asumsi sangat sulit. Salah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan menggunakan regresi dengan metode pohon biner (Breiman dkk 1993).

Metode yang ada pada pohon biner adalah pohon regresi dan klasifikasi. Metode Classification and Regression Trees (CART) yaitu pohon regresi yang dapat digunakan untuk mengetahui pola hubungan tersebut.CART menghasilkan pohon klasifikasi jika peubah respon yang dimiliki bertipe kategorik (nominal maupun ordinal) sedangkan jika peubah respon yang dimiliki bertipe kontinu maka CART menghasilkan pohon regresi.

Sama halnya dengan metode regresi biasa, pohon regresi juga menjelaskan bagaimana hubungan antara peubah respon dan peubah – peubah penjelasnya. Perbedaannya adalah bahwa pada metode pohon regresi, pengaruh peubah penjelas serta pendugaan responnya dilakukan pada kelompok – kelompok pengamatan yang ditentukan berdasarkan peubah – peubah penjelas, sehingga interpretasi hasil dari metode ini lebih mudah dilakukan. Hal ini karena identifikasi pengaruh dari peubah penjelas dari pohon regresi dilakukan dalam masing- masing subgrup data bukan dalam keseluruhan data seperti halnya regresi biasa. Di samping itu pohon regresi dapat mengatasi masalah adanya pencilan. Perhitungan statistik yang dilakukan dalam metode pohon regresi ini juga tidak rumit sehingga menjadi kelebihan lainnya dari metode ini.

Tujuan Penulisan

Menentukan pola hubungan antara peubah- peubah yang berpengaruh terhadap Ujian Nasional siswa/i SMP Negeri 1 Dramaga Bogor menggunakan metode pohon regresi.

Page 3: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

2 KAJIAN TEORI

Model statistika linear

Model statistika linear merupakan sebuah model yang secara matematis dinyatakan dalam bentuk

y=β0+β1 x1+β2 x2+… βk xk+εDengan y adalah peubah acak yang dinamakan respon ; x1 , x2 , …, xk

adalah peubah matematis yang nilainya terkontrol (peubah penjelas) ; ε adalah peubah acak yang menerangkan keragaman acak yang tidak dijelaskan dalam respon dan β1 , β2 ,…, βk adalah konstanta yang nilainya tidak diketahui dan harus diduga dari data.

Metode Berbasis Pohon

Regresi berstruktur pohon adalah salah satu metode yang menggunakan kaidah pohon keputusan (decision tree) yang dibentuk melalui suatu algoritma penyekatan secara rekursif biner. Metode ini diilhami oleh program AID (Automatic Interaction Detection) yang dikembangkan oleh Morgan dan Sonquist pada tahun 1963. Analog dengan analisis regresi biasa, metode ini juga digunakan untuk mengetahui pengaruh peubah penjelas terhadap peubah respon. Perbedaaannya adalah bahwa pada regresi berstruktur pohon, pendugaan respon dilakukan pada kelompok-kelompok pengamatan yang dibentuk berdasarkan peubah - peubah penjelasnya, bukan keseluruhan data.

Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan Charles J.Stone sekitar tahun 1980-an dalam buku Breiman dkk (1993) mengusulkan suatu algoritma baru untuk penyusunan pohon yaitu Classification and Regression Tree (CART). Penyusunan pohon dapat dilihat sebagai salah satu cara pemilihan variabel. CART adalah salah satu metode atau algoritma dari salah satu teknik eksplorasi data yaitu teknik pohon keputusan. CART merupakan metodologi statistik nonparametrik yang dikembangkan untuk topik analisis klasifikasi, baik untuk peubah respon kategorik maupun kontinu. CART menghasilkan suatu pohon klasifikasi jika peubah responnya kategorik, dan menghasilkan pohon regresi jika peubah responnya kontinu.

Tujuan utama CART adalah untuk mendapatkan suatu kelompok data yang akurat sebagai penciri dari suatu pengklasifikasian. Struktur pohon pada metode ini diperoleh melalui suatu algoritma penyekatan rekursif terhadap ruang penjelas X. Metode ini menganalisa suatu gugus data dengan menyekatnya menjadi beberapa anak gugus (simpul) secara bertahap.

Tahap pertama, seluruh data disekat menjadi dua anak gugus berdasarkan salah satu peubah yang dipilih sedemikian rupa sehingga memaksimumkan penurunan jumlah kuadrat galat. Masing-masing anak gugus kemudian diperiksa kembali secara terpisah dan dibagi lagi

Page 4: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

berdasarkan penyekat lainnya, demikian selanjutnya sampai tercapai kriteria berhenti tertentu. Anak gugus yang tidak bisa disekat lagi dinamakan simpul akhir (simpul terminal), sedangkan anak gugus yang masih bisa disekat lagi dinamakan simpul dalam. Hasil dari proses penyekatan ini diinterpretasikan dalam suatu struktur pohon seperti telihat pada Gambar 1. Struktur pohon ini memiliki satu simpul akar yang mengandung semua data, beberapa simpul dalam dan simpul akhir.

Gambar 1 Diagram CART

Pada Gambar 1 di atas A, B dan C merupakan peubah peubah penjelas yang terpilih untuk menjadi simpul. A merupakan simpul induk, sementara B dan C merupakan simpul anak dimana C juga merupakan simpul akhir yang tidak bercabang lagi. Sementara α dan β merupakan suatu nilai yang merupakan nilai tengah antara dua nilai amatan peubah xj secara berurutan. Pada Gambar 1 simpul dalam dilambangkan dengan lingkaran sedangkan simpul akhir dilambangkan dengan persegi. Diagram yang dihasilkan oleh CART ini merupakan suatu model, biasanya diinterpretasikan ke dalam suatu tabel untuk penjelasannya. Hal ini berbeda dengan regresi konvensional dimana model regresi dapat dituliskan menjadi model matematik atau persamaan regresinya.

Pohon Regresi

Pohon regresi adalah suatu teknik non-parametrik yang secara rekursif membagi kelompok-kelompok ke dalam sub-kelompok yang lebih kecil yang memaksimalkan perbedaan sesuai hasil yang diinginkan. Metode pohon regresi ini ialah gabungan dari metode gerombol (cluster) dan metode stepwise regression. Karakteristik dari pohon regresi dijabarkan sebagai berikut:

1. Ada sebanyak p peubah penjelas X1,X2,...,Xp dan ada satu peubah respon yang numerik kontinu (Y)

2. Peubah penjelas bersifat kategorik atau numerik kontinu3. Peubah respon bersifat numerik kontinu4. Membutuhkan jumlah sampel yang relatif besar

Proses pembentukan pohon regresi dan kriteria atau ukuran yang digunakannya memerlukan empat komponen (Breiman dkk 1993):

Page 5: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

1. Aturan penyekatan2. Kriteria goodness-of-split φ(s, t ) yang merupakan alat evaluasi bagi

penyekatan (split) s pada simpul t3. Ukuran yang digunakan untuk menentukan ukuran pohon yang layak

(right sized tree)4. Statistik yang digunakan sebagai ringkasan dari tiap simpul akhir

Aturan penyekatanPohon Regresi dibentuk dari penyekatan data pada tiap simpul

ke dalam dua simpul anak. Aturannya adalah sebagai berikut:1. Tiap penyekatan tergantung pada nilai yang hanya berasal dari satu

peubah penjelas. 2. Untuk peubah numerik kontinu Xj penyekatan yang diperbolehkan

adalah Xj ≤ untuk c ε R1, dimana c adalah nilai tengah antara dua nilai amatan peubah Xj utan yang berbeda. Jadi jika Xj mempunyai n nilai yang berbeda maka terdapat sebanyak-banyaknya n-1 penyekatan.

3. Untuk peubah penjelas kategorik, penyekatan yang terjadi berasal dari semua kemungkinan penyekatan berdasarkan terbentuknya dua anak gugus yang saling lepas (disjoint). Jika peubah Xj merupakan peubah kategorik nominal dan L kategori, maka akan ada 2L-1-1 penyekatan, sedangakan jika berupa kategorik ordinal, maka akan ada L-1 penyekatan yang mungkin.

Growing dan kriteria goodness-of-split φ(s, t ) Pohon regresi dibentuk dengan penyekatan yang rekursif

berdasarkan kriteria tertentu . Proses penyekatan dilakukan pada tiap simpul dengan cara sebagai berikut :

1. Cari semua kemungkinan penyekatan pada tiap peubah penjelas2. Pilih “penyekatan terbaik” dari masing – masing peubah penjelas

dan pilih “penyekatan terbaik” dari “kumpulan penyekatan terbaik” tersebut.Penyekatan terbaik adalah penyekatan yang memaksimumkan ukuran kehomogenan di dalam masing – masing simpul anak relatif terhadap simpul induknya dan yang memaksimumkan ukuran penyekatan (separation) antara simpul anak tersebut.

Jumlah kuadrat sisaan (JKS) digunakan sebagai kriteria kehomogenan didalam masing- masing simpul. Misalkan simpul t berisi anak contoh {(X n ,Yn )}, n(t) adalah banyaknya amatan dalam simpul t dan rataan respon dalam simpul t adalah

Y (t )= 1

n ( t )∑xn∈t

Y n

(1)

maka jumlah kuadrat sisaan di dalam simpul t adalah:

Page 6: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

JKS ( t )=∑

xnet[(Y n−Y ( t ))]

2

dengan i = 1,2,…,Nt (2)Keterangan:Yn = nilai individu peubah respon ke –nY ( t ) = nilai tengah peubah respon pada simpul ke – t

Misalkan ada penyekatan s yang menyekat t menjadi simpul anak kiri tL dan simpul anak kanan tR. Fungsi penyekatan yang digunakan adalah

φ ( s , t )=JKS (t )− {JKS ( tL )−JKS (t R) }(3)

dan penyekat terbaik s* adalah:

φ ( s¿ ,t )=maxseΩ

φ (s ,t )

(4)

dengan Ω adalah gugus yang berisi semua kemungkinan penyekatan. Pohon regresi dibentuk melalui penyekatan simpul secara rekursif yang memaksimumkan fungsi∅ di atas. Penyekatan tersebut dihentikan jika banyaknya amatan dalam simpul tersebut berjumlah “ tertentu” atau pada saat nilai ∅ lebih kecil dari suatu nilai ambang (treshold). Pemilihan aturan penghentian ini tentu saja akan berpengaruh pada ukuran pohon akhir yang terbentuk. Breiman dkk (1993) menetapkan penghentian dilakukan ketika banyaknya amatan pada simpul akhir kurang atau sama dengan 5. Penyekatan juga dapat dilakukan ketika banyaknya amatan kurang dari 25 amatan (Kudus 1999).

Penentuan ukuran pohon yang layak

Pohon yang dibentuk dengan aturan spliting atau growing diatas

berukuran sangat besar. Hal ini karena aturan penghentian (stopping rule)

yang digunakan hanya berdasarkan banyaknya amatan pada simpul akhir

atau besarnya peningkatan tingkat kehomogenan. Lebih banyak penyekatan

yang dilakukan mengakibatkan makin kecilnya tingkat kesalahan prediksi.

Hal tersebut terjadi karena simpul akhir bisa hanya berisi satu amatan.

Masalahnya adalah bagaimana menentukan ukuran pohon yang layak.

Pohon yang besar menimbulkan dugaan adanya overfitting. Sebaliknya

kasus underfitting terjadi karena tidak adanya penyekatan lebih lanjut akibat

Page 7: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

adanya tetapan ambang padahal sebenarnya penyekatan yang terjadi adalah

layak. Cara mengatasi masalah ini adalah mencari ukuran pohon yang layak

(optimum) berdasarkan aturan Cost Complexity Minimum dan penggunaan

validasi silang lipat-10 (10-fold Cross validation).

Pencarian pohon regresi dengan ukuran yang layak dilakukan dengan

(1) penentuan pohon awal yang besar, (2) secara iteratif pohon tersebut

dipangkas (prunning) menjadi sekuen pohon yang makin kecil dan

tersarang, (3) dipilih pohon yang terbaik dari sekuen ini dengan

menggunakan penduga contoh uji (test sample estimate) atau penduga

validasi silang (cross validation estimate).

Untuk mendapatkan test sample estimate Rts(T), amatan dibagi dua

secara acak menjadi Learning sample L1 dan test sample L2 . L1 digunakan

untuk membentuk sekuen pohon(Tk) melalui proses pemangkasan,

sedangkan L2 digunakan untuk membentuk Rts(Tk). Jika L2 berukuran n2,

maka

Rn (T k )= 1n2

∑( xn , yn )

[ yn− yk (xn )]2

(5)

dengan yk ( xn) adalah dugaan respon dari amatan ke- n pada pohon ke- k. Pohon yang terbaik adalak Tk0 yang memenuhi kriteria :

Rts (T k 0)=mink

R ts (T k ) (6)

Untuk membentuk cross validation estimate RCV (T) dengan V-fold amatan induk yang berukuran sama. Learning sample ke-v adalah L-v = L -

Lv,v = 1,2,...,V yang digunakan untuk membentuk sekuen pohon {T k }dan

sekuen parameter complexity (αk ) .Jika terdapat v sekuen {T k }dan v sekuen (αk ) .Kemudian gunakan amatan induk L untuk membentuk sekuen {T k }dan (αk ) .Definisikan α k=√α k α k+1 . Jika

yk−v (xn )adalah dugaan respon dari

amatan ke –n pada pohon yang bersesuaian dengan α k yang dibentuk oleh learning sample ke – v, maka

Page 8: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

Rcv (T k )=1n ∑

( xn , yn )∈ Lv

[ yn− yk (xn )]2

(7) Pohon yang terbaik adalak Tk0 yang memenuhi kriteria :

Rts (T k 0)=min

kR ts (T k )

(8)

Cost validation estimate dan 10- fold (10-fold Cross validation),

menghasilkan substitution estimate yang paling kecil (Breiman et al.1993).

Penentuan nilai dugaan respon pada setiap simpul akhir

Nilai dugaan respon pada masing – masing kelompok pengamatan yang

dapat menghasilkan adalah rataan responnya.

Keunggulan dan Kelemahan RegresiBerstruktur Pohon

Dari pembahasan di atas dapat kita ketahui beberapa keunggulan dari regresi berstruktur pohon :

1. Dari segi interpretasi, regresi berstruktur pohon dapat mengidentifikasi variabel-variabel secara lokal, misalnya nilai UN tertentu, kelas tertentu dan lainnya.

2. Metode regresi berstruktur pohon tidak memerlukan asumsi variabel harus mengikuti sebaran statistika tertentu.

3. Regresi berstruktur pohon dapat mendeteksi dan memperlihatkan interaksi dalam suatu data. Hal ini tidak ditunjukkan oleh model linier baku kecuali ditentukan sebelumnya dengan bentuk multiplikatif tertentu.

4. Skala peubah penjelas dapat berupa campuran antara variabel kategori (misal kelas) dan kontinyu (misal nilai UN). Dalam hal ini, interpretasi hasilnya lebih mudah dibandingkan apabila kita menggunakan model linier.

Adapun kelemahan dari metode ini adalah tidak didasarkan pada model peluang. Tidak ada selang kepercayaan yang berkaitan dengan pendugaan yang diturunkan dengan menggunakan regresi berstruktur pohon.

3 CONTOH PENERAPAN

Studi Kasus

Page 9: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

Data yang digunakan dalam penulisan ini berupa data sekunder yang diperoleh dari data siswa kelas IX SMP Negeri 1 Dramaga Bogor tahun 2013/2014. Dengan peubah respon ( y) yang diamati adalah nilai Ujian Nasional, sedangkan peubah penjelas yang di gunakan adalah x1(Jenis Kelamin), x2(Pembagian kelas),x3(Rata-rata nilai rapor),x4 (Nilai ujian akhir sekolah), x5 (pendidikan Ayah),x6 (Pekerjaan Ayah),x7(Penghasilan Ayah per bulan).

Keterangan : Dekskripsi Peubah Penjelasx1 (Jenis Kelamin) : (1) Laki-laki (2) Perempuanx2 (Pembagian kelas) : (1) Kelas A (2) Kelas B (3) Kelas Cx3 (Rata-rata nilai rapor) : Numerikx4 (Nilai ujian akhir sekolah) : Numerikx5 (pendidikan ayah) : (1) SD (2) SMP (3) SMA (4) PTx6 (Pekerjaan ayah) : (1) PNS (2) Buruh (3) Pedagang

(4) Swasta (5) Lain-lainx7 (Penghasilan ayah per bulan) : (1) < 1 juta (2) 1- 5 juta (3) > 5 juta

Metode Analisis

Analisis data dilakukan dalam beberapa tahap. Tahapan-tahapan analisis dalam penelitian ini adalah:

a. Tentukan semua penyekat yang mungkin untuk setiap peubah penjelasb. Pilih sekat yang tebaik dari kumpulan sekat tersebutc. Penentuan pohon awal yang besard. Secara iteratif pohon tersebut dipangkas (pruning) menjadi sekuen

pohon yang makin kecil dan tersarang e. Memilih pohon terbaik dari sekuen ini dengan menggunakan penduga

contoh uji (test sample estimate) atau penduga validasi silang (cross validation estimate).

Nilai Kesalahan relatif penduga sampel uji terlihat pada gambar 16. Pohon regresi T 8 atau tree terminal node 4 adalah pohon regresi optimal karena memiliki kesalahan relatif penduga sampel uji terkecil dengan menggunakan persamaan (5)

Page 10: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

Gambar 2. Nilai Kesalahan Relatif Penduga Sampel Uji

Pohon Regresi untuk Peubah Respon Nilai UN

Metode pohon regresi menghasilkan model yang sederhana dan mudah untuk diinterpretasikan. Model yang dihasilkan berdasarkan peubah-peubah yang berpengaruh sebagai penciri membentuk suatu simpul. Peubah yang paling berpengaruh akan menjadi simpul pertama yang dihasilkan. Dalam pohon regresi, raport siswa muncul pada simpul pertama artinya raport siswa merupakan peubah yang paling berpengaruh terhadap nilai UN SMP Negeri 1 Dramaga Bogor. Dari tujuh peubah yang digunakan, ada dua peubah yang muncul di dalam pohon regresi, yaitu rata-rata nilai raport dan pekerjaan ayah.

Berdasarkan aturan Cost Complexity Minimum dan penggunaan validasi silang lipat 10 (10-fold cross validation) diperoleh pohon optimum seperti pada Gambar 17. Pohon ini mengandung empat buah simpul terminal. Peubah penjelas yang menyekat adalah raport siswa selama menempuh pendidikan. Hal ini menandakan bahwa peubah penjelas raport siswa mempunyai tingkat keragaman paling tinggi dalam menjelaskan tingkat kesuksessan nilai UN.

Page 11: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

RAPORT <= 7.72

TerminalNode 1

STD = 0.233Av g = 7.748W = 58.00

N = 58

PEK_AYAH = (3,4)

TerminalNode 2

STD = 0.267Av g = 7.826W = 30.00

N = 30

PEK_AYAH = (1,2,5)

TerminalNode 3

STD = 0.231Av g = 8.010W = 36.00

N = 36

RAPORT > 7.72

Node 3PEK_AYAH = (3,4)

STD = 0.264Av g = 7.927

W = 66.00N = 66

RAPORT <= 8.34

Node 2RAPORT <= 7.72

STD = 0.265Av g = 7.843W = 124.00

N = 124

RAPORT > 8.34

TerminalNode 4

STD = 0.267Av g = 8.684

W = 5.00N = 5

Node 1RAPORT <= 8.34

STD = 0.311Av g = 7.876W = 129.00

N = 129

Gambar 3. Pohon optimum nilai UN

Gambar 4. Plot Rcv (x-val Relative Error)

Tabel 9 Karakteristik kelompok nilai UN siswaGrup N Dugaan Nilai UN Peubah Penciri

1 58 7.748 Nilai rata-rata raport ≤ 7.72

2 30 7.828 Pekerjaan Ayah (Pedagang (3) , (swasta(4))

3 36 8.010 Pekerjaan Ayah (PNS (1) , Buruh (2), lain-lain(5)

4 5 8.684 Nilai rata-rata raport > 8.34

Pada siswa yang Nilai rata-rata raport > 8.34 mempunyai dugaan nilai UN lebih tinggi yaitu sebesar 8.684 sedangkan siswa yang nilai rata-rata raportnya ≤ 7. 72 mempunyai dugaan nilai UN sebesar 7.748, ini mungkin

Page 12: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

disebabkan karena untuk siswa yang nilai rata-rata raport yang tinggi lebih sungguh-sungguh dalam belajar.

Peubah yang paling dominan mempengaruhi nilai UN siswa adalah nilai rata-rata raport . Peubah yang muncul setelah peubah Nilai rata-rata yaitu peubah pekerjaan Ayah. Untuk siswa yang pekerjaan Ayahnya pedagang dan swasta mempunyai dugaan nilai UN sebesar 7.828 sedangkan siswa yang pekerjaan Ayahnya PNS, Buruh, dan lain-lain mempunyai dugaan nilai UN sebesar 8.010

Kesimpulan

1. Berdasarkan hasil pembahasan bahwa variabel dominan yang berpengaruh terhadap Ujian Nasional di SMP Negeri 1 Dramaga Bogor adalah nilai rata-rata raport dan pekerjaan ayah.

2. Regresi berstruktur pohon dapat mengidentifikasi variabel-variabel secara lokal, tidak memerlukan asumsi sebaran, dapat memperlihatkan interaksi dalam suatu data serta hasilnya mudah diinterpretasikan. Akan tetapi metode ini tidak didasarkan pada model peluang.

Page 13: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

DAFTAR PUSTAKA

Breiman L. J. H. Freidman R. A. Alshen, and C. J.Stone. 1993. Classification and Regression Trees. New York (US). Chapman and Hall

Buku Induk Dan Data Nilai Sekolah Ujian Nasional SMP Negeri 1 Dramaga Bogor Tahun Ajaran 2013/2014

Jaali H. 2007. Psikologi Pendidikan. Jakarta.Bumi Aksara.

Hartati A, Zain I, Ulama BSS. 2012. Analisis CART (Classification and Regression Trees) pada faktor- faktor yang mempengaruhi jumlah rumah tangga di Jawa Timur melakukan urbanisasi. Jurnal Sains dan Seni ITS. Vol 1 No 1.

Komalasari WB. 2007. Metode pohon regresi untuk eksploratori data dengan peubah yang banyak dan kompleks. Informatika Pertanian. Vol 16 No 1

Kudus A. 1999. Penerapan metode regresi berstruktur pohon pada pendugaan masa rawat kelahiran bayi (studi kasus di rumah sakit Hasan Sadikin Bandung) [Tesis]. Bogor. Sekolah Pascasarjana IPB.

Page 14: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

LAMPIRAN

Model Pohon Regresi Maksimal

RAPORT <= 7.47

Term ina lNode 1

STD = 0 . 000Avg = 8 . 350

W = 1. 00N = 1

PEK_AYAH = (1 )

Term ina lNode 2

STD = 0 . 000Av g = 7 . 310

W = 1. 00N = 1

UAS <= 8.64

Term ina lNode 3

STD = 0 .052Av g = 7 .563

W = 3 .00N = 3

UAS <= 8 .77

Term ina lNode 4

STD = 0. 086Av g = 7. 835

W = 4 .00N = 4

UAS > 8 . 77

Term inalNode 5

STD = 0 . 123Avg = 7 . 658

W = 6 . 00N = 6

UAS > 8 . 64

Node 9UAS <= 8 .77STD = 0 .140Avg = 7 .729W = 10 .00

N = 10

KELAS = (1, 3 )

Node 8UAS <= 8 .64

STD = 0 .143Av g = 7 .691

W = 13 . 00N = 13

KELAS = (2)

Term inalNode 6

STD = 0 . 205Avg = 7 . 860

W = 6 . 00N = 6

UAS <= 8 .84

Node 7KELAS = (1 , 3)

STD = 0 .183Avg = 7 .744W = 19 .00

N = 19

PEN_AYAH = (2 ,4 )

Term inalNode 7

STD = 0 .143Av g = 7 .403

W = 3 . 00N = 3

PEN_AYAH = (1 ,3 )

Term inalNode 8

STD = 0 .172Avg = 7 .593

W = 7 . 00N = 7

PEK_AYAH = (2 ,3 , 4)

Node 11PEN_AYAH = (2 , 4)

STD = 0 . 185Av g = 7 . 536W = 10. 00

N = 10

PEK_AYAH = (5 )

Term ina lNode 9

STD = 0 .125Av g = 7 .747

W = 4 .00N = 4

UAS > 8 .84

Node 10PEK_AYAH = (2 ,3 , 4)

STD = 0 .195Av g = 7 .596

W = 14 . 00N = 14

PEK_AYAH = (2 ,3 , 4,5 )

Node 6UAS <= 8 .84

STD = 0. 202Av g = 7. 682

W = 33 .00N = 33

UAS <= 8.89

Node 5PEK_AYAH = (1)

STD = 0 . 209Av g = 7 . 671

W = 34 .00N = 34

PEN_AYAH = (2 , 4)

Term ina lNode 10

STD = 0 . 174Av g = 7 . 648

W = 6. 00N = 6

RAPORT <= 7.57

Term ina lNode 11

STD = 0 . 033Avg = 7 . 740

W = 3. 00N = 3

PEK_AYAH = (1 ,3 , 5)

Term ina lNode 12

STD = 0 . 048Av g = 7 . 833

W = 3. 00N = 3

PEK_AYAH = (2 ,4 )

Term ina lNode 13

STD = 0 . 109Av g = 8 . 049

W = 8. 00N = 8

RAPORT <= 7 .69

Node 15PEK_AYAH = (1 ,3 , 5)

STD = 0 .136Av g = 7 .990

W = 11 . 00N = 11

RAPORT > 7. 69

Term inalNode 14

STD = 0 .014Avg = 7 .740

W = 3 . 00N = 3

RAPORT > 7. 57

Node 14RAPORT <= 7.69

STD = 0 .159Av g = 7 .936W = 14. 00

N = 14

PEN_AYAH = (1 , 3)

Node 13RAPORT <= 7.57

STD = 0 .163Av g = 7 .902

W = 17 . 00N = 17

UAS > 8 .89

Node 12PEN_AYAH = (2, 4 )

STD = 0 . 200Av g = 7 . 836W = 23. 00

N = 23

RAPORT > 7. 47

Node 4UAS <= 8 .89

STD = 0. 220Avg = 7. 737W = 57. 00

N = 57

RAPORT <= 7 .72

Node 3RAPORT <= 7.47

STD = 0 .233Av g = 7 .748

W = 58 . 00N = 58

UAS <= 8.91

Term inalNode 15

STD = 0 .185Av g = 8 .145

W = 2 . 00N = 2

UAS <= 9 .01

Term ina lNode 16

STD = 0 . 104Avg = 7 . 582

W = 6. 00N = 6

UAS > 9 .01

Term ina lNode 17

STD = 0 .186Av g = 7 .796

W = 7 .00N = 7

UAS <= 9.09

Node 21UAS <= 9 .01STD = 0 . 187Av g = 7 . 697

W = 13. 00N = 13

UAS > 9. 09

Term ina lNode 18

STD = 0. 220Av g = 7. 360

W = 2. 00N = 2

PEN_AYAH = (2 , 3, 4)

Node 20UAS <= 9 .09

STD = 0 . 223Av g = 7 . 652W = 15. 00

N = 15

PEN_AYAH = (1)

Term inalNode 19

STD = 0 . 060Avg = 8 . 000

W = 2 .00N = 2

UAS > 8. 91

Node 19PEN_AYAH = (2 ,3 , 4)

STD = 0 .239Av g = 7 .693

W = 17 . 00N = 17

J K = (2)

Node 18UAS <= 8 .91STD = 0. 272Av g = 7. 741W = 19 . 00

N = 19

PEN_AYAH = (1)

Term ina lNode 20

STD = 0. 105Avg = 7. 745

W = 2. 00N = 2

PEN_AYAH = (2 ,3 , 4)

Term ina lNode 21

STD = 0 . 148Av g = 8 . 026

W = 9. 00N = 9

J K = (1 )

Node 22PEN_AYAH = (1 )

STD = 0 . 178Av g = 7 . 975

W = 11. 00N = 11

PEK_AYAH = (3 ,4 )

Node 17J K = (2)

STD = 0 .267Avg = 7 .826

W = 30 .00N = 30

PEN_AYAH = (2 )

Term ina lNode 22

STD = 0 .158Avg = 7 .710

W = 4. 00N = 4

PENG_AYAH = (2 ,3 )

Term ina lNode 23

STD = 0. 093Av g = 7. 774

W = 5 .00N = 5

PENG_AYAH = (1 )

Term ina lNode 24

STD = 0. 139Avg = 8. 003

W = 6. 00N = 6

RAPORT <= 7 .79

Node 25PENG_AYAH = (2 , 3)

STD = 0. 166Avg = 7. 899W = 11. 00

N = 11

UAS <= 9.01

Term ina lNode 25

STD = 0. 083Av g = 7. 890

W = 3 .00N = 3

UAS > 9 . 01

Term inalNode 26

STD = 0 . 141Avg = 8 . 109

W = 9 . 00N = 9

PEN_AYAH = (3)

Node 27UAS <= 9.01

STD = 0 .160Av g = 8 .054W = 12 . 00

N = 12

PEN_AYAH = (1 , 4)

Term ina lNode 27

STD = 0. 181Av g = 8. 220

W = 9. 00N = 9

RAPORT > 7 .79

Node 26PEN_AYAH = (3 )

STD = 0 .188Av g = 8 .125W = 21 .00

N = 21

PEN_AYAH = (1 ,3 , 4)

Node 24RAPORT <= 7.79

STD = 0 .210Av g = 8 .048W = 32. 00

N = 32

PEK_AYAH = (1 ,2 , 5)

Node 23PEN_AYAH = (2 )

STD = 0 .231Av g = 8 .010W = 36. 00

N = 36

RAPORT > 7 .72

Node 16PEK_AYAH = (3 ,4 )

STD = 0 .264Av g = 7 .927W = 66 .00

N = 66

RAPORT <= 8 .34

Node 2RAPORT <= 7 .72

STD = 0 .265Av g = 7 .843W = 124 .00

N = 124

RAPORT > 8 . 34

Term ina lNode 28

STD = 0. 267Av g = 8. 684

W = 5 .00N = 5

Node 1RAPORT <= 8.34

STD = 0 .311Av g = 7 .876W = 129. 00

N = 129

Page 15: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

Tampilan Program Salford Predictive Modeler v7.0

Page 16: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

Manajemen DataFile Open Open Data File

Page 17: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

Klik Open, tampak Kotak Dialog Berikut. Pada Sort pilih File Order

Untuk penyajian data: Pilih View View Data… seperti tampak pada Kotak Dialog Berikut.

Page 18: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

Klik, tampak Kotak Dialog Berikut.

Page 19: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

Analisis Data pada Salford Predictive Modeler v7.0 Dari menu Model, pilih Contruct Model… seperti tampak pada Kotak Dialog berikut.

Pada Model Setup : Pilih Model seperti tampak pada kotak dialog berikut.

PadaModel Setup : Pilih Categorical dan pada Categorical

Page 20: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

Muncul seperti tampak pada kotak dialog berikut.

Pada Model Setup : Pilih Testing, Klik V-fold cross-validation tulis angka 10 seperti tampak pada Gambar berikut.

Pada Model Setup : Pilih Select Cases, sesuaikan default seperti tampak pada Gambar berikut.

Page 21: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

Pada Model Setup : Pilih Method, pada Classification Trees Klik Gini,pada Regression Trees pilih Least Squares, klik Use Linear Combination for Splitting, seperti tampak pada Gambar berikut.

PadaModel Setup : Pilih Penalty, sesuaikan default seperti tampak pada Gambar berikut.

Page 22: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan

Lalu klik Start . . .

Muncul Kotak seperti gambar berikut :

Page 23: repository.iainpare.ac.idrepository.iainpare.ac.id/197/1/Analyze Regression Tree.docx · Web viewSalah satu pendekatan yang dapat digunakan untuk mengatasi masalah ini adalah dengan