analisis multivariat
DESCRIPTION
Analisis DeskriminanTRANSCRIPT
-
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Bahaya dari merokok sudah sering didokumentasikan, data dari studi terkini
mengatakan bahwa terdapat hubungan kuantitatif antara merokok dengan berbagai
penyakit seperti jantung koroner, kanker paru-paru, kanker usus, emfisema paru,
penyakit vascular perifer serta kematian neonates.Hal ini karena dalam rokok
terkandung bahan kimia berbahaya.Secara rata-rata, setiap batang rokok mengandung
lebih dari 3000 bahan kimia berbahaya. Bahan berbahaya tersebut ialah kumarin,
timbale, hydrogen sianida, naftalena, kromium, nitrogen oksida, cadmium, ammonia,
karbon monoksida, aseton, formaldehida, tar, arsenic, benzene, nikotin (Boldsky.,
2013).
Bahan bahan tersebut sebagian besar merupakan bahan karsinogen, bahan
karsinogen adalah zat yang bisa menyebabkan kanker dengan mengubah asam
deoksiribonukleat (DNA) dalam sel-sel tubuh, dan hal ini mengganggu proses-proses
biologis. Dari bahan-bahan yang telah disebutkan diatas yang termasuk bahan
kasinogenik adalah timbal, peningkatan kadar timbale dalam darah dapat
menyebabkan keracunan. Kemudian tar, tar yang bersifat karsinogenik ini muncul
saat rokok dibakar.Yang terakhir adalah benzene, benzene adalah petrokimia yang
digunakan untuk men-dry clean pakaian, kandungan itu juga merupakan karsinogen
yang bisa menyababkan kanker darah.
Pada modul ini, data yang digunakan dikategorikan menjadi data asli
kelompok control dan data asli kelompok case, dengan variable lama merokok, umur,
berat badan, dan tinggi badan.Untuk mendapatkan suatu fungsi yang dapat
mengklasifikasikan beberapa variable prediktor ke dalam observasi pada kelompok
khusus yang sudah ada,maka menggunakan salah satu metode pengujian pada
Analisis Multivariat yaitu analisis diskriminan.
-
2
1.2 Rumusan Masalah
Berdasarkan uraian latar belakang diatas, maka rumusan masalah yang akan
dibahas dalam pratikum ini adalah sebagai berikut.
1. Bagaimana hasil uji normal multivariate pada data studi kasus pasien kanker
paru RSUD Dokter Soetomo?
2. Bagaimana hasil uji homogenitas varian kovarian pada data studi kasus
pasien kanker paru RSUD Dokter Soetomo?
3. Bagaimanafungsi diskriminan untuk komposisi 50:50, 70:30, 90:10 pada data
studi kasus pasien kanker paru RSUD Dokter Soetomo?
4. Bagaimana perbandingan fungsi diskriminan untuk data testing 50%, 30%
dan 10% pada data studi kasus pasien kanker paru RSUD Dokter Soetomo?
1.3 Tujuan
Tujuan yang ingin dicapai setelah melaksanakan pratikum pengendalia
kualitas statistik tentang diagram control adalah sebagai berikut.
1. Mengetahui apakah data studi kasus pasien kanker paru RSUD Dokter
Soetomo mengikuti distribusi normal multivariate dengan menggunakan uji
normal multivariate.
2. Mengetahui kehomogenan varian kovarian data studi kasus pasien kanker
paru RSUD Dokter Soetomodengan menggunakan uji homogenitas varian
kovarian.
3. Mengetahui hasil pengklasifikasian variable predictor ke dalam observasi
pada kelompok khusus pada data studi kasus pasien kanker paru RSUD
Dokter Soetomo dengan menggunakan analisis diskriminan.
4. Mengetahui perbandingan hasil fungsi diskriminan untuk komposisi 50:50,
70:30, 90:10 pada data studi kasus pasien kanker paru RSUD Dokter
Soetomo
1.4 Manfaat
Topik dalam pratikum ini daharapkan dapat memberikan manfaat dalam
bentuk aplikasi penggunaan diagram kontrol adalah sebagai berikut.
-
3
1. Mampu memahami konsep dan aplikasi analisis multivariat.
2. Mampu melakukan uji asumsi distribusi normal multivariat dan uji asumsi
homogenitas.
3. Mampu menganalisis dengan analisis diskriminan.
-
4
BAB II
TINJAUAN PUSTAKA
2.1 Tinjauan Statistik
Analisis multivariat adalah analisis statistika, dimana statistikamerupakan
ilmu yang mempelajari suatu perencanaan, pengumpulan, menganalisis,
menginterpretasi, dan mempresentasikan data.Dalam hal ini, analisis statistika
multivariat adalah analisis statistika terhadap data pengamatan melalui obyek-obyek
atau individu-individu jika hasil pengamatan tersebut merupakan kumpulan beberapa
variabel random khususnya yang saling berkorelasi.Jadi, analisis multivariat dapat
didefinisikan secara sederhana sebagai metode pengolahan variabel dalam jumlah
banyak untuk mencari pengaruhnya terhadap suatu obyek secara simultan.(Santoso,
2010).
2.1.1 Uji Normal Multivariat
Uji asumsi distribusi normal multivariat merupakan salah satu syarat untuk
melakukan analisis mulivariat. Pengujian ini dapat dengan dua cara, yaitu
1. Menghitung proporsi nilai jarak mahalanobis ( ) yang nilainya kurang
dari
dimana :
( ) ( ) (2.1)
(
)
(2.2)
2. Menghitung nilai koefisien korelasi kemudian menyesuaikan nilai koefisien
korelasi dengan tabel sehingga dapat diputuskan apakah data yang digunakan
telah memenuhi asumsi distribusi multivariat normal atau tidak.
Hipotesis:
H0: Data berdistribusi normal multivariat
H1: Data tidak berdistribusi normal multivariat
Statistik Uji :
-
5
( )
(2.3)
Daerah Kritis :
Tolak H0 jika
2.1.2 Uji Homogenitas
Uji homogenitas secara multivariat dapat dilakukan dengan uji Boxs M. Uji
Boxs M merupakan uji yang digunakan untuk mengetahui kehomogenan matriks
varians-kovarians secara multivariat.
Prosedur uji Boxs-M sebagai berikut.
Hipotesis
H0 :
H1 : Minimal ada satu i ; i = 1, 2, 3
Statistik uji
(2.4)
Dimana,
(2.5)
(2.6)
(2.7)
(2.8)
Daerah kritis
g ...21
k
ii
k
ipooliihitung vSSvc
111
2
2
1ln
2
112
gg
l
l
pooled SnSnSnn
)1()1()1()1(
12211
S
l
llpooled
l
l SnSnM ln)1(ln)1(
)1)(1(6
132
)1(
1
)1(
1 2
1
1
gp
pp
nn
uk
ik
i
ll
1 ii nv
l
llpooled
l
l SnSnuMuC ln)1(ln)1()1()1(
-
6
Tolak H0 jika
2.1.3 Analisis Diskriminan
Analisis diskriminan merupakan metode statistik multivariat untuk
mengelompokkan atau mengklasifikasikan sejumlah obyek ke dalam beberapa
kelompok, berdasarkan beberapa variabel sedemikian hingga setiap obyek menjadi
anggota dari salah satu kelompok, Tidak ada obyek yang menjadi anggota lebih dari
pada 1 kelompok.Analisis diskriminan akan menghasilkan variabel independen yang
benar-benar membedakan antar kelompok. Dalam analisis diskriminan terdapat 2
metode berdasarkan jumlah kategori dari variabel dependennya. Apabila terdapat 2
kategori yang terlibat da- lam pengklasifikasian, maka disebut dengan two-group
discriminant analysis. Sedangkan apabila terdapat 3 atau lebih kategori yang terlibat
dalam pengklasifikasian, maka disebut dengan multiple discriminant analysis.
Fungsi diskriminan pertama kali diperkenalkan oleh Ronald A. Fisher (1936)
dengan menggunakan beberapa kombinasi linier dari pengamtan yang cukup
mewakili populasi. Menurut Fisher, untuk mencari kombinasi linier dari p variabel
bebas tersebut dapat dilakukan dengan pemilihan koefisien-koefisiennya yang
menghasilkan hasil bagi maksimum antara matrik peragam antar kelompok (between-
group) dan matrik peragam dalam kelompok (within-group).
2 Berikut ini adalah aturan klasifikasi dalam analisis diskriminan untuk data yang
memenuhi kedua asumsi :
Jika didefinisikan skor diskriminan linier adalah :
(2.9)
maka untuk mengetahui digunakan rumus :
(2.10)
dengan
2
)1()1(2
1
2
ppkhitung
-
7
( )
(2.11)
Untuk mengevaluasi ketepatan klasifikasi, maka dapat dilakukan dengan
menggunakan Apperent Error Rates (APER).
=
sampel alJumlah tot
iklasifikassalah yangobjek alJumlah tot (2.12)
Aturan klasifikasi dengan estimasi minimumTPM (Total Probability of
Misclasification) untuk data dengan matrik varians-kovarians yang sama dan berasal
dari distribusi normal multivariat adalah alokasikan ke jika skor diskriminan
linier sama dengan nilai terbesar dari dengan
diberikan pada persamaan (2.9), .Fungsi diskriminan katonik dengan
menggunakan aturan Fisher adalah sebagai berikut.
Dimana:
= observasi baru
= observasi ke-1
(2.14)
(2.15)
Alokasikan nilai ke jika dan alokasikan nilai ke jika
.(Johnson dan Wichern, 2002).
2.2 Tinjauan Non Statistika
Kanker paru-paru adalah salah satu jenis kanker yang paling bisa
dicegah.Paling tidak terdapat 80-90 persen kasus kanker paru-paru yang berhubungan
dengan kebiasaan merokok.Pada tahap awal, tidak ada tanda atau gejala kanker paru-
paru yang jelas. Tapi kemudian gejala seperti batuk secara berkelanjutan hingga
mengalami batuk darah, selalu merasa kehabisan napas, kelelahan tanpa alasan,dan
-
8
penurunan berat badan akan muncul. Merokok bisa dikatakan sebagai penyebab
utama kanker paru-paru.Orang yang paling berisiko terkena kanker paru-paru adalah
perokok aktif.Sekitar 80-90 persen kanker paru-paru dikaitkan dengan kebiasaan
merokok. Meski begitu,bukan berarti setiap perokokakan terkena kanker paru-paru.
Selain itu, orang yang tidak merokok juga berkemungkinan terserang kanker paru-
paru, meski lebih rendah jumlahnya.
Pada tahun 2012, kanker paru-paru merupakan jenis kanker yang paling
sering terdiagnosis dan penyebab kematian akibat kanker tertinggi di dunia.Kanker
paru-paru adalah jenis kanker yang paling sering menyerang laki-laki Indonesia.
Berdasarkan data Globocan atau International Agency for Research on
Cancer (IARC) pada tahun 2012, di Indonesia terdapat 25.322 kasus kanker paru-
paru yang menimpa pria dan 9.374 kasus yang menimpa wanita. (kanker paru-paru :
alodokter)
-
9
BAB III
METODOLOGI PENELITIAN
3.1 Sumber Data
Data yang digunakan dalam praktikum iniadalah data sekunder yang
diperoleh dari data tugas akhir mahasiswa statistika ITS yang bernama Ni'matus
Solikha(1305109501) dengan judul Analisis Statistika terhadap penyakit kanker
paru oleh bahan karsinogenik(studi kasus pasien kanker paru RSUD Dokter
Soetomo).Data di ambil dari ruang baca statistika pada tanggal 20April 2015.
3.2 Variabel Penelitian
Variabel penelitiaan yang digunakan pada praktikum ini adalah tekanan darah
sebagai berikut:
Tabel 3.1 Variabel data studi kasus pasien kanker paru RSUD Dokter Soetomo
VARIABEL KETERANGAN
Y
Analisis terhadap penyakit
kanker paru-paru oeh
bahan karsinogenik
Kelompok 1
Data Asli Kelompok
Control
2 Data Asli Kelompok Case
X1 Lama Merokok
X2 Umur
X3 Berat
X4 Tinggi
3.3 Langkah Analisis
Dalam pembuatan modul ini langkah-langkah yang digunakan ialah sebagai
berikut.
1. Mencari data sekunder di Ruang Baca Statistika.
Data yang digunakan dalam modul ini harus memiliki minimal dua kelas.
2. Mendeteksi normalitas
-
10
Menguji apakah data mengikuti distribusi mulltinormal.
3. Mendeteksi Homogenitas
Menguji apakah data merupakan data yang homogen.
4. Menganalisis Deskriminan
Mengetahui fungsi deskriminan yang tepat untuk data dengan memiliki
minimal dua kelas.
5. Menarik Kesimpulan dan memberikan saran.
3.4 Diagram Alir
Dari langkah-langkah analisis tersebut dapat dibuat diagram alir dari awal
penulisan sampai penarikan kesimpulan.
Gambar 3.1 Diagram Alir Pratikum
Menguji normalitas data dengan menggunakanuji asumsi distribusi multinormal
Menguji homogenitas data dengan menggunakan uji homogenitas
Menganilisis deskriminan dengan mendapatkan fungsi deskriminan yang tepat
Membandingkan hasil fungsi dekriminan tiap proporsi
Mencari data.
Menarik Kesimpulan dan memberikan saran
-
11
BAB IV
ANALISIS DAN PEMBAHASAN
4.1 Uji Normal Multivariat
Sebelum menganalisis diskriminan, data harus diasumsikan mengikuti
distribusi normal multivariate.Berikut adalah uji normal multivariat pada data studi
kasus pasien kanker paru RSUD Dokter Soetomo.
4.1.1 Uji Normal Multivariat pada Kelompok Control
Pada uji normal multivariat, variabel yang diujikan adalah sebanyal 5
variabel.Berikut ini merupakan hipotesis dan hasil pengujian multivariat normal.
Hipotesis :
H0 : Data berdistribusi normal multivariat
H1 : Data tidak berdistribusi normal multivariat
Data dianalisis adalahdata studi kasus pasien kanker paru RSUD Dokter
Soetomo.Berikut adalah scatterplotdari data studi kasus pasien kanker paru RSUD
Dokter Soetomo kelompok control.
Gambar 4.1 ScatterplotData pada data studi kasus pasien kanker paru RSUD Dokter
Soetomo kelompok Control
Berdasarkan gambar 4.1 plot merah menunjukan sebaran dan mengikuti garis
normal. Lalu berdasarkan perhitungan korelasi dengan excel, diperoleh nilai korelasi
sebesar -0,1513 dimana hasil ini bila dibandingkan dengan nilai pada tabel QQ
dengan derajat bebas 0,05 yang bernilai 0.9508 maka dapat disimpulkan tolak H0.
14121086420
14
12
10
8
6
4
2
0
dd
q
Scatterplot of q vs dd
-
12
Sehingga data sebaran diatas tidak berdistribusi normal multivariate, namun agar
dapat dilakukan pengujian lebih lanjut data ini diasumsikan normal
multivariate.Selain itu dari hasil output makro minitab diperoleh t sebesar 0.65 atau
65%. Hal ini menunjukan bahwa data studi kasus pasien kanker paru RSUD Dokter
Soetomomengikuti distribusi normal multivariat karena nilai T2Hotteling mendekati
50% yang merupakan proporsi dari distribusi normal multivariat.
4.1.2 Uji Normal Multivariat pada Kelompok Case
Pada uji normal multivariat, variabel yang diujikan adalah sebanyal 5
variabel.Berikut ini merupakan hipotesis dan hasil pengujian multivariat normal.
Hipotesis :
H0 : Data berdistribusi normal multivariat
H1 : Data tidak berdistribusi normal multivariat
Data dianalisis adalahdata studi kasus pasien kanker paru RSUD Dokter
Soetomo.Berikut adalah scatterplotdari data studi kasus pasien kanker paru RSUD
Dokter Soetomo kelompok case.
Gambar 4.2 Scatterplotdata studi kasus pasien kanker paru RSUD Dokter Soetomo Kelompok Case
Berdasarkan gambar 4.2 plot merah menunjukan sebaran dan mengikuti garis
normal. Lalu berdasarkan perhitungan korelasi dengan excel, diperoleh nilai korelasi
sebesar 0,543693 dimana hasil ini bila dibandingkan dengan nilai pada tabel QQ
dengan derajat bebas 0,05 yang bernilai 0.9508maka dapat disimpulkan tolak H0.
Sehingga data sebaran diatas tidak berdistribusi normal multivariate, Namun dari
hasil output makro minitab diperoleh T2Hotteling sebesar 0.5 atau 50%. Hal ini
menunjukan bahwa data studi kasus pasien kanker paru RSUD Dokter Soetomo
mengikuti distribusi normal multivariat karena nilai T2
Hotteling sebesar 50% yang
1086420
14
12
10
8
6
4
2
0
dd
q
Scatterplot of q vs dd
-
13
merupakan proporsi dari distribusi normal multivariat. Agar dapat dilakukan
pengujian lebih lanjut sehingga data ini diasumsikan normal multivariat.
4.2 Uji Homogenitas, Matriks Varian Kovarian
Uji homogenitas menggunakan statistic uji Boxs M Test dengan hipotesis
sebagai berikut:
H0: Data bersifat Homogenitas
H1: Data tidak bersifat Homogenitas
Tabel 4.1 Boxs Test of Equality of Covariance Matrices
Box's M 33,871
F 1,935
DF1 15
DF2 5814
Sig 0,016
Berdasarkan tabel 4.1 diiketahui bahwa data studi kasus pasien kanker paru
RSUD Dokter Soetomo memiliki p-value 0,016, hal ini menyebabkantolak H0 karena
p-value
-
14
Tabel 4.2 Group StatisticsData Training 50%
Ynew Mean Std.
Deviation
Valid N (listwise)
Unweighted Weighted
1
Pertama merokok 7,4 80,993,827 10 10
Lama merokok 13,5 14,938,764 10 10
Umur 40,1 78,521,052 10 10
Berat 62,5 14,308,117 10 10
Tinggi 166,3 8,111,035 10 10
2
Pertama merokok 9,9 93,624,546 10 10
Lama merokok 20,7 23,017,143 10 10
Umur 50,5 1,933,477 10 10
Berat 51 96,032,402 10 10
Tinggi 160,3 10,328,493 10 10
Total
Pertama merokok 8,65 86,162,331 20 20
Lama merokok 17,1 19,243,317 20 20
Umur 45,3 15,321,468 20 20
Berat 56,75 13,246,151 20 20
Tinggi 163,3 95,482,156 20 20
Berdasarkan tabel 4.2 diketahui bahwa nilai meanuntuk variabel pertama
merokok pada kelompok controlsebesar 7,4 sedangkan untuk kelompok case sebesar
9,9. Sehingga nilai meanuntuk variabel umur pertama merokok pada kelompok
controllebih kecil daripada umur pertama merokok pada kelompok case. Selisih
meankedua variabel ini cukup besar yang berarti bahwa kedua variabel baik sebagai
penentu klasifikasi. Nilai mean untuk variabel lama merokok pada kelompok
controlsebesar 13,5 sedangkan untuk kelompok case sebesar 20,7. Sehingga nilai
meanuntuk variabel lama merokok pada kelompok controllebih kecil daripada lama
merokok pada kelompok case. Selisih meankedua variabel ini cukup besar yang
berarti bahwa kedua variabel baik sebagai penentu klasifikasi. Nilai mean untuk
variabel umur pada kelompok controlsebesar 40,1 sedangkan untuk kelompok case
sebesar 50,5. Sehingga nilai meanuntuk variabel umur pada kelompok controllebih
kecil daripada umur pada kelompok case. Selisih meankedua variabel ini cukup besar
yang berarti bahwa kedua variabel baik sebagai penentu klasifikasi.Nilai mean untuk
variabel berat pada kelompok controlsebesar 62,5 sedangkan untuk kelompok case
-
15
sebesar 51. Sehingga nilai meanuntuk variabel berat pada kelompok controllebih
besar daripada berat pada kelompok case. Selisih meankedua variabel ini cukup besar
yang berarti bahwa kedua variabel baik sebagai penentu klasifikasi. Nilai mean untuk
variabel tinggi pada kelompok controlsebesar 166,3 sedangkan untuk kelompok case
sebesar 160,3. Sehingga nilai meanuntuk variabel tinggi pada kelompok controllebih
besar daripada berat pada kelompok case. Selisih meankedua variabel ini cukup besar
yang berarti bahwa kedua variabel baik sebagai penentu klasifikasi.
Tabel 4.3 Tests of Equality of Group MeansData Training 50%
Wilks' Lambda F df1 df2 p-value
Pertama merokok 0,977845521 0,407815559 1 18 0,531
Lama merokok 0,96315984 0,688486852 1 18 0,418
Umur 0,878749832 2,483645456 1 18 0,132
Berat 0,801649794 4,453695042 1 18 0,049
Tinggi 0,896085902 2,087359876 1 18 0,166
Berdasarkan tabel 4.3 diketahui bahwa nilai p-valueuntuk variabel umur
pertama merokok adalah 0,531. Hal ini berarti gagal tolak H0karena nilai p-
value>=0,05. Sehingga tidak terdapat perbedaan rata rata umur pertama merokok
untuk kelompok controldan kelompok case.Nilai p-valuepada variabel lama merokok
diketahui sebesar 0,418.Hal ini berarti gagal tolak H0karena nilai p-value>=0,05.
Sehingga tidak terdapat perbedaan rata rata lama merokok untuk kelompok
controldan kelompok case.Nilai p-valuepada variabel umur diketahui sebesar
0,312.Hal ini berarti gagal tolak H0karena nilai p-value>=0,05. Sehingga tidak
terdapat perbedaan rata rata umur untuk kelompok controldan kelompok case.Nilai
p-valuepada variabel berat diketahui sebesar 0,049.Hal ini berarti tolak H0karena nilai
p-value=0,05. Sehingga tidak
terdapat perbedaan rata rata lama merokok untuk kelompok controldan kelompok
case.
-
16
Tabel 4.4 Pooled Within-Groups MatricesData Training 50%
Pertama merokok Lama merokok Umur Berat Tinggi
Correlation
Pertama merokok 1 0.815332436 0.206917 0.338031 0.3246997
Lama merokok 0.815332436 1 0.4963463 0.2781016 0.1114316
Umur 0.20691701 0.496346336 1 0.3366345 -0.3384533
Berat 0.338030955 0.278101595 0.3366345 1 0.4288745
Tinggi 0.324699652 0.111431604 -0.3384533 0.4288745 1
Berdasarkan tabel 4.4 diketahui bahwa nilai korelasi antara variabel pertama
merokok dan lama merokok sebesar 0,815. Hal ini berarti kedua variabel ini terjadi
multikolinearitas karena nilai korelasi lebih dari 0,5.Agar dapat diuji, maka
diasumsikan tidak terjadi multikolinearitas.Nilai korelasi antara variabel pertama
merokok dan umur sebesar 0,207. Hal ini berarti kedua variabel tidak terjadi
multikolineritas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel
pertama merokok dan berat sebesar 0,338. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5.Nilai korelasi antara variabel
pertama merokok dan tinggi sebesar 0,325. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel
lama merokok dan umur sebesar 0,496. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5.Nilai korelasi antara variabel
lama merokok dan berat sebesar 0,278. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel
lama merokok dan tinggi sebesar 0,111. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel
umur dan berat sebesar 0,337. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel
umur dan tinggi sebesar -0,338. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5.Nilai korelasi antara variabel
berat dan tinggi sebesar 0,429. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5.
-
17
Tabel 4.5 Log DeterminantsData Training 50%
Ynew Rank Log Determinant
1 5 18,02009684
2 5 23,58698745
Pooled within-groups 5 22,59462857
Berdasarkan tabel 4.5 diketahui nilai log determinant untuk kelompok
controladalah 18,020 dan log determinant untuk kelompok casesebesar 23,587.
Terlihat bahwa selisih antara kedua log determinant ini cukup besar yaitu sebesar
5,567. Hal ini berarti matriks kovarians dari kelompok controldan caseidentik.
Tabel 4.6 Test Result Data Training 50%
Box's M 32,23955572
F
Approx. 1,487759373
df1 15
df2 1304,526316
P-value 0,101722574
Berdasarkan tabel 4.6 diketahui nilai p-value sebesar 0,101. Hal ini berarti
gagal tolak H0karena nilai p-value>=0,05. Sehingga matriks kovarian untuk data
studi kasus pasien kanker paru RSUD Dokter Soetomo identik.
Tabel 4.7 Eigenvalues Data Training 50%
Function Eigenvalue % of Variance Cumulative % Canonical
Correlation
1 0,74134922 100 100 0,6524819
Berdasarkan tabel 4.6 diketahui nilai canonical correlationsebesar 0,652.
Nilai kuadrat dari canonical correlationadalah 0,4257. Hal ini berarti model mampu
menjelaskan 0,4257 atau 42,57% keragaman dari variabel jumlah penderita kanker
paru dan bukan penderita kanker paru.
Tabel 4.8 Wilks Lambda Data Training 50%
Test of Function(s) Wilks' Lambda Chi-square Df p-value
1 0,574267349 8,597233515 5 0,1262484
Berdasarkan tabel 4.8 diketahui nilai p-value untuk wilks lambda pada data
trainging studi kasus pasien kanker paru RSUD Dokter Soetomo 50% sebesar 0,126.
Hal ini berarti gagal tolak H0karena nilai p-value>=0,05. Sehingga kelima variabel
pada data ini mampu membedakan group secara tidak signifikan. Berdasarkan nilai
wilks lambdasebesar 0,5742, maka dapat diketahui bahwa ada 57,42% keragaman
yang tidak dapat dijelaskan.
-
18
Tabel 4.9 Standardized Canonical Discriminant Function Coefficients Data Training 50%
Function
1
Pertama_merokok 0,789
Lama_merokok -0,663
Umur 1,073
Berat -1,139
Tinggi 0,274
Berdasarkan tabel 4.9 dapat diketahui nilai function untuk variabel pertama
merokok sebesar 0,789.Hal ini berarti variabel pertama merokok mempunyai
hubungan searah dengan fungsi deskriminan.Nilai functionuntuk variabel lama
merokok sebesar -0,663.Hal ini berarti variabel lama merokok mempunyai hubungan
berbalik arah dengan fungsi deskriminan. Nilai function untuk variabel umur sebesar
1,073. Hal ini berarti variabel umur mempunyai hubungan searah dengan fungsi
deskriminan.Nilai functionuntuk variabel berat sebesar -1,139.Hal ini berarti berat
merokok mempunyai hubungan berbalik arah dengan fungsi deskriminan. Nilai
function untuk variabel tinggi sebesar 0,274. Hal ini berarti variabel tinggi
mempunyai hubungan searah dengan fungsi deskriminan.
Tabel 4.10 Structure Matrix Data Training 50%
Function
1
Berat -0,578
Umur 0,431
Tinggi -0,396
Lama_merokok 0,227
Pertama_merokok 0,175
Berdasarkan hasil tabel 4.10 diketahui bahwa variabel umur adalah variabel
prediktor yang paling berpengaruh dalam penentuan kelas suatu objek dalam analisis
deskriminan karena memiliki nilai functionyang paling besar yakni 0,431.
-
19
Tabel 4.11 Canonical Discriminant Function Coefficients Data Training 50%
Function
1
Pertama_merokok 0,09
Lama_merokok -0,034
Umur 0,073
Berat -0,093
Tinggi 0,029
(Constant) -2,998
Berdasarkan tabel 4.11 dapat diketahui persamaan fungsi deskriminan untuk
data training 50% sebagai berikut.
Y=-2,998+0,09pertama_merokok-0,034lama_merokok+0,073umur-
0,093berat+0,029tinggi.
Tabel 4.12 Function of Group Centroids Data Training 50%
ynew Function
1
1 -0,817
2 0,817
Berdasarkan tabel 4.12 dapat dikrtahui nilai functionuntuk setiap kelompok
pada data training 50%.Nilaifunction ini dapat digunakan untuk mencari nilai m.
Nilai m berguna untuk mengelompokan data berdasarkan hasil fisher dimana
pengelompokannya dilakukan dengan membandingkan nilai m dan y dari data
testing.Sehingga diperoleh nilai m sebagai berikut.
m =
(-0,817 +0,817 ) = 0
Tabel 4.13 Classification Function Coefficients Data Training 50%
ynew
1 2
Pertama_merokok -0.5171903 -0.3699052
Lama_merokok -0.3689335 -0.4247306
Umur 1.5828253 1.701618
Berat -1.1319114 -1.284587
Tinggi 3.6609437 3.709082
(Constant) -297.06013 -301.95796
Berdasarkan tabel 4.13 diperoleh persamaan fisher untuk kelompok
controldan casesebagai berikut.
-
20
y1= -297,060 - 0,517pertama_merokok - 0,369lama_merokok + 1,583umur -
1,132berat + 3,661tinggi
y2 = -301,958 - 0,369pertama_merokok - 0,425lama_merokok + 1,702umur -
1,285berat +3,709tinggi
Tabel 4.14 Classification Results Data Training 50%
Ynew Predicted Group
Membership
1 2 Total
Original Count 1 10 0 10
2 3 7 10
% 1 100 0 100
2 30 70 100
Cross-validateda Count 1 7 3 10
2 6 4 10
% 1 70 30 100
2 60 40 100
Berdasarkan tabel 4.14 dapat diketahui bahwa untuk kelompok control pada
data training 50%ada sebanyak 10 prediksi yang benar sedangkan untuk kelompok
caseada sebanyak 7 prediksi yang benar dan 3 prediksi yang salah.
Tabel 4.15 Classification Results Data Testing 50%
Ynew Predicted Group Membership
1 2 Total
Data
Testing
count 7 3 10
3 7 10
% 70 30 100
30 70 100
Hasil klasifikasi dari data testing50% diperoleh seperti pada tabel 4.15.
Diperoleh ada sebanyak 7 prediksi benar dan 3 prediksi salah untuk kelompok
controldan kelompok case. Berdasarkan nilai ini dapat diketahui nilai aper dan
akurasinyamasing masing sebesar 30% dan 70%.`
4.3.2 Anaisis Diskriminan untuk Data Training 70%
Berikut adalah hasil dari analisis diskriminan untuk data studi kasus pasien
kanker paru RSUD Dokter Soetomo untuk data training 70%.
-
21
Tabel 4.16 Group Statistics Data Training 70%
Ynew Mean Std.
Deviation
Valid N (listwise)
Unweighted Weighted
1
PertamaMerokok 4,9286 7,0325 14 14
LamaMerokok 8,7857 12,75315 14 14
Umur 39,3571 9,77915 14 14
Berat 56,8571 12,04388 14 14
Tinggi 165,29 8,63293 14 14
2
PertamaMerokok 8,2143 9,15825 14 14
LamaMerokok 17,1429 21,17276 14 14
Umur 47,9286 15,29939 14 14
Berat 50,6429 8,2145 14 14
Tinggi 158,43 10,12016 14 14
Total
PertamaMerokok 6,5714 8,18503 28 28
LamaMerokok 12,9643 17,67082 28 28
Umur 43,6429 13,33393 28 28
Berat 53,75 10,59918 28 28
Tinggi 161,86 9,86845 28 28
Berdasarkan tabel 4.16 diketahui bahwa nilai mean untuk variabel pertama
merokok pada kelompok controlsebesar 4,9286 sedangkan untuk kelompok case
sebesar 8,2143. Sehingga nilai meanuntuk variabel umur pertama merokok pada
kelompok controllebih kecil daripada umur pertama merokok pada kelompok case.
Selisih meankedua variabel ini cukup besar yang berarti bahwa kedua variabel baik
sebagai penentu klasifikasi. Nilai mean untuk variabel lama merokok pada kelompok
controlsebesar 8,7857 sedangkan untuk kelompok case sebesar 17,1429. Sehingga
nilai meanuntuk variabel lama merokok pada kelompok controllebih kecil daripada
lama merokok pada kelompok case. Selisih meankedua variabel ini cukup besar yang
berarti bahwa kedua variabel baik sebagai penentu klasifikasi. Nilai mean untuk
variabel umur pada kelompok controlsebesar 39,3571 sedangkan untuk kelompok
case sebesar 47,9286. Sehingga nilai meanuntuk variabel umur pada kelompok
controllebih kecil daripada umur pada kelompok case. Selisih meankedua variabel ini
cukup besar yang berarti bahwa kedua variabel baik sebagai penentu klasifikasi.Nilai
mean untuk variabel berat pada kelompok controlsebesar 56,8571 sedangkan untuk
kelompok case sebesar 50,6429. Sehingga nilai meanuntuk variabel berat pada
kelompok controllebih besar daripada berat pada kelompok case. Selisih meankedua
-
22
variabel ini cukup besar yang berarti bahwa kedua variabel baik sebagai penentu
klasifikasi. Nilai mean untuk variabel tinggi pada kelompok controlsebesar 165,29
sedangkan untuk kelompok case sebesar 158,43. Sehingga nilai meanuntuk variabel
tinggi pada kelompok controllebih besar daripada berat pada kelompok case. Selisih
meankedua variabel ini cukup besar yang berarti bahwa kedua variabel baik sebagai
penentu klasifikasi.
Tabel 4.17 Tests of Equality of Group Means Data Training 70%
Wilks' Lambda F df1 df2 p-value
Pertama merokok 0,958 1,134 1 26 0,297
Lama merokok 0,942 1,6 1 26 0,217
Umur 0,893 3,12 1 26 0,089
Berat 0,911 2,544 1 26 0,123
Tinggi 0,875 3,72 1 26 0,065
Berdasarkan tabel 4.17 diketahui bahwa nilai p-valueuntuk variabel umur
pertama merokok adalah 0,297. Hal ini berarti gagal tolak H0karena nilai p-
value>=0,05. Sehingga tidak terdapat perbedaan rata rata umur pertama merokok
untuk kelompok controldan kelompok case.Nilai p-valuepada variabel lama merokok
diketahui sebesar 0,217.Hal ini berarti gagal tolak H0karena nilai p-value>=0,05.
Sehingga tidak terdapat perbedaan rata rata lama merokok untuk kelompok
controldan kelompok case.Nilai p-valuepada variabel umur diketahui sebesar
0,089.Hal ini berarti gagal tolak H0karena nilai p-value>=0,05. Sehingga tidak
terdapat perbedaan rata rata umur untuk kelompok controldan kelompok case.Nilai
p-valuepada variabel berat diketahui sebesar 0,123.Hal ini berarti gagal tolak
H0karena nilai p-value>=0,05. Sehingga tidak terdapat perbedaan rata rata berat
untuk kelompok controldan kelompok case.Nilai p-valuepada variabel tinggi
diketahui sebesar 0,065.Hal ini berarti gagal tolak H0karena nilai p-value>=0,05.
Sehingga tidak terdapat perbedaan rata rata lama merokok untuk kelompok
controldan kelompok case.
-
23
Tabel 4.18 Pooled Within-Groups MatricesData Training 70%
Pertama merokok Lama merokok Umur Berat Tinggi
Correlation
Pertama merokok 1 0,86 0,205 0,218 0,397
Lama merokok 0,86 1 0,439 0,296 0,379
Umur 0,205 0,439 1 0,195 -0,056
Berat 0,218 0,296 0,195 1 0,499
Tinggi 0,397 0,379 -0,056 0,499 1
Berdasarkan tabel 4.18 diketahui bahwa nilai korelasi antara variabel pertama
merokok dan lama merokok sebesar 0,86. Hal ini berarti kedua variabel ini terjadi
multikolinearitas karena nilai korelasi lebih dari 0,5. Agar dapat diuji, maka
diasumsikan tidak terjadi multikolinearitas.Nilai korelasi antara variabel pertama
merokok dan umur sebesar 0,205. Hal ini berarti kedua variabel tidak terjadi
multikolineritas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel
pertama merokok dan berat sebesar 0,218. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel
pertama merokok dan tinggi sebesar 0,397. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel
lama merokok dan umur sebesar 0,439. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5.Nilai korelasi antara variabel
lama merokok dan berat sebesar 0,296. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel
lama merokok dan tinggi sebesar 0,379. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel
umur dan berat sebesar 0,195. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel
umur dan tinggi sebesar -0,056. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5.Nilai korelasi antara variabel
berat dan tinggi sebesar 0,499. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5.
-
24
Tabel 4.19 Log Determinants Data Training 70%
Ynew Rank Log Determinant
1 5 18,186
2 5 22,338
Pooled within-groups 5 21,869
Berdasarkan tabel 4.19 diketahui nilai log determinant untuk kelompok
controladalah 18,186 dan log determinant untuk kelompok casesebesar 22,338.
Terlihat bahwa selisih antara kedua log determinant ini cukup besar yaitu sebesar
4,152. Hal ini berarti matriks kovarians dari kelompok controldan caseidentik.
Tabel 4.20 Test Result Data Training 70%
Box's M 41,777
F
Approx. 2,198
df1 15
df2 2722
P-value 0,005
Berdasarkan tabel 4.20 diketahui nilai p-value sebesar 0,005. Hal ini berarti
gagal tolak H0karena nilai p-value
-
25
Tabel 4.23 Standardized Canonical Discriminant Function Coefficients Data Training 70%
Function
1
Pertama_merokok -0,343
Lama_merokok -0,269
Umur -0,404
Berat 0,427
Tinggi 0,596
Berdasarkan tabel 4.23 dapat diketahui nilai function untuk variabel pertama
merokok sebesar -0,343.Hal ini berarti variabel pertama merokok mempunyai
hubungan berbalik arah dengan fungsi deskriminan.Nilai functionuntuk variabel lama
merokok sebesar -0,269.Hal ini berarti variabel lama merokok mempunyai hubungan
berbalik arah dengan fungsi deskriminan. Nilai function untuk variabel umur sebesar
-0,404. Hal ini berarti variabel umur mempunyai hubungan berbalik arah dengan
fungsi deskriminan.Nilai functionuntuk variabel berat sebesar 0,427.Hal ini berarti
berat merokok mempunyai hubungan searah dengan fungsi deskriminan. Nilai
function untuk variabel tinggi sebesar 0,596. Hal ini berarti variabel tinggi
mempunyai hubungan searah dengan fungsi deskriminan.
Tabel 4.24 Structure Matrix Data Training 70%
Function
1
Tinggi 0,594
Umur -0,543
Berat 0,491
Lama_merokok -0,389
Pertama_merokok -0,328
Berdasarkan hasil tabel 4.24 diketahui bahwa variabel tinggi adalah variabel
prediktor yang paling berpengaruh dalam penentuan kelas suatu objek dalam analisis
deskriminan karena memiliki nilai functionyang paling besar yakni 0,594.
-
26
Tabel 4.25 Canonical Discriminant Function Coefficients Data Training 70%
Function
1
Pertama_merokok -0,042
Lama_merokok -0,015
Umur -0,031
Berat 0,041
Tinggi 0,063
(Constant) -10,629
Berdasarkan tabel 4.25 dapat diketahui persamaan fungsi deskriminan untuk
data training 70% sebagai berikut.
Y=-10,629-0,042pertama_merokok-0,015lama_merokok-0,031umur
+0,041berat+0,063tinggi.
Tabel 4.26 Function of Group Centroids Data Training 70%
ynew Function
1
1 0,614
2 -0,614
Berdasarkan tabel 4.26 dapat diketahui nilai functionsetiap kelompok pada
data training 70%.Nilai function ini dapat digunakan untuk mencari nilai m.Nilai m
berguna untuk mengelompokan data berdasarkan hasil fisher dimana
pengelompokannya dilakukan dengan membandingkan nilai m dan y dari data
testing.Sehingga diperoleh nilai m sebagai berikut.
m =
( 0,614 +(- 0,614) ) = 0
Tabel 4.27 Classification Function Coefficients Data Training 70%
ynew
1 2
Pertama_merokok 0,032 0,083
Lama_merokok -0,726 -0.707
Umur 0,87 0,909
Berat -0,567 -0,618
Tinggi 2,746 2,668
(Constant) -225,534 -212,478
Berdasarkan tabel 4.27 diperoleh persamaan fisher untuk kelompok
controldan casesebagai berikut.
-
27
y1= -225,534 + 0,032pertama_merokok - 0,726lama_merokok + 0,87umur
0,567berat + 2,746tinggi
y2 = -212,478 + 0,083pertama_merokok - 0,707lama_merokok + 0,909umur
0,618berat +2,668tinggi
Tabel 4.28 Classification Results Data Training 70%
Ynew
Predicted Group
Membership
1 2 Total
Original Count 1 12 2 14
2 3 11 14
% 1 85,7 14,3 100
2 21,4 78,6 100
Cross-validateda Count 1 9 5 14
2 6 8 14
% 1 64,3 35,7 100
2 42,9 57,1 100
Berdasarkan tabel 4.28 dapat diketahui bahwa untuk kelompok controlada
sebanyak 12 prediksi yang benar dan 2 prediksi yang salah sedangkan untuk
kelompok caseada sebanyak 11 prediksi yang benar dan 3 prediksi yang salah.
Tabel 4.29 Classification Results Data Testing 70%
Ynew Predicted Group Membership
1 2 Total
Data
Testing
count 5 1 6
1 5 6
% 83,33333 16,66667 100
16,66667 83,33333 100
Hasil klasifikasi dari data testing70% diperoleh seperti pada tabel
4.29.Diperoleh ada sebanyak 5 prediksi benar dan 1 prediksi salah untuk kelompok
controldan kelompok case.Berdasarkan nilai ini dapat diketahui nilai aper dan
akurasinya masing masing sebesar 16,67% dan 83,33%.
4.3.3 Anaisis Diskriminan untuk Data Training 90%
Berikut adalah hasil dari analisis deskriminan untuk data penyakit kanker paru
oleh bahan karsinogenik di RSUD Dokter Soetomo untuk data training 90%.
-
28
Tabel 4.30 Group Statistics Data Training 90%
Ynew Mean Std.
Deviation
Valid N (listwise)
Unweighted Weighted
1
PertamaMerokok 5,3333 7,02935 18 18
LamaMerokok 10,9444 14,96849 18 18
Umur 41,0000 9,97644 18 18
Berat 57,6111 11,61712 18 18
Tinggi 164,78 8,90839 18 18
2
PertamaMerokok 8,6667 8,67722 18 18
LamaMerokok 22,3333 22,43160 18 18
Umur 52,1667 13,2143 18 18
Berat 51,1111 9,41769 18 18
Tinggi 158,44 9,03732 18 18
Total
PertamaMerokok 7,0 7,96421 36 36
LamaMerokok 16,6389 19,66164 36 36
Umur 46,5833 12,85385 36 36
Berat 54,3611 10,93135 36 36
Tinggi 161,61 9,40905 36 36
Berdasarkan tabel 4.30 diketahui bahwa nilai mean untuk variabel pertama
merokok pada kelompok controlsebesar 5,3333 sedangkan untuk kelompok case
sebesar 8,6667. Sehingga nilai meanuntuk variabel umur pertama merokok pada
kelompok controllebih kecil daripada umur pertama merokok pada kelompok case.
Selisih meankedua variabel ini cukup besar yang berarti bahwa kedua variabel baik
sebagai penentu klasifikasi. Nilai mean untuk variabel lama merokok pada kelompok
controlsebesar 10,9444 sedangkan untuk kelompok case sebesar 22,3333. Sehingga
nilai meanuntuk variabel lama merokok pada kelompok controllebih kecil daripada
lama merokok pada kelompok case. Selisih meankedua variabel ini cukup besar yang
berarti bahwa kedua variabel baik sebagai penentu klasifikasi. Nilai mean untuk
variabel umur pada kelompok controlsebesar 41,000 sedangkan untuk kelompok case
sebesar 52,1667. Sehingga nilai meanuntuk variabel umur pada kelompok
controllebih kecil daripada umur pada kelompok case. Selisih meankedua variabel ini
cukup besar yang berarti bahwa kedua variabel baik sebagai penentu klasifikasi.Nilai
mean untuk variabel berat pada kelompok controlsebesar 57,6111 sedangkan untuk
kelompok case sebesar 51,1111. Sehingga nilai meanuntuk variabel berat pada
kelompok controllebih besar daripada berat pada kelompok case. Selisih meankedua
-
29
variabel ini cukup besar yang berarti bahwa kedua variabel baik sebagai penentu
klasifikasi. Nilai mean untuk variabel tinggi pada kelompok controlsebesar 164,78
sedangkan untuk kelompok case sebesar 158,44. Sehingga nilai meanuntuk variabel
tinggi pada kelompok controllebih besar daripada berat pada kelompok case. Selisih
meankedua variabel ini cukup besar yang berarti bahwa kedua variabel baik sebagai
penentu klasifikasi.
Tabel 4.31 Tests of Equality of Group Means Data Training 90%
Wilks' Lambda F df1 df2 p-value
Pertama merokok 0,955 1,604 1 34 0,214
Lama merokok 0,914 3,21 1 34 0,082
Umur 0,806 8,187 1 34 0,007
Berat 0,909 3,4 1 34 0,074
Tinggi 0,883 4,484 1 34 0,042
Berdasarkan tabel 4.31 diketahui bahwa nilai p-valueuntuk variabel umur
pertama merokok adalah 0,214. Hal ini berarti gagal tolak H0karena nilai p-
value>=0,05. Sehingga tidak terdapat perbedaan rata rata umur pertama merokok
untuk kelompok controldan kelompok case.Nilai p-valuepada variabel lama merokok
diketahui sebesar 0,082.Hal ini berarti gagal tolak H0karena nilai p-value>=0,05.
Sehingga tidak terdapat perbedaan rata rata lama merokok untuk kelompok
controldan kelompok case.Nilai p-valuepada variabel umur diketahui sebesar
0,007.Hal ini berarti tolak H0karena nilai p-value=0,05. Sehingga tidak terdapat perbedaan rata rata berat untuk
kelompok controldan kelompok case.Nilai p-valuepada variabel tinggi diketahui
sebesar 0,042.Hal ini berarti tolak H0karena nilai p-value
-
30
Berdasarkan tabel 4.32 diketahui bahwa nilai korelasi antara variabel pertama
merokok dan lama merokok sebesar 0,862. Hal ini berarti kedua variabel ini terjadi
multikolinearitas karena nilai korelasi lebih dari 0,5. Agar dapat diuji, maka
diasumsikan tidak terjadi multikolinearitas.Nilai korelasi antara variabel pertama
merokok dan umur sebesar 0,273. Hal ini berarti kedua variabel tidak terjadi
multikolineritas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel
pertama merokok dan berat sebesar 0,124. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel
pertama merokok dan tinggi sebesar 0,289. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel
lama merokok dan umur sebesar 0,448. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5.Nilai korelasi antara variabel
lama merokok dan berat sebesar 0,186. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel
lama merokok dan tinggi sebesar 0,240. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel
umur dan berat sebesar 0,284. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel
umur dan tinggi sebesar -0,074. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5.Nilai korelasi antara variabel
berat dan tinggi sebesar 0,411. Hal ini berarti kedua variabel tidak terjadi
multikolinearitas karena nilai korelasi kurang dari 0,5.
Tabel 4.33 Log Determinants Data Training 90%
Ynew Rank Log Determinant
1 5 19,285
2 5 22,483
Pooled within-groups 5 21,964
Berdasarkan tabel 4.33 diketahui nilai log determinant untuk kelompok
controladalah 19,285 dan log determinant untuk kelompok casesebesar 22,483.
Terlihat bahwa selisih antara kedua log determinant ini cukup besar yaitu sebesar
3,198. Hal ini berarti matriks kovarians dari kelompok controldan caseidentik.
-
31
Tabel 4.34 Test Result Data Training 90%
Box's M 36,724
F
Approx. 2,056
df1 15
df2 4654
P-value 0,009
Berdasarkan tabel 4.34 diketahui nilai p-value sebesar 0,009. Hal ini berarti
gagal tolak H0karena nilai p-value
-
32
hubungan searah dengan fungsi deskriminan.Nilai functionuntuk variabel lama
merokok sebesar 0,237.Hal ini berarti variabel lama merokok mempunyai hubungan
searah dengan fungsi deskriminan. Nilai function untuk variabel umur sebesar 0,700.
Hal ini berarti variabel umur mempunyai hubungan searah dengan fungsi
deskriminan.Nilai functionuntuk variabel berat sebesar -0,570.Hal ini berarti berat
merokok mempunyai hubungan berbalik arah dengan fungsi deskriminan. Nilai
function untuk variabel tinggi sebesar -0,295. Hal ini berarti variabel tinggi
mempunyai hubungan searah dengan fungsi deskriminan.
Tabel 4.38 Structure Matrix Data Training 90%
Function
1
Umur 0,684
Tinggi -0,506
Berat -0,441
Lama_merokok 0,428
Pertama_merokok 0,303
Berdasarkan hasil tabel 4.38 diketahui bahwa variabel umur adalah variabel
prediktor yang paling berpengaruh dalam penentuan kelas suatu objek dalam analisis
deskriminan karena memiliki nilai functionyang paling besar yakni 0,684.
Tabel 4.39 Canonical Discriminant Function Coefficients Data Training 90%
Function
1
Pertama_merokok 0,008
Lama_merokok 0,012
Umur 0,060
Berat -0,054
Tinggi -0,033
(Constant) 5,193
Berdasarkan tabel 4.39 dapat diketahui persamaan fungsi deskriminan untuk
data training 90% sebagai berikut.
Y=5,193+0,008pertama_merokok+0,012lama_merokok+0,06umur-
0,054berat-0,033tinggi.
-
33
Tabel 4.40 Function of Group Centroids Data Training 90%
Ynew Function
1
1 -0,697
2 0,697
Berdasarkan tabel 4.40 dapat dikrtahui nilai functionsetiap kelompok pada
data training 90%.Nilai function ini dapat digunakan untuk mencari nilai m. Nilai m
berguna untuk mengelompokan data berdasarkan hasil fisher dimana
pengelompokannya dilakukan dengan membandingkan nilai m dan y dari data
testing.Sehingga diperoleh nilai m sebagai berikut.
m =
( -0,697 + 0,697) = 0
Tabel 4.41 Classification Function Coefficients Data Training 90%
Ynew
1 2
Pertama_merokok -0,407 -0,396
Lama_merokok -0,726 -0.297
Umur 0,896 0,980
Berat -0,551 -0,627
Tinggi 2,664 2,618
(Constant) -219,85 -212,606
Berdasarkan tabel 4.41 diperoleh persamaan fisher untuk kelompok
controldan casesebagai berikut.
y1= -219,85 - 0,407pertama_merokok - 0,314lama_merokok + 0,896umur
0,551berat + 2,664tinggi
y2 = -212,606 - 0,396pertama_merokok - 0,297lama_merokok + 0,980umur
0,627berat +2,618tinggi.
-
34
Tabel 4.42 Classification Results Data Training 90%
Ynew
Predicted Group
Membership
1 2 Total
Original Count 1 17 1 18
2 5 13 18
% 1 94,4 5,6 100
2 27,8 72,2 100
Cross-validateda Count 1 13 5 18
2 5 13 18
% 1 72,2 27,8 100
2 27,8 72,2 100
Berdasarkan tabel 4.42 dapat diketahui bahwa untuk kelompok controlada
sebanyak 17 prediksi yang benar dan 1 prediksi yang salah sedangkan untuk
kelompok caseada sebanyak 13 prediksi yang benar dan 5 prediksi yang salah.
Tabel 4.43 Classification Results Data Testing 90%
Ynew Predicted Group Membership
1 2 Total
Data
Testing
count 2 0 2
1 1 2
% 100 0 100
50 50 100
Hasil klasifikasi dari data testing50% diperoleh seperti pada tabel
4.43.Diperoleh ada sebanyak 2 prediksi benar untuk kelompok controldanada 1
prediksi benar serta 1 prediksi salah untuk kelompok case.Berdasarkan nilai ini dapat
diketahui nilai aper dan akurasinya masing masing sebesar 25% dan 75%.
4.4 Perbandingan Analisis Diskriminan untuk Data Testing 50%,70%, dan
90%.
Berikut adalah hasil perbandingan analisis deskriminan untuk data
testing50%,70% dan 90%.
-
35
Tabel 4.44 Perbandingan Analisis Deskriminan untuk Data Testing 50%, 70%, dan 90%
Komposisi
data Kelompok
Prediksi Total Aper Akurasi
1 2
50% : 50% 1 7 3 10
30% 70% 2 3 7 10
70% : 30% 1 5 1 6
16,67% 83,33% 2 1 5 6
90% : 10% 1 2 0 2
25% 75% 2 1 1 2
Berdasarkan tabel 4.43 diketahui nilai aper dan akurasi untuk masing
masing komposisi. Komposisi data 50% : 50% memiliki nilai aper dan akurasi
masing masing 30% dan 70%. Komposisi data 70% : 30% memiliki nilai aper dan
akurasi masing masing 16,67% dan 83,33%. Komposisi data 90% : 10% memiliki
nilai aper dan akurasi masing masing 25% dan 75%. Maka diketahui nilai akurasi
yang tertinggi terletak pada komposisi data 70% : 30%. Sedangkan akurasi teendah
terletak pada komposisi data 50% : 50%.
-
36
BAB V
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Berdasarkan analisis dan pembahasan diatas, didapatkan kesimpulan sebagai
berikut :
1. Berdasakan uji normal multivariate, data studi kasus pasien kanker paru RSUD
Dokter Soetomo kelompok control tidak mengikuti distribusi normal multivariate
dengan nilai T2Hotteling 65% dan nilai korelasi -0,01513. Data studi kasus pasien
kanker paru RSUD Dokter Soetomo kelompok case tidak mengikuti distribusi
normal multivariate dengan nilai T2Hotteling 50% dan nilai korelasi sebesar
0,543693.
2. Uji homogenitas menggunakan metode Boxs M menjelaskan bahwa data studi
kasus pasien kanker paru RSUD Dokter Soetomo tidak bersifat homogeny dengan
P-Value 0,016.
3. Berdasarkan analisis diskriminan, diperoleh fungsi diskriminan untuk training
data 50% Y=-2,998 + 0,09pertama_merokok - 0,034lama_merokok + 0,073umur
- 0,093berat + 0,029tinggi dengan tingakt akurasi sebesar 70% dan nilai aper
30%. Kemudian untuk data training 70% diperoleh fungsi deskriminan Y=-
10,629 - 0,042pertama_merokok -0,015lama_merokok - 0,031umur + 0,041berat
+ 0,063tinggi dengan tingkat akurasi sebesar 83,33% dan nilai aper sebesar
16,67%. Untuk data training 90% diperoleh fungsi diskriminan Y=5,193 +
0,008pertama_merokok + 0,012lama_merokok + 0,06umur - 0,054berat -
0,033tinggi dengan tingkat akurasi sebesar 75% dan nilai aper 25%.
4. Berdasarkan perbandingan tingkat akurasi antara data testing 50%, 70%, dan 90%
diperoleh kesimpulan bahwa data yang memiliki tingkat akurasi paling tinggi
adalah data testing 70% dengan tingkat akurasi sebesar 83,33%.
-
37
5.2 Saran
Berdasarkan hasil penelitian pada praktikum ini saran yang dapat diberikan
adalah perlu ketelitian,kecermatan dan penggunaan metode yang tepat dalam analisis
deskriminan agar tidak terjadi kesalahan dalam melakukan analisa dan data sebaiknya
sudah memenuhi asumsi asumsi yang ditentukan agar dapat dianalisis diskriminan.
-
38
DAFTAR PUSTAKA
Johnson, R. A. and Wichern, D. W. (1992), Applied Multivariate Analysis, Third
Edition, Prentice Hall Inc, New Jersey
kanker paru-paru : alodokter. (n.d.). Retrieved April 22, 2015, from alodokter:
http://www.alodokter.com/kanker-paru-paru/
Morisson, D. F. 2005. Multivariate Statistical Methods Fourth Edition.The Wharton
School University of Pennsylvania.
Santoso, S. 2010.Statistik Multivariat Konsep dan Aplikasi dengan SPSS. Jakarta: PT
Elex Media Komputindo.
Solikha, Nimatus, 2012. Analisis Statistik terhadap penyakit kanker paru oleh bahan
karsinogenik (studi kasus pasien kanker paru RSUD Dokter
Soetomo)[Skripsi]. Surabaya: Fakultas Matematika dan Ilmu Pengetahuan
alam, Institut Teknologi Sepuluh Nopember.