analisis multivariat

1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Bahaya dari merokok sudah sering didokumentasikan, data dari studi terkini

mengatakan bahwa terdapat hubungan kuantitatif antara merokok dengan berbagai

penyakit seperti jantung koroner, kanker paru-paru, kanker usus, emfisema paru,

penyakit vascular perifer serta kematian neonates.Hal ini karena dalam rokok

terkandung bahan kimia berbahaya.Secara rata-rata, setiap batang rokok mengandung

lebih dari 3000 bahan kimia berbahaya. Bahan berbahaya tersebut ialah kumarin,

timbale, hydrogen sianida, naftalena, kromium, nitrogen oksida, cadmium, ammonia,

karbon monoksida, aseton, formaldehida, tar, arsenic, benzene, nikotin (Boldsky.,

2013).

Bahan bahan tersebut sebagian besar merupakan bahan karsinogen, bahan

karsinogen adalah zat yang bisa menyebabkan kanker dengan mengubah asam

deoksiribonukleat (DNA) dalam sel-sel tubuh, dan hal ini mengganggu proses-proses

biologis. Dari bahan-bahan yang telah disebutkan diatas yang termasuk bahan

kasinogenik adalah timbal, peningkatan kadar timbale dalam darah dapat

menyebabkan keracunan. Kemudian tar, tar yang bersifat karsinogenik ini muncul

saat rokok dibakar.Yang terakhir adalah benzene, benzene adalah petrokimia yang

digunakan untuk men-dry clean pakaian, kandungan itu juga merupakan karsinogen

yang bisa menyababkan kanker darah.

Pada modul ini, data yang digunakan dikategorikan menjadi data asli

kelompok control dan data asli kelompok case, dengan variable lama merokok, umur,

berat badan, dan tinggi badan.Untuk mendapatkan suatu fungsi yang dapat

mengklasifikasikan beberapa variable prediktor ke dalam observasi pada kelompok

khusus yang sudah ada,maka menggunakan salah satu metode pengujian pada

Analisis Multivariat yaitu analisis diskriminan.

2

1.2 Rumusan Masalah

Berdasarkan uraian latar belakang diatas, maka rumusan masalah yang akan

dibahas dalam pratikum ini adalah sebagai berikut.

1. Bagaimana hasil uji normal multivariate pada data studi kasus pasien kanker

paru RSUD Dokter Soetomo?

2. Bagaimana hasil uji homogenitas varian kovarian pada data studi kasus

pasien kanker paru RSUD Dokter Soetomo?

3. Bagaimanafungsi diskriminan untuk komposisi 50:50, 70:30, 90:10 pada data

studi kasus pasien kanker paru RSUD Dokter Soetomo?

4. Bagaimana perbandingan fungsi diskriminan untuk data testing 50%, 30%

dan 10% pada data studi kasus pasien kanker paru RSUD Dokter Soetomo?

1.3 Tujuan

Tujuan yang ingin dicapai setelah melaksanakan pratikum pengendalia

kualitas statistik tentang diagram control adalah sebagai berikut.

1. Mengetahui apakah data studi kasus pasien kanker paru RSUD Dokter

Soetomo mengikuti distribusi normal multivariate dengan menggunakan uji

normal multivariate.

2. Mengetahui kehomogenan varian kovarian data studi kasus pasien kanker

paru RSUD Dokter Soetomodengan menggunakan uji homogenitas varian

kovarian.

3. Mengetahui hasil pengklasifikasian variable predictor ke dalam observasi

pada kelompok khusus pada data studi kasus pasien kanker paru RSUD

Dokter Soetomo dengan menggunakan analisis diskriminan.

4. Mengetahui perbandingan hasil fungsi diskriminan untuk komposisi 50:50,

70:30, 90:10 pada data studi kasus pasien kanker paru RSUD Dokter

Soetomo

1.4 Manfaat

Topik dalam pratikum ini daharapkan dapat memberikan manfaat dalam

bentuk aplikasi penggunaan diagram kontrol adalah sebagai berikut.

3

1. Mampu memahami konsep dan aplikasi analisis multivariat.

2. Mampu melakukan uji asumsi distribusi normal multivariat dan uji asumsi

homogenitas.

3. Mampu menganalisis dengan analisis diskriminan.

4

BAB II

TINJAUAN PUSTAKA

2.1 Tinjauan Statistik

Analisis multivariat adalah analisis statistika, dimana statistikamerupakan

ilmu yang mempelajari suatu perencanaan, pengumpulan, menganalisis,

menginterpretasi, dan mempresentasikan data.Dalam hal ini, analisis statistika

multivariat adalah analisis statistika terhadap data pengamatan melalui obyek-obyek

atau individu-individu jika hasil pengamatan tersebut merupakan kumpulan beberapa

variabel random khususnya yang saling berkorelasi.Jadi, analisis multivariat dapat

didefinisikan secara sederhana sebagai metode pengolahan variabel dalam jumlah

banyak untuk mencari pengaruhnya terhadap suatu obyek secara simultan.(Santoso,

2010).

2.1.1 Uji Normal Multivariat

Uji asumsi distribusi normal multivariat merupakan salah satu syarat untuk

melakukan analisis mulivariat. Pengujian ini dapat dengan dua cara, yaitu

1. Menghitung proporsi nilai jarak mahalanobis ( ) yang nilainya kurang

dari

dimana :

( ) ( ) (2.1)

(

)

(2.2)

2. Menghitung nilai koefisien korelasi kemudian menyesuaikan nilai koefisien

korelasi dengan tabel sehingga dapat diputuskan apakah data yang digunakan

telah memenuhi asumsi distribusi multivariat normal atau tidak.

Hipotesis:

H0: Data berdistribusi normal multivariat

H1: Data tidak berdistribusi normal multivariat

Statistik Uji :

5

( )

(2.3)

Daerah Kritis :

Tolak H0 jika

2.1.2 Uji Homogenitas

Uji homogenitas secara multivariat dapat dilakukan dengan uji Boxs M. Uji

Boxs M merupakan uji yang digunakan untuk mengetahui kehomogenan matriks

varians-kovarians secara multivariat.

Prosedur uji Boxs-M sebagai berikut.

Hipotesis

H0 :

H1 : Minimal ada satu i ; i = 1, 2, 3

Statistik uji

(2.4)

Dimana,

(2.5)

(2.6)

(2.7)

(2.8)

Daerah kritis

g ...21

k

ii

k

ipooliihitung vSSvc

111

2

2

1ln

2

112

gg

l

l

pooled SnSnSnn

)1()1()1()1(

12211

S

l

llpooled

l

l SnSnM ln)1(ln)1(

)1)(1(6

132

)1(

1

)1(

1 2

1

1

gp

pp

nn

uk

ik

i

ll

1 ii nv

l

llpooled

l

l SnSnuMuC ln)1(ln)1()1()1(

6

Tolak H0 jika

2.1.3 Analisis Diskriminan

Analisis diskriminan merupakan metode statistik multivariat untuk

mengelompokkan atau mengklasifikasikan sejumlah obyek ke dalam beberapa

kelompok, berdasarkan beberapa variabel sedemikian hingga setiap obyek menjadi

anggota dari salah satu kelompok, Tidak ada obyek yang menjadi anggota lebih dari

pada 1 kelompok.Analisis diskriminan akan menghasilkan variabel independen yang

benar-benar membedakan antar kelompok. Dalam analisis diskriminan terdapat 2

metode berdasarkan jumlah kategori dari variabel dependennya. Apabila terdapat 2

kategori yang terlibat dalam pengklasifikasian, maka disebut dengan two-group

discriminant analysis. Sedangkan apabila terdapat 3 atau lebih kategori yang terlibat

dalam pengklasifikasian, maka disebut dengan multiple discriminant analysis.

Fungsi diskriminan pertama kali diperkenalkan oleh Ronald A. Fisher (1936)

dengan menggunakan beberapa kombinasi linier dari pengamtan yang cukup

mewakili populasi. Menurut Fisher, untuk mencari kombinasi linier dari p variabel

bebas tersebut dapat dilakukan dengan pemilihan koefisien-koefisiennya yang

menghasilkan hasil bagi maksimum antara matrik peragam antar kelompok (between-

group) dan matrik peragam dalam kelompok (within-group).

2 Berikut ini adalah aturan klasifikasi dalam analisis diskriminan untuk data yang

memenuhi kedua asumsi :

Jika didefinisikan skor diskriminan linier adalah :

(2.9)

maka untuk mengetahui digunakan rumus :

(2.10)

dengan

2

)1()1(2

1

2

ppkhitung

7

( )

(2.11)

Untuk mengevaluasi ketepatan klasifikasi, maka dapat dilakukan dengan

menggunakan Apperent Error Rates (APER).

=

sampel alJumlah tot

iklasifikassalah yangobjek alJumlah tot (2.12)

Aturan klasifikasi dengan estimasi minimumTPM (Total Probability of

Misclasification) untuk data dengan matrik varians-kovarians yang sama dan berasal

dari distribusi normal multivariat adalah alokasikan ke jika skor diskriminan

linier sama dengan nilai terbesar dari dengan

diberikan pada persamaan (2.9), .Fungsi diskriminan katonik dengan

menggunakan aturan Fisher adalah sebagai berikut.

Dimana:

= observasi baru

= observasi ke-1

(2.14)

(2.15)

Alokasikan nilai ke jika dan alokasikan nilai ke jika

.(Johnson dan Wichern, 2002).

2.2 Tinjauan Non Statistika

Kanker paru-paru adalah salah satu jenis kanker yang paling bisa

dicegah.Paling tidak terdapat 80-90 persen kasus kanker paru-paru yang berhubungan

dengan kebiasaan merokok.Pada tahap awal, tidak ada tanda atau gejala kanker paru-

paru yang jelas. Tapi kemudian gejala seperti batuk secara berkelanjutan hingga

mengalami batuk darah, selalu merasa kehabisan napas, kelelahan tanpa alasan,dan

8

penurunan berat badan akan muncul. Merokok bisa dikatakan sebagai penyebab

utama kanker paru-paru.Orang yang paling berisiko terkena kanker paru-paru adalah

perokok aktif.Sekitar 80-90 persen kanker paru-paru dikaitkan dengan kebiasaan

merokok. Meski begitu,bukan berarti setiap perokokakan terkena kanker paru-paru.

Selain itu, orang yang tidak merokok juga berkemungkinan terserang kanker paru-

paru, meski lebih rendah jumlahnya.

Pada tahun 2012, kanker paru-paru merupakan jenis kanker yang paling

sering terdiagnosis dan penyebab kematian akibat kanker tertinggi di dunia.Kanker

paru-paru adalah jenis kanker yang paling sering menyerang laki-laki Indonesia.

Berdasarkan data Globocan atau International Agency for Research on

Cancer (IARC) pada tahun 2012, di Indonesia terdapat 25.322 kasus kanker paru-

paru yang menimpa pria dan 9.374 kasus yang menimpa wanita. (kanker paru-paru :

alodokter)

9

BAB III

METODOLOGI PENELITIAN

3.1 Sumber Data

Data yang digunakan dalam praktikum iniadalah data sekunder yang

diperoleh dari data tugas akhir mahasiswa statistika ITS yang bernama Ni'matus

Solikha(1305109501) dengan judul Analisis Statistika terhadap penyakit kanker

paru oleh bahan karsinogenik(studi kasus pasien kanker paru RSUD Dokter

Soetomo).Data di ambil dari ruang baca statistika pada tanggal 20April 2015.

3.2 Variabel Penelitian

Variabel penelitiaan yang digunakan pada praktikum ini adalah tekanan darah

sebagai berikut:

Tabel 3.1 Variabel data studi kasus pasien kanker paru RSUD Dokter Soetomo

VARIABEL KETERANGAN

Y

Analisis terhadap penyakit

kanker paru-paru oeh

bahan karsinogenik

Kelompok 1

Data Asli Kelompok

Control

2 Data Asli Kelompok Case

X1 Lama Merokok

X2 Umur

X3 Berat

X4 Tinggi

3.3 Langkah Analisis

Dalam pembuatan modul ini langkah-langkah yang digunakan ialah sebagai

berikut.

1. Mencari data sekunder di Ruang Baca Statistika.

Data yang digunakan dalam modul ini harus memiliki minimal dua kelas.

2. Mendeteksi normalitas

10

Menguji apakah data mengikuti distribusi mulltinormal.

3. Mendeteksi Homogenitas

Menguji apakah data merupakan data yang homogen.

4. Menganalisis Deskriminan

Mengetahui fungsi deskriminan yang tepat untuk data dengan memiliki

minimal dua kelas.

5. Menarik Kesimpulan dan memberikan saran.

3.4 Diagram Alir

Dari langkah-langkah analisis tersebut dapat dibuat diagram alir dari awal

penulisan sampai penarikan kesimpulan.

Gambar 3.1 Diagram Alir Pratikum

Menguji normalitas data dengan menggunakanuji asumsi distribusi multinormal

Menguji homogenitas data dengan menggunakan uji homogenitas

Menganilisis deskriminan dengan mendapatkan fungsi deskriminan yang tepat

Membandingkan hasil fungsi dekriminan tiap proporsi

Mencari data.

Menarik Kesimpulan dan memberikan saran

11

BAB IV

ANALISIS DAN PEMBAHASAN

4.1 Uji Normal Multivariat

Sebelum menganalisis diskriminan, data harus diasumsikan mengikuti

distribusi normal multivariate.Berikut adalah uji normal multivariat pada data studi

kasus pasien kanker paru RSUD Dokter Soetomo.

4.1.1 Uji Normal Multivariat pada Kelompok Control

Pada uji normal multivariat, variabel yang diujikan adalah sebanyal 5

variabel.Berikut ini merupakan hipotesis dan hasil pengujian multivariat normal.

Hipotesis :

H0 : Data berdistribusi normal multivariat

H1 : Data tidak berdistribusi normal multivariat

Data dianalisis adalahdata studi kasus pasien kanker paru RSUD Dokter

Soetomo.Berikut adalah scatterplotdari data studi kasus pasien kanker paru RSUD

Dokter Soetomo kelompok control.

Gambar 4.1 ScatterplotData pada data studi kasus pasien kanker paru RSUD Dokter

Soetomo kelompok Control

Berdasarkan gambar 4.1 plot merah menunjukan sebaran dan mengikuti garis

normal. Lalu berdasarkan perhitungan korelasi dengan excel, diperoleh nilai korelasi

sebesar -0,1513 dimana hasil ini bila dibandingkan dengan nilai pada tabel QQ

dengan derajat bebas 0,05 yang bernilai 0.9508 maka dapat disimpulkan tolak H0.

14121086420

14

12

10

8

6

4

2

0

dd

q

Scatterplot of q vs dd

12

Sehingga data sebaran diatas tidak berdistribusi normal multivariate, namun agar

dapat dilakukan pengujian lebih lanjut data ini diasumsikan normal

multivariate.Selain itu dari hasil output makro minitab diperoleh t sebesar 0.65 atau

65%. Hal ini menunjukan bahwa data studi kasus pasien kanker paru RSUD Dokter

Soetomomengikuti distribusi normal multivariat karena nilai T2Hotteling mendekati

50% yang merupakan proporsi dari distribusi normal multivariat.

4.1.2 Uji Normal Multivariat pada Kelompok Case

Pada uji normal multivariat, variabel yang diujikan adalah sebanyal 5

variabel.Berikut ini merupakan hipotesis dan hasil pengujian multivariat normal.

Hipotesis :

H0 : Data berdistribusi normal multivariat

H1 : Data tidak berdistribusi normal multivariat

Data dianalisis adalahdata studi kasus pasien kanker paru RSUD Dokter

Soetomo.Berikut adalah scatterplotdari data studi kasus pasien kanker paru RSUD

Dokter Soetomo kelompok case.

Gambar 4.2 Scatterplotdata studi kasus pasien kanker paru RSUD Dokter Soetomo Kelompok Case

Berdasarkan gambar 4.2 plot merah menunjukan sebaran dan mengikuti garis

normal. Lalu berdasarkan perhitungan korelasi dengan excel, diperoleh nilai korelasi

sebesar 0,543693 dimana hasil ini bila dibandingkan dengan nilai pada tabel QQ

dengan derajat bebas 0,05 yang bernilai 0.9508maka dapat disimpulkan tolak H0.

Sehingga data sebaran diatas tidak berdistribusi normal multivariate, Namun dari

hasil output makro minitab diperoleh T2Hotteling sebesar 0.5 atau 50%. Hal ini

menunjukan bahwa data studi kasus pasien kanker paru RSUD Dokter Soetomo

mengikuti distribusi normal multivariat karena nilai T2

Hotteling sebesar 50% yang

1086420

14

12

10

8

6

4

2

0

dd

q

Scatterplot of q vs dd

13

merupakan proporsi dari distribusi normal multivariat. Agar dapat dilakukan

pengujian lebih lanjut sehingga data ini diasumsikan normal multivariat.

4.2 Uji Homogenitas, Matriks Varian Kovarian

Uji homogenitas menggunakan statistic uji Boxs M Test dengan hipotesis

sebagai berikut:

H0: Data bersifat Homogenitas

H1: Data tidak bersifat Homogenitas

Tabel 4.1 Boxs Test of Equality of Covariance Matrices

Box's M 33,871

F 1,935

DF1 15

DF2 5814

Sig 0,016

Berdasarkan tabel 4.1 diiketahui bahwa data studi kasus pasien kanker paru

RSUD Dokter Soetomo memiliki p-value 0,016, hal ini menyebabkantolak H0 karena

p-value

14

Tabel 4.2 Group StatisticsData Training 50%

Ynew Mean Std.

Deviation

Valid N (listwise)

Unweighted Weighted

1

Pertama merokok 7,4 80,993,827 10 10

Lama merokok 13,5 14,938,764 10 10

Umur 40,1 78,521,052 10 10

Berat 62,5 14,308,117 10 10

Tinggi 166,3 8,111,035 10 10

2

Pertama merokok 9,9 93,624,546 10 10

Lama merokok 20,7 23,017,143 10 10

Umur 50,5 1,933,477 10 10

Berat 51 96,032,402 10 10

Tinggi 160,3 10,328,493 10 10

Total

Pertama merokok 8,65 86,162,331 20 20

Lama merokok 17,1 19,243,317 20 20

Umur 45,3 15,321,468 20 20

Berat 56,75 13,246,151 20 20

Tinggi 163,3 95,482,156 20 20

Berdasarkan tabel 4.2 diketahui bahwa nilai meanuntuk variabel pertama

merokok pada kelompok controlsebesar 7,4 sedangkan untuk kelompok case sebesar

9,9. Sehingga nilai meanuntuk variabel umur pertama merokok pada kelompok

controllebih kecil daripada umur pertama merokok pada kelompok case. Selisih

meankedua variabel ini cukup besar yang berarti bahwa kedua variabel baik sebagai

penentu klasifikasi. Nilai mean untuk variabel lama merokok pada kelompok

controlsebesar 13,5 sedangkan untuk kelompok case sebesar 20,7. Sehingga nilai

meanuntuk variabel lama merokok pada kelompok controllebih kecil daripada lama

merokok pada kelompok case. Selisih meankedua variabel ini cukup besar yang

berarti bahwa kedua variabel baik sebagai penentu klasifikasi. Nilai mean untuk

variabel umur pada kelompok controlsebesar 40,1 sedangkan untuk kelompok case

sebesar 50,5. Sehingga nilai meanuntuk variabel umur pada kelompok controllebih

kecil daripada umur pada kelompok case. Selisih meankedua variabel ini cukup besar

yang berarti bahwa kedua variabel baik sebagai penentu klasifikasi.Nilai mean untuk

variabel berat pada kelompok controlsebesar 62,5 sedangkan untuk kelompok case

15

sebesar 51. Sehingga nilai meanuntuk variabel berat pada kelompok controllebih

besar daripada berat pada kelompok case. Selisih meankedua variabel ini cukup besar

yang berarti bahwa kedua variabel baik sebagai penentu klasifikasi. Nilai mean untuk

variabel tinggi pada kelompok controlsebesar 166,3 sedangkan untuk kelompok case

sebesar 160,3. Sehingga nilai meanuntuk variabel tinggi pada kelompok controllebih

besar daripada berat pada kelompok case. Selisih meankedua variabel ini cukup besar

yang berarti bahwa kedua variabel baik sebagai penentu klasifikasi.

Tabel 4.3 Tests of Equality of Group MeansData Training 50%

Wilks' Lambda F df1 df2 p-value

Pertama merokok 0,977845521 0,407815559 1 18 0,531

Lama merokok 0,96315984 0,688486852 1 18 0,418

Umur 0,878749832 2,483645456 1 18 0,132

Berat 0,801649794 4,453695042 1 18 0,049

Tinggi 0,896085902 2,087359876 1 18 0,166

Berdasarkan tabel 4.3 diketahui bahwa nilai p-valueuntuk variabel umur

pertama merokok adalah 0,531. Hal ini berarti gagal tolak H0karena nilai p-

value>=0,05. Sehingga tidak terdapat perbedaan rata rata umur pertama merokok

untuk kelompok controldan kelompok case.Nilai p-valuepada variabel lama merokok

diketahui sebesar 0,418.Hal ini berarti gagal tolak H0karena nilai p-value>=0,05.

Sehingga tidak terdapat perbedaan rata rata lama merokok untuk kelompok

controldan kelompok case.Nilai p-valuepada variabel umur diketahui sebesar

0,312.Hal ini berarti gagal tolak H0karena nilai p-value>=0,05. Sehingga tidak

terdapat perbedaan rata rata umur untuk kelompok controldan kelompok case.Nilai

p-valuepada variabel berat diketahui sebesar 0,049.Hal ini berarti tolak H0karena nilai

p-value=0,05. Sehingga tidak

terdapat perbedaan rata rata lama merokok untuk kelompok controldan kelompok

case.

16

Tabel 4.4 Pooled Within-Groups MatricesData Training 50%

Pertama merokok Lama merokok Umur Berat Tinggi

Correlation

Pertama merokok 1 0.815332436 0.206917 0.338031 0.3246997

Lama merokok 0.815332436 1 0.4963463 0.2781016 0.1114316

Umur 0.20691701 0.496346336 1 0.3366345 -0.3384533

Berat 0.338030955 0.278101595 0.3366345 1 0.4288745

Tinggi 0.324699652 0.111431604 -0.3384533 0.4288745 1

Berdasarkan tabel 4.4 diketahui bahwa nilai korelasi antara variabel pertama

merokok dan lama merokok sebesar 0,815. Hal ini berarti kedua variabel ini terjadi

multikolinearitas karena nilai korelasi lebih dari 0,5.Agar dapat diuji, maka

diasumsikan tidak terjadi multikolinearitas.Nilai korelasi antara variabel pertama

merokok dan umur sebesar 0,207. Hal ini berarti kedua variabel tidak terjadi

multikolineritas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel

pertama merokok dan berat sebesar 0,338. Hal ini berarti kedua variabel tidak terjadi

multikolinearitas karena nilai korelasi kurang dari 0,5.Nilai korelasi antara variabel

pertama merokok dan tinggi sebesar 0,325. Hal ini berarti kedua variabel tidak terjadi

multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel

lama merokok dan umur sebesar 0,496. Hal ini berarti kedua variabel tidak terjadi


lama merokok dan berat sebesar 0,278. Hal ini berarti kedua variabel tidak terjadi


lama merokok dan tinggi sebesar 0,111. Hal ini berarti kedua variabel tidak terjadi


umur dan berat sebesar 0,337. Hal ini berarti kedua variabel tidak terjadi


umur dan tinggi sebesar -0,338. Hal ini berarti kedua variabel tidak terjadi


berat dan tinggi sebesar 0,429. Hal ini berarti kedua variabel tidak terjadi

multikolinearitas karena nilai korelasi kurang dari 0,5.

17

Tabel 4.5 Log DeterminantsData Training 50%

Ynew Rank Log Determinant

1 5 18,02009684

2 5 23,58698745

Pooled within-groups 5 22,59462857

Berdasarkan tabel 4.5 diketahui nilai log determinant untuk kelompok

controladalah 18,020 dan log determinant untuk kelompok casesebesar 23,587.

Terlihat bahwa selisih antara kedua log determinant ini cukup besar yaitu sebesar

5,567. Hal ini berarti matriks kovarians dari kelompok controldan caseidentik.

Tabel 4.6 Test Result Data Training 50%

Box's M 32,23955572

F

Approx. 1,487759373

df1 15

df2 1304,526316

P-value 0,101722574

Berdasarkan tabel 4.6 diketahui nilai p-value sebesar 0,101. Hal ini berarti

gagal tolak H0karena nilai p-value>=0,05. Sehingga matriks kovarian untuk data

studi kasus pasien kanker paru RSUD Dokter Soetomo identik.

Tabel 4.7 Eigenvalues Data Training 50%

Function Eigenvalue % of Variance Cumulative % Canonical

Correlation

1 0,74134922 100 100 0,6524819

Berdasarkan tabel 4.6 diketahui nilai canonical correlationsebesar 0,652.

Nilai kuadrat dari canonical correlationadalah 0,4257. Hal ini berarti model mampu

menjelaskan 0,4257 atau 42,57% keragaman dari variabel jumlah penderita kanker

paru dan bukan penderita kanker paru.

Tabel 4.8 Wilks Lambda Data Training 50%

Test of Function(s) Wilks' Lambda Chi-square Df p-value

1 0,574267349 8,597233515 5 0,1262484

Berdasarkan tabel 4.8 diketahui nilai p-value untuk wilks lambda pada data

trainging studi kasus pasien kanker paru RSUD Dokter Soetomo 50% sebesar 0,126.

Hal ini berarti gagal tolak H0karena nilai p-value>=0,05. Sehingga kelima variabel

pada data ini mampu membedakan group secara tidak signifikan. Berdasarkan nilai

wilks lambdasebesar 0,5742, maka dapat diketahui bahwa ada 57,42% keragaman

yang tidak dapat dijelaskan.

18

Tabel 4.9 Standardized Canonical Discriminant Function Coefficients Data Training 50%

Function

1

Pertama_merokok 0,789

Lama_merokok -0,663

Umur 1,073

Berat -1,139

Tinggi 0,274

Berdasarkan tabel 4.9 dapat diketahui nilai function untuk variabel pertama

merokok sebesar 0,789.Hal ini berarti variabel pertama merokok mempunyai

hubungan searah dengan fungsi deskriminan.Nilai functionuntuk variabel lama

merokok sebesar -0,663.Hal ini berarti variabel lama merokok mempunyai hubungan

berbalik arah dengan fungsi deskriminan. Nilai function untuk variabel umur sebesar

1,073. Hal ini berarti variabel umur mempunyai hubungan searah dengan fungsi

deskriminan.Nilai functionuntuk variabel berat sebesar -1,139.Hal ini berarti berat

merokok mempunyai hubungan berbalik arah dengan fungsi deskriminan. Nilai

function untuk variabel tinggi sebesar 0,274. Hal ini berarti variabel tinggi

mempunyai hubungan searah dengan fungsi deskriminan.

Tabel 4.10 Structure Matrix Data Training 50%

Function

1

Berat -0,578

Umur 0,431

Tinggi -0,396

Lama_merokok 0,227


Berdasarkan hasil tabel 4.10 diketahui bahwa variabel umur adalah variabel

prediktor yang paling berpengaruh dalam penentuan kelas suatu objek dalam analisis

deskriminan karena memiliki nilai functionyang paling besar yakni 0,431.

19

Tabel 4.11 Canonical Discriminant Function Coefficients Data Training 50%

Function

1


Lama_merokok -0,034

Umur 0,073

Berat -0,093

Tinggi 0,029

(Constant) -2,998

Berdasarkan tabel 4.11 dapat diketahui persamaan fungsi deskriminan untuk

data training 50% sebagai berikut.

Y=-2,998+0,09pertama_merokok-0,034lama_merokok+0,073umur-

0,093berat+0,029tinggi.

Tabel 4.12 Function of Group Centroids Data Training 50%

ynew Function

1

1 -0,817

2 0,817

Berdasarkan tabel 4.12 dapat dikrtahui nilai functionuntuk setiap kelompok

pada data training 50%.Nilaifunction ini dapat digunakan untuk mencari nilai m.

Nilai m berguna untuk mengelompokan data berdasarkan hasil fisher dimana

pengelompokannya dilakukan dengan membandingkan nilai m dan y dari data

testing.Sehingga diperoleh nilai m sebagai berikut.

m =

(-0,817 +0,817 ) = 0

Tabel 4.13 Classification Function Coefficients Data Training 50%

ynew

1 2

Pertama_merokok -0.5171903 -0.3699052

Lama_merokok -0.3689335 -0.4247306

Umur 1.5828253 1.701618

Berat -1.1319114 -1.284587

Tinggi 3.6609437 3.709082

(Constant) -297.06013 -301.95796

Berdasarkan tabel 4.13 diperoleh persamaan fisher untuk kelompok

controldan casesebagai berikut.

20

y1= -297,060 - 0,517pertama_merokok - 0,369lama_merokok + 1,583umur -

1,132berat + 3,661tinggi

y2 = -301,958 - 0,369pertama_merokok - 0,425lama_merokok + 1,702umur -

1,285berat +3,709tinggi

Tabel 4.14 Classification Results Data Training 50%

Ynew Predicted Group

Membership

1 2 Total

Original Count 1 10 0 10

2 3 7 10

% 1 100 0 100

2 30 70 100

Cross-validateda Count 1 7 3 10

2 6 4 10

% 1 70 30 100

2 60 40 100

Berdasarkan tabel 4.14 dapat diketahui bahwa untuk kelompok control pada

data training 50%ada sebanyak 10 prediksi yang benar sedangkan untuk kelompok

caseada sebanyak 7 prediksi yang benar dan 3 prediksi yang salah.

Tabel 4.15 Classification Results Data Testing 50%

Ynew Predicted Group Membership

1 2 Total

Data

Testing

count 7 3 10

3 7 10

% 70 30 100

30 70 100

Hasil klasifikasi dari data testing50% diperoleh seperti pada tabel 4.15.

Diperoleh ada sebanyak 7 prediksi benar dan 3 prediksi salah untuk kelompok

controldan kelompok case. Berdasarkan nilai ini dapat diketahui nilai aper dan

akurasinyamasing masing sebesar 30% dan 70%.`

4.3.2 Anaisis Diskriminan untuk Data Training 70%

Berikut adalah hasil dari analisis diskriminan untuk data studi kasus pasien

kanker paru RSUD Dokter Soetomo untuk data training 70%.

21

Tabel 4.16 Group Statistics Data Training 70%

Ynew Mean Std.

Deviation

Valid N (listwise)

Unweighted Weighted

1

PertamaMerokok 4,9286 7,0325 14 14

LamaMerokok 8,7857 12,75315 14 14

Umur 39,3571 9,77915 14 14

Berat 56,8571 12,04388 14 14

Tinggi 165,29 8,63293 14 14

2


LamaMerokok 17,1429 21,17276 14 14

Umur 47,9286 15,29939 14 14

Berat 50,6429 8,2145 14 14

Tinggi 158,43 10,12016 14 14

Total


LamaMerokok 12,9643 17,67082 28 28

Umur 43,6429 13,33393 28 28

Berat 53,75 10,59918 28 28

Tinggi 161,86 9,86845 28 28

Berdasarkan tabel 4.16 diketahui bahwa nilai mean untuk variabel pertama

merokok pada kelompok controlsebesar 4,9286 sedangkan untuk kelompok case

sebesar 8,2143. Sehingga nilai meanuntuk variabel umur pertama merokok pada

kelompok controllebih kecil daripada umur pertama merokok pada kelompok case.

Selisih meankedua variabel ini cukup besar yang berarti bahwa kedua variabel baik

sebagai penentu klasifikasi. Nilai mean untuk variabel lama merokok pada kelompok

controlsebesar 8,7857 sedangkan untuk kelompok case sebesar 17,1429. Sehingga

nilai meanuntuk variabel lama merokok pada kelompok controllebih kecil daripada

lama merokok pada kelompok case. Selisih meankedua variabel ini cukup besar yang


variabel umur pada kelompok controlsebesar 39,3571 sedangkan untuk kelompok

case sebesar 47,9286. Sehingga nilai meanuntuk variabel umur pada kelompok

controllebih kecil daripada umur pada kelompok case. Selisih meankedua variabel ini

cukup besar yang berarti bahwa kedua variabel baik sebagai penentu klasifikasi.Nilai

mean untuk variabel berat pada kelompok controlsebesar 56,8571 sedangkan untuk

kelompok case sebesar 50,6429. Sehingga nilai meanuntuk variabel berat pada

kelompok controllebih besar daripada berat pada kelompok case. Selisih meankedua

22

variabel ini cukup besar yang berarti bahwa kedua variabel baik sebagai penentu

klasifikasi. Nilai mean untuk variabel tinggi pada kelompok controlsebesar 165,29

sedangkan untuk kelompok case sebesar 158,43. Sehingga nilai meanuntuk variabel

tinggi pada kelompok controllebih besar daripada berat pada kelompok case. Selisih


penentu klasifikasi.

Tabel 4.17 Tests of Equality of Group Means Data Training 70%


Pertama merokok 0,958 1,134 1 26 0,297

Lama merokok 0,942 1,6 1 26 0,217

Umur 0,893 3,12 1 26 0,089

Berat 0,911 2,544 1 26 0,123

Tinggi 0,875 3,72 1 26 0,065








0,089.Hal ini berarti gagal tolak H0karena nilai p-value>=0,05. Sehingga tidak

terdapat perbedaan rata rata umur untuk kelompok controldan kelompok case.Nilai

p-valuepada variabel berat diketahui sebesar 0,123.Hal ini berarti gagal tolak

H0karena nilai p-value>=0,05. Sehingga tidak terdapat perbedaan rata rata berat

untuk kelompok controldan kelompok case.Nilai p-valuepada variabel tinggi



controldan kelompok case.

23

Tabel 4.18 Pooled Within-Groups MatricesData Training 70%

Pertama merokok Lama merokok Umur Berat Tinggi

Correlation

Pertama merokok 1 0,86 0,205 0,218 0,397

Lama merokok 0,86 1 0,439 0,296 0,379

Umur 0,205 0,439 1 0,195 -0,056

Berat 0,218 0,296 0,195 1 0,499

Tinggi 0,397 0,379 -0,056 0,499 1



multikolinearitas karena nilai korelasi lebih dari 0,5. Agar dapat diuji, maka




















24

Tabel 4.19 Log Determinants Data Training 70%


1 5 18,186

2 5 22,338







Box's M 41,777

F

Approx. 2,198

df1 15

df2 2722

P-value 0,005


gagal tolak H0karena nilai p-value

25

Tabel 4.23 Standardized Canonical Discriminant Function Coefficients Data Training 70%

Function

1

Pertama_merokok -0,343

Lama_merokok -0,269

Umur -0,404

Berat 0,427

Tinggi 0,596

Berdasarkan tabel 4.23 dapat diketahui nilai function untuk variabel pertama

merokok sebesar -0,343.Hal ini berarti variabel pertama merokok mempunyai

hubungan berbalik arah dengan fungsi deskriminan.Nilai functionuntuk variabel lama

merokok sebesar -0,269.Hal ini berarti variabel lama merokok mempunyai hubungan

berbalik arah dengan fungsi deskriminan. Nilai function untuk variabel umur sebesar

-0,404. Hal ini berarti variabel umur mempunyai hubungan berbalik arah dengan

fungsi deskriminan.Nilai functionuntuk variabel berat sebesar 0,427.Hal ini berarti

berat merokok mempunyai hubungan searah dengan fungsi deskriminan. Nilai

function untuk variabel tinggi sebesar 0,596. Hal ini berarti variabel tinggi



Function

1

Tinggi 0,594

Umur -0,543

Berat 0,491

Lama_merokok -0,389


Berdasarkan hasil tabel 4.24 diketahui bahwa variabel tinggi adalah variabel



26


Function

1


Lama_merokok -0,015

Umur -0,031

Berat 0,041

Tinggi 0,063

(Constant) -10,629



Y=-10,629-0,042pertama_merokok-0,015lama_merokok-0,031umur

+0,041berat+0,063tinggi.


ynew Function

1

1 0,614

2 -0,614

Berdasarkan tabel 4.26 dapat diketahui nilai functionsetiap kelompok pada

data training 70%.Nilai function ini dapat digunakan untuk mencari nilai m.Nilai m

berguna untuk mengelompokan data berdasarkan hasil fisher dimana



m =

( 0,614 +(- 0,614) ) = 0


ynew

1 2

Pertama_merokok 0,032 0,083

Lama_merokok -0,726 -0.707

Umur 0,87 0,909

Berat -0,567 -0,618

Tinggi 2,746 2,668

(Constant) -225,534 -212,478



27

y1= -225,534 + 0,032pertama_merokok - 0,726lama_merokok + 0,87umur


y2 = -212,478 + 0,083pertama_merokok - 0,707lama_merokok + 0,909umur

0,618berat +2,668tinggi


Ynew

Predicted Group

Membership

1 2 Total


2 3 11 14

% 1 85,7 14,3 100

2 21,4 78,6 100


2 6 8 14

% 1 64,3 35,7 100

2 42,9 57,1 100

Berdasarkan tabel 4.28 dapat diketahui bahwa untuk kelompok controlada

sebanyak 12 prediksi yang benar dan 2 prediksi yang salah sedangkan untuk

kelompok caseada sebanyak 11 prediksi yang benar dan 3 prediksi yang salah.



1 2 Total

Data

Testing

count 5 1 6

1 5 6

% 83,33333 16,66667 100

16,66667 83,33333 100

Hasil klasifikasi dari data testing70% diperoleh seperti pada tabel

4.29.Diperoleh ada sebanyak 5 prediksi benar dan 1 prediksi salah untuk kelompok

controldan kelompok case.Berdasarkan nilai ini dapat diketahui nilai aper dan

akurasinya masing masing sebesar 16,67% dan 83,33%.

4.3.3 Anaisis Diskriminan untuk Data Training 90%

Berikut adalah hasil dari analisis deskriminan untuk data penyakit kanker paru

oleh bahan karsinogenik di RSUD Dokter Soetomo untuk data training 90%.

28

Tabel 4.30 Group Statistics Data Training 90%

Ynew Mean Std.

Deviation

Valid N (listwise)

Unweighted Weighted

1


LamaMerokok 10,9444 14,96849 18 18

Umur 41,0000 9,97644 18 18

Berat 57,6111 11,61712 18 18

Tinggi 164,78 8,90839 18 18

2


LamaMerokok 22,3333 22,43160 18 18

Umur 52,1667 13,2143 18 18

Berat 51,1111 9,41769 18 18

Tinggi 158,44 9,03732 18 18

Total


LamaMerokok 16,6389 19,66164 36 36

Umur 46,5833 12,85385 36 36

Berat 54,3611 10,93135 36 36

Tinggi 161,61 9,40905 36 36

Berdasarkan tabel 4.30 diketahui bahwa nilai mean untuk variabel pertama

merokok pada kelompok controlsebesar 5,3333 sedangkan untuk kelompok case

sebesar 8,6667. Sehingga nilai meanuntuk variabel umur pertama merokok pada

kelompok controllebih kecil daripada umur pertama merokok pada kelompok case.

Selisih meankedua variabel ini cukup besar yang berarti bahwa kedua variabel baik

sebagai penentu klasifikasi. Nilai mean untuk variabel lama merokok pada kelompok

controlsebesar 10,9444 sedangkan untuk kelompok case sebesar 22,3333. Sehingga

nilai meanuntuk variabel lama merokok pada kelompok controllebih kecil daripada

lama merokok pada kelompok case. Selisih meankedua variabel ini cukup besar yang


variabel umur pada kelompok controlsebesar 41,000 sedangkan untuk kelompok case

sebesar 52,1667. Sehingga nilai meanuntuk variabel umur pada kelompok

controllebih kecil daripada umur pada kelompok case. Selisih meankedua variabel ini

cukup besar yang berarti bahwa kedua variabel baik sebagai penentu klasifikasi.Nilai

mean untuk variabel berat pada kelompok controlsebesar 57,6111 sedangkan untuk

kelompok case sebesar 51,1111. Sehingga nilai meanuntuk variabel berat pada

kelompok controllebih besar daripada berat pada kelompok case. Selisih meankedua

29

variabel ini cukup besar yang berarti bahwa kedua variabel baik sebagai penentu

klasifikasi. Nilai mean untuk variabel tinggi pada kelompok controlsebesar 164,78

sedangkan untuk kelompok case sebesar 158,44. Sehingga nilai meanuntuk variabel

tinggi pada kelompok controllebih besar daripada berat pada kelompok case. Selisih


penentu klasifikasi.

Tabel 4.31 Tests of Equality of Group Means Data Training 90%


Pertama merokok 0,955 1,604 1 34 0,214

Lama merokok 0,914 3,21 1 34 0,082

Umur 0,806 8,187 1 34 0,007

Berat 0,909 3,4 1 34 0,074

Tinggi 0,883 4,484 1 34 0,042








0,007.Hal ini berarti tolak H0karena nilai p-value=0,05. Sehingga tidak terdapat perbedaan rata rata berat untuk

kelompok controldan kelompok case.Nilai p-valuepada variabel tinggi diketahui

sebesar 0,042.Hal ini berarti tolak H0karena nilai p-value

30



multikolinearitas karena nilai korelasi lebih dari 0,5. Agar dapat diuji, maka




















Tabel 4.33 Log Determinants Data Training 90%


1 5 19,285

2 5 22,483






31


Box's M 36,724

F

Approx. 2,056

df1 15

df2 4654

P-value 0,009


gagal tolak H0karena nilai p-value

32

hubungan searah dengan fungsi deskriminan.Nilai functionuntuk variabel lama

merokok sebesar 0,237.Hal ini berarti variabel lama merokok mempunyai hubungan

searah dengan fungsi deskriminan. Nilai function untuk variabel umur sebesar 0,700.

Hal ini berarti variabel umur mempunyai hubungan searah dengan fungsi

deskriminan.Nilai functionuntuk variabel berat sebesar -0,570.Hal ini berarti berat

merokok mempunyai hubungan berbalik arah dengan fungsi deskriminan. Nilai

function untuk variabel tinggi sebesar -0,295. Hal ini berarti variabel tinggi



Function

1

Umur 0,684

Tinggi -0,506

Berat -0,441

Lama_merokok 0,428


Berdasarkan hasil tabel 4.38 diketahui bahwa variabel umur adalah variabel




Function

1


Lama_merokok 0,012

Umur 0,060

Berat -0,054

Tinggi -0,033

(Constant) 5,193



Y=5,193+0,008pertama_merokok+0,012lama_merokok+0,06umur-

0,054berat-0,033tinggi.

33


Ynew Function

1

1 -0,697

2 0,697

Berdasarkan tabel 4.40 dapat dikrtahui nilai functionsetiap kelompok pada

data training 90%.Nilai function ini dapat digunakan untuk mencari nilai m. Nilai m

berguna untuk mengelompokan data berdasarkan hasil fisher dimana



m =

( -0,697 + 0,697) = 0


Ynew

1 2

Pertama_merokok -0,407 -0,396

Lama_merokok -0,726 -0.297

Umur 0,896 0,980

Berat -0,551 -0,627

Tinggi 2,664 2,618

(Constant) -219,85 -212,606



y1= -219,85 - 0,407pertama_merokok - 0,314lama_merokok + 0,896umur


y2 = -212,606 - 0,396pertama_merokok - 0,297lama_merokok + 0,980umur

0,627berat +2,618tinggi.

34


Ynew

Predicted Group

Membership

1 2 Total


2 5 13 18

% 1 94,4 5,6 100

2 27,8 72,2 100


2 5 13 18

% 1 72,2 27,8 100

2 27,8 72,2 100

Berdasarkan tabel 4.42 dapat diketahui bahwa untuk kelompok controlada

sebanyak 17 prediksi yang benar dan 1 prediksi yang salah sedangkan untuk

kelompok caseada sebanyak 13 prediksi yang benar dan 5 prediksi yang salah.



1 2 Total

Data

Testing

count 2 0 2

1 1 2

% 100 0 100

50 50 100

Hasil klasifikasi dari data testing50% diperoleh seperti pada tabel

4.43.Diperoleh ada sebanyak 2 prediksi benar untuk kelompok controldanada 1

prediksi benar serta 1 prediksi salah untuk kelompok case.Berdasarkan nilai ini dapat

diketahui nilai aper dan akurasinya masing masing sebesar 25% dan 75%.

4.4 Perbandingan Analisis Diskriminan untuk Data Testing 50%,70%, dan

90%.

Berikut adalah hasil perbandingan analisis deskriminan untuk data

testing50%,70% dan 90%.

35

Tabel 4.44 Perbandingan Analisis Deskriminan untuk Data Testing 50%, 70%, dan 90%

Komposisi

data Kelompok

Prediksi Total Aper Akurasi

1 2

50% : 50% 1 7 3 10

30% 70% 2 3 7 10

70% : 30% 1 5 1 6

16,67% 83,33% 2 1 5 6

90% : 10% 1 2 0 2

25% 75% 2 1 1 2

Berdasarkan tabel 4.43 diketahui nilai aper dan akurasi untuk masing

masing komposisi. Komposisi data 50% : 50% memiliki nilai aper dan akurasi

masing masing 30% dan 70%. Komposisi data 70% : 30% memiliki nilai aper dan

akurasi masing masing 16,67% dan 83,33%. Komposisi data 90% : 10% memiliki

nilai aper dan akurasi masing masing 25% dan 75%. Maka diketahui nilai akurasi

yang tertinggi terletak pada komposisi data 70% : 30%. Sedangkan akurasi teendah

terletak pada komposisi data 50% : 50%.

36

BAB V

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Berdasarkan analisis dan pembahasan diatas, didapatkan kesimpulan sebagai

berikut :

1. Berdasakan uji normal multivariate, data studi kasus pasien kanker paru RSUD

Dokter Soetomo kelompok control tidak mengikuti distribusi normal multivariate

dengan nilai T2Hotteling 65% dan nilai korelasi -0,01513. Data studi kasus pasien

kanker paru RSUD Dokter Soetomo kelompok case tidak mengikuti distribusi

normal multivariate dengan nilai T2Hotteling 50% dan nilai korelasi sebesar

0,543693.

2. Uji homogenitas menggunakan metode Boxs M menjelaskan bahwa data studi

kasus pasien kanker paru RSUD Dokter Soetomo tidak bersifat homogeny dengan

P-Value 0,016.

3. Berdasarkan analisis diskriminan, diperoleh fungsi diskriminan untuk training

data 50% Y=-2,998 + 0,09pertama_merokok - 0,034lama_merokok + 0,073umur

- 0,093berat + 0,029tinggi dengan tingakt akurasi sebesar 70% dan nilai aper

30%. Kemudian untuk data training 70% diperoleh fungsi deskriminan Y=-

10,629 - 0,042pertama_merokok -0,015lama_merokok - 0,031umur + 0,041berat

+ 0,063tinggi dengan tingkat akurasi sebesar 83,33% dan nilai aper sebesar

16,67%. Untuk data training 90% diperoleh fungsi diskriminan Y=5,193 +

0,008pertama_merokok + 0,012lama_merokok + 0,06umur - 0,054berat -

0,033tinggi dengan tingkat akurasi sebesar 75% dan nilai aper 25%.

4. Berdasarkan perbandingan tingkat akurasi antara data testing 50%, 70%, dan 90%

diperoleh kesimpulan bahwa data yang memiliki tingkat akurasi paling tinggi

adalah data testing 70% dengan tingkat akurasi sebesar 83,33%.

37

5.2 Saran

Berdasarkan hasil penelitian pada praktikum ini saran yang dapat diberikan

adalah perlu ketelitian,kecermatan dan penggunaan metode yang tepat dalam analisis

deskriminan agar tidak terjadi kesalahan dalam melakukan analisa dan data sebaiknya

sudah memenuhi asumsi asumsi yang ditentukan agar dapat dianalisis diskriminan.

38

DAFTAR PUSTAKA

Johnson, R. A. and Wichern, D. W. (1992), Applied Multivariate Analysis, Third

Edition, Prentice Hall Inc, New Jersey

kanker paru-paru : alodokter. (n.d.). Retrieved April 22, 2015, from alodokter:

http://www.alodokter.com/kanker-paru-paru/

Morisson, D. F. 2005. Multivariate Statistical Methods Fourth Edition.The Wharton

School University of Pennsylvania.

Santoso, S. 2010.Statistik Multivariat Konsep dan Aplikasi dengan SPSS. Jakarta: PT

Elex Media Komputindo.

Solikha, Nimatus, 2012. Analisis Statistik terhadap penyakit kanker paru oleh bahan

karsinogenik (studi kasus pasien kanker paru RSUD Dokter

Soetomo)[Skripsi]. Surabaya: Fakultas Matematika dan Ilmu Pengetahuan

alam, Institut Teknologi Sepuluh Nopember.

analisis multivariat

Documents