identifikasi pencilan dan peta pencilan pada … · menggunakan empat metode yaitu aku-klasik,...

IDENTIFIKASI PENCILAN DAN PETA PENCILAN PADA ANALISIS

KOMPONEN UTAMA UNTUK DATA MENJULUR

ANNA FAUZIYAH

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2012

ABSTRAK

ANNA FAUZIYAH. Identifikasi Pencilan dan Peta Pencilan pada Analisis Komponen Utama untuk Data Menjulur. Dibimbing oleh KUSMAN SADIK dan I MADE SUMERTAJAYA.

Analisis Komponen Utama (AKU) merupakan salah satu analisis peubah ganda yang pada

dasarnya mentransformasikan secara linier peubah asal menjadi peubah baru yang dinamakan

komponen utama. Akan tetapi, AKU yang didasarkan pada matriks ragam peragam ini sangat

sensitif terhadap keberadaan pencilan. Sensitifitas terhadap pencilan pada AKU-Klasik dapat

diatasi dengan AKU yang kekar (AKU-K) yang bekerja sangat baik pada data yang memiliki

sebaran simetrik atau tidak menjulur. Apabila data peubah asal menjulur maka banyak titik data

yang sebenarnya bukan pencilan dianggap sebagai pencilan atau sebaliknya. Kemudian

dikembangkanlah pendekatan AKU-K yang cocok untuk data menjulur dengan mendefinisikan

berbagai kriteria baru untuk menggambarkan pencilan yaitu AKU-KAO. Penelitian ini menggunakan empat metode yaitu AKU-Klasik, AKU-KMCD, AKU-K, dan AKU-KAO untuk

mengetahui perbandingan efektifitas keempat metode tersebut dalam mengidentifikasi pencilan

pada data menjulur. Keempat metode tersebut dicobakan pada dua set data yang dikontaminasi

pencilan dengan proporsi 0%, 5%, 10%, dan 15%. Hasil yang diperoleh dari penelitian ini

menunjukkan bahwa metode AKU-KAO mampu mengatasi pengaruh kehadiran pencilan pada

data menjulur karena memiliki tingkat kesalahan identifikasi yang paling kecil. Hal tersebut

diperkuat dengan adanya peta pencilan yang memberikan gambaran secara visual dalam

pengidentifikasian pencilan.

Kata kunci : data menjulur, pencilan, analisis komponen utama kekar, peta pencilan.

IDENTIFIKASI PENCILAN DAN PETA PENCILAN PADA ANALISIS

KOMPONEN UTAMA UNTUK DATA MENJULUR

ANNA FAUZIYAH

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika

pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2012

Judul : Identifikasi Pencilan dan Peta Pencilan pada Analisis Komponen Utama untuk Data

Menjulur

Nama : Anna Fauziyah

NIM : G14080036

Menyetujui,

Pembimbing I,

Dr. Ir. Kusman Sadik, M.Si

NIP : 196909121997021001

Pembimbing II,

Dr. Ir. I Made Sumertajaya, MS

NIP : 196807021994021001

Mengetahui :

Ketua Departemen,

Dr. Ir. Hari Wijayanto, M.Si NIP : 196504211990021001

Tanggal Lulus:

PRAKATA

Tiada kata yang paling indah selain puji dan syukur kepada Tuhan Yang Maha Esa atas segala

rahmat dan karunia-Nya sehingga karya ilmiah yang berjudul “Identifikasi Pencilan dan Peta

Pencilan pada Analisis Komponen Utama untuk Data Menjulur” ini dapat terselesaikan.

Ucapan terima kasih tak lupa penulis ucapkan kepada berbagai pihak yang telah membantu sehingga karya ilmiah ini selesai dengan baik, yaitu :

1. Bapak Dr. Ir. Kusman Sadik, M.Si dan Bapak Dr. Ir. I Made Sumertajaya, MS atas

kesabarannya dalam membimbing, memberi saran, serta motivasi sehingga karya ilmiah ini

dapat diselesaikan

2. Seluruh dosen pengajar di Departemen Statistika

3. Ayahanda Yayat Suryatna, Ibunda Eeng Emalia serta kakak-kakak Dewi Noviyanti dan Nisa

Sofianti yang selalu memberikan kasih sayang, semangat, dan doa

4. Ibu Markonah, Ibu Tri, Ibu Aat, Bang Ibay, Bang Iyus dan staf tata usaha lainnya yang telah

banyak membantu

5. Rekan-rekan di Departemen Statistika IPB angkatan 45 khususnya Keluarga Pandhewi (Dinia

Wihansah, Mulya Sari, Hanik Aulia, dan Hana Maretha), Ramadhiyan Firdan, Iin Puspitasari, Ratih Noviani, dan Hadi Septian atas segala kebersamaan, canda tawa, kenangan indah, dan

masukan-masukan yang telah mengisi kehidupan penulis selama di kampus

6. Teman bimbingan skripsi yaitu Aji Setyawan, Tri Hardi Putra, dan Arni Nurwida atas

semangat dan kebersamaannya

7. Teman-teman kostan SQ yaitu Mega, Delvi, Fatchah, Nengsih, Hilma, Ulan, Puji, Putri,

Yuang, Fitri, Irma, Feby, Lia, Reffa dan Devi atas dukungan, semangat dan doa kepada

penulis

8. Semua pihak yang tidak mungkin disebutkan satu persatu yang telah membantu penulis

selama ini.

Semoga karya ilmiah ini dapat bermanfaat bagi semua pihak yang membutuhkan. Penulis

mohon maaf atas segala kekurangan dan kesalahan yang terdapat dalam karya ilmiah ini.

Bogor, November 2012

Anna Fauziyah

RIWAYAT HIDUP

Penulis dilahirkan di Kuningan, pada tanggal 8 April 1990 dari Bapak Yayat Suryatna dan Ibu Eeng Emalia. Penulis merupakan putri ketiga dari tiga bersaudara.

Penulis memulai pendidikannya di SD Negeri 1 Jambar dan lulus pada tahun 2002. Kemudian

penulis melanjutkan pendidikan di SMP Negeri 2 Kuningan hingga tahun 2005. Setelah

menyelesaikan studinya di SMA Negeri 1 Kuningan pada tahun 2008, penulis diterima sebagai

mahasiswa Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI) pada

tahun yang sama. Selama satu tahun pertama di IPB, penulis melalui Tahap Persiapan Bersama

(TPB). Pada tahun 2009, penulis diterima sebagai mahasiswa Departemen Statistika dengan minor

Ilmu Ekonomi dan Studi Pembangunan.

Selama kuliah, penulis aktif dalam organisasi kemahasiswaan yaitu sekretaris divisi

Komunikasi dan Informasi Lembaga Struktural Bina Desa BEM KM IPB selama dua periode pada

tahun 2009-2010, anggota Departemen Sains Himpunan Profesi Gamma Sigma Beta Departemen Statistika FMIPA IPB Periode 2011. Penulis juga aktif dalam kegiatan kemahasiswaan yang

diadakan oleh Departemen Statistika maupun Fakultas Matematika dan Ilmu Pengetahuan Alam,

antara lain Spirit FMIPA 2010 (Divisi Medis), The 6th Statistika Ria 2010 (Divisi LO), Pesta Sains

FMIPA 2010 (Divisi K4), Welcome Ceremony Statistics (WCS) 2011 serta Lomba Jajak Pendapat

Statistika 2011 (Sekretaris Umum). Pada bulan Februari-April 2012 penulis diberikan kesempatan

untuk praktik lapang di PT. Infomedia Nusantara.

vii

DAFTAR ISI

Halaman

DAFTAR TABEL ............................................................................................................. viii

DAFTAR GAMBAR ......................................................................................................... viii

DAFTAR LAMPIRAN ...................................................................................................... viii

PENDAHULUAN 1

Latar Belakang ....................................................................................................... 1

Tujuan ................................................................................................................... 1

TINJAUAN PUSTAKA 1

Data Menjulur ...................................................................................................... 1

Pencilan ............................................................................................................... 2

Analisis Komponen Utama ................................................................................... 3

Analisis Komponen Utama Kekar ......................................................................... 3

Analisis Komponen Utama Kekar untuk Data Menjulur ........................................ 4

Peta Pencilan ........................................................................................................ 4

METODOLOGI 5

Data ...................................................................................................................... 5

Metode ................................................................................................................. 5

HASIL DAN PEMBAHASAN 6

Karakteristik Data ................................................................................................ 6

Identifikasi Pencilan pada n1=500 .......................................................................... 6

Identifikasi Pencilan pada n2=100 ......................................................................... 8

Peta Pencilan ........................................................................................................ 9

Penerapan AKU-Klasik dan AKU-KAO ............................................................... 10

KESIMPULAN DAN SARAN 11

Kesimpulan ........................................................................................................... 11

Saran..................................................................................................................... 11

DAFTAR PUSTAKA ......................................................................................................... 11

LAMPIRAN ...................................................................................................................... 13

viii

DAFTAR TABEL

Halaman

1. Nilai medcouple tiap peubah ............................................................................................... 6

2. Persentase kesalahan identifikasi pencilan pada data menjulur n1=500, p=10 dan k=2 .......... 7

3. Persentase kesalahan identifikasi pencilan pada data menjulur n2=100, p=10 dan k=2 .......... 8

4. Ringkasan hasil komponen utama pada berbagai metode ..................................................... 10

DAFTAR GAMBAR

Halaman

1. Peta pencilan ..................................................................................................................... 5

2. Persentase Kesalahan I pada n1=500 ................................................................................... 7

3. Persentase Kesalahan II pada n1=500 .................................................................................. 7

4. Persentase Kesalahan I pada n2=100 ................................................................................... 8

5. Persentase Kesalahan II pada n2=100 .................................................................................. 8

6. Peta pencilan data menjulur n1=500, p=10 dan k=2 dengan proporsi pencilan 5% pada (a)

AKU-Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO ............................................... 9

7. Peta pencilan data menjulur n2=100, p=10 dan k=2 dengan proporsi pencilan 5% pada (a)

AKU-Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO ............................................. . 10

DAFTAR LAMPIRAN

Halaman

1. Skema algoritma penelitian ................................................................................................. 14

2. Rumus adjusted outlyingness (AO) .................................................................................... 15

3. Histogram data hasil pembangkitan .................................................................................... 15

4. Nilai korelasi antar peubah pada n1=500 dan p=10 .............................................................. 15

5. Nilai korelasi antar peubah pada n2=100 dan p=10 ............................................................. 16

6. Kesalahan identifikasi pencilan pada data menjulur n1=500, p=10, dan k=2 ........................ 17

7. Kesalahan identifikasi pencilan pada data menjulur n2=100, p=10, dan k=2 ........................ 18

8. Peta pencilan data menjulur n1=500, p=10 dan k=2 dengan proporsi pencilan 0% (a) AKU-

Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO ........................................................ 19











1

PENDAHULUAN

Latar Belakang

Konsep dasar dari Analisis Komponen

Utama (AKU) adalah pereduksian dimensi

sekumpulan peubah asal menjadi peubah baru

yang berdimensi lebih kecil yang saling bebas

dan tetap mempertahankan informasi yang

terkandung di dalamnya. Peubah baru tersebut

disebut komponen utama. Akan tetapi, AKU

yang didasarkan pada matriks ragam peragam

ini sangat sensitif terhadap keberadaan

pencilan. Hubert et al. (2005) memperkenalkan pendekatan Analisis

Komponen Utama Kekar (AKU-K) atau

Robust Principal Component Analysis

(ROBPCA) yang menghasilkan komponen

utama yang tidak dipengaruhi oleh pencilan.

AKU-K menggabungkan konsep Projection

Pursuit (PP) dengan Minimum Covariance

Determinant (MCD). PP digunakan untuk

inisiasi reduksi dimensi awal sedangkan MCD

digunakan sebagai penduga matriks ragam

peragam yang kekar. Pada tahap akhir AKU-K dilakukan pembobotan ulang dengan

menggunakan penduga MCD. Jika

pembobotan ulang tersebut tidak dilakukan

maka metode tersebut dinamakan AKU-

KMCD. AKU-KMCD menghasilkan subruang

AKU yang sama dengan AKU-K tetapi tidak

dengan nilai dari akar ciri dan vektor cirinya.

Sensitifitas terhadap pencilan pada AKU-

Klasik dapat diatasi dengan AKU-K yang

bekerja sangat baik pada data yang memiliki

sebaran simetrik atau tidak menjulur. Apabila

data peubah asal menjulur maka banyak titik data yang sebenarnya bukan pencilan

dianggap sebagai pencilan atau sebaliknya.

Hubert et al. (2009) mengembangkan

pendekatan AKU-K yang cocok untuk data

menjulur dengan mendefinisikan berbagai

kriteria baru untuk menggambarkan pencilan.

Pendekatan ini terdiri dari langkah-langkah

yang sama dengan AKU-K sebelumnya akan

tetapi pada pendekatan baru ini dilakukan

beberapa modifikasi. Perbedaan mendasar dari

pendekatan AKU-K baru ini dengan pendekatan AKU-K sebelumnya yaitu terletak

pada penggantian perhitungan keterpencilan

pada AKU-K yang menggunakan rumus

Stahel-Donoho (AKU-K) dengan

menggunakan rumus perhitungan

keterpencilan baru yaitu adjusted outlyingness

(AKU-KAO).

Tujuan

Penelitian ini bertujuan untuk:

1. Membandingkan efektifitas metode AKU-

Klasik, AKU-KMCD, AKU-K, dan AKU-

KAO dalam mengidentifikasi pencilan

pada data menjulur yang memiliki berbagai

proporsi pencilan

2. Menerapkan peta pencilan pada data

menjulur

3. Menerapkan AKU-Klasik dan AKU-KAO

pada data menjulur.

TINJAUAN PUSTAKA

Data Menjulur

Bentuk dan ketidaksimetrian dari sebuah

sebaran dapat diukur dari kemiringannya.

Sebaran yang simetrik memiliki kemiringan

nol, sebaran yang tidak simetrik yang ekornya

menjulur ke kanan memiliki kemiringan

positif, sedangkan sebaran yang ekornya

menjulur ke kiri memiliki kemiringan negatif. Koefisien kemiringan klasik b1 dari kumpulan

data peubah tunggal Xn={x1, x2, ... , xn} diambil

dari sebaran kontinu yang didefinisikan

sebagai berikut:

b1 Xn =m3(Xn)

m2(Xn)3 2

dimana 𝑚2 merupakan momen empiris kedua

dan 𝑚3 merupakan momen empiris ketiga dari

data. Akan tetapi, b1 sangat sensitif terhadap

pencilan dalam data sehingga harus

menggunakan koefisien kemiringan yang

kekar.

Brys et al. (2004) memperkenalkan ukuran

kemiringan yang kekar terhadap pencilan yaitu medcouple. Nilai medcouple berkisar antara -1

sampai 1. Jika nilainya 0 maka sebarannya

tidak menjulur (simetrik). Misalkan Xn={x1, x2,

... , xn} diambil dari sebaran kontinu dan

kemudian diurutkan sehingga x1 ≤ x2 ≤ ... ≤ xn

, maka median untuk Xn adalah:

mn = (xn 2 +x(n 2)+1 ))/2, jika n genap

x(n+1)/2 , jika n ganjil

berikut nilai MCn (medcouple):

MCn = medxi≤mn≤xjh(xi, xj)

jika 𝑥𝑖 ≠ 𝑥𝑗 maka:

h xi, xj = x j- mn - mn - xi

xj − xi

2

jika xi=xj=mn maka diberikan fungsi kernel

h. Misalkan m1 < ... < mk melambangkan

indeks dari pengamatan yang kembar dengan

median mn dan 𝑥𝑚 𝑙= 𝑚𝑛 untuk l = 1, ..., k

maka:

h(𝑚𝑖 ,𝑚𝑗 ) =

-1 jika i + j - 1 < k

0 jika i + j - 1 = k

+1 jika i + j - 1 > k

Salah satu contoh sebaran menjulur adalah

sebaran normal inverse Gaussian (NIG).

Sebaran tersebut merupakan kasus khusus dari

sebaran generalized hyperbolyc (GH) yang didefinisikan sebagai Gaussian generalized

inverse Gaussian mixing distribution yang

sering digunakan pada bidang keuangan. Jika

X~N µ, σ2 maka 1/X bukan sebaran NIG.

Sebaran GH didefinisikan sebagai berikut:

gh x:λ,α,β,δ,µ = a λ,α,β,δ δ2+ x-μ 2 x -

12 2

× Kλ-1 2 (α δ2+ x-μ 2) exp β x-μ

𝑎 𝜆,𝛼,𝛽, 𝛿 = 𝛼2 −𝛽2 𝜆 2

2𝜋𝛼𝜆−1 2 𝛿𝜆𝐾𝜆 𝛿 𝛼2 −𝛽2

dengan: 𝛿 ≥ 0, 𝛽 < 𝛼 jika 𝜆 > 0

𝛿 > 0, 𝛽 < 𝛼 jika 𝜆 = 0

𝛿 > 0, 𝛽 ≤ 𝛼 jika 𝜆 < 0

Misalkan peubah acak X menyebar X~NIG α, β, δ,μ yang memiliki fungsi

kepekatan peluang, nilai harapan, dan ragam

sebagai berikut :

fx x =

αδ

π exp δ α2-β2+β x-μ

K1(α δ2+ x-μ 2

δ2+ x-μ 2

E X = μ+δβ α

(1-(β α) 2 )1 2

Var X = δ2α-1β α

1-(β α) 2 3 2

dengan 𝑥, µ 𝜖 ℝ, 0 ≤ 𝛿, 0 ≤ 𝛽 ≤ 𝛼 dimana:

µ : parameter lokasi

δ : parameter skala α, β : parameter bentuk yang menentukan

panjang ekor dan kemenjuluran 𝐾1 merupakan fungsi modifikasi Bassel dari

persamaan:

Kn+12 x =

π

2 x-1

2 e-x (1+ n+i !

n-i i!

n

i=1

(2𝑥)−𝑖)

dengan 𝑥, µ 𝜖 ℝ, 0 ≤ 𝛿, 𝛽 < 𝛼 dimana: Kλ x = K-λ x

maka K-1 2 x = K1 2 x = π 2 x-1/2e-x

λ = n+ 1

2 , n = 0, 1, 2,…

Fungsi modifikasi Bassel hanya

memperbolehkan pada kasus ketika 𝜆=-1/2

dan λ=1. Pada λ=-1/2 diperoleh sebaran NIG

sedangkan pada λ=1 diperoleh sebaran

hyperbolic (HYP).

Peubah acak NIG ganda menyebar

NIGp α, β, tδ,tμ,∆ untuk t > 0, berikut adalah

fungsi kepekatan peluang, nilai harapan, dan

ragamnya:

fx(x) = 2δ

α

2π

p+12

exp δα K(p+1)/2(α δ2+x'∆-1x

(δ2+x'∆-1x(p+1)/4

E X = μ+δ ζ Π∆1 2

Var X = δ2 ζ-1 ζ ∆+x-1 ζ Π∆1 2 ' Π∆1 2

dengan 𝒙, µ,𝜷 𝜖 ℝ𝑝 , 𝛿 > 0, 𝜶2 > 𝜷′∆𝜷,

∆ ϵ ℝ𝑝 , ζ = δ α2-β'∆β, Π = β∆1 2 (α2-β'∆β)

1 2 ,

dan = 𝛿2 ∆ dimana:

∆ : matriks definit positif

𝜻 : parameter kemenjuluran Π : parameter yang menentukan panjang ekor

Σ : matriks ragam peragam (Prause 1999)

Pencilan

Pencilan adalah pengamatan ekstrim dan

merupakan titik data yang tidak khas dari

seluruh pengamatan data (Montgomery &

Peck 1992). Dengan cara yang sama, Johnson

(2007) mendefinisikan pencilan sebagai suatu

pengamatan pada rangkaian data yang terlihat

tidak konsisten terhadap sisaan dari data

tersebut. Menurut Draper dan Smith (1992),

pencilan merupakan pengamatan yang nilai mutlak sisaannya jauh lebih besar daripada

sisaan-sisaan lainnya dan bisa jadi terletak tiga

atau empat simpangan baku atau lebih jauh

lagi dari rata-rata sisaannya.

Pada umumnya pendeteksian pencilan

untuk peubah ganda berbasis pada asumsi

sebaran yang simetrik. Menurut Hubert dan

Van der Veeken (2008), pada data yang

3

sebarannya tidak simetrik atau menjulur

pendeteksian pencilan dilakukan dengan

menggunakan adjusted outlyingness (AO) dari

data peubah ganda. Pada prakteknya AO tidak

dapat dihitung dengan memproyeksikan

pengamatan pada semua vektor peubah

tunggal a. Oleh karena itu, harus dibatasi

dengan cara memilih satu set arah acak.

Simulasi menunjukkan bahwa banyaknya arah

yang efisien dan hemat dalam waktu

komputasi adalah sebanyak m=250p arah. Arah acak dihasilkan sebagai arah yang tegak

lurus terhadap subruang yang direntang oleh

p-pengamatan secara acak yang diambil dari

kumpulan data.

Setelah AO dihitung untuk setiap

pengamatan, maka tahap selanjutnya yaitu

memutuskan apakah pengamatan tersebut

adalah pencilan atau bukan. Sebaran AO pada

umumnya tidak diketahui (tetapi biasanya

miring ke kanan karena dibatasi oleh nol).

Oleh karena itu, dihitunglah diagram kotak garis yang disesuaikan (adjusted boxplot) dari

nilai AO dan mendeklarasikan pencilan jika

AO melebihi batas atas diagram kotak garis

yang disesuaikan.

cut off = Q3 + 1.5 e3MC IQR

dimana:

Q3 : kuartil ketiga dari AOi

IQR : jangkauan antar kuartil

MC : nilai medcouple.

Analisis Komponen Utama

Jollife (2002) mendefinisikan bahwa ide

sentral dari analisis komponen utama adalah

untuk memperkecil dimensi dari peubah asal

sehingga diperoleh peubah baru yang disebut

komponen utama. Komponen tersebut tidak

saling berkorelasi dan tetap mempertahankan

sebagian besar informasi yang terkandung

pada peubah asalnya. Menurut Johnson

(2007), komponen utama merupakan

kombinasi linear terboboti dari p peubah acak X1, X2, ... , Xp yang mampu menerangkan data

secara maksimum. Vektor acak x’=[x1, x2, ... ,

xp] menyebar menurut sebaran tertentu dengan

vektor nilai tengah µ dan matriks ragam

peragam Σ.

Komponen utama ke-j dari p peubah dapat

dinyatakan sebagai:

Yj=a1j x1+a2j x2+…+apj xp= a'x

dan keragaman komponen utama ke-j adalah :

Var Yj = λj ; j = 1,2,…, p

λ1, λ2, …, λp adalah akar ciri dimana

λ1 ≥ λ2 ≥ …≥ λp ≥ 0. Total keragaman

komponen utama adalah

λ1 + λ2 +…+ λp = tr (Σ). Vektor ciri 𝒂 sebagai

pembobot dari transformasi linear peubah asal

diperoleh dari persamaan:

𝜮 − 𝜆𝑗 𝑰 𝒂𝒋 = 0 ; 𝑗 = 1, 2,… , 𝑝

Analisis Komponen Utama Kekar

Analisis Komponen Utama Klasik berbasis

pada matriks ragam peragam yang sangat

sensitif terhadap pencilan. Hubert et al. (2005)

memperkenalkan analisis komponen utama

yang kekar terhadap pencilan. AKU-K merupakan kombinasi dua ide yaitu antara

Projection Pursuit (PP) dan penduga ragam

peragam yang kekar. Konsep PP digunakan

dalam tahap inisiasi reduksi dimensi awal.

Konsep penduga ragam peragam yang kekar

menggunakan Minimum Covariance

Determinant (MCD) kemudian diterapkan

pada data dengan dimensi yang lebih rendah.

Secara umum algoritma AKU-K terdiri dari

tahap-tahap berikut:

1. Mereduksi ruang data, terutama ketika p≥n, dimana p merupakan jumlah peubah

penjelas dan n adalah jumlah observasi.

Langkah ini dilakukan dengan Metode

Dekomposisi Nilai Singular terhadap

mean-centered data matriks dengan rumus:

Xn,p − 1nμ 0

' = Un,r0Dr0,r0Vr0,p''

dengan 𝜇 0 merupakan vektor rataan klasik,

r0=rank(Xn,p − 1nμ 0

'), D adalah matriks

diagonal berukuran r0 x r0, dan

U’U=Iro=V’V, dimana Ir0 adalah matriks

identitas berukuran r0 x r0

2. Menemukan h keterpencilan terkecil (least

outlyingness), tahap ini dilakukan dengan

memilih ½ < α < 1 untuk mendapatkan

nilai h=max{[αn],[(n+kmax+1)/2]}, dimana kmax merupakan jumlah maksimum

komponen yang akan dihitung. Selanjutnya

keterpencilan dihitung dengan rumus

Stahel-Donoho:

OutlO(xi) = max𝑣𝜖𝐵 xi

' v-μ MCD(xj'v)

∑ MCD(xj'v)

dengan 𝝁 𝑀𝐶𝐷 dan 𝑀𝐶𝐷 merupakan penduga nilai tengah dan simpangan baku

MCD, h pengamatan dengan nilai

keterpencilan terkecil dihitung vektor nilai

4

tengah (𝝁 𝟏) dan matriks ragam

peragamnya ( 𝟎)

3. Matriks ragam peragam didekomposisi

sehingga diperoleh komponen utamanya.

Sebanyak k komponen utama pertama

dipilih dan semua data diproyeksikan pada

subruang 𝑉0 berdimensi-k yang direntang oleh k vektor ciri pertama sehingga

diperoleh Xn,k

4. Untuk setiap pengamatan, dihitung jarak

ortogonalnya (OD):

ODi(0)

= xi- x i,k

dengan 𝑥 𝑖 ,𝑘 merupakan proyeksi dari 𝑥𝑖 pada subruang 𝑉0. Kemudian diperoleh

subruang kekar penduga 𝑉1 sebagai

subruang yang direntang oleh k vektor ciri

dominan dari 𝟏, yang mana matriks

ragam peragam semua pengamatan 𝑥𝑖

ODi(0)

≤ cOD. Nilai cut off sebesar cOD = (μ

+ 𝜎 𝑧0.975 )3 2 dimana 𝜇 dan 𝜎 diduga dari

MCD dan 𝑧0.975 adalah 97.5% kuantil dari

sebaran gaussian. Selanjutnya, semua data

diproyeksikan pada subruang V1

5. Menghitung kembali penduga nilai tengah

dan matriks ragam peragam pada subruang

berdimensi-k dengan menggunakan

pembobot MCD pada data yang

diproyeksikan. Pendugaan ini

menggunakan algoritma FAST-MCD yang

diadaptasi (Rousseeuw 1999). Komponen

utama akhir adalah vektor ciri dari matriks ragam peragam tersebut.

AKU Kekar MCD (AKU-KMCD)

merupakan analisis dimana tahap akhir pada

algoritma AKU-K di atas tidak dilakukan.

Akar ciri kekar yang dihasilkan saling

berkorespondensi dengan vektor ciri kekar

dari matriks ragam peragam dari h

pengamatan yang memiliki keterpencilan

terkecil. Hal tersebut menghasilkan subruang

AKU yang sama dengan AKU-K tetapi tidak

dengan nilai dari akar ciri dan vektor cirinya.

Analisis Komponen Utama Kekar untuk

Data Menjulur

AKU Klasik dan AKU-K keduanya

digunakan pada data yang simetrik. Hal

tersebut mengharuskan data peubah asal

memiliki sebaran yang simetrik. Jika tidak

terpenuhi maka dapat dilakukan transformasi

terhadap peubah asal misalnya dengan

menggunakan transformasi Box-Cox, tetapi

peubah yang ditransformasi akan lebih sulit

diinterpretasikan. Pada situasi seperti itu maka dilakukan analisis pada peubah asal dengan

menggunakan teknik AKU yang cocok untuk

data yang tidak simetrik. Pada AKU-K

dilakukan modifikasi dimana analisis tersebut

dapat digunakan pada data menjulur dengan

mendefinisikan berbagai kriteria baru untuk

menggambarkan pencilan. Menurut Hubert et

al. (2009), terdapat tiga modifikasi yang

dilakukan pada AKU-K untuk data menjulur

yaitu:

1. Mengganti perhitungan keterpencilan pada

AKU-K sebelumnya dengan perhitungan keterpencilan baru yang disebut AO.

Perhitungan tersebut berdasarkan pada

adjusted boxplot. AO memiliki penyebut

yang berbeda untuk memberi tanda pada

data menjulur. Rumus AO disajikan pada

Lampiran 1

2. Mengubah nilai cut off jarak ortogonal

yaitu menggunakan nilai terbesar dari OD

yang lebih kecil dari Q3({OD}) + 1.5

e3MC({OD})IQR({OD})

3. Selain menerapkan pembobotan pada penduga MCD, dilakukan juga perhitungan

AO pada AKU-K untuk data menjulur

pada subruang 𝑉1 berdimensi-k kemudian

menghitung nilai tengah dan matriks ragam

peragam dari h pengamatan dengan AO

terkecil.

Peta Pencilan

Selain menghitung komponen utama,

AKU-K juga menggambarkan pencilan.

Secara umum, pencilan merupakan pengamatan yang tidak mematuhi pola umum

data. Pada Gambar 1 dapat dilihat bahwa

dalam konteks AKU dapat dibedakan tiga

jenis pencilan yaitu:

1. Amatan berpengaruh baik yaitu amatan

yang terletak pada subruang komponen

utama tetapi jauh dari pengamatan biasa

(pengamatan 1 dan 2)

2. Pencilan ortogonal yaitu amatan yang

memiliki jarak ortogonal yang besar ke

subruang komponen utama sementara proyeksinya terletak pada subruang

komponen utama (pengamatan 3 dan 4)

3. Amatan berpengaruh buruk yaitu amatan

yang memiliki jarak ortogonal yang besar

dan proyeksi pada ruang komponen utama

jauh dari pengamatan biasa (pengamatan 5

dan 6).

Jarak ortogonal adalah jarak antara

pengamatan dan proyeksi dalam k-dimensi

subruang V1. Peta pencilan memplotkan jarak

ortogonal dengan jarak skor (score distance).

Garis ditarik untuk membedakan antara observasi yang memiliki jarak ortogonal

antara jarak skor besar dan kecil.

5

SDi= tij2

lj

k

j=1

ti= P'p,k(xi − μ

x)

dimana:

ti : tingkat kekekaran

P'p,k : matriks loading dengan kolom

ortogonal (vektor ciri)

μ x : dugaan nilai tengah kekar

𝑙𝑗 : akar ciri dari MCD pada algoritma

AKU-K.

Gambar 1 Peta pencilan

METODOLOGI

Data

Data yang digunakan dalam penelitian ini

diperoleh dari data simulasi. Data simulasi

yang digunakan merupakan data menjulur dari

hasil pembangkitan bilangan acak normal

inverse Gaussian (NIG) dengan kontaminasi

berbagai proporsi pencilan.

Metode Penelitian ini dilakukan dengan langkah-

langkah sebagai berikut:

1. Membangkitkan data menjulur yaitu data

yang menyebar NIGp α, β, tδ,tμ,∆ .

Dimana µ adalah parameter lokasi, δ adalah parameter skala, α adalah parameter

bentuk yang menentukan panjang ekor, β

merupakan parameter kemenjuluran,

∆ adalah matriks definit positif, dan t > 0 .

Jumlah peubah yang dibangkitkan

sebanyak 10 peubah dengan n1=500 dan

n2=100. Kemudian diberikan beberapa

proporsi pencilan. Proporsi pencilan yang

diberikan adalah 0% (tanpa pencilan), 5%, 10%, dan 15% sehingga terbentuk delapan

set data

Langkah-langkah dalam penyiapan data

adalah sebagai berikut:

1.1 Penyiapan data simulasi dengan

membangkitkan data menjulur yaitu

data yang menyebar NIG α, β, δ,μ . Proses pembangkitan dilakukan

dengan algoritma sebagai berikut:

a. Membangkitkan data menjulur

X~NIG(α, β, δ,μ) sebanyak n1 =

500 dan n2 = 100

b. Mengulangi langkah a sebanyak p atau 10 kali dengan parameter

yang sama sehingga diperoleh 10

peubah X berukuran 500 dan 100

yaitu X1, X2, ..., X10

c. Peubah X1, X2, ..., X10 membentuk

matriks berdimensi 500 × 10 dan

100 × 10

d. Menentukan nilai korelasi awal

pada peubah X1, X2, ..., X10

sehingga kesepuluh peubah tersebut saling berkorelasi

e. Mengecek kemenjuluran dari dua

set data tersebut dengan melihat

nilai medcouple dari masing-

masing peubah

1.2 Penyiapan data pencilan dan set data.

Pembangkitan pencilan dilakukan

dengan cara pengekstriman data

pengamatan biasa pada h peubah dari

p peubah pada setiap pengamatan

yang terpilih dimana h<p. Proses pembangkitan dilakukan dengan

algoritma sebagai berikut:

a. Mempersiapkan dua set data menjulur X1, X2, ..., X10

berdimensi 500 × 10 dan 100 ×

10 yang akan dikontaminasi oleh

berbagai proporsi pencilan

b. Melakukan identifikasi pencilan

pada dua set data tersebut dengan

menggunakan adjusted

outlyingness (AO). Jika AOi ≥ cut

off yang ditentukan maka

pengamatan tersebut dikatakan sebagai pencilan

c. Melakukan pengekstriman pada

pengamatan yang memiliki nilai

AOi terbesar sesuai dengan

proporsi pencilan yang diinginkan

yaitu 0%, 5%, 10%, dan 15%

sehingga terdapat empat set data

menjulur berukuran 500 × 10 dan

empat set data menjulur

berukuran 100 × 10. 2. Melakukan identifikasi pencilan dengan

menggunakan metode AKU-Klasik, AKU-

KMCD, AKU-K, dan AKU-KAO untuk

setiap data pada langkah 1. Kemudian

membandingkan hasil dari keempat

6

metode tersebut. Hal yang dibandingkan

adalah jumlah pencilan yang teridentifikasi

pada setiap metode

3. Membandingkan peta pencilan yang

dihasilkan oleh metode AKU-Klasik,

AKU-KMCD, AKU-K, dan AKU-KAO

4. Melakukan penerapan AKU-Klasik dan

AKU-KAO pada data menjulur dengan

proporsi pencilan 5% untuk n=500, p=10

5. Melakukan penerapan AKU-Klasik pada

data menjulur dengan proporsi pencilan 5% untuk n=500, p=10 tetapi pencilan

yang teridentifikasi dihilangkan

6. Membandingkan hasil AKU-Klasik dan

AKU-KAO pada langkah 4 dan 5. Hal

yang dibandingkan adalah akar ciri dan

proporsi kumulatif komponen utama

pertama.

Skema algoritma penelitian dapat dilihat

pada Lampiran 1. Pengolahan data dilakukan

dengan menggunakan perangkat lunak

MATLAB 7.7.0(R2008b) dan Microsoft Excel 2007. Metode AKU-Klasik, AKU-KMCD,

AKU-K, dan AKU-KAO dilakukan

menggunakan program MATLAB yang

terdapat pada situs

http://www.wis.kuleuven.ac.be/stat/robust.htm

l dan http://win-www.uia.ac.be/u/statis.

HASIL DAN PEMBAHASAN

Karakteristik Data

Data yang dibangkitkan merupakan data

menjulur dari sebaran NIG α, β, δ,μ dengan

parameter lokasi µ=0, parameter skala σ=1,

parameter panjang ekor γ=1 dan parameter

kemenjuluran δ = 0.8. Data tersebut memiliki

ukuran n1=500 dan n2=100 dengan p=10 untuk

setiap ukuran. Histogram dari data hasil

pembangkitan dapat dilihat pada Lampiran 2.

Histogram tersebut menggambarkan bahwa

data menjulur ke kanan karena pada awal

pembangkitan parameter kemenjuluran data

telah ditetapkan dengan nilai positif. Tabel 1 menunjukkan besarnya

kemenjuluran data pada setiap peubah. Nilai

medcouple melebihi nilai 0 sehingga data

dapat dikatakan menjulur. Nilai medcouple

berkisar antara -1 sampai 1. Jika nilainya 0

maka sebaran datanya tidak menjulur

(simetrik). Besarnya korelasi antar peubah

dapat dilihat pada Lampiran 3 dan 4. Lampiran

3 menunjukkan bahwa terdapat korelasi yang

signifikan pada kesepuluh peubahnya (X1-

X10). Sedangkan pada Lampiran 4 terdapat

korelasi yang tidak signifikan antara peubah X2 dan X6 (0.146), antara peubah X3 dan X6

(0.165), antara peubah X4 dan X9 (0.235)

serta peubah X6 dan X9 (0.133).

Tabel 1 Nilai medcouple tiap peubah

Peubah n1=500 n2=100

X1 0.3240 0.1245

X2 0.2252 0.3049

X3 0.3007 0.2098

X4 0.2629 0.3067

X5 0.3141 0.4908

X6 0.2311 0.2380

X7 0.2560 0.2989 X8 0.2428 0.2193

X9 0.2557 0.2282

X10 0.2156 0.1406

Simulasi dilakukan dengan menggunakan

metode AKU-Klasik, AKU-KMCD, AKU-K,

dan AKU-KAO. Karena semua simulasi

dilakukan pada set data yang mengandung

pencilan sebesar 0%, 5%, 10%, dan 15%,

maka α yang digunakan untuk setiap metode

adalah sebesar 85%.

Identifikasi Pencilan pada n1=500 Tabel 2 menunjukkan kesalahan

identifikasi pencilan pada data menjulur

dengan n1=500 data, p=10 dimensi dan rank

k=2 (k adalah banyaknya komponen utama

yang diambil) dikontaminasi dengan data yang

diekstrimkan. Kesalahan I merupakan

kesalahan dimana pencilan teridentifikasi

sebagai data bukan pencilan. Sedangkan,

Kesalahan II merupakan kesalahan dimana

data bukan pencilan teridentifikasi sebagai

pencilan. Metode yang baik adalah metode yang mengidentifikasi data secara tepat.

Pada data tanpa pencilan (proporsi

pencilan 0%) dan data dengan proporsi 10%

tidak terdapat Kesalahan I untuk keempat

metode (Gambar 2). Artinya, keempat metode

tersebut mengidentifikasi pencilan secara

tepat. Pada proporsi pencilan 5%, AKU-KAO

memiliki persentase Kesalahan I sebesar 4%.

Artinya, AKU-KAO mengidentifikasi pencilan

sebagai data bukan pencilan sebanyak 1

pencilan dari 25 pencilan yang

dikontaminasikan. Sedangkan, pada data dengan proporsi pencilan 15%, AKU-KAO

memiliki persentase Kesalahan I yaitu sebesar

5.33%.

Pada Tabel 2 terlihat bahwa keempat

metode yaitu AKU-Klasik, AKU-KMCD,

AKU-K, dan AKU-KAO memiliki persentase

Kesalahan II yang beragam. Pada proporsi

pencilan 0%, AKU-Klasik memiliki

7

Tabel 2 Persentase kesalahan identifikasi pencilan pada data menjulur n1=500, p=10 dan k=2

Gambar 2 Persentase Kesalahan I pada n1=500

persentasi Kesalahan II yang beragam. Pada

proporsi pencilan 0%, AKU-Klasik memiliki

Kesalahan II sebesar 8.20%. Artinya, Klasik

mengidentifikasi data bukan pencilan sebagai

pencilan sebanyak 41 pencilan dari 500 data

bukan pencilan (data pengamatan biasa). Pada AKU-KMCD terdapat Kesalahan II sebesar

9.20%. Artinya, AKU-KMCD



bukan pencilan. Sedangkan pada AKU-K

terdapat Kesalahan II yang relatif tinggi yaitu

sebesar 15%. Artinya, AKU-K



bukan pencilan. Berbeda dengan AKU-KAO

yang memiliki Kesalahan II yang cukup kecil

dibandingkan dengan ketiga metode yang lainnya yaitu sebesar 0.6%. Artinya, AKU-

KAO mengidentifikasi data bukan pencilan

sebagai pencilan sebanyak 3 pencilan dari 500

data bukan pencilan.

Pada data dengan proporsi pencilan 5%,

tidak terdapat Kesalahan II untuk AKU-KAO.

Sedangkan pada ketiga metode lainnya yaitu

AKU-Klasik, AKU-KMCD, dan AKU-K

memiliki Kesalahan II masing-masing sebesar

2.74%, 6.74%, dan 12,63%. Ketika proporsi

pencilan ditambahkan menjadi 10% dan 15%,

AKU-Klasik tidak mencatat Kesalahan II.

Artinya, AKU-Klasik mengidentifikasi data

bukan pencilan secara tepat. Pada AKU-

KMCD terdapat Kesalahan II sebesar 6%

ketika proporsi pencilan meningkat menjadi

10%. Pada AKU-K terdapat Kesalahan II sebesar 11.11%. Sedangkan pada AKU-KAO

terdapat sedikit Kesalahan II yaitu sebesar

0.44%. Pada proporsi pencilan 15% AKU-

KMCD dan AKU-K memiliki Kesalahan II

masing-masing sebesar 3.29% dan 8.47%.

Secara keseluruhan AKU-K memiliki

Kesalahan II yang paling tinggi yaitu diatas

8% diikuti oleh AKU-KMCD dan AKU-

Klasik. Sedangkan AKU-KAO memiliki

Kesalahan II yang relatif kecil yaitu dibawah

1% (Gambar 3). AKU-K memiliki Kesalahan Total terbesar

yaitu sebesar 47.21% diikuti AKU-KMCD dan

AKU-Klasik yang memiliki Kesalahan Total

masing-masing sebesar 25.23% dan 10.94%.

Berbeda dengan ketiga metode lainnya, AKU-

KAO memiliki Kesalahan Total paling kecil

yaitu sebesar 10.37%. Kesalahan I dan

Kesalahan II pada data n1=500 dapat dilihat

lebih rinci pada Lampiran 5.

Gambar 3 Persentase Kesalahan II pada

n1=500

Proporsi

Pencilan AKU-Klasik AKU-KMCD AKU-K AKU-KAO

Persentase

Kesalahan I

0% 0.00% 0.00% 0.00% 0.00%

5% 0.00% 0.00% 0.00% 4.00%

10% 0.00% 0.00% 0.00% 0.00%

15% 0.00% 0.00% 0.00% 5.33%

Persentase

Kesalahan II

0% 8.20% 9.20% 15.00% 0.60%

5% 2.74% 6.74% 12.63% 0.00%

10% 0.00% 6.00% 11.11% 0.44%

15% 0.00% 3.29% 8.47% 0.00%

Persentase Kesalahan Total 10.94% 25.23% 47.21% 10.37%

8

Tabel 3 Persentase kesalahan identifikasi pencilan pada data menjulur n2=100, p=10 dan k=2

Proporsi

Pencilan AKU-Klasik AKU-KMCD AKU-K AKU-KAO

Persentase

Kesalahan I

0% 0.00% 0.00% 0.00% 0.00%

5% 0.00% 0.00% 0.00% 0.00%

10% 0.00% 0.00% 0.00% 0.00%

15% 6.67% 0.00% 0.00% 6.67%

Persentase

Kesalahan II

0% 8.00% 14.00% 18.00% 3.00%

5% 4.21% 10.53% 15.79% 2.11%

10% 7.78% 10.00% 15.56% 0.00%

15% 0.00% 3.53% 8.24% 0.00%

Persentase Kesalahan Total 26.65% 38.06% 57.58% 11.77%

Identifikasi Pencilan pada n2=100

Pada Tabel 3 menunjukkan set data

menjulur dengan n2=100, p=10 dan k=2. Data

dengan proporsi pencilan sebanyak 0%, 5%,

dan 10% tidak mencatat Kesalahan I ketika

menggunakan metode AKU-Klasik, AKU-

KMCD, AKU-K, dan AKU-KAO. Artinya, keempat metode tersebut mengidentifikasi

pencilan secara tepat pada proporsi pencilan

0%, 5%, dan 10%. Akan tetapi, AKU-Klasik

mencatat Kesalahan I sebesar 6.67% pada

proporsi pencilan 15%. Artinya, AKU-Klasik

mengidentifikasi pencilan sebagai data bukan

pencilan sebanyak 1 pencilan dari 15 pencilan

yang dikontaminasikan. Selain itu AKU-KAO

juga memiliki Kesalahan I sebesar 6.67%.

Gambar 4 Persentase Kesalahan I pada n2=100

Pada Tabel 3 terlihat bahwa keempat metode yaitu AKU-Klasik, AKU-

KMCD,AKU-K, dan AKU-KAO memiliki

persentasi Kesalahan II yang beragam sama

seperti pada data n1=500. Pada proporsi

pencilan 0%, AKU-Klasik memiliki

Kesalahan II sebesar 8%. Artinya, AKU-

Klasik mengidentifikasi data bukan pencilan

sebagai pencilan sebanyak 8 pencilan dari 100

data bukan pencilan. Pada AKU-KMCD

terdapat Kesalahan II sebesar 14.00%.

Artinya, AKU-KMCD mengidentifikasi data

bukan pencilan sebagai pencilan sebanyak 14

pencilan dari 100 data bukan pencilan.

Sedangkan pada AKU-K terdapat Kesalahan II

yang relatif tinggi yaitu sebesar 18%. Artinya,

AKU-K mengidentifikasi data bukan pencilan

sebagai pencilan sebanyak 18 pencilan dari

100 data bukan pencilan. AKU-KAO memiliki Kesalahan II sebesar 3%, lebih kecil bila

dibandingkan dengan ketiga metode lainnya.

Artinya, AKU-KAO mengidentifikasi data

bukan pencilan sebagai pencilan sebanyak 3

pencilan dari 100 data bukan pencilan.

Gambar 5 Persentase Kesalahan II pada

n2=100

Kesalahan II pada data dengan proporsi

pencilan 5% tidak jauh berbeda dengan data

yang memiliki proporsi pencilan 0%. Pada

AKU-Klasik, AKU-KMCD, AKU-K, dan

AKU-KAO memiliki Kesalahan II masing-

masing sebesar 4.21%, 10.53%, 15.79%, dan 2.11%. Ketika proporsi pencilan ditambahkan

menjadi 10% dan 15%, AKU-KAO tidak

mencatat Kesalahan II. Artinya, AKU-KAO

mengidentifikasi secara tepat data bukan

pencilan. Begitu pula pada AKU-Klasik yang

tidak mencatat Kesalahan II ketika proporsi

pencilan meningkat menjadi 15%. Pada

proporsi pencilan 10%, AKU-Klasik memiliki

Kesalahan II sebesar 7.78%. Pada AKU-

9

KMCD terdapat kesalahan sebesar 10%.

Sedangkan pada AKU-K terdapat Kesalahan II

yaitu sebesar 15.56%. Pada proporsi pencilan

15%, AKU-KMCD dan AKU-K memiliki

Kesalahan II masing-masing sebesar 3.53%

dan 8.24%.

Secara keseluruhan AKU-K memiliki Kesalahan Total terbesar yaitu sebesar 57.58%

diikuti AKU-KMCD dan AKU-Klasik yang

memiliki Kesalahan Total masing-masing

sebesar 38.06% dan 26.65%. Sedangkan,

AKU-KAO memiliki Kesalahan Total paling

kecil yaitu sebesar 11.77%. Hasil tersebut

tidak berbeda jauh dengan hasil pada n1=500.

Persentase Kesalahan Total pada n1=500 dan

n2=100 menunjukkan bahwa AKU-KAO

memiliki kesalahan yang paling kecil dalam

mengidentifikasi pencilan. Kesalahan I dan

Kesalahan II pada data n2=100 dapat dilihat lebih rinci pada Lampiran 6.

Peta pencilan

Peta pencilan merupakan peta yang

memplotkan jarak ortogonal dengan jarak

skor. Peta ini membedakan pencilan menjadi

tiga jenis yaitu amatan berpengaruh baik,

pencilan ortogonal, dan amatan berpengaruh

buruk. Gambar 6 menunjukkan peta pencilan

pada saat proporsi pencilan 5% pada n1=500,

p=10 dengan k=2 dimensi. Gambar 6(a) merupakan peta pencilan untuk AKU-Klasik.

Peta tersebut menggambarkan 13 amatan

berpengaruh baik, pencilan ortogonal

sebanyak 12 pencilan, dan 3 amatan

berpengaruh buruk. Peta pencilan AKU-

KMCD pada Gambar 6(b) memplotkan jarak

ortogonal dengan urutan pengamatannya dan

hanya menggambarkan pencilan secara

keseluruhan. Peta tersebut menggambarkan sebanyak 57 pencilan. Gambar 6(c)

merupakan peta pencilan AKU-K. Peta ini

menggambarkan 33 amatan berpengaruh baik,

pencilan ortogonal sebanyak 36 pencilan, dan

16 amatan berpengaruh buruk. Peta pencilan

AKU-KAO pada Gambar 6(d)

menggambarkan 4 amatan berpengaruh baik,

pencilan ortogonal sebanyak 12 pencilan, dan

16 amatan berpengaruh buruk. Peta

pencilan dengan proporsi pencilan 0%, 10%,

dan 15% terlampir pada Lampiran 7, 8, dan 9.

Gambar 7 merupakan peta pencilan pada saat proporsi pencilan 5% pada n2=100, p=10

dengan k=2 dimensi. Peta pencilan AKU-

Klasik pada Gambar 7(a) menggambarkan 4

amatan berpengaruh baik, pencilan

ortogonal sebanyak 3 pencilan, dan 2 amatan

berpengaruh buruk. Gambar 7(b) merupakan

peta pencilan AKU-KMCD. Peta tersebut

menggambarkan sebanyak 15 pencilan.

Gambar 7(c) merupakan peta pencilan AKU-K

yang menggambarkan 5 amatan berpengaruh

baik, pencilan ortogonal sebanyak 9 pencilan, dan 6 amatan berpengaruh buruk. Peta

pencilan AKU-KAO pada Gambar 7(d)

Gambar 6 Peta pencilan data menjulur n1=500, p=10 dan k=2 dengan proporsi pencilan 5%

pada (a) AKU-Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO

10

menggambarkan 3 amatan berpengaruh

baik, pencilan ortogonal sebanyak 2 pencilan,

dan 2 amatan berpengaruh buruk. Peta

pencilan dengan proporsi pencilan 0%, 10%,

dan 15% terlampir pada Lampiran 10, 11, dan 12. Secara keseluruhan peta pencilan AKU-

Klasik, AKU- KMCD, dan AKU-K pada

n1=500 dan n2=100 hampir sama karena pada

peta pencilan ketiga metode tersebut terlalu

banyak menggambarkan pengamatan biasa

sebagai pencilan dan sebaliknya. Sedangkan

pada peta pencilan AKU-KAO, pencilan yang

digambarkan cukup sesuai dengan proporsi

pencilan yang dikontaminasikan.

Penerapan AKU-Klasik dan AKU-KAO

AKU-Klasik dan AKU-K merupakan analisis yang digunakan untuk data simetrik.

Oleh karena itu data peubah asal harus

memiliki sebaran yang simetrik. Jika datanya

tidak simetrik maka akan banyak titik data

yang sebenarnya bukan pencilan dianggap

sebagai pencilan dan sebaliknya. Pada

penelitian ini dilakukan penerapan AKU-

Komponen

Akar Ciri Proporsi Kumulatif

AKU-

Klasik

AKU-Klasik

tanpa pencilan

AKU-

KAO

AKU-

Klasik

AKU-Klasik

tanpa pencilan

AKU-

KAO

1 27.688 12.668 27.100 0.488 0.460 0.627

2 5.712 2.369 3.272 0.588 0.546 0.703

3 4.732 2.312 2.348 0.671 0.630 0.757

4 4.115 2.075 2.261 0.744 0.706 0.810

5 3.875 1.753 1.773 0.812 0.769 0.851

6 3.147 1.699 1.693 0.868 0.831 0.890

7 2.410 1.575 1.570 0.910 0.888 0.926

8 2.180 1.437 1.465 0.948 0.940 0.960

9 1.672 1.348 1.402 0.978 0.989 0.993

10 1.259 0.290 0.320 1.000 1.000 1.000

Gambar 7 Peta pencilan data menjulur n2=100, p=10 dan k=2 dengan proporsi pencilan 5% pada

(a) AKU-Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO

Tabel 4 Ringkasan hasil komponen utama pada AKU-Klasik, AKU-Klasik tanpa pencilan, dan

AKU-KAO

11

p=10 yang dikontaminasi pencilan sebesar 5%.

Klasik pada data menjulur dengan n=500,

Kemudian analisis tersebut juga diterapkan

pada data ketika pencilan yang teridentifikasi

dihilangkan. Pencilan yang dihilangkan adalah

pencilan yang teridentifikasi yaitu sebanyak

38 pencilan (lihat Lampiran 4). Selain itu

dilakukan juga penerapan analisis komponen

utama kekar untuk data menjulur (AKU-KAO)

pada n=500, p=10 yang dikontaminasi

pencilan sebesar 5%. Tabel 4 menunjukkan ringkasan hasil

analisis komponen utama pada AKU- Klasik,

AKU-Klasik tanpa pencilan, dan AKU-KAO.

Hal yang dibandingkan yaitu akar ciri dan

proporsi kumulatif komponen utama pertama.

AKU-Klasik menghasilkan akar ciri pertama

sebesar 27.688 dan mampu menerangkan

keragaman data sebesar 0.488 atau 48.8%.

Ketika pencilan yang teridentifikasi

dihilangkan, AKU-Klasik menghasilkan akar

ciri pertama yang nilainya lebih kecil yaitu sebesar 12.668 dan mampu menerangkan

keragaman data sebesar 0.460 atau 46%.

Proporsi kumulatif data yang diterangkan

AKU-Klasik menurun ketika pencilan yang

teridentifikasi dihilangkan. Hal tersebut terjadi

karena data dengan pencilan memiliki

keragaman lebih tinggi daripada data tanpa

pencilan. Sedangkan AKU-KAO

menghasilkan akar ciri pertama sebesar 27.100

dan proporsi kumulatif data yang

diterangkannya yaitu sebesar 0,627 atau 62.7%. Nilai akar ciri pertama komponen

utama pada AKU-KAO mampu menerangkan

keragaman data yang lebih besar bila

dibandingkan dengan nilai akar ciri pertama

komponen utama pada AKU-Klasik dan

AKU-Klasik tanpa pencilan.

Menurut Johnson (2007) salah satu kriteria

penentuan banyaknya jumlah komponen

utama yang digunakan adalah dengan

mengambil sejumlah komponen utama yang

mampu menjelaskan 80% total keragaman dari

data. Peubah yang digunakan pada penelitian ini sebanyak 10 buah. Pada AKU-Klasik

diperlukan sebanyak 5 komponen utama. Pada

AKU-Klasik tanpa pencilan diperlukan

sebanyak 6 komponen utama. Sedangkan pada

AKU-KAO hanya diperlukan sebanyak 4

komponen utama.

KESIMPULAN DAN SARAN

Kesimpulan

Analisis komponen utama kekar untuk data menjulur (AKU-KAO) menunjukkan hasil

yang lebih baik dalam mengidentifikasi

pencilan pada data menjulur daripada AKU-

Klasik, AKU-K, dan AKU-KMCD. AKU-

KAO mengidentifikasi pencilan secara tepat

dan konsisten dibandingkan dengan ketiga

metode lainnya yang menganggap titik data

pencilan sebagai pencilan (Kesalahan I) dan

titik data bukan pencilan sebagai pencilan

(Kesalahan II). AKU-Klasik, AKU-KMCD,

dan AKU-K didesain untuk data simetrik

sehingga kurang tepat jika digunakan pada

data menjulur. AKU-KAO mampu mengatasi pengaruh kehadiran pencilan pada data

menjulur dengan n1=500 maupun data dengan

n2=100 karena memiliki Kesalahan Total

paling kecil. Hal tersebut diperkuat dengan

adanya peta pencilan yang memberikan

gambaran secara visual dalam pendeteksian

pencilan.

Saran

Penetapan α yang digunakan untuk setiap

metode perlu ditetapkan secara tepat agar terdapat keseimbangan antara kekekaran dan

efisiensi dalam komputasi karena semakin

kecil α semakin kekar AKU-K tetapi semakin

tidak akurat.

DAFTAR PUSTAKA

Brys G, Hubert M, Struyf A. 2004. A Robust

Measure of Skewness. Journal of

Computational and Graphical Statistics.

13: 996-1017. Draper NR, Smith H. 1992. Analisis Regresi

Terapan Edisi Kedua. Sumantri B.

penerjemah. Jakarta: Gramedia Pustaka

Utama. Terjemahan dari: Applied

Regression Analysis.

Hubert M, Rousseeuw PJ, Vanden-Branden K.

2005. ROBPCA: A New Approach to

Robust Principal Component Analysis.

Technometrics. 47: 64-79.

Hubert M, Rousseeuw PJ, Verdonck T. 2009.

Robust PCA for Skewed Data and Its

Outlier Map. Computational Statistics & Data Analysis. 53: 2264-2274.

Hubert M, Van der Veeken S. 2008. Outlier

Detection for Skewed Data. Journal of

Chemometrics. 22: 235-246.

Johnson RA, Wichern DW. 2007. Applied

Multivariate Statistical Analysis. Ed ke-

6. New Jersey : Prentice Hall. Inc.

Jolliffe IT. 2002. Principal Component

Analysis. Ed ke-2. New York: Springer-

Verlag. Inc.

Montgomery DC, Peck EA. 1992. Introduction to Linear Regression

12

Analysis. Ed ke-2. New York: John

Wiley & Sons. Inc.

Prause K. 1999. The generalized hiperbolic

model: estimation, financial derivatives,

and risk measures [disertasi]. Freiburg:

Albert-Ludwigs Universitat

Rousseeuw PJ. Driessen KV. 1999. A Fast

Algorithm for the Minimum Covariance

Determinant Estimator. Technometrics.

41: 212-223

LAMPIRAN

Lampiran 1 Skema algoritma penelitian

Bangkitkan data menjulur

X~NIG(0,0.8,1,0) sebanyak

n1 = 500 dan n2 = 100

Ulangi sebanyak 10 kali

dengan parameter yang sama

sehingga diperoleh 10 peubah

X berukuran 500 dan 100

yaitu X1, X2, ..., X10

Peubah X1, X2, ..., X10

membentuk matriks

berdimensi 500 × 10 dan

100 × 10

Tentukan nilai korelasi

awal pada peubah X1, X2,

..., X10 sehingga kesepuluh

peubah tersebut saling

berkorelasi

Cek kemenjuluran dari dua set data dengan melihat

nilai medcouple dari

masing-masing peubah

Melakukan pengekstriman

pada pengamatan yang

memiliki nilai AOi terbesar

sesuai dengan proporsi

pencilan yang diinginkan

yaitu 0%, 5%, 10%, dan 15%

YA

TIDAK

Hitung nilai adjusted

outlyingness (AO). Jika AOi ≥

cut off yang ditentukan maka

pengamatan tersebut dikatakan sebagai pencilan

Terdapat empat set data

menjulur berukuran 500 ×

10 dan empat set data

menjulur berukuran 100 ×

10 yang sudah

dikontaminasi

Lakukan identifikasi pencilan

dengan menggunakan metode

AKU-Klasik, AKU-KMCD,

AKU-K, dan AKU-KAO

Bandingkan hasilnya

Metode AKU-Klasik, AKU-

KMCD, AKU-K, dan AKU-

KAO menghasilkan peta pencilan

Bandingkan hasilnya

Persiapkan data menjulur

dengan proporsi pencilan

5% untuk n=500, p=10

Persiapkan data menjulur dengan

proporsi pencilan 5% untuk n=500,

p=10 tapi pencilan yang

teridentifikasi dihilangkan

Lakukan metode AKU-Klasik

dan AKU-KAO

Lakukan metode AKU-Klasik



n1 = 500 dan n2 = 100

TIDAK



n1 = 500 dan n2 = 100

14

15

-5 0 5 10 15 200

50

100

150

200

250

300

350

-2 0 2 4 6 8 10 12 14 160

10

20

30

40

50

60

70

Lampiran 2 Rumus adjusted outlyingness (AO)

AOi=maxv∈B |xi

'v-med(xj'v)|

c2-med xj'v I[xi

'v>med xj'v ]+(med xj

'v -c1 v I[xi'v<med xj

'v ]

dimana:

𝑐1 : pengamatan terkecil yang lebih besar dari Q1-1.5e-4MCIQR

𝑐2 : pengamatan terbesar yang lebih kecil dari Q3+1.5e3MCIQR

𝑄1 : kuartil pertama

𝑄3 : kuartil ketiga

IQR : jangkauan antar kuartil

MC : medcouple

Lampiran 3 Histogram data hasil pembangkitan

(a) Histogram data n1=500, p=10 (b) Histogram data n2=100, p=10

Lampiran 4 Nilai korelasi antar peubah pada n1=500 dan p=10

X1 X2 X3 X4 X5 X6 X7 X8 X9 X10

X1 r 1.000

nilai-p 0.000

X2 r 0.680 1.000

nilai-p 0.000 0.000

X3 r 0.601 0.407 1.000

nilai-p 0.000 0.000 0.000

X4 r 0.661 0.435 0.408 1.000

nilai-p 0.000 0.000 0.000 0.000

X5 r 0.665 0.416 0.363 0.448 1.000

nilai-p 0.000 0.000 0.000 0.000 0.000

X6 r 0.643 0.424 0.359 0.424 0.454 1.000

nilai-p 0.000 0.000 0.000 0.000 0.000 0.000

X7 r 0.699 0.493 0.411 0.452 0.462 0.455 1.000

nilai-p 0.000 0.000 0.000 0.000 0.000 0.000 0.000

X8 r 0.697 0.497 0.385 0.469 0.465 0.402 0.498 1.000

nilai-p 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000

X9 r 0.690 0.422 0.415 0.472 0.499 0.433 0.444 0.454 1.000

nilai-p 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000

X10 r 0.671 0.504 0.434 0.523 0.422 0.432 0.443 0.418 0.458 1.000

nilai-p 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000

Frekuensi Frekuensi

Nil

ai

Nil

ai

Lampiran 5 Nilai korelasi antar peubah pada n2=100 dan p=10

X1 X2 X3 X4 X5 X6 X7 X8 X9 X10

X1 r 1.000

nilai-p 0.000

X2 r 0.582 1.000

nilai-p 0.000 0.000

X3 r 0.659 0.445 1.000

nilai-p 0.000 0.000 0.000

X4 r 0.604 0.304 0.374 1.000

nilai-p 0.000 0.002 0.000 0.000

X5 r 0.564 0.406 0.332 0.347 1.000

nilai-p 0.000 0.000 0.001 0.000 0.000

X6 r 0.441 0.146 0.165 0.352 0.280 1.000

nilai-p 0.000 0.148* 0.102* 0.000 0.005 0.000

X7 r 0.713 0.425 0.405 0.442 0.378 0.429 1.000

nilai-p 0.000 0.000 0.000 0.000 0.000 0.000 0.000

X8 r 0.627 0.363 0.455 0.419 0.336 0.316 0.419 1.000

nilai-p 0.000 0.000 0.000 0.000 0.001 0.001 0.000 0.000

X9 r 0.539 0.576 0.390 0.235 0.364 0.133 0.377 0.411 1.000

nilai-p 0.000 0.000 0.000 0.019* 0.000 0.187* 0.000 0.000 0.000

X10 r 0.695 0.430 0.511 0.465 0.424 0.376 0.540 0.442 0.378 1.000

nilai-p 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000

Keterangan. *Korelasi tidak signifikan pada taraf nyata 0.05

16

17

Lampiran 6 Kesalahan identifikasi pencilan pada data menjulur n1=500, p=10, dan k=2

Proporsi

pencilan Metode Data

Hasil Deteksi

Total Kesalahan

I

Kesalahan

II Pencilan

Bukan

Pencilan

0%

AKU-Klasik

Pencilan 0 0 Bukan Pencilan 41 459 500 0.00% 8.20%

AKU-

KMCD Pencilan 0 0 0

Bukan Pencilan 46 454 500 0.00% 9.20%

AKU-K Pencilan 0 0 0

Bukan Pencilan 75 425 500 0.00% 15.00%

AKU-

KAO Pencilan 0 0 0

Bukan Pencilan 3 497 500 0.00% 0.60%

5%

AKU-

Klasik Pencilan 25 0 25

Bukan Pencilan 13 462 475 0.00% 2.74%

AKU-

KMCD Pencilan 25 0 25

Bukan Pencilan 32 443 475 0.00% 6.74%


Bukan Pencilan 60 415 475 0.00% 12.63%

AKU-

KAO Pencilan 24 1 25 4.00% 0.00%

Bukan Pencilan 0 475 475

10%

AKU-

Klasik Pencilan 50 0 50 0.00% 0.00%


AKU-


Bukan Pencilan 27 423 450 0.00% 6.00%


Bukan Pencilan 50 400 450 0.00% 11.11%

AKU-

KAO Pencilan 50 0 50

Bukan Pencilan 2 448 450 0.00% 0.44%

15%

AKU-



AKU-


Bukan Pencilan 14 411 425 0.00% 3.29%


Bukan Pencilan 36 389 425 0.00% 8.47% AKU-

KAO Pencilan 71 4 75 5.33% 0.00%


18

Lampiran 7 Kesalahan identifikasi pencilan pada data menjulur n2=100, p=10, dan k=2

Proporsi

pencilan Metode Data

Hasil Deteksi

Total Kesalahan

I

Kesalahan

II Pencilan

Bukan

Pencilan

0%

AKU-Klasik

Pencilan 0 0 0 Bukan Pencilan 8 92 100 0.00% 8.00%

AKU-

KMCD Pencilan 0 0 0

Bukan Pencilan 14 86 100 0.00% 14.00%


Bukan Pencilan 18 82 100 0.00% 18.00%

AKU-

KAO Pencilan 0 0 0

Bukan Pencilan 3 97 100 0.00% 3.00%

5%

AKU-


Bukan Pencilan 4 91 95 0.00% 4.21%

AKU-

KMCD Pencilan 5 0 5

Bukan Pencilan 10 85 95 0.00% 10.53%


Bukan Pencilan 15 80 95 0.00% 15.79%

AKU-

KAO Pencilan 5 0 5

Bukan Pencilan 2 93 95 0.00% 2.11%

10%

AKU-


Bukan Pencilan 7 83 90 0.00% 7.78%

AKU-


Bukan Pencilan 9 81 90 0.00% 10.00%


Bukan Pencilan 14 76 90 0.00% 15.56%

AKU-

KAO Pencilan 10 0 10

Bukan Pencilan 0 90 90 0.00% 0.00%

15%

AKU-



AKU-


Bukan Pencilan 3 82 85 0.00% 3.53%


Bukan Pencilan 7 78 85 0.00% 8.24%

AKU-

KAO Pencilan 14 1 15 6.67% 0.00%


19

0 50 100 150 200 250 300 350 400 450 500

0

1

2

3

4

5

6

7

8

9

10

Index

Ort

hogonal dis

tance (

2 L

V)

58

322396

ROBPCA

0 1 2 3 4 5 6

0

1

2

3

4

5

6

7

8

9

Score distance (2 LV)

Ort

hogonal dis

tance

346

322

130

431

58396

CPCA

0 1 2 3 4 5 6 7 8

0

1

2

3

4

5

6

7

8

9

10


Ort

hogonal dis

tance

437

346

130

58

322396

ROBPCA

0 0.5 1 1.5 2 2.5

0

1

2

3

4

5

6

7

8

9


Ort

hogonal dis

tance

111

130

322

431

58396

ROBPCA

Lampiran 8 Peta pencilan data menjulur n1=500, p=10 dan k=2 dengan proporsi pencilan 0%

(a) AKU- Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO

(a) (b)

(c) (d)

20

0 1 2 3 4 5 6 7 8 9

0

5

10

15

20

25

30


Ort

hogonal dis

tance

65 66

22

24

5484

CPCA

0 50 100 150 200 250 300 350 400 450 500

0

5

10

15

20

25

30

35

Index

Ort

hogonal dis

tance (

2 L

V)

17

6566

ROBPCA

0 2 4 6 8 10 12

0

5

10

15

20

25

30

35


Ort

hogonal dis

tance 24

21

22

17

6566

ROBPCA

0 2 4 6 8 10 12 14 16

0

5

10

15

20

25

30

35


Ort

hogonal dis

tance

414 24

107

17

65 66

ROBPCA



(a) (b)

(c) (d)

21

0 1 2 3 4 5 6 7 8

0

5

10

15

20

25

30

35

40


Ort

hogonal dis

tance

20 25

22

65 66104

CPCA

0 50 100 150 200 250 300 350 400 450 500

0

5

10

15

20

25

30

35

40

Index

Ort

hogonal dis

tance (

2 L

V)

103

20 25

ROBPCA

0 2 4 6 8 10 12

0

5

10

15

20

25

30

35

40


Ort

hogonal dis

tance

2

21

22

103

20 25

ROBPCA

0 2 4 6 8 10 12

0

5

10

15

20

25

30

35

40


Ort

hogonal dis

tance

401

485

10

103

20 25

ROBPCA



(a) (b)

(c) (d)

22

0 1 2 3 4 5

0

1

2

3

4

5

6

7

8

9

10


Ort

hogonal dis

tance

6

94

41

49

85 6

CPCA

0 10 20 30 40 50 60 70 80 90 100

0

2

4

6

8

10

12

14

Index

Ort

hogonal dis

tance (

2 L

V)

49

85

6

ROBPCA

0 1 2 3 4 5 6 7 8

0

2

4

6

8

10

12

14


Ort

hogonal dis

tance

48

41

94

49

85

6

ROBPCA

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

0

2

4

6

8

10

12


Ort

hogonal dis

tance

71

48

6

49

85

6

ROBPCA


(a) AKU- Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO

(a) (b)

(c) (d)

23

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

0

5

10

15

20

25

30

35

40


Ort

hogonal dis

tance

14 8

12

10 7

6

CPCA

0 10 20 30 40 50 60 70 80 90 100

0

5

10

15

20

25

30

35

40

45

Index

Ort

hogonal dis

tance (

2 L

V)

7 12

6

ROBPCA

0 1 2 3 4 5

0

5

10

15

20

25

30

35

40

45


Ort

hogonal dis

tance

14 2

12 7 12

6

ROBPCA

0 5 10 15 20

0

5

10

15

20

25

30

35

40

45

50


Ort

hogonal dis

tance

12

17 3

10

7

6

ROBPCA



(a) (b)

(c) (d)

24

0 1 2 3 4 5 6

0

5

10

15

20

25

30

35

40


Ort

hogonal dis

tance

12

8

6

1110

7

CPCA

0 10 20 30 40 50 60 70 80 90 100

0

5

10

15

20

25

30

35

40

45

Index

Ort

hogonal dis

tance (

2 L

V)

1210

6

ROBPCA

0 2 4 6 8 10 12

0

5

10

15

20

25

30

35

40

45


Ort

hogonal dis

tance

6

7

9

1210

6

ROBPCA

0 5 10 15 20

0

5

10

15

20

25

30

35

40


Ort

hogonal dis

tance

13

12

6

8

10

7

ROBPCA



(a) (b)

(c) (d)

identifikasi pencilan dan peta pencilan pada … · menggunakan empat metode yaitu aku-klasik,...

Documents