deteksi outlier pada data campuran numerik dan … · numerik dan kategorikal menggunakan ......

104
DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN KATEGORIKAL MENGGUNAKAN ALGORITMA ENHANCED CLASS OUTLIER DISTANCE BASED (ECODB) (Studi Kasus : Data Kredit BPR XYZ) TUGAS AKHIR Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika Disusun Oleh : MARIA KRISTILIA WIDOWATI 085314080 PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2014 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Upload: vankhanh

Post on 03-Apr-2019

233 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

DETEKSI OUTLIER PADA DATA CAMPURAN

NUMERIK DAN KATEGORIKAL MENGGUNAKAN

ALGORITMA ENHANCED CLASS OUTLIER

DISTANCE BASED (ECODB) (Studi Kasus : Data Kredit BPR XYZ)

TUGAS AKHIR

Diajukan Untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Teknik Informatika

Disusun Oleh :

MARIA KRISTILIA WIDOWATI

085314080

PROGRAM STUDI TEKNIK INFORMATIKA

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2014

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 2: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

i

DETEKSI OUTLIER PADA DATA CAMPURAN

NUMERIK DAN KATEGORIKAL MENGGUNAKAN

ALGORITMA ENHANCED CLASS OUTLIER

DISTANCE BASED (ECODB) (Studi Kasus : Data Kredit BPR XYZ)

TUGAS AKHIR

Diajukan Untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Teknik Informatika

Disusun Oleh :

MARIA KRISTILIA WIDOWATI

085314080

PROGRAM STUDI TEKNIK INFORMATIKA

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2014

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 3: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

ii

OUTLIER DETECTION ON MIXED ATTRIBUTES

NUMERICAL AND CATEGORICAL DATA USING

ENHANCED CLASS OUTLIER DISTANCE BASED

(ECODB) ALGORITHM (Case Study : Credit Data of BPR XYZ)

A Thesis

Presented as Partial Fulfillment of the Requirements

To Obtain the Sarjana Komputer Degree

In Informatical Engineering Study Program

By :

MARIA KRISTILIA WIDOWATI

085314080

INFORMATICS ENGINEERING STUDY PROGRAM

DEPARTMENT OF INFORMATICS ENGINEERING

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2014

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 4: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 5: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 6: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

v

HALAMAN PERSEMBAHAN

“Janganlah gelisah hatimu; percayalah kepada Allah,

percayalah juga kepada-Ku.”

(Yohanes 14:1)

“Tidak ada yang mustahil bagi orang yang percaya!”

(Markus 9:32)

“Pendidikan mempunyai akar yang pahit, tetapi buahnya manis.”

(Aristoteles)

“Tidak ada orang yang gagal selama dia menikmati hidup.” (William Feather)

“Setiap hal yang terjadi, baik ataupun buruk, selalu ada yang

menarik dan dapat dipelajari.”

Tugas akhir ini saya persembahkan untuk :

Allah Tritunggal

Orangtuaku, saudara- saudaraku,

sahabat – sahabatku

dan orang – orang terkasih.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 7: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 8: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

vii

ABSTRAK

Outlier adalah adalah obyek yang berbeda dibandingkan obyek – obyek lain

dalam suatu dataset. Dalam penambangan data, deteksi outlier adalah satu satu

bidang penelitian yang terus berkembang. Umumnya metode deteksi outlier tidak

memperhatikan secara khusus class label pada dataset dan hanya fokus pada

dataset yang seragam. Padahal, dataset yang nyata biasanya mempunyai

multiatribut. Pada deteksi outlier dengan algoritma Enhanced Class Outlier

Distance Based (ECODB), data yang menyimpang dari kumpulan class-nya dapat

ditemukan. Algoritma ECODB dapat diterapkan pada dataset dengan atribut

campuran numerik dan kategorikal.

Algoritma ECODB akan menghitung nilai Class Outlier Factor (COF) dari tiap

instances berdasarkan masukan nilai k dan top N. K adalah jumlah tetangga

terdekat dari suatu instances, sedangkan top N adalah jumlah instances yang

dideteksi sebagai outlier yang diurutkan secara kecil ke besar berdasarkan nilai

COF. COF adalah nilai probabilitas/derajat sebuah instance dapat menjadi outlier.

Outlier adalah data dengan nilai COF terendah.

Pada penelitian ini dilakukan pendeteksian outlier menggunakan algoritma

ECODB. Data yang digunakan adalah data debitur BPR XYZ yang mengangsur

kredit pada bulan Agustus 2013. Data tersebut berjumlah 97 record dalam format

Microsoft Excel (.xls). Pada penelitian ini akan diketahui bagaimana pengaruh

nilai k dan top N dalam proses deteksi outlier menggunakan algoritma ECODB.

Pengujian dilakukan dengan cara menghitung data debitur BPR XYZ

menggunakan algoritma ECODB dengan masukan k dan top N yang berbeda.

Kemudian hasil perhitungan tersebut dibandingkan untuk mendapatkan

kesimpulan. Selain itu juga dilakukan review hasil deteksi outlier oleh petugas

bank.

Dari hasil pengujian efek perubahan nilai k dan top N dapat disimpulkan bahwa

penentuan nilai k dan top N pada algoritma ECODB berpengaruh terhadap outlier

yang dihasilkan. Nilai k dan top N yang terlalu kecil atau besar menyebabkan

hasil deteksi outlier tidak optimal. Berdasarkan hasil pengujian review dan

validitas oleh petugas bank dapat disimpulkan bahwa hasil deteksi outlier yang

diperoleh layak dinyatakan sebagai outlier.

Kata kunci : penambangan data, deteksi outlier, ecodb, enhanced class outlier

distance based

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 9: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

viii

ABSTRACT

Outlier is an object which is different from any objects in one dataset. In data

mining, outlier detection is one of growing researches. Generally, outlier detection

methods find exception or rare cases in a dataset without considered class label as

an important thing and only can be used on dataset that have single datatypes. In

fact, real world dataset usually have mixed datatypes. On outlier detection using

Enhanced Class Outlier Distance Based (ECODB) algorithm, data which is

different from its class can be found. ECODB algorithm can be applied on dataset

that have numerical and categorical attributes.

ECODB algorithm count the Class Outlier Factor (COF) from each instances

based on k and top N value. K is the nearest neighbors of instances, whereas top N

is the number of top class outlier that rank from greatest to the least based on COF

value. COF is the probability/degree from an instance to be considered as outlier.

Outlier is data which have least COF value.

In this thesis, ECODB algorithm was used to perform outlier detection. The data

used in this thesis is credit data of BPR XYZ debtor whom lessened their credit on

August 2013. This data consist of 97 records on Microsoft Excel format (.xls). In

this thesis, it can be understand how k and top N value influenced on outlier

detection using ECODB algorithm.

The testing can be done by counting credit data of BPR XYZ using ECODB

algoritm with various input of k and top N. The results was compared to provide

the conclusion. Besides, it also validated the results of outlier detection by

reviewing the bank officer.

Based on the testing, it can be concluded that the determination of k and top N

value influence the results of outlier detection. Very small or very high of k and

top N value cause unoptimal outlier detection. Also, based on validation testing by

bank officer, the results of the outlier detection using ECODB algorithm are

confirmed as outliers.

Keyword : data mining, outlier detection, ecodb, enhanced class outlier distance

based

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 10: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 11: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

x

KATA PENGANTAR

Puji syukur penulis panjatkan ke hadirat Tuhan Yang Maha Esa atas

penyertaan-Nya sehingga penulis dapat menyelesaikan tugas akhir dengan judul

“Deteksi Outlier pada Data Campuran Numerik dan Kategorikal

Menggunakan Algoritma Enhanced Class Outlier Distance Based (ECODB)

(Studi Kasus : Data Kredit BPR XYZ)”. Penulisan tugas akhir ini ditujukan

untuk memenuhi salah satu syarat memperoleh gelar Sarjana Komputer Jurusan

Teknik Informatika.

Terselesaikannya penulisan tugas akhir ini tidak lepas dari peran serta

beberapa pihak, baik secara langsung maupun secara tidak langsung. Oleh karena

itu, penulis ingin menyampaikan terima kasih kepada pihak - pihak yang telah

ikut membantu dalam penulisan tugas akhir ini, baik dalam memberi bimbingan,

petunjuk kerjasama, kritikan, maupun saran,antara lain kepada:

1. Ibu P.H. Prima Rosa, S.Si., M.Sc., selaku Dekan Fakultas Sains dan

Teknologi Universitas Sanata Dharma Yogyakarta dan dosen pembimbing

yang telah memberikan masukan sehingga tugas akhir ini dapat terselesaikan.

2. Ibu Ridowati Gunawan, S.Kom., M.T., selaku Ketua Program Studi Teknik

Informatika Universitas Sanata Dharma Yogyakarta dan dosen penguji.

3. Sri Hartati Wijono, S.Si., M.Kom, selaku dosen penguji.

4. Seluruh staff pengajar dan karyawan Program Studi Teknik Informatika

Fakultas Sains dan Teknologi Universitas Sanata Dharma.

5. Direktur Utama BPR XYZ dan Kepala Bagian Humas BPR XYZ yang telah

memberikan ijin untuk melakukan penelitian di BPR XYZ.

6. Kedua orang tua tersayang, bapak Yohanes Suradi dan ibu Firmina Sri

Rahayuningsih yang selalu mendoakan, memberi petuah dan semangat

sehingga tugas akhir ini dapat terselesaikan.

7. Semua saudara, Agatha Ratih Firmita Adhi, Andreas Kresna Oki Raditya,

Rosa Ayu Famela Larasati, dan Juanetta Ruby de Bruyn yang telah

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 12: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

xi

memberikan semangat, perhatian, penghiburan dan doa sehingga penulis

dapat menyelesaikan tugas akhir ini.

8. Sahabat – sahabatku, alm. Vina, alm. Yoana, Murni, Rosa, Devi, mbak Putri,

Vina, Veni, Monic, Eny, Ria, Ita, Nana, Endah, Etik, Dhesie, Caca, Ulays,

Veverly, Justin, Helan, dan Violya.

9. Dan semua pihak yang tidak dapat disebutkan satu per satu yang telah

membantu terselesaikannya tugas akhir ini.

Penulis menyadari bahwa tugas akhir ini masih jauh dari sempurna. Oleh

karena itu, penulis dengan senang hati menerima sumbangan pikiran, baik saran

maupun kritik untuk perbaikan – perbaikan di masa datang. Akhir kata, penulis

berharap semoga laporan ini dapat bermanfaat bagi semua pihak.

Yogyakarta, Oktober 2014

Maria Kristilia Widowati

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 13: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

xii

DAFTAR ISI

HALAMAN JUDUL……………………………………………………….. i

HALAMAN PERSETUJUAN.…………………………………………….. iii

HALAMAN PENGESAHAN..…………………………………………….. iv

HALAMAN PERSEMBAHAN..…………………………………………... v

PERNYATAAN KEASLIAN KARYA..…………………………………... vi

ABSTRAK..………………………………..……………………………….. vii

ABSTRACT..……………………………….………………………………... viii

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI.……………… ix

KATA PENGANTAR……………………………………………………… x

DAFTAR ISI………………………………………………………………... xii

DAFTAR TABEL………………………………………………………..…. xv

DAFTAR GAMBAR………………………………………………………..

DAFTAR LAMPIRAN……………………………………………………...

xvi

xvii

BAB I PENDAHULUAN

A. Latar Belakang Masalah………………………..…………………. 1

B. Rumusan Masalah………….……………………...……………… 2

C. Tujuan Penelitian......…………………………………..…………. 3

D. Batasan Masalah.......………………………………..……………. 3

E. Manfaat Penelitian……………………………………………….. 4

F. Metodologi Penelitian……………………………………………. 4

G. Sistematika Penulisan……………………………….……………. 5

BAB II LANDASAN TEORI

A. Penambangan Data……………………………….…………….….. 7

1. Pengertian dan Fungsi Penambangan Data………………...…. 7

2. Pemrosesan Awal Data……………………………………..…. 8

B. Outlier…………………………………………….……………….. 12

C. Algoritma Enhanced Class Outlier Distance Based (ECODB).….. 15

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 14: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

xiii

BAB III METODE PENELITIAN

A. Metodologi Penelitian………………………..…………………… 19

B. Instrumen Penelitian………….……………………...…………… 20

C. Teknik Pengumpulan Data......…………………………………..… 20

D. Teknik Pengolahan Data.......………………………………..…….. 23

E. Tahap – Tahap Penelitian……………………………….…………. 23

F. Contoh Perhitungan Algoritma ECODB………………………….. 25

BAB IV HASIL DAN PEMBAHASAN

A. Sumber Awal Data……………………….…….…….…….……...

B. Pemrosesan Awal Data……………………………….………..….

1. Seleksi Data………………………………………………….….

2. Pengisian Missing Value………………………………………..

3. Normalisasi Data………………………………………………..

C. Penambangan Data Dengan Microsoft Excel……………………..

1. Menormalisasi Data………………………………………….....

2. Mencari Jarak Dari Tiap Data Dengan Menggunakan Fungsi

Jarak Mixed Euclidian Distance………………………………...

3. Menghitung PCL………………………………………………..

4. Meranking List Top N Outlier Dari Instance Dengan Nilai

PCL(T,K) Terkecil……………………………………………....

5. Menghitung Nilai Deviation(T)¸ Norm(Deviation(T)), Kdist(T),

Dan Norm(Kdist(T))………………………………………….….

6. Menghitung Nilai COF (Class Outlier Factor)………………....

7. Mengurutkan List Top N Secara Ascending Sesuai Nilai COF....

D. Hasil Deteksi Outlier Berdasarkan Algoritma ECODB Dengan

Microsoft Excel…………………………………………………….

E. Kesimpulan Hasil Percobaan Perhitungan Dengan Masukan K dan

Top N Yang Berubah - Ubah……………………………………….

F. Kesimpulan Hasil Pengujian Review dan Validitas oleh Pengguna..

30

30

30

36

37

38

38

39

40

40

41

43

43

44

66

67

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 15: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

xiv

BAB V PENUTUP

A.Kesimpulan……………………………….………………………..... 73

G. Saran……………………………….……………………………....

DAFTAR PUSTAKA……………………………….………………………

LAMPIRAN……………………………….…………….………………….

74

75

77

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 16: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

xv

DAFTAR TABEL

Tabel 3.1. Atribut – atribut pada dataset debitur ……………….…..…….………..……..... 21

Tabel 3.2. Hasil perhitungan PCL tiap instance ….………………….….…………….... 27

Tabel 3.3 Hasil perhitungan Deviation dan KDist dari tiap instance..….……………...... 28

Tabel 3.4. Hasil perhitungan COF dari tiap instance….………………….….…….…….... 28

Tabel 4.1. Contoh atribut pada dataset debitur sebelum normalisasi….……………….... 37

Tabel 4.2. Contoh atribut pada dataset debitur setelah normalisasi….………………….. 38

Tabel 4.3. Hasil deteksi outlier dengan masukan k dan top N yang berubah – ubah......... 44

Tabel 4.4. Nilai rata – rata COF berdasarkan masukan k dan top N yang berubah – ubah 47

Tabel 4.5 Nilai COF dengan k = 7 dan top N = 10………..………..………..………...... 48

Tabel 4.6 Nilai COF dengan k = 7 dan top N = 20………..………..………..……….... 48

Tabel 4.7 Nilai COF dengan k = 7 dan top N = 30………..………..………..……….... 49

Tabel 4.8 Nilai COF dengan k = 7 dan top N = 40………..………..………..……….... 49

Tabel 4.9 Nilai COF dengan k = 7 dan top N = 50………..………..………..……….... 50

Tabel 4.10 Nilai COF dengan k = 17 dan top N = 10………..………..………..……….. 51

Tabel 4.11 Nilai COF dengan k = 17 dan top N = 20………..………..………..……….. 52

Tabel 4.12 Nilai COF dengan k = 17 dan top N = 30………..………..………..……….. 52

Tabel 4.13 Nilai COF dengan k = 17 dan top N = 40………..………..………..……….. 53

Tabel 4.14 Nilai COF dengan k = 17 dan top N = 50………..………..………..……….. 54

Tabel 4.15 Nilai COF dengan k = 27 dan top N = 10………..………..………..……….. 55

Tabel 4.16 Nilai COF dengan k = 27 dan top N = 20………..………..………..……….. 55

Tabel 4.17 Nilai COF dengan k = 27 dan top N = 30………..………..………..……….. 56

Tabel 4.18 Nilai COF dengan k = 27 dan top N = 40………..………..………..……….. 57

Tabel 4.19 Nilai COF dengan k = 27 dan top N = 50………..………..………..……….. 58

Tabel 4.20 Nilai COF dengan k = 37 dan top N = 10………..………..………..……….. 59

Tabel 4.21 Nilai COF dengan k = 37 dan top N = 20………..………..………..……….. 59

Tabel 4.22 Nilai COF dengan k = 37 dan top N = 30………..………..………..……….. 60

Tabel 4.23 Nilai COF dengan k = 37 dan top N = 40………..………..………..……….. 60

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 17: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

xvi

Tabel 4.24 Nilai COF dengan k = 37 dan top N = 50………..………..………..……….. 61

Tabel 4.25 Nilai COF dengan k = 47 dan top N = 10………..………..………..……….. 62

Tabel 4.26 Nilai COF dengan k = 47 dan top N = 20………..………..………..……….. 63

Tabel 4.27 Nilai COF dengan k = 47 dan top N = 30………..………..………..……….. 63

Tabel 4.28 Nilai COF dengan k = 47 dan top N = 40………..………..………..……….. 64

Tabel 4.29 Nilai COF dengan k = 47 dan top N = 50………..………..………..……….. 65

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 18: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

xvii

DAFTAR GAMBAR

Gambar 2.1 Metode pemrosesan awal data……………………….………..……..... 8

Gambar 2.2 Set data dengan outlier…………………………………….….....…...... 12

Gambar 3.1 Contoh dataset debitur……………………………….……….....…...... 25

Gambar 3.2 Data debitur yang telah dinormalisasi……………………………….… 26

Gambar 3.3 Perhitungan jarak setiap instance dari data debitur…………………… 26

Gambar 3.4 Tujuh tetangga terdekat dari tiap instance……………………………...

Gambar 4.1 Atribut pada data debitur setelah tahap seleksi data…………………....

27

36

Gambar 4.2 Isi data debitur setelah tahap pengisian missing value…………………. 37

Gambar 4.3 Contoh formula normalisasi data………………….………………….... 39

Gambar 4.4 Contoh formula mencari jarak………………….………………….…… 40

Gambar 4.5 Contoh formula menghitung PCL………………….………………...… 40

Gambar 4.6 Contoh meranking kecil ke besar berdasarkan nilai PCL(T,K) terkecil... 41

Gambar 4.7 Contoh formula menghitung Deviation………………………………… 42

Gambar 4.8 Contoh formula menghitung Norm(Deviation(T))………………...…… 42

Gambar 4.9 Contoh formula menghitung Kdist…………………………………….. 42

Gambar 4.10 Contoh formula menghitung Norm(KDist(T))………………………... 43

Gambar 4.11 Contoh formula menghitung COF (Class Outlier Factor)………….… 43

Gambar 4.12 Contoh meranking kecil ke besar berdasarkan nilai COF terkecil……. 44

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 19: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

xviii

DAFTAR LAMPIRAN

1. Tabel data debitur sebelum mengalami pemrosesan awal…………………… 77

2. Hasil seleksi atribut data debitur……………………………………………... 78

3. Hasil pengisian missing value………………………………………………... 79

4. Hasil normalisasi data………………………………………………………... 80

5. Hasil pemrosesan data………………………………………………………... 81

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 20: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

1

BAB I

PENDAHULUAN

A. Latar Belakang Masalah

Outlier adalah kumpulan obyek - obyek yang dipandang sangat

berbeda dibandingkan keseluruhan data (Han dan M. Kamber, 2006). Dalam

penambangan data, deteksi outlier adalah satu satu bidang penelitian yang

terus berkembang (Maryono, 2010). Deteksi data outlier sangat bermanfaat

untuk mendeteksi adanya perilaku atau kejadian yang tidak normal seperti

deteksi penipuan penggunaan kartu kredit, deteksi intrusi jaringan,

penggelapan asuransi, diagnosa medis, segmentasi pelanggan, dan

sebagainya (Breunig, et. al., 2000).

Ada bermacam – macam teknik yang digunakan untuk mendeteksi

outlier pada data. Namun, pada banyak metode deteksi outlier tidak

memperhatikan secara khusus class label pada dataset. Akibatnya data yang

merupakan outlier dalam suatu class label tidak dapat dideteksi. Selain itu,

metode – metode tersebut hanya fokus pada set data yang seragam, yaitu

hanya terdiri dari salah satu tipe atribut saja (Maryono, 2010). Padahal, set

data yang nyata tidak hanya mempunyai atribut numerik, tetapi juga

mempunyai atribut kategorikal (Aggarwal, 2013).

Contoh data nyata dengan atribut campuran dan mempunyai class

label adalah data debitur BPR XYZ. Data ini merupakan data debitur yang

mengangsur kredit pada bulan Agustus 2013. Untuk mengetahui outlier yang

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 21: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

2

terdapat pada data debitur tersebut dapat dilakukan pendeteksian outlier

menggunakan algoritma Enhanced Class Outlier Distance Based (ECODB).

Menurut Hewahi dan M. K. Saad (2009), algoritma Enhanced

Class Outlier Distance Based (ECODB) dapat digunakan untuk mendeteksi

outlier pada data dengan multiatribut. Algoritma ini akan menghitung nilai

Class Outlier Factor (COF) dari tiap instances berdasarkan masukan nilai k

dan top N. K adalah jumlah tetangga terdekat dari suatu instances, sedangkan

top N adalah jumlah instances yang dideteksi sebagai outlier yang diurutkan

secara kecil ke besar berdasarkan nilai COF. COF adalah nilai

probabilitas/derajat sebuah instance dapat menjadi outlier. Outlier adalah

data dengan nilai COF terendah.

Pada penelitian ini dilakukan pendeteksian outlier pada data

debitur BPR XYZ menggunakan algoritma ECODB. Hasil penelitian ini

diharapkan dapat memberi gambaran apakah algoritma ECODB dapat

digunakan untuk mendeteksi outlier pada data debitur dengan atribut

campuran numerik dan kategorikal dengan kasus data debitur BPR XYZ dan

bagaimana pengaruh nilai k dan top N dalam proses deteksi outlier

menggunakan algoritma ECODB. Setelah outlier dideteksi, pihak bank dapat

menganalisa data dan outlier untuk menemukan faktor tertentu yang

berpengaruh pada keunikan data debitur tersebut.

B. Rumusan Masalah

Berdasarkan latar belakang masalah di atas, maka masalah yang

dapat diselesaikan adalah sebagai berikut :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 22: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

3

1. Apakah algoritma ECODB dapat digunakan untuk mendeteksi outlier

pada data debitur dengan atribut campuran numerik dan kategorikal

dengan kasus data debitur BPR XYZ?

2. Bagaimana pengaruh nilai k dan top N dalam proses deteksi outlier

menggunakan algoritma ECODB?

C. Tujuan Penelitian

Tujuan dari penelitian ini adalah :

1. Menguji apakah algoritma ECODB dapat digunakan untuk

menemukan outlier pada data debitur dengan atribut campuran

numerik dan kategorikal dengan kasus data debitur BPR XYZ.

2. Mengetahui pengaruh nilai k dan top N dalam proses deteksi

outlier menggunakan algoritma ECODB.

D. Batasan Masalah

Penelitian ini mempunyai beberapa batasan, yaitu :

1. Data yang digunakan adalah data debitur BPR XYZ yang

mengangsur kredit pada bulan Agustus 2013. Data tersebut

berjumlah 97 record dalam format Microsoft Excel.

2. Algoritma yang digunakan adalah algoritma ECODB (Enhanced

Class Outlier Distance Based).

3. Proses deteksi outlier dan analisa menggunakan Microsoft

Excel.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 23: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

4

E. Manfaat Penelitian

Penelitian ini mempunyai manfaat sebagai berikut :

1. Mengetahui apakah algoritma ECODB dapat digunakan untuk

menemukan outlier pada data debitur dengan atribut campuran

numerik dan kategorikal dengan kasus data debitur BPR XYZ.

2. Mengetahui pengaruh nilai k dan top N dalam proses deteksi

outlier menggunakan algoritma ECODB.

3. Membantu pihak bank untuk menemukan faktor tertentu yang

berpengaruh pada keunikan data debitur.

F. Metodologi Penelitian

Metodologi yang digunakan pada penelitian ini adalah

menggunakan metode KDD (Knowledge Discovery in Database), yang

dikemukakan oleh Han dan Kamber (2006). Langkah dari metodologi

tersebut adalah sebagai berikut :

1. Seleksi Data ( Data Selection )

Proses pemilihan atribut-atribut yang relevan untuk dilakukan

penambangan data. Atribut yang tidak relevan akan dihilangkan

karena akan membiaskan hasil penambangan data.

2. Pembersihan Data (Data Cleaning)

Proses pembersihan pada data yang menjadi fokus

KDD. Bentuk pembersihan data mencakup antara lain mengisi

missing value, menghaluskan data yang noisy, mengidentifikasi

dan menghilangkan outlier, dan menangani data yang tidak

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 24: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

5

konsisten. Dalam penelitian ini dilakukan pengisian missing

value.

3. Transformasi Data (Data Transformation)

Proses transformasi pada data yang sudah diseleksi ke dalam

bentuk yang sesuai untuk ditambang.

4. Penambangan Data (Data Mining)

Proses mengaplikasikan metode untuk mendapatkan pola pada

suatu kumpulan data. Dalam penelitian ini, metode yang

digunakan adalah metode analisis outlier dengan menggunakan

algoritma ECODB.

5. Evaluasi Pola ( Pattern Evaluation )

Proses penerjemahan pola-pola yang dihasilkan dari

penambangan data. Tahap ini merupakan bagian dari proses

KDD yang mencakup pemeriksaan apakah pola atau informasi

yang ditemukan bertentangan dengan fakta atau hipotesa yang

ada sebelumnya.

G. Sistematika Penulisan

Secara umum dalam menyelesaikan penelitian ini, disusun suatu

sistematika sebagai berikut :

BAB I : PENDAHULUAN

Berisi latar belakang masalah, rumusan masalah, tujuan

penelitian, batasan masalah, manfaat penelitian,

metodologi penelitian dan sistematika penulisan.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 25: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

6

BAB II : LANDASAN TEORI

Berisi teori - teori yang mendukung penelitian, antara lain

mengenai penambangan data, outlier dan algoritma

Enhanced Class Outlier Distance Based (ECODB).

BAB III : METODE PENELITIAN

Berisi penjelasan mengenai langkah atau metode yang

dilakukan untuk menyelesaikan masalah dalam

penelitian ini.

BAB IV : HASIL DAN PEMBAHASAN

Berisi penjelasan tentang hasil analisa yang diperoleh dari

penelitian. Pada bab ini, akan dijabarkan secara lengkap

proses perhitungan menggunakan Microsoft Excel, hasil

deteksi outlier yang didapat, hasil analisa algoritma

ECODB yang diterapkan ke dalam data debitur dan hasil

pengujian review dan validitas outlier oleh petugas bank

BPR XYZ.

BAB VII : PENUTUP

Berisi kesimpulan dan saran yang bermanfaat bagi

pengembangan penelitian ini lebih lanjut.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 26: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

7

BAB II

LANDASAN TEORI

A. Penambangan Data

1. Pengertian dan Fungsi Penambangan Data

Menurut Santosa (2007) “penambangan data adalah kegiatan yang

meliputi pengumpulan, pemakaian data historis untuk menemukan

keteraturan, pola atau hubungan dalam set data berukuran besar.

Keluaran dari penambangan data bisa dipakai untuk memperbaiki

pengambilan keputusan di masa depan”. Tool penambangan data mampu

memprediksi tren dan perilaku sehingga mampu membuat perusahaan

semakin proaktif dan memperkaya pengetahuan atau informasi dalam

membuat keputusan (Lee S dan Santana, 2010).

Menurut Lee S dan Santana (2010), fungsi penambangan data

yang digunakan untuk keperluan implementatif mencakup :

a. Mendeteksi pola kecurangan bertransaksi, klaim kartu kredit,

dll.

b. Memodelkan pola dan perilaku pembeli/konsumen.

c. Mengoptimasi performansi produk barang atau jasa.

d. Mendeteksi kejadian pada perilaku, seperti menelusuri riwayat

aktivitas yang unik atau tidak wajar.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 27: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

8

e. Memperlengkapi perusahaan dalam menemukan pola dan

korelasi data yang menuntun pada pengetahuan dan temuan

bernilai lainnya.

2. Pemrosesan Awal Data

Data yang belum diproses disebut data mentah. Data mentah perlu

disiapkan terlebih dahulu agar bisa dipakai dalam proses penambangan

data. Pada data mentah sering ditemukan noisy, missing value (nilai yang

hilang), dan data yang tidak konsisten. Data dengan kualitas rendah akan

menghasilkan kualitas penambangan yang buruk (Han dan Kamber,

2006). Maka perlu ditingkatkan kualitasnya dengan melakukan

pemrosesan awal data.

Sumber : Han dan Kamber, 2006

Gambar 2.1 Metode pemrosesan awal data

Ada beberapa metode pemrosesan awal data, yaitu :

a. Pembersihan data (data cleaning)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 28: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

9

Data yang akan ditambang mungkin saja mengalami

missing value, noisy, atau tidak konsisten. Pembersihan data

diperlukan untuk mengisi missing value, menghaluskan data

yang noisy, mengidentifikasi dan menghilangkan outlier, dan

menangani data yang tidak konsisten (Han dan Kamber,

2006).

Ada beberapa langkah pembersihan data untuk

menangani data yang missing value atau noisy.

1. Missing value

a. Membiarkan nilai yang hilang.

b. Mengisi nilai yang hilang secara manual.

c. Menggunakan konstanta \Unknown atau ∞

untuk mengisi nilai yang hilang.

d. Mengisi nilai yang hilang dengan nilai rata –

rata atribut.

e. Mengisi nilai yang hilang dengan nilai rata –

rata sampel dari kelas yang sama.

f. Mengisi dengan nilai yang paling besar

kemungkinan/kesesuaiannya dengan nilai yang

hilang (Han dan Kamber, 2006).

2. Noisy

a. Metode binning.

Ada 3 macam metode binning, yaitu :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 29: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

10

1. Smoothing dengan rata – rata (means)

dari bin.

Tiap nilai dari bin diganti dengan nilai

rata – rata bin.

2. Smoothing dengan nilai tengah (median)

dari bin.

Tiap nilai dari bin diganti dengan nilai

nilai tengah bin.

3. Smoothing dengan batas bin.

Nilai terendah dan tertinggi

diidentifikasi sebagai batas bin. Setiap

nilai bin diubah sesuai nilai batas bin

yang paling mendekati (Han dan

Kamber, 2006).

b. Regresi.

c. Clustering.

b. Integrasi data (data integration)

Integrasi data adalah suatu teknik mengkombinasikan

data dari beberapa sumber dalam satu tempat penyimpanan,

misalnya gudang data (data warehouse). Sumber tersebut

bisa berupa multiple database, data cube atau flat file (Han

dan Kamber, 2006).

c. Transformasi data (data transformation)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 30: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

11

Data mentah perlu dilakukan proses transformasi

untuk meningkatkan performanya. Dalam tranformasi data,

data diubah menjadi bentuk yang bisa ditambang (Han dan

Kamber, 2006).

Ada beberapa metode transformasi data, yaitu :

1. Smoothing.

2. Agregasi.

3. Generalisasi.

4. Normalisasi.

5. Konstruksi atribut. (Han dan Kamber, 2006)

d. Reduksi data (data reduction)

Data yang kompleks akan membutuhkan waktu yang

lama untuk menambang. Teknik reduksi data sangat

membantu mereduksi data yang kompleks tanpa mengurangi

integritas dari data yang asli dan tidak mengurangi kualitas

informasi yang dihasilkan (Han dan Kamber, 2006).

Ada beberapa metode yang digunakan untuk mereduksi

data, yaitu :

1. Agregasi data cube.

2. Mereduksi dimensi.

3. Mengkompresi data.

4. Mereduksi semua data (mengganti data yang asli

dengan model data).

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 31: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

12

5. Pendiskretan dan konsep hirarki (Han dan Kamber,

2006).

B. Outlier

Menurut Han dan Kamber (2006), data outlier adalah kumpulan

obyek - obyek yang dipandang sangat berbeda dibandingkan keseluruhan data.

Jadi dapat dikatakan, outlier adalah data yang berbeda/tidak sama atau tidak

konsisten dengan keseluruhan set data.

Sumber : Han dan Kamber, 2006

Gambar 2.2 Set data dengan outlier

Ada beberapa hal yang menyebabkan munculnya outlier, yaitu :

1. Kesalahan pengukuran data.

Sebagai contoh, munculnya data umur seseorang yaitu 999 tahun

karena kesalahan pengaturan default program.

2. Data pengukuran berasal dari populasi lain.

Contohnya yaitu gaji seorang pimpinan perusahaan dapat

dianggap sebagai outlier di antara gaji para karyawan di

perusahaan tersebut karena adanya perbedaan yang sangat

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 32: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

13

mencolok antara gaji seorang pimpinan dan gaji karyawan di

sebuah perusahaan (Han dan Kamber, 2006).

3. Data pengukuran yang benar tetapi mewakili peristiwa atau

keadaan unik yang jarang terjadi.

Misalnya, terdapat ada mahasiswa dengan IPK di atas 3,9

sementara sebagian besar mahasiswa mempunyai IPK di bawah

3,3, maka mahasiswa itu akan dianggap sebagai outlier.

Kebanyakan algoritma penambangan data mencoba untuk

mengurangi atau bahkan menghilangkan pengaruh outlier. Padahal outlier

sendiri kemungkinan memiliki informasi penting yang tersembunyi (Han

dan Kamber, 2006). Deteksi outlier dapat menghasilkan informasi penting

yang terdapat pada outlier. Dalam penambangan data, deteksi outlier adalah

satu satu bidang penelitian yang terus berkembang (Maryono, 2010). Deteksi

data outlier sangat bermanfaat untuk mendeteksi adanya perilaku atau

kejadian yang tidak normal seperti deteksi penipuan penggunaan kartu

kredit, deteksi intrusi jaringan, penggelapan asuransi, diagnosa medis,

segmentasi pelanggan, dan sebagainya (Breunig, et. Al., 2000).

Menurut Han dan Kamber (2006) , pendeteksian outlier

dikategorikan menjadi 4 metode yaitu :

a. Statistical Distribution Based Outlier Detection

Dalam metode ini data diasumsikan sebagai sebuah hipotesis

kerja. Setiap data obyek di dalam dataset dibandingkan

terhadap hipotesis kerja. Data yang dapat diterima maka akan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 33: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

14

masuk dalam hipotesis kerja, sedangkan data yang ditolak atau

tidak sesuai dengan hipotesis kerja maka ditetapkan menjadi

hipotesis alternatif (outlier).

b. Distance Based Outlier Detection

Metode ini adalah sebuah metode deteksi outlier dengan

menghitung jarak pada obyek tetangga terdekat (nearest neighbor).

Di dalam pendekatan ini sebuah obyek dibandingkan dengan

obyek – obyek terdekatnya yang didefinisikan sebagai k nearest

neighbor. Jika jarak sebuah obyek relatif dekat maka obyek

tersebut dikatakan normal, namun jika jarak antar obyek relatif

jauh maka obyek tersebut dikatakan tidak normal (outlier).

c. Density Based Local Outlier Detection

Metode density based tidak secara eksplisit mengklasifikasikan

sebuah obyek adalah outlier atau bukan, akan tetapi lebih kepada

pemberian nilai kepada obyek sebagai derajat kekuatan obyek

tersebut dapat dikategorikan sebagai outlier. Ukuran derajat

kekuatan ini adalah local outlier factor (LOF). Pendekatan untuk

pencarian outlier ini hanya membutuhkan sebuah parameter yaitu

MinPts. MinPts adalah jumlah tetangga terdekat yang

digunakan untuk mendefinisikan kumpulan lokal suatu obyek.

d. Deviation Based Outlier Detection

Metode deviation based tidak menggunakan pengujian statistik

ataupun perbandingan jarak untuk mengidentifikasi sebuah outlier.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 34: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

15

Metode ini mengidentifikasi sebuah outlier dengan memeriksa

karakteristik utama dari obyek dalam sebuah kumpulan data.

Obyek yang memiliki karakteristik di luar karakteristik utama

akan dianggap sebagai outlier (Han dan Kamber, 2006).

C. Algoritma Enhanced Class Outlier Distance Based (ECODB)

Algoritma Enhanced Class Outlier Distance Based (ECODB) adalah

algoritma deteksi outlier yang dikembangkan oleh Hewahi dan M. K. Saad

(2009). Algoritma ini merupakan penyempurnaan dari algoritma CODB

(Class Outlier Distance Based). Pada algoritma ini parameter α dan β

dihilangkan sehingga pada penghitungan Deviation(T) dan KDist(T) dilakukan

proses normalisasi (Hewahi dan M. K. Saad, 2009). Kedua parameter tersebut

dihilangkan untuk menghindari proses trial and error. Langkah – langkah

algoritma ECODB adalah sebagai berikut :

1. Untuk dataset yang diberikan, hitung nilai PCL(T,K) untuk

semua instance.

PCL(Probability of Class Label) adalah nilai

probabilitas/banyaknya kemunculan class label yang sama

dengan instance T dibandingkan K tetangga terdekatnya.

Misalkan ada 7 tetangga terdekat dari instance T (termasuk

dirinya) dari sebuah dataset dengan class label x dan y, dimana

5 dari tetangga terdekat mempunyai class label x dan sisanya

mempunyai class label y. Instance T dengan class label y

mempunyai nilai PCL 2/7.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 35: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

16

2. Meranking list top N outlier dari instance dengan nilai

PCL(T,K) terkecil. Top N adalah jumlah instances yang

dideteksi sebagai outlier yang diurutkan dari kecil ke besar

berdasarkan nilai COF.

3. Untuk setiap instance yang berada di list top N, menghitung

nilai Deviation(T) dan KDist(T) dan update nilai MaxDev,

MinDev, MaxKDist, dan MinKDist.

Misalkan ada subset DCL = {t1, t2, t3, ..., th} dari dataset D= {t1,

t2, t3, ..., tn}, dimana h adalah jumlah instance dari DCL dan n

adalah jumlah instance di D. Misalkan ada instance T, DCL

mengandung seluruh instance yang mempunyai label kelas

(class label) yang sama dengan instance T.

Deviation dari T adalah seberapa besar nilai instance T yang

menyimpang dari subset DCL. Deviation dihitung dengan

menjumlahkan jarak antara instance T dengan setiap instance

DCL. Deviation dihitung dengan rumus sebagai berikut :

(2.1)

KDist adalah jarak antara instance T pada dataset D dengan K

tetangga terdekat, seberapa dekat nilai K instance tetangga

terdekat dengan instance T. KDist dihitung dengan rumus

sebagai berikut :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 36: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

17

(2.2)

Kemudian nilai Deviation dan KDist dinormalisasikan dalam

range 0 – 1 menggunakan rumus sebagai berikut :

(2.3)

Dimana,

Norm(Deviation(T)) : nilai deviation yang sudah ternormalisasi

dari instance T

Norm(KDist(T)) : nilai KDist yang sudah ternormalisasi dari

instance T

MaxDev : nilai deviation tertinggi dari top N class outlier

MinDev : nilai deviation terendah dari top N class outlier

MaxKDist : nilai KDist tertinggi dari top N class outlier

MinKDist : KDist terendah dari top N class outlier

4. Menghitung nilai COF (Class Outlier Factor) dari setiap

instance yang berada di list top N. COF adalah derajat dari suatu

instance T untuk dikategorikan sebagai outlier.

(2.4)

Dimana,

COF(T) : nilai Class Outlier Faktor dari instance T

K : jumlah tetangga instance T

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 37: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

18

PCL(T,K) : nilai probabilitas class label dari instance T dengan

class label dari K Nearest Neighbors

norm(Devation(T)) : nilai deviation yang sudah ternormalisasi

dari instance T

norm(KDist(T)) : nilai KDist yang sudah ternormalisasi dari dari

instance T

Class outlier adalah instance – instance yang memenuhi

pernyataan berikut :

a. KDist dari K tetangga terdekatnya terkecil.

b. Nilai Deviation-nya terbesar.

c. Mempunyai class label yang berbeda dengan K tetangga

terdekatnya.

5. Mengurutkan list top N dari kecil ke besar sesuai nilai COF.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 38: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

19

BAB III

METODE PENELITIAN

A. Metodologi Penelitian

Penelitian ini dilakukan untuk menemukan outlier pada data debitur

dengan data campuran numerik dan kategorikal menggunakan algoritma

ECODB. Penelitian ini menggunakan data debitur dari BPR XYZ sebagai

bahan studi kasus. Dengan melakukan pendeteksian outlier pada data tersebut,

dapat diketahui outlier pada suatu kumpulan data yang mempunyai classs label.

Penelitian dilakukan dengan cara menghitung data debitur BPR XYZ

bulan Agustus 2013 berdasarkan teori algoritma ECODB dengan menggunakan

Microsoft Excel. Perhitungan akan dilakukan dengan masukan k dan top N

yang berbeda. Kemudian hasil perhitungan tersebut akan dibandingkan untuk

mendapatkan kesimpulan dan dilakukan review hasil deteksi outlier oleh

petugas bank.

Hasil penelitian ini diharapkan dapat memberi gambaran apakah

algoritma ECODB dapat digunakan untuk mendeteksi outlier pada data debitur

dengan atribut campuran numerik dan kategorikal dengan kasus data debitur

BPR XYZ dan bagaimana pengaruh nilai k dan top N dalam proses deteksi

outlier menggunakan algoritma ECODB. Setelah outlier dideteksi, pihak bank

dapat menganalisa data dan outlier untuk menemukan faktor tertentu yang

berpengaruh pada keunikan data debitur tersebut.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 39: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

20

B. Instrumen Penelitian

Instrumen yang digunakan untuk melakukan penelitian ini adalah

sebagai berikut :

1. Microsoft Excel

Microsoft Excel digunakan untuk menghitung dan menganalisa

hasil penambangan data menggunakan algoritma ECODB. Data

akan mengalami pemrosesan awal dahulu kemudian akan dihitung

menggunakan algoritma ECODB. Rumus – rumus perhitungan

pada algoritma ECODB akan diterapkan dalam bentuk formula di

Microsoft Excel. Perhitungan akan dilakukan dengan masukan k

dan top N yang berbeda.

2. Grafik

Grafik digunakan untuk melihat persebaran dari hasil perhitungan

dengan masukan k dan top N yang berbeda. Dengan

memperhatikan grafik, maka dapat diambil kesimpulan tentang

pengaruh nilai nilai k dan top N dalam mendeteksi outlier

mengunakan algoritma ECODB.

C. Teknik Pengumpulan Data

Data yang digunakan dalam penelitian ini adalah data debitur yang

mengangsur kredit di BPR XYZ bulan Agustus 2013 sebanyak 97 data record.

Data tersebut dalam format Microsoft Excel (.xls). Data ini diperoleh setelah

mendapat ijin pengambilan dan penggunaan data untuk penelitian dari Kepala

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 40: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

21

Humas BPR XYZ. Data tersebut terdiri dari 33 atribut seperti dalam tabel

berikut :

Tabel 3.1 Atribut – atribut pada dataset debitur

Atribut Keterangan

NOREK

NOPK

NAMA

KODE_PEKER

J_USAHA

NAMAIBU

ALAMAT1

T_LAHIR

TGL_LAHIR

UMUR

IDENTITAS

NAMA_KTR

KODE_POS

JW

NOM_PINJ

SB

No rekening debitur di bank

No peminjaman debitur di bank.

Nama lengkap dari debitur.

Kode pekerjaan atau jenis usaha yang dilakukan

debitur

Jenis usaha atau pekerjaan yang dilakukan debitur.

Nama gadis ibu kandung debitur.

Alamat lengkap yang ditinggali debitur.

Tempat lahir debitur.

Tanggal lahir debitur.

Umur debitur ketika melakukan

peminjaman/kredit.

Nomor KTP debitur.

Nama kantor/tempat debitur bekerja.

Kode pos tempat tinggal debitur.

Jangka waktu peminjaman kredit yang dipilih

debitur.

Nominal/jumlah kredit yang diajukan debitur.

Jumlah suku bunga yang diterima debitur.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 41: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

22

JAMINAN

NJOP_NT

PINJ_KE

TUNG_POK

TUNG_BNG

TUNG_POKOK

TUNG_BUNGA

POKOK_BLN

BUNGA_BLN

GAJI/PENDAPATAN

JML_TANGGUNGAN

UANG _DIBAWA

STATUS_PINJAMAN

JML_SETORAN/BULAN

Jaminan yang digunakan debitur untuk

mengajukan kredit.

Nilai barang yang dijadikan jaminan oleh debitur.

Jumlah berapa kali debitur melakukan peminjaman

di BPR XYZ.

Jumlah berapa kali debitur menunggak

mengangsur kredit.

Jumlah berapa kali debitur menunggak

mengangsur bunga.

Jumlah total kredit yang ditunggak oleh debitur.

Jumlah total bunga yang ditunggak oleh debitur.

Jumlah kredit yang harus diangsur debitur tiap

bulan.

Jumlah bunga yang harus diangsur debitur tiap

bulan.

Gaji atau pendapatan debitur tiap bulan.

Jumlah anggota keluarga yang ditanggung debitur.

Jumlah uang yang dibawa pulang debitur.

Keterangan apakah debitur saat mengajukan kredit

telah melakukan peminjaman kredit di bank lain

atau tidak.

Jumlah setoran yang harus diangsur debitur di

bank lain tiap bulan.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 42: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

23

KOLBI1 Status peminjaman debitur baik atau bermasalah.

D. Teknik Pengolahan Data

Sampel data debitur akan diproses terlebih dahulu dengan teknik

transformasi data (data transformation), pembersihan data (data cleaning), dan

reduksi data (data reduction) untuk mengatasi missing value, noisy, data yang

tidak konsisten, dan pemilihan atribut yang digunakan. Selanjutnya data akan

dihitung berdasarkan teori algoritma ECODB dengan menerapkan rumus

perhitungan pada formula Microsoft Excel. Perhitungan akan dilakukan dengan

masukan k dan top N yang berbeda.

Kemudian hasil perhitungan tersebut akan dibandingkan dan

dilakukan review hasil deteksi outlier oleh petugas bank untuk mengetahui

kebenaran data yang dianggap mempunyai derajat tinggi sebagai outlier. Untuk

membandingkan hasil deteksi outlier menggunakan algoritma ECODB, data

hasil perhitungan akan ditampilkan dalam bentuk grafik. Grafik digunakan

untuk melihat persebaran dari hasil perhitungan masukan k dan top N yang

berbeda. Dengan memperhatikan grafik, maka dapat diambil kesimpulan

tentang pengaruh nilai nilai k dan top N dalam mendeteksi outlier mengunakan

algoritma ECODB.

E. Tahap – Tahap Penelitian

Langkah – langkah yang akan dilakukan untuk melakukan penelitian

adalah sebagai berikut :

1. Studi kepustakaan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 43: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

24

Studi kepustakaan melalui berbagai sumber yang mampu

dipertanggungjawabkan seperti buku, jurnal, makalah dan paper

seminar untuk mendapatkan teori mengenai penambangan data,

outlier, dan algoritma ECODB (Enhanced Class Outlier Distance

Based).

2. Pengumpulan Data

Pengumpulan data sekunder berupa data debitur BPR XYZ bulan

Agustus 2013 sebanyak 97 record.

3. Penerapan algoritma ECODB

Mendeteksi outlier pada data debitur BPR XYZ bulan Agustus

2013 berdasarkan teori algoritma ECODB menggunakan

Microsoft Excel. Perhitungan akan dilakukan dengan masukan k

dan top N yang berbeda.

5. Analisa hasil perhitungan

Membandingkan hasil perhitungan dengan masukan k dan top N

yang berbeda – beda untuk mendapatkan kesimpulan dan

melakukan review hasil deteksi outlier oleh petugas bank. Review

hasil deteksi outlier perlu dilakukan untuk mengetahui kebenaran

data yang dianggap mempunyai derajat tinggi sebagai outlier.

6. Pengambilan kesimpulan

Pengambilan kesimpulan berdasarkan hasil yang diperoleh dari

langkah – langkah sebelumnya.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 44: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

25

F. Contoh Perhitungan Algoritma ECODB

Berikut contoh perhitungan berdasarkan algoritma ECODB secara

manual. Misalkan ada dataset debitur berjumlah 13 record dengan atribut

KODE_PEKER, UMUR, NOM_PINJ, SB, JW, JAMINAN, NJOP_NT,

PINJ_KE, TUNG_POK, TUNG_BNG, TUNG_POKOK, TUNG_BUNGA,

POKOK_BLN, BUNGA_BLN, GAJI/PENDAPATAN,

JML_TANGGUNGAN, UANG _DIBAWA, STATUS_PINJAMAN,

JML_SETORAN/BULAN, dan STATUS sebagai berikut :

Gambar 3.1 Contoh dataset debitur

Pertama, tiap atribut bertipe numerik dinormalisasikan dengan range 0

- 1. Hasil normalisasi dapat dilihat pada gambar 3.2. Atribut bertipe kategorikal

adalah KODE_PEKER, JAMINAN, dan STATUS_ PINJAMAN.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 45: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

26

Gambar 3.2 Data debitur yang telah dinormalisasi

Kemudian dicari jarak dari setiap instance dengan menggunakan

fungsi jarak Mixed Euclidian Distance. Pada fungsi ini setiap instance bertipe

kategorikal akan diberi nilai 0 jika mempunyai kategori yang sama dan diberi

nilai 1 jika mempunyai kategori yang berbeda, sedangkan atribut numerik akan

dihitung menggunakan rumus :

(3.5)

Gambar 3.3 Perhitungan jarak setiap instance dari data debitur

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 46: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

27

Setelah menghitung jarak dari setiap instance, tahap selanjutnya

adalah mencari k tetangga terdekat, dengan asumsi k = 7. K melambangkan

jangkauan suatu instance terhadap tetangganya. Maka, dicari 7 tetangga

terdekat dari setiap instance.

Gambar 3.4 Tujuh tetangga terdekat dari tiap instance

Selanjutnya mencari nilai PCL dari tiap instance. PCL adalah nilai

probabilitas class label dari instance T dengan class label dari k tetangga

terdekat. PCL dihitung dengan cara membagi jumlah tetangga terdekat instance

T yang mempunyai class label yang sama (termasuk instance T sendiri)

dengan nilai k. Misalkan ada 7 tetangga terdekat dari instance T (termasuk

dirinya) dari sebuah dataset dengan class label x dan y, dimana 5 dari tetangga

terdekat mempunyai class label x dan sisanya mempunyai class label y.

Instance T dengan class label y mempunyai nilai PCL 2/7. Class label yang

digunakan adalah nilai/isi dari atribut STATUS.

Tabel 3.2 Hasil perhitungan PCL tiap instance

PCL PCL/7 Dev v'Dev Kdist v'Kdist COF

1 7 1.00

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 47: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

28

2 7 1.00

3 7 1.00

4 7 1.00

5 7 1.00

6 2 0.29

7 2 0.29

8 3 0.43

9 3 0.43

10 3 0.43

11 5 0.71

12 7 1.00

13 5 0.71

Kemudian meranking list top N dari instance dengan nilai PCL

terkecil. Misalkan top N = 5, maka dicari 5 instance dengan nilai PCL terkecil.

Ranking top N dapat dilihat pada tabel 3.3. Instance yang di-bold adalah

instance dengan nilai PCL terkecil. Selanjutnya mencari nilai Deviation(T) dan

KDist(T) dari instance pada top N berdasarkan rumus (2.4) dan (3.5).

Tabel 3.3 Hasil perhitungan Deviation dan KDist dari tiap instance

PCL PCL/7 Dev v'Dev Kdist v'Kdist COF

1 7 1.00 13.55 0.90 11.31 0.77

2 7 1.00 13.32 0.89 11.17 0.73

3 7 1.00 12.90 0.86 10.38 0.47

4 7 1.00 14.19 0.95 11.60 0.87

5 7 1.00 13.66 0.91 10.97 0.66

6 2 0.29 0.50 0.00 10.53 0.52

7 2 0.29 0.50 0.00 9.81 0.28

8 3 0.43 0.77 0.02 8.96 0.01

9 3 0.43 0.76 0.02 8.93 0.00

10 3 0.43 1.48 0.07 8.95 0.01

11 5 0.71 14.70 0.98 11.35 0.78

12 7 1.00 14.32 0.95 11.74 0.91

13 5 0.71 14.98 1.00 12.01 1.00

Setelah menghitung nilai Deviation dan KDist dari tiap instance pada

top N, tahap selanjutnya adalah menghitung COF (Class Outlier Factor) dari

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 48: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

29

instance pada top N berdasarkan rumus (2.4). Kemudian meranking tiap

instance pada list top N berdasarkan nilai COF terkecil.

Tabel 3.4 Hasil perhitungan COF dari tiap instance

PCL PCL/7 Dev v'Dev Kdist v'Kdist COF

7 2.00 0.29 0.50 0.00 9.81 0.28 2.28

6 2.00 0.29 0.50 0.00 10.53 0.52 2.52

10 3.00 0.43 1.48 0.07 8.95 0.01 2.94

9 3.00 0.43 0.76 0.02 8.93 0.00 2.98

8 3.00 0.43 0.77 0.02 8.96 0.01 2.99

11 5.00 0.71 14.70 0.98 11.35 0.78 4.80

13 5.00 0.71 14.98 1.00 12.01 1.00 5.00

3 7.00 1.00 12.90 0.86 10.38 0.47 6.61

5 7.00 1.00 13.66 0.91 10.97 0.66 6.75

2 7.00 1.00 13.32 0.89 11.17 0.73 6.84

1 7.00 1.00 13.55 0.90 11.31 0.77 6.87

4 7.00 1.00 14.19 0.95 11.60 0.87 6.92

12 7.00 1.00 14.32 0.95 11.74 0.91 6.96

Dari tabel di 3.4, ditemukan instance yang menjadi outlier yaitu

instance nomor 7, 6, 10, 9, dan 8. Dimana nasabah no. 7 dan 6 meminjam

dengan jumlah cukup besar (dibandingkan dengan tetangga terdekatnya) dan

menunggak sebanyak 6 kali. Sedangkan nasabah no. 10, 9, dan 8 mempunyai

jumlah pinjaman yang terkecil tetapi mempunyai tunggakan sebanyak 4 – 5

kali.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 49: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

30

BAB IV

HASIL DAN PEMBAHASAN

A. Sumber Data

Sumber data dalam penelitian ini adalah data debitur BPR XYZ

bulan Agustus 2013 sebanyak 97 data record. Data tersebut dalam format

Microsoft Excel (.xls). Data ini diperoleh setelah mendapat ijin pengambilan

dan penggunaan data untuk penelitian dari Kepala Humas BPR XYZ. Data

tersebut terdiri dari 32 atribut seperti dalam tabel 3.1.

Data debitur tersebut akan dihitung menggunakan algoritma ECODB

untuk mendeteksi outlier yang terdapat pada data tersebut. Setelah outlier

dideteksi, pihak bank dapat menganalisa data dan outlier untuk menemukan

faktor tertentu yang berpengaruh pada keunikan data debitur tersebut.

Sebelum ditambang, data akan akan mengalami pemrosesan awal terlebih

dahulu untuk menghasilkan data dengan kualitas yang baik untuk diolah.

B. Pemrosesan Awal Data

1. Seleksi Data

Tahap pertama yang dilakukan adalah seleksi atribut yang akan

digunakan dalam penambangan data. Seleksi ini dilakukan untuk

mendapatkan atribut-atribut dengan nilai yang relevan terhadap proses

deteksi outlier sehingga atribut-atribut yang dianggap berisi nilai yang

tidak relevan tidak lagi disertakan dalam dataset. Berdasarkan tabel 3.1,

diketahui terdapat sebanyak 32 atribut terdapat pada dataset debitur, yaitu

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 50: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

31

NOREK, NOPK, NAMA, KODE_PEKER, J_USAHA, NAMAIBU,

ALAMAT1, T_LAHIR, TGL_LAHIR, UMUR, IDENTITAS,

NAMA_KTR, KODE_POS, JW, NOM_PINJ, SB, JAMINAN, NJOP_NT,

PINJ_KE, TUNG_POK, TUNG_BNG, TUNG_POKOK,

TUNG_BUNGA, POKOK_BLN, BUNGA_BLN, GAJI/PENDAPATAN,

JML_TANGGUNGAN,STATUS_PINJAMAN,JML_SETORAN/BULAN

dan KOLBI1.

Atribut NOREK, NOPK, NAMA, NAMAIBU, ALAMAT1,

T_LAHIR, IDENTITAS, NAMA_KTR dan KODE_POS tidak digunakan

karena dianggap tidak relevan jika digunakan pada proses deteksi outlier.

Hal ini berdasarkan keterangan atribut pada tabel 3.1.

Atribut J_USAHA dan TGL_LAHIR juga tidak digunakan.

Atribut – atribut tersebut cukup relevan jika digunakan. Tetapi nilai dari

atribut tersebut dapat digantikan dengan atribut lainnya dengan nilai yang

mirip atau sama maka atribut – atribut tersebut tidak digunakan dalam

penelitian. J_USAHA diganti dengan KODE_PEKER dan atribut

TGL_LAHIR diganti dengan UMUR sehingga data tersebut tidak

kompleks lagi dan juga mempunyai kualitas informasi yang baik untuk

ditambang.

Atribut – atribut yang tersisa adalah KODE_PEKER, UMUR

NOM_PINJ, SB, JW, JAMINAN, NJOP_NT, PINJ_KE, TUNG_POK,

TUNG_BNG, TUNG_POKOK, TUNG_BUNGA, POKOK_BLN,

BUNGA_BLN, GAJI/PENDAPATAN, JML_TANGGUNGAN, UANG

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 51: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

32

_DIBAWA, STATUS_PINJAMAN, JML_SETORAN/BULAN, dan

KOLBI1. Hasil seleksi atribut dapat dilihat di lampiran 2.

Hasil yang di peroleh dari tahap seleksi atribut telah

menghasilkan sejumlah 20 atribut dan 97 instances. Berikut ini beberapa

keterangan yang berkaitan dengan atribut – atribut terpilih, yaitu :

a. KODE_PEKER

Atribut ini berisi kode pekerjaan berdasarkan jenis usaha yang

dijalankan debitur. Kode pekerjaan tersebut adalah 010 dan

014. Atribut ini bertipe kategorikal.

b. UMUR

Atribut ini berisi umur dari tiap debitur ketika mengajukan

kredit. Dalam atribut ini diketahui debitur paling muda berusia

18 tahun dan debitur paling tua berusia 63 tahun. Rata – rata

umur debitur ketika mengajukan kredit adalah 44, 5 tahun.

Atribut ini bertipe numerik.

c. NOM_PINJ

Atribut ini berisi jumlah pinjaman kredit yang diajukan debitur

dan telah disetujui oleh bank/kreditur. Nominal pinjaman

ditetapkan dalam rupiah (Rp). Atribut ini bertipe numerik.

d. SB

Atribut ini berisi jumlah suku bunga yang diterima debitur.

Suku bunga ditetapkan dalam bentuk persen (%).Atribut ini

bertipe numerik.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 52: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

33

e. JW

Atribut ini berisi jangka waktu kredit yang diajukan nasabah.

Jangka waktu kredit ditetapkan dalam waktu tertentu selama

beberapa bulan. Atribut ini bertipe numerik.

f. JAMINAN

Atribut ini berisi bentuk jaminan yang diberikan debitur

sebagai salah satu syarat pengajuan kredit. Bentuk – bentuk

jaminan tersebut adalah BPKB, GAJI, SERTIFIKAT, dan

TANAH. Atribut ini bertipe kategorikal.

g. NJOP_NT

Atribut ini berisi nilai/harga jaminan yang dipunyai debitur

berdasarkan hasil perkiraan bank. Nominal nilai jaminan

ditetapkan dalam rupiah (Rp). Atribut ini bertipe numerik.

h. PINJ_KE

Atribut ini berisi keterangan sejumlah berapa kali debitur

pernah mengajukan kredit di BPR Shinta Bhakti Wedi. Atribut

ini umumnya digunakan untuk mengetahui reputasi pengajuan

kredit debitur, khususnya selama mengajukan kredit di BPR

Shinta Bhakti Wedi. Atribut ini bertipe numerik.

i. TUNG_POK

Atribut ini berisi keterangan berapa kali debitur menunggak

mengangsur kredit. Atribut ini bertipe numerik.

j. TUNG_BNG

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 53: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

34

Atribut ini berisi keterangan berapa kali debitur menunggak

mengangsur bunga. Atribut ini bertipe numerik.

k. TUNG_POKOK

Atribut ini berisi jumlah total kredit yang ditunggak oleh

debitur. Atribut ini bertipe numerik.

l. TUNG_BUNGA

Atribut ini berisi jumlah total bunga yang ditunggak oleh

debitur. Atribut ini bertipe numerik.

m. GAJI/PENDAPATAN

Atribut ini berisi jumlah gaji atau pendapatan debitur tiap

bulan. Atribut ini bertipe numerik.

n. JML_TANGGUNGAN

Atribut ini berisi jumlah anggota keluarga yang ditanggung

oleh debitur. Atribut ini bertipe numerik.

o. UANG_DIBAWA

Atribut ini berisi jumlah nominal uang yang dibawa

pulang/diperoleh debitur setiap bulannya. Atribut ini bertipe

numerik.

p. STATUS_PINJAMAN

Atribut ini berisi keterangan apakah debitur saat mengajukan

kredit telah melakukan peminjaman kredit di bank lain atau

tidak. Atribut ini bertipe kategorikal.

q. JML_SETORAN/BULAN

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 54: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

35

Atribut ini berisi besar jumlah setoran yang harus diangsur

debitur di bank lain setiap bulannya (jika debitur saat

mengajukan kredit telah melakukan peminjaman kredit di bank

lain). Atribut ini bertipe numerik.

r. POKOK_BLN

Atribut ini berisi jumlah kredit yang harus diangsur debitur

setiap bulan. Atribut ini bertipe numerik.

s. BUNGA_BLN

Atribut ini berisi jumlah bunga yang harus diangsur debitur

setiap bulan. Atribut ini bertipe numerik.

t. KOLBI1

Atribut ini adalah atribut yang digunakan untuk menyatakan

status kredit debitur. Dimana nilai 1 berarti debitur

mengangsur dengan baik (lancar), 2 berarti debitur sedikit

tersendat dalam mengangsur (kurang lancar), 3 berarti debitur

cukup tersendat dalam mengangsur kredit (diragukan), dan 4

berarti debitur berhenti mengangsur (macet). Atribut ini

merupakan class label pada data debitur tersebut.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 55: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

36

Gambar 4.1 Atribut pada data debitur setelah tahap seleksi data

2. Pengisian Missing Value

Di dalam dataset debitur yang telah mengalami seleksi atribut

terdapat missing value pada kolom GAJI/PENDAPATAN,

JML_TANGGUNGAN, UANG _DIBAWA, STATUS_PINJAMAN,

JML_SETORAN/BULAN, baris 1, 18, 37, 38, 42, 50, dan 96. Untuk

mengatasi hal ini, kolom yang kosong akan diisi dengan means untuk data

dengan atribut numerik dan diisi dengan mode untuk data dengan atribut

kategorikal (Hewahi dan M. K. Saad, 2007). Hasil pengisian missing value

dapat dilihat di lampiran 3.

Gambar 4.2 Isi data debitur setelah tahap pengisian missing value

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 56: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

37

3. Normalisasi Data

Setelah mengisi missing value secara manual dengan teknik

means dan mode, dilakukan proses normalisasi atribut. Proses ini

dilakukan karena adanya perbedaan range nilai dari tiap – tiap atribut

sehingga perlu dilakukan normalisasi agar data memiliki nilai yang

tepat dan sama untuk ditambang. Atribut – atribut tersebut akan

dinormalisasi agar mempunyai range nilai 0 - 1. Hasil normalisasi dapat

dilihat di lampiran 4. Proses normalisasi menggunakan metode min-max

normalization sebagai berikut :

(4.6)

Dimana,

v’ : nilai yang sudah ternormalisasi

v : nilai lama yang belum ternormalisasi

min : nilai minimum dari suatu instance

max : nilai maksimum dari suatu instance

NewMax : nilai minimum baru dari suatu instance

NewMin : nilai maksimum baru dari suatu instance

Berikut contoh proses normalisasi data :

Tabel 4.1 Contoh atribut pada dataset debitur sebelum normalisasi

UMUR NOM_PINJ SB JW NJOP_NT POKOK_BLN BUNGA_BLN

39 30,000,000 11.4 50 3,344,778 600,000 285,000

50 15,000,000 7.2 60 3,229,280 250,000 90,000

52 27,000,000 9.6 40 4,110,556 675,000 216,000

49 21,000,000 9.6 60 3,827,169 350,000 168,000

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 57: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

38

49 30,000,000 9.6 60 3,803,224 500,000 240,000

47 30,000,000 9.6 60 3,984,900 500,000 240,000

51 21,000,000 9.6 50 3,819,900 420,000 168,000

Tabel 4.2 Contoh atribut pada dataset debitur setelah normalisasi

v'umur v'nom_pinj v'sb v'jw v'njop_nt v'pokok_bln v'bunga_bln

0.00 1.00 1.00 0.50 0.13 0.77 1.00

0.85 0.00 0.00 1.00 0.00 -0.31 0.00

1.00 0.80 0.57 0.00 1.00 1.00 0.65

0.77 0.40 0.57 1.00 0.68 0.00 0.40

0.77 1.00 0.57 1.00 0.65 0.46 0.77

0.62 1.00 0.57 1.00 0.86 0.46 0.77

0.92 0.40 0.57 0.50 0.67 0.22 0.40

C. Penambangan Data Dengan Microsoft Excel

Data yang telah mengalami pemrosesan akan ditambang berdasarkan

algoritma ECODB. Penambangan data menggunakan Microsoft Excel. Rumus

algoritma ECODB akan diterapkan dalam bentuk formula Microsoft Excel.

1. Menormalisasi Data

Sebelum ditambang, data yang telah mengalami pemrosesan awal

akan dinormalisasi terlebih dahulu. Proses normalisasi ini dilakukan

dengan tujuan membuat data memiliki nilai yang tepat dan sama untuk

ditambang. Atribut – atribut tersebut akan dinormalisasi agar mempunyai

range nilai 0 – 1. Proses normalisasi menggunakan metode min-max

normalization seperti pada rumus (4.6). Formula normalisasi dalam

Microsoft Excel adalah sebagai berikut :

=(cell1-min(cell))/(max(cell)-min(cell))*(1-0)+0

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 58: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

39

Gambar 4.3 Contoh formula normalisasi data

2. Mencari Jarak Dari Tiap Data Dengan Menggunakan Fungsi Jarak

Mixed Euclidian Distance

Setelah menormalisasi data, dicari jarak dari tiap data dengan

menggunakan fungsi jarak mixed euclidian distance. Pada fungsi ini setiap

instance bertipe kategorikal akan diberi nilai 0 jika mempunyai kategori

yang sama dan diberi nilai 1 jika mempunyai kategori yang berbeda,

sedangkan atribut numerik akan dihitung berdasarkan rumus (5). Formula

mencari jarak dalam Microsoft Excel adalah sebagai berikut :

=SQRT((IF(cell1=cell2,0,1))^2+(cell3-cell4)^2+(cell5-

cell6)^2+(cell7-cell8)^2+(cell9-

cell10)^2+(IF(cell11=cell12,0,1))^2+(cell13-cell14)^2+

(cell15-cell16)^2+(cell17-cell18)^2+(cell19-cell20)^2+

(cell21-cell22)^2+(cell23-cell24)^2+(cell25-cell26)^2+

(cell27-cell28)^2+(cell29-cell30)^2+(cell31-cell32)^2+

(cell33-cell34)^2+(IF(cell35=cell36,0,1))^2+(cell37-cell38)^2)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 59: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

40

Gambar 4.4 Contoh formula mencari jarak

3. Menghitung PCL

PCL(Probability of Class Label) adalah nilai

probabilitas/banyaknya kemunculan class label yang sama dengan

instance T dibandingkan k tetangga terdekatnya. PCL dihitung dengan

cara membagi jumlah tetangga terdekat instance T yang mempunyai class

label yang sama (termasuk instance T sendiri) dengan nilai k. Formula

menghitung PCL dalam Microsoft Excel adalah sebagai berikut :

=cell1/k

Gambar 4.5 Contoh formula menghitung PCL

4. Meranking List Top N Outlier Dari Instance Dengan Nilai PCL(T,K)

Terkecil

Setelah menghitung nilai PCL, data diranking secara kecil ke

besar berdasarkan nilai PCL(T,K) terkecil sesuai dengan masukan top N.

Top N adalah jumlah instances yang dideteksi sebagai outlier yang

diurutkan secara kecil ke besar. Misalkan masukan top N = 10, maka akan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 60: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

41

diranking 10 instance dengan nilai PCL(T,K) terkecil. Untuk meranking

instance, digunakan fitur Sort & Filter dalam Microsoft Excel.

Gambar 4.6 Contoh meranking kecil ke besar berdasarkan nilai PCL(T,K)

terkecil

5. Menghitung Nilai Deviation(T)¸ Norm(Deviation(T)), Kdist(T), Dan

Norm(Kdist(T))

Kemudian instance yang berada di top N dihitung nilai

Deviation(T)¸ Norm(Deviation(T)), Kdist(T), dan Norm(Kdist(T))

berdasarkan rumus (2.1), (2.2), dan (2.3). Deviation(T) adalah seberapa

besar nilai instance T yang menyimpang dari subset DCL. KDist adalah

jarak antara instance T pada dataset D dengan K tetangga terdekat,

seberapa dekat nilai K instance tetangga terdekat dengan instance T.

Sedangkan Norm(Deviation(T)) adalah nilai deviation yang sudah

ternormalisasi dan Norm(KDist(T)) adalah nilai KDist yang sudah

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 61: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

42

ternormalisasi. Formula menghitung Deviation(T)¸ Norm(Deviation(T)),

Kdist(T), dan Norm(Kdist(T)) dalam Microsoft Excel adalah sebagai

berikut :

a. Mencari Deviation

=cell1+cell2+cell3+...+celln

Gambar 4.7 Contoh formula menghitung Deviation

b. Mencari Norm(Deviation(T))

=(cell1-min(cell))/(max(cell)-min(cell))

Gambar 4.8 Contoh formula menghitung Norm(Deviation(T))

c. Mencari Kdist

= cell1+cell2+cell3+...+celln

Gambar 4.9 Contoh formula menghitung Kdist

d. Mencari Norm(KDist(T))

=(cell1-min(cell))/(max(cell)-min(cell))

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 62: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

43

Gambar 4.10 Contoh formula menghitung Norm(KDist(T))

6. Menghitung Nilai COF (Class Outlier Factor)

Tahap selanjutnya adalah menghitung COF (Class Outlier

Factor) dari setiap instance yang berada di list top N. COF adalah derajat

dari suatu instance T untuk dikategorikan sebagai outlier. COF dihitung

berdasarkan rumus (2.4). Formula menghitung COF dalam Microsoft

Excel adalah sebagai berikut :

=k*cell1-cell2+cell3

Gambar 4.11 Contoh formula menghitung COF (Class Outlier Factor)

7. Mengurutkan List Top N Secara Kecil Ke Besar Sesuai Nilai COF

Tahap terakhir adalah mengurutkan list top N secara kecil ke besar sesuai

nilai COF. Misalkan masukan top N = 10, maka akan diranking 10

instance dengan nilai COF terkecil. Untuk meranking instance, digunakan

fitur Sort & Filter dalam Microsoft Excel.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 63: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

44

Gambar 4.12 Contoh meranking kecil ke besar berdasarkan nilai COF terkecil

D. Hasil Deteksi Outlier Berdasarkan Algoritma ECODB Dengan Microsoft

Excel

Hasil deteksi outlier berdasarkan algoritma ECODB menggunakan

Microsoft Excel dengan masukan k dan top N yang berubah – ubah dapat

ditampilkan dalam bentuk tabel – tabel di bawah. Dimana k adalah jumlah

tetangga terdekat dari suatu instances, sedangkan top N adalah jumlah

instances yang dideteksi sebagai outlier yang diurutkan secara kecil ke besar

berdasarkan nilai COF (Class Outlier Factor). COF adalah nilai

probabilitas/derajat sebuah instance dapat menjadi outlier. Outlier adalah data

dengan nilai COF terendah. Class outlier adalah instances yang mempunyai

derajat tinggi sebagai outlier. Jumlah class outlier ditentukan berdasarkan

masukan top N, jika top N = 10 maka akan ada 10 instances yang yang

mempunyai derajat tinggi sebagai outlier.

Tabel 4.3 Hasil deteksi outlier dengan masukan k dan top N yang berubah – ubah

k Top N Min COF

7 10 36, 92, 53, 96, 39, 64, 56, 24, 23, 37

20 36, 92, 53, 96, 65, 39, 64, 73, 97, 56, 24, 23, 88, 69,

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 64: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

45

87, 37, 27, 26, 25, 38

30

36, 92, 53, 96, 65, 39, 64, 73, 97, 56, 24, 23, 88, 69,

87, 37, 90, 27, 26, 25, 38, 55, 84, 63, 83, 15,, 70,

41, 1, 42

40

36, 92, 53, 96, 65, 39, 64, 73, 97, 56, 24, 23, 88, 69,

87, 37, 90, 27, 26, 25, 38, 55, 84, 63, 83, 15, 70, 41,

1, 42, 13, 46, 14, 33, 45, 60, 30, 44, 49, 32

50

36, 39, 53, 92, 96, 23, 24, 37, 56, 64, 65, 69, 73, 87,

88, 97, 25, 26, 27, 38, 55, 90, 42, 1, 15, 41, 63,70,

83,84, 13, 14, 30, 32, 33, 44, 45, 46, 49, 60, 61, 77,

80, 81, 82, 91, 94, 95, 2, 3

17

10 36,53, 39, 73, 64, 24, 56, 23, 69, 37

20 36, 53, 39, 92, 73, 64, 94, 97, 24, 56, 88, 23, 69, 87,

37, 96, 38, 55, 25, 26

30

36, 53, 39, 92, 73, 64, 94, 97, 24, 56, 88, 23, 69, 87,

37, 96, 38, 55, 27, 25, 26, 42, 65, 90, 17, 18, 13, 15,

11, 14

40

36, 53, 39, 92, 73, 64, 94, 97, 24, 56, 88, 23, 69, 87,

37, 96, 38, 55, 27, 25, 26, 42, 65, 90, 17, 18, 13, 15,

82, 70, 11, 14, 80, 19, 45, 12, 41, 16, 75, 1

50

36, 53, 39, 92, 73, 64, 94, 97, 24, 56, 88, 23, 69, 87,

37, 96, 38, 55, 27, 25, 26, 42, 65, 90, 17, 18, 13, 15,

82, 70, 11, 14, 80, 19, 45, 12, 41, 16, 75, 1, 83, 50,

81, 31, 52, 34, 84, 28, 29, 35

27

10 36, 53, 92, 64, 73, 94, 97, 24, 37, 39

20 36, 53, 92, 64, 73, 94, 97, 24, 37, 39, 88, 23, 69, 87,

96, 38, 55, 25, 26, 42

30

36, 53, 92, 64, 73, 94, 97, 24, 37, 39, 88, 23, 69, 87,

96, 38, 55, 56, 25, 26, 42, 27, 65, 90, 17, 11, 13, 14,

15, 16

40

36, 53, 92, 64, 73, 94, 97, 24, 37, 39, 88, 23, 69, 87,

96, 38, 55, 56, 25, 26, 42, 27, 65, 90, 17, 11, 18,

13, 14, 15, 16, 91, 8, 70, 19, 10, 2, 28, 12, 1

50

36, 53, 92, 64, 73, 94, 97, 24, 37, 39, 88, 23, 69, 87,

96, 38, 55, 56, 25, 26, 42, 27, 65, 90, 17, 11, 18, 13,

14, 15, 16, 91, 8, 70, 19, 10, 2, 50, 63, 31, 34, 59,

41, 45, 48, 28, 29, 35, 12, 1

37

10 36, 53, 92, 64, 73, 94, 97, 24, 37, 39

20 36, 53, 92, 64, 73, 94, 97, 24, 37, 39, 88, 23, 69, 87,

96, 38, 55, 25, 26, 42

30

36, 53, 92, 64, 73, 94, 97, 24, 37, 39, 88, 23, 69, 87,

96, 38, 55, 56, 25, 26, 42, 27, 65, 90, 17, 11, 13, 14,

15, 16

40 36, 53, 92, 64, 73, 94, 97, 24, 37, 39, 88, 23, 69, 87,

96, 38, 55, 56, 25, 26, 42, 27, 65, 90, 17, 11, 18, 13,

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 65: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

46

14, 15, 16, 91, 8, 70, 19, 10, 2, 28, 12, 1

50

36, 53, 92, 64, 73, 94, 97, 24, 37, 39, 88, 23, 69, 87,

96, 38, 55, 56, 25, 26, 42, 27, 65, 90, 17, 11, 18, 13,

14, 15, 16, 91, 8, 70, 19, 10, 2, 50, 63, 31, 34, 59,

41, 45, 48, 28, 29, 35, 12, 1

47

10 94, 97, 36, 88, 37, 96, 53, 38, 39, 42

20 94, 97, 36, 88, 37, 96, 64, 53, 56, 69, 87, 38, 39, 42,

92, 73, 23, 24, 55, 25

30

94, 97, 36, 88, 37, 96, 64, 53, 56, 69, 87, 38, 39, 42,

92, 73, 23, 24, 55, 27, 25, 26, 65, 90, 45, 76, 80, 82,

91, 43

40

94, 97, 36, 88, 37, 96, 64, 53, 56, 69, 87, 38, 39, 42,

92, 73, 23, 24, 55, 27, 25, 26, 65, 90, 45, 76, 80, 82,

91, 43, 51, 83, 66, 70, 18, 14, 16, 3, 11, 12

50

94, 97, 36, 88, 37, 96, 64, 53, 56, 69, 87, 38, 39, 42,

92, 73, 23, 24, 55, 27, 25, 26, 65, 90, 45, 76, 80, 82,

91, 43, 51, 83, 66, 70, 18, 14, 16, 63, 71, 62, 34, 44,

49, 60, 35, 3, 17, 11, 12, 19

COF adalah nilai probabilitas/derajat sebuah instance dapat

menjadi outlier. Outlier adalah data dengan nilai COF terendah. Class outlier

adalah instances yang mempunyai derajat tinggi sebagai outlier. Untuk dapat

mengetahui pengaruh k dan top N dalam proses deteksi outlier menggunakan

algoritma ECODB, dapat dilihat dari perubahan nilai COF berdasarkan

masukan k dan top N yang berubah – ubah.

Karena nilai COF bergantung pada masukan top N, maka untuk

memudahkan perbandingan dari hasil deteksi, nilai COF ditampilkan dalam

bentuk rata – rata/means. Kolom min COF dan max COF dapat digunakan

untuk melihat seberapa jauh jarak nilai means terhadap min COF dan max

COF. Dari tabel 4.8, dapat dilihat bahwa semakin tinggi nilai masukan k dan

top N, maka semakin tinggi pula nilai COF.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 66: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

47

Tabel 4.4 Nilai rata – rata COF berdasarkan masukan k dan top N yang

berubah - ubah

k Top N Min

COF

Max

COF

Means

COF

7

10 0.99 2.84 1.77

20 0.99 3.14 2.06

30 0.99 4.81 2.78

40 0.99 5.55 3.445

50 0.99 6.22 3.89

17

10 2.39 5.7 4.15

20 2.39 9.95 5.6

30 2.39 33.62 12.69

40 2.39 35.93 18.31

50 2.39 38.43 21.89

27

10 3.82 8.56 6.8

20 3.82 16.31 10.13

30 3.82 84.47 31.71

40 3.82 92.06 46.02

50 3.82 92.15 55.23

37

10 10.53 16.39 14.01

20 10.53 26.66 18.51

30 10.53 163.44 59.07

40 10.53 168.64 85.81

50 10.53 168.72 102.38

47

10 13.53 27.73 22.53

20 13.53 33.78 26.44

30 13.53 254.62 93.35

40 13.53 261.42 135.35

50 13.53 268.13 161.76

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 67: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

48

COF adalah nilai probabilitas/derajat sebuah instance dapat menjadi

outlier. Outlier adalah data dengan nilai COF terendah. Nilai COF dan class

outlier dengan masukan k = 7 dan top N yang berubah – ubah dapat

ditampilkan dalam tabel sebagai berikut :

Tabel 4.5 Nilai COF dengan k = 7 dan top N = 10

# Class PCL COF

36 3 1 0.99

92 3 1 1.04

53 2 1 1.08

96 4 1 1.38

39 3 1 1.58

64 2 2 2.03

56 3 2 2.12

24 2 2 2.13

23 2 2 2.14

37 4 2 2.44

Tabel 4.6 Nilai COF dengan k = 7 dan top N = 20

# Class PCL COF

36 3 1 0.99

92 3 1 1.04

53 2 1 1.08

96 4 1 1.38

65 1 2 1.44

39 3 1 1.58

64 2 2 2.03

73 2 2 2.03

97 3 2 2.11

56 3 2 2.12

24 2 2 2.13

23 2 2 2.14

88 3 2 2.14

69 2 2 2.17

87 2 2 2.18

37 4 2 2.44

27 3 3 3.12

26 3 3 3.13

25 3 3 3.14

38 4 3 3.5

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 68: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

49

Tabel 4.7 Nilai COF dengan k = 7 dan top N = 30

# Class PCL COF

36 3 1 0.99

92 3 1 1.04

53 2 1 1.08

96 4 1 1.38

65 1 2 1.44

39 3 1 1.58

64 2 2 2.03

73 2 2 2.03

97 3 2 2.11

56 3 2 2.12

24 2 2 2.13

23 2 2 2.14

88 3 2 2.14

69 2 2 2.17

87 2 2 2.18

37 4 2 2.44

90 1 3 2.49

27 3 3 3.12

26 3 3 3.13

25 3 3 3.14

38 4 3 3.5

55 3 3 3.84

84 1 5 4.44

63 1 5 4.45

83 1 5 4.45

15 1 5 4.47

70 1 5 4.48

41 1 5 4.52

1 1 5 4.6

42 4 4 4.81

Tabel 4.8 Nilai COF dengan k = 7 dan top N = 40

# Class PCL COF

36 3 1 0.99

92 3 1 1.04

53 2 1 1.08

96 4 1 1.38

65 1 2 1.44

39 3 1 1.58

64 2 2 2.03

73 2 2 2.03

97 3 2 2.11

56 3 2 2.12

24 2 2 2.13

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 69: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

50

23 2 2 2.14

88 3 2 2.14

69 2 2 2.17

87 2 2 2.18

37 4 2 2.44

90 1 3 2.49

27 3 3 3.12

26 3 3 3.13

25 3 3 3.14

38 4 3 3.5

55 3 3 3.84

84 1 5 4.44

63 1 5 4.45

83 1 5 4.45

15 1 5 4.47

70 1 5 4.48

41 1 5 4.52

1 1 5 4.6

42 4 4 4.81

13 1 6 5.44

46 1 6 5.44

14 1 6 5.45

33 1 6 5.47

45 1 6 5.47

60 1 6 5.47

30 1 6 5.49

44 1 6 5.49

49 1 6 5.49

32 1 6 5.55

Tabel 4.9 Nilai COF dengan k = 7 dan top N = 50

# Class PCL COF

36 3 1 0.99

39 3 1 1.58

53 2 1 1.08

92 3 1 1.04

96 4 1 1.38

23 2 2 2.14

24 2 2 2.13

37 4 2 2.44

56 3 2 2.12

64 2 2 2.03

65 1 2 1.44

69 2 2 2.17

73 2 2 2.03

87 2 2 2.18

88 3 2 2.14

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 70: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

51

97 3 2 2.11

25 3 3 3.14

26 3 3 3.13

27 3 3 3.12

38 4 3 3.5

55 3 3 3.84

90 1 3 2.49

42 4 4 4.81

1 1 5 4.6

15 1 5 4.47

41 1 5 4.52

63 1 5 4.45

70 1 5 4.48

83 1 5 4.45

84 1 5 4.44

13 1 6 5.44

14 1 6 5.45

30 1 6 5.49

32 1 6 5.55

33 1 6 5.47

44 1 6 5.49

45 1 6 5.47

46 1 6 5.44

49 1 6 5.49

60 1 6 5.47

61 1 6 5.42

77 1 6 5.44

80 1 6 5.46

81 1 6 5.46

82 1 6 5.47

91 1 6 5.46

94 3 6 5.54

95 1 6 5.54

2 1 7 6.22

3 1 7 6.16

Nilai COF dengan masukan k = 17 dan top N yang berubah – ubah

dapat ditampikan dalam tabel sebagai berikut :

Tabel 4.10 Nilai COF dengan k = 17 dan top N = 10

# Class PCL COF

36 3 1 2.38

53 2 1 2.52

39 3 1 2.98

73 2 2 4.91

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 71: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

52

64 2 2 4.92

24 2 2 5.06

56 3 2 5.06

23 2 2 5.08

69 2 2 5.12

37 4 2 5.3

Tabel 4.11 Nilai COF dengan k = 17 dan top N = 20

# Class PCL COF

36 3 1 2.38

53 2 1 2.52

39 3 1 2.98

92 3 2 4.89

73 2 2 4.91

64 2 2 4.92

94 3 2 4.93

97 3 2 4.97

24 2 2 5.06

56 3 2 5.06

88 3 2 5.06

23 2 2 5.08

69 2 2 5.12

87 2 2 5.12

37 4 2 5.3

96 4 3 7.74

38 4 3 7.81

55 3 3 8.11

25 3 4 9.94

26 3 4 9.94

Tabel 4.12 Nilai COF dengan k = 17 dan top N = 30

# Class PCL COF

36 3 1 2.38

53 2 1 2.52

39 3 1 2.98

92 3 2 4.89

73 2 2 4.91

64 2 2 4.92

94 3 2 4.93

97 3 2 4.97

24 2 2 5.06

56 3 2 5.06

88 3 2 5.06

23 2 2 5.08

69 2 2 5.12

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 72: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

53

87 2 2 5.12

37 4 2 5.3

96 4 3 7.74

38 4 3 7.81

55 3 3 8.11

27 3 4 9.92

25 3 4 9.94

26 3 4 9.94

42 4 4 10.57

65 1 9 21.4

90 1 10 23.86

17 1 11 26.21

18 1 11 26.22

13 1 12 28.7

15 1 12 28.72

11 1 13 31.07

14 1 13 31.13

Tabel 4.13 Nilai COF dengan k = 17 dan top N = 40

# Class PCL COF

36 3 1 2.38

53 2 1 2.52

39 3 1 2.98

92 3 2 4.89

73 2 2 4.91

64 2 2 4.92

94 3 2 4.93

97 3 2 4.97

24 2 2 5.06

56 3 2 5.06

88 3 2 5.06

23 2 2 5.08

69 2 2 5.12

87 2 2 5.12

37 4 2 5.3

96 4 3 7.74

38 4 3 7.81

55 3 3 8.11

27 3 4 9.92

25 3 4 9.94

26 3 4 9.94

42 4 4 10.57

65 1 9 21.4

90 1 10 23.86

17 1 11 26.21

18 1 11 26.22

13 1 12 28.7

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 73: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

54

15 1 12 28.72

82 1 13 31.04

70 1 13 31.06

11 1 13 31.07

14 1 13 31.13

80 1 14 33.47

19 1 14 33.49

45 1 14 33.49

12 1 14 33.5

41 1 14 33.51

16 1 14 33.53

75 1 14 33.61

1 1 14 33.62

Tabel 4.14 Nilai COF dengan k = 17 dan top N = 50

# Class PCL COF

36 3 1 2.38

53 2 1 2.52

39 3 1 2.98

92 3 2 4.89

73 2 2 4.91

64 2 2 4.92

94 3 2 4.93

97 3 2 4.97

24 2 2 5.06

56 3 2 5.06

88 3 2 5.06

23 2 2 5.08

69 2 2 5.12

87 2 2 5.12

37 4 2 5.3

96 4 3 7.74

38 4 3 7.81

55 3 3 8.11

27 3 4 9.92

25 3 4 9.94

26 3 4 9.94

42 4 4 10.57

65 1 9 21.4

90 1 10 23.86

17 1 11 26.21

18 1 11 26.22

13 1 12 28.7

15 1 12 28.72

82 1 13 31.04

70 1 13 31.06

11 1 13 31.07

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 74: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

55

14 1 13 31.13

80 1 14 33.47

19 1 14 33.49

45 1 14 33.49

12 1 14 33.5

41 1 14 33.51

16 1 14 33.53

75 1 14 33.61

1 1 14 33.62

83 1 15 35.89

50 1 15 35.9

81 1 15 35.9

31 1 15 35.91

52 1 15 35.91

34 1 15 35.92

84 1 15 35.92

28 1 15 35.93

29 1 15 35.93

35 1 15 35.95

Dengan masukan k = 27 dan top N yang berubah – ubah, nilai COF

dapat ditampikan dalam tabel sebagai berikut :

Tabel 4.15 Nilai COF dengan k = 27 dan top N = 10

# Class PCL COF

36 3 1 3.81

53 2 1 3.97

92 3 2 7.76

64 2 2 7.79

73 2 2 7.79

94 3 2 7.79

97 3 2 7.83

24 2 2 7.94

37 4 2 8.14

39 3 2 8.26

Tabel 4.16 Nilai COF dengan k = 27 dan top N = 20

# Class PCL COF

36 3 1 3.81

53 2 1 3.97

92 3 2 7.76

64 2 2 7.79

73 2 2 7.79

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 75: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

56

94 3 2 7.79

97 3 2 7.83

24 2 2 7.94

37 4 2 8.14

39 3 2 8.26

88 3 3 11.77

23 2 3 11.81

69 2 3 11.84

87 2 3 11.85

96 4 3 12.03

38 4 3 12.09

55 3 3 12.4

25 3 4 15.67

26 3 4 15.67

42 4 4 16.31

Tabel 4.17 Nilai COF dengan k = 27 dan top N = 30

# Class PCL COF

36 3 1 3.81

53 2 1 3.97

92 3 2 7.76

64 2 2 7.79

73 2 2 7.79

94 3 2 7.79

97 3 2 7.83

24 2 2 7.94

37 4 2 8.14

39 3 2 8.26

88 3 3 11.77

23 2 3 11.81

69 2 3 11.84

87 2 3 11.85

96 4 3 12.03

38 4 3 12.09

55 3 3 12.4

56 3 4 15.63

25 3 4 15.67

26 3 4 15.67

42 4 4 16.31

27 3 5 19.51

65 1 17 65.13

90 1 19 72.86

17 1 21 80.56

11 1 21 80.57

13 1 21 80.6

14 1 21 80.61

15 1 21 80.61

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 76: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

57

16 1 21 80.61

Tabel 4.18 Nilai COF dengan k = 27 dan top N = 40

# Class PCL COF

36 3 1 3.81

53 2 1 3.97

92 3 2 7.76

64 2 2 7.79

73 2 2 7.79

94 3 2 7.79

97 3 2 7.83

24 2 2 7.94

37 4 2 8.14

39 3 2 8.26

88 3 3 11.77

23 2 3 11.81

69 2 3 11.84

87 2 3 11.85

96 4 3 12.03

38 4 3 12.09

55 3 3 12.4

56 3 4 15.63

25 3 4 15.67

26 3 4 15.67

42 4 4 16.31

27 3 5 19.51

65 1 17 65.13

90 1 19 72.86

17 1 21 80.56

11 1 21 80.57

18 1 21 80.57

13 1 21 80.6

14 1 21 80.61

15 1 21 80.61

16 1 21 80.61

91 1 22 84.35

8 1 22 84.36

70 1 22 84.36

19 1 22 84.42

10 1 23 87.91

2 1 23 88.19

28 1 23 88.23

12 1 23 88.28

1 1 23 88.35

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 77: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

58

Tabel 4.19 Nilai COF dengan k = 27 dan top N = 50

# Class PCL COF

36 3 1 3.81

53 2 1 3.97

92 3 2 7.76

64 2 2 7.79

73 2 2 7.79

94 3 2 7.79

97 3 2 7.83

24 2 2 7.94

37 4 2 8.14

39 3 2 8.26

88 3 3 11.77

23 2 3 11.81

69 2 3 11.84

87 2 3 11.85

96 4 3 12.03

38 4 3 12.09

55 3 3 12.4

56 3 4 15.63

25 3 4 15.67

26 3 4 15.67

42 4 4 16.31

27 3 5 19.51

65 1 17 65.13

90 1 19 72.86

17 1 21 80.56

11 1 21 80.57

18 1 21 80.57

13 1 21 80.6

14 1 21 80.61

15 1 21 80.61

16 1 21 80.61

91 1 22 84.35

8 1 22 84.36

70 1 22 84.36

19 1 22 84.42

10 1 23 87.91

2 1 23 88.19

50 1 23 88.19

63 1 23 88.19

31 1 23 88.21

34 1 23 88.21

59 1 23 88.21

41 1 23 88.22

45 1 23 88.22

48 1 23 88.22

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 78: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

59

28 1 23 88.23

29 1 23 88.23

35 1 23 88.24

12 1 23 88.28

1 1 23 88.35

Dengan masukan k = 37 dan top N yang berubah – ubah, nilai COF

dapat ditampikan dalam tabel sebagai berikut :

Tabel 4.20 Nilai COF dengan k = 37 dan top N = 10

# Class PCL COF

36 3 1 3.81

53 2 1 3.97

92 3 2 7.76

64 2 2 7.79

73 2 2 7.79

94 3 2 7.79

97 3 2 7.83

24 2 2 7.94

37 4 2 8.14

39 3 2 8.26

Tabel 4.21 Nilai COF dengan k = 37 dan top N = 20

# Class PCL COF

36 3 1 3.81

53 2 1 3.97

92 3 2 7.76

64 2 2 7.79

73 2 2 7.79

94 3 2 7.79

97 3 2 7.83

24 2 2 7.94

37 4 2 8.14

39 3 2 8.26

88 3 3 11.77

23 2 3 11.81

69 2 3 11.84

87 2 3 11.85

96 4 3 12.03

38 4 3 12.09

55 3 3 12.4

25 3 4 15.67

26 3 4 15.67

42 4 4 16.31

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 79: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

60

Tabel 4.22 Nilai COF dengan k = 37 dan top N = 30

# Class PCL COF

36 3 1 3.81

53 2 1 3.97

92 3 2 7.76

64 2 2 7.79

73 2 2 7.79

94 3 2 7.79

97 3 2 7.83

24 2 2 7.94

37 4 2 8.14

39 3 2 8.26

88 3 3 11.77

23 2 3 11.81

69 2 3 11.84

87 2 3 11.85

96 4 3 12.03

38 4 3 12.09

55 3 3 12.4

56 3 4 15.63

25 3 4 15.67

26 3 4 15.67

42 4 4 16.31

27 3 5 19.51

65 1 17 65.13

90 1 19 72.86

17 1 21 80.56

11 1 21 80.57

13 1 21 80.6

14 1 21 80.61

15 1 21 80.61

16 1 21 80.61

Tabel 4.23 Nilai COF dengan k = 37 dan top N = 40

# Class PCL COF

36 3 1 3.81

53 2 1 3.97

92 3 2 7.76

64 2 2 7.79

73 2 2 7.79

94 3 2 7.79

97 3 2 7.83

24 2 2 7.94

37 4 2 8.14

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 80: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

61

39 3 2 8.26

88 3 3 11.77

23 2 3 11.81

69 2 3 11.84

87 2 3 11.85

96 4 3 12.03

38 4 3 12.09

55 3 3 12.4

56 3 4 15.63

25 3 4 15.67

26 3 4 15.67

42 4 4 16.31

27 3 5 19.51

65 1 17 65.13

90 1 19 72.86

17 1 21 80.56

11 1 21 80.57

18 1 21 80.57

13 1 21 80.6

14 1 21 80.61

15 1 21 80.61

16 1 21 80.61

91 1 22 84.35

8 1 22 84.36

70 1 22 84.36

19 1 22 84.42

10 1 23 87.91

2 1 23 88.19

28 1 23 88.23

12 1 23 88.28

1 1 23 88.35

Tabel 4.24 Nilai COF dengan k = 37 dan top N = 50

# Class PCL COF

36 3 1 3.81

53 2 1 3.97

92 3 2 7.76

64 2 2 7.79

73 2 2 7.79

94 3 2 7.79

97 3 2 7.83

24 2 2 7.94

37 4 2 8.14

39 3 2 8.26

88 3 3 11.77

23 2 3 11.81

69 2 3 11.84

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 81: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

62

87 2 3 11.85

96 4 3 12.03

38 4 3 12.09

55 3 3 12.4

56 3 4 15.63

25 3 4 15.67

26 3 4 15.67

42 4 4 16.31

27 3 5 19.51

65 1 17 65.13

90 1 19 72.86

17 1 21 80.56

11 1 21 80.57

18 1 21 80.57

13 1 21 80.6

14 1 21 80.61

15 1 21 80.61

16 1 21 80.61

91 1 22 84.35

8 1 22 84.36

70 1 22 84.36

19 1 22 84.42

10 1 23 87.91

2 1 23 88.19

50 1 23 88.19

63 1 23 88.19

31 1 23 88.21

34 1 23 88.21

59 1 23 88.21

41 1 23 88.22

45 1 23 88.22

48 1 23 88.22

28 1 23 88.23

29 1 23 88.23

35 1 23 88.24

12 1 23 88.28

1 1 23 88.35

Berdasarkan masukan k = 47 dan top N yang berubah – ubah, nilai

COF dapat ditampikan dalam tabel sebagai berikut :

Tabel 4.25 Nilai COF dengan k = 47 dan top N = 10

# Class PCL COF

94 3 2 13.48

97 3 2 13.52

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 82: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

63

36 3 3 20.08

88 3 3 20.27

37 4 3 20.54

96 4 3 20.55

53 2 4 26.93

38 4 4 27.34

39 3 4 27.36

42 4 4 27.73

Tabel 4.26 Nilai COF dengan k = 47 dan top N = 20

# Class PCL COF

94 3 2 13.48

97 3 2 13.52

36 3 3 20.08

88 3 3 20.27

37 4 3 20.54

96 4 3 20.55

64 2 4 26.91

53 2 4 26.93

56 3 4 27

69 2 4 27.07

87 2 4 27.07

38 4 4 27.34

39 3 4 27.36

42 4 4 27.73

92 3 5 33.6

73 2 5 33.63

23 2 5 33.73

24 2 5 33.74

55 3 5 34.4

25 3 6 40.48

Tabel 4.27 Nilai COF dengan k = 47 dan top N = 30

# Class PCL COF

94 3 2 13.48

97 3 2 13.52

36 3 3 20.08

88 3 3 20.27

37 4 3 20.54

96 4 3 20.55

64 2 4 26.91

53 2 4 26.93

56 3 4 27

69 2 4 27.07

87 2 4 27.07

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 83: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

64

38 4 4 27.34

39 3 4 27.36

42 4 4 27.73

92 3 5 33.6

73 2 5 33.63

23 2 5 33.73

24 2 5 33.74

55 3 5 34.4

27 3 6 40.44

25 3 6 40.48

26 3 6 40.48

65 1 33 221.06

90 1 34 227.79

45 1 36 241.19

76 1 37 247.9

80 1 37 247.9

82 1 37 247.9

91 1 37 247.9

43 1 37 247.91

Tabel 4.28 Nilai COF dengan k = 47 dan top N = 40

# Class PCL COF

94 3 2 13.48

97 3 2 13.52

36 3 3 20.08

88 3 3 20.27

37 4 3 20.54

96 4 3 20.55

64 2 4 26.91

53 2 4 26.93

56 3 4 27

69 2 4 27.07

87 2 4 27.07

38 4 4 27.34

39 3 4 27.36

42 4 4 27.73

92 3 5 33.6

73 2 5 33.63

23 2 5 33.73

24 2 5 33.74

55 3 5 34.4

27 3 6 40.44

25 3 6 40.48

26 3 6 40.48

65 1 33 221.06

90 1 34 227.79

45 1 36 241.19

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 84: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

65

76 1 37 247.9

80 1 37 247.9

82 1 37 247.9

91 1 37 247.9

43 1 37 247.91

51 1 38 254.61

83 1 38 254.61

66 1 38 254.62

70 1 38 254.62

18 1 38 254.69

14 1 38 254.71

16 1 38 254.75

3 1 39 261.39

11 1 39 261.41

12 1 39 261.41

Tabel 4.29 Nilai COF dengan k = 47 dan top N = 50

# Class PCL COF

94 3 2 13.48

97 3 2 13.52

36 3 3 20.08

88 3 3 20.27

37 4 3 20.54

96 4 3 20.55

64 2 4 26.91

53 2 4 26.93

56 3 4 27

69 2 4 27.07

87 2 4 27.07

38 4 4 27.34

39 3 4 27.36

42 4 4 27.73

92 3 5 33.6

73 2 5 33.63

23 2 5 33.73

24 2 5 33.74

55 3 5 34.4

27 3 6 40.44

25 3 6 40.48

26 3 6 40.48

65 1 33 221.06

90 1 34 227.79

45 1 36 241.19

76 1 37 247.9

80 1 37 247.9

82 1 37 247.9

91 1 37 247.9

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 85: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

66

43 1 37 247.91

51 1 38 254.61

83 1 38 254.61

66 1 38 254.62

70 1 38 254.62

18 1 38 254.69

14 1 38 254.71

16 1 38 254.75

63 1 39 261.32

71 1 39 261.32

62 1 39 261.33

34 1 39 261.34

44 1 39 261.34

49 1 39 261.34

60 1 39 261.34

35 1 39 261.36

3 1 39 261.39

17 1 39 261.4

11 1 39 261.41

12 1 39 261.41

19 1 39 261.41

E. Kesimpulan Hasil Percobaan Perhitungan Dengan Masukan K dan Top N

Yang Berubah - Ubah

Dari hasil percobaan perhitungan dengan masukan k dan top N yang

tertera pada tabel di atas, dapat disimpulkan sebagai berikut :

1. Berdasarkan percobaan perhitungan menggunakan algoritma

ECODB, dapat diketahui bahwa semakin besar nilai k, semakin

tinggi pula nilai COF. Hal ini dikarenakan bertambahnya jumlah

tetangga terdekat dari tiap instance yang kemudian membuat

nilai Kdist bertambah.

2. Berdasarkan percobaan perhitungan menggunakan algoritma

ECODB dengan masukan k dan top n yang berbeda – beda, dapat

diketahui bahwa penentuan nilai k dan top n bergantung pada

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 86: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

67

besarnya dataset, jumlah class label dan distribusi kelas.

Semakin besar dataset dan jumlah class label, semakin besar pula

masukan nilai k dan top n untuk mendapatkan hasil deteksi yang

optimal.

3. Nilai k yang terlalu kecil akan menyebabkan tahap

pengelompokan data berdasarkan tetangga terdekat menjadi tidak

optimal. Data yang termasuk tetangga terdekat suatu instances

dapat ‘terbuang’ dari kelompoknya. Sedangkan nilai k yang

terlalu besar akan menyebabkan data luar menjadi satu kelompok

dengan suatu instances.

4. Nilai top N yang terlalu kecil akan menyebabkan data yang

mempunyai derajat tinggi sebagai outlier tidak terdeteksi sebagai

class outlier. Sedangkan nilai top N yang terlalu besar akan

menyebabkan data yang bukan outlier ikut terdeteksi sebagai

outlier.

F. Kesimpulan Hasil Pengujian Review dan Validitas oleh Pengguna

Berdasarkan hasil pengujian hasil percobaan perhitungan pada data

yang kerap muncul sebagai outlier pada masukan k dan top N yang berbeda –

beda dan hasil analisa menurut pengguna (petugas BPR XYZ), dapat

disimpulkan bahwa :

1. Debitur 36 dinyatakan sebagai outlier karena memiliki

tunggakan pokok yang cukup besar padahal mempunyai jaminan

tanah senilai Rp 12.000.000,- dan pendapatan yang cukup besar

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 87: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

68

yakni Rp 11.400.000,-. Jumlah tanggungan keluarga debitur

juga kecil yaitu 1 orang. Debitur sebelumnya pernah

mengajukan kredit di BPR XYZ sebanyak 3 kali dan mampu

mengangsur kredit dengan lunas. Debitur 36 mengajukan kredit

sebesar Rp 6.000.000,- dan tidak sedang mengangsur kredit di

bank lain.

2. Debitur 92 dinyatakan sebagai outlier karena memiliki

tunggakan pokok yang besar padahal mempunyai jaminan tanah

senilai Rp 40.000.000,- dan pendapatan yang relatif besar yakni

Rp 8.937.500,-. Jumlah tanggungan keluarga debitur 92

sebanyak 2 orang. Debitur 92 mengajukan kredit sebesar Rp

20.000.000,- dan tidak sedang mengangsur kredit di bank lain.

3. Debitur 53 dinyatakan sebagai outlier karena memiliki

tunggakan pokok yang besar padahal mempunyai jaminan tanah

senilai Rp 40.000.000,- dan pendapatan yang cukup besar yakni

Rp 16.600.000,-. Debitur sebelumnya pernah mengajukan kredit

di BPR XYZ sebanyak 1 kali dan mampu mengangsur kredit

dengan lunas. Debitur 53 mengajukan kredit sebesar Rp

20.000.000,- dan tidak sedang mengangsur kredit di bank lain.

4. Debitur 73 dinyatakan sebagai outlier karena memiliki

tunggakan pokok yang besar padahal mempunyai jaminan tanah

senilai Rp 14.000.000,- dan pendapatan yang besar yakni Rp

24.000.000,-. Debitur sebelumnya pernah mengajukan kredit di

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 88: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

69

BPR XYZ sebanyak 1 kali dan mampu mengangsur kredit

dengan lunas. Debitur 73 mengajukan kredit sebesar Rp

7.000.000,- dan tidak sedang mengangsur kredit di bank lain.

5. Debitur 96 dinyatakan sebagai outlier karena memiliki

tunggakan bunga yang besar sebanyak 55 kali padahal

mempunyai jaminan BPKB senilai Rp 26.000.000,- dan

pendapatan yang besar yakni Rp 10.500.000,-. Jumlah

tanggungan keluarga debitur 96 sebanyak 2 orang. Debitur 96

mengajukan kredit sebesar Rp 13.000.000,- dan tidak sedang

mengangsur kredit di bank lain.

6. Debitur 39 dinyatakan sebagai outlier karena memiliki

tunggakan pokok yang besar padahal mempunyai jaminan tanah

senilai Rp 70.750.000,- dan pendapatan yang besar yakni Rp

139.520.000,-. Debitur sebelumnya pernah mengajukan kredit di

BPR XYZ sebanyak 3 kali dan mampu mengangsur kredit

dengan lunas. Jumlah tanggungan keluarga debitur 39 sebanyak

3 orang. Debitur 39 mengajukan kredit sebesar Rp 50.000.000,-.

7. Debitur 64 dinyatakan sebagai outlier karena memiliki

tunggakan pokok cukup besar padahal mempunyai jaminan

tanah senilai Rp 48.000.000,- dan pendapatan yang besar yakni

Rp 34.400.000,-. Debitur sebelumnya pernah mengajukan kredit

di BPR XYZ sebanyak 1 kali dan mampu mengangsur kredit

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 89: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

70

dengan lunas. Debitur 64 mengajukan kredit sebesar Rp

24.000.000,- dan tidak sedang mengangsur kredit di bank lain.

8. Debitur 24 dinyatakan sebagai outlier karena memiliki

tunggakan pokok dan tunggakan bunga yang besar padahal

mempunyai gaji tetap setiap bulan yang relatif besar yakni Rp

2.096.299,- dan jangka waktu mengangsur yang lama yaitu 40

bulan. Debitur 24 mengajukan kredit sebesar Rp 10.000.000,-

dan tidak sedang mengangsur kredit di bank lain. Debitur –

debitur lain yang berprofesi sebagai pegawai dan mempunyai

gaji yang hampir sama cenderung mampu melunasi kredit

bahkan untuk jumlah kredit yang lebih tinggi.

9. Debitur 23 dinyatakan sebagai outlier karena memiliki

tunggakan pokok dan tunggakan bunga yang besar padahal

mempunyai gaji tetap setiap bulan yang relatif besar gaji tetap

setiap bulan yang relatif besar yakni Rp 3.043.672,- dan jangka

waktu mengangsur yang lama yaitu 40 bulan. Debitur 23

mengajukan kredit sebesar Rp 10.000.000,- dan tidak sedang

mengangsur kredit di bank lain. Debitur – debitur lain yang

berprofesi sebagai pegawai dan mempunyai gaji yang hampir

sama cenderung mampu melunasi kredit bahkan untuk jumlah

kredit yang lebih tinggi.

10. Debitur 37 dinyatakan sebagai outlier karena memiliki

tunggakan pokok yang sangat besar padahal mempunyai

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 90: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

71

jaminan tanah senilai Rp 40.000.000,- dan pendapatan yang

relatif besar yakni Rp 9.000.000,-. Jumlah tanggungan keluarga

debitur 37 sebanyak 2 orang. Debitur 37 mengajukan kredit

sebesar Rp 20.000.000,- dan tidak sedang mengangsur kredit di

bank lain.

11. Kebanyakan debitur yang dideteksi sebagai outlier mengalami

perubahan status menjadi macet. Beberapa debitur pada

akhirnya melunasi angsuran kredit, tetapi sebagian debitur

mangkir bahkan tidak melunasi angsuran kredit hingga lewat

dari tanggal jatuh tempo.

12. Menurut pengguna, dalam pengajuan kredit, petugas tidak bisa

hanya melihat penghasilan debitur, jaminan, jumlah tanggungan

atau ada tidaknya kredit di bank lain. Petugas juga harus cermat

dalam memperhatikan keseharian debitur. Karena debitur yang

mengalami kredit macet umumnya tidak melulu karena kecilnya

penghasilannya tiap bulan, melainkan bisa jadi karena

kebutuhan konsumtif, adanya kebutuhan mendadak dalam

keluarga hingga faktor tidak terduga seperti bencana alam.

Dalam kasus yang jarang terjadi bisa juga karena debitur yang

bersangkutan mempunyai watak yang buruk atau dengan kata

lain sedari awal berniat untuk tidak melunasi kredit. Bahkan bisa

jadi pada pinjaman pertama, debitur mampu mengangsur hingga

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 91: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

72

lunas tanpa ada tunggakan sama sekali. Tetapi, pada pinjaman

berikutnya debitur menunggak angsuran kredit.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 92: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

73

BAB V

PENUTUP

A. Kesimpulan

Kesimpulan yang diperoleh sebagai hasil penyelesaian tugas akhir ini

adalah :

1. Algoritma ECODB dapat digunakan untuk mendeteksi outlier pada

data debitur dengan atribut campuran numerik dan kategorikal

dengan kasus data debitur BPR XYZ.

2. Berdasarkan percobaan perhitungan menggunakan algoritma

ECODB, dapat diketahui bahwa semakin besar nilai k, semakin

tinggi pula nilai COF. Hal ini dikarenakan bertambahnya jumlah

tetangga terdekat dari tiap instance yang kemudian membuat nilai

Kdist bertambah.

3. Berdasarkan percobaan perhitungan menggunakan algoritma

ECODB dengan masukan k dan top n yang berbeda – beda, dapat

diketahui bahwa penentuan nilai k dan top n bergantung pada

besarnya dataset dan jumlah class label. Semakin besar dataset dan

jumlah class label, semakin besar pula masukan nilai k dan top n

untuk mendapatkan hasil deteksi yang optimal.

4. Nilai k yang terlalu kecil akan menyebabkan tahap pengelompokan

data berdasarkan tetangga terdekat menjadi tidak optimal. Data

yang termasuk tetangga terdekat suatu instances dapat ‘terbuang’

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 93: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

74

dari kelompoknya. Sedangkan nilai k yang terlalu besar akan

menyebabkan data luar menjadi satu kelompok dengan suatu

instances.

5. Nilai top N yang terlalu kecil akan menyebabkan data yang

mempunyai derajat tinggi sebagai outlier tidak terdeteksi sebagai

class outlier. Sedangkan nilai top N yang terlalu besar akan

menyebabkan data yang bukan outlier ikut terdeteksi sebagai

outlier.

6. Berdasarkan pengujian review dan validitas oleh petugas bank BPR

XYZ dapat disimpulkan bahwa hasil deteksi outlier yang diperoleh

layak dinyatakan sebagai outlier.

B. Saran

Berdasarkan hasil analisis pada tugas akhir ini, saran yang dapat

diberikan untuk penelitian, perbaikan dan pengembangan lebih lanjut adalah

sebagai berikut :

1. Mengimplementasikan algoritma ECODB ke dalam bentuk sistem.

2. Melakukan penelitian atribut yang independen.

3. Menguji waktu yang dibutuhkan algoritma ECODB dalam

mendeteksi outlier berdasarkan besarnya dataset, jumlah class label

serta nilai masukan k dan top n.

4. Membandingkan hasil deteksi outlier menggunakan algoritma

ECODB dengan algoritma lain yang dapat mendeteksi oulier pada

data dengan atribut campuran numerik dan kategorikal.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 94: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

75

DAFTAR PUSTAKA

Aggarwal, C. C. (2013). Outlier Analysis. New York : Springer.

Blake, C., E. Keogh dan C. Merz. (1998). UCI Repository of Machine Learning

Databases. http://www.ics.uci.edu/~mlearn/MLRepository.htm,

diakses pada 1 Agustus 2014.

Breunig, M., et. al. (2000). LOF: Identifying Density-based Local Outliers.

Proceedings of the 2000 ACM SIGMOD International Conference

on Management of Data. Washington.

Han, J. dan M. Kamber. (2006). Data Mining : Concepts and Techniques 2nd

Edition. San Fransisco : Morgan Kaufmann Publishers.

Hartati, S., B. Suharto dan S. Wijono. (2007). Pemrograman GUI Swing Java

dengan Netbeans 5. Yogyakarta : Andi Offset.

Hewahi, N. M. dan M. K. Saad. (2007). Class Outlier Mining : Distance-Based

Approach. International Journal of Electrical and Computer

Engineering. 1 (2) : 55-68.

.......... (2009). A comparative Study of Oultier Mining and Class Outlier Mining.

ISSR Journal. 1 (1) : 1-9.

Lee, S. F. dan J. Santana. (2010). Data Mining : Meramalkan Bisnis Perusahaan.

Diterjemahkan oleh Feri Sulianta dan Dominikus Juju. Jakarta : Elex

Media Komputindo.

Maryono, D. (2010). Deteksi Outlier Berbasis Klaster pada Set Data dengan

Atribut Campuran Numerik dan Kategorikal. Jurnal Ilmiah Kursor. 5

(3) : 197-204.

Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. San Fransisco :

Morgan Kaufmann Publishers.

Santosa, B. (2007). Teknik Pemanfaatan Data untuk Keperluan Bisnis.

Yogyakarta : Graha Ilmu.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 95: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

76

Sutikno, T., A. Pujianta dan Y. T. Supanti. (2007). Prediksi Risiko Kredit Dengan

Jaringan Syaraf Tiruan Backpropagation. Seminar Nasional Aplikasi

Teknologi Informasi (SNATI). Yogyakarta.

Tan, P. N., M. Steinbach dan V. Kumar. (2006). Introduction to Data

Mining. Boston : Pearson Addison Weisley.

Wahana Komputer. (2008). Shortcourse : Membuat Aplikasi Database dengan

Java dan MySQL. Yogyakarta : Andi Offset.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 96: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

LAMPIRAN

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 97: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

77

LAMPIRAN 1

Tabel Data Debitur Sebelum Mengalami Pemrosesan Awal

NOREK NOPK NAMA KODE_PEKER J_

USAHA NAMAIBU ALAMAT1 T_

LAHIR TGL_ LAHIR

UMUR IDENTITAS NAMA_KTR

KODE_ POS

NOM_ PINJ SB JW JAMINAN

NJOP_ NT

1 2013 A 010 PNS A 57425 1 1965 48 1 KEC 1 57425 30000000 9.6 30 GAJI 0

2 2012 B 010 PNS B 57461 1 1973 39 2 KEC 1 57461 30000000 11.4 50 GAJI 0

3 2013 C 010 PNS C 57461 1 1963 50 3 KEC 1 57461 15000000 7.2 60 GAJI 0

4 2012 D 010 PNS D 57261 2 1960 52 4 PN 57261 27000000 9.6 40 GAJI 0

5 2013 E 010 PNS E 57467 3 1964 49 5 PN 57467 21000000 9.6 60 GAJI 0

6 2012 F 010 PNS F 57485 4 1963 49 6 PN 57485 30000000 9.6 60 GAJI 0

7 2012 G 010 PNS G 57434 6 1965 47 7 PN 57434 30000000 9.6 60 GAJI 0

8 2012 H 010 PNS H 57413 1 1961 51 8 KEC 2 57413 21000000 9.6 50 GAJI 0

9 2013 I 010 PNS I 57434 1 1965 48 9 KEC 2 57434 12000000 9.6 60 GAJI 0

10 2013 J 010 PNS J 57465 1 1968 45 10 P&K 1 57465 31500000 9.6 60 GAJI 0

PINJ_KE KOLBI1 TUNG_POK TUNG_BNG TUNG_POKOK TUNG_BUNGA POKOK_BLN BUNGA_BLN

GAJI/

PENDAPATAN

JML_

TANGGUNGAN

UANG

_DIBAWA

STATUS_

PINJAMAN

JML_SETORAN

/BULAN

1 1 0 0 0 0 1000000 240000

6 1 0 0 0 0 600000 285000 3344778 3 1384900 ADA 1552000

1 1 0 0 0 0 250000 90000 3229280 2 2882300 ADA 2192650

10 1 0 0 0 0 675000 216000 4110556 3 3665000 ADA 1705000

5 1 0 0 0 0 350000 168000 3827169 3 3417800 ADA 1788800

12 1 0 0 0 0 500000 240000 3803224 2 3399500 ADA 1941700

14 1 0 0 0 0 500000 240000 3984900 2 3538900 ADA 2240000

2 1 0 0 0 0 420000 168000 3819900 1 2427400 ADA 912500

3 1 0 0 0 0 200000 96000 3632378 3 3206600 TDKADA 0

1 1 0 0 0 0 525000 252000 2804075 2 2534600 ADA 1400000

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 98: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

78

LAMPIRAN 2

Hasil Seleksi Atribut Data Debitur

KODE_PEKER UMUR NOM_PINJ SB JW JAMINAN NJOP_NT PINJ_KE TUNG_POK TUNG_BNG TUNG_POKOK

014 34 25,000,000 9.6 80 GAJI 0 3 0 0 0

014 45 27,000,000 9.6 100 GAJI 0 3 0 0 0

010 48 19,500,000 9.6 60 GAJI 0 2 0 0 0

010 49 18,000,000 9.6 60 GAJI 0 7 0 0 0

010 53 30,000,000 9.6 60 GAJI 0 5 0 0 0

014 39 10,000,000 14.4 40 GAJI 0 1 6 6 1,500,000

014 32 10,000,000 14.4 40 GAJI 0 1 6 6 1,500,000

014 18 1,000,000 12 10 GAJI 0 1 4 5 400,000

014 19 1,000,000 12 10 GAJI 0 1 4 5 400,000

014 27 1,000,000 12 10 GAJI 0 1 5 6 500,000

TUNG_BUNGA POKOK_BLN BUNGA_BLN GAJI/PENDAPATAN JML_TANGGUNGAN UANG

_DIBAWA STATUS_PINJAMAN JML_SETORAN/BULAN STATUS

0 312,500 200,000 13,872,782 1 3,161,302 TDKADA 267,043 1

0 270,000 216,000 1,710,000 2 1,301,000 TDKADA 0 1

0 325,000 156,000 3,430,800 2 2,962,239 ADA 1,473,000 1

0 300,000 144,000 3,558,442 4 3,558,442 ADA 2,130,900 1

0 500,000 240,000 5,156,301 2 4,543,500 ADA 1,500,000 1

720,000 250,000 120,000 3,043,672 3 2,820,582 TDKADA 0 2

720,000 250,000 120,000 2,096,299 2 1,583,887 TDKADA 0 2

50,000 100,000 10,000 675,000 0 675,000 TDKADA 0 3

50,000 100,000 10,000 675,000 0 675,000 TDKADA 0 3

60,000 100,000 10,000 675,000 2 675,000 TDKADA 0 3

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 99: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

79

LAMPIRAN 3

Hasil Pengisian Missing Value

No GAJI/PENDAPATAN JML_TANGGUNGAN

UANG

_DIBAWA STATUS_PINJAMAN JML_SETORAN/BULAN

1 13872782 2 3161302 TDKADA 0

18 13872782 1 3161302 TDKADA 0

37 9000000 2 2550000 TDKADA 0

38 55800000 2 5950000 TDKADA 0

42 70000000 2 19000000 TDKADA 0

50 13872782 2 3161302 TDKADA 0

96 10500000 2 3000000 TDKADA 0

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 100: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

80

LAMPIRAN 4

Hasil Normalisasi Data

KODE_PEKER v'umur v'nom_pinj v'sb v'jw JAMINAN v'njop_nt v'pinj_ke v'tung_pok v'tung_bng v'tung_pokok

10 0.67 0.06 0.09 0.22 GAJI 0.22 0 0 0 0

10 0.47 0.06 0.16 0.44 GAJI 0.44 0.38 0 0 0

10 0.71 0.03 0 0.56 GAJI 0.56 0 0 0 0

10 0.76 0.05 0.09 0.33 GAJI 0.33 0.69 0 0 0

10 0.69 0.04 0.09 0.56 GAJI 0.56 0.31 0 0 0

10 0.69 0.06 0.09 0.56 GAJI 0.56 0.85 0 0 0

10 0.64 0.06 0.09 0.56 GAJI 0.56 1 0 0 0

10 0.73 0.04 0.09 0.44 GAJI 0.44 0.08 0 0 0

10 0.67 0.02 0.09 0.56 GAJI 0.56 0.15 0 0 0

10 0.6 0.06 0.09 0.56 GAJI 0.56 0 0 0 0

v'tung_bunga v'pokok_bln v'bunga_bln v'gaji v'tanggungan v'uang STATUS_PINJAMAN v'setoran KOLBI1

0 0.12 0.04 0.1 0.33 0.1 TDKADA 0 1

0 0.07 0.04 0.02 0.5 0.03 ADA 0.32 1

0 0.03 0.01 0.02 0.33 0.09 ADA 0.45 1

0 0.08 0.03 0.02 0.5 0.12 ADA 0.35 1

0 0.04 0.03 0.02 0.5 0.11 ADA 0.37 1

0 0.06 0.04 0.02 0.33 0.11 ADA 0.4 1

0 0.06 0.04 0.02 0.33 0.12 ADA 0.46 1

0 0.05 0.03 0.02 0.17 0.07 ADA 0.19 1

0 0.02 0.01 0.02 0.5 0.1 TDKADA 0 1

0 0.06 0.04 0.02 0.33 0.07 ADA 0.29 1

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 101: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

81

LAMPIRAN 5

Hasil Pemrosesan Data

KODE_ v'umur v'nom_ v'sb v'jw JAMINAN v'njop_ v'pinj_ v'tung_ v'tung_ v'tung_ v'tung_ v'pokok_ v'bunga_ v'gaji v'jml_ v'uang STATUS_ v'setoran KOLBI1

PEKER pinj nt ke pok bng pokok bunga bln bln tanggungan PINJAMAN

10 0.67 0.06 0.09 0.22 GAJI 0.22 0 0 0 0 0 0.12 0.04 0.1 0.33 0.1 TDKADA 0 1

10 0.47 0.06 0.16 0.44 GAJI 0.44 0.38 0 0 0 0 0.07 0.04 0.02 0.5 0.03 ADA 0.32 1

10 0.71 0.03 0 0.56 GAJI 0.56 0 0 0 0 0 0.03 0.01 0.02 0.33 0.09 ADA 0.45 1

10 0.76 0.05 0.09 0.33 GAJI 0.33 0.69 0 0 0 0 0.08 0.03 0.02 0.5 0.12 ADA 0.35 1

10 0.69 0.04 0.09 0.56 GAJI 0.56 0.31 0 0 0 0 0.04 0.03 0.02 0.5 0.11 ADA 0.37 1

10 0.69 0.06 0.09 0.56 GAJI 0.56 0.85 0 0 0 0 0.06 0.04 0.02 0.33 0.11 ADA 0.4 1

10 0.64 0.06 0.09 0.56 GAJI 0.56 1 0 0 0 0 0.06 0.04 0.02 0.33 0.12 ADA 0.46 1

10 0.73 0.04 0.09 0.44 GAJI 0.44 0.08 0 0 0 0 0.05 0.03 0.02 0.17 0.07 ADA 0.19 1

10 0.67 0.02 0.09 0.56 GAJI 0.56 0.15 0 0 0 0 0.02 0.01 0.02 0.5 0.1 TDKADA 0 1

10 0.6 0.06 0.09 0.56 GAJI 0.56 0 0 0 0 0 0.06 0.04 0.02 0.33 0.07 ADA 0.29 1

14 0.42 0.1 0.09 0.78 GAJI 0.78 0.31 0 0 0 0 0.08 0.06 0.02 0.33 0.08 TDKADA 0 1

14 0.62 0.1 0.09 1 GAJI 1 0.46 0 0 0 0 0.06 0.06 0.01 0.67 0.02 TDKADA 0 1

14 0.51 0.11 0.09 0.56 GAJI 0.56 0.38 0 0 0 0 0.11 0.07 0.02 0.33 0.09 TDKADA 0 1

14 0.56 0.12 0.09 0.56 GAJI 0.56 0.31 0 0 0 0 0.12 0.08 0.02 0.5 0.09 TDKADA 0 1

14 0.47 0.07 0.09 0.44 GAJI 0.44 0.31 0 0 0 0 0.08 0.04 0.02 0.33 0.05 TDKADA 0 1

14 0.24 0.1 0.14 1 GAJI 1 0.31 0 0 0 0 0.06 0.07 0.03 0.17 0.14 TDKADA 0 1

14 0.29 0.05 0.09 0.78 GAJI 0.78 0.23 0 0 0 0 0.04 0.03 0.01 0.33 0.01 TDKADA 0 1

14 0.36 0.05 0.09 0.78 GAJI 0.78 0.15 0 0 0 0 0.04 0 0.1 0.17 0.1 TDKADA 0 1

14 0.6 0.05 0.09 1 GAJI 1 0.15 0 0 0 0 0.03 0.03 0.01 0.33 0.03 TDKADA 0 1

10 0.67 0.04 0.09 0.56 GAJI 0.56 0.08 0 0 0 0 0.04 0.02 0.02 0.33 0.09 ADA 0.3 1

10 0.69 0.03 0.09 0.56 GAJI 0.56 0.46 0 0 0 0 0.04 0.02 0.02 0.67 0.12 ADA 0.44 1

10 0.78 0.06 0.09 0.56 GAJI 0.56 0.31 0 0 0 0 0.06 0.04 0.03 0.33 0.16 ADA 0.31 1

14 0.47 0.02 0.28 0.33 GAJI 0.33 0 0.18 0.08 0.05 0.01 0.03 0.02 0.02 0.5 0.09 TDKADA 0 2

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 102: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

82

14 0.31 0.02 0.28 0.33 GAJI 0.33 0 0.18 0.08 0.05 0.01 0.03 0.02 0.01 0.33 0.04 TDKADA 0 2

14 0 0 0.19 0 GAJI 0 0 0.12 0.06 0.01 0 0.01 0 0 0 0 TDKADA 0 3

14 0.02 0 0.19 0 GAJI 0 0 0.12 0.06 0.01 0 0.01 0 0 0 0 TDKADA 0 3

14 0.2 0 0.19 0 GAJI 0 0 0.15 0.08 0.02 0 0.01 0 0 0.33 0 TDKADA 0 3

14 0.84 0.02 0.37 0.17 SERTIFIKAT 0.17 0.54 0.09 0.01 0.03 0 0.05 0.02 0.03 0.33 0.05 TDKADA 0 1

14 0.82 0.03 0.33 0.22 SERTIFIKAT 0.22 0.46 0 0 0 0 0.06 0.03 0.06 0.33 0.07 TDKADA 0 1

14 0.91 0.01 0.42 0.17 TANAH 0.17 0.31 0 0 0 0 0.02 0.01 0.04 0.5 0.05 TDKADA 0 1

14 0.87 0.02 0.33 0.17 SERTIFIKAT 0.17 0.31 0 0 0 0 0.06 0.02 0.11 0.5 0.09 TDKADA 0 1

14 0.62 0.07 0.3 0.33 TANAH 0.33 0.15 0 0 0 0 0.1 0.07 0.1 0.33 0.09 TDKADA 0 1

14 0.87 0.02 0.37 0.17 TANAH 0.17 0.31 0 0 0 0 0.05 0.02 0.05 0.17 0.09 TDKADA 0 1

14 0.51 0.02 0.37 0.22 SERTIFIKAT 0.22 0.31 0.09 0.04 0.03 0.01 0.04 0.02 0.04 0.33 0.05 TDKADA 0 1

14 0.38 0.03 0.33 0.33 SERTIFIKAT 0.33 0.38 0.03 0.01 0.01 0 0.04 0.03 0.08 0 0.07 TDKADA 0 1

14 0.87 0.01 0.37 0.22 TANAH 0.22 0.23 0.06 0.14 0.01 0.02 0.02 0.01 0.08 0.17 0.05 TDKADA 0 3

14 0.82 0.04 0.6 0.17 TANAH 0.17 0 0.42 1 0.33 0.54 0.1 0.06 0.06 0.33 0.08 TDKADA 0 4

14 0.31 0.06 0.6 0.11 TANAH 0.11 0 0.3 0.99 0.43 0.8 0.18 0.09 0.4 0.33 0.21 TDKADA 0 4

14 0.62 0.1 0.3 0.33 TANAH 0.33 0.23 0.27 0.15 0.33 0.13 0.15 0.1 1 0.5 0.46 ADA 1 3

14 0.58 0.01 0.37 0.11 TANAH 0.11 0.15 0 0 0 0 0.05 0.02 0.15 0 0.04 TDKADA 0 1

14 0.56 0.01 0.37 0.17 SERTIFIKAT 0.17 0.23 0 0 0 0 0.03 0.01 0.54 0.33 0.05 TDKADA 0 1

14 0.38 0.11 0.49 0.56 BPKB 0.56 0 1 0.95 0.9 1.2 0.11 0.14 0.5 0.33 0.74 TDKADA 0 4

14 0.36 0.05 0.3 0.17 TANAH 0.17 0.23 0 0 0 0 0.12 0.05 0.25 0.33 0.14 TDKADA 0 1

14 0.4 0.03 0.33 0.22 TANAH 0.22 0.23 0 0 0 0 0.06 0.03 0.05 0.67 0.07 TDKADA 0 1

14 0.18 0.02 0.37 0.24 SERTIFIKAT 0.24 0.08 0 0 0 0 0.04 0.02 0.04 0.33 0.04 TDKADA 0 1

14 0.96 0.05 0.3 0.22 TANAH 0.22 0.23 0.06 0.03 0.05 0.01 0.1 0.05 0.08 0 0.08 TDKADA 0 1

14 0.69 0.07 0.3 0.28 TANAH 0.28 0.15 0 0 0 0 0.12 0.07 0.21 0.33 0.17 TDKADA 0 1

14 0.78 0.02 0.37 0.22 SERTIFIKAT 0.22 0.15 0 0 0 0 0.04 0.02 0.04 0 0.04 TDKADA 0 1

14 0.71 0.12 0.3 0.22 TANAH 0.22 0.15 0 0 0 0 0.24 0.12 0.06 0.67 0.23 TDKADA 0 1

14 0.67 0.01 0.42 0.11 SERTIFIKAT 0.11 0.15 0.06 0.01 0.01 0 0.03 0.01 0.1 0.33 0.1 TDKADA 0 1

14 0.58 0.02 0.37 0.22 TANAH 0.22 0.15 0 0 0 0 0.04 0.02 0.08 0.5 0.1 TDKADA 0 1

14 0.78 0.05 0.3 0.17 TANAH 0.17 0.08 0 0 0 0 0.13 0.05 0.12 0.5 0.13 TDKADA 0 1

14 0.6 0.04 0.33 0.17 TANAH 0.17 0.08 0.18 0.08 0.15 0.03 0.1 0.04 0.11 0.83 0.12 TDKADA 0 2

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 103: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

83

14 0.8 0.01 0.37 0.22 TANAH 0.22 0.08 0 0 0 0 0.02 0.01 0.12 0.5 0.07 TDKADA 0 1

14 1 1 0.3 0.56 SERTIFIKAT 0.56 0.15 0.12 0.11 1 1 1 1 0.52 0 1 TDKADA 0 3

14 0.33 0 0.42 0.11 BPKB 0.11 0.15 0.12 0.04 0.02 0 0.02 0.01 0.02 0.67 0.04 TDKADA 0 3

14 0.76 0.02 0.33 0.33 TANAH 0.33 0.08 0 0 0 0 0.03 0.02 0.03 0 0.06 TDKADA 0 1

14 0.76 0.01 0.37 0.22 TANAH 0.22 0.08 0 0 0 0 0.02 0.01 0.03 0.17 0.12 TDKADA 0 1

14 0.76 0.02 0.33 0.16 SERTIFIKAT 0.16 0.15 0 0 0 0 0.06 0.02 0.15 0 0.06 TDKADA 0 1

14 0.62 0.12 0.3 0.22 TANAH 0.22 0.08 0 0 0 0 0.24 0.12 0.39 1 0.34 TDKADA 0 1

14 0.96 0.02 0.37 0.17 TANAH 0.17 0.08 0.03 0.01 0.01 0 0.05 0.02 0.05 0 0.05 TDKADA 0 1

14 0.36 0.01 0.42 0.22 TANAH 0.22 0.08 0.03 0 0 0 0.02 0.01 0.05 0 0.03 TDKADA 0 1

14 0.64 0.01 0.37 0.17 SERTIFIKAT 0.17 0.08 0.03 0 0.01 0 0.03 0.01 0.09 0.5 0.03 TDKADA 0 1

14 0.67 0.05 0.3 0.17 SERTIFIKAT 0.17 0.08 0.03 0.01 0.03 0.01 0.12 0.05 0.24 0.67 0.1 TDKADA 0 2

14 0.18 0.01 0.42 0.11 BPKB 0.11 0.08 0 0 0 0 0.02 0.01 0.07 0.33 0.05 TDKADA 0 1

14 0.33 0.02 0.37 0.17 TANAH 0.17 0.08 0 0 0 0 0.05 0.02 0.04 0.5 0.05 TDKADA 0 1

14 0.69 0 0.42 0.22 TANAH 0.22 0 0 0 0 0 0.01 0.01 0.02 0.33 0.03 TDKADA 0 1

14 0.84 0.02 0.33 0.22 TANAH 0.22 0 0 0 0 0 0.04 0.02 0.04 0 0.05 TDKADA 0 1

14 0.22 0.01 0.42 0.11 BPKB 0.11 0.08 0.18 0.08 0.04 0.01 0.02 0.01 0.04 0 0.04 TDKADA 0 2

14 0.58 0.03 0.33 0.33 SERTIFIKAT 0.33 0.08 0.06 0.03 0.03 0.01 0.05 0.03 0.03 0.67 0.06 TDKADA 0 1

14 0.71 0.01 0.37 0.22 TANAH 0.22 0 0.03 0.01 0.01 0 0.03 0.02 0.05 0.5 0.07 TDKADA 0 1

14 0.73 0.03 0.33 0.22 TANAH 0.22 0 0 0 0 0 0.06 0.03 0.06 0.17 0.22 TDKADA 0 1

14 0.58 0.01 0.37 0.17 SERTIFIKAT 0.17 0.08 0.15 0.08 0.04 0.01 0.03 0.01 0.17 0.67 0.05 TDKADA 0 2

14 0.82 0.02 0.37 0.22 TANAH 0.22 0 0 0 0 0 0.04 0.02 0.03 0.17 0.03 TDKADA 0 1

14 0.56 0.05 0.3 0.44 SERTIFIKAT 0.44 0 0 0 0 0 0.06 0.05 0.08 0.5 0.13 ADA 0.06 1

14 0.53 0.03 0.33 0.22 TANAH 0.22 0 0.09 0.04 0.05 0.01 0.06 0.03 0.28 0.5 0.08 TDKADA 0 1

14 0.98 0.02 0.33 0.22 TANAH 0.22 0 0 0 0 0 0.05 0.02 0.07 0.17 0.07 TDKADA 0 1

14 0.44 0.04 0.3 0.22 TANAH 0.22 0 0 0 0 0 0.08 0.04 0.15 0 0.17 TDKADA 0 1

14 0.62 0.01 0.42 0.17 SERTIFIKAT 0.17 0 0.09 0.04 0.01 0 0.02 0.01 0.02 0 0.03 TDKADA 0 1

14 0.36 0.01 0.37 0.17 SERTIFIKAT 0.17 0 0 0 0 0 0.03 0.01 0.03 0.17 0.03 TDKADA 0 1

14 0.89 0.02 0.33 0.17 SERTIFIKAT 0.17 0 0 0 0 0 0.06 0.02 0.08 0.5 0.06 TDKADA 0 1

14 0.36 0.01 0.37 0.17 SERTIFIKAT 0.17 0 0 0 0 0 0.04 0.02 0.04 0.5 0.08 TDKADA 0 1

14 0.71 0.01 0.42 0.17 SERTIFIKAT 0.17 0 0.03 0.01 0.01 0 0.02 0.01 0.03 0.5 0.04 TDKADA 0 1

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 104: DETEKSI OUTLIER PADA DATA CAMPURAN NUMERIK DAN … · NUMERIK DAN KATEGORIKAL MENGGUNAKAN ... Umumnya metode deteksi outlier tidak ... Microsoft Excel (.xls)

84

14 0.91 0 0.42 0.22 SERTIFIKAT 0.22 0 0.03 0.01 0 0 0.01 0.01 0.04 0.83 0.02 TDKADA 0 1

14 0.42 0.04 0.33 0.33 TANAH 0.33 0 0 0 0 0 0.06 0.04 0.16 0.17 0.11 TDKADA 0 1

14 0.73 0.05 0.3 0.67 SERTIFIKAT 0.67 0 0.06 0.03 0.02 0.01 0.04 0.05 0.06 0.33 0.09 TDKADA 0 1

14 0.16 0.01 0.42 0.11 BPKB 0.11 0 0.09 0.04 0.02 0 0.03 0.01 0.02 0 0.03 TDKADA 0 2

14 0.78 0 0.42 0.11 BPKB 0.11 0 0.09 0.05 0.01 0 0.01 0 0.04 0.5 0.03 TDKADA 0 3

14 0.78 0.01 0.37 0.17 SERTIFIKAT 0.17 0 0 0 0 0 0.03 0.01 0.03 0.17 0.03 TDKADA 0 1

14 0.64 0 0.42 0.11 BPKB 0.11 0 0.03 0.01 0 0 0.02 0.01 0.09 0.67 0.04 TDKADA 0 1

14 0.36 0 0.42 0.11 SERTIFIKAT 0.11 0 0.09 0.04 0.01 0 0.02 0.01 0.03 0 0.02 TDKADA 0 1

14 0.31 0.04 0.33 0.17 SERTIFIKAT 0.17 0 0.24 0.1 0.2 0.04 0.1 0.04 0.06 0.33 0.1 TDKADA 0 3

14 0.91 0.04 0.33 0.22 SERTIFIKAT 0.22 0 0.09 0.04 0.06 0.01 0.08 0.04 0.1 0 0.06 TDKADA 0 1

14 0.38 0.1 0.3 0.44 SERTIFIKAT 0.44 0 0.09 0.1 0.08 0.09 0.12 0.1 0.31 0.33 0.17 TDKADA 0 3

14 0.56 0.2 0.6 0.02 TANAH 0.02 0.69 0 0 0 0 0 0.09 0.28 0.17 0.25 TDKADA 0 1

14 0.13 0.02 1 0.02 BPKB 0.02 0 0 0.7 0.16 0.27 0 0.02 0.07 0.33 0.09 TDKADA 0 4

14 1 0.02 0 0.44 TANAH 0.44 0.08 0.36 0.15 0.09 0.02 0.03 0.01 0.02 0 0.02 TDKADA 0 3

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI