bab iii pembahasan a. sumber data - eprints.uny.ac.ideprints.uny.ac.id/41356/3/bab iii...

46

BAB III

PEMBAHASAN

A. Sumber Data

Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel

peminjam dengan jaminan sertifikat tanah, tunjuk, dan Buku Pemilik Kendaraan

Bermotor (BPKB) serta 25 file excel laporan nominatif pinjaman perbulan dimana

setiap file mewakili satu bulan. Data peminjam adalah data mengenai status

peminjam, pendapatan keluarga, pengeluaran keluarga, usaha, tempat tinggal,

agunan, dan info-info lain yang mencakup 5C yang digunakan sebagai

pertimbangan pemberian kredit. Data laporan nominatif pinjaman perbulan adalah

data mengenai besar pinjaman, sisa pinjaman, bunga, angsuran, kolektibilitas, dan

info-info lain yang berkaitan dengan angsuran perbulan. Rentang waktu dari data

peminjam adalah Januari 2011 - Maret 2016 dan rentang waktu pada data laporan

nominatif pinjaman perbulan adalah Januari 2014 - Maret 2016. Daftar atribut pada

kedua data dapat dilihat pada lampiran 1.

Data yang digunakan adalah data peminjam yang telah melunasi pinjaman

dan peminjam yang bermasalah. Pengumpulan data dilakukan secara manual yaitu

pada data laporan nominatif pinjaman perbulan dipilih data yang mempunyai nilai

bakidebet 0 artinya peminjam telah melunasi pinjaman dan data yang mempunyai

nilai kolektibilitas 2-4 artinya peminjam bermasalah dalam mengangsur pinjaman.

Hasil pemilihan pada data laporan nominatif pinjaman perbulan tersebut kemudian

dihubungkan dengan file peminjam dengan primary key yaitu No.Anggota

diperoleh sebanyak 1.076 dataset.

47

Pada data peminjam dan data laporan nominatif pinjaman perbulan tidak

semua atribut digunakan. Atribut yang digunakan pada data peminjam adalah

sebagai berikut:

a. No.Anggota digunakan sebagai primary key,

b. pekerjaan adalah pekerjaan peminjam ketika melakukan permohonan

pinjaman,

c. No KTP adalah Nomer Kartu Tanda Kependudukan peminjam,

d. pekerjaan istri/suami adalah pekerjaan suami atau istri peminjam ketika

melakukan permohonan pinjaman,

e. pendapatan keluarga adalah jumlah pendapatan peminjam ditambah dengan

jumlah pendapatan suami atau istri peminjam,

f. pengeluaran keluarga adalah jumlah pengeluaran keluarga perbulan untuk

memenuhi kebutuhan hidup,

g. pinjaman adalah besar pinjaman yang dilakukan,

h. kemampuan angsuran adalah kemampuan peminjam untuk mengangsur,

i. jangka waktu adalah jumlah waktu untuk mengembalikan pinjaman,

j. agunan adalah jaminan yang diberikan oleh peminjam,

k. status agunan adalah status kepemilikan jaminan,

l. nilai jaminan adalah besar nominal uang yang setara dengan jaminan,

m. tujuan adalah tujuan digunakannya dana pinjaman,

n. tanggal peminjaman adalah tanggal dimana peminjam melakukan pinjaman.

Atribut yang digunakan pada data laporan nominatif pinjaman perbulan

adalah sebagai berikut:

48

a. No.Anggota digunakan sebagai primary key,

b. kolektibilitas adalah status kelancaran peminjam dalam mengangsur

pinjaman.

Atribut-atribut lain yang tidak digunakan adalah atribut yang telah terwakili

oleh atribut yang digunakan, atribut yang tidak ada kaitannya dengan

pengklasifikasian, atribut yang nilainya terlalu beragam, dan atribut yang sering

tidak mempunyai isian, sehingga atribut tersebut tidak diperlukan pada penelitian

ini. Contoh data yang telah dikumpulkan dapat dilihat pada lampiran 2. Setelah data

lengkap maka tahap selanjutnya mempersiapkan data tersebut untuk proses data

mining yaitu preprocessing yang terdiri dari Data Cleaning, Data Integration, Data

Selection, Data Transformation.

B. Pembersihan Data (Data Cleaning) dan Integrasi Data (Data Integration)

Preprocessing data yang dilakukan setelah data lengkap adalah

pembersihan data. Masih adanya data yang tidak memiliki kelengkapan atribut

dapat mengakibatkan hasil dari proses mining tidak baik atau memungkinkan

adanya noise. Oleh karena itu perlunya preprocessing pembersihan data.

Pembersihan data dilakukan terhadap data yang tidak memiliki kelengkapan atribut

dengan cara menghapus data tersebut.

Dari 1.076 dataset dilakukan penghapusan pada 97 dataset dengan rincian

sebagai berikut:

1. Data yang tidak mempunyai kelengkapan atribut pekerjaan sebanyak 1.

2. Data yang tidak mempunyai kelengkapan atribut No KTP sebanyak 7.

49

3. Data yang tidak mempunyai kelengkapan atribut pekerjaan suami/istri

sebanyak 54.

4. Data yang tidak mempunyai kelengkapan atribut pengeluaran keluarga

sebanayak 1.

5. Data yang tidak mempunyai kelengkapan atribut kemampuan angsuran

sebanyak 10.

6. Data yang tidak mempunyai kelengkapan atribut status agunan sebanyak 2.

7. Data yang tidak mempunyai kelengkapan atribut Nilai jaminan sebanyak 19.

8. Data yang tidak mempunyai kelengkapan atribut tujuan sebanyak 2.

9. Data yang tidak mempunyai kelengkapan atribut kolektibilitas sebanyak 1.

Setelah proses pembersihan data, jumlah data menjadi 979 dataset yang

kemudian dilanjutkan dengan proses integrasi data.

Integrasi data pada penelitian ini dilakukan pada awal ketika pemilihan data-

data yang diperlukan dan penghubungan data laporan nominatif pinjaman perbulan

dengan data peminjam menggunakan primary key yaitu No.Anggota yang

kemudian disimpan dalam satu file. Selain itu, integrasi data juga dilakukan dengan

penggantian atribut No.KTP dan tanggal peminjaman menjadi atribut umur. Atribut

umur tersebut dapat diidentifikasi melalui tahun peminjaman dikurangi dengan

tahun lahir peminjam. Tahun lahir peminjam dapat diidentifikasi melalui karakter

ke 6 dan 7 dari belakang pada No. KTP.

50

C. Seleksi Data (Data Selection) dan Transformasi Data (Data

Transformation)

Seleksi data yang dilakukan adalah penghapusan atribut No.Anggota dan

penghapusan atribut-atribut yang tidak digunakan dalam analisis seperti nama,

alamat, nomer telepon, uraian usaha, dan lain-lain. Sehingga atribut-atribut yang

digunakan untuk analisis klasifikasi adalah pekerjaan, umur, pekerjaan istri/suami,

pendapatan keluarga, pengeluaran keluarga, pinjaman, kemampuan angsuran,

jangka waktu, agunan, status agunan, nilai jaminan, tujuan, dan kolektibilitas.

Setelah dilakukan tahap pembersihan data, integrasi data, dan seleksi data,

selanjutnya dilakukan tahap transformasi data. Transformasi data yang dilakukan

pada penelitian ini adalah pengubahan tipe data ke dalam format yang sesuai

sehingga siap untuk diproses menggunakan metode decision tree C4.5 dan naïve

bayes.

Transformasi data dilakukan pada data yang bertipe numerik menjadi

interval, diantaranya dilakukan pada beberapa atribut. Hasil transformasi dapat

dilihat pada Tabel 3.1-3.7.

Tabel 3.1 Transformasi Atribut Umur

Umur (tahun)

Sebelum Transformasi Sesudah Transformasi

27 30 U1

48 30-39 U2

68 40-49 U3

58 50-59 U4

65 60 U5

51

Tabel 3.2 Transformasi Atribut Pendapatan Keluarga

Pendapatan Keluarga (rupiah)


1550000 0-1000000 D1

2400000 1000001-2000000 D2

12000000 2000001-3000000 D3

3500000 3000001-4000000 D4

4600000 4000001-5000000 D5

7000000 5000000 D6

Tabel 3.3 Transformasi Atribut Pengeluaran Keluarga

Pengeluaran Keluarga (rupiah)


755000 0-1000000 K1

1260000 1000001-2000000 K2

2600000 2000001-3000000 K3

4000000 3000000 K4

Tabel 3.4 Transformasi Atribut Pinjaman

Pinjaman (rupiah)


1500000 0-2000000 PJ1

6000000 2000001-4000000 PJ2

8500000 4000001-6000000 PJ3

7000000 6000001-8000000 PJ4

8500000 >8000000 PJ5

Tabel 3.5 Transformasi Atribut Kemampuan Angsuran %

Kemampuan angsur %


40 0 – 40 KA1

50 41-60 KA2

80 60 KA3

52

Tabel 3.6 Transformasi Atribut Jangka Waktu

Jangka Waktu (bulan)


12 1-12 J1

24 13-24 J2

36 24 J3

Tabel 3.7 Transformasi Atribut Nilai Jaminan

Nilai Jaminan (rupiah)


4000000 0-5000000 N1

7000000 5000001-10000000 N2

12000000 10000001-15000000 N3

18000000 15000001-20000000 N4

30000000 20000000 N5

Transformasi juga dilakukan pada beberapa atribut yang mempunyai nilai

atau isian dengan karakter terlalu panjang, maka untuk mempersingkat data

ditransformasi menjadi beberapa inisial. Hasil transformasi dapat dilihat pada Tabel

3.8-3.13.

Tabel 3.8 Transformasi Atribut Pekerjaan

Pekerjaan


Wiraswasta PK1

Karyawan Swasta PK2

Petani/pedagang/tukang PK3

Buru PK4

PNS PK5

Tidak Bekerja PK6

53

Tabel 3.9 Transformasi Atribut Pekerjaan Suami/Istri

Pekerjaan suami/istri


Wiraswasta PS1

Karyawan Swasta PS2

Petani/pedagang/tukang PS3

Buruh PS4

PNS PS5

Tidak Bekerja PS6

Tabel 3.10 Transformasi Atribut Agunan

Agunan


Sertifikat tanah A1

BPKB A2

Tunjuk A3

Tabel 3.11 Transformasi Atribut Status Agunan

Status Agunan


Milik Sendiri SA1

Bukan Milik Sendiri SA2

Tabel 3.12 Transformasi Atribut Tujuan

Tujuan


Modal T1

Kesejahteraan T2

54

Tabel 3.13 Transformasi Atribut Kolektibilitas

Kolektibilitas


1 Lancar KL1

2 Kurang Lancar KL2

3 Diragukan KL3

4 Macet KL4

Setelah data ditransformasikan dan dikelompokkan sesuai kriteria masing-

masing maka dihasilkan data yang siap untuk diolah seperti yang disajikan pada

Tabel 3.14.

55

Tabel 3.14 Contoh Data yang Telah Mengalami Preprocessing

Pekerjaan Umur Pekerjaan

Suami/Istri

Pendapatan

Keluarga

Pengeluaran

Keluarga Pinjaman

Kemampuan

Angsuran

Jangka

Waktu Agunan

Status

Agunan

Nilai

Jaminan Tujuan Kelas

PK1 U1 PS1 D2 K2 PJ2 KA1 J2 A1 SA2 N5 T1 KL3



















56

D. Proses Klasifikasi Menggunakan Decision Tree C4.5

Setelah data ditransformasi, maka data siap diproses menggunakan metode

decision tree (pohon keputusan). Langkah-langkah pembentukan pohon keputusan

menggunakan algoritma C4.5 sebagai berikut:

1. Tahap pertama adalah menentukan simpul akar yang dilakukan dengan

menghitung total kasus untuk kelas KL1, KL2, KL3, dan KL4 serta gain ratio

pada setiap atribut. Proses ini dilakukan sama pada setiap nilai atribut

pekerjaan, umur, pekerjaan suami/istri, pendapaan keluarga, pengeluaran

keluarga, pinjaman, kemampuan angsuran, jangka waktu, status agunan,

tujuan, nilai jaminan. Hasil dari perhitungan dapat dilihat pada Tabel 3.15.

Berdasarkan Persamaan (2.1) nilai untuk kolom info pada Tabel 3.15

diperoleh dari:

𝑖𝑛𝑓𝑜(𝑡𝑜𝑡𝑎𝑙) = −668

979𝑙𝑜𝑔2 (

668

979) −

91

979𝑙𝑜𝑔2 (

91

979) −

159

979𝑙𝑜𝑔2 (

159

979)

−61

979𝑙𝑜𝑔2 (

61

979) = 1,37025

57

Tabel 3.15 Proses Pembentukan Simpul Akar

KASUS TOTAL KL1 KL2 KL3 KL4 INFO ENTROPY GAIN SPLIT INFO GAIN RATIO

979 668 91 159 61 1.37025

PEKERJAAN 1.33910 0.03116 2.14664 0.01452

PK1 326 227 33 51 15

PK2 61 40 7 12 2

PK3 311 194 27 59 31

PK4 202 139 18 32 13

PK5 42 32 5 5 0

PK6 37 36 1 0 0

UMUR 1.36305 0.00720 2.15745 0.00334

U1 107 65 11 22 9

U2 287 201 21 50 15

U3 313 219 33 43 18

U4 186 120 19 32 15

U5 86 63 7 12 4

PEKERJAAN SUAMI/ISTRI 1.35385 0.01640 2.23864 0.00733

PS1 275 193 27 47 8

PS2 40 29 4 6 1

PS3 336 215 39 51 31

PS4 163 112 10 29 12

PS5 45 35 4 4 2

PS6 120 84 7 22 7

58


PENDAPATAN KELUARGA 1.34080 0.02946 2.06842 0.01424

D1 9 4 1 3 1

D2 412 255 39 85 33

D3 264 179 25 39 21

D4 107 86 7 11 3

D5 54 39 4 10 1

D6 133 105 15 11 2

PENGELUARAN KELUARGA 1.35420 0.01605 1.69681 0.00946

K1 388 246 40 68 34

K2 407 284 32 69 22

K3 91 64 8 15 4

K4 93 74 11 7 1

PINJAMAN 1.31406 0.05620 2.18116 0.02576

PJ1 229 124 19 61 25

PJ2 265 174 26 47 18

PJ3 158 107 14 23 14

PJ4 59 46 3 8 2

PJ5 268 217 29 20 2

KEMAMPUAN ANGSURAN 1.31982 0.05044 1.55174 0.03250

KA1 253 165 33 49 6

KA2 422 331 29 50 12

KA3 304 172 29 60 43

59


JANGKA WAKTU 1.33619 0.03406 1.34608 0.02530

J1 310 183 28 63 36

J2 557 395 48 90 24

J3 112 90 15 6 1

AGUNAN 1.30049 0.06977 1.57666 0.04425

A1 339 250 35 40 14

A2 279 220 33 22 4

A3 361 198 23 97 43

STATUS AGUNAN 1.36182 0.00844 0.49469 0.01706

SA1 873 601 71 144 57

SA2 106 67 20 15 4

NILAI JAMINAN 1.35466 0.01560 2.19976 0.00709

N1 186 121 23 32 10

N2 266 172 26 49 19

N3 158 102 9 31 16

N4 77 59 4 9 5

N5 292 214 29 38 11

TUJUAN 1.36875 0.00151 0.98323 0.00153

T1 564 378 57 96 33

T2 415 290 34 63 28

60

Sementara itu, berdasarkan persamaan (2.2), nilai entropy untuk atribut

pekerjaan pada Tabel 3.15 diperoleh dari:

𝐸(𝑝𝑒𝑘𝑒𝑟𝑗𝑎𝑎𝑛) =326

979× (

−227

326𝑙𝑜𝑔2 (

227

326) −

33

326𝑙𝑜𝑔2 (

33

326)

−51

326𝑙𝑜𝑔2 (

51

326) −

15

326𝑙𝑜𝑔2 (

15

326)

)

+61

979× (

−40

61𝑙𝑜𝑔2 (

40

61) −

7

61𝑙𝑜𝑔2 (

7

61)

−12

61𝑙𝑜𝑔2 (

12

61) −

2

61𝑙𝑜𝑔2 (

2

61)

)

+311

979× (

−194

311𝑙𝑜𝑔2 (

194

311) −

27

311𝑙𝑜𝑔2 (

27

311)

−59

311𝑙𝑜𝑔2 (

59

311) −

31

311𝑙𝑜𝑔2 (

31

311)

)

+202

979× (

−139

202𝑙𝑜𝑔2 (

139

202) −

18

202𝑙𝑜𝑔2 (

18

202)

−32

202𝑙𝑜𝑔2 (

32

202) −

13

202𝑙𝑜𝑔2 (

13

202)

) +42

979

× (−32

42𝑙𝑜𝑔2 (

32

42) −

5

53𝑙𝑜𝑔2 (

5

42) −

5

42𝑙𝑜𝑔2 (

5

42))

+37

979× (−

36

37𝑙𝑜𝑔2 (

36

37) −

1

37𝑙𝑜𝑔2 (

1

37))

= 1,33910

Berdasarkan Persamaan (2.3), nilai information gain untuk atribut


𝐺𝑎𝑖𝑛(𝑝𝑒𝑘𝑒𝑟𝑗𝑎𝑎𝑛) = 𝐼𝑛𝑓𝑜(𝑡𝑜𝑡𝑎𝑙) − 𝐸(𝑝𝑒𝑘𝑒𝑟𝑗𝑎𝑎𝑛)

= 1,37025 − 1,33910

= 0,03116

Berdasarkan persamaan (2.4), nilai split information untuk atribut


61

𝑆𝑝𝑙𝑖𝑡 𝑖𝑛𝑓𝑜(𝑝𝑒𝑘𝑒𝑟𝑗𝑎𝑎𝑛) = −326

979log2 (

326

979) −

61

979log2 (

61

979)

−311

979log2 (

311

979) −

202

979log2 (

202

979)

−42

979log2 (

42

979) −

37

979log2 (

37

979)

= 2,14664

Berdasarkan persamaan (2.5), nilai gain ratio untuk atribut pekerjaan

pada Tabel 3.15 diperoleh dari:

𝐺𝑎𝑖𝑛 𝑟𝑎𝑡𝑖𝑜(𝑝𝑒𝑘𝑒𝑟𝑗𝑎𝑎𝑛) =𝐺𝑎𝑖𝑛(𝑝𝑒𝑘𝑒𝑟𝑗𝑎𝑎𝑛)

𝑆𝑝𝑙𝑖𝑡 𝑖𝑛𝑓𝑜 (𝑝𝑒𝑘𝑒𝑟𝑗𝑎𝑎𝑛)

=0,03116

2,14664

= 0,01452

Berdasarkan Tabel 3.15 dapat diketahui bahwa atribut dengan gain

ratio tertinggi adalah atribut agunan yaitu sebesar 0,04425, dengan demikian

atribut agunan menjadi simpul akar pada pohon keputusan. Ada tiga nilai

atribut dari agunan yaitu A1, A2, dan A3. Dari ketiga nilai atribut tersebut

belum mengklasifikasikan kasus menjadi satu atau belum menunjukkan

sebuah keputusan akhir, sehingga perlu dilakukan perhitungan nilai gain ratio

kembali dari setiap atribut dengan penghapusan simpul agunan. Sebagai

contoh, akan dicari simpul internal dari percabngan nilai A3 yaitu simpul

internal (1,1). Hasil pohon keputusan sementara ditunjukkan pada Gambar

3.1.

62

Gambar 3.1 Pohon Keputusan Sementara Perhitungan Simpul Akar

2. Menentukan simpul internal (1.1) dengan menghitung total kasus untuk

kategori kelas KL1, KL2, KL3, KL4 pada simpul internal (1.1) dan

menghitung gain ratio pada setiap atribut. Proses perhitungan tersebut sama

untuk semua atribut. Atribut yang sudah menjadi akar dihapus dari daftar

atribut. Hasil perhitungan secara lengkap dapat dilihat pada lampiran 3.

Berdasarkan perhitungan pada lampiran 3 besar gain ratio pada setiap

atribut dapat dilihat pada Tabel 3.16.

Tabel 3.16 Nilai Gain Ratio pada Pembentukan Simpul Internal (1.1)

Nama Atribut Gain Ratio

Pekerjaan 0,03603

Umur 0,01145

Pekerjaan suami/istri 0,01045

Pendapatan keluarga 0,02015

Pengeluaran keluarga 0,01871

Pinjaman 0,02471

Kemampuan angsuran 0,07708

Jangka waktu 0,03116

Status agunan 0,01793

Nilai jaminan 0,00692

Tujuan 0,00333

Agunan

1.2?

A2 A1

1.1? 1.3?

A3

63

Berdasarkan Tabel 3.16 atribut yang mempunyai nilai gain ratio

tertinggi adalah kemampuan angsuran yaitu sebesar 0,07708, oleh karena itu

atribut kemampuan angsuran dijadikan sebagai simpul internal (1.1). Ada tiga

nilai atribut dari kemampuan angsuran, yaitu KA1, KA2, KA3. Dari ketiga

nilai tersebut belum menunjukkan keputusan akhir, sehingga dilakukan

perhitungan nilai gain ratio kembali dari setiap atribut dengan penghapusan

atribut kemampuan angsuran. Sebagai contoh, akan dicari simpul internal dari

percabangan nilai KA1 yaitu simpul internal (2.2). Hasil pohon keputusan

sementara ditunjukkan pada Gambar 3.2.

Gambar 3.2 Pohon Keputusan Sementara Perhitungan Simpul Internal (1.1)

3. Menentukan simpul internal (2.2) dengan menghitung total kasus untuk

kategori kelas KL1, KL2, KL3, KL4 dan gain ratio pada simpul internal (2.2).

Proses perhitungan dilakukan sama pada setiap nilai atribut. Atribut

kemampuan angsuran yang sudah menjadi simpul internal dihapus. Hasil

perhitungan dapat dilihat pada lampiran 4.

2.3?

Agunan

1.2?

A2 A1

Kemampuan

angsuran

1.3?

2.1? 2.2?

KA2 KA1 KA1

A3

64





Pekerjaan 0,03950

Umur 0,07365


Pendapatan keluarga 0,12970


Pinjaman 0,04983



Tujuan 0,01334


tertinggi adalah pendapatan keluarga yaitu sebesar 0,12970, oleh karena itu

atribut pendapatan keluarga dijadikan sebagai simpul internal (2.2). Ada

enam nilai atribut pada pendapatan keluarga, yaitu D1, D2, D3, D4, D5, D6.

Dari keenam nilai tersebut tidak terdapat nilai yang memiliki keputusan akhir,

sehingga dilakukan perhitungan nilai gain ratio kembali dari setiap atribut

dengan penghapusan atribut pendapatan keluarga. Sebagai contoh, akan

dicari simpul internal dari percabngan nilai D3 yaitu simpul internal (3.3).

Hasil pohon keputusan sementara yang terbentuk ditunjukkan pada Gambar

3.3.

65


4. Menghitung total kasus untuk kategori kelas akhir KL1, KL2, KL3, KL4 pada

simpul internal (3.3) dan menghitung nilai gain ratio pada setiap atribut.

Proses tersebut dilakukan sama pada setiap nilai atribut. Sementara itu atribut

pendapatan keluarga dihapus dari daftar atribut. Hasil perhitungan dapat

dilihat pada lampiran 5.



3.1? 3.2? 3.3? 3.4? 3.5? 3.6?

2.3?

Agunan

1.2?

A2 A1

Kemampuan

angsuran

1.3?

2.1? Pendapatan

keluarga

KA2 KA1 KA3

A3

D1 D2 D3 D4 D5 D6

66



Pekerjaan 0,09200

Umur 0,13840



Pinjaman 0,27341



Tujuan 0,05895


tertinggi adalah pinjaman yaitu sebesar 0,27341, sehingga atribut pinjaman

dijadikan sebagai simpul internal (3.3). Pada atribut pinjaman, terdapat satu

nilai atribut yang telah memiliki keputusan akhir yaitu nilai PJ3 dengan

kategori kelas KL3. Masih terdapat tiga nilai lainnya yang belum memiliki

keputusan akhir sehingga perlu dilakukan perhitungan nilai gain ratio

kembali dari setiap atribut dengan penghapusan atribut pinjaman. Hasil

pohon keputusan sementara yang terbentuk ditunjukkan oleh Gambar 3.4

67


Proses pembentukan pohon pada Gambar 3.4 bukan akhir dari pembentukan

pohon keputusan pada kasus ini. Perhitungan yang terdapat pada keempat langkah

di atas merupakan contoh perhitungan pada salah satu simpul internal.

Pembentukan pohon keputusan akan dilanjutkan dengan menggunakan bantuan

software WEKA karena jumlah dataset yang banyak sehingga apabila dihitung

manual akan panjang dan membutuhkan waktu yang lama. Setelah menggunakan

3.1? 3.2? Pinjaman 3.4? 3.5? 3.6?

2.3?

Agunan

1.2?

A2 A1

Kemampuan

angsuran

1.3?

2.1? Pendapatan

keluarga

KA2 KA1 KA3

A3

D1 D2 D3 D4 D5 D6

4.1? 4.2?

PJ1 PJ2 PJ3

PJ5

KL2

11

4.3?

68

bantuan software WEKA akan didapatkan pohon keputusan yang lengkap sebagai

hasil akhir.

Pembentukan pohon keputusan menggunakan WEKA dimulai dengan

menyiapkan data yang telah mengalami preprocessing dengan format file comma

separated value (csv). Selanjutnya dilakukan classifier dengan trees J48. Algoritma

C4.5 di dalam WEKA direpresentasikan oleh trees J48, sehingga dipilih algoritma

tersebut. Ilustrasi klasifikasi menggunakan WEKA ditunjukkan oleh Gambar 3.5.

Gambar 3.5 Decision tree C4.5 menggunakan WEKA

Visualisasi output WEKA menggunakan teknik klasifikasi decision tree

C4.5 yang diimplementasikan oleh trees J48 dengan jumlah data 979 ditunjukkan

pada Gambar 3.6. Berdasarkan Gambar 3.6 dapat diketahui bahwa model terbentuk

dalam waktu 0,27 detik dengan ukuran pohon 53 dan memiliki 41 aturan keputusan.

69

=== Classifier model (full training set) ===

J48 pruned tree

------------------

Agunan = A1: KL1 (339.0/89.0)

Agunan = A2: KL1 (279.0/59.0)

Agunan = A3

| Kemampuan Angsuran = KA1

| | Pendapatan Keluarga = D2

| | | Nilai Jaminan = N5: KL3 (6.0/1.0)

| | | Nilai Jaminan = N3

| | | | Pengeluaran Keluarga = K2: KL1 (2.0)




| | | Nilai Jaminan = N1

| | | | Pengeluaran Keluarga = K2: KL3 (5.0/1.0)


| | | | Pengeluaran Keluarga = K1

| | | | | Pekerjaan = PK1: KL2 (4.0/2.0)

| | | | | Pekerjaan = PK2: KL1 (0.0)

| | | | | Pekerjaan = PK3: KL1 (8.0/3.0)

| | | | | Pekerjaan = PK4: KL2 (5.0/2.0)

| | | | | Pekerjaan = PK6: KL1 (0.0)

| | | | | Pekerjaan = PK5: KL1 (0.0)


| | | Nilai Jaminan = N4: KL1 (3.0)

| | | Nilai Jaminan = N2: KL1 (11.0/4.0)

…………

Number of Leaves : 41

Size of the tree : 53

Time taken to build model: 0.27 seconds

Gambar 3.6 Hasil Output WEKA Berupa Model dan Aturan 979 dataset

Gambar 3.7 adalah visualisasi pohon keputusan dari kelas akhir KL1,

KL2, KL3, dan KL4 yang dihasilkan menggunakan software WEKA.

70

Gambar 3.7 Visualisasi Pohon Keputusan

71

Pohon keputusan tersebut diperoleh dari proses klasifikasi menggunakan

algoritma C4.5. Berdasarkan pohon keputusan yang dihasilkan maka diperoleh

aturan ekstraksi dari pohon keputusan. Ekstraksi pohon keputusan dilihat pada

lampiran 12, dan beberapa diantaranya dapat dituliskan sebagai berikut:

1. IF AGUNAN=A1 THEN KELAS=KL1;

2. IF AGUNAN=A2 THEN KELAS=KL1;

3. IF AGUNAN=A3 AND KEMAMPUAN ANGSURAN=KA1 AND

PENDAPATAN KELUARGA=D2 AND NILAI JAMINAN=N5 THEN

KELAS=KL3;


PENDAPATAN KELUARGA=D2 AND NILAI JAMINAN=N3 AND

PENGELUARAN KELUARGA=K2 THEN KELAS=KL1;


PENDAPATAN KELUARGA=D2 AND NILAI JAMINAN=N3 AND

PENGELUARAN KELUARGA=K3 THEN KELAS=KL3;

Berdasarkan aturan yang terdapat pada ekstraksi pohon keputusan tersebut,

maka aturan-aturan tersebut dapat diartikan sebagai berikut:

1. Jika peminjam memberikan agunan A1 maka status peminjam tersebut

termasuk dalam kelas KL1.

2. Jika peminjam memberikan agunan A2 maka status peminjam tersebut

termasuk dalam kelas KL1.

72

3. Jika peminjam memberikan agunan A3, dengan besar kemampuan agsuraan

pada kelas KA1, pendapatan keluarga D2 , nilai jaminan N5, maka status

peminjam tersebut termasuk dalam kelas KL3.


pada kelas KA1, pendapatan keluarga D2 , nilai jaminan N3, pengeluaran

keluarga K2, maka status peminjam tersebut termasuk dalam kelas KL1.


pada kelas KA1, pendapatan keluarga D2 , nilai jaminan N3, pengeluaran

keluarga K3, maka status peminjam tersebut termasuk dalam kelas KL3.

E. Proses Klasifikasi Menggunakan Naïve Bayes

Setelah penerapan klasifikasi dengan metode decision tree C4.5 terhadap

data kredit pada Koperasi X maka hasil tersebut akan dibandingkan dengan hasil

klasifikasi menggunakan naïve bayes. Pada penerapan algoritma naïve bayes, data

yang digunakan adalah data yang telah melewati tahap preprocessing yaitu

sebanyak 979 dataset.

Berikut adalah contoh salah satu perhitungan klasifikasi naïve bayes untuk

mencari kelas target pada salah satu peminjam kredit koperasi.

Tabel 3.19 Data Prediksi


Suami/Istri

Pendapatan

Keluarga

Pengeluaran

Keluarga Pinjaman

PK3 U3 PS3 D3 K2 PJ2

Kemampuan

angsuran

Jangka

Waktu Agunan

Status

Agunan

Nilai


KA3 J1 A3 SA1 N3 T2

73

Data pada Tabel 3.19 menyatakan bahwa pekerjaan pemohon kredit

tergolong dalam PK3, umur tergolong dalam U3, pekerjaan suami/istri tergolong

dalam PS3, pendapatan keluarga tergolong dalam D3, besar pengeluaran keluarga

tergolong dalam K2, pinjaman tergolong dalam PJ2, kemampuan angsuran

tergolong dalam KA3, jangka waktu tergolong dalam J1, agunan tergolong dalam

A3, status agunan tergolong dalam SA1, nilai jaminan tergolong dalam N3, dan

tujuan tergolong dalam T2. Perhitungan klasifikasi naïve bayes dilakukan untuk

mengetahui kelas target pada data prediksi tersebut dengan 𝑃(𝐶𝑖) merupakan kelas

target. Kemudian akan ditentukan atribut yang digunakan dengan ketentuan:

𝐶1 = (kelas target=”KL1”)




𝑥1 = (pekerjaan=”PK3”)

𝑥2 = (umur=”U3”)

𝑥3 = (pekerjaan suami/istri=”PS3”)

𝑥4 = (pendapatan keluarga=”D3”)

𝑥5 = (pegeluaran keluarga=”K2”)

𝑥6 = (pinjaman=”PJ2”)

𝑥7 = (kemampuan angsuran=”KA3”)

𝑥8 = (jangka waktu=”J1”)

𝑥9 = (agunan=”A3”)

𝑥10 = (status agunan=”SA1”)

𝑥11 = (nilai jaminan=”N3”)

74

𝑥12 = (tujuan=”T2”)

Langkah-langkah perhitungan klasifikasi naïve bayes berdasarkan data

kredit yang telah mengalami preprocessing sebagai berikut:

1. Langkah pertama adalah menghitung probabilitas kelas target yaitu 𝑃(𝐶𝑖)

untuk 𝑖 = 1, 2, 3, 4. Pada kelas target atau atribut Kelas yang bernilai “KL1”

sebanyak 668 data, “KL2” sebanyak 91 data, “KL3” sebanyak 159 data,

“KL4” sebanyak 61 data. Maka akan dihitung nilai 𝑃(𝐶𝑖) berdasarkan

persamaan (2.11), yaitu:

𝑃(𝐶1) = 𝑃(𝐾𝑒𝑙𝑎𝑠 = "KL1") =668

979= 0,68233

𝑃(𝐶2) = 𝑃(𝐾𝑒𝑙𝑎𝑠 = "KL2") =91

979= 0,09295

𝑃(𝐶3) = 𝑃(𝐾𝑒𝑙𝑎𝑠 = "KL3") =159

979= 0,16241

𝑃(𝐶4) = 𝑃(𝐾𝑒𝑙𝑎𝑠 = "KL4") =61

979= 0,06230

2. Menghitung nilai 𝑃(𝑥𝑘|𝐶𝑖) untuk 𝑘 = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 dan 𝑖 =

1, 2, 3, 4 yaitu:

𝑃(𝑥1|𝐶1) = 𝑃(𝑃𝑒𝑘𝑒𝑟𝑗𝑎𝑎𝑛 = "PK3"|𝐾𝑒𝑙𝑎𝑠 = "KL1") =194

668


91


159


61

𝑃(𝑥2|𝐶1) = 𝑃(𝑈𝑚𝑢𝑟 = "U3"|𝐾𝑒𝑙𝑎𝑠 = "KL1") =219

668


91

77


159


61

𝑃(𝑥12|𝐶1) = 𝑃(𝑇𝑢𝑗𝑢𝑎𝑛 = "𝑇2"|𝐾𝑒𝑙𝑎𝑠 = "KL1") =290

668


91


159


91

3. Langkah selanjutnya adalah menghitung 𝑃(𝑋|𝐶𝑖) untuk 𝑖 = 1, 2 dan dengan

menggunakan persamaan (2.12) diperoleh:

𝑃(𝑋|𝐶1) = ∏ 𝑃(𝑥𝑘|𝐶1) =

12

𝑘=1

194

668×

219

668×

215

668×

179

668×

284

668×

174

668×

172

668

×183

668×

198

668×

601

668×

102

668×

290

668

= 1,13398 × 10−6

𝑃(𝑋|𝐶2) = ∏ 𝑃(𝑥𝑘|𝐶2) =

12

𝑘=1

27

91×

33

91×

39

91×

25

91×

32

91×

26

91×

29

91×

28

91×

23

91

×71

91×

9

91×

34

91= 9,09437 × 10−7

𝑃(𝑋|𝐶3) = ∏ 𝑃(𝑥𝑘|𝐶3) =

12

𝑘=1

59

159×

43

159×

51

159×

39

159×

69

159×

47

159×

60

159

×63

159×

97

159×

144

159×

31

159×

63

159

= 1,74185 × 10−5

𝑃(𝑋|𝐶4) = ∏ 𝑃(𝑥𝑘|𝐶4) =

12

𝑘=1

31

91×

18

91×

31

91×

21

91×

22

91×

18

91×

43

91×

36

91×

43

91

×57

91×

16

91×

28

91= 1,81265 × 10−4

78

4. Menghitung nilai 𝑃(𝑋|𝐶𝑖)𝑃(𝐶𝑖) yaitu

𝑃(𝑋|𝐶1)𝑃(𝐶1) = 1,13398 × 10−6 × 0,68233 = 7,73746 × 10−7

𝑃(𝑋|𝐶2)𝑃(𝐶2) = 9,09437 × 10−7 × 10−6 × 0,09295 = 8,4534 × 10−8

𝑃(𝑋|𝐶3)𝑃(𝐶3) = 1,74185 × 10−5 × 10−6 × 0,16241 = 2,82895 × 10−6

𝑃(𝑋|𝐶4)𝑃(𝐶4) = 1,81265 × 10−6 × 0,0623 × 10−7 = 1,12943 × 10−5

5. Dari perhitungan 𝑃(𝑋|𝐶𝑖)𝑃(𝐶𝑖) di atas, diperoleh bahwa nilai tertinggi

diberikan oleh 𝑃(𝑋|𝐶4)𝑃(𝐶4) sehingga hasil pengklasifikasian pada data di

atas dapat dilihat pada Tabel 3.17 berikut.

Tabel 3.20 Hasil Klasifikasi Data


Suami/Istri

Pendapatan

Keluarga

Pengeluaran

Keluarga Pinjaman

PK3 U3 PS3 D3 K2 PJ2

Kemampuan

angsuran

Jangka

Waktu Agunan

Status

Agunan

Nilai


KA3 J1 A3 SA1 N3 T2 KL4

Berdasarkan Tabel 3.20, diperoleh informasi bahwa peminjam dengan

pekerjaan PK3, umur U3, pekerjaan suami/istri PS3, pendapatan keluarga D3,

pengeluaran keluarga K2, pinjaman PJ2, kemampuan angsuran KA3, jangka waktu

J1, agunan A3, status agunan SA1, nilai jaminan N3, tujuan T2 maka peminjam

tersebut termasuk dalam kelas KL4.

Pada proses data mining diperlukan bantuan software WEKA karena jumlah

dataset yang cukup banyak sehingga akan sulit jika diolah secara manual dan

memerlukan waktu lama. Pengklasifikasian menggunakan WEKA dimulai dengan

menyiapkan data yang telah mengalami preprocessing dengan format csv.

79

Selanjutnya dilakukan classifier dengan naïve bayes. Ilustrasi klasifikasi naïve

bayes menggunakan WEKA ditunjukkan oleh Gambar 3.8.

Gambar 3.8 Naïve Bayes menggunakan WEKA

Visualisasi output WEKA menggunakan teknik klasifikasi algoritma naïve

bayes dengan jumlah data 979 ditunjukkan pada Gambar 3.9.

80

=== Classifier model (full training set) ===

Naive Bayes Classifier

Class

Attribute KL3 KL1 KL4 KL2

(0.16) (0.68) (0.06) (0.09)

====================================================

Pekerjaan

PK1 52.0 228.0 16.0 34.0

PK2 13.0 41.0 3.0 8.0

PK3 60.0 195.0 32.0 28.0

PK4 33.0 140.0 14.0 19.0

PK6 1.0 37.0 1.0 2.0

PK5 6.0 33.0 1.0 6.0

[total] 165.0 674.0 67.0 97.0

Umur

U1 23.0 66.0 10.0 12.0

U3 44.0 220.0 19.0 34.0

U2 51.0 202.0 16.0 22.0

U4 33.0 121.0 16.0 20.0

U5 13.0 64.0 5.0 8.0

[total] 164.0 673.0 66.0 96.0

……………

Time taken to build model: 0 seconds

Gambar 3.9 Hasil Output WEKA Klasifikasi Menggunakan Naïve Bayes

Output program WEKA Gambar 3.9 merupakan model klasifikasi naïve

bayes. Berdasarkan output dapat diketahui bahwa pada atribut pekerjaan

mempunyai total class KL1 sebanyak 674, class KL2 sebanyak 97, class KL3

sebanyak 165, class KL4 sebanyak 67 sehingga total class seluruhnya ada 1.003,

sedangkan jumlah data sebenarnya adalah 979. Hal ini terjadi karena klasifikasi

naïve bayes pada program WEKA menghindari frekuensi nol di setiap class

sehingga terjadi penambahan 1 angka di setiap class. Pada output di atas juga dapat

diketahui bahwa model naïve bayes terbentuk dalam waktu mendekati 0 detik.

F. Pengujian Model

Pengujian model dilakukan dengan beberapa model tes klasifikasi yaitu

menggunakan option use training set, cross validation, dan percentage split.

81

Menurut Witten, et al (2011: 153) jumlah fold standar untuk memprediksi tingkat

error dari data adalah dengan menggunakan 10-fold cross validation. Sehingga

pada penelitian ini digunakan 10-fold cross validation. Menurut Hota, Shrivas &

Singhai (2013: 165) terdapat beberapa komposisi data training dan data testing

yang sering digunakan, yaitu

1. 60% untuk data training dan 40% untuk data testing,

2. 75% untuk data training dan 25% untuk data testing,

3. 80% untuk data training dan 20% untuk data testing.

Pembagian data pada penelitian ini sebesar 80% untuk data training dan 20% untuk

data testing.

Berdasarkan pengujian menggunakan beberapa model tes tersebut akan

diketahui nilai akurasi dari masing-masing model. Hasil yang diperoleh dari tes

dengan use training set, 10-fold cross validation, dan percentage split dapat dilihat

pada Tabel 3.21.

Tabel 3.21 Hasil Evaluasi Decision Tree C4.5 dan Naïve Bayes

Decision Tree C4.5

Use Training

Set

10-Fold Cross

Validation

Percentage Split

Correctly Classified 71,91% 68,03% 66,84%

Incorrect Classified 28,09% 31,97% 33,16%

Waktu komputasi

(satuan:detik)

0,25 0,14 0,02

Naïve Bayes

Use Training

Set

10-Fold Cross

Validation

Percentage

Split

Correctly Classified 67,01% 64,66% 65,82%

Incorrect Classified 32,99% 35,34% 34,18%

Waktu komputasi

(satuan:detik)

0,01 0 0

82

Berdasarkan Tabel 3.21 akurasi yang diberikan dengan model tes use

training set, 10-fold cross validation, dan percentage split pada decision tree C4.5

berurutan adalah 71,91%, 68,03%, dan 66,84%, sedangkan pada naïve bayes

berurutan adalah 67,01%, 64,66%, dan 65,82%. Dapat diambil informasi bahwa

secara keseluruhan klasifikasi decision tree C4.5 memiliki kecenderungan tingkat

akurasi yang lebih tinggi. Waktu komputasi yang diberikan dengan model tes use

training set, cross validation, dan percentage split pada decision tree C4.5 berturut-

turut adalah 0,25 detik, 0,14 detik, dan 0,02 detik, sedangkan pada naïve bayes

berturut-turut adalah 0,01 detik, mendekati 0 detik, dan mendekati 0 detik. Dapat

diambil informasi bahwa klasifikasi naïve bayes mempunyai waktu komputasi yang

lebih cepat dibanding decision tree C4.5.

Berdasarkan hasil akurasi dengan beberapa model tes, use training set

adalah model tes yang mempunyai tingkat akurasi paling tinggi. Model tes tersebut

memang mempunyai tingkat akurasi yang bagus namun tidak memberikan estimasi

akurasi yang sebenarnya terhadap data yang lain karena seluruh data digunakan

untuk data testing maupun data training.

bab iii pembahasan a. sumber data - eprints.uny.ac.ideprints.uny.ac.id/41356/3/bab iii...

Documents