semangat data mining gemastik-2011 revisi

8
 1 PENENTUAN PERSETUJUAN PEMBERIAN KREDIT BANK MENGGUNAKAN METODE HYBRID SVM Erliyah Nurul Jannah 1 , Rizky Widhanto Herlambang 2 , Mario Renato Pangow 3  (Semangat) Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember Kampus Sukolilo Surabaya, 60111 Email : [email protected] 1 , rizky.widhanto.her lambang@g mail.com 2 , pangow.m[email protected] 3  ABSTRAK  Kredit merupakan produk utama dari sebuah bank. Bank dapat memperoleh keuntungan yang besar dari sektor ini. Namun keuntungan tersebut juga diimbangi dengan besarnya resiko yang akan dihadapi oleh  pihak bank jika terjadi kredit bermasalah, misal kredit macet. Hal ini terjadi karena tak sedikit bank memutuskan memberi kredit kepada nasabahnya hanya berdasar pada intuisi. Agar dapat mengurangi resiko terjadinya kredit bermasalah pada persetujuan pemberian kredit, dibutuhkan suatu metode yang dapat membantu pihak bank dalam menambil keputusan. Hybrid Support Vector Machine (SVM) adalah salah satu metode data mining yang dapat digunakan untuk mengatasi permasalahan ini. Hybrid SVM pada makalah ini merupakan kombinasi antara metode SVM dengan kernel Radial Basis Function (RBF), Grid Search, dan F Score. Grid Search digunakan untuk mengoptimasi parameter kernel, sedangkan F Score digunakan untuk memilih fitur yang diskriminatif, yaitu fitur yang paling berkontribusi dalam membedakan kelas. Performa metode Hybrid SVM tidak dipengaruhi oleh jumlah dimensi atau jumlah fitur dari dataset. Uji coba menunjukkan bahwa Hybrid S VM memiliki tingkat akurasi yang tin ggi yaitu 88,70% dan w aktu komputasi 0,24 detik. K a ta K unci  : Kredit, Support Vector Machine (SVM), RBF kernel,  Hybrid  SVM, F  Score, Grid Search 1 PENDAHULUAN Pertumbuhan ekonomi dunia di sektor industri saat ini sangat pesat. Hal ini mendorong terjadinya kompetisi industri yang cukup ketat. Sehingga baik  perorangan maupun perusahaan terkadang membutuhkan tambahan modal untuk melebarkan ranah industrinya. Modal tersebut salah satunya bisa diperoleh dari pemberian kredit dari bank. Kredit menurut wikipedia adalah suatu fasilitas keuangan yang memungkinkan seseorang atau badan usaha untuk meminjam uang dan membayarnya kembali dalam jangka waktu yang ditentukan [1]. Kredit merupakan salah satu produk utama dari sebuah bank. Bank dapat memperoleh keuntungan yang besar dari sektor ini. Namun besarnya keuntungan yang didapat oleh bank juga diimbangi dengan resiko yang tak bisa diremehkan. Salah satu resiko pemberian kredit yang mungkin dialami  perusahaan adalah kredit bermasalah, misalnya nasabah tidak mengembalikan uang pinjaman. Seperti yang diberitakan oleh situs vibiznews.com  pada tanggal 19 Juli 2011, bahwa  jumlah kredit macet Perbankan Indonesia hingga Mei 2011 sejumlah Rp 34,991 Triliun [2]. Pada dua dekade terakhir, banyak metode telah dikembangkan sebaga i acuan bagi pihak bank untuk melakukan persetujuan pemberian kredit. Persetujuan  pemberian kredit telah dikembangkan dengan cara  pengelompokan nasabah, apakah seorang nasabah layak diberi kredit atau tidak. Pengelompokan tersebut pada umumnya didasarkan pada karakter, kapasitas, modal, jaminan, dan kondisi ekonomi dari nasabah tersebut. Saat ini pihak bank dihadapkan pada suatu masalah. Mereka berusaha meningkatkan pemberian volume kredit, namun juga harus dapat mengurangi tingkat resiko terjadinya kredit bermasalah. Tak sedikit bank memberikan kredit kepada nasabahnya hanya berdasar intuisi. Hal ini tentu saja sangat beresiko terhadap kelancaran kredit. Oleh sebab itu, dibutuhkan sebuah metode yang akurat yang dapat membantu dalam penentuan pemberian kredit bank kepada nasabah. Berbagai macam metode telah dikembangkan untuk membantu kreditor dan banker  dalam memutuskan pemberian kredit kepada nasabah. Metode-metode yang diusulkan sebelumnya telah menggunakan teknik-teknik yang ada dalam data mining . Beberapa metode yang telah dilakukan adalah metode statistik konvensional yang meliputi linear discriminant model [3], logistic regression models [4], k-nearest neighbor models  [5], decision tree models [6], dan neural network models [7]. Pada linear discriminant model , terdapat batasan berupa asumsi bahwa variabel bebas  harus terdistribusi normal. Padahal kenyataannya variabel bebas belum

Upload: paul

Post on 04-Nov-2015

119 views

Category:

Documents


12 download

DESCRIPTION

SEMANGAT Data Mining Gemastik-2011 Revisi

TRANSCRIPT

  • SEMA

    NGAT

    1

    PENENTUAN PERSETUJUAN PEMBERIAN KREDIT BANK

    MENGGUNAKAN METODE HYBRID SVM

    Erliyah Nurul Jannah1, Rizky Widhanto Herlambang

    2, Mario Renato Pangow

    3

    (Semangat)

    Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember

    Kampus Sukolilo Surabaya, 60111

    Email : [email protected], [email protected]

    2, [email protected]

    3

    ABSTRAK

    Kredit merupakan produk utama dari sebuah bank. Bank dapat memperoleh keuntungan yang besar

    dari sektor ini. Namun keuntungan tersebut juga diimbangi dengan besarnya resiko yang akan dihadapi oleh

    pihak bank jika terjadi kredit bermasalah, misal kredit macet. Hal ini terjadi karena tak sedikit bank

    memutuskan memberi kredit kepada nasabahnya hanya berdasar pada intuisi. Agar dapat mengurangi resiko

    terjadinya kredit bermasalah pada persetujuan pemberian kredit, dibutuhkan suatu metode yang dapat

    membantu pihak bank dalam menambil keputusan. Hybrid Support Vector Machine (SVM) adalah salah satu

    metode data mining yang dapat digunakan untuk mengatasi permasalahan ini. Hybrid SVM pada makalah ini

    merupakan kombinasi antara metode SVM dengan kernel Radial Basis Function (RBF), Grid Search, dan F

    Score. Grid Search digunakan untuk mengoptimasi parameter kernel, sedangkan F Score digunakan untuk

    memilih fitur yang diskriminatif, yaitu fitur yang paling berkontribusi dalam membedakan kelas. Performa

    metode Hybrid SVM tidak dipengaruhi oleh jumlah dimensi atau jumlah fitur dari dataset. Uji coba

    menunjukkan bahwa Hybrid SVM memiliki tingkat akurasi yang tinggi yaitu 88,70% dan waktu komputasi 0,24

    detik.

    Kata Kunci: Kredit, Support Vector Machine (SVM), RBF kernel, Hybrid SVM, F Score, Grid Search

    1 PENDAHULUAN

    Pertumbuhan ekonomi dunia di sektor industri

    saat ini sangat pesat. Hal ini mendorong terjadinya

    kompetisi industri yang cukup ketat. Sehingga baik

    perorangan maupun perusahaan terkadang

    membutuhkan tambahan modal untuk melebarkan

    ranah industrinya. Modal tersebut salah satunya bisa

    diperoleh dari pemberian kredit dari bank.

    Kredit menurut wikipedia adalah suatu fasilitas

    keuangan yang memungkinkan seseorang atau badan

    usaha untuk meminjam uang dan membayarnya

    kembali dalam jangka waktu yang ditentukan [1].

    Kredit merupakan salah satu produk utama dari

    sebuah bank. Bank dapat memperoleh keuntungan

    yang besar dari sektor ini. Namun besarnya

    keuntungan yang didapat oleh bank juga diimbangi

    dengan resiko yang tak bisa diremehkan. Salah satu

    resiko pemberian kredit yang mungkin dialami

    perusahaan adalah kredit bermasalah, misalnya

    nasabah tidak mengembalikan uang pinjaman.

    Seperti yang diberitakan oleh situs vibiznews.com

    pada tanggal 19 Juli 2011, bahwa jumlah kredit

    macet Perbankan Indonesia hingga Mei 2011

    sejumlah Rp 34,991 Triliun [2].

    Pada dua dekade terakhir, banyak metode telah

    dikembangkan sebagai acuan bagi pihak bank untuk

    melakukan persetujuan pemberian kredit. Persetujuan

    pemberian kredit telah dikembangkan dengan cara

    pengelompokan nasabah, apakah seorang nasabah

    layak diberi kredit atau tidak. Pengelompokan

    tersebut pada umumnya didasarkan pada karakter,

    kapasitas, modal, jaminan, dan kondisi ekonomi dari

    nasabah tersebut.

    Saat ini pihak bank dihadapkan pada suatu

    masalah. Mereka berusaha meningkatkan pemberian

    volume kredit, namun juga harus dapat mengurangi

    tingkat resiko terjadinya kredit bermasalah.

    Tak sedikit bank memberikan kredit kepada

    nasabahnya hanya berdasar intuisi. Hal ini tentu saja

    sangat beresiko terhadap kelancaran kredit. Oleh

    sebab itu, dibutuhkan sebuah metode yang akurat

    yang dapat membantu dalam penentuan pemberian

    kredit bank kepada nasabah.

    Berbagai macam metode telah dikembangkan

    untuk membantu kreditor dan banker dalam

    memutuskan pemberian kredit kepada nasabah.

    Metode-metode yang diusulkan sebelumnya telah

    menggunakan teknik-teknik yang ada dalam data

    mining. Beberapa metode yang telah dilakukan

    adalah metode statistik konvensional yang meliputi

    linear discriminant model [3], logistic regression

    models [4], k-nearest neighbor models [5], decision

    tree models [6], dan neural network models [7]. Pada

    linear discriminant model, terdapat batasan berupa

    asumsi bahwa variabel bebas harus terdistribusi

    normal. Padahal kenyataannya variabel bebas belum

  • SEMA

    NGAT

    2

    Data Mining Contest Gemastik 2011

    ITS Surabaya, 12 13 Oktober 2011

    tentu terdistribusi normal[8]. Sedangkan pada logistic

    regression, model ini tidak efektif untuk menangani

    permasalahan klasififikasi non linier dan

    permasalahan yang melibatkan interaksi antar

    variabel dalam variabel bebas[8]. Dan k-nearest

    neighbor models, nilai akurasi dari model bergantung

    pada nilai k jumlah ketetanggaan[8].

    Pada metode statistik konvensional, probabilitas

    yang mendasari model harus diasumsikan terlebih

    dahulu untuk dapat menghitung probabilitas posterior

    di mana keputusan akan dibuat . Namun SVM dapat

    melakukan klasifikasi tanpa batasan atau asumsi ini

    [9]. Performa SVM juga tidak bergantung pada

    jumlah fitur atau atribut pada dataset. Sehingga

    banyaknya fitur tidak mempengaruhi waktu

    komputasi. Berbeda dengan beberapa metode data

    mining lainnya yang memiliki batasan pada jumlah

    fitur, seperti neural network dan decision tree. Fitur

    dalam jumlah banyak akan menyebabkan waktu

    komputasi semakin lama. Padahal saat ini, teknologi

    dituntut untuk dapat menggali informasi dari data

    yang berjumlah besar dalam waktu yang singkat.

    Akhir-akhir ini telah banyak diajukan metode

    gabungan (hybrid) untuk merancang model penilaian

    kredit yang efektif. Hal ini dilakukan dengan harapan

    dapat meningkatkan akurasi. Dan salah satu metode

    hybrid tersebut adalah metode gabungan dengan

    melibatkan Support Vector Machine (SVM), atau

    lebih dikenal dengan Hybrid SVM. SVM dikenal

    sukses dalam klasifikasi di berbagai bidang. Salah

    satunya adalah klasifikasi penilaian kredit[10].

    Terdapat tiga masalah utama ketika menerapkan

    Hybrid SVM dalam proses klasifikasi. Pertama

    pemilihan fitur, kedua pemilihan kernel, dan terakhir

    adalah penentuan parameter kernel yang optimal.

    Pemilihan fitur merupakan hal yang penting

    dalam klasifikasi. Pemilihan fitur digunakan untuk

    memilih fitur-fitur yang diskriminatif atau yang

    paling berkontribusi dalam membedakan kelas. Fitur

    yang tidak berkontribusi sebaiknya tidak digunakan

    atau direduksi. Reduksi fitur diharapkan dapat

    meningkatkan akurasi dan mengurangi waktu

    komputasi [11].

    Berbagai macam metode pemilihan fitur telah

    diajukan, salah satunya adalah metode F Score.

    Metode ini sederhana, namun efektif untuk memilih

    fitur-fitur yang diskriminatif [12].

    Berikutnya adalah permasalahan pemilihan

    kernel. Berdasarkan penelitian yang telah dilakukan

    oleh Huang C,M., RBF kernel terbukti efektif dalam

    melakukan klasifikasi permasalahan persetujuan

    pemberian kredit [11].

    Setelah pemilihan kernel, selanjutnya adalah

    optimasi nilai dari parameter kernel. Grid Search

    merupakan algoritma yang efektif untuk menentukan

    parameter yang optimal pada kernel Radial Basis

    Function (RBF)[13].

    Oleh sebab itu, dalam makalah ini metode yang

    akan digunakan untuk penentuan persetujuan

    pemberian kredit adalah metode hybrid SVM. Yaitu

    kombinasi antara metode SVM dengan Grid Search

    untuk optimasi parameter kernel SVM dan F Score

    untuk pemilihan fitur yang diskriminatif. Hybrid

    SVM diharapkan dapat memprediksi penentuan

    persetujuan pemberian kredit dengan akurasi yang

    tinggi dan waktu komputasi yang relatif singkat.

    2 METODE DAN IMPLEMENTASI

    Support vector machine (SVM) adalah metode

    yang pertama kali dicetuskan oleh Vapnik and

    Corinna Cortes pada tahun 1995. SVM dikenal dapat

    memecahkan masalah klasifikasi di berbagai bidang,

    seperti pattern recognition, bioinformatics, dan text

    categorization.

    2.1 Preprocessing Data Sebelum proses klasifikasi dilakukan,

    diperlukan preprocessing data terlebih dahulu.

    Preprocessing ini meliputi :

    a. Replace Missing Values Replace Missing Values adalah proses mengisi

    semua data yang hilang (missing value). Jika

    missing value tersebut bertipe kontinu, maka akan

    diisi dengan rata-rata dari seluruh data dalam satu

    fitur atau atribut. Namun jika missing value

    tersebut bertipe nominal, maka akan diisi dengan

    modus dari data keseluruhan dalam satu fitur atau

    atribut.

    b. Nominal To Binary Nominal To Binary adalah proses mengubah data

    nominal menjadi data biner. SVM dapat

    melakukan klasifikasi pada data yang bertipe

    nominal, namun data tersebut harus terlebih

    dahulu diubah menjadi data biner.

    c. Normalisasi Normalisasi adalah proses mengubah nilai dari

    data pada tiap-tiap atribut kontinu sehingga

    menjadi berskala 0 sampai 1. Hal ini bertujuan

    untuk menghindari terjadinya dominasi atribut

    terhadap hasil klasifikasi.

    Gambar 1. Ide Utama Support Vector Machine

  • SEMA

    NGAT

    Institut Teknologi Sepuluh Nopember, Penentuan Persetujuan Pemberian Kredit Bank Menggunakan

    Metode Hybrid SVM

    3

    Jika xi adalah data pada atribut ke-i, maka

    normalisasi xi atau norm(xi) dapat dilakukan

    dengan rumus sebagai berikut :

    ( )

    (1)

    dengan mini dan maxi adalah nilai minimum dan

    maksimum pada atribut ke-i.

    2.2 Support Vector Machine (SVM) Konsep SVM dapat dijelaskan secara sederhana

    sebagai usaha untuk mencari hyperlane terbaik yang

    berfungsi sebagai pemisah dua buah kelas pada input

    space. Hyperplane pemisah terbaik antara dua kelas

    adalah hyperplane yang mempunyai margin terbesar.

    Margin adalah jarak antara hyperplane tersebut

    dengan pattern terdekat dari masing-masing kelas.

    Pattern yang paling dekat ini disebut sebagai support

    vector. Ilustrasi dari konsep SVM dapat digambarkan

    pada Gambar 1.

    Data yang tersedia dinotasikan dengan i d,

    sedangkan label atau kelas masing-masing

    dinotasikan dengan yi {-1,+1} untuk i =1,2,...,n, di

    mana n adalah banyaknya data. Permasalahan

    optimasi pada SVM adalah :

    (

    ( )) (2)

    Dengan untuk semua i = 1n dan

    di mana i adalah Langrange

    multiplier untuk setiap data i. C adalah nilai yang

    akan mengontrol relative cost dari tujuan optimasi

    secara keseluruhan.

    Pada permasalahan klasifikasi yang bersifat non

    separable, fungsi kernel k(xi,xj) dapat digantikan

    dengan fungsi yang lain seperti radial basis function

    (RBF) yang memiliki fungsi sebagai berikut :

    ( ) (

    ) (3)

    atau

    ( ) ( ) (4)

    dengan = 1 / 22.

    Teknik SVM digunakan dalam makalah ini

    karena memiliki kelebihan sebagai berikut :

    1. SVM dapat diterapkan pada data yang bertipe nominal namun dengan cara mengubahnya

    menjadi data biner

    2. Performa SVM tidak dipengaruhi oleh dimensi (jumlah atribut atau fitur) dataset, sehingga SVM

    dapat diterapkan untuk memecahkan masalah

    klasifikasi dengan dataset berdimensi tinggi.

    2.3 Pemilihan Parameter Optimal Menggunakan Grid Search

    Parameter yang tepat dapat menambah akurasi

    dari metode SVM. Dalam metode SVM dengan

    menggunakan kernel Radial Basis Function (RBF),

    terdapat dua parameter yaitu C dan Gamma (). Grid Search adalah metode yang digunakan

    untuk mencari parameter yang optimal pada SVM

    dengan RBF kernel. Metode ini bersifat exhaustive.

    Pencarian nilai parameter yang optimal dilakukan

    dalam range atau space tertentu. Dalam makalah ini,

    range parameter yang digunakan adalah C = 2-5

    , 2-3

    215 dan = 2-15, 2-13 23 [14]. Parameter yang optimal adalah pasangan C dan

    yang menghasilkan Cross Validation (CV) rate tertinggi jika dilakukan k-fold Cross Validation pada

    data training.

    Langkah-langkah untuk mendapatkan parameter

    yang optimal dengan menggunakan Grid Search

    dapat dilihat pada Gambar 2 dan secara singkat dapat

    dijelaskan sebagai berikut :

    Menyiapkan Grid Space, C = 2-5, 2-3 215 dan = 2-15, 2-13 23

    Melakukan uji coba klasifikasi untuk tiap-tiap kombinasi C dan

    Mengevaluasi dengan k-fold Cross Validation Parameter yang optimal adalah kombinasi C dan

    yang menghasilkan Cross Validation Rate tertinggi

    2.4 Pemilihan Fitur Menggunakan F Score F Score merupakan salah satu metode pemilihan

    fitur yang sederhana namun efektif dalam

    menentukan fitur-fitur yang diskriminatif [12]. F

    Score memiliki kompleksitas O(nm) di mana n adalah

    jumlah data dan m adalah jumlah fitur.

    F Score dapat mengukur discriminant dua

    himpunan bilangan real. Terdapat vektor data xi, i =

    1,2,. . . , m, jika jumlah data positif dan data negatif

    adalah n+ dan n-, maka F-score fitur i didefinisikan

    sebagai berikut:

    ( ) ( ( ) )

    ( ( ) )

    (

    ( )

    ( ))

    (

    ( )

    ( ))

    (5)

    di mana , ( )

    , ( )

    , adalah rata-rata keseluruhan

    data, rata-rata data positif, rata-rata data negatif dari

    fitur ke-i, ( )

    merupakan fitur ke-i dari data positif

    ke-k, sedangkan ( )

    merupakan fitur ke-i dari data

    negatif ke-k[15].

    Pembilang pada Persamaan 5 merupakan

    diskriminan dari data positif dan negatif, dan

    penyebut dari persamaan tersebut merupakan

    diskriman tiap dua data dalam dataset. Semakin besar

    nilai F Score, fitur tersebut semakin diskriminatif.

    Langkah-langkah pemilihan fitur menggunakan

    F Score dapat dilihat pada Gambar 3. Secara umum

  • SEMA

    NGAT

    4

    Data Mining Contest Gemastik 2011

    ITS Surabaya, 12 13 Oktober 2011

    prosedur pemilihan tersebut dapat dijelaskan sebagai

    berikut :

    Menghitung nilai F Score dari masing-masing fitur

    Memilih sejumlah f fitur dengan fungsi : f = [n/2

    i], i {0, 1, 2, , m} (6)

    di mana m adalah bilangan bulat yang

    memenuhi n/2m 1 [9]

    Mengambil training set T = D k untuk setiap f fitur dalam data set D

    Melakukan Cross Validation Menghitung Cross Validation rate Mengambil sejumlah f fitur yang memiliki nilai

    Cross Validation rate tertinggi

    3 SKENARIO UJI COBA Uji coba dilakukan dengan PC Intel Core i5, 2.3

    GHz, dan 4 GB RAM. Tools yang digunakan adalah

    Weka versi 3.6.5 yang tersedia di website

    http://www.cs.waikato.ac.nz/ml/weka/ dan tambahan

    library libSVM [16] untuk uji coba hybrid SVM.

    3.1 Dataset

    Pada tahap uji coba ini, data yang digunakan

    merupakan data history nasabah dari sebuah bank

    dengan jumlah record sebanyak 416 record. Jumlah

    record yang termasuk kelas SETUJU adalah 185 record. Dan jumlah record yang termasuk dalam

    kelas TOLAK sebanyak 231 record. Dataset ini terdiri dari 15 atribut dan 1 kelas.

    Jumlah atribut yang bertipe kontinu sebanyak 6

    atribut dan jumlah atribut yang bertipe nominal 9

    atribut.

    Siapkan Grid Space (C, )

    Uji coba klasifikasi untuk tiap-

    tiap kombinasi nilai C dan dan lakukan k-fold cross validation

    Hitung nilai Cross

    Validation (CV) rate

    Ambil kombinasi C dan yang menghasilkan CV rate

    tertinggi sebagai parameter

    optimal

    Gambar 2. Prosedur pemilihan parameter yang

    optimal dengan metode Grid Search

    Hitung F Score dari

    masing-maing fitur

    Urutkan fitur

    berdasarkan F Score

    Ambil sejumlah f fitur dengan F Score

    tertinggi untuk uji coba klasifikasi dan

    lakukan k-fold cross validation. Ulangi

    langkah ini dengan nilai f yang berbeda

    Ambil sebanyak f fitur yang menghasilkan CV rate tertinggi

    untuk proses klasifikasi

    Hitung nilai Cross

    Validation (CV) rate

    Gambar 3. Prosedur Pemilihan Fitur dengan F

    Score

    3.2 Preprocessing Tahap preprocessing data dapat dijelaskan

    sebagai berikut :

    a. Replace Missing Values Dalam dataset yang digunakan untuk uji coba

    pada makalah ini, terdapat 7 atribut yang

    mengandung missing value. Missing value

    tersebut akan diisi dengan nilai rata-rata (mean)

    atau modus dari data yang ada pada tiap-tiap

    atribut. Nilai rata-rata digunakan untuk mengisi

    missing value pada atribut yang bertipe kontinu,

    dan nilai modus untuk atribut yang bertipe

    nominal.

    Daftar atribut yang mengandung missing value

    beserta nilai mean atau modus dari atribut

    tersebut dapat dilihat pada Tabel 1.

    b. Nominal To Binary Terdapat 9 atribut yang bertipe nominal dalam

    dataset. Untuk mengubah atribut yang bertipe

    nominal menjadi biner, dapat dilakukan dengan

    cara menghitung jumlah kemungkinan nilai yang

    dapat mengisi atribut tersebut.

    Misal untuk atribut X4, nilai yang mungkin yang

    dapat mengisi atribut X4 adalah 1,2,3, atau 4

    (dapat diketahui dari keterangan yang ada dalam

    dataset). Jadi, jumlah kategori yang mungkin

    mengisi atribut X4 berjumlah empat kategori.

    Sehingga atribut X4 akan dipecah menjadi empat

    atribut yaitu X41, X42, X43, dan X44. Atribut X41

  • SEMA

    NGAT

    Institut Teknologi Sepuluh Nopember, Penentuan Persetujuan Pemberian Kredit Bank Menggunakan

    Metode Hybrid SVM

    5

    sampai dengan X44 ini hanya boleh diisi dengan

    nilai 0 atau 1.

    Untuk atribut nominal yang hanya memiliki dua

    kategori, tidak perlu dipecah menjadi dua atribut.

    Karena atribut tersebut sudah dapat menampung

    nilai 0 atau 1 (nilai biner).

    Atribut-atribut bertipe nominal yang telah diubah

    menjadi biner dapat dilihat pada Tabel 2. Dari

    Tabel 2, dapat dihitung jumlah atribut hasil proses

    Nominal To Binary. Semula jumlah atribut

    nominal adalah 9 atribut. Setelah dilakukan

    proses Nominal To Binary, kesembilan atribut

    tersebut dipecah menjadi 37 atribut. Sehingga saat

    ini dataset terdiri dari 37 atribut ditambah dengan

    6 atribut kontinu, menjadi 43 atribut.

    c. Normlisasi Proses normalisasi hanya dilakukan pada atribut

    yang pertipe kontinu, yaitu atribut X2, X3, X8,

    X11, X14, dan X15.

    Untuk normalisasi X2, nilai minimum dan

    maksimum yang ada pada atribut tersebut harus

    dicari terlebih dahulu.

    Nilai minimum untuk atribut X2 adalah 15,17 dan

    nilai maksimumnya adalah 30,02. Maka untuk

    normalisasi nilai-nilai yang ada pada atribut X2

    dilakukan dengan perhitungan :

    ( )

    dengan xi adalah nilai yang ada pada atribut X2.

    Hal yang sama juga dilakukan untuk atribut

    kontinu yang lain. Dicari terlebih dahulu nilai

    minimum dan maksimumnya, kemudian

    normalisasinya dapat dilakukan dengan

    Persamaan 1.

    3.3 Uji Coba Pemilihan Parameter dengan Grid Search

    Dalam uji coba penentuan parameter yang

    optimal untuk SVM dengan kernel RBF, range nilai

    parameter C dan yang akan diuji coba adalah C = 2-5, 2

    -3 215 dan = 2-15, 2-13 23 [14].

    Gambar 4 merupakan grafik uji coba parameter

    dengan menggunakan Grid Search.

    Tabel 1. Data atribut dengan missing value

    Atribut Jenis

    Jumlah

    Missing

    Value

    Nilai

    Mean

    Nilai

    Modus

    X1 Nominal 3 - 1

    X4 Nominal 2 - 1

    X5 Nominal 2 - 1

    X6 Nominal 2 - 1

    X7 Nominal 2 - 1

    X2 Kontinu 8 30,02 -

    X14 Kontinu 7 183,36 -

    Tabel 2. Hasil proses Nominal To Binary untuk

    atribut bertipe nominal

    Atribut Jumlah

    Kategori

    Hasil Nominal To Binary

    X1 2 X1

    X4 4 X41, X42, X43, X44

    X5 3 X51, X52, X53

    X6 14 X61, X62, X63, X64, X65, X66,

    X67, X68, X69, X610, X611,

    X612, X613, X614

    X7 9 X71, X72, X73, X74, X75, X76,

    X77, X78, X79

    X9 2 X9

    X10 2 X10

    X12 2 X11

    X13 3 X131, X132, X133

    Gambar 4. Uji coba penentuan parameter

    menggunakan Grid Search

    3.4 Uji Coba Pemilihan Fitur Menggunakan F Score

    Karena sebelumnya telah dilakukan

    preprocessing data Nominal To Binary, maka dari

    data semula yang mempunyai 15 atribut berubah

    menjadi 43 atribut. Semua atribut tersebut dihitung

    nilai F Score-nya. Kemudian diurutkan berdasarkan

    nilai F Score tertinggi. Atribut atau fitur yang

    memiliki nilai F Score = 0

    tidak akan diikutkan

    dalam proses berikutnya atau diabaikan.

    Kemungkinan jumlah fitur yang akan dipilih

    adalah sejumlah f fitur dengan f memenuhi fungsi f =

    [n/2i], i {0, 1, 2, , m}, m bilangan bulat yang

    memenuhi n/2m 1 [9].

    Jika jumlah atribut ada 43 dan 3 atribut

    diabaikan karena hanya berisi 0. Sehingga saat ini

    jumlah atribut menjadi 40, maka nilai f yang mungkin

    adalah 40, 20, 10, 5.

    Dari semua kemungkinan nilai f tersebut, akan

    dilakukan uji coba klasifikasi. Sejumlah f fitur yang

    memiliki CV Rate tertinggi akan dipilih sebagai

    atribut. Dan akan digunakan dalam proses

    selanjutnya.

  • SEMA

    NGAT

    6

    Data Mining Contest Gemastik 2011

    ITS Surabaya, 12 13 Oktober 2011

    3.5 Uji Coba Hybrid SVM Proses klasifikasi dilakukan dengan metode

    hybrid SVM dengan data yang didapat dari dua

    proses sebelumnya, yaitu proses pemilihan fitur dan

    optimasi parameter. Dalam proses ini, dilakukan k-

    fold cross validation dengan k = 5, 6, , 10. k-fold cross validation yang menghasilkan nilai akurasi

    paling tinggi akan dipilih sebagai model untuk proses

    prediksi dengan data testing yang baru.

    4 HASIL UJI COBA

    Uji coba pada mulanya dilakukan dengan

    mengklasifikasi data dengan menggunakan SVM,

    dengan parameter default yang terdapat di Weka

    yaitu C = 1 dan = 0, serta jumlah atribut tidak dikurangi. Uji coba ini menghasilkan Cross

    Validation Rate 86,06%.

    4.1 Hasil Uji Coba Pemilihan Parameter Optimal dengan Grid Search

    Telah dilakukan uji coba optimasi parameter

    kernel RBF dengan metode Grid Search yang dapat

    dilihat pada Gambar 4. CV rate tertinggi didapat

    ketika kombinasi C dan bernilai 0,125 dan 0,125 serta k = 6 dengan nilai 88,22 %. Kedua nilai ini

    akan digunakan sebagai parameter SVM dengan

    kernel RBF pada proses selanjutnya.

    4.2 Hasil Uji Coba Pemilihan Fitur menggunakan F SCore

    Proses pemilihan fitur dengan menggunakan F

    Score telah menghasilkan urutan fitur berdasarkan

    nilai F Score nya. Urutan fitur tersebut dapat dilihat

    pada Tabel 3. Semakin besar nilai F Score, fitur

    tersebut semakin diskriminatif.

    Dari Tabel 3, dapat diketahui bahwa terdapat

    tiga fitur dengan nilai F Score = 0. Ketiga fitur

    tersebut tidak akan diikutkan dalam proses

    klasifikasi.

    Dengan data F Score pada Tabel 3, dilakukan

    uji coba klasifikasi menggunkan SVM sebanyak 4

    kali, yaitu dengan jumlah atribut f = 40, 20, 10, dan

    5. Serta dengan parameter RBF kernel C = 0,125, = 0,125. Setelah dilakukan 5-fold cross validation,

    didapatkan hasil CV rate seperti pada Gambar 5.

    Dari Gambar 4, dapat diketahui bahwa f fitur

    dengan CV rate terbaik didapat pada nilai f = 20 dan f

    = 40 yaitu dengan nilai 88,46 %. Jadi, untuk proses

    selanjutnya jumlah fitur yang digunakan adalah 40

    atau 20.

    4.3 Hasil Uji Coba Klasifikasi Menggunakan SVM

    Telah dilakukan uji coba klasifikasi

    menggunakan SVM dengan jumlah fitur 40 dan 20.

    Namun dengan k-fold cross validation yang berbeda-

    beda. Hasil uji coba tersebut dapat dilihat pada

    Gambar 6.

    Dari uji coba klasifikasi data persetujuan

    pemberian kredit dengan metode hybrid SVM, dapat

    diketahui bahwa reduksi jumlah fitur dari 40 fitur

    menjadi 20 dapat menghasilkan akurasi yang tidak

    jauh berbeda. Bahkan pada k = 10 menghasilkan CV

    Rate yang sama, yaitu 88,70%. Model ini selanjutnya

    akan digunakan untuk memprediksi data testing yang

    baru.

    Gambar 5. Grafik CV Rate untuk Pemilihan f

    Jumlah Fitur Terbaik

    Gambar 6. Grafik CV Rate Klasifikasi dengan

    Jumlah Fitur 40

    4.4 Perbandiangan dengan Metode Lain Pada tahap ini, dilakukan uji coba untuk

    membandingkan performa hybrid SVM dengan

    beberapa metode data mining lainnya. Hasil uji coba

    perbandingan performa metode dapat dilihat pada

    Tabel 4.

    Dari Tabel 4 dapat diketahui bahwa hybrid

    SVM memiliki tingkat akurasi yang paling tinggi

    dibanding keempat metode lainnya, dan hybrid SVM

    membutuhkan waktu yang singkat untuk melakukan

    proses klasifikasi dibanding beberapa metode

    lainnya.

  • SEMA

    NGAT

    Institut Teknologi Sepuluh Nopember, Penentuan Persetujuan Pemberian Kredit Bank Menggunakan

    Metode Hybrid SVM

    7

    Tabel 3. Nilai F Score Tiap-tiap Fitur

    No Atribut F Score No Atribut F Score

    1 X9 1,202195 23 X12 0,007038

    2 X10 0,311402 24 X64 0,005934

    3 X11 0,209408 25 X66 0,005934

    4 X8 0,141035 26 X71 0,003675

    5 X72 0,070294 27 X61 0,003166

    6 X3 0,057741 28 X65 0,003019

    7 X614 0,048 29 X74 0,002959

    8 X78 0,046893 30 X1 0,002446

    9 X52 0,04669 31 X75 0,001934

    10 X69 0,040144 32 X79 0,001934

    11 X15 0,038311 33 X610 0,001875

    12 X63 0,038241 34 X76 0,001189

    13 X42 0,037798 35 X9 0,0009

    14 X52 0,037798 36 X132 0,000365

    15 X41 0,037798 37 X73 0,000155

    16 X51 0,037798 38 X612 0,000116

    17 X131 0,028412 39 X68 0,00006

    18 X133 0,028363 40 X67 0,000023

    19 X14 0,024508 41 X43 0

    20 X611 0,020738 42 X44 0

    21 X77 0,007836 43 X53 0

    22 X62 0,007815

    Tabel 4. Hasil Uji Coba Perbandingan Metode

    Metode Akurasi

    (%)

    Rata-rata Waktu

    Komputasi

    (detik)

    ANN 86,06 3,64

    C45 / J48 85,34 0,19

    Hybrid SVM 88,71 0,24

    Nave Bayes 82,93 0,03

    SVM 86,06 0,14

    5 KESIMPULAN

    Klasifikasi menggunakan hybrid SVM yang

    dilakukan dengan cara pemilihan parameter yang

    optimal dan pemilihan fitur terlebih dahulu dapat

    menambah akurasi hasil klasifikasi. Dari hasil uji

    coba, diketahui bahwa akurasi atau CV Rate pada uji

    coba dengan menggunakan SVM lebih kecil dari

    klasifikasi menggunakan hybrid SVM. Pada SVM

    didapatkan CV 86,06%, sedangkan pada hybrid

    SVM didapatkan 88,70%.

    Perbedaan akurasi walaupun hanya 1% akan

    sangat berpengaruh pada kondisi bank, karena hal ini

    berhubungan dengan kemungkinan pengembalian

    uang pinjaman oleh nasabah kepada bank.

    Namun, dengan adanya reduksi fitur

    dikhawatirkan akan mengakibatkan terjadinya over

    fitting. Model akan menghasilkan akurasi yang tinggi

    pada data training, namun tidak dapat melakukan

    prediksi dengan tepat pada data testing. Perlu

    dilakukan penelitian lebih lanjut tentang efek reduksi

    fitur.

    6 DAFTAR PUSTAKA

    [1] Anonim. 2011. Kredit (Keuangan),

    [2] ns/NS/vbn-dtc. 2011. Kredit Macet Perbankan Mencapai Rp 31,336 Triliun,

    [3] Reichert, A. K., Cho, C. C., Wagner, G. M. 1983. An Examination of The Conceptual Issues Involved in Developing Credit-scoring

    Models. Journal of Business and Economic Statistics 1, 2:101114.

    [4] Henley, W. E. 1995. Statistical Aspects of Credit Scoring. Dissertation. The Open University, Milton Keynes, UK.

    [5] Henley, W. E., Hand, D. J. 1996. A k-nearest Neighbor Classifier for Assessing Consumer

    Credit risk. Statistician 44, 1:7795. [6] Davis, R. H., Edelman, D. B., & Gammerman,

    A. J. 1992. Machine Learning Algorithms for Credit-card Applications. Journal of Mathematics Applied in Business and

    Industry 4:4351. [7] Desai, V. S., Crook, J. N., & Overstreet, G. A.

    1996). A Comparison of Neural Networks and Linear Scoring Models in The Credit Union

    Environment. European Journal of Operational Research. 95, 1:2437.

    [8] The comparisons of data mining techniques for the predictive accuracy of probability of default

    of credit card clients, I cheng yeh

    [9] Huang, C., Chen, M., Wang, C. 2006. "Credit Scoring with a Data Mining Approach based on

    Support Vector Machines". Expert Systems

    with Applications 33, 847-856.

    [10] Belotti, T, Crook J. 2008. Support Vector Machines For credit Scoring and Discovery of

    Significant Features. Expert Systems with Applications 36, 3302-3308

    [11] Zhang, G. P. 2000. Neural Networks for Classification: A survey. IEEE Transactions on Systems, Man, and Cybernetics Part C: Applications and Reviews 30, 4:451462.

    [12] Zhang, X., Zhong, S. 2009. Blind Steganalysis Method for bmp Images based on Statistical

    mwcf and f-score Method. Proceedings of the

  • SEMA

    NGAT

    8

    Data Mining Contest Gemastik 2011

    ITS Surabaya, 12 13 Oktober 2011

    2009 International Conference on Wavelet

    Analysis and Pattern Recognition. Baoding

    2009.

    [13] Hsieh, N. C. 2005. Hybrid Mining Approach in The Design of Credit Scoring Models . Expert Systems with Applications. 28, 4:655665.

    [14] Hsu, C. W., Chang, C. C., & Lin, C. J. 2003. A

    Practical Guide to Support Vector

    Classification,

    [15] Chen, Y.-W., & Lin, C.-J. 2005. Combining

    SVMs with Various Feature Selection

    Strategies,

    [16] Chang, C. C., & Lin, C. J. 2001. LIBSVM: a Library for Support Vector Machines,