library.binus.ac.idlibrary.binus.ac.id/ecolls/ethesisdoc/bab2doc/2012-1... · web viewproses metode...

24
BAB 2 Landasan Teori 2.1 Pengertian Data Mining Menurut Han dan Kamber (2011:6) menjelaskan bahwa “Data Mining merupakan pemilihan atau “menggali” pengetahuan dari jumlah data yang banyak.” Berbeda dengan Segall, Guha & Nonis (2008:127) menjelaskan Data Mining disebut penemuan pengetahuan atau menemukan pola yang tersembunyi dalam data. Data mining adalah proses menganalisis data dari perspektif yang berbeda dan meringkas menjadi informasi yang berguna”. Bisa disimpulkan Data mining adalah Proses menganalisis data yang banyak dan membuat suatu pola untuk menjadi informasi yang berguna. 2.2 Cross industry Standard Process for Data Mining (CRISP– DM) 5

Upload: vukhue

Post on 30-Jul-2019

236 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2DOC/2012-1... · Web viewProses metode ini menggunakan algoritma decision tree, seperti algoritma ID3, C4.5, dan cart

BAB 2

Landasan Teori

2.1 Pengertian Data Mining

Menurut Han dan Kamber (2011:6) menjelaskan bahwa “Data Mining

merupakan pemilihan atau “menggali” pengetahuan dari jumlah data yang

banyak.” Berbeda dengan Segall, Guha & Nonis (2008:127) menjelaskan

“Data Mining disebut penemuan pengetahuan atau menemukan pola yang

tersembunyi dalam data. Data mining adalah proses menganalisis data dari

perspektif yang berbeda dan meringkas menjadi informasi yang berguna”. Bisa

disimpulkan Data mining adalah Proses menganalisis data yang banyak dan

membuat suatu pola untuk menjadi informasi yang berguna.

2.2 Cross industry Standard Process for Data Mining (CRISP– DM)

Dalam jurnal “Identifying Bank Frauds Using CRISP-DM and

Decision trees” oleh Da Rocha & Timóteo (2010) mengatakan “metodologi

Cross Industri Standard Process for Data Mining (CRISP-DM) telah banyak

digunakan dalam industri oleh para ahli saat ini sebagai salah satu proses data

mining untuk memecahkan suatu masalah”. Metodologi ini terdiri dari enam

tahap proses siklus. Metodologi ini membuat data mining yang besar dapat

dilakukan dengan lebih cepat, lebih ekonomis, dan mudah untuk diatur.

Bahkan, data mining yang berukuran kecil pun dapat memperoleh

5

Page 2: library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2DOC/2012-1... · Web viewProses metode ini menggunakan algoritma decision tree, seperti algoritma ID3, C4.5, dan cart

keuntungan dari CRISP-DM (Olson & Delen, 2008:9). Berikut adalah enam

tahap yang disebut sebagai siklus:

1. Business understanding

Business understanding meliputi penentuan tujuan bisnis, menilai

situasi saat ini, menetapkan tujuan data mining, dan mengembangkan

rencana proyek.

2. Data understanding

Setelah tujuan bisnis dan rencana proyek ditetapkan, Data

understanding mempertimbangkan persyaratan data. Langkah ini

dapat mencakup pengumpulan data awal, deskripsi data, eksplorasi

data, dan verifikasi data yang berkualitas.

3. Data preparation

Setelah sumber data telah tersedia untuk diidentifikasi. Data tersebut

perlu untuk dipilih, dibersihkan, dibangun ke dalam model yang

diinginkan, dan diformat. Pembersihan data dan transformasi data

dalam penyusunan pemodelan data perlu terjadi di tahap ini.

Gambar 2.1 Greedy (heuristic) methods for attribute subset selection.

Sumber: (Han & Kamber, 2011, p104)

6

Page 3: library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2DOC/2012-1... · Web viewProses metode ini menggunakan algoritma decision tree, seperti algoritma ID3, C4.5, dan cart

Terdapat beberapa teknik dalam mengolah data seperti Data

Transformation, Data Reduction dan Data Cleaning, diantaranya :

Generalization

Mengubah data atribut low level menjadi atribut high level,

contoh : atribut numerical menjadi ordinal.

Attribute construction

Penambahan atribut baru untuk kepentingan proses mining.

Attribute subset selection

Attribute subset selection dilakukan untuk pemilihan atribut

yang menjadi atribut predictor. Ada 4 metode yang dapat

digunakan dalam melakukan attribute subset selection, yaitu :

a. Stepwise forward selection

Proses metode ini adalah untuk mencari atribut terbaik dari

seluruh data set dan di masukkan ke dalam data set baru

berdasarkan atribut terbaik yang telah dipilih.

b. Stepwise backward elimination

Proses metode ini adalah untuk mencari atribut yang tidak

berkaitan dengan data mining yang dicari, lalu langsung

menghapusnya dari data set.

c. Combination of forward selection and backward

elimination

Proses metode ini adalah penggabungan dari metode

stepwise forward selection dan stepwise backward

elimination.

7

Page 4: library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2DOC/2012-1... · Web viewProses metode ini menggunakan algoritma decision tree, seperti algoritma ID3, C4.5, dan cart

d. Decision tree induction

Proses metode ini menggunakan algoritma decision tree,

seperti algoritma ID3, C4.5, dan cart dalam mencari atribut

yang terbaik.

Missing Value

Nilai null yang terdapat dalam data set dapat mengganggu

pembuatan mining yang dilakukan. Ada 6 metode yang dapat

digunakan dalam mengolah nilai null yang terdapat dalam

data, yaitu :

a. Ignore the tuple: tidak menggunakan tuple yang memiliki

nilai null.

b. Fill in the missing value manually: mengisi sendiri nilai

null yang terdapat dalam data.

c. Use global constant to fill in the missing value: mengganti

nilai null dengan label constant, seperti “Unknown”.

d. Use the attribute mean to fill in the missing value:

mengganti nilai null dengan rata-rata yang dimiliki atribut.

e. Use the attribute mean for all samples belonging to the

same class the given tuple: mengganti nilai null dengan

nilai rata-rata yang dimilik atribut berdasarkan target kelas

yang dicari.

f. Use the most probable value to fill in the missing value:

mengganti nilai null dengan nilai yang paling mungkin

muncul berdasarkan atribut target kelas yang dicari.

8

Page 5: library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2DOC/2012-1... · Web viewProses metode ini menggunakan algoritma decision tree, seperti algoritma ID3, C4.5, dan cart

4. Modeling

Tujuan dari pemodelan data mining adalah untuk mencari hasil dari

berbagai situasi yang ada. Alat perangkat lunak untuk data mining

seperti visualisasi (mensplit data dan membangun hubungan) dan

analisis kluster (untuk mengidentifikasikan variable berjalan dengan

baik secara bersamaan) dapat berguna untuk analisis awal model yang

akan digunakan. Pembagian data ke dalam set pelatihan dan pengujian

juga diperlukan untuk pemodelan.

5. Evaluation

Hasil model harus dievaluasi sesuai tujuan bisnis pada tahap pertama

(pemahaman bisnis). Evaluasi dilakukan dari hasil visualisasi dan

perhitungan statistik pengujian berdasarkan pemodelan yang dibuat.

Pada akhir dari tahap ini, keputusan penggunaan hasil data mining

telah ditentukan.

6. Deployment

Pembuatan dari model bukanlah akhir dari projek data mining.

Meskipun tujuan dari pemodelan adalah untuk meningkatkan

pengetahuan dari data, pengetahuan data tersebut perlu dibangun

dengan terorganisasi dan dibuat pada satu bentuk yang dapat

digunakan oleh pengguna.

9

Page 6: library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2DOC/2012-1... · Web viewProses metode ini menggunakan algoritma decision tree, seperti algoritma ID3, C4.5, dan cart

Gambar 2.2 CRISP-DM process

Sumber: (Olson & Delen, 2008, p10)

2.3 Fungsi Data Mining

Banyak fungsi data mining yang dapat digunakan. Dalam kasus tertentu

fungsi data mining dapat digabungkan untuk menjawab masalah yang dihadapi

(Maclennan, Tang, & Crivat, 2009, 6). Berikut adalah fungsi data mining

secara umum :

1. Classification

Fungsi dari Classification adalah untuk mengklasifikasikan suatu target

class ke dalam kategori yang dipilih.

Gambar 2.3 Classification - Decision Tree

Sumber: (Maclennan, Tang, & Crivat, 2009, p7)

10

Page 7: library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2DOC/2012-1... · Web viewProses metode ini menggunakan algoritma decision tree, seperti algoritma ID3, C4.5, dan cart

2. Clustering

Fungsi dari clustering adalah untuk mencari pengelompokan atribut ke

dalam segmentasi-segmentasi berdasarkan similaritas.

Gambar 2.4 Clustering

Sumber: (Maclennan, Tang, & Crivat, 2009, p7)

3. Association

Fungsi dari association adalah untuk mencari keterkaitan antara atribut

atau item set, berdasarkan jumlah item yang muncul dan rule association

yang ada.

Gambar 2.5 Product Association

Sumber: (Maclennan, Tang, & Crivat, 2009, p7)

4. Regression

Fungsi dari regression hampir mirip dengan klasifikasi. Fungsi dari

regression adalah bertujuan untuk mencari prediksi dari suatu pola yang

ada.

11

Page 8: library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2DOC/2012-1... · Web viewProses metode ini menggunakan algoritma decision tree, seperti algoritma ID3, C4.5, dan cart

5. Forecasting

Fungsi dari forecasting adalah untuk peramalan waktu yang akan datang

berdasarkan trend yang telah terjadi di waktu sebelumnya.

Gambar 2.6 Time Series

Sumber: (Maclennan, Tang, & Crivat, 2009, p8)

6. Sequence Analysis

Fungsi dari sequence analysis adalah untuk mencari pola urutan dari

rangkaian kejadian.

Gambar 2.7 Web Navigation Sequence

Sumber: (Maclennan, Tang, & Crivat, 2009, p9)

7. Deviation Analysis

Fungsi dari devation analysis adalah untuk mencari kejadian langka yang

sangat berbeda dari keadaan normal (kejadian abnormal).

12

Page 9: library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2DOC/2012-1... · Web viewProses metode ini menggunakan algoritma decision tree, seperti algoritma ID3, C4.5, dan cart

2.4 Credit Scoring

Credit scoring atau penilaian kredit adalah sistem cara yang digunakan

oleh bank atau lembaga pembiayaan lainnya yang berguna untuk menentukan

apakah seorang pemohon kredit itu layak atau tidak mendapatkan pinjaman.

Menurut Anderson (2007:6) Credit Scoring yaitu “it is the use of

statistical models to transform relevant data into numerical measures that

guide credit decisions” yang artinya penggunaan model statistik untuk

mengubah data yang relevan ke dalam ukuran numerik yang menuntun

keputusan kredit. Beda halnya dengan pendapat Mylonakis & Diacogiannis

(2010:9) “Credit Scoring adalah metode mengevaluasi risiko kredit dari

pemohon dan memprediksi perilaku konsumen di masa mendatang, apakah

mereka akan default atau menunggak”. Terdapat bermacam-macam jenis credit

scoring berdasarkan dari kategori resiko dan tugasnya. Menurut Anderson

(2007:310) menjelaskan bahwa terdapat 4 macam jenis credit scoring, yaitu :

1. Application scoring

Application Scoring dilakukan untuk penilain dasar pengambilan

keputusan dalam penetuan pemohon kredit, apakah pemohon tersebut

layak atau tidak diberikan kredit.

2. Behavioural scoring

Behavioral scoring dilakukan untuk penilaian yang memfokuskan

terhadap hasil dari perilaku pelaku kredit yang telah diterima

permohonan kreditnya.

3. Customer scoring

Customer Scoring dilakukan untuk penilain terhadap pencarian potensi

yang dimiliki oleh pelaku kredit.

13

Page 10: library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2DOC/2012-1... · Web viewProses metode ini menggunakan algoritma decision tree, seperti algoritma ID3, C4.5, dan cart

4. Collections scoring

Collections scoring dilakukan untuk penilain terhadap pelaku kredit pada

saat terjadinya penagihan kredit oleh lembaga keuangan.

2.5 Naive Bayes

Naïve Bayes merupakan pengklasifikasian dengan metode probabilitas

dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu

memprediksi peluang di masa depan berdasarkan pengalaman di masa

sebelumnya sehingga dikenal sebagai Teorema Bayes. Menurut Olson dan

Delen (2008:102) menjelaskan Naïve bayes untuk setiap kelas keputusan,

menghitung probabilitas dengan syarat bahwa kelas keputusan adalah benar,

mengingat vektor informasi obyek. Algoritma ini mengasumsikan bahwa

atribut obyek adalah independen. Probabilitas yang terlibat dalam

memproduksi perkiraan akhir dihitung sebagai jumlah frekuensi dari "master"

tabel keputusan.

The Naive Bayes Classifier bekerja sangat baik dibanding dengan

model classifier lainnya. Hal ini dibuktikan oleh Xhemali, Hinde dan Stone

dalam jurnalnya “Naïve Bayes vs. Decision Trees vs. Neural Networks in the

Classification of Training Web Pages” mengatakan bahwa “Naïve Bayes

Classifier memiliki tingkat akurasi yang lebih baik dibanding model classifier

lainnya”.

Table 2.1 Result of measure

Classifier Accuracy Precision Recall F-Measure

NB Classifier 95.20% 99.37% 95.23% 97.26%

DT Classifier 94.85% 98.31% 95.90% 97.09%

14

Page 11: library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2DOC/2012-1... · Web viewProses metode ini menggunakan algoritma decision tree, seperti algoritma ID3, C4.5, dan cart

Dalam jurnal “Credit Scoring Model Based on Simple Naive Bayesian

Classifier and a Rough Set” oleh Jiang juga mengatakan “Untuk membangun

model credit scoring menggunakkan pendekatan baru dengan sintesis

sederhana Naive Bayesian classifier (SNBC) dan teori himpunan”.

Dalam jurnal “A Proposed Classification of Data Mining Techniques in

Credit Scoring” oleh Keramati mengatakan “ingin memperkenalkan metode

data mining dalam masalah credit scoring menggunakan classification”.

Menurut Han dan Kamber (2011:351) Proses dari The Naïve Bayesian

classifier, atau Simple Bayesian Classifier, sebagai berikut:

1. Variable D menjadi pelatihan set tuple dan label yang terkait dengan

kelas. Seperti biasa, setiap tuple diwakili oleh vektor atribut n-dimensi, X

= (x1, x2, ..., xn), ini menggambarkan pengukuran n dibuat pada tuple dari

atribut n, masing-masing, A1, A2, ..., An.

2. Misalkan ada kelas m, C1, C2, ..., Cm. Diberi sebuah tuple, X, classifier

akan memprediksi X yang masuk kelompok memiliki probabilitas

posterior tertinggi, kondisi-disebutkan pada X. Artinya, classifier naive

bayesian memprediksi bahwa X tuple milik kelas Ci jika dan hanya jika :

(2.1)

Jadi memaksimalkan P (Ci | X). Ci kelas yang P (Ci | X) dimaksimalkan

disebut hipotesis posteriori maksimal. Dengan teorema Bayes :

(2.2)

15

Page 12: library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2DOC/2012-1... · Web viewProses metode ini menggunakan algoritma decision tree, seperti algoritma ID3, C4.5, dan cart

Keterangan :

P(Ci|X) = Probabilitas hipotesis Ci jika diberikan fakta atau record X

(Posterior probability)

P(X|Ci) = mencari nilai parameter yang memberi kemungkinan yang

paling besar (likelihood)

P(Ci) = Prior probability dari X (Prior probability)

P(X) = Jumlah probability tuple yg muncul

3. Ketika P (X) adalah konstan untuk semua kelas, hanya P (X | Ci) P (Ci)

butuh dimaksimalkan. Jika probabilitas kelas sebelumnya tidak diketahui,

maka umumnya diasumsikan ke dalam kelas yang sama, yaitu, P (C1) = P

(C2) = · · · = P (Cm), maka dari itu akan memaksimalkan P (X | Ci). Jika

tidak, maka akan memaksimalkan P (X | Ci) P (Ci). Perhatikan bahwa

probabilitas sebelum kelas dapat diperkirakan oleh P (Ci) = | Ci, D | / | D |,

dimana | Ci, D | adalah jumlah tuple pelatihan kelas Ci di D.

4. Mengingat dataset mempunyai banyak atribut, maka akan sangat sulit

dalam mengkomputasi untuk menghitung P(X|Ci). Agar dapat

mengurangi perhitungan dalam mengevaluasi P(X|Ci), asumsi naïve

independensi kelas bersyarat dibuat. Dianggap bahwa nilai-nilai dari

atribut adalah kondisional independen satu sama lain, diberikan kelas

label dari tuple (yaitu bahwa tidak ada hubungan ketergantungan diantara

atribut ) dengan demikian :

(2.3)

Maka dapat dengan mudah memperkirakan probabilitas P (x1 | Ci), P (x2 |

Ci),. . . , P (xn | Ci) dari pelatihan tuple. Ingat bahwa di sini xk mengacu

16

Page 13: library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2DOC/2012-1... · Web viewProses metode ini menggunakan algoritma decision tree, seperti algoritma ID3, C4.5, dan cart

pada nilai atribut Ak untuk tuple X. Untuk setiap atribut, dilihat dari

apakah atribut tersebut kategorikal atau continuous-valued . Misalnya,

untuk menghitung P (X | Ci) mempertimbangkan hal-hal berikut:

a) Jika Ak adalah kategorikal, maka P (Xk | Ci) adalah jumlah tuple

kelas Ci di D memiliki nilai Xk untuk atribut Ak, dibagi dengan |

Ci, D |, jumlah tuple kelas Ci di D.

b) Jika Ak continuous-valued , maka perlu melakukan sedikit lebih

banyak pekerjaan, tapi perhitunganya cukup sederhana. Sebuah

atribut continuous-valued biasanya diasumsikan memiliki

distribusi Gaussian dengan rata-rata μ dan standar deviasi σ,

didefinisikan oleh

(2.4)

sehingga :

(2.5)

Setelah itu hitung μCi dan σCi, yang merupakan deviasi mean (rata-rata)

dan standar masing-masing nilai atribut Ak untuk tuple pelatihan kelas Ci.

Setelah itu gunakan kedua kuantitas dalam Persamaan, bersama-sama

dengan xk, untuk memperkirakan P (xk | Ci).

5. Untuk memprediksi label kelas x, P(X|Ci)P(Ci) dievaluasi untuk setiap

kelas Ci. Classifier memprediksi kelas label dari tuple x adalah kelas Ci,

jika

(2.6)

Dengan kata lain, label kelas diprediksi adalah Ci yang mana P (X | Ci) P

(Ci) adalah maksimal.

17

Page 14: library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2DOC/2012-1... · Web viewProses metode ini menggunakan algoritma decision tree, seperti algoritma ID3, C4.5, dan cart

Pengklasifikasi Bayesian memiliki tingkat kesalahan minimal

dibandingkan dengan klasifikasi lainnya. Namun, dalam prakteknya hal

ini tidak selalu terjadi, karena ketidakakuratan asumsi yang dibuat untuk

penggunaannya, seperti kondisi kelas independen, dan kurangnya data

probabilitas yang tersedia.

Pengklasifikasi Bayesian juga berguna dalam memberikan pembenaran

teoritis untuk pengklasifikasi lain yang tidak secara eksplisit

menggunakan teorema Bayes.

2.6 Holdout Method

Dalam metode ini, data yang diberikan secara acak dibagi menjadi dua set

independen yaitu training set dan test tes. Biasanya, dua-pertiga dari data yang

dialokasikan untuk training set, dan sisanya sepertiga dialokasikan untuk test

set. Training set digunakan untuk memperoleh model. Test set digunakan untuk

menghitung akurasi model yang telah dibuat (Han & Kamber, 2011:370).

Dalam jurnal ilmiah Computers in Biology and Medicine yang berjudul

“Diagnosis of breast cancer using Bayesian networks”, penelitian tersebut

menggunakan holdout method untuk membuat pemodelan naïve bayes, dimana

data training berjumlah 67% dan data testing sebesar 33%.

Gambar 2.8 Estimating accuracy with the holdout method

Sumber: (Han & Kamber, 2011, p370)

2.7 Evaluasi kinerja Classifier

18

Page 15: library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2DOC/2012-1... · Web viewProses metode ini menggunakan algoritma decision tree, seperti algoritma ID3, C4.5, dan cart

Menurut Han dan Kamber (2011:365) Confusion matrix adalah alat yang

berguna untuk menganalisis seberapa baik classifier mengenali tuple dari kelas

yang berbeda. TP dan TN memberikan informasi ketika classifier benar,

sedangkan FP dan FN memberitahu ketika classifier salah. Contoh gambar

Confusion matrix ditunjukan pada gambar 2.8.

Gambar 2.9 The Confusion Matrix menampilkan total positive dan negative tuple

Sumber: (Han & Kamber, 2011, p366)

Langkah sensitivity dan specificity dapat digunakan untuk

pengklasifikasian akurasi. Sensitivity dapat ditunjuk sebagai true positives

(recognition) rate (proporsi dari tuple positif yang diidentifikasi dengan benar).

Sedangakan specificity adalah true negatives rate (proporsi tuple negatif yang

diidentifikasi secara benar).

(2.7)

(2.8)

Hal ini dapat menunjukkan bahwa akurasi adalah fungsi sensitivitas dan

spesifisitas:

(2.9)

Ukuran tingkat kesalahan klasifikasi juga dapat dihitung dengan mencari Error

Rate:

19

Page 16: library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2DOC/2012-1... · Web viewProses metode ini menggunakan algoritma decision tree, seperti algoritma ID3, C4.5, dan cart

atau Error rate = 1 – Accuracy (2.10)

2.8 Kerangka Pikiran Data Mining dan Application Scoring

Pada penelitian ini, menggunakan metode studi lapangan dan studi

pustaka untuk mendapatkan data dan informasi yang terkait dengan topik

skripsi ini. Setelah mendapatkan data set dari Bank Rakyat Indonesia, Data set

tersebut diproses menggunakan tehnik Data Preprocessing. Data yang telah

selesai diproses akan dibuat pemodelan dengan menggunakan model naïve

bayes. Dan hasilnya akan di tentukan apakah pemohon tersebut masuk ke

kategori approve atau reject. Tingkat ukuran ketepatan dapat dihitung untuk

menentukan kelayakan model yang dibuat. Indicator, Proposed, Objectives,

dan Measurement mengacu dengan metode CRISP-DM yang ditunjukkan pada

gambar 2.10.

CRISP-DM

Indicator Proposed Objectives Measurement

Gambar 2.10 Kerangka Pikiran Data Mining dan Application Scoring

20

Data Preprocessing“BRI-SCORING”

“BRI-SCORING

”Data Set

Naïve Bayes

Model Result(App-Status :

Approve/Reject)

SensitivitySpecificityAccuracyError Rate

Studi lapangan: Survei,

wawancara, dan observasi

Studi pustaka: buku literature, tesis dan jurnal