contoh penulisan metodologi penelitian bab 1 dan 2

34
METODOLOGI PENELITIAN PREDIKSI RISIKO KREDIT NASABAH PERBANKAN MENGGUNAKAN DATA MINING ALGORITMA BAYESIAN CLASSIFICATIONNama : ROSA D. S. A. BIDA NIM : 1106082008 ILMU KOMPUTER FAKULTAS SAINS DAN TEKNIK

Upload: deoaburame27

Post on 01-Oct-2015

111 views

Category:

Documents


11 download

TRANSCRIPT

METODOLOGI PENELITIANPREDIKSI RISIKO KREDIT NASABAH PERBANKAN MENGGUNAKAN DATA MINING ALGORITMA BAYESIAN CLASSIFICATION

Nama :ROSA D. S. A. BIDA NIM:1106082008

ILMU KOMPUTERFAKULTAS SAINS DAN TEKNIKUNIVERSITAS NUSA CENDANA2013/2014

BAB IPENDAHULUAN

1.1 Latar BelakangPerbankan merupakan perusahaan yang dalam kegiatannya berhubungan langsung dengan masyarakat. Salah satu kegiatan perbankan yang berhubungan langsung dengan masyarakat adalah pemberian kredit. Pemberian kredit merupakan kegiatan usaha yang mengandung risiko tinggi dan berpengaruh terhadap keberlangsungan usaha perbankan. Saat nasabah melakukan pengajuan kredit, pihak perbankan tidak memenfaatkan data-data kredit nasabah sebelumya sehingga sering terjadi kredit macet.Data mining adalah suatu proses yang digunakan untuk mencari informasi dan pengetahuan yang berguna, yang diperoleh dari data-data yang dimiliki. Data mining mampu memanfaatkan aset penting perusahaan berupa data bisnis yang jumlahnya sangat besar sehingga dapat menghasilkan informasi yang belum pernah terpelajari sebelumnya. Dalam kasus pemberian kredit, perbankan dapat memenfaatkan data-data kredit nasabah sebelumnya untuk menganalisa risiko kredit dari pengajuan kredit nasabah saat ini. Algoritma yang dapat digunakan adalah algoritma klasifikasi data mining diantaranya SVM (Support Vector Machine), association rule, bayesian classification, decision tree, dan k nearest neighbors. Suatu algoritma yang dianggap paling baik pada proses klasifikasi suatu permasalahan belum tentu baik juga untuk memecahkan permasalahan yang lain. Berdasarkan penelitian yang pernah dilakukan sebelumnya, didapat hasil tidak ada algoritma yang paling baik untuk diterapkan pada setiap permasalahan yang berbeda. Untuk mendapatkan hasil prediksi risiko kredit yang paling akurat pada kasus ini, dicoba melakukan penelitian menggunakan algoritma bayesian classification yang dinilai sesuai karena bayesian classification merupakan salah satu algoritma klasifikasi yang sederhana namun memiliki kemampuan dan akurasi tinggi (Rish, 2006).

1.2 Rumusan MasalahBerdasarkan latar belakang dan permasalahan yang ada, maka dapat dirumuskan beberapa masalah sebagai berikut:1. Bagaimana memprediksi risiko kredit yang diajukan nasabah pada perusahaan perbankan dengan menggunakan data mining algoritma bayesian classification?2. Apakah prediksi risiko kredit yang dihasilkan dengan algoritma bayesian classification memiliki tingkat akurasi yang tinggi?

1.3 Batasan MasalahBatasan masalah pada penelitian ini antara lain:1. Parameter yang digunakan dalam penelitian ini terdiri atas: pekerjaan, jaminan, penghasilan, dan besar pinjaman.2. Metode yang digunakan dalam penelitian ini adalah algoritma bayesian classification.3. Output dari penelitian ini adalah risiko kredit dan dari 5 kriteria penggolongan kualitas kredit berdasarkan SK Direksi BI NO.31/147/KEP/DIR tanggal 12 November 1998, dalam penelitian ini digunakan 2 kriteria yaitu kredit lancar dan kredit tidak lancar.

1.4 Tujuan PenelitianTujuan dari Penelitian ini adalah untuk menghasilkan aplikasi pediksi kredit yang dapat dijadikan pertimbangan untuk membantu pihak perbankan dalam menyeleksi pengajuan kredit nasabah sehingga menghindari kesalahan dalam penerimaan pengajuan kredit dari nasabah yang berisiko tidak dapat melunasi kreditnya.

1.5 Manfaat PenelitianAdapun beberapa manfaat yang diharapkan pada penelitian ini adalah:

1. Bagi PenulisPenulis dapat lebih mengetahui cara menerapkan ilmu-ilmu yang telah dipelajari selama ini dalam merancang dan membuat aplikasi menggunakan data mining algoritma bayesian classification.2. Bagi Perusahaan PerbankanDiharapkan dengan adanya aplikasi ini dapat membantu pengambil keputusan untuk memberikan kredit pada nasabah yang tepat sehingga tidak menimbulkan permasalahan di kemudian hari.

1.6 Tinjauan Pustaka Penelitian mengenai prediksi risiko pemberian kredit telah banyak dilakukan oleh para peneliti sebelumnya. Hal ini tidak terlepas dari manfaat yang diperoleh yaitu membantu mengantisipasi permasalahan dikemudiaan hari. Nugroho(2013) dalam jurnal Case Based Reasoning untuk Kelayakan Kredit Sepeda Motor menyelesaikan masalahnya menggunakan metode fuzzy yang digabungkan dengan metode naive bayes dalam membangun sistem Case Based Reasoning (CBR). Kadir (2010) dalam jurnalnya Perbandingan Performansi Algoritma Decision Tree CART dan CHAID, menggunakan 11 variabel predictor dalam menyelesaikan kasus prediksi status resiko kredit bank melalui credit scoring. Rahayu (2012) dalam jurnalnya Analisis Klasifikasi Kredit Menggunakan Metode Newton Truncated-Kernel Logistic Regression (NTR-KLR) menyelesaikan permasalahannya menggunakan 29 variabel prediktor. Rangkuman dari penelitian yang telah dilakukan sebelumnya mengenai prediksi risiko kredit dapat dilihat pada tabel 1.1.

Tabel 1.1 Tinjauan pustakaNoNama PenelitiJudul Penelitian dan TahunMetodeHasil Penelitian

1.Henry Nugroho Case Based Reasoning untuk Kelayakan Kredit Sepeda Motor (2013)fuzzy dan naive bayesDengan menggunakan metode fuzzy yang digabungkan dengan metode naive bayes dalam membangun sistem Case Based Reasoning (CBR) didapat hasil akurasi 85 %.

2.Mohamad Abdul KadirPerbandingan Performansi Algoritma Decision Tree CART dan CHAID (2010)Decision Tree CART dan CHAIDDalam kasus prediksi status resiko kredit bank melalui credit scoring, set data terdiri dari 11 variabel predictor dan didapat hasil keakuratan rata-rata Algoritma CART sebesar 87,28% dan standar deviasi 1,51 sedangkan CHAID rata-rata sebesar 87,15% dan standar deviasi 2,19.

3.Liya Misdiati dan Santi Puteri RahayuAnalisis Klasifikasi Kredit Menggunakan Metode Newton Truncated-Kernel Logistic Regression (NTR-KLR) (2012)Newton Truncated-Kernel Logistic Regression (NTR-KLR)Variabel prediktor yang digunakan terdiri 29 variabel. Pemodelan NTRKLR pada data Bank X diwakili oleh satu data testing pada fold pertama memberikan total akurasi klasifikasi sebesar 82,61%. Sebagai pembanding digunakan pula metode NTR-RLR dalam pengklasifikasian dengan total akurasi yang dihasilkan sebesar 80,43%.

1.7 Keaslian PenelitianPenelitian mengenai prediksi pemberian kredit telah dilakukan oleh beberapa peneliti sebelumnya, namun para peneliti menggunakan metode dan tahap-tahap yang berbeda. Penelitian ini menggunakan metode yang belum pernah digunakan sebelumnya yaitu metode bayesian classification.

1.8 Metodologi PenelitianMetode yang digunakan dalam penelitian ini adalah:a) Studi PustakaPenulis melakukan studi pustaka berupa pencarian berbagai jurnal, artikel tentang kredit dan metode bayesian classification yang dapat digunakan dalam penelitian.b) Pengumpulan DataPenulis melakukan pengumpulan data mengenai tema yang diambil. Data yang digunakan merupakan data sekunder yang diperoleh dari website.c) Perancangan SistemPenulis merancang sistem dengan menggunakan metode yang telah dipilih sebelumnya.d) ImplementasiPenulis mengimplementasikan rancangan sistem ke dalam pengkodean menggunakan bahasa pemrograman. e) PengujianPengujian dilakukan untuk menguji perangkat lunak yang dihasilkan apakah sesuai dengan tujuan dan menjawab rumusan masalah atau tidak.

1.9 Sistematika PenulisanSistematika penulisan laporan ini, secara ringkas dapat dijelaskan sebagai berikut:

BAB I Pendahuluan Pada bab ini akan dijelaskan tentang latar belakang masalah, perumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metode, sistematika penulisan.BAB II Landasan Teori Pada bab ini dijelaskan tentang landasan teori yang digunakan dalam penelitian ini. BAB III Analisis Dan Perancangan Sistem Pada bab ini memuat uraian tentang: jenis penelitian, batasan penelitian, jenis dan sumber data, prosedur dan pengumpulan data, analisis kebutuhan sistem dan perancanagna sistem.BAB IV Implementasi Pada bab ini menguraikan tentang pembuatan perangkat lunak sesuai dengan perancangan sitem yang telah ditentukan. BAB V Hasil Penelitian Dan PembahasanPada bab ini dimuat hasil pengujian dari aplikasi prediksi risiko kredit yang telah dirancang pada bab sebelumnya. BAB VI PenutupBab ini menjelaskan tentang kesimpulan yang diperoleh dari hasil penelitian, berikut saran-saran untuk penelitian selanjutnya.

BAB IILANDASAN TEORI2.1 Prediksi Dibawah ini akan membahas mengenai pengertian, kendala-kendala, efektifitas dan manfaat prediksi.

2.1.1 Pengertian prediksi Prediksi adalah sama dengan ramalan atau perkiraan. Menurut Kamus Besar Bahasa Indonesia, prediksi adalah hasil dari kegiatan memprediksi atau meramal atau memperkirakan. Prediksi bisa berdasarkan metode ilmiah ataupun subjektif belaka. Kesimpulannya, pengertian prediksi secara istilah akan sangat tergantung pada konteks atau permasalahannya. Berbeda dengan pengertian prediksi secara bahasa yang berarti ramalan atau perkiraaan yang sudah menjadi pengertian yang baku.

2.1.2 Kendalakendala dalam membuat prediksi Ada beberapa kendala yang membuat prediksi menjadi terhambat, yaitu: 1. Waktu yang diperlukan untuk melakukan persiapan melakukan peramalan. 2. Kurangnya data yang relevan, baik dari sumber internal maupun eksternal.3. Kualitas data-data yang tersedia. 4. Fasilitas pengolahan data dan tenaga ahli. Jenis kendala yang disebut pertama, kedua dan ketiga akan berpengaruh pada kualitas data, sedang kendala yang disebut terakhir lebih banyak bergantung pada kebijakan pengalokasian dana untuk kepentingan prediksi.

2.1.3 Efektivitas prediksi Efektivitas sistem peramalan dalam membantu organisasi dapat dievaluasi berdasarkan empat kriteria berikut: 1. Accuracy. Ini merupakan aspek terpenting dari ramalan, karena perbedaan antara aktual dan ramalan berarti biaya. 2. Stability vs Responsiveness. Artinya ramalan harus mampu mengkover kompleksitas dan ketidakpastian lingkungan baik yang disebabkan oleh long term growth trend maupun seasonal influences. 3. Objectivity. Kadang-kadang kondisi yang diramalkan tidak ada kaitannya dengan data historis yang digunakan dalam peramalan. 4. Timing. Agar sistem peramalan dapat efektif, maka ramalan harus tersedia tepat waktu. 5. Benefit to Cost Ratio. Merupakan rasio yang dapat dijadikan sebagai kriteria tunggal bagi perlu tidaknya sistem peramalan dalam perusahaan.

2.1.4 Manfaat prediksi Manfaat prediksi adalah: 1. Mengetahui kondisi masa mendatang. 2. Merencanakan produksi, pemasaran, keuangan, dan lain-lain. 3. Untuk keperluan investasi pada sebuah perusahaan.

2.2 PerbankanDibawah ini akan diuraikan mengenai pengertian perbankan dan bank pada umumnya.

2.2.1Pengertian perbankanPerbankan adalah lembaga keuangan yang berperan sangat vital dalam aktivitas perdagangan internasional serta pembangunan nasional. Perbankan di jalankan oleh 2 jenis bank saja, yaitu:1. Usaha Bank Umum, diatur dalam Pasal 6 UU No. 7 Tahun 1992. Namun setelah adanya UU yang diubah (UU No. 10 Tahun 1998) ketentuan dalam huruf m diganti, dan berbunyi: menyediakan pembiayaan dan atau melakukan kegiatan lain berdasarkan prinsip syariah, sesuai dengan ketentuan yang ditetapkan oleh Bank Indonesia.2. Usaha Bank Perkreditan Rakyat, diatur dalam Pasal 13 Undang-Undang No. 7 Tahun 1992. Namun setelah diubah dengan UU No. 10 tahun 1998, ketentuan dalam huruf c diganti, dan berbunyi: menyediakan pembiyaan dan penempatan uang berdasarkan prinsip Syariah, sesuai dengan ketentuan yang ditetapkan oleh Bank Indonesia.

2.2.2 Bank pada umumnyaPada dasarnya Bank adalah lembaga keuangan yang melayani kebutuhan masyarakat, baik untuk menyimapn uang, meminjam uang dan jasa pelayanan lalu lintas pembayaran baik dalam negeri maupun luar negeri.Menurut UU No. 10 tahun 1998 tentang perbankan, menetapkan bahwa Bank adalah badan usaha yang menghimpun dana dari masyarakat dalam bentuk simpanan dan menyalurkannnya dalam bentuk kredit dan atau dalam bentuk lainnya dalam rangka meningkatkan taraf hidup orang banyak (UU RI No. 10 / 1998 Tentang Perubahan UU RI No.7 / 1992 Tentang Perbankan, pasal 1 ayat 1).Menurut Stuart (1999:1) dalam bukunya Bank Politik yang dikutip oleh Thomas Suyatno mengemukakan bahwa Bank adalah suatu badan yang bertujuan untuk memuaskan kebutuhan kredit, baik dengan alat-alat pembayaran sendiri maupun dengan uang yang diperolehnya dari orang lain, maupun dengan jalan memperedarkan alat-alat penukar baru berupa uang giral. Menurut Barata (1994 : 74) mengemukakan pengertian bank dalam bukunya Dasar-Dasar Perbankan, bahwa Bank adalah suatu lembaga keuangan yang pada pokoknya berusaha memberikan pelayanan kepada semua pihak dalam bidang penyediaan jasa pengelolaan dana, lalu lintas pembayaran, peredaran uang dan pemberian kredit, baik dengan menggunakan modalnya sendiri maupun dana-dana yang dikumpulkan dari pihak ketiga. Dari sini dapat disimpulkan bahwa bank adalah lembaga keuangan yang usaha pokoknya mengumpulkan dana dengan menarik dana dari masyarakat berupa tabungan, deposito, giro dan lain-lain, dan kemudian disalurkan kembali kepada masyarakat dalam bentuk kredit.

2.3 Kredit2.3.1 Kategori kreditBerdasarkan SK Direksi BI NO.31/147/KEP/DIR tanggal 12 November 1998, penggolongan kualitas kredit berdasarkan kemampuan membayar adalah sebagai berikut:1. Pembayaran tepat waktu, perkembangan rekening baik dan tidak ada tunggakan serta sesuai dengan persyaratan kredit (lancar).2. Terdapat tunggakan pembayaran pokok dan/atau bunga sampai dengan 90 hari (dalam perhatian khusus).3. Terdapat tunggakan pembayaran pokok dan/atau bunga yang telah melampaui 90 hari sampai dengan 180 hari (kurang lancar).4. Terdapat tunggakan pembayaran pokok dan/atau bunga yang telah melampaui 180 hari sampai dengan 270 hari (diragukan).5. Terdapat tunggakan pembayaran pokok dan/atau bunga yang telah melampaui 270 hari (macet).

Berdasarkan SK diatas maka disesuaikan dalam penelitian ini, dibagi dalam 2 kategori yaitu kredit lancar dan tidak lancar, dengan pembagian:1. Bila termasuk dalam poin 1 dan 2 maka dikatakan kredit lancar.2. Bila termasuk dalam pion 3, 4, dan 5 maka dikatakan kredit tidak lancar.

2.3.2Analisa kredit The 5 C of Credit AnalysisDalam upaya memperkecil risiko dalam memberikan kredit, bank mempertimbangkan beberapa hal yang terkait dengan itikad baik (willingness to pay) dan kemampuan membayar (ability to pay) nasabah untuk melunasi kembali pinjaman beserta bunganya. Hal-hal tersebut tertuang dalam istilah The Five C of Credit Analysis. 1. Aspek karakter (character), memuat data tentang penilaian terhadap karakter calon debitur dilihat dari berbagai sifat misalnya watak, kemauan, kejujuran dan pengalaman hutang masa lalu. 2. Aspek kemampuan (capacity), memuat data tentang penilaian terhadap kemampuan berusaha, kemampuan pemasaran, kemampuan membayar kembali hutangnya masa lalu dan hubungan dengan rekan usahanya. 3. Aspek permodalan (capital), memuat data tentang penilaian terhadap data keuangan calon debitur yang meliputi harta lancar, harta tetap, hutang dan sebagainya. 4. Aspek kondisi ekonomi (conditions of economi), memuat data tentang kondisi usaha, kondisi rumah tangga, kondisi usaha yang berkaitan dengan kondisi ekonomi pada umumnya, dan sebagainya. 5. Aspek jaminan (collateral), memuat data tentang agunan yang akan disediakan, kebendaannya, keberadaaanya, kondisi jaminannya, nilai jualnya, penilaian terhadap kelayakannya, dan sebagainya.

2.4 Data Mining2.4.1 Pengertian data miningMenurut Han dan Kamber (2011:6), Data Mining merupakan pemilihan atau menggali pengetahuan dari jumlah data yang banyak. Berbeda dengan Segall et al. (2008:127) menjelaskan Data Mining disebut penemuan pengetahuan atau menemukan pola yang tersembunyi dalam data. Data mining adalah proses menganalisis data dari perspektif yang berbeda dan meringkas menjadi informasi yang berguna. Bisa disimpulkan data mining adalah proses menganalisis data yang banyak dan membuat suatu pola untuk menjadi informasi yang berguna.

2.4.2 Cross Industry Standard Process for Data Mining (CRISP DM)Dalam jurnal Identifying Bank Frauds Using CRISP-DM and Decision Trees oleh Da Rocha & Timteo (2010) mengatakan metodologi Cross Industri Standard Process for Data Mining (CRISP-DM) telah banyak digunakan dalam industri oleh para ahli saat ini sebagai salah satu proses data mining untuk memecahkan suatu masalah. Metodologi ini terdiri dari enam tahap proses siklus. Metodologi ini membuat data mining yang besar dapat dilakukan dengan lebih cepat, lebih ekonomis, dan mudah untuk diatur. Bahkan, data mining yang berukuran kecil pun dapat memperoleh 6 keuntungan dari CRISP-DM (Olson & Delen, 2008:9). Berikut adalah enam tahap yang disebut sebagai siklus: 1. Fase pemahaman bisnis (business understanding phase) a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup bisnis atau unit penelitian secara keseluruhan.b. Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan data mining.c. Menyiapkan strategi awal yang merupakan rencana proyek untuk mencapai tujuan.2. Fase pemahaman data (data understanding phase)a. Mengumpulkan data.b. Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data dan pencarian pengetahuan awal.c. Mengevaluasi kualitas data.d. Jika diinginkan memilih sebagian kecil group data yang mungkin mengandung pola dari permasalahan.3. Fase pengolahan data (data preparation phase)a. Menyiapkan kumpulan data yang akan digunakan untuk keseluruhan fase berikutnya. b. Pilih kasus dan atribut yang ingin di analisa dan yang sesuai dengan analisis yang akan dilakukan.c. Melakukan perubahan pada atribut jika dibutuhkan.d. Menyiapkan data awal sehingga siap untuk perangkat pemodelan.Terdapat beberapa teknik dalam mengolah data seperti data transformation, data reduction dan data cleaning, diantaranya : 1. Generalization: mengubah data atribut low level menjadi atribut high level. contoh: atribut numerical menjadi ordinal.2. Attribute construction: penambahan atribut baru untuk kepentingan proses mining.3. Attribute subset selection: pemilihan atribut yang menjadi atribut prediktor. Ada 4 metode yang dapat digunakan, yaitu: a. Stepwise forward selection Proses metode ini adalah untuk mencari atribut terbaik dari seluruh data set dan di masukkan ke dalam data set baru berdasarkan atribut terbaik yang telah dipilih. b. Stepwise backward elimination Proses metode ini adalah untuk mencari atribut yang tidak berkaitan dengan data mining yang dicari, lalu langsung menghapusnya dari data set. c. Combination of forward selection and backward elimination Proses metode ini adalah penggabungan dari metode stepwise forward selection dan stepwise backward elimination.d. Decision tree induction Proses metode ini menggunakan algoritma decision tree, seperti algoritma ID3, C4.5, dan cart dalam mencari atribut yang terbaik.4. Missing value Ada 6 metode yang dapat digunakan dalam mengolah nilai null yang terdapat dalam data, yaitu: a.Ignore the tuple: tidak menggunakan tuple yang memiliki nilai null. b. Fill in the missing value manually: mengisi sendiri nilai null yang terdapat dalam data. c.Use global constant to fill in the missing value: mengganti nilai null dengan label constant, seperti Unknown. d.Use the attribute mean to fill in the missing value: mengganti nilai null dengan rata-rata yang dimiliki atribut. e.Use the attribute mean for all samples belonging to the same class the given tuple: mengganti nilai null dengan nilai rata-rata yang dimilik atribut berdasarkan target kelas yang dicari. f.Use the most probable value to fill in the missing value: mengganti nilai null dengan nilai yang paling mungkin muncul berdasarkan atribut target kelas yang dicari.4. Fase pemodelan (modelling phase)a. Memilih dan mengaplikasikan teknik pemodelan yang sesuai.b. Mengkalibrasi aturan model untuk mengoptimalkan hasil.c. Memperhatikan kemungkinan bahwa beberapa teknik mungkin untuk digunakan pada permasalahan data mining yang sama.d. Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu.5. Fase evaluasi (evaluation phase)a. Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitas dan efektivitas sebelum disebarkan untuk digunakan.b. Menetapkan apakah terdapat model yang memenuhi tujuan pada fase awal.c. Menentukan apakah terdapat permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik.d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data mining.6. Fase penyebaran (deployment phase)a. Menggunakan model yang dihasilkan. b. Contoh sederhana penyebaran : pembuatan laporan.c. Contoh kompleks penyebaran : penerapan proses data mining secara paralel pada departemen lain.

Gambar 2.1 Tahapan data mining CRISP-DM(Sumber: CRISP-DM.org)

2.4.3 Fungsi data mining Banyak fungsi data mining yang dapat digunakan. Dalam kasus tertentu fungsi data mining dapat digabungkan untuk menjawab masalah yang dihadapi (Maclennan, Tang, & Crivat, 2009, 6). Berikut adalah fungsi data mining secara umum : 1. Classification Fungsi dari classification adalah untuk mengklasifikasikan suatu target kelas ke dalam kategori yang dipilih. Contohnya : bayesian classification.2. ClusteringFungsi dari clustering adalah untuk mencari pengelompokan atribut ke dalam segmentasi-segmentasi berdasarkan similaritas.3. AssociationFungsinya adalah untuk mencari keterkaitan antara atribut atau item set, berdasarkan jumlah item yang muncul dan rule association yang ada.

4. RegressionFungsi dari regression hampir mirip dengan klasifikasi. Fungsi dari regression adalah bertujuan untuk mencari prediksi dari suatu pola yang ada.5. ForecastingFungsi dari forecasting adalah untuk peramalan waktu yang akan datang berdasarkan tren yang telah terjadi di waktu sebelumnya.6. Sequence analysis Fungsi dari sequence analysis adalah untuk mencari pola urutan dari rangkaian kejadian.7. Deviation analysis Fungsi dari devation analysis adalah untuk mencari kejadian langka yang sangat berbeda dari keadaan normal (kejadian abnormal).

2.4.4KlasifikasiKlasifikasi merupakan proses untuk menempatkan suatu objek ke dalam suatu kategori/kelas yang sudah didefinisikan sebelumnya berdasarkan model tertentu. Data mining merupakan penjelasan tentang masa lalu dan prediksi masa depan berdasarkan analisa pada sekelompok data. Dalam proses memprediksi masa depan ini data mining menggunakan beberapa model yaitu pemodelan prediktif dan deskriptif. a. Pemodelan prediktif diawali dengan pembentukan model untuk memprediksi hasil. Jika hasil pemodelan dalam bentuk kategori (diskrit) maka disebut sebagai klasifikasi sedangkan jika hasil pemodelan bernilai kontinu maka disebut regresi.b. Pemodelan deskriptif atau lebih dikenal dengan istilah clustering, merupakan proses pengamatan terhadap kelompok data kemudian diikuti dengan pengelompokan data/cluster terhadap data yang mempunyai kesamaan ciri.Ada dua proses penting yang dilakukan saat melakukan klasifikasi. Proses yang pertama adalah learning (training) yaitu proses pembelajaran menggunakan training set. Untuk kasus bayesian classification, perhitungan probabilitas dari data berdasarkan data pembelajaran dilakukan. Proses yang kedua adalah proses testing yaitu menguji model menggunakan data testing.

2.5 Bayesian Classification Bayesian Classification merupakan pengklasifikasian dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes. Menurut Olson dan Delen (2008:102) menjelaskan bayesian classification untuk setiap kelas keputusan, menghitung probabilitas dengan syarat bahwa kelas keputusan adalah benar, mengingat vektor informasi obyek. Algoritma ini mengasumsikan bahwa atribut obyek adalah independen. Probabilitas yang terlibat dalam memproduksi perkiraan akhir dihitung sebagai jumlah frekuensi dari "master" tabel keputusan. Bayesian classification bekerja sangat baik dibanding dengan model classifier lainnya. Hal ini dibuktikan oleh Xhemali, Hinde dan Stone dalam jurnalnya Nave Bayes vs. Decision Trees vs. Neural Networks in the Classification of Training Web Pages mengatakan bahwa Bayesian Classification memiliki tingkat akurasi yang lebih baik dibanding model classifier lainnya.Menurut Han dan Kamber (2011:351) Proses dari Bayesian classification, atau Simple Bayesian Classifier, sebagai berikut: 1. Variable D menjadi pelatihan set tuple dan label yang terkait dengan kelas. Seperti biasa, setiap tuple diwakili oleh vektor atribut n-dimensi, X=(x1, x2, ..., xn), ini menggambarkan pengukuran n dibuat pada tuple dari atribut n, masing-masing, A1, A2, ..., An.2. Misalkan ada kelas m, C1, C2, ..., Cm. Diberi sebuah tuple, X, classifier akan memprediksi X yang masuk kelompok memiliki probabilitas posterior tertinggi, kondisi-disebutkan pada X. Artinya, Bayesian memprediksi bahwa X tuple milik kelas Ci jika dan hanya jika :P(Ci|X) > P(Cj|X) for 1 j m, j i.(2.1)

Jadi memaksimalkan P (Ci | X). Ci kelas yang P (Ci | X) dimaksimalkan disebut hipotesis posteriori maksimal. Dengan teorema Bayes :

(2.2)

Keterangan : P(Ci|X)= Probabilitas hipotesis Ci jika diberikan fakta atau record X (Posterior probability) P(X|Ci)= mencari nilai parameter yang memberi kemungkinan yang paling besar (likelihood) P(Ci)= Prior probability dari X (Prior probability) P(X)= Jumlah probability tuple yg muncul

3. Ketika P (X) adalah konstan untuk semua kelas, hanya P(X | Ci) P (Ci) butuh dimaksimalkan. Jika probabilitas kelas sebelumnya tidak diketahui, maka umumnya diasumsikan ke dalam kelas yang sama, yaitu, P(C1) = P(C2) = = P (C m), maka dari itu akan memaksimalkan P(X | Ci). Jika tidak, maka akan memaksimalkan P(X | Ci) P(Ci). Perhatikan bahwa probabilitas sebelum kelas dapat diperkirakan oleh P(Ci) = | Ci, D| / | D |, dimana |Ci, D| adalah jumlah tuple pelatihan kelas Ci di D.

4. Mengingat dataset mempunyai banyak atribut, maka akan sangat sulit dalam mengkomputasi untuk menghitung P(X|Ci). Agar dapat mengurangi perhitungan dalam mengevaluasi P(X|Ci), asumsi nave independensi kelas bersyarat dibuat. Dianggap bahwa nilai-nilai dari atribut adalah kondisional independen satu sama lain, diberikan kelas label dari tuple (yaitu bahwa tidak ada hubungan ketergantungan diantara atribut) dengan demikian :

(2.3)

Maka dapat dengan mudah memperkirakan probabilitas P(x1|Ci), P(x2|Ci),...P(xn|Ci) dari pelatihan tuple. Ingat bahwa di sini xk mengacu pada nilai atribut Ak untuk tuple X. Untuk setiap atribut, dilihat dari apakah atribut tersebut kategorikal atau continuous-valued . Misalnya, untuk menghitung P(X | Ci) mempertimbangkan hal-hal berikut:a) Jika Ak adalah kategorikal, maka P (Xk| Ci) adalah jumlah tuple kelas Ci di D memiliki nilai Xk untuk atribut Ak, dibagi dengan | Ci, D |, jumlah tuplekelas Ci di D. b) Jika Ak continuous-valued, maka perlu melakukan sedikit lebih banyak pekerjaan, tapi perhitunganya cukup sederhana. Sebuah atribut continuous-valued biasanya diasumsikan memiliki distribusi Gaussian dengan rata-rata dan standar deviasi , didefinisikan oleh (2.4)sehingga (2.5)Setelah itu hitung Ci dan Ci, yang merupakan deviasi mean(rata-rata) dan standar masing-masing nilai atribut Ak untuk tuple pelatihan kelas Ci. Setelah itu gunakan kedua kuantitas dalam Persamaan, bersama-sama dengan xk, untuk memperkirakan P (xk| Ci).

5. Untuk memprediksi label kelas x, P(X|Ci)P(Ci) dievaluasi untuk setiap kelas Ci. Classifier memprediksi kelas label dari tuplex adalah kelas Ci, jika (2.6)

Dengan kata lain, label kelas diprediksi adalah Ci yang mana P (X | Ci) P (Ci) adalah maksimal. Pengklasifikasi Bayesian memiliki tingkat kesalahan minimal dibandingkan dengan klasifikasi lainnya. Namun, dalam prakteknya hal ini tidak selalu terjadi, karena ketidakakuratan asumsi yang dibuat untuk penggunaannya, seperti kondisi kelas independen, dan kurangnya data probabilitas yang tersedia. Pengklasifikasi Bayesian juga berguna dalam memberikan pembenaran teoritis untuk pengklasifikasi lain yang tidak secara eksplisit menggunakan teorema Bayes.

2.6 Evaluasi Kinerja Classifier Menurut Han dan Kamber (2011:365) Confusion matrix adalah alat yang berguna untuk menganalisis seberapa baik classifier mengenali tuple dari kelas yang berbeda. TP dan TN memberikan informasi ketika classifier benar, sedangkan FP dan FN memberitahu ketika classifier salah. Contoh gambar Confusion matrix ditunjukan pada gambar 2.2.

Gambar 2.2 The Confusion Matrix menampilkan total positif dan negatif tupleSumber: (Han & Kamber, 2011, p366)

Langkah sensitivity dan specificity dapat digunakan untuk pengklasifikasian akurasi. Sensitivity dapat ditunjuk sebagai true positives (recognition) rate (proporsi dari tuple positif yang diidentifikasi dengan benar). Sedangakan specificity adalah true negatives rate (proporsi tuple negatif yang diidentifikasi secara benar). Hal ini dapat menunjukkan bahwa akurasi adalah fungsi sensitivitas dan spesifisitas: (2.9)Ukuran tingkat kesalahan klasifikasi juga dapat dihitung dengan mencari Error Rate:

DAFTAR PUSTAKAHan, Jiawei, dan Micheline Kamber. 2001. Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufmann.Kadir, M., Perbandingan Performansi Algoritma Decision Tree CART dan CHAID, skripsi, jurusan TI, Institut Teknologi Bandung, 2010.Kusrini., dan Emha Taufiq Luthfi. 2009. Algoritma Data Mining. ANDI. Yogyakarta.Misdiati, L. dan Rahayu, S.P., Analisis Klasifikasi Kredit Menggunakan Metode Newton Truncated-Kernel Logistic Regression (NTR-KLR) (2012)Nave Bayes Example. http://jmvidal.cse.sc.edu/talks/Bayesian learning/nbex.xml. Tanggal Akses: 15 Juni 2014.Nugroho, F.X.H., Case Based Reasoning untuk Kelayakan Mendapatkan Kredit Sepeda Motor, Tesis, Universitas Gadjah Mada, 2013.Santoso, B. 2007. Data Mining : Teknik Pemanfaatan Data Untuk Keperluan Bisnis.Yogyakarta : Graha Ilmu.Wikipedia: Nave Bayes classifier. http://en.wikipedia.org/wiki/ Naive_Bayes_classifier. Tanggal Akses : 18 Juni 2014.