bab 2 landasan teori - library.binus.ac.idlibrary.binus.ac.id/ecolls/ethesisdoc/bab2/2012-1-00314-si...

23
8 BAB 2 LANDASAN TEORI 2.1 Database Database (Connoly dan Begg, 2010 : 54-66) adalah suatu pembagian kumpulan data yang berisi secara logika, dan keterangan dari masing-masing data yang didesain untuk mendapatkan informasi yang dibutuhkan sebuah organisasi. Database system adalah kumpulan program aplikasi yang berinteraksi dengan basis data bersama dengan Database Management System (DBMS) dan basis data itu sendiri, sedangkan Database Management System (DBMS) adalah merupakan sistem perangkat lunak yang memungkinkan pengguna untuk mendefinisikan, membuat, memelihara dan kontrol ke akses database. Database (Mcleod, 2007 : 124), adalah kumpulan dari semua data berbasis komputer pada suatu perusahaan. Dari teori-teori tersebut dapat disimpulkan bahwa Database adalah sejumlah data yang terorganisasi dengan record dan field-nya yang terstruktrur dan saling terhubung untuk menyediakan informasi yang dibutuhkan oleh perusahaan.

Upload: vuonghanh

Post on 06-Feb-2018

222 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

8

BAB 2

LANDASAN TEORI

2.1 Database

Database (Connoly dan Begg, 2010 : 54-66) adalah suatu pembagian

kumpulan data yang berisi secara logika, dan keterangan dari masing-masing

data yang didesain untuk mendapatkan informasi yang dibutuhkan sebuah

organisasi. Database system adalah kumpulan program aplikasi yang

berinteraksi dengan basis data bersama dengan Database Management System

(DBMS) dan basis data itu sendiri, sedangkan Database Management System

(DBMS) adalah merupakan sistem perangkat lunak yang memungkinkan

pengguna untuk mendefinisikan, membuat, memelihara dan kontrol ke akses

database.

Database (Mcleod, 2007 : 124), adalah kumpulan dari semua data

berbasis komputer pada suatu perusahaan.

Dari teori-teori tersebut dapat disimpulkan bahwa Database adalah

sejumlah data yang terorganisasi dengan record dan field-nya yang terstruktrur

dan saling terhubung untuk menyediakan informasi yang dibutuhkan oleh

perusahaan.

Page 2: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

9

2.2 Data Mining

2.2.1 Definisi Data Mining

Data mining (Connolly dan Begg, 2010) adalah suatu proses

ekstraksi atau penggalian data yang belum diketahui sebelumnya,

namun dapat dipahami dan berguna dari database yang besar serta

digunakan untuk membuat suatu keputusan bisnis yang sangat penting.

Data mining (Segall et.all, 2008) biasa juga disebut dengan

“Data atau knowledge discovery” atau menemukan pola tersembunyi

pada data. Data mining adalah proses dari menganalisa data dari

prespektif yang berbeda dan menyimpulkannya ke dalam informasi

yang berguna.

Data mining (Han dan Kamber, 2006 : 5) didefinisikan

sebagai proses mengekstrak atau menambang pengetahuan yang

dibutuhkan dari sejumlah data besar.

Pada prosesnya data mining akan mengekstrak informasi yang

berharga dengan cara menganalisis adanya pola-pola ataupun

hubungan keterkaitan tertentu dari data-data yang berukuran besar.

Data mining berkaitan dengan bidang ilmu-ilmu lain, seperti

Database System, Data Warehousing, Statistic, Machine Learning,

Information Retrieval, dan Komputasi Tingkat Tinggi. Selain itu data

mining didukung oleh ilmu lain seperti Neural Network, Pengenalan

Pola, Spatial Data Analysis, Image Database, Signal Processing.

Page 3: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

10

Beberapa survey tentang proses pemodelan dan metodologi

menyatakan bahwa, “Data mining digunakan sebagai penunjuk,

dimana data mining menyajikan intisari atas sejarah, deskripsi dan

sebagai standar petunjuk mengenai masa depan dari sebuah proses

model data mining”(Mariscal, Marba’n dan Ferna’ndes, 2010)

Karakteristik data mining sebagai berikut:

a. Data mining berhubungan dengan penemuan sesuatu yang

tersembunyi dan pola data tertentu yang tidak diketahui

sebelumnya.

b. Data mining biasa menggunakan data yang sangat besar.

Biasanya data yang besar digunakan untuk membuat hasil lebih

dapat dipercaya.

c. Data mining berguna untuk membuat keputusan kritis.

Berdasarkan beberapa pengertian tersebut dapat ditarik

kesimpulan bahwa Data Mining adalah suatu teknik menggali

informasi berharga yang terpendam atau tersembunyi pada suatu

koleksi data (database) yang sangat besar sehingga ditemukan suatu

pola yang menarik yang sebelumnya tidak diketahui.

2.2.2 Fungsi Data Mining

Teknik – teknik data mining telah digunakan untuk menemukan pola

yang tersembunyi dan meprediksi tren masa depan. Dan keuntungan kompetitif

dari data mining termasuk dengan meningkatnya pendapatan, berkurangnya

pengeluaran, dan kemampuan pemasaran yang meningkat. (Pujari et. All,

2012)

Page 4: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

11

Data mining dibagi menjadi dua kategori utama (Han dan Kamber,

2006 : 21- 29) yaitu:

A. Prediktif

Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari

atribut tertentu berdasarkan pada nilai atribut-atribut lain. Atribut yang

diprediksi umumnya dikenal sebagai target atau variable tak bebas,

sedangkan atribut-atribut yang digunakan untuk membuat prediksi

dikenal sebagai explanatory atau variable bebas.

B. Deskriptif

Tujuan dari tugas deskriptif adalah untuk menurunkan pola-pola

(korelasi, trend, cluster, teritori, dan anomali) yang meringkas

hubungan yang pokok dalam data. Tugas data mining deskriptif sering

merupakan penyelidikan dan seringkali memerlukan teknik post-

processing untuk validasi dan penjelasan hasil.

Fungsi dari data mining juga ada dalam dunia kesehatan,

dimana data mining telah digunakan untuk untuk meningkatkan

diagnosis dan pengobatan atau lebih mengerti perilaku dari pasien.

(Sandra et all, 2009)

Data mining juga memiliki beberapa fungsionalitas yaitu

Concept/Class Description: Characterization and Discrimination,

Mining Frequent Patterns, Associations, and Correlations,

Classification and Prediction, Cluster Analysis, Outlier analysis, dan

Evolution analysis. (Han dan Kamber, 2006 : 21 – 27)

Berikut adalah penjelasan dari masing-masing fungsi diatas:

Page 5: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

12

1. Concept/Class Description: Characterization

and Discrimination

Data characterization adalah ringkasan dari

semua karakteristik atau fitur dari data yang telah

diperoleh dari target kelas. Data yang sesuai dengan

kelas yang telah ditentukan oleh pengguna biasanya

dikumpulkan di dalam database. Misalnya, untuk

mempelajari karakteristik produk perangkat lunak

dimana pada tahun lalu seluruh penjualan telah

meningkat sebesar 10%, data yang terkait dengan

produk-produk tersebut dapat dikumpulkan dengan

menjalankan sebuah query SQL. Sedangkan, data

discrimination adalah perbandingan antara fitur umum

objek data target kelas dengan fitur umum objek dari

satu atau satu set kelas lainnya. target diambil melalui

query database. Misalnya, pengguna mungkin ingin

membandingkan fitur umum dari produk perangkat

lunak yang pada tahun lalu penjualannya meningkat

sebesar 10% tetapi selama periode yang sama seluruh

penjualan juga menurun setidaknya 30%.

2. Mining Frequent Patterns, Associations, and

Correlations

Frequent Patterns adalah pola yang sering

terjadi di dalam data. Ada banyak jenis dari frequent

patterns, termasuk di dalamnya pola, sekelompok item

Page 6: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

13

set, sub-sequence, dan sub-struktur. Sebuah frequent

patterns biasanya mengacu pada satu set item yang

sering muncul bersama-sama dalam suatu kumpulan

data transaksional, misalnya seperti susu dan roti.

Associations Analysis adalah pencarian aturan-

aturan asosiasi yang menunjukan kondisi-kondisi nilai

atribut yang sering terjadi bersama-sama dalam

sekumpulan data. Analisis asosiasi sering digunakan

untuk menganalisa Market Basket Analysis dan data

transaksi.

3. Classification and Prediction

Klasifikasi adalah proses untuk menemukan

model atau fungsi yang menggambarkan dan

membedakan kelas data atau konsep dengan tujuan

memprediksikan kelas untuk data yang tidak diketahui

kelasnya. Model yang diturunkan didasarkan pada

analisis dari training data (yaitu objek data yang

memiliki label kelas yang diketahui). Model yang

diturunkan dapat direpresentasikan dalam berbagai

bentuk seperti If-then klasifikasi, decision tree, dan

sebagainya.

Teknik classification bekerja dengan

mengelompokkan data berdasarkan data training dan

nilai atribut klasifikasi. Aturan pengelompokan tersebut

akan digunakan untuk klasifikasi data baru ke dalam

Page 7: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

14

kelompok yang ada. Classification dapat

direpresentasikan dalam bentuk pohon keputusan

(decision tree). Setiap node dalam pohon keputusan

menyatakan suatu tes terhadap atribut dataset,

sedangkan setiap cabang menyatakan hasil dari tes

tersebut. Pohon keputusan yang terbentuk dapat

diterjemahkan menjadi sekumpulan aturan dalam

bentuk IF condition THEN outcome. (Mewati Ayub,

2007 : 7).

Dalam banyak kasus, pengguna ingin

memprediksikan nilai-nilai data yang tidak tersedia

atau hilang (bukan label dari kelas). Dalam kasus ini

nilai data yang akan diprediksi merupakan data

numeric. Disamping itu, prediksi lebih menekankan

pada identifikasi trend dari distribusi berdasarkan data

yang tersedia.

4. Cluster Analysis

Cluster adalah kumpulan objek data yang mirip

satu sama lain dalam kelompok yang sama dan berbeda

dengan objek data di kelompok lain. Sedangkan,

Clustering atau Analisis Custer adalah proses

pengelompokkan satu set benda-benda fisik atau

abstrak kedalam kelas objek yang sama. Tujuannya

adalah untuk menghasilkan pengelompokan objek yang

mirip satu sama lain dalam kelompok-kelompok.

Page 8: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

15

Semakin besar kemiripan objek dalam suatu cluster

dan semakin besar perbedaan tiap cluster maka kualitas

analisis cluster semakin baik.

Dari tugas – tugas data mining yang telah di jelaskan ,

perbandingan antara Classification dan Clustering menurut Han dan

Kamber (2006) lebih spesifik digambarkan sebagai berikut :

Tabel 2.1 Perbandingan Classification dan Clustering

Classification Clustering

1. Menganalisis label kelas dari

data objek.

1. menganalisis data objek tanpa

ada label kelas.

2. Label kelas ada atau terlihat

jelas pada training data.

2.label kelas tidak ada atau tidak

terlihat pada training data.

3. Bertujuan untuk

mengelompokan pada kelas –

kelas yang telah ditentukan.

3.bertujuan untuk

mengelompokan dan

menentukan label kelas dari tiap

cluster yang telah terbentuk

4. Proses klasifikasi berdasarkan

pada menemukan sebuah model

atau fungsi yang

menggambarkan dan

membedakan data kelas atau

konsep, dengan tujuan untuk

dapat menggunakan model

untuk memprediksi objek kelas

yang kelas label nya blm

diketahui. Model tersebut

berdasarkan pada analisis dari

training data (data objek yang

kelas label nya telah diketahui.)

4. Proses Clustering berdasarkan

pada prinsip: objek yang ada di

dalam satu cluster memiliki

kemiripan yang tinggi dari pada

yang lainnya, tetapi sangat

berbeda dengan objek yang ada

pada cluster lainnya.

Page 9: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

16

5. Outlier analysis

Outlier merupakan objek data yang tidak

mengikuti perilaku umum dari data. Outlier dianggap

sebagai noise atau pengecualian. Analisis data outlier

dapat dianggap sebagai noise atau pengecualian.

Analisis data outlier dinamakan Outlier Mining.

Teknik ini berguna dalam fraud detection dan rare

events analysis.

6. Evolution analysis

Analisis evolusi data menjelaskan dan

memodelkan trend dari objek yang memiliki perilaku

yang berubah setiap waktu. Teknik ini dapat meliputi

karakterisasi, diskriminasi, asosiasi, klasifikasi, atau

clustering dari data yang berkaitan dengan waktu.

2.2.3 Tujuan Data Mining

Tujuan dari data mining (Hoffer, Prescott, dan McFadden,

2007) adalah:

1. Explanatory

Untuk menjelaskan beberapa kondisi penelitian, seperti

mengapa penjualan truk pick-up meningkat di Colorado.

2. Confirmatory

Untuk mempertegas hipotesis, seperti halnya dua kali

pendapatan keluarga lebih suka dipakai untuk membeli

peralatan keluarga dibandingkan dengan satu kali pendapatan

keluarga.

Page 10: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

17

3. Exploratory

Untuk menganalisa data yang memiliki hubungan yang baru.

Misalnya, pola apa yang cocok untuk kasus penggelapan kartu

kredit.

2.2.4 Arsitektur Data Mining

Data mining merupakan proses pencarian pengetahuan yang

menarik dari data berukuran besar yang disimpan dalam basis data, data

warehouse atau tempat penyimpanan informasi lainnya. Dengan

demikian arsitektur sistem data mining memiliki komponen-komponen

utama (Han dan Kamber, 2006) yaitu:

a. Database, data warehouse, World Wide Web, atau tempat

penyimpanan informasi lainnya: bisa berbentuk satu atau

banyak database, data warehouse, spreadsheet, ataupun

tempat penyimpanan informasi lainnya. Data Cleaning, Data

Integration dan Data Selection dapat dijalankan pada data

tersebut.

b. Database dan data warehouse server. Komponen ini

bertanggung jawab dalam pengambilan data yang relevan,

berdasarkan permintaan pengguna.

c. Knowledge Based. Komponen ini merupakan domain

knowledge yang digunakan untuk memandu pencarian atau

mengevaluasi pola-pola yang dihasilkan. Pengetahuan tersebut

meliput hirarki konsep yang digunakan untuk

mengorganisasikan atribut atau nilai atribut kedalam level

Page 11: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

18

abstraksi yang berbeda. Pengetahuan tersebut juga dapat

berupa kepercayaan pengguna (user belief), yang dapat

digunakan untuk menentukan kemenarikan pola yang

diperoleh.

d. Data mining engine. Bagian ini merupakan komponen penting

dalam arsitektur sistem data mining. Komponen ini terdiri dari

modul-modul fungsional seperti karakterisasi, asosiasi,

klasifikasi, dan analisis cluster.

e. Ghrapical user interface (GUI). Modul ini berkomunikasi

dengan pengguna dan data mining. Melalui komponen ini,

pengguna berinteraksi dengan sistem menggunakan query.

Gambar 2.1Arsitektur sistem data mining

Page 12: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

19

2.2.5 Klasifikasi Sistem Data Mining

Data Mining (Han dan Kamber, 2006 : 29) merupakan suatu

pendekatan dalam pemecahan masalah dengan menggunakan tinjauan

berbagai sudut pandang ilmu secara terpadu yaitu, database system,

statistics, machine learning, visualization, dan information system.

(Gambar 2.2)

Gambar 2.2 Data mining merupakan irisan dari berbagai disiplin

2.2.6 Knowledge Discovery In Databases

Han dan Kamber (2006 : 7), lebih spesifik menyatakan istilah

Data Mining dan Knowledge Discovery in Databases (KDD) secara

bergantian untuk menjelaskan proses penggalian informasi tersembunyi

dalam suatu kumpulan data yang besar. Akan tetapi kedua istilah

tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain

dan salah satu tahap dalam proses KDD adalah data mining.

Data mining adalah salah satu langkah dalam proses KDD

secara keseluruhan. Secara umum, data mining digunakan oleh banyak

peneliti sebagai sinonim dari proses KDD. Akhir-akhir ini, data mining

Page 13: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

20

dan knowledge discovery telah diusulkan sebagai nama yang paling

memadai untuk keseluruhan proses KDD. Knowledge Discovery in

Databases berkaitan dengan proses penemuan pengetahuan yang

diterapkan pada database. Hal ini juga didefinisikan sebagai proses non-

trivial untuk identifikasi data yang valid, baru, berpotensi bermanfaat,

dan akhirnya memiliki pola yang dapat dimengerti. (Kurgan dan

Musilek, 2006)

Knowledge discovery sering terhalang karena tantangan dalam

integrasi dan navigasi dari data yang berbeda. Selain itu, karena jumlah

dimensi di dalam data meningkat, pendekatan baru untuk penemuan

pola sangat diperlukan. (Zhiyuan Chen, 2007).

Berdasarkan pengertian beberapa pengertian tersebut dapat

ditarik kesimpulan bahwa Knowledge Discovery in Database (KDD)

adalah proses yang bertujuan untuk menggali dan menganalisis

sejumlah besar himpunan data dan mengekstrak informasi serta

pengetahuan yang berguna.

Langkah penting dalam proses KDD dapat dilihat pada gambar 2.3

yang terdiri dari tahapan-tahapan sebagai berikut:

1) Data cleaning

Data cleaning merupakan proses membuang duplikasi

data, memeriksa data yang tidak konsisten, dan memperbaiki

kesalahan pada data, seperti kesalahan penulisan. Pada

umumnya data yang diperoleh baik dari database suatu

perusahaan maupun hasil eksperimen, memiliki isi yang tidak

Page 14: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

21

sempurna seperti data yang hilang, data yang tidak valid atau

juga hanya sekedar salah ketik. Selain itu, ada juga atribut-

atribut data yang tidak relevan dengan hipotesa data mining

yang dimiliki. Data cleaning juga akan mempengaruhi hasil

informasi dari teknik data mining karena data yang ditangani

akan berkurang jumlah dan kompleksitasnya.

2) Data integration

Proses menambah data yang sudah ada dengan data atau

informasi lain yang relevan atau bisa disebut juga merupakan

penggabungan data dari berbagai database kedalam satu

database baru yang dibutuhkan oleh KDD.

Tahapan cleaning dan integration pada KDD

mengasumsikan bahwa integrator data harus menghapus noise

dari data awal secara paralel dengan mengintegrasikan

beberapa data set. (M. Brian Blake, 2009)

Page 15: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

22

Gambar 2.3 Data mining sebagai tahapan dalam proses

KDD

3) Data selection

Pemilihan data yang relevan dan dapat dilakukan analisis

dari data operasional. Data hasil pemilihan disimpan dalam

database yang terpisah.

4) Data transformation

Proses tranformasi data kedalam bentuk format tertentu

sehingga data tersebut sesuai untuk proses data mining.

Sebagai contoh beberapa metode standar seperti analisis

asosiasi dan clustering hanya bisa menerima input data

kategorikal.

5) Data mining

Page 16: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

23

Proses mencari pola atau informasi menarik dengan

menggunakan teknik, metode atau algoritma tertentu.

6) Pattern evaluation

Mengidentifikasi pola-pola yang benar-benar menarik dari

hasil data mining. Dalam tahap ini hasil dari teknik data

mining berupa pola-pola yang khas maupun model prediksi

dievaluasi untuk menilai apakah hipotesa yang ada memang

tercapai atau tidak.

7) Knowledge presentation

Menampilkan pola informasi yang dihasilkan dari proses

data mining, visualisasi ini membantu mengkomunikasikan

hasil data mining dalam bentuk yang mudah dimengerti.

2.2.7 Teori Khusus – Classification and Prediction

Classification (Han dan Kamber, 2006 : 285) adalah sebuah

model dalam data mining dimana, classifier dikonstruksi untuk

memprediksi categorical label, seperti “aman ” atau “beresiko” untuk

data aplikasi peminjaman uang; “ya” atau “tidak ” untuk data

marketing; atau “treatment A”, “ treatment B” atau “treatment C”

untuk data medis. Kategori tersebut dapat direpresentasikan dengan

nilai yang sesuai dengan kebutuhannya, dimana pengaturan dari nilai

tersbut tidak memiliki arti tertentu.

Classification dan Association rule discovery merupakan tugas

yang sama dalam data mining, dengan pengecualian bahwa tujuan

utama dari klasifikasi adalah prediksi label kelas, sedangkan asosiasi

Page 17: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

24

aturan penemuan menggambarkan korelasi antara item dalam

database transaksional. (Fadi Thabtah, 2007)

Proses data klasifikasi memiliki dua tahapan, yang pertama

adalah Learning: dimana training data dianalisa dengan

menggunakan sebuah algoritma klasifikasi. Dan yang kedua adalah

Classification: dimana pada tahap ini test data digunakan untuk

mengestimasi ketepatan dari classification rules. Jika keakuratan yang

dikondisikan dan yang diperkirakan dapat diterima, rule tersebut

dapat diaplikasikan pada klasifikasi lainya dari tuple data yang baru.

Vladimir Nikulin (2008) lebih spesifik mengatakan bahwa,

classification hanya bisa diterapkan pada data training yang sangat

kuat di mana diasumsikan bahwa kelas "positif" sudah mewakili

minoritas tanpa kehilangan atribut umum.

Klasifikasi dalam data mining memiliki 3 (tiga) metode yaitu,

Classification by decision tree induction, Bayes Classification, dan

Rule-based Classification.

1. Classification by Decision Tree Induction

Decision Tree Induction adalah pengetahuan dalam bentuk

pohon keputusan yang training tuple nya telah diberi label kelas.

Decision Tree bisa disebut juga alat non-parametrik analisis

diskriminan, yang dirancang untuk mewakili aturan keputusan

dalam bentuk yang disebut pohon biner (Vladimir Nikulin, 2008).

Sebuah Decision Tree seperti sebuah flowchart dengan berstruktur

pohon, dimana setiap internal node (non-leaf node)

mendenotasikan sebuah tes pada sebuah atribut, setiap cabang

Page 18: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

25

merepresentasikan sebuah hasil dari tes, dan setiap leaf node (atau

terminal node) memegang sebuah label kelas.

Namsik dan Olivia (2008) lebih spesifik mengatakan bahwa,

Decision tree adalah struktur rekursif sederhana untuk mewakili

prosedur keputusan di mana sebuah instance ditugaskan untuk

salah satu dari serangkaian kelas hasil yang telah ditentukan

sebelumnya.

Attribute Selection Measures

Sebuah attribute selection measure adalah sebuah heuristis

untuk memilih dari pembelahan kriteria yang terbaik dipisahkan

dengan menggunakan data partition, D, dari training tuple yang

kelas-nya telah diberi label ke dalam kelas individual.

Information Gain

Information Gain digunakan sebagai atribut pemilih ukuran.

Atribut dengan information gain tertinggi dipilih sebagai atribut

pemisah untuk node N. Atribut ini meminimalisasi informasi yang

dibutuhkan untuk mengklasifikasi tuple dalam memberikan hasil

pembelahan dan menrefleksikan nilai acak yang paling sedikt

“kesalahannya” pada kelas partisi tersebut.

Dan rumus pecarian information gain adalah:

Dimana Info D adalah:

Informasi yang diperkirakan (entropy) yang dibutuhkan

untuk mengklasifikasikan sebuah tuple pada D.

(D)InfoInfo(D)Gain(A) A−=

)(log)( 21

i

m

ii ppDInfo ∑

=−=

Page 19: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

26

Dan Info A adalah:

Informasi yang dibutukan (setelah menggunakan A untuk

membagi D kedalam partisi V) untuk mengklasifikasi D.

Gain Ratio

Pengukuran Information Gain berat sebelah terhadap tes

dengan berbagai hasil. Sehinga hasilnya lebih memilih atribut

yang memiliki sebuah angka dengan nilai besar.

2. Bayesian Classification

Bayesian Classifier adalah pengklasifikasi statistik. Bayesian

Classfier dapat memperkirakan probabilitas keanggotaan kelas,

seperti kemungkinan bahwa sebuah tuple yang diberikan telah

dimiliki oleh sebuah kelas tertentu lainnya.

Naïve Bayesian Classification

Naïve Bayesian classifer, atau Simple Bayesian classifier, bekerja

seperti dibawah:

1. Biarkan X menjadi sampel data ("bukti"): label kelas tidak

diketahui

2. Biarkan H menjadi hipotesis bahwa X milik kelas C

3. Klasifikasi adalah untuk menentukan P (H | X), (posteriori

probabilitas), probabilitas bahwa hipotesis memegang data

sampel yang diberikan dan diamati X

4. P (H) (prior), probabilitas awal

)(||

||)(

1j

v

j

jA DI

D

DDInfo ×=∑

=

)||

||(log

||

||)( 2

1 D

D

D

DDSplitInfo j

v

j

jA ×−= ∑

=

Page 20: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

27

a. Misalnya, X akan membeli komputer, tanpa memandang

usia dan pendapatan

5. P (X): probabilitas bahwa data sampel yang diamati

6. P (X | H) (kelemahan berupa), probabilitas mengamati sampel

X, memberikan data yang dipegang hipotesis

a. Misalnya, Mengingat bahwa X akan membeli komputer,

probabilitas bahwa X adalah 31 .. 40, pendapatan menengah

7. Data pelatihan yang diberikan X, posteriori probabilitas

hipotesis H, P (H | X), mengikuti teorema Bayes

8. Secara informal, hal ini dapat ditulis sebagai

posteriori = kemungkinan x sebelum / bukti

9. Prediksi X milik C2 IFF probabilitas P (Ci | X) adalah yang

tertinggi di antara semua P (Ck | X) untuk semua kelas K

10. Kesulitan praktis: memerlukan pengetahuan awal dengan

probabilitas yang banyak, biaya komputasi yang signifikan.

3. Rule-Based Classfication

Menggunakan IF-THEN Rules untuk Klasifikasi

Sebuah rule-based classifier digunakan sebagai sekumpulan

dari rule IF-THEN untuk klasifikasi. Sebuah aturan IF-THEN

dengan form,

IF kondisi THEN hasil.

Contoh dari Rule IF-THEN (R1).

R1: IF umur = muda AND pelajar = ya THEN beli_komputer

= ya.

)()()|()|(

XXX

PHPHPHP =

Page 21: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

28

a. Assessment dari sebuah rule: coverage and accuracy

– ncovers = # tuple yang di-cover oleh R

– ncorrect = # tuple yang secara tepat diklasifikasikan oleh

R

coverage(R) = ncovers /|D| /* D: kumpulan training data */

accuracy(R) = ncorrect / ncovers

operator logika ∧ (AND), ∨ (OR), ∼ (NOT).

b. Jika lebih dari satu aturan yang dipicu, maka diperlukan

sebuah resolusi konflik

c. Ukuran pemesanan: menetapkan prioritas tertinggi dengan

aturan memicu yang memiliki "terberat" persyaratan (yaitu,

dengan tes atribut yang paling)

d. Kelas berbasis memesan: urutan penurunan biaya prevalensi

atau kesalahan klasifikasi per kelas

Peraturan-berbasis memesan (daftar keputusan): aturan

akan disusun dalam satu daftar prioritas jangka, menurut

beberapa ukuran kualitas peraturan atau oleh para ahli.

2.3 Classifier Accuracy Measurables

Classifier Accuracy Measures (Han dan Kamber, 2006 : 360) adalah

metode klasifikasi yang dilakukan berdasarkan tingkat akurasi model dalam

melakukan prediksi. Hal ini dilakukan karena keakuratan dalam mengolah data

merupakan salah satu hal yang penting.

Metode yang digunakan untuk menguji tingkat akurasi model klasifikasi

ini adalah metode hold out. Dalam metode ini, data asli dipartisi menjadi dua

Page 22: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

29

himpunan yang saling terpisah yang dinamakan training set dan test set. Model

klasifikasi kemudian dibangun berdasarkan training set dan hasilnya kemudian

dievaluasi dengan menggunakan testing set. Akurasi dari masing-masing metode

klasifikasi dapat diestimasi berdasarkan akurasi yang diperoleh dari test set.

Proporsi antara training set dan test set tidak mengikat tetapi agar variansi dalam

model tidak terlalu besar maka dapat ditentukan bahwa proporsi training set

lebih besar daripada test set-nya. Biasanya 2/3 dari data dijadikan training set

dan 1/3 lagi dijadikan testing set.

Ukuran dari tingkat akurasi sebuah classifier dapat ditentukan dengan

menggunakan perhitungan-perhitungan Classifier Accuracy Measurables, yaitu

sebagai berikut:

Sensivity =

Specificity =

Precision =

Accuracy = sensivity + specifity

t_pos adalah jumlah true positive yaitu jumlah data yang berhasil di

prediksi oleh classifier dengan benar (misalkan jumlah data kelas “yes” dari

sampel yang secara benar dapat di prediksi sebagaimana mestinya oleh model

klasifikasi), pos adalah jumlah sampel data positives (“yes”), t_neg adalah

jumlah true negatives yaitu adalah kebalikan dari true positive (misalkan jumlah

data kelas “no” dari sampel yang benar dapat diprediksi sebagaimana mestinya

oleh model klasifikasi), neg adalah jumlah total sampel negatives (“no” ), dan

Page 23: BAB 2 LANDASAN TEORI - library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2/2012-1-00314-SI Bab2001.pdf · memprediksikan nilai-nilai data yang tidak tersedia ... pada identifikasi

30

f_pos adalah false positives yaitu jumlah data yang salah di prediksi oleh

classifier (“no” diprediksi sebagai “yes”).

Sensivity adalah ukuran tingkatan derajat classifier dapat mengenal

positives samples (“yes”) berdasarkan jumlah true positives yang dapat

diprediksi secara benar jika yang diberikan adalah sampel positives.

Specificity adalah ukuran tingkatan derajat classifier dapat mengenal

negatives samples (“no”) berdasarkan true negatives yang dapat diprediksi

secara benar jika yang diberikan adalah sampel negatives.

Precision adalah besarnya presentase classifier dalam menebak dengan

tepat kelas true positives (“yes”) dengan melihat perbandingan true positive

yang dapat diprediksi dengan penjumlahan true positive dan false positive.

Accuracy adalah derajat ukuran yang merupakan fungsi dari Sensivity

dan Specificity model klasifikasi dalam melakukan prediksi.