2-pengenalan data mining

MODUL AJAR MATA KULIAH DATA MINING

PENGENALAN DATA MINING

Ridlo Sayyidina Auliya, ST. Tria Rovika, Yana Bonita

Program Teknologi Informasi dan Ilmu Komputer

Universitas Brawijaya

1. PENDAHULUAN

Seiring dengan berkembangnya teknologi, kemampuan manusia dalam mengumpulkan

dan mengolah informasi juga berkembang pesat. Penggunaan sistem komputer dalam

berbagai bidang menghasilkan data yang sangat besar. Data yang dikumpulkan dari

berbagai kegiatan kemudian menjadi informasi yang sangat berguna.

Dalam menyimpan data-data tersebut digunakanlah database yang diterapkan dalam

manajemen data dari berbagai kegiatan di bidang industri, ilmu pengetahuan, administrasi

pemerintah, dan sebagainya. Data-data tersebut jumlahnya sangat besar dan terus

berkembang dengan cepat. Sayangnya dari jumlah tersebut yang dapat diolah menjadi

informasi jumlahnya sangat sedikit, sehingga kemampuan pengolahan data untuk

menghasilkan informasi yang berguna sangat dibutuhkan. Untuk itulah dikembangkan data

mining dan data warehousing.

Gambar 1 Perkembangan Data Mining

1 9 6 0 -a nD a ta

c o lle c tion ,

d a ta b a se

c re a tio n, IM S

a n d n e tw o rk D B M S

1 9 7 0 -a nR e la tio na l d a ta m o d e l,

R e la tio na l

D B M S im p le m en ta tio n

1 9 8 0 -a nR D B M S

, A d v a n ce d d a ta m o d e ls

(e x te n d ed -

re la tio na l, O O ,

d e d u c tive , e tc .

1 9 9 0 -a nD a ta

M in in g , D a ta

w a re h o us in g ,

M u ltim ed ia

d a ta b a se s , a n d

W e b d a ta b a s

e s

2 0 0 0 -a nS tre a m

d a ta m a n a g e m

e n t a n d m in in g ,

D a ta m in in g w ith a

v a r ie ty o f a p p lic a tio n s , W e b tec h n o log y a n d g lo b a l

in fo rm a tio n

sy s te m s

2. DEFINISI DATA MINING

Data mining mengacu pada proses mengekstraksi atau melakukan proses mining

informasi dari data dalam jumlah besar. Data mining melakukan ekstraksi secara non-

trivial terhadap informasi yang sifatnya eksplisit, tidak diketahui, namun mungkin berguna

dari suatu data.

Data mining banyak dikaitkan dengan analisa data, software digunakan untuk mencari

pola dan keteraturan dalam himpunan data. Data mining diartikan sebagai suatu proses

ekstraksi informasi berguna dan potensial dari sekumpulan data yang terdapat secara

implisit dalam suatu basis data [1]. Istilah lain juga digunakan untuk menyebut data

mining, seperti knowledge mining from databases, knowledge extraction, data archeology,

data tredging, data analysis, dan sebagainya. Data mining juga berkaitan dengan data

warehouse dan OLAP (On-Line Analytical Processing).

Data mining berawal dari beberapa disiplin ilmu, diantaranya statistika, machine

learning, kecerdasan buatan atau artificial intelligence, sistem database, dan visualisasi.

Disiplin ilmu ini membentuk data mining dengan tujuan untuk memperbaiki teknik

pengumpulan dan pengolahan data tradisional menjadi lebih modern guna menangani

permasalahan diantaranya jumlah data yang sangat besar, dimensi data yang sangat tinggi,

dan data yang sifatnya heterogen dan beragam. Data mining merupakan inti dari proses

Knowledge Discovery in Databases (KDD).

3. JENIS DATA DALAM DATA MINING

Berikut merupakan jenis data pada data mining [2]:

- Database, Data Warehouse, Transactional Database

- Data Streams dan Sensor Data

- Time-Series Data, Temporal Data, Sequence Data

- Struktur Data, Graph, Social Network, Database Link

- Object-relational Database

- Spatial Data

- Spatiotemporal Data

- Multimedia Database

- Text Database

- The World-Wide-Web

4. TASK DALAM DATA MINING

Berikut merupakan metode yang digunakan oleh data mining dalam mengumpulkan dan

mengolah data [2]:

1. Metode Prediksi

Dengan menggunakan beberapa variabel untuk memprediksi nilai yang belum

diketahui (unknown) atau nilai selanjutnya (future) dari variabel lain. Contoh :

classification, regression, deviation detection.

2. Metode Deskripsi

Menemukan pola pendeskripsian data yang dapat diinterpretasikan oleh manusia.

Contoh : clustering, association rule discovery, sequential pattern discovery

5. MODEL DATA MINING

Dalam data mining terdapat model yang digunakan untuk melakukan proses ektraksi

informasi dari data-data yang didapatkan. Menurut IBM, model data mining dapat dibagi

menjadi 2 bagian utama, yakni verification dan discovery model.

- Verification Model

Model ini menggunakan perkiraan atau hipotesis dari user dan melakukan pengujian

terhadap hipotesis tersebut dengan data yang ada. Inti dari model ini adalah user yang

bertanggung jawab terhadap penyusunan hipotesis dan permasalahan pada data untuk

menegaskan hipotesis yang diambil.

- Discovery Model

Pada model ini, sistem yang akan secara langsung menemukan informasi dari data

yang ada. Data-data akan dipiliah untuk menentukan suatu pola tanpa adany campur

tangan user. Model ini memiliki kelebihan dimana informasi dapat ditemukan dalam

waktu yang singkat.

6. TAHAPAN DATA MINING

Data-data dalam sistem data mining tidak dapat digunakan begitu saja dan harus melalui

proses persiapan data agar dengan komputasi minimal menghasilkan hasil yang maksimal.

Proses persiapan data dapat mencapai 60% dari keseluruhan proses dalam data mining.

Tahapan yang harus dilalui dalam data mining adalah sebagai berikut :

Gambar 2 Tahapan Data Mining

1. Relational Database

Sebuah database dibangun dari serangkaian tabel dimana setiap tabelnya disimpan

sebagai sebuah file. Sebagian besar database dibangun sehingga bisa beroperasi

dalam OLTP (On-Line Transaction Processing), yakni tipe akses yang digunakan

untuk kegiatan yang membutuhkan transaksi dalam jumlah sangat besar. Bentuk data

yang tersimpan dalam database inilah yang dapat diolah oleh sistem data mining.

2. Ekstraksi Data

Dalam data mining, kemampuan untuk mengumpulkan data dengan cepat sangat

dibutuhkan karena data ditempatkan di lokasi yang berbeda-beda. Misalnya saja agar

pengaksesan data lebih cepat, maka data biasanya ditempatkan pada suatu server

terpusat daripada meletakkannya dalam server-server yang terpisah.

3. Transformasi Data

Pada proses sebelumnya, data telah diekstraksi ke dalam sebuah media

penyimpanan tunggal setelah dihimpun dari berbagai media penyimpanan.

Selanjutnya data akan diringkas dengan mengasumsikan bahwa data telah tersimpan

dalam tempat penyimpanan tunggal. Proses inilah yang disebut dengan transformasi.

4. Pembersihan Data

Data-data yang telah terkumpul selanjutnya akan dibersihkan. Hal ini dilakukan

untuk membuang record yang salah, melakukan standardisasi atribut-atribut,

merasionalisasi struktur data, dan mengendalikan data yang hilang. Data-data cacat

dan tidak konsisten akan membuat hasil data mining tidak akurat.

5. Bentuk Standar

Selain dibersihkan, data juga akan melalui proses standardisasi yakni bentuk yang

dapat diakses oleh algoritma data mining. Bentuk standar ini pada umumnya adalah

spreadsheet. Spreadsheet bekerja dengan baik karena dapat mempresentasikan kasus

dan fitu dengan baris dan kolom.

6. Reduksi Data dan Fitur

Setelah data berada dalam bentuk standar spreadsheet, maka akan dilakukan

pertimbangan untuk melakukan reduksi data dan fitur. Alasan utama untuk

mengurangi jumlah fitur yakni agar data lebih mudah diolah dan kinerja algoritma

tidak menurun.

7. Menjalankan Algoritma

Bila seluruh proses telah dijalankan, maka algoritma data mining siap dijalankan.

7. FUNGSIONALITAS DATA MINING

Data mining memiliki sifat dependen terhadap aplikasi yang terkait sehingga perbedaan

aplikasi juga akan mempengaruhi perbedaan teknik data mining yang digunakan. Hal ini

dikarenakan terdapat kelebihan dan kekurangan dari masing-masing metode pencarian

informasi. Sehingga data mining harus menyesuaikan antara keperluan dan kebutuhan

dengan teknik yang akan diterapkan. Berikut adalah fungsionalitas dalam data mining,

yakni macam-macam informasi yang dapat ditemukan dalam sekumpulan data [1] :

4.1 Mining Asscociation Rule

Mining association rule merupakan pencarian aturan-aturan hubungan antar item

dari suatu database atau database relasional. Tujuan mining association rule ini

yakni menemukan suatu himpunan hubungan antar item dalam bentuk A1A…AAm

=> B1A…ABn dimana A, ( for I E {1,…,m}) dan B; {for j C {1,…,n}} merupakan

himpunan atribut nilai dari sekumpulan data relevan dalam suatu database.

Sebagai contoh dari sekumpulan data transaksi terdapat hubungan seperti berikut

yakni jika seorang pelanggan membeli selain, ia biasanya juga membeli roti dalam

transaksi yang sama[1]. Pembacaan untuk menemukan hubungan ini mungkin

membutuhkan proses berulang-ulang dalam data transaksi dalam jumlah besar

dengan pola hubungan berbeda. Waktu dan biaya komputasi yang dibutuhkan juga

akan sangat besar sehingga untuk menemukan hubungan tersebut dibutuhkan

algoritma yang efisien dengan metode-metode tertentu.

4.2 Generalisasi, Pencatatan, dan Karakterisasi Multilevel

Generalisasi dan pencatatan merupakan proses analisa data yang paling sering

dilakukan dalam suatu aplikasi. Kegiatan ini juga dikenal dengan istilah OLAP (On-

Line Analytical Processing). Generalisasi dan pencatatan data ini menampilkan

karakteristik umum terhadap sekumpulan data yang dispesifikasikan oleh pemakai

dalam basis data.

4.3 Klasifikasi dan Prediksi Data

Klasifikasi merupakan aplikasi lain yang penting dari data mining. Hal ini sering

disebut mining classification rules [1]. Misalnya sebuah dealer mobil ingin

mengklasifikasikan pelanggannya menurut kecenderungan mereka untuk menyukai

mobil jenis tertentu sehingga para sales yang bekerja akan mengetahui siapa yang

harus didekati, kemana katalog harus dikirim, sehingga akan membantu promosi.

Klasifikasi data merupakan proses untuk memenukan aspek-aspek yang sama

dalam sebuah himpunan obyek dalam database dan mengelompokkannya ke dalam

kelas-kelas yang berbeda menurut model klasifikasi yang ditetapkan. Tujuan dari

klasifikasi yakni menganalisa data training dan membentuk deskripsi yang akurat

atau sebuah model untuk setiap kelas berdasarkan fitur yang tersedia dalam data

tersebut. Deskripsi dari data ini nantinya akan digunakan untuk megklasifikasikan

data yang hendak diuji dalam database atau untuk membangun deskripsi yang lebih

baik untuk setiap kelas dalam database.

4.4 Analisa Cluster

Clustering merupakan proses untuk mengelompokkan sekumpulan data tanpa

suatu atribut kelas yang telah didefinisikan sebelumnya, berdasarkan prinsip

konseptual clustering yakni memaksimalkan dan meminimalkan kemiripan kemiripan

intra kelas. Proses pengelompokan secara fisik atau abstrak obyek-obyek ke dalam

bentuk kelas atau obyek yang sama ini juga dapat disebut unsupervised classification.

Clustering akan sangat membantu dalam pembentukan partisi yang berguna

terhadap sejumlah besar himpunan obyek dengan didasarkan pada prinsip divide and

conquer yang mendekomposisikan suatu sistem skala besar menjadi komponen yang

lebih kecil agar proses desain dan implementasi lebih sederhana.

Prinsip utama perbedaan clustering dan klasifikasi yakni bahwa clustering

digunakan untuk memprediksi kelas dalam format bilangan real dan Boolean.

4.5 Analisa Tren dan Evolution

Fungsi pola sekuensial menganalisa sekumpulan record pada suatu periode waktu,

misalnya untuk menganalisa tren. Misalnya terdapat suatu database yang besar yakni

database transaksi yang terdiri dari nomor pelanggan, waktu transaksi, dan item

transaksi.

Pola dapat ditampilkan sebagai berikut, pelanggan biasanya membeli gula

langsung melakukan transaksi membeli kopi. Dari semua transaksi membeli gula

ternyata hampir seluruhnya terdapat transaksi membeli kopi. Maka dari pola yang ada

dapat dijadikan masukan bahwa telah terjadi suatu kecenderungan dari pelanggan

dimana setiap pelanggan membeli gula maka akan diikuti oleh transaksi membeli

kopi. Untuk memudahkan pelanggan pada transaksi selnajutnya, selanjutnya item

gula dapat diletakkan di dekat item kopi.

8. INTEGRASI SISTEM DATA MINING DENGAN DATABASE, DATA WAREHOUSE,

DAN BUSINESS INTELLIGENCE

Arsitektur suatu sistem data mining dapat digambarkan sebagai berikut :

Suatu sistem data mining harus memiliki hubungan dengan sistem database dan data

warehouse untuk mengoptimalkan kinerjanya. Hubungan yang digunakan antara data

mining, database, dan data warehousing dapat dikategorikan sebagai berikut :

- Loose Coupling, misalkan pengambilan data dari database atau data warehouse.

- Semi-tight Coupling, yakni untuk menambah informasi data mining dengan

mengimplementasikan primitif data mining dalam sistem database atau data warehouse

misalnya sorting, indexing, aggregation, histogram analysis, multiway join, dan

sebagainya.

- Tight Coupling, yakni lingkungan pemrosesan yang sama dimana data mining

terintegrasi dengan sistem database atau data warehouse, mining query, dioptimasi

berdasarkan mining query, indexing, metode pemrosesan query processing methods, dan

sebagainya.

9. APLIKASI DATA MINING

Data mining diterapkan dalam berbagai aplikasi, diantaranya :

1. Analisis dan Manajemen Pasar

- Target Pemasaran

- Customer Relation Management (CRM)

- Market Basket Analysis

- Cross Selling

- Segmentasi Pasar

2. Analisis dan Manajemen Resiko

- Forecasting

- Customer Retention

- Quality Control

- Analisis Kompetensi

3. Deteksi dan Manajemen Fraud (Kecurangan)

4. Text Mining (News Group, Email, dan Analisis Web)

5. Intelligent Query Answering

6. Marketing and Sales Promotion

7. Supermarket Shelf Management

8. Inventory Management

9. Diagnosis Medis

10. Collaborative Filtering

11. Business Intelligence

12. Network Intrusion Detection

13. Spam Detection

14. etc.

10. PERMASALAHAN DALAM DATA MINING

Data mining memuat data dalam jumlah besar dengan beragam tipe data dan tujuan yang

berbeda. Selain itu, data mining juga menggunakan berbagai macam aplikasi dan database

yang berbeda. Tentunya dalam kinerjanya suatu sistem data mining memiliki kendala-

kendala utama sehingga harus dibangun dengan semaksimal mungkin.

1. Efisiensi Algoritma Data Mining

2. Kegunaan, Kepastian, dan Keakuratan Hasil

3. Ekpresi Terhadap Berbagai Jenis Hasil

4. Memperoleh Informasi dari Sumber Data yang Berbeda

5. Proteksi dan Keamanan Data

2-pengenalan data mining

Documents