2-pengenalan data mining
DESCRIPTION
Modul ajar kuliah data mining mengenai pengenalan data miningTRANSCRIPT
MODUL AJAR MATA KULIAH DATA MINING
PENGENALAN DATA MINING
Ridlo Sayyidina Auliya, ST. Tria Rovika, Yana Bonita
Program Teknologi Informasi dan Ilmu Komputer
Universitas Brawijaya
1. PENDAHULUAN
Seiring dengan berkembangnya teknologi, kemampuan manusia dalam mengumpulkan
dan mengolah informasi juga berkembang pesat. Penggunaan sistem komputer dalam
berbagai bidang menghasilkan data yang sangat besar. Data yang dikumpulkan dari
berbagai kegiatan kemudian menjadi informasi yang sangat berguna.
Dalam menyimpan data-data tersebut digunakanlah database yang diterapkan dalam
manajemen data dari berbagai kegiatan di bidang industri, ilmu pengetahuan, administrasi
pemerintah, dan sebagainya. Data-data tersebut jumlahnya sangat besar dan terus
berkembang dengan cepat. Sayangnya dari jumlah tersebut yang dapat diolah menjadi
informasi jumlahnya sangat sedikit, sehingga kemampuan pengolahan data untuk
menghasilkan informasi yang berguna sangat dibutuhkan. Untuk itulah dikembangkan data
mining dan data warehousing.
Gambar 1 Perkembangan Data Mining
1 9 6 0 -a nD a ta
c o lle c tion ,
d a ta b a se
c re a tio n, IM S
a n d n e tw o rk D B M S
1 9 7 0 -a nR e la tio na l d a ta m o d e l,
R e la tio na l
D B M S im p le m en ta tio n
1 9 8 0 -a nR D B M S
, A d v a n ce d d a ta m o d e ls
(e x te n d ed -
re la tio na l, O O ,
d e d u c tive , e tc .
1 9 9 0 -a nD a ta
M in in g , D a ta
w a re h o us in g ,
M u ltim ed ia
d a ta b a se s , a n d
W e b d a ta b a s
e s
2 0 0 0 -a nS tre a m
d a ta m a n a g e m
e n t a n d m in in g ,
D a ta m in in g w ith a
v a r ie ty o f a p p lic a tio n s , W e b tec h n o log y a n d g lo b a l
in fo rm a tio n
sy s te m s
2. DEFINISI DATA MINING
Data mining mengacu pada proses mengekstraksi atau melakukan proses mining
informasi dari data dalam jumlah besar. Data mining melakukan ekstraksi secara non-
trivial terhadap informasi yang sifatnya eksplisit, tidak diketahui, namun mungkin berguna
dari suatu data.
Data mining banyak dikaitkan dengan analisa data, software digunakan untuk mencari
pola dan keteraturan dalam himpunan data. Data mining diartikan sebagai suatu proses
ekstraksi informasi berguna dan potensial dari sekumpulan data yang terdapat secara
implisit dalam suatu basis data [1]. Istilah lain juga digunakan untuk menyebut data
mining, seperti knowledge mining from databases, knowledge extraction, data archeology,
data tredging, data analysis, dan sebagainya. Data mining juga berkaitan dengan data
warehouse dan OLAP (On-Line Analytical Processing).
Data mining berawal dari beberapa disiplin ilmu, diantaranya statistika, machine
learning, kecerdasan buatan atau artificial intelligence, sistem database, dan visualisasi.
Disiplin ilmu ini membentuk data mining dengan tujuan untuk memperbaiki teknik
pengumpulan dan pengolahan data tradisional menjadi lebih modern guna menangani
permasalahan diantaranya jumlah data yang sangat besar, dimensi data yang sangat tinggi,
dan data yang sifatnya heterogen dan beragam. Data mining merupakan inti dari proses
Knowledge Discovery in Databases (KDD).
3. JENIS DATA DALAM DATA MINING
Berikut merupakan jenis data pada data mining [2]:
- Database, Data Warehouse, Transactional Database
- Data Streams dan Sensor Data
- Time-Series Data, Temporal Data, Sequence Data
- Struktur Data, Graph, Social Network, Database Link
- Object-relational Database
- Spatial Data
- Spatiotemporal Data
- Multimedia Database
- Text Database
- The World-Wide-Web
4. TASK DALAM DATA MINING
Berikut merupakan metode yang digunakan oleh data mining dalam mengumpulkan dan
mengolah data [2]:
1. Metode Prediksi
Dengan menggunakan beberapa variabel untuk memprediksi nilai yang belum
diketahui (unknown) atau nilai selanjutnya (future) dari variabel lain. Contoh :
classification, regression, deviation detection.
2. Metode Deskripsi
Menemukan pola pendeskripsian data yang dapat diinterpretasikan oleh manusia.
Contoh : clustering, association rule discovery, sequential pattern discovery
5. MODEL DATA MINING
Dalam data mining terdapat model yang digunakan untuk melakukan proses ektraksi
informasi dari data-data yang didapatkan. Menurut IBM, model data mining dapat dibagi
menjadi 2 bagian utama, yakni verification dan discovery model.
- Verification Model
Model ini menggunakan perkiraan atau hipotesis dari user dan melakukan pengujian
terhadap hipotesis tersebut dengan data yang ada. Inti dari model ini adalah user yang
bertanggung jawab terhadap penyusunan hipotesis dan permasalahan pada data untuk
menegaskan hipotesis yang diambil.
- Discovery Model
Pada model ini, sistem yang akan secara langsung menemukan informasi dari data
yang ada. Data-data akan dipiliah untuk menentukan suatu pola tanpa adany campur
tangan user. Model ini memiliki kelebihan dimana informasi dapat ditemukan dalam
waktu yang singkat.
6. TAHAPAN DATA MINING
Data-data dalam sistem data mining tidak dapat digunakan begitu saja dan harus melalui
proses persiapan data agar dengan komputasi minimal menghasilkan hasil yang maksimal.
Proses persiapan data dapat mencapai 60% dari keseluruhan proses dalam data mining.
Tahapan yang harus dilalui dalam data mining adalah sebagai berikut :
Gambar 2 Tahapan Data Mining
1. Relational Database
Sebuah database dibangun dari serangkaian tabel dimana setiap tabelnya disimpan
sebagai sebuah file. Sebagian besar database dibangun sehingga bisa beroperasi
dalam OLTP (On-Line Transaction Processing), yakni tipe akses yang digunakan
untuk kegiatan yang membutuhkan transaksi dalam jumlah sangat besar. Bentuk data
yang tersimpan dalam database inilah yang dapat diolah oleh sistem data mining.
2. Ekstraksi Data
Dalam data mining, kemampuan untuk mengumpulkan data dengan cepat sangat
dibutuhkan karena data ditempatkan di lokasi yang berbeda-beda. Misalnya saja agar
pengaksesan data lebih cepat, maka data biasanya ditempatkan pada suatu server
terpusat daripada meletakkannya dalam server-server yang terpisah.
3. Transformasi Data
Pada proses sebelumnya, data telah diekstraksi ke dalam sebuah media
penyimpanan tunggal setelah dihimpun dari berbagai media penyimpanan.
Selanjutnya data akan diringkas dengan mengasumsikan bahwa data telah tersimpan
dalam tempat penyimpanan tunggal. Proses inilah yang disebut dengan transformasi.
4. Pembersihan Data
Data-data yang telah terkumpul selanjutnya akan dibersihkan. Hal ini dilakukan
untuk membuang record yang salah, melakukan standardisasi atribut-atribut,
merasionalisasi struktur data, dan mengendalikan data yang hilang. Data-data cacat
dan tidak konsisten akan membuat hasil data mining tidak akurat.
5. Bentuk Standar
Selain dibersihkan, data juga akan melalui proses standardisasi yakni bentuk yang
dapat diakses oleh algoritma data mining. Bentuk standar ini pada umumnya adalah
spreadsheet. Spreadsheet bekerja dengan baik karena dapat mempresentasikan kasus
dan fitu dengan baris dan kolom.
6. Reduksi Data dan Fitur
Setelah data berada dalam bentuk standar spreadsheet, maka akan dilakukan
pertimbangan untuk melakukan reduksi data dan fitur. Alasan utama untuk
mengurangi jumlah fitur yakni agar data lebih mudah diolah dan kinerja algoritma
tidak menurun.
7. Menjalankan Algoritma
Bila seluruh proses telah dijalankan, maka algoritma data mining siap dijalankan.
7. FUNGSIONALITAS DATA MINING
Data mining memiliki sifat dependen terhadap aplikasi yang terkait sehingga perbedaan
aplikasi juga akan mempengaruhi perbedaan teknik data mining yang digunakan. Hal ini
dikarenakan terdapat kelebihan dan kekurangan dari masing-masing metode pencarian
informasi. Sehingga data mining harus menyesuaikan antara keperluan dan kebutuhan
dengan teknik yang akan diterapkan. Berikut adalah fungsionalitas dalam data mining,
yakni macam-macam informasi yang dapat ditemukan dalam sekumpulan data [1] :
4.1 Mining Asscociation Rule
Mining association rule merupakan pencarian aturan-aturan hubungan antar item
dari suatu database atau database relasional. Tujuan mining association rule ini
yakni menemukan suatu himpunan hubungan antar item dalam bentuk A1A…AAm
=> B1A…ABn dimana A, ( for I E {1,…,m}) dan B; {for j C {1,…,n}} merupakan
himpunan atribut nilai dari sekumpulan data relevan dalam suatu database.
Sebagai contoh dari sekumpulan data transaksi terdapat hubungan seperti berikut
yakni jika seorang pelanggan membeli selain, ia biasanya juga membeli roti dalam
transaksi yang sama[1]. Pembacaan untuk menemukan hubungan ini mungkin
membutuhkan proses berulang-ulang dalam data transaksi dalam jumlah besar
dengan pola hubungan berbeda. Waktu dan biaya komputasi yang dibutuhkan juga
akan sangat besar sehingga untuk menemukan hubungan tersebut dibutuhkan
algoritma yang efisien dengan metode-metode tertentu.
4.2 Generalisasi, Pencatatan, dan Karakterisasi Multilevel
Generalisasi dan pencatatan merupakan proses analisa data yang paling sering
dilakukan dalam suatu aplikasi. Kegiatan ini juga dikenal dengan istilah OLAP (On-
Line Analytical Processing). Generalisasi dan pencatatan data ini menampilkan
karakteristik umum terhadap sekumpulan data yang dispesifikasikan oleh pemakai
dalam basis data.
4.3 Klasifikasi dan Prediksi Data
Klasifikasi merupakan aplikasi lain yang penting dari data mining. Hal ini sering
disebut mining classification rules [1]. Misalnya sebuah dealer mobil ingin
mengklasifikasikan pelanggannya menurut kecenderungan mereka untuk menyukai
mobil jenis tertentu sehingga para sales yang bekerja akan mengetahui siapa yang
harus didekati, kemana katalog harus dikirim, sehingga akan membantu promosi.
Klasifikasi data merupakan proses untuk memenukan aspek-aspek yang sama
dalam sebuah himpunan obyek dalam database dan mengelompokkannya ke dalam
kelas-kelas yang berbeda menurut model klasifikasi yang ditetapkan. Tujuan dari
klasifikasi yakni menganalisa data training dan membentuk deskripsi yang akurat
atau sebuah model untuk setiap kelas berdasarkan fitur yang tersedia dalam data
tersebut. Deskripsi dari data ini nantinya akan digunakan untuk megklasifikasikan
data yang hendak diuji dalam database atau untuk membangun deskripsi yang lebih
baik untuk setiap kelas dalam database.
4.4 Analisa Cluster
Clustering merupakan proses untuk mengelompokkan sekumpulan data tanpa
suatu atribut kelas yang telah didefinisikan sebelumnya, berdasarkan prinsip
konseptual clustering yakni memaksimalkan dan meminimalkan kemiripan kemiripan
intra kelas. Proses pengelompokan secara fisik atau abstrak obyek-obyek ke dalam
bentuk kelas atau obyek yang sama ini juga dapat disebut unsupervised classification.
Clustering akan sangat membantu dalam pembentukan partisi yang berguna
terhadap sejumlah besar himpunan obyek dengan didasarkan pada prinsip divide and
conquer yang mendekomposisikan suatu sistem skala besar menjadi komponen yang
lebih kecil agar proses desain dan implementasi lebih sederhana.
Prinsip utama perbedaan clustering dan klasifikasi yakni bahwa clustering
digunakan untuk memprediksi kelas dalam format bilangan real dan Boolean.
4.5 Analisa Tren dan Evolution
Fungsi pola sekuensial menganalisa sekumpulan record pada suatu periode waktu,
misalnya untuk menganalisa tren. Misalnya terdapat suatu database yang besar yakni
database transaksi yang terdiri dari nomor pelanggan, waktu transaksi, dan item
transaksi.
Pola dapat ditampilkan sebagai berikut, pelanggan biasanya membeli gula
langsung melakukan transaksi membeli kopi. Dari semua transaksi membeli gula
ternyata hampir seluruhnya terdapat transaksi membeli kopi. Maka dari pola yang ada
dapat dijadikan masukan bahwa telah terjadi suatu kecenderungan dari pelanggan
dimana setiap pelanggan membeli gula maka akan diikuti oleh transaksi membeli
kopi. Untuk memudahkan pelanggan pada transaksi selnajutnya, selanjutnya item
gula dapat diletakkan di dekat item kopi.
8. INTEGRASI SISTEM DATA MINING DENGAN DATABASE, DATA WAREHOUSE,
DAN BUSINESS INTELLIGENCE
Arsitektur suatu sistem data mining dapat digambarkan sebagai berikut :
Suatu sistem data mining harus memiliki hubungan dengan sistem database dan data
warehouse untuk mengoptimalkan kinerjanya. Hubungan yang digunakan antara data
mining, database, dan data warehousing dapat dikategorikan sebagai berikut :
- Loose Coupling, misalkan pengambilan data dari database atau data warehouse.
- Semi-tight Coupling, yakni untuk menambah informasi data mining dengan
mengimplementasikan primitif data mining dalam sistem database atau data warehouse
misalnya sorting, indexing, aggregation, histogram analysis, multiway join, dan
sebagainya.
- Tight Coupling, yakni lingkungan pemrosesan yang sama dimana data mining
terintegrasi dengan sistem database atau data warehouse, mining query, dioptimasi
berdasarkan mining query, indexing, metode pemrosesan query processing methods, dan
sebagainya.
9. APLIKASI DATA MINING
Data mining diterapkan dalam berbagai aplikasi, diantaranya :
1. Analisis dan Manajemen Pasar
- Target Pemasaran
- Customer Relation Management (CRM)
- Market Basket Analysis
- Cross Selling
- Segmentasi Pasar
2. Analisis dan Manajemen Resiko
- Forecasting
- Customer Retention
- Quality Control
- Analisis Kompetensi
3. Deteksi dan Manajemen Fraud (Kecurangan)
4. Text Mining (News Group, Email, dan Analisis Web)
5. Intelligent Query Answering
6. Marketing and Sales Promotion
7. Supermarket Shelf Management
8. Inventory Management
9. Diagnosis Medis
10. Collaborative Filtering
11. Business Intelligence
12. Network Intrusion Detection
13. Spam Detection
14. etc.
10. PERMASALAHAN DALAM DATA MINING
Data mining memuat data dalam jumlah besar dengan beragam tipe data dan tujuan yang
berbeda. Selain itu, data mining juga menggunakan berbagai macam aplikasi dan database
yang berbeda. Tentunya dalam kinerjanya suatu sistem data mining memiliki kendala-
kendala utama sehingga harus dibangun dengan semaksimal mungkin.
1. Efisiensi Algoritma Data Mining
2. Kegunaan, Kepastian, dan Keakuratan Hasil
3. Ekpresi Terhadap Berbagai Jenis Hasil
4. Memperoleh Informasi dari Sumber Data yang Berbeda
5. Proteksi dan Keamanan Data