data mining.ppt

18

Click here to load reader

Upload: tommy96

Post on 08-Jul-2015

946 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: data mining.ppt

Computer Science CentreUniversity of Indonesia

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Data Mining

Arrianto Mukti Wibowo, 2003

Sumber penulisan:Turban & Aronson, “Decision Support Systems and Intelligent Systems”, chap.

4Robert Groth, “Data Mining: Building Competitive Advantage”, chap 2

Page 2: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Alas an

•Dulu analisa data dilakukan dengan cara memasukkannya ke dalam model.

•Hubungan antar variabel jelas!•Tapi ada kasus, kita tidak tahu

hubungan antar variabel…

Page 3: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Data Mining

•Term used to describe knowledge discovery in databases.

•Includes:–Knowledge extraction–Data pattern processing, etc.

•Automatic discovery even by non-programmers

Page 4: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Karakteris tik

•Sumber data terkubur dalam data historis yang besar.

•Usernya kebanyakan adalah end-user.•Karena ukuran data historis yang besar,

sering menggunakan paralel processing.

•Sering menghasilkan “unexpected result”, hasil yang tak disangka-sangka…

Page 5: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Beberapa Aplikas i

• Analisa kebangkrutan:–Menggunakan neural net untuk menganalisa

performa keuangan perusahaan, dan memprediksi kebangkrutannya

• Help-desk application:–Menggunakan case based reasoning (seperti

expert system), untuk menemukan kasus serupa yang pernah terpecahkan masalahnya dari sekitar 50.000 kasus sebelumnya.

Page 6: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Common types of information from data mining

•Classification•Clustering•Association•Sequencing•Forecasting

Page 7: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Clas s ification

•Infers the defining characteristics of a certain groups

•Example: customers who have been lost to competition

•Istilah penting:–Study: ruang lingkup data mining–Goal: pertanyaan tanpa harus ada korelasi

antar variabel

Page 8: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

• Contoh goal di sebuah perusahaan telco: “I want to understand what makes customers likely to keep

being my customers or leave”• Dataset yang tersedia dibeberkan sampai ke tingkat

customer, dengan atribut– Customer ID– Cust_Type: loyal, lost (dependant variable)– Time_used: penggunaan telepon per bulan average– Survey_result: hasil feedback form– Type_service: jenis layanan yang dipakai– Area: lokasi customer– Trend penggunaan telepon

Page 9: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Clus tering

• Unsupervised learning: we do not tell the computer anything about the variables

• Process of dividing a set of data into distinctive groups.

• Sangat berguna untuk memahami karakeristik pelanggan

• Clusters are generated automatically• Kita bisa menentukan signifikansi dari setiap

cluster

Page 10: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

: Example Clus tering of CarSales

Cluster 2Income: LowChildren: 0

Car: Compact

Cluster 1Income: High

Children: 1Car: Luxury

Cluster 3Income: Medium

Children: 3Car: MPV

Cluster 4Income: Medium

Children: 2Car: Sedan

Page 11: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

: -Example Price vs ProductLine

More menu variety

Limited menu variety

Low Price

High Price

Warteg

McDonalds

TaKorFISIP UI

Ichiban

Lotus

Mie Ayam

KFC

Page 12: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

( )As s oc iation Market Bas ket

• Terutama dipakai untuk menentukan, “Kalau customer membeli produk A, maka kemungkinan produk B terbeli juga adalah …%”

• Contoh:–Cereal dengan susu–DVD player dengan piringan film DVD

• Tapi asosiasi juga bisa untuk menganalisa hal lain seperti:–Hubungan antara demografi dengan produk terjual

Page 13: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

As s ortment Optimization

• Proses menentukan produk-produk apa yang akan kita jual

• Semakin beraneka, harusnya semakin menguntungkan

• Tapi semakin beraneka, akan ada yang saling mensubtitusi keuntungan berkurang

• Padahal semakin beraneka produk yang dijual, carrying cost dan COGS makin besar.

Page 14: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Sales volume & cos t. vs product varie ty

Gross MarginCost

Sales

Variety of products

Dollars

Page 15: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

• Padahal kita harus menentukan produk mana yang akan kita –Tambahkan–HilangkanDari etalase kita

• Masing-masing memiliki dampak pada sales dan biaya

• Harus dicari titik yang paling menguntungkan!

Page 16: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Sequencing

•Mirip dengan asosiasi, tetapi berkaitan dengan waktu

•Misalnya:–Kunjungan berulang ke sebuah gerai/toko/

supermarket dalam waktu yang berbeda

Page 17: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Text Mining

•Serupa dengan “text retrieval”

Page 18: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Tips dalam Data Mining

•Anda harus memahami domain masalah

•Sangat dianjurkan untuk memahami statistik

•Tidak mungkin membuat implementasi dan mengoperasikan data mining dengan benar, tanpa memahami domain masalah.

•Mengapa?