Download - data mining.ppt

Transcript
Page 1: data mining.ppt

Computer Science CentreUniversity of Indonesia

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Data Mining

Arrianto Mukti Wibowo, 2003

Sumber penulisan:Turban & Aronson, “Decision Support Systems and Intelligent Systems”, chap.

4Robert Groth, “Data Mining: Building Competitive Advantage”, chap 2

Page 2: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Alas an

•Dulu analisa data dilakukan dengan cara memasukkannya ke dalam model.

•Hubungan antar variabel jelas!•Tapi ada kasus, kita tidak tahu

hubungan antar variabel…

Page 3: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Data Mining

•Term used to describe knowledge discovery in databases.

•Includes:–Knowledge extraction–Data pattern processing, etc.

•Automatic discovery even by non-programmers

Page 4: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Karakteris tik

•Sumber data terkubur dalam data historis yang besar.

•Usernya kebanyakan adalah end-user.•Karena ukuran data historis yang besar,

sering menggunakan paralel processing.

•Sering menghasilkan “unexpected result”, hasil yang tak disangka-sangka…

Page 5: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Beberapa Aplikas i

• Analisa kebangkrutan:–Menggunakan neural net untuk menganalisa

performa keuangan perusahaan, dan memprediksi kebangkrutannya

• Help-desk application:–Menggunakan case based reasoning (seperti

expert system), untuk menemukan kasus serupa yang pernah terpecahkan masalahnya dari sekitar 50.000 kasus sebelumnya.

Page 6: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Common types of information from data mining

•Classification•Clustering•Association•Sequencing•Forecasting

Page 7: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Clas s ification

•Infers the defining characteristics of a certain groups

•Example: customers who have been lost to competition

•Istilah penting:–Study: ruang lingkup data mining–Goal: pertanyaan tanpa harus ada korelasi

antar variabel

Page 8: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

• Contoh goal di sebuah perusahaan telco: “I want to understand what makes customers likely to keep

being my customers or leave”• Dataset yang tersedia dibeberkan sampai ke tingkat

customer, dengan atribut– Customer ID– Cust_Type: loyal, lost (dependant variable)– Time_used: penggunaan telepon per bulan average– Survey_result: hasil feedback form– Type_service: jenis layanan yang dipakai– Area: lokasi customer– Trend penggunaan telepon

Page 9: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Clus tering

• Unsupervised learning: we do not tell the computer anything about the variables

• Process of dividing a set of data into distinctive groups.

• Sangat berguna untuk memahami karakeristik pelanggan

• Clusters are generated automatically• Kita bisa menentukan signifikansi dari setiap

cluster

Page 10: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

: Example Clus tering of CarSales

Cluster 2Income: LowChildren: 0

Car: Compact

Cluster 1Income: High

Children: 1Car: Luxury

Cluster 3Income: Medium

Children: 3Car: MPV

Cluster 4Income: Medium

Children: 2Car: Sedan

Page 11: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

: -Example Price vs ProductLine

More menu variety

Limited menu variety

Low Price

High Price

Warteg

McDonalds

TaKorFISIP UI

Ichiban

Lotus

Mie Ayam

KFC

Page 12: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

( )As s oc iation Market Bas ket

• Terutama dipakai untuk menentukan, “Kalau customer membeli produk A, maka kemungkinan produk B terbeli juga adalah …%”

• Contoh:–Cereal dengan susu–DVD player dengan piringan film DVD

• Tapi asosiasi juga bisa untuk menganalisa hal lain seperti:–Hubungan antara demografi dengan produk terjual

Page 13: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

As s ortment Optimization

• Proses menentukan produk-produk apa yang akan kita jual

• Semakin beraneka, harusnya semakin menguntungkan

• Tapi semakin beraneka, akan ada yang saling mensubtitusi keuntungan berkurang

• Padahal semakin beraneka produk yang dijual, carrying cost dan COGS makin besar.

Page 14: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Sales volume & cos t. vs product varie ty

Gross MarginCost

Sales

Variety of products

Dollars

Page 15: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

• Padahal kita harus menentukan produk mana yang akan kita –Tambahkan–HilangkanDari etalase kita

• Masing-masing memiliki dampak pada sales dan biaya

• Harus dicari titik yang paling menguntungkan!

Page 16: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Sequencing

•Mirip dengan asosiasi, tetapi berkaitan dengan waktu

•Misalnya:–Kunjungan berulang ke sebuah gerai/toko/

supermarket dalam waktu yang berbeda

Page 17: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Text Mining

•Serupa dengan “text retrieval”

Page 18: data mining.ppt

I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P

Tips dalam Data Mining

•Anda harus memahami domain masalah

•Sangat dianjurkan untuk memahami statistik

•Tidak mungkin membuat implementasi dan mengoperasikan data mining dengan benar, tanpa memahami domain masalah.

•Mengapa?


Top Related