data mining.ppt
TRANSCRIPT
Computer Science CentreUniversity of Indonesia
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Data Mining
Arrianto Mukti Wibowo, 2003
Sumber penulisan:Turban & Aronson, “Decision Support Systems and Intelligent Systems”, chap.
4Robert Groth, “Data Mining: Building Competitive Advantage”, chap 2
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Alas an
•Dulu analisa data dilakukan dengan cara memasukkannya ke dalam model.
•Hubungan antar variabel jelas!•Tapi ada kasus, kita tidak tahu
hubungan antar variabel…
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Data Mining
•Term used to describe knowledge discovery in databases.
•Includes:–Knowledge extraction–Data pattern processing, etc.
•Automatic discovery even by non-programmers
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Karakteris tik
•Sumber data terkubur dalam data historis yang besar.
•Usernya kebanyakan adalah end-user.•Karena ukuran data historis yang besar,
sering menggunakan paralel processing.
•Sering menghasilkan “unexpected result”, hasil yang tak disangka-sangka…
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Beberapa Aplikas i
• Analisa kebangkrutan:–Menggunakan neural net untuk menganalisa
performa keuangan perusahaan, dan memprediksi kebangkrutannya
• Help-desk application:–Menggunakan case based reasoning (seperti
expert system), untuk menemukan kasus serupa yang pernah terpecahkan masalahnya dari sekitar 50.000 kasus sebelumnya.
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Common types of information from data mining
•Classification•Clustering•Association•Sequencing•Forecasting
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Clas s ification
•Infers the defining characteristics of a certain groups
•Example: customers who have been lost to competition
•Istilah penting:–Study: ruang lingkup data mining–Goal: pertanyaan tanpa harus ada korelasi
antar variabel
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
• Contoh goal di sebuah perusahaan telco: “I want to understand what makes customers likely to keep
being my customers or leave”• Dataset yang tersedia dibeberkan sampai ke tingkat
customer, dengan atribut– Customer ID– Cust_Type: loyal, lost (dependant variable)– Time_used: penggunaan telepon per bulan average– Survey_result: hasil feedback form– Type_service: jenis layanan yang dipakai– Area: lokasi customer– Trend penggunaan telepon
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Clus tering
• Unsupervised learning: we do not tell the computer anything about the variables
• Process of dividing a set of data into distinctive groups.
• Sangat berguna untuk memahami karakeristik pelanggan
• Clusters are generated automatically• Kita bisa menentukan signifikansi dari setiap
cluster
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
: Example Clus tering of CarSales
Cluster 2Income: LowChildren: 0
Car: Compact
Cluster 1Income: High
Children: 1Car: Luxury
Cluster 3Income: Medium
Children: 3Car: MPV
Cluster 4Income: Medium
Children: 2Car: Sedan
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
: -Example Price vs ProductLine
More menu variety
Limited menu variety
Low Price
High Price
Warteg
McDonalds
TaKorFISIP UI
Ichiban
Lotus
Mie Ayam
KFC
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
( )As s oc iation Market Bas ket
• Terutama dipakai untuk menentukan, “Kalau customer membeli produk A, maka kemungkinan produk B terbeli juga adalah …%”
• Contoh:–Cereal dengan susu–DVD player dengan piringan film DVD
• Tapi asosiasi juga bisa untuk menganalisa hal lain seperti:–Hubungan antara demografi dengan produk terjual
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
As s ortment Optimization
• Proses menentukan produk-produk apa yang akan kita jual
• Semakin beraneka, harusnya semakin menguntungkan
• Tapi semakin beraneka, akan ada yang saling mensubtitusi keuntungan berkurang
• Padahal semakin beraneka produk yang dijual, carrying cost dan COGS makin besar.
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Sales volume & cos t. vs product varie ty
Gross MarginCost
Sales
Variety of products
Dollars
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
• Padahal kita harus menentukan produk mana yang akan kita –Tambahkan–HilangkanDari etalase kita
• Masing-masing memiliki dampak pada sales dan biaya
• Harus dicari titik yang paling menguntungkan!
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Sequencing
•Mirip dengan asosiasi, tetapi berkaitan dengan waktu
•Misalnya:–Kunjungan berulang ke sebuah gerai/toko/
supermarket dalam waktu yang berbeda
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Text Mining
•Serupa dengan “text retrieval”
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Tips dalam Data Mining
•Anda harus memahami domain masalah
•Sangat dianjurkan untuk memahami statistik
•Tidak mungkin membuat implementasi dan mengoperasikan data mining dengan benar, tanpa memahami domain masalah.
•Mengapa?