Download - data mining.ppt
![Page 1: data mining.ppt](https://reader038.vdokumen.com/reader038/viewer/2022100518/559c58651a28abfc578b4664/html5/thumbnails/1.jpg)
Computer Science CentreUniversity of Indonesia
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Data Mining
Arrianto Mukti Wibowo, 2003
Sumber penulisan:Turban & Aronson, “Decision Support Systems and Intelligent Systems”, chap.
4Robert Groth, “Data Mining: Building Competitive Advantage”, chap 2
![Page 2: data mining.ppt](https://reader038.vdokumen.com/reader038/viewer/2022100518/559c58651a28abfc578b4664/html5/thumbnails/2.jpg)
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Alas an
•Dulu analisa data dilakukan dengan cara memasukkannya ke dalam model.
•Hubungan antar variabel jelas!•Tapi ada kasus, kita tidak tahu
hubungan antar variabel…
![Page 3: data mining.ppt](https://reader038.vdokumen.com/reader038/viewer/2022100518/559c58651a28abfc578b4664/html5/thumbnails/3.jpg)
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Data Mining
•Term used to describe knowledge discovery in databases.
•Includes:–Knowledge extraction–Data pattern processing, etc.
•Automatic discovery even by non-programmers
![Page 4: data mining.ppt](https://reader038.vdokumen.com/reader038/viewer/2022100518/559c58651a28abfc578b4664/html5/thumbnails/4.jpg)
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Karakteris tik
•Sumber data terkubur dalam data historis yang besar.
•Usernya kebanyakan adalah end-user.•Karena ukuran data historis yang besar,
sering menggunakan paralel processing.
•Sering menghasilkan “unexpected result”, hasil yang tak disangka-sangka…
![Page 5: data mining.ppt](https://reader038.vdokumen.com/reader038/viewer/2022100518/559c58651a28abfc578b4664/html5/thumbnails/5.jpg)
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Beberapa Aplikas i
• Analisa kebangkrutan:–Menggunakan neural net untuk menganalisa
performa keuangan perusahaan, dan memprediksi kebangkrutannya
• Help-desk application:–Menggunakan case based reasoning (seperti
expert system), untuk menemukan kasus serupa yang pernah terpecahkan masalahnya dari sekitar 50.000 kasus sebelumnya.
![Page 6: data mining.ppt](https://reader038.vdokumen.com/reader038/viewer/2022100518/559c58651a28abfc578b4664/html5/thumbnails/6.jpg)
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Common types of information from data mining
•Classification•Clustering•Association•Sequencing•Forecasting
![Page 7: data mining.ppt](https://reader038.vdokumen.com/reader038/viewer/2022100518/559c58651a28abfc578b4664/html5/thumbnails/7.jpg)
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Clas s ification
•Infers the defining characteristics of a certain groups
•Example: customers who have been lost to competition
•Istilah penting:–Study: ruang lingkup data mining–Goal: pertanyaan tanpa harus ada korelasi
antar variabel
![Page 8: data mining.ppt](https://reader038.vdokumen.com/reader038/viewer/2022100518/559c58651a28abfc578b4664/html5/thumbnails/8.jpg)
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
• Contoh goal di sebuah perusahaan telco: “I want to understand what makes customers likely to keep
being my customers or leave”• Dataset yang tersedia dibeberkan sampai ke tingkat
customer, dengan atribut– Customer ID– Cust_Type: loyal, lost (dependant variable)– Time_used: penggunaan telepon per bulan average– Survey_result: hasil feedback form– Type_service: jenis layanan yang dipakai– Area: lokasi customer– Trend penggunaan telepon
![Page 9: data mining.ppt](https://reader038.vdokumen.com/reader038/viewer/2022100518/559c58651a28abfc578b4664/html5/thumbnails/9.jpg)
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Clus tering
• Unsupervised learning: we do not tell the computer anything about the variables
• Process of dividing a set of data into distinctive groups.
• Sangat berguna untuk memahami karakeristik pelanggan
• Clusters are generated automatically• Kita bisa menentukan signifikansi dari setiap
cluster
![Page 10: data mining.ppt](https://reader038.vdokumen.com/reader038/viewer/2022100518/559c58651a28abfc578b4664/html5/thumbnails/10.jpg)
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
: Example Clus tering of CarSales
Cluster 2Income: LowChildren: 0
Car: Compact
Cluster 1Income: High
Children: 1Car: Luxury
Cluster 3Income: Medium
Children: 3Car: MPV
Cluster 4Income: Medium
Children: 2Car: Sedan
![Page 11: data mining.ppt](https://reader038.vdokumen.com/reader038/viewer/2022100518/559c58651a28abfc578b4664/html5/thumbnails/11.jpg)
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
: -Example Price vs ProductLine
More menu variety
Limited menu variety
Low Price
High Price
Warteg
McDonalds
TaKorFISIP UI
Ichiban
Lotus
Mie Ayam
KFC
![Page 12: data mining.ppt](https://reader038.vdokumen.com/reader038/viewer/2022100518/559c58651a28abfc578b4664/html5/thumbnails/12.jpg)
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
( )As s oc iation Market Bas ket
• Terutama dipakai untuk menentukan, “Kalau customer membeli produk A, maka kemungkinan produk B terbeli juga adalah …%”
• Contoh:–Cereal dengan susu–DVD player dengan piringan film DVD
• Tapi asosiasi juga bisa untuk menganalisa hal lain seperti:–Hubungan antara demografi dengan produk terjual
![Page 13: data mining.ppt](https://reader038.vdokumen.com/reader038/viewer/2022100518/559c58651a28abfc578b4664/html5/thumbnails/13.jpg)
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
As s ortment Optimization
• Proses menentukan produk-produk apa yang akan kita jual
• Semakin beraneka, harusnya semakin menguntungkan
• Tapi semakin beraneka, akan ada yang saling mensubtitusi keuntungan berkurang
• Padahal semakin beraneka produk yang dijual, carrying cost dan COGS makin besar.
![Page 14: data mining.ppt](https://reader038.vdokumen.com/reader038/viewer/2022100518/559c58651a28abfc578b4664/html5/thumbnails/14.jpg)
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Sales volume & cos t. vs product varie ty
Gross MarginCost
Sales
Variety of products
Dollars
![Page 15: data mining.ppt](https://reader038.vdokumen.com/reader038/viewer/2022100518/559c58651a28abfc578b4664/html5/thumbnails/15.jpg)
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
• Padahal kita harus menentukan produk mana yang akan kita –Tambahkan–HilangkanDari etalase kita
• Masing-masing memiliki dampak pada sales dan biaya
• Harus dicari titik yang paling menguntungkan!
![Page 16: data mining.ppt](https://reader038.vdokumen.com/reader038/viewer/2022100518/559c58651a28abfc578b4664/html5/thumbnails/16.jpg)
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Sequencing
•Mirip dengan asosiasi, tetapi berkaitan dengan waktu
•Misalnya:–Kunjungan berulang ke sebuah gerai/toko/
supermarket dalam waktu yang berbeda
![Page 17: data mining.ppt](https://reader038.vdokumen.com/reader038/viewer/2022100518/559c58651a28abfc578b4664/html5/thumbnails/17.jpg)
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Text Mining
•Serupa dengan “text retrieval”
![Page 18: data mining.ppt](https://reader038.vdokumen.com/reader038/viewer/2022100518/559c58651a28abfc578b4664/html5/thumbnails/18.jpg)
I n f o r m a t i o n M a n a g e m e n tR E S E A R C H G R O U P
Tips dalam Data Mining
•Anda harus memahami domain masalah
•Sangat dianjurkan untuk memahami statistik
•Tidak mungkin membuat implementasi dan mengoperasikan data mining dengan benar, tanpa memahami domain masalah.
•Mengapa?