data preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/minggu2.pdf ·...
TRANSCRIPT
4/1/13
1
DATA PREPROCESSING Budi Susanto (versi 1.2)
Data Preprocessing - Budi Susanto - FTI UKDW
Kenali Data Anda
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Atribut Data ¤ Memahami tipe atribut ¤ Membantu membetulkan data saat integrasi data
¨ Deskripsi Statistik Data ¤ Memudahkan untuk mengisi nilai yang kosong, ¤ memperhalus noise data, ¤ mengetahui outlier selama pemrosesan data
¨ Mengukur Kesamaan dan ketidaksamaan ¤ Dapat berguna juga untuk mendeteksi outlier ¤ Untuk melakukan klasifikasi ¤ Pada umumnya untuk mengukur “kedekatan”.
4/1/13
2
Data
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Data yang ada pada umumnya: ¤ Banyak noise ¤ Ukuran yang besar ¤ Dapat merupakan campuran dari berbagai macam
sumber
¨ Memahami data sangat penting untuk tahap preprosesing.
Atribut Data
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Mencerminkan karakteristik objek data. ¨ Tipe atribut menentukan himpunan nilai yang
diperbolehkan. ¤ Nominal ¤ Binary (Binomial) ¤ Ordinal ¤ Numerik
n Interval-scale n Ratio-scale
¤ Diskret atau Continue
4/1/13
3
Deskripsi Statistik
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Mengukur lokasi pusat/tengah dari distribusi data ¤ Mean ¤ Median ¤ Mode ¤ Midrange
Data Mining: Concepts and Techniques, 3th ed., p. 47
Deskripsi Statistik
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Mengukur penyebaran data ¤ Rentang dan Kuartil ¤ Variasi dan Standard Deviasi
Data Mining: Concepts and Techniques, 3th ed., p. 48
4/1/13
4
BoxPlot
¨ Interquartil Range (IQR) ¤ Q3 – Q1
¨ Outlier data ¤ 1.5 x IQR
Data Preprocessing - Budi Susanto - FTI UKDW
Mengukur Kesamaan
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Dalam aplikasi data mining, seperti clustering, analisis outlier, klasifikasi nearest-neighbor, membutuhkan cara untuk menilai dua objek data serupa atau tidak. ¤ Minkwoski distance
n Euclidean dan Manhattan
¤ Cosine
4/1/13
5
Mengukur Kesamaan
Data Preprocessing - Budi Susanto - FTI UKDW
Mengapa Perlu Data Preprocessing?
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Data mentah yang ada sebagian besar kotor ¤ Tidak komplet
n Berisi data yang hilang/kosong n Kekurangan atribut yang sesuai n Hanya berisi data aggregate
¤ Banyak “noise” n Berisi data yang Outlier n Berisi error
¤ Tidak konsisten n Berisi nilai yang berbeda dalam suatu kode atau nama
4/1/13
6
Mengapa Data Preprocessing Penting?
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Data yang tidak berkualitas, akan menghasilkan kualitas mining yang tidak baik pula.
¨ Data Preprocessing, cleaning, dan transformasi merupakan pekerjaan mayoritas dalam aplikasi data mining (90%).
Ukuran Kualitas Data
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Accuracy ¨ Completeness ¨ Consistency ¨ Timeliness ¨ Believability ¨ Value added ¨ Interpretability ¨ Accessibility
4/1/13
7
Teknik Data Preprocessing
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Data Cleaning ¨ Data integration ¨ Data Reduction ¨ Data Transformation
Data Cleaning
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Proses untuk membersihkan data dengan beberapa teknik ¤ Memperkecil noise ¤ membetulkan data yang tidak konsisten. ¤ Mengisi missing value ¤ Mengidentifikasi atau membuang outlier
4/1/13
8
Data Cleaning: Missing Values
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Mengabaikan record ¤ Biasanya untuk label klasifikasi yang kosong
¨ Mengisikan secara manual ¨ Menggunakan mean/median dari atribut yang
mengandung missing value ¤ Mean dapat dipakai jika distribusi data normal ¤ Median digunakan jika distribusi data tidak normal
(condong) ¨ Menggunakan nilai global ¨ Menggunakan nilai termungkin
¤ Menerapkan regresi
Data Cleaning: Missing Values
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Contoh untuk missing value IPK diisi dengan rata-rata IPK atau diisi dengan nilai IPK yang paling mungkin untuk angkatan 2005 dan Perempuan serta menjadi ibu rumah tangga.
¨ Contoh untuk missing value Pekerjaan, dapat diisi dengan pekerjaan yang paling banyak muncul.
Angkatan IPK Pekerjaan Kelamin
2004 3.45 Programmer L
2005 ? Ibu RT P
2003 2.81 ? P
4/1/13
9
Data Cleaning: Noisy Data
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Noise data adalah suatu kesalahan acak atau variasi dalam variabel terukur.
¨ Teknik-teknik ¤ Binning
n Smoothing by bin means n Smoothing by bin medians n Smoothing by bin boundaries
¤ Regression ¤ Outlier Analysis
Metode Binning
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Metode ini akan melakukan pengelompokan terhadap kumpulan data.
¨ Metode binning merupakan salah satu pendekatan dicretization.
¨ Urutan proses: ¤ Urutkan data secara ascending ¤ Lakukan partisi ke dalam bins
n Dapat dengan equal-width (jarak) atau equal-depth (frekuensi)
¤ Kemudian dapat di-smoothing: smooth by means, smooth by median, smooth by boundaries, dsb.
4/1/13
10
Partisi dalam Metode Binning
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Partisi Equal-Width ¤ Algoritma membagi data ke dalam k interval ukuran
yang sama. Lebar interval adalah n w = (max-min)/k
¤ Batasan interval adalah n min+w, min+2w, …, min+(k-1)w
¨ Partisi Equal-depth ¤ Membagi data ke dalam k kelompok dimana tiap
kelompok berisi jumlah yang sama
Contoh Partisi Binning
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Data: 0, 4, 12, 16, 16, 18, 24, 26, 28 ¨ Equal Width
¤ BIN1 = 0, 4 [-, 10] ¤ BIN2 = 12, 16, 16, 18 [10, 20] ¤ BIN3 = 24, 26, 28 [20, +]
¨ Equal Depth ¤ BIN1 = 0, 4, 12 ¤ BIN2 = 16, 16, 18 ¤ BIN3 = 24, 26, 28
4/1/13
11
Smoothing pada Partisi Binning
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Smoothing berdasar rata-rata ¤ Semua nilai di tiap bin diganti dengan rata-rata nilai
tiap bin
¨ Smoothing berdasar batasan ¤ Setiap nilai bin diganti dengan nilai yang paling dekat
dari batasan nilai ¤ Batasan nilai terbentuk dari [min, max] tiap bin
Data Cleaning: Outliers
Data Preprocessing - Budi Susanto - FTI UKDW
cluster
outlier
salary
age
4/1/13
12
Data Cleaning: Regresi
Data Preprocessing - Budi Susanto - FTI UKDW
x
y
y = x + 1
X1
Y1
(salary)
(age)
Percobaan Data Cleaning
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Dataset ¤ Labor-Negotiations
4/1/13
13
Workflow #1
Data Preprocessing - Budi Susanto - FTI UKDW reglin
Data Integration
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Data dapat bersumber dari beberapa sumber ¨ Teknik
¤ Analisis korelasi ¤ Atribut redudan ¤ duplikasi
4/1/13
14
Covariance Correlation
Data Preprocessing - Budi Susanto - FTI UKDW integration
Data Transformation
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Tujuannya: diharapkan lebih efisien dalam proses data mining dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami.
¨ Strategi: ¤ Smoothing ¤ Attribute (feature) construction ¤ Aggregation ¤ Normalization ¤ Discretization
4/1/13
15
Data Transformation: Aggregation dan Smoothing
Data Preprocessing - Budi Susanto - FTI UKDW coba1
Data Transformation: Normalization
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Unit ukuran dapat mempengaruhi analisis data. ¨ Unit yang lebih kecil akan menghasilkan rentang nilai
yang besar ¤ Atribut akan memiliki “bobot” yang lebih besar dari atribut
lain ¨ Sehingga
¤ Data perlu dinormalisasi atau dibakukan.
¨ Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0] ¨ Diperlukan dalam klasifikasi (termasuk neural network
dan nearest network) dan clustering.
4/1/13
16
Data Transformation: Metode Normalization
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Min-max ¨ Z-score ¨ Decimal scaling
normalization
Data Preprocessing - Budi Susanto - FTI UKDW
4/1/13
17
Data Transformation: Discretization
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Melakukan pergantian atribut numerik menjadi interval label (misalnya: 0-10,11-20, dst.) atau konseptual label (misalnya: bawah, tengah, atas)
discretization
Data Preprocessing - Budi Susanto - FTI UKDW discret
4/1/13
18
Data Transformation: Data Reduction
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Teknik ¤ Dimensionality reduction
n Wavelet transform n Principal Component Analysis n Attribute Subset Selection
¤ Numerosity reduction n sampling
¤ Data compression
TERIMA KASIH! Budi Susanto
Data Preprocessing - Budi Susanto - FTI UKDW