data preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/minggu2.pdf ·...

18
4/1/13 1 DATA PREPROCESSING Budi Susanto (versi 1.2) Data Preprocessing - Budi Susanto - FTI UKDW Kenali Data Anda Data Preprocessing - Budi Susanto - FTI UKDW Atribut Data Memahami tipe atribut Membantu membetulkan data saat integrasi data Deskripsi Statistik Data Memudahkan untuk mengisi nilai yang kosong, memperhalus noise data, mengetahui outlier selama pemrosesan data Mengukur Kesamaan dan ketidaksamaan Dapat berguna juga untuk mendeteksi outlier Untuk melakukan klasifikasi Pada umumnya untuk mengukur “kedekatan”.

Upload: hoangcong

Post on 02-Mar-2019

233 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

1  

DATA PREPROCESSING Budi Susanto (versi 1.2)

Data Preprocessing - Budi Susanto - FTI UKDW

Kenali Data Anda

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Atribut Data ¤ Memahami tipe atribut ¤ Membantu membetulkan data saat integrasi data

¨  Deskripsi Statistik Data ¤ Memudahkan untuk mengisi nilai yang kosong, ¤ memperhalus noise data, ¤ mengetahui outlier selama pemrosesan data

¨  Mengukur Kesamaan dan ketidaksamaan ¤ Dapat berguna juga untuk mendeteksi outlier ¤ Untuk melakukan klasifikasi ¤  Pada umumnya untuk mengukur “kedekatan”.

Page 2: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

2  

Data

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Data yang ada pada umumnya: ¤ Banyak noise ¤ Ukuran yang besar ¤ Dapat merupakan campuran dari berbagai macam

sumber

¨  Memahami data sangat penting untuk tahap preprosesing.

Atribut Data

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Mencerminkan karakteristik objek data. ¨  Tipe atribut menentukan himpunan nilai yang

diperbolehkan. ¤ Nominal ¤ Binary (Binomial) ¤ Ordinal ¤ Numerik

n  Interval-scale n Ratio-scale

¤ Diskret atau Continue

Page 3: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

3  

Deskripsi Statistik

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Mengukur lokasi pusat/tengah dari distribusi data ¤ Mean ¤ Median ¤ Mode ¤ Midrange

Data Mining: Concepts and Techniques, 3th ed., p. 47

Deskripsi Statistik

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Mengukur penyebaran data ¤ Rentang dan Kuartil ¤ Variasi dan Standard Deviasi

Data Mining: Concepts and Techniques, 3th ed., p. 48

Page 4: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

4  

BoxPlot

¨  Interquartil Range (IQR) ¤ Q3 – Q1

¨  Outlier data ¤ 1.5 x IQR

Data Preprocessing - Budi Susanto - FTI UKDW

Mengukur Kesamaan

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Dalam aplikasi data mining, seperti clustering, analisis outlier, klasifikasi nearest-neighbor, membutuhkan cara untuk menilai dua objek data serupa atau tidak. ¤ Minkwoski distance

n Euclidean dan Manhattan

¤ Cosine

Page 5: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

5  

Mengukur Kesamaan

Data Preprocessing - Budi Susanto - FTI UKDW

Mengapa Perlu Data Preprocessing?

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Data mentah yang ada sebagian besar kotor ¤ Tidak komplet

n Berisi data yang hilang/kosong n Kekurangan atribut yang sesuai n Hanya berisi data aggregate

¤ Banyak “noise” n Berisi data yang Outlier n Berisi error

¤ Tidak konsisten n Berisi nilai yang berbeda dalam suatu kode atau nama

Page 6: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

6  

Mengapa Data Preprocessing Penting?

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Data yang tidak berkualitas, akan menghasilkan kualitas mining yang tidak baik pula.

¨  Data Preprocessing, cleaning, dan transformasi merupakan pekerjaan mayoritas dalam aplikasi data mining (90%).

Ukuran Kualitas Data

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Accuracy ¨  Completeness ¨  Consistency ¨  Timeliness ¨  Believability ¨  Value added ¨  Interpretability ¨  Accessibility

Page 7: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

7  

Teknik Data Preprocessing

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Data Cleaning ¨  Data integration ¨  Data Reduction ¨  Data Transformation

Data Cleaning

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Proses untuk membersihkan data dengan beberapa teknik ¤ Memperkecil noise ¤ membetulkan data yang tidak konsisten. ¤ Mengisi missing value ¤ Mengidentifikasi atau membuang outlier

Page 8: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

8  

Data Cleaning: Missing Values

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Mengabaikan record ¤  Biasanya untuk label klasifikasi yang kosong

¨  Mengisikan secara manual ¨  Menggunakan mean/median dari atribut yang

mengandung missing value ¤ Mean dapat dipakai jika distribusi data normal ¤ Median digunakan jika distribusi data tidak normal

(condong) ¨  Menggunakan nilai global ¨  Menggunakan nilai termungkin

¤ Menerapkan regresi

Data Cleaning: Missing Values

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Contoh untuk missing value IPK diisi dengan rata-rata IPK atau diisi dengan nilai IPK yang paling mungkin untuk angkatan 2005 dan Perempuan serta menjadi ibu rumah tangga.

¨  Contoh untuk missing value Pekerjaan, dapat diisi dengan pekerjaan yang paling banyak muncul.

Angkatan IPK Pekerjaan Kelamin

2004 3.45 Programmer L

2005 ? Ibu RT P

2003 2.81 ? P

Page 9: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

9  

Data Cleaning: Noisy Data

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Noise data adalah suatu kesalahan acak atau variasi dalam variabel terukur.

¨  Teknik-teknik ¤ Binning

n Smoothing by bin means n Smoothing by bin medians n Smoothing by bin boundaries

¤ Regression ¤ Outlier Analysis

Metode Binning

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Metode ini akan melakukan pengelompokan terhadap kumpulan data.

¨  Metode binning merupakan salah satu pendekatan dicretization.

¨  Urutan proses: ¤ Urutkan data secara ascending ¤  Lakukan partisi ke dalam bins

n  Dapat dengan equal-width (jarak) atau equal-depth (frekuensi)

¤  Kemudian dapat di-smoothing: smooth by means, smooth by median, smooth by boundaries, dsb.

Page 10: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

10  

Partisi dalam Metode Binning

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Partisi Equal-Width ¤ Algoritma membagi data ke dalam k interval ukuran

yang sama. Lebar interval adalah n w = (max-min)/k

¤ Batasan interval adalah n min+w, min+2w, …, min+(k-1)w

¨  Partisi Equal-depth ¤ Membagi data ke dalam k kelompok dimana tiap

kelompok berisi jumlah yang sama

Contoh Partisi Binning

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Data: 0, 4, 12, 16, 16, 18, 24, 26, 28 ¨  Equal Width

¤ BIN1 = 0, 4 [-, 10] ¤ BIN2 = 12, 16, 16, 18 [10, 20] ¤ BIN3 = 24, 26, 28 [20, +]

¨  Equal Depth ¤ BIN1 = 0, 4, 12 ¤ BIN2 = 16, 16, 18 ¤ BIN3 = 24, 26, 28

Page 11: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

11  

Smoothing pada Partisi Binning

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Smoothing berdasar rata-rata ¤ Semua nilai di tiap bin diganti dengan rata-rata nilai

tiap bin

¨  Smoothing berdasar batasan ¤ Setiap nilai bin diganti dengan nilai yang paling dekat

dari batasan nilai ¤ Batasan nilai terbentuk dari [min, max] tiap bin

Data Cleaning: Outliers

Data Preprocessing - Budi Susanto - FTI UKDW

cluster

outlier

salary

age

Page 12: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

12  

Data Cleaning: Regresi

Data Preprocessing - Budi Susanto - FTI UKDW

x

y

y = x + 1

X1

Y1

(salary)

(age)

Percobaan Data Cleaning

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Dataset ¤ Labor-Negotiations

Page 13: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

13  

Workflow #1

Data Preprocessing - Budi Susanto - FTI UKDW reglin

Data Integration

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Data dapat bersumber dari beberapa sumber ¨  Teknik

¤ Analisis korelasi ¤ Atribut redudan ¤ duplikasi

Page 14: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

14  

Covariance Correlation

Data Preprocessing - Budi Susanto - FTI UKDW integration

Data Transformation

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Tujuannya: diharapkan lebih efisien dalam proses data mining dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami.

¨  Strategi: ¤ Smoothing ¤ Attribute (feature) construction ¤ Aggregation ¤ Normalization ¤ Discretization

Page 15: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

15  

Data Transformation: Aggregation dan Smoothing

Data Preprocessing - Budi Susanto - FTI UKDW coba1

Data Transformation: Normalization

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Unit ukuran dapat mempengaruhi analisis data. ¨  Unit yang lebih kecil akan menghasilkan rentang nilai

yang besar ¤ Atribut akan memiliki “bobot” yang lebih besar dari atribut

lain ¨  Sehingga

¤ Data perlu dinormalisasi atau dibakukan.

¨  Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0] ¨  Diperlukan dalam klasifikasi (termasuk neural network

dan nearest network) dan clustering.

Page 16: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

16  

Data Transformation: Metode Normalization

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Min-max ¨  Z-score ¨  Decimal scaling

normalization

Data Preprocessing - Budi Susanto - FTI UKDW

Page 17: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

17  

Data Transformation: Discretization

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Melakukan pergantian atribut numerik menjadi interval label (misalnya: 0-10,11-20, dst.) atau konseptual label (misalnya: bawah, tengah, atas)

discretization

Data Preprocessing - Budi Susanto - FTI UKDW discret

Page 18: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

18  

Data Transformation: Data Reduction

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Teknik ¤ Dimensionality reduction

n Wavelet transform n Principal Component Analysis n Attribute Subset Selection

¤ Numerosity reduction n  sampling

¤ Data compression

TERIMA KASIH! Budi Susanto

Data Preprocessing - Budi Susanto - FTI UKDW