Transcript
Page 1: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

1  

DATA PREPROCESSING Budi Susanto (versi 1.2)

Data Preprocessing - Budi Susanto - FTI UKDW

Kenali Data Anda

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Atribut Data ¤ Memahami tipe atribut ¤ Membantu membetulkan data saat integrasi data

¨  Deskripsi Statistik Data ¤ Memudahkan untuk mengisi nilai yang kosong, ¤ memperhalus noise data, ¤ mengetahui outlier selama pemrosesan data

¨  Mengukur Kesamaan dan ketidaksamaan ¤ Dapat berguna juga untuk mendeteksi outlier ¤ Untuk melakukan klasifikasi ¤  Pada umumnya untuk mengukur “kedekatan”.

Page 2: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

2  

Data

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Data yang ada pada umumnya: ¤ Banyak noise ¤ Ukuran yang besar ¤ Dapat merupakan campuran dari berbagai macam

sumber

¨  Memahami data sangat penting untuk tahap preprosesing.

Atribut Data

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Mencerminkan karakteristik objek data. ¨  Tipe atribut menentukan himpunan nilai yang

diperbolehkan. ¤ Nominal ¤ Binary (Binomial) ¤ Ordinal ¤ Numerik

n  Interval-scale n Ratio-scale

¤ Diskret atau Continue

Page 3: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

3  

Deskripsi Statistik

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Mengukur lokasi pusat/tengah dari distribusi data ¤ Mean ¤ Median ¤ Mode ¤ Midrange

Data Mining: Concepts and Techniques, 3th ed., p. 47

Deskripsi Statistik

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Mengukur penyebaran data ¤ Rentang dan Kuartil ¤ Variasi dan Standard Deviasi

Data Mining: Concepts and Techniques, 3th ed., p. 48

Page 4: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

4  

BoxPlot

¨  Interquartil Range (IQR) ¤ Q3 – Q1

¨  Outlier data ¤ 1.5 x IQR

Data Preprocessing - Budi Susanto - FTI UKDW

Mengukur Kesamaan

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Dalam aplikasi data mining, seperti clustering, analisis outlier, klasifikasi nearest-neighbor, membutuhkan cara untuk menilai dua objek data serupa atau tidak. ¤ Minkwoski distance

n Euclidean dan Manhattan

¤ Cosine

Page 5: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

5  

Mengukur Kesamaan

Data Preprocessing - Budi Susanto - FTI UKDW

Mengapa Perlu Data Preprocessing?

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Data mentah yang ada sebagian besar kotor ¤ Tidak komplet

n Berisi data yang hilang/kosong n Kekurangan atribut yang sesuai n Hanya berisi data aggregate

¤ Banyak “noise” n Berisi data yang Outlier n Berisi error

¤ Tidak konsisten n Berisi nilai yang berbeda dalam suatu kode atau nama

Page 6: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

6  

Mengapa Data Preprocessing Penting?

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Data yang tidak berkualitas, akan menghasilkan kualitas mining yang tidak baik pula.

¨  Data Preprocessing, cleaning, dan transformasi merupakan pekerjaan mayoritas dalam aplikasi data mining (90%).

Ukuran Kualitas Data

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Accuracy ¨  Completeness ¨  Consistency ¨  Timeliness ¨  Believability ¨  Value added ¨  Interpretability ¨  Accessibility

Page 7: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

7  

Teknik Data Preprocessing

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Data Cleaning ¨  Data integration ¨  Data Reduction ¨  Data Transformation

Data Cleaning

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Proses untuk membersihkan data dengan beberapa teknik ¤ Memperkecil noise ¤ membetulkan data yang tidak konsisten. ¤ Mengisi missing value ¤ Mengidentifikasi atau membuang outlier

Page 8: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

8  

Data Cleaning: Missing Values

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Mengabaikan record ¤  Biasanya untuk label klasifikasi yang kosong

¨  Mengisikan secara manual ¨  Menggunakan mean/median dari atribut yang

mengandung missing value ¤ Mean dapat dipakai jika distribusi data normal ¤ Median digunakan jika distribusi data tidak normal

(condong) ¨  Menggunakan nilai global ¨  Menggunakan nilai termungkin

¤ Menerapkan regresi

Data Cleaning: Missing Values

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Contoh untuk missing value IPK diisi dengan rata-rata IPK atau diisi dengan nilai IPK yang paling mungkin untuk angkatan 2005 dan Perempuan serta menjadi ibu rumah tangga.

¨  Contoh untuk missing value Pekerjaan, dapat diisi dengan pekerjaan yang paling banyak muncul.

Angkatan IPK Pekerjaan Kelamin

2004 3.45 Programmer L

2005 ? Ibu RT P

2003 2.81 ? P

Page 9: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

9  

Data Cleaning: Noisy Data

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Noise data adalah suatu kesalahan acak atau variasi dalam variabel terukur.

¨  Teknik-teknik ¤ Binning

n Smoothing by bin means n Smoothing by bin medians n Smoothing by bin boundaries

¤ Regression ¤ Outlier Analysis

Metode Binning

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Metode ini akan melakukan pengelompokan terhadap kumpulan data.

¨  Metode binning merupakan salah satu pendekatan dicretization.

¨  Urutan proses: ¤ Urutkan data secara ascending ¤  Lakukan partisi ke dalam bins

n  Dapat dengan equal-width (jarak) atau equal-depth (frekuensi)

¤  Kemudian dapat di-smoothing: smooth by means, smooth by median, smooth by boundaries, dsb.

Page 10: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

10  

Partisi dalam Metode Binning

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Partisi Equal-Width ¤ Algoritma membagi data ke dalam k interval ukuran

yang sama. Lebar interval adalah n w = (max-min)/k

¤ Batasan interval adalah n min+w, min+2w, …, min+(k-1)w

¨  Partisi Equal-depth ¤ Membagi data ke dalam k kelompok dimana tiap

kelompok berisi jumlah yang sama

Contoh Partisi Binning

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Data: 0, 4, 12, 16, 16, 18, 24, 26, 28 ¨  Equal Width

¤ BIN1 = 0, 4 [-, 10] ¤ BIN2 = 12, 16, 16, 18 [10, 20] ¤ BIN3 = 24, 26, 28 [20, +]

¨  Equal Depth ¤ BIN1 = 0, 4, 12 ¤ BIN2 = 16, 16, 18 ¤ BIN3 = 24, 26, 28

Page 11: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

11  

Smoothing pada Partisi Binning

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Smoothing berdasar rata-rata ¤ Semua nilai di tiap bin diganti dengan rata-rata nilai

tiap bin

¨  Smoothing berdasar batasan ¤ Setiap nilai bin diganti dengan nilai yang paling dekat

dari batasan nilai ¤ Batasan nilai terbentuk dari [min, max] tiap bin

Data Cleaning: Outliers

Data Preprocessing - Budi Susanto - FTI UKDW

cluster

outlier

salary

age

Page 12: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

12  

Data Cleaning: Regresi

Data Preprocessing - Budi Susanto - FTI UKDW

x

y

y = x + 1

X1

Y1

(salary)

(age)

Percobaan Data Cleaning

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Dataset ¤ Labor-Negotiations

Page 13: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

13  

Workflow #1

Data Preprocessing - Budi Susanto - FTI UKDW reglin

Data Integration

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Data dapat bersumber dari beberapa sumber ¨  Teknik

¤ Analisis korelasi ¤ Atribut redudan ¤ duplikasi

Page 14: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

14  

Covariance Correlation

Data Preprocessing - Budi Susanto - FTI UKDW integration

Data Transformation

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Tujuannya: diharapkan lebih efisien dalam proses data mining dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami.

¨  Strategi: ¤ Smoothing ¤ Attribute (feature) construction ¤ Aggregation ¤ Normalization ¤ Discretization

Page 15: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

15  

Data Transformation: Aggregation dan Smoothing

Data Preprocessing - Budi Susanto - FTI UKDW coba1

Data Transformation: Normalization

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Unit ukuran dapat mempengaruhi analisis data. ¨  Unit yang lebih kecil akan menghasilkan rentang nilai

yang besar ¤ Atribut akan memiliki “bobot” yang lebih besar dari atribut

lain ¨  Sehingga

¤ Data perlu dinormalisasi atau dibakukan.

¨  Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0] ¨  Diperlukan dalam klasifikasi (termasuk neural network

dan nearest network) dan clustering.

Page 16: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

16  

Data Transformation: Metode Normalization

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Min-max ¨  Z-score ¨  Decimal scaling

normalization

Data Preprocessing - Budi Susanto - FTI UKDW

Page 17: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

17  

Data Transformation: Discretization

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Melakukan pergantian atribut numerik menjadi interval label (misalnya: 0-10,11-20, dst.) atau konseptual label (misalnya: bawah, tengah, atas)

discretization

Data Preprocessing - Budi Susanto - FTI UKDW discret

Page 18: Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi

4/1/13  

18  

Data Transformation: Data Reduction

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Teknik ¤ Dimensionality reduction

n Wavelet transform n Principal Component Analysis n Attribute Subset Selection

¤ Numerosity reduction n  sampling

¤ Data compression

TERIMA KASIH! Budi Susanto

Data Preprocessing - Budi Susanto - FTI UKDW


Top Related