laelakurniawati.files.wordpress.com · web viewpermasalahan kualitas data ditinjau dari aspek...

BAB 4

KUALITAS DATA

Permasalahan kualitas data ditinjau dari aspek pengukuran data dan pengumpulan data:

Kesalahan Pengukuran (Measurement Error)

Mengacu pada permasalahan hasil dari proses pengukuran. Problem yang terjadi adalah nilai yang dicatat berbeda dari nilai sebenarnya untuk beberapa tingkat. Pada atribut kontinyu, beda numerik dari hasil pengukuran dengan nilai sebenarnya disebut dengan “error”.

Yang termasuk dalam jenis kesalahan pengukuran adalah:

Noise: Merupakan komponen random dari suatu error pengukuran. Noise berkaitan dengan dengan modifikasi dari nilai asli. Contoh: Distorsi atau

penyimpangan dari suara orang saat berbicara ditelepon buruk dan “snow”

pada layar televisi

Bias: Adalah suatu variasi pengukuran dari kuantitas yang sedang diukur dengan pengurangan antara mean dan nilai kuantitas yang diketahui

Permasalahan kualitas data ditinjau dari aspek pengukuran data dan pengumpulan data (Lanjutan)

Precision: Adalah kedekatan dari pengukuran berulang (dari kuantitas yang sama) satu dengan yang lainnya. Diukur dengan standard deviasi

Accuracy: Adalah kedekatan pengukuran terhadap nilai sebenarnya dari kuantitas yang sedang diukur

Perbedaan bias dan precision dapat dicontohkan pada soal berikut:

Kita mempunyai berat standar lab suatu benda adalah 1 gram, dan kita ingin

menghitung precision dan bias dari skala benda dari hasil pengukuran yang baru. Kita melakukan pengukuran sebanyak 5 kali dan memperoleh {1.015, 0.990,

1.013, 1.001, 0.986}

Permasalahan kualitas data ditinjau dari aspek pengukuran data dan pengumpulan data (Lanjutan) :

Jawab:

Mean = (1.015 + 0.990 + 1.013 + 1.001 + 0.986)/5 = 1.001 Bias = 1.001 - 1 = 0.001

Precision =

(1.015 െ 1.001)2+(0.990 െ 1.001)2+(1.013 െ 1.001)2+(1.001 െ 1.001)2+(0.986 െ 1.001)2 4

= 0.000171

Permasalahan kualitas data ditinjau dari aspek pengukuran data dan pengumpulan data (Lanjutan):

Kesalahan Pengumpulan (Collection Error)

Mengacu pada kesalahan-kesalahan (error) seperti hilangnya objek data atau nilai atribut, atau lingkup objek data yang tidak tepat.

Yang termasuk dalam jenis kesalahan pengumpulan adalah:

Outliers: Adalah objek data dengan sifat yang berbeda sekali dari kebanyakan objek data dalam data-set


Missing Value: Merupakan nilai dari suatu atribut yang tidak ditemukan. Alasan terjadinya missing value adalah:

- Informasi tidak diperoleh (misal, orang-orang menolak untuk memberikan informasi umur dan berat badan)

- Atribut yang mungkin tidak bisa diterapkan ke semua kasus (misal, pendapatan tahunan tidak bisa diterapkan pada anak-anak)

-Duplicate data: data-set mungkin terdiri dari objek data yang ganda (duplikat), atau

hamper selalu terjadi duplikasi antara satu dengan yang lainnya. Persoalan utama ketika menggabungkan data dari sumber-sumber yang bervariasi (heterogen).

Contoh: orang yang sama dengan alamat email yang lebih dari satu. Pembersihan data

(data cleaning) merupakan proses yang berkaitan dengan permasalahan data yang

duplikat.


Penanganan missing value adalah dengan:

• Mengurangi objek data

• Memperkirakan missing values

• Mengabaikan missing values pada saat analisis

• Mengganti dengan semua nilai yang mungkin (tergantung probabilitasnya)

Pengolahan awal data (data preprocessing)

Data dalam Knowledge Discovery in Database (KDD) mengalami beberapa proses pengolahan. Sebelum diterapkan algoritma data mining terhadap sebuah data-set, perlu dilakukan pengolahan awal yang bertujuan untuk mendapatkan data-set yang dapat diolah dengan cepat dan menghasilkan kesimpulan yang tepat. Beberapa proses pengolahan awal adalah:

Proses pengumpulan (aggregation) Penarikan contoh (sampling)

Pengurangan dimensi (dimensionality reduction) Pemilihan fitur (feature subset selection) Pembuatan fitur (feature creation)

Pendiskritan dan pembineran (discretization and binarization) Transformasi atribut (attribute transformation)

Pengumpulan (aggregation)

Proses pengumpulan (aggregation) adalah proses mengkombinasikan

dua atau lebih atribut-atribut atau objek-objek kedalam satu atribut

tunggal atau objek. Misalkan sebuah data-set yang berisi data transaksi yang mencatat penjualan harian dari produk-produk dibanyak lokasi

toko Indomaret, seperti terlihat pada table berikut:

No_transaksi

Nama Barang

Lokasi toko

Tanggal

Harga

1001122

Supermie ayam

Semolowaru 1

12-3-2016

2000

1001122

Gula 1 kg

Semolowaru 1

12-3-2016

14000

1001123

Buku tulis antik

Ketintang 1

12-3-2016

8000

Pengumpulan (aggregation)

Proses pengumpulan (aggregation) dilakukan untuk mendapatkan sebuah

transaksi aggregasi terhadap data pada tabel tsb, misal untuk mendapatkan

informasi penjualan harian untuk satu lokasi toko saja atau untuk melihat transaksi harian satu buah produk saja. Pada proses agregasi, atribut kuantitatif seperti harga dapat digabungkan atau dikombinasikan dengan operasi sum ataupun rata-rata.

Tujuan dari proses agregasi:

• Pengurangan data (data reduction), yaitu mengurangi jumlah atribut atau objek

• Perubahan skala, misalkan kota yang dikumpulkan atau digabungkan kedalam daerah, propinsi, Negara, dsb

• Lebih menstabilkan data. Data-data yang digabungkan cenderung lebih sedikit variasinya.

Penarikan contoh (sampling)

Penarikan contoh (sampling) merupakan teknik utama yang digunakan untuk seleksi data. Proses ini sering digunakan untuk persiapan penyelidikan dan

analisis data akhir.

Penarikan contoh digunakan dalam data mining karena pengolahan

himpunan data yang diinginkan secara keseluruhan sangat mahal atau

menghabiskan waktu.

Prinsip utama untuk penarikan contoh yang efektif adalah:

• Menggunakan suatu contoh yang akan dapat bekerja hampir sebaik penggunaan data-set keseluruhan, jika contoh tersebut representatif

(bersifat mewakili)

• Suatu contoh dikatakan representatif jika paling tidak mempunyai sifat yang sama (dengan yang diperhatikan) sebagai himpunan data asli

Penarikan contoh (sampling) Lanjutan

Ada beberapa tipe penarikan contoh, yaitu:

• Penarikan contoh acak sederhana. Kemungkinan ada suatu pemilihan item tertentu yang sama

• Penarikan contoh tanpa penggantian. Setiap item yang dipilih dikeluarkan dari populasinya

• Penarikan contoh dengan penggantian. Objek-objek tidak dikeluarkan dari populasi saat objek tersebut dipilih untuk sample. Dalam

penarikan contoh dengan penggantian, objek yang sama dapat terambil lebih dari satu kali

• Penarikan contoh bertingkat (stratified sampling). Membagi data

dalam beberapa bagian (partisi), kemudian menarik contoh dari tiap partisi

Penarikan contoh (sampling) Lanjutan

Ukuran dari sample sangat menentukan keakuratan dari pengambilan kesimpulan jika diterapkan sebuah algoritma data mining. Semakin besar ukuran sample maka hasilnya akan semakin akurat. Namun

demikian, perlu dipertimbangkan juga waktu komputasi. Untuk itu

perlu ditentukan ukuran yang tepat dan tidak terlalu besar.

Pengurangan dimensi (Dimensionality reduction)

Salah satu permasalahan yang harus diatasi dalam penerapan algoritma data mining adalah masalah dimensionalitas. Jika dimensi meningkat, data akan meningkat secara halus dalam daerah yang ditempati. Definisi dari kepadatan dan jarak antar titik, yang merupakan kondisi kritis untuk clustering dan outlier detection, akan menjadi kurang berarti.

Manfaat dari pengurangan dimensi:

• Mencegah terjadinya efek dari dimensionalitas

• Mengurangi jumlah waktu dan memori yang dibutuhkan oleh algoritma data mining

• Membuat data lebih mudah divisualisasikan

• Membantu untuk mengurangi fitur-fitur yang tidak relevan atau mengurangi gangguan/derau

Pengurangan dimensi (Dimensionality reduction)

Teknik-teknik yang biasa digunakan untuk mereduksi jumlah dimensi adalah:

• Principle component analysis (PCA): bertujuan untuk mendapatkan sebuah proyeksi yang menangkap sejumlah variasi data yang paling

besar

• Singular value decomposition

• Supervised dan non-linear techniques

Pemilihan fitur (Feature subset selection)

Salah satu cara untuk mengurangi dimensi adalah dengan memilih fitur yang tepat atau hanya menggunakan atribut-atribut yang diperlukan. Secara koseptual, pemilihan sub-set fitur merupakan suatu proses pencarian terhadap semua kemungkinan sub-set fitur.

Dalam memilih fitur perlu diperhatikan:

1. Fitur-fitur yang redundant, yaitu duplikasi sebagian besar atau semua data informasi yang terkandung dalam satu atau lebih atribut lain.

Contoh, harga pembelian dari sebuah produk dan jumlah pajak

penjualan yang dibayar

2. Fitur-fitur yang tidak relevan yaitu fitur-fitur yang tidak mengandung informasi berguna untuk tugas data mining secara langsung. Contoh,

NIM mahasiswa tidak relevan untuk memprediksi IPK mahasiswa


Teknik yang digunakan untuk memilih sub-set fitur adalah:

• Brute-force approach: Mencoba semua kemungkinan fitur sub-set sebagai masukan algoritma data mining

• Embedded approach: feature selection terjadi secara alami sebagai bagian dari algoritma data mining

• Filter approach: fitur-fitur dipilih sebelum algoritma data mining dijalankan

• Wrapper approach: Menggunakan algoritma data mining sebagai

sebuah kotak hitam untuk mendapatkan sub-set atribut-atribut yang

paling baik


Proses pemilihan fitur terdiri dari empat bagian, yaitu:

1. Sebuah pengukuran untuk mengevaluasi suatu sub-set fitur

2. Sebuah strategi pencarian yang mengontrol pembangkitan sub-set

fitur yang baru

3. Sebuah kriteria penghentian

4. Sebuah prosedur validasi

Pembuatan fitur (Feature creation)

Merupakan proses membuat atribut baru yang dapat menangkap

informasi penting dalam sebuah himpunan data y (ombininang lebih efisien daripada atribut-atribut yang ada. Ada tiga metodologi umum

yang bisa digunakan untuk membuat fitur baru, yaitu:

• Ekstraksi fitur: domain spesifik

• Pemetaan data ke ruang menggunakan transformasi fourier atau transformasi wavelate

• Konstruksi fitur dengan menggabungkan fitur-fitur (combining fitur)

Pendiskritan dan Pembineran (Discretization and binarization)

Beberapa algoritma data mining, khususnya algoritma klasifikasi,

membutuhkan data dalam bentuk atribut katagorikal. Sedangkan

algoritma asosiasi memerlukan data dalam bentuk atribut biner. Transformasi atribut kontinyu kedalam bentuk atribut katagorikal disebut dengan discretization.

Transformasi atribut kontinyu maupun diskrit kedalam bentuk atribut biner disebut binarization.

Binarization (Lanjutan)

Salah satu teknik binarization adalah:

• Jika ada m nilai katagorikal, maka beri untuk setiap nilai tersebut dengan sebuah nilai integer yang unik pada interval [0,m-1]. Jika

atributnya ordinal maka urutan harus diperhatikan dalam proses

pemberian nilai

• Konversikan tiap nilai integer tersebut kedalam bilangan biner Contoh hasil pembineran:

Nilai

Integer

X1

X2

X3

Awful

0

0

0

0

Poor

1

0

0

1

OK

2

0

1

0

Good

3

0

1

1

Great

4

1

0

0


Transformasi dari atribut kontinyu ke atribut katagorikal meliputi dua langkah, yaitu:

• Menentukan berapa banyak katagori. Setelah nilai dari atribut kontinyu diurutkan, kemudian dibagi dalam n interval dengan menentukan n-1 split

point.

• Menentukan bagaimana memetakan nilai-nilai dari atribut kontinyu ke katagori-katagori ini. Semua nilai dalam satu interval dipetakan ke nilai

katagori yang sama.

Discretization untuk tujuan klasifikasi dibedakan menjadi dua, yaitu:

Unsupervised discretization, yaitu metode discretization tanpa menggunakan informasi kelas. Pendekatan yang digunakan adalah:

Pendekatan equal with: membagi range atribut kedalam sejumlah interval yang ditentukan user yang masing-masing mempunyai lebar yang sama

Pendekatan equal frequency (equal depth): menempatkan objek-objek dengan jumlah yang sama dalam tiap interval


Contoh: Ubah atribut taxable income pada tabel dibawah menjadi

atribut katagorikal dengan katagori: rendah, sedang, dan tinggi

Tax Income

125

100

70

120

95

60

220

85

75

90

1. Pendekatan equal width

Range data [60 220]

Rendah: range[60-113] Sedang: range[114-167] Tinggi: range[168-220]

Tax Income baru

S

R

R

S

R

R

R

R

R

R


Contoh: Ubah atribut taxable income pada tabel dibawah menjadi

atribut katagorikal dengan katagori: rendah, sedang, dan tinggi

Tax Income

125

100

70

120

95

60

220

85

75

90

2. Pendekatan equal frequency

Sort data: 60,70,75220

Rendah: 60,70,75

Sedang: 85,90,95

Tinggi: 100,120,125,220

Tax Income baru

T

T

R

T

S

R

T

S

R

S


Supervised discretization

Salah satu pendekatan dalam supervised discretization adalah entropy based approach, yang langkahnya sebagai berikut:

Menentukan entropy: Misalkan diketahui ada k: jumlah klas, mi

jumlah nilai dalam interval ke-i dari sebuah partisi, dan mij: jumlah nilai dariklas j dalam interval i. Maka entropy ei dari interval ke-i adalah:

𝑘

𝑒𝑖=𝑝𝑗𝑙𝑜𝑔2𝑝𝑗

𝑖 =1

Dimana pij = mij/mi adalah probabilitas kelas j dalam interval i


Entropy total, e dari partisi merupakan rata-rata entropy interval terboboti:

𝑛

𝑒 =𝑤𝑖 𝑒𝑖

𝑖=1

Dimana m adalah jumlah nilai, wi=mi/m, dan n: jumlah interval

Entropy dari satu interval merupakan ukuran kemurnian dari suatu interval. Jika interval berisi hanya nilai-nilai dari satu klas maka entropy=0. Jika klas dari nilai dalam satu interval menjadi sama maka entropy maksimum. Langkah paling mudah adalah dengan membagi atribut kontinyu dalam dua interval yang memberikan nilai entropy minimal. Teknik ini perlu mempertimbangkan tiap nilai sebagai split point, karena diasumsikan bahwa interval berisi himpunan nilai yang terurut. Proses splitting diulang untuk interval lain yang secara khusus memilih interval dengan entropy paling besar sampai jumlah interval yang ditentukan tercapai.

Transformasi Atribut

(attribute transformation)

Adalah suatu fungsi yang memetakan keseluruhan himpunan nilai dari

atribut yang diberikan ke suatu himpunan nilai-nilai pengganti yang baru

sedemikian hingga nilai yang lama dapat dikenali dengan satu dari nilai-nilai baru tersebut.

Contoh: fungsi-fungsi sederhana: xk,log(x),ex, 𝑥

Salah satu fungsidari transformasi atribut adalah untuk standarisasi dan normalisasi. Tujuan dari standarisasi dan normalisasi adalah untuk membuat keseluruhan nilai mempunyai suatu sifat khusus. Salah satu contoh transformasi standarisasi adalah:

• Hitung nilai tengah dengan median

• Hitung absolute standard deviation

• Lakukan transformasi dengan persamaan 𝜎𝐴 =

𝑚

𝑖=1

𝑥𝑖 െ 𝜇

laelakurniawati.files.wordpress.com · web viewpermasalahan kualitas data ditinjau dari aspek...

Documents