soalpemanasandatamining-gemastik2011

SOAL WARMING UP

PENGGALIAN DATA

GEMASTIK 2011

1. Dari beberapa metode klasifikasi populer berikut ini, manakah yang paling sesuai digunakan

untuk klasifikasi data stream yang selalu berubah secara dinamis ?

a) Naive Bayesian

b) Support Vector Machine

c) k-nearest neighbor

d) Binary tree

2. Misalkan ada potongan data dalam basis data yang berisi dua data berikut :

Seq_id Sequence

1 <a1, b2, a3, b4, …, a9, b10>

2 <a1, a2, a3, a4, …, a9, a10>

Anggap minimum supportnya adalah 2, dan ai != bj untuk setiap nilai i dan j.

Manakah dari berikut ini yang merupakan complete set dari closed sequential patterns-nya ?

Perhatikan bahwa sequential pattern s dianggap close jika tidak ada sequential pattern p

sehingga s dan p mempunyai support (seperti frekuensi) dan s adalah proper subsequence dari

p.

a) <a1, a2, a3, a4>

b) <a1, a3, a5, a7, a9>

c) <b2, b3, b4, b5, b6>

d) <a1, a2, a3, a4, …, a10>

3. Berikut ini yang BUKAN merupakan tujuan melakukan data mining untuk menemukan struktur

indeks graph yang efisien adalah :

a) mempercepat query dalam graph database

b) mudah menemukan data dalam sebuah graph

c) membuat graph menjadi lebih kompleks dan luas

d) memperbanyak vertex dalam sebuah graph.

4. Berikut ini beberapa ciri yang dimiliki oleh algoritma k-means

a) Hasil yang didapatkan akan berbeda-beda jika kita menggunakan seed / input yang berbeda

b) Jumlah klaster akhir pasti sejumlah k-cluster

c) Algoritma K-means hanya dapat menemukan local minima, bukan global minima

d) Semua benar.

5. Berikut ini adalah tujuan dari pruning dalam decision tree learning

a) membuat sebuah decision tree menjadi panjang, tetapi ramping (sedikit cabang)

b) menemukan jumlah yang tepat dari kompleksitas model, menghindari under dan overfitting

c) menemukan node-node baru yang belum terbentuk

d) menemukan cabang-cabang yang dapat di-expand lebih banyak.

6. Manakah dari berikut ini yang merupakan ciri-ciri dari sebuah underfitting

a) model terlalu kompleks, training error dan testing error kecil

b) model terlalu kompleks, training error dan testing error besar

c) model tidak terlalu kompleks, training error dan testing error besar

d) Model tidak terlalu kompleks, training error dan testing error kecil

7. Misalkan dua buah atribut mempunyai covariance = 0. Apakah yang dapat kita ambil

kesimpulan dari relasi antara dua atribut ini ?

a) Kedua atribut tersebut adalah atribut yang sama

b) Kedua atribut tersebut mempunyai data-data yang sama

c) Kedua atribut tersebut mempunyai relasi yang sangat kuat.

d) Kedua atribut tersebut tidak mempunyai relasi linear.

Data untuk soal 8-9

@relation balloons

@attribute size {large, small}@attribute act {stretch, dip}@attribute age {adult, child}@attribute inflated {T, F}

@data

small, stretch, adult, Tsmall, stretch, child, Fsmall, dip, adult, Fsmall, dip, child, Flarge, stretch, adult, Tlarge, stretch, child, Flarge, dip, adult, Flarge, dip, child, F

8. Dengan menggunakan algoritma Prism sequential covering untuk membentuk classification

rules untuk target inflated = T. Dengan menggunakan pengukuran p/t untuk memilih kondisi

paling sesuai untuk dengan target, maka kita akan dapatkan rule:

a) IF act = stretch and age = adult THEN inflated = T

b) IF act = stretch THEN inflated = T

c) IF size = small and age = child THEN inflated = T

d) IF age = adult THEN inflated = T

9. Misalkan kita mendapatkan sebuah rule : IF act=dip THEN inflated=F. Dengan menggunakan

algoritma Prism sequential covering kita dapat menemukan classification rule lain yang

mempunyai target inflated=F, yaitu:

a) IF age=child THEN inflated=F

b) IF age=adult THEN inflated=F

c) IF size=large THEN inflated=F

d) IF size=small THEN inflated=F

soalpemanasandatamining-gemastik2011

Documents