soalpemanasandatamining-gemastik2011
TRANSCRIPT
SOAL WARMING UP
PENGGALIAN DATA
GEMASTIK 2011
1. Dari beberapa metode klasifikasi populer berikut ini, manakah yang paling sesuai digunakan
untuk klasifikasi data stream yang selalu berubah secara dinamis ?
a) Naive Bayesian
b) Support Vector Machine
c) k-nearest neighbor
d) Binary tree
2. Misalkan ada potongan data dalam basis data yang berisi dua data berikut :
Seq_id Sequence
1 <a1, b2, a3, b4, …, a9, b10>
2 <a1, a2, a3, a4, …, a9, a10>
Anggap minimum supportnya adalah 2, dan ai != bj untuk setiap nilai i dan j.
Manakah dari berikut ini yang merupakan complete set dari closed sequential patterns-nya ?
Perhatikan bahwa sequential pattern s dianggap close jika tidak ada sequential pattern p
sehingga s dan p mempunyai support (seperti frekuensi) dan s adalah proper subsequence dari
p.
a) <a1, a2, a3, a4>
b) <a1, a3, a5, a7, a9>
c) <b2, b3, b4, b5, b6>
d) <a1, a2, a3, a4, …, a10>
3. Berikut ini yang BUKAN merupakan tujuan melakukan data mining untuk menemukan struktur
indeks graph yang efisien adalah :
a) mempercepat query dalam graph database
b) mudah menemukan data dalam sebuah graph
c) membuat graph menjadi lebih kompleks dan luas
d) memperbanyak vertex dalam sebuah graph.
4. Berikut ini beberapa ciri yang dimiliki oleh algoritma k-means
a) Hasil yang didapatkan akan berbeda-beda jika kita menggunakan seed / input yang berbeda
b) Jumlah klaster akhir pasti sejumlah k-cluster
c) Algoritma K-means hanya dapat menemukan local minima, bukan global minima
d) Semua benar.
5. Berikut ini adalah tujuan dari pruning dalam decision tree learning
a) membuat sebuah decision tree menjadi panjang, tetapi ramping (sedikit cabang)
b) menemukan jumlah yang tepat dari kompleksitas model, menghindari under dan overfitting
c) menemukan node-node baru yang belum terbentuk
d) menemukan cabang-cabang yang dapat di-expand lebih banyak.
6. Manakah dari berikut ini yang merupakan ciri-ciri dari sebuah underfitting
a) model terlalu kompleks, training error dan testing error kecil
b) model terlalu kompleks, training error dan testing error besar
c) model tidak terlalu kompleks, training error dan testing error besar
d) Model tidak terlalu kompleks, training error dan testing error kecil
7. Misalkan dua buah atribut mempunyai covariance = 0. Apakah yang dapat kita ambil
kesimpulan dari relasi antara dua atribut ini ?
a) Kedua atribut tersebut adalah atribut yang sama
b) Kedua atribut tersebut mempunyai data-data yang sama
c) Kedua atribut tersebut mempunyai relasi yang sangat kuat.
d) Kedua atribut tersebut tidak mempunyai relasi linear.
Data untuk soal 8-9
@relation balloons
@attribute size {large, small}@attribute act {stretch, dip}@attribute age {adult, child}@attribute inflated {T, F}
@data
small, stretch, adult, Tsmall, stretch, child, Fsmall, dip, adult, Fsmall, dip, child, Flarge, stretch, adult, Tlarge, stretch, child, Flarge, dip, adult, Flarge, dip, child, F
8. Dengan menggunakan algoritma Prism sequential covering untuk membentuk classification
rules untuk target inflated = T. Dengan menggunakan pengukuran p/t untuk memilih kondisi
paling sesuai untuk dengan target, maka kita akan dapatkan rule:
a) IF act = stretch and age = adult THEN inflated = T
b) IF act = stretch THEN inflated = T
c) IF size = small and age = child THEN inflated = T
d) IF age = adult THEN inflated = T
9. Misalkan kita mendapatkan sebuah rule : IF act=dip THEN inflated=F. Dengan menggunakan
algoritma Prism sequential covering kita dapat menemukan classification rule lain yang
mempunyai target inflated=F, yaitu:
a) IF age=child THEN inflated=F
b) IF age=adult THEN inflated=F
c) IF size=large THEN inflated=F
d) IF size=small THEN inflated=F