lkp2 lab1 klp8

21
Lembar Kerja Pratikum 2 Hari/Tanggal : Selasa/18 Februari 2014 Lab : 1 Kelompok : 8 Anggota : - Rudi Hartomo (G64110013) - Weni Handayani (G64110058) - Albert Sebastian (G64110075) - M. Fuad Makarim (G64110113) 1. Buatlah file .arff dari file irisData.xls!

Upload: weni-handayani

Post on 22-Jun-2015

88 views

Category:

Education


8 download

TRANSCRIPT

Page 1: Lkp2 lab1 klp8

Lembar Kerja Pratikum 2

Hari/Tanggal : Selasa/18 Februari 2014

Lab : 1

Kelompok : 8

Anggota : - Rudi Hartomo (G64110013)

- Weni Handayani (G64110058)

- Albert Sebastian (G64110075)

- M. Fuad Makarim (G64110113)

1. Buatlah file .arff dari file irisData.xls!

Page 2: Lkp2 lab1 klp8

2. Bukalah iris.arff dari folder data pada weka! Ada berapakah jumlah atribut dan data yang ada pada data set tersebut? Jelaskan karakteristik / properties data dari masing-masing atribut pada data set iris.arff tersebut!

a. Terdapat 5 Atribut, yaitu sepallength, sepalwidth, petallength, petalwidth, class. Dan ada 30 data yang ada pada data set, seperti pada gambar berikut.

Page 3: Lkp2 lab1 klp8

b. Berikut ini karakteristik / properties data dari masing-masing atribut pada data set iris.arff

i. Atribut sepallength tidak memiliki missing value dan memiliki 22 jenis data numeric yang berbeda. Atribut ini juga memiliki nilai unik sebanyak 17 data (57%). Nilai minimumnya adalah 4,4 , nilai maksimumnya adalah 7,6 , dan nilai rataannya adalah 5,843 , serta standar deviasinya adalah 0,964.

Page 4: Lkp2 lab1 klp8

ii. Atribut sepalwidth tidak memiliki missing value dan memiliki 14 jenis data numeric yang berbeda. Atribut ini juga memiliki nilai unik sebanyak 4 data (13%). Nilai minimumnya adalah 2,3 , nilai maksimumnya adalah 3,9 , dan nilai rataannya adalah 3,04 , serta standar deviasinya adalah 0,373.

iii. Atribut petallength tidak memiliki missing value dan memiliki 19 jenis data numeric yang berbeda. Atribut ini juga memiliki nilai unik sebanyak 13 data (43%). Nilai minimumnya adalah 1,3 , nilai maksimumnya adalah 6,6 , dan nilai rataannya adalah 3,863 , serta standar deviasinya adalah 1,881.

iv. Atribut petalwidth tidak memiliki missing value dan memiliki 15 jenis data numeric yang berbeda. Atribut ini juga memiliki nilai unik sebanyak 8 data (27%). Nilai minimumnya adalah

Page 5: Lkp2 lab1 klp8

0,1 , nilai maksimumnya adalah 2,5 , dan nilai rataannya adalah 1,213 , serta standar deviasinya adalah 0,789.

v. Atribut class tidak memiliki missing value dan memiliki 3 jenis data nominal yang berbeda. Atribut ini tidak memiliki nilai unik.

3. Bukalah soybean.arff dari folder data pada weka! Sebutkan atribut yang mengandung data missing value beserta jumlah missing value-nya!

1) Nama atribut = date, jumlah missing value = 1

2) Nama atribut = plant-stand , jumlah missing value = 36

Page 6: Lkp2 lab1 klp8

3) Nama atribut = precip, jumlah missing value = 38

4) Nama atribut = temp, jumlah missing value = 30

5) Nama atribut = hail, jumlah missing value = 121

6) Nama atribut =crop-hist, jumlah missing value = 16

Page 7: Lkp2 lab1 klp8

7) Nama atribut = area-damage, jumlah missing value = 1

8) Nama atribut = severity, jumlah missing value = 121

9) Nama atribut = seed-tmt, jumlah missing value = 121

10) Nama atribut = germination, jumlah missing value = 112

Page 8: Lkp2 lab1 klp8

11) Nama atribut = plant-growth, jumlah missing value = 16

12) Nama atribut = leafspots-halo, jumlah missing value = 84

13) Nama atribut = leafspots-marg, jumlah missing value = 84

14) Nama atribut = leafspots-size, jumlah missing value = 84

Page 9: Lkp2 lab1 klp8

15) Nama atribut = leaf-shread, jumlah missing value = 100

16) Nama atribut = leaf-malf, jumlah missing value = 84

17) Nama atribut = leaf-mild, jumlah missing value = 108

Page 10: Lkp2 lab1 klp8

18) Nama atribut = stem, jumlah missing value = 16

19) Nama atribut = lodging, jumlah missing value = 121

20) Nama atribut = stem-cankers, jumlah missing value = 38

21) Nama atribut = canker-lesion, jumlah missing value = 38

Page 11: Lkp2 lab1 klp8

22) Nama atribut = fruiting-bodies, jumlah missing value = 106

23) Nama atribut = external-decay, jumlah missing value = 38

24) Nama atribut = mycelium, jumlah missing value = 38

25) Nama atribut = int-discolor, jumlah missing value = 38

Page 12: Lkp2 lab1 klp8

26) Nama atribut = sclerotia, jumlah missing value = 38

27) Nama atribut = fruit-pods, jumlah missing value = 84

28) Nama atribut = fruit-spots, jumlah missing value = 106

29) Nama atribut = seed, jumlah missing value = 92

Page 13: Lkp2 lab1 klp8

30) Nama atribut = mold-growth, jumlah missing value = 92

31) Nama atribut = seed-discolor, jumlah missing value = 106

32) Nama atribut = seed-size, jumlah missing value = 92

33) Nama atribut = shriveling, jumlah missing value = 106

34) Nama atribut = roots, jumlah missing value = 31

Page 14: Lkp2 lab1 klp8

4. Bukalah weather.nominal.arff dan weather.numeric.arff dari folder data pada weka! Apakah perbedaan karakteristik / properties yang ditampilkan oleh weka ?

a. weather.nominal.arffAtribut yang terdapat pada weather.nominal.arff adalah sebagai berikut.

Berikut karakteristik/properties yang ditampilkan weka dari masing-masing atribut pada weather.nominal.arff

Page 15: Lkp2 lab1 klp8

b. weather. numeric.arffAtribut yang terdapat pada weather. numeric.arff adalah sebagai berikut.

Berikut karakteristik/properties yang ditampilkan weka dari masing-masing atribut pada weather.nominal.arff

Page 16: Lkp2 lab1 klp8
Page 17: Lkp2 lab1 klp8

Jadi, perbedaan karakteristik / properties yang ditampilkan oleh weka dari weather.nominal.arff dan weather.numeric.arff sebagai berikut.a. weather.nominal.arff : terlihat label data beserta banyaknya data, sehingga dapat

dilihat modusnya.b. weather.numeric.arff : terlihat label data beserta nilai minimum, nilai maksimum,

besarnya rata-rata, dan standar deviasi data tersebut.

5. Bukalah soybean.arff dan labor.arff dari folder data pada weka! Kedua data tersebut masing-masing memiliki atribut dengan missing value. Sebutkan masing-masing atribut dan persentase missing valuenya!

Soybean.arff

Atribut yang memiliki missing value dan persentasenya:

Atribut Missing Values (%)Date 0Plant-stand 5Precip 6Temp 4Hail 18Crop-hist 2Area-damaged 0Severity 18Seed-tmt 18Germination 16Plant-growth 2Leaves 0Leafspots-halo 12Leafspots-marg 12Leafspot-size 12Leaf-shread 15Leaf-malf 12Leaf-mild 16Stem 2Lodging 18Stem-cankers 6Canker-lesion 6Fruiting-bodies 16External-decay 6Mycelium 6Int-discolor 6Sclerotia 6Fruit-pods 12Fruit-spots 16Seed 13Mold-growth 13

Page 18: Lkp2 lab1 klp8

Seed-discolor 16Seed-size 13Shriveling 16Roots 5Class 0

Labor.arff

atribut Missing Values (%)Duration 2Wage-increasi-first-year 2Wage-increasi-second-year 19Wage-increasi-third-year 74Cost-of-living-adjustment 35Working-hours 11Pension 53Stanby-pay 84Shift-differential 46Education-allowance 61Statutory-holidays 7Vocation 11Longterm-disability-assistance 51Contribution-to-dental-plan 35Bereavement-assistance 47Contribution-to-health-plan 35class 0

6. Apakah perlakuan untuk menangani data yang missing value sama antara soybean.arff dan labor.arff? Jelaskan!

Berbeda, karena data pada soybean.arff adalah data dengan tipe nominal, sementara data pada labor.arff memiliki banyak data yang bertipe numeric dan nominal. Jika missing value yang harus ditangani pada keduanya ada pada data bertipe nominal maka perlakuannya sama, dapat mengisi nilai yang hilang tersebut berdasarkan modus (data yang paling banyak keluar). Sementara kalau data yang hilang pada labor.arff adalah data dengan tipe numeric maka missing value tersebut harus diisi dengan rata-rata data yang ada agar tidak terlalu mempengaruhi nilai data (tidak berdasarkan modus).