ukuran kinerja clustering - spada.uns.ac.id

44
Ukuran Kinerja Model KULIAH : 11-11-2021 1

Upload: others

Post on 11-Apr-2022

12 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Ukuran Kinerja Clustering - spada.uns.ac.id

Ukuran Kinerja

ModelKULIAH : 11-11-2021

1

Page 2: Ukuran Kinerja Clustering - spada.uns.ac.id

Ukuran Evaluasi

Evaluasi terhadap suatu classifier umumnya dilakukan

menggunakan sebuah data uji, yang tidak digunakan

dalam pelatihan classifier tersebut.

Ada sejumlah ukuran yang dapat digunakan untuk

menilai atau mengevaluasi model klasifikasi, diantaranya

:

Erraor rate

Recall

Sensitivity

Specificity

dll

2

Page 3: Ukuran Kinerja Clustering - spada.uns.ac.id

Tabel ukuran evaluasi model

klasifikasiNO UKURAN RUMUS

1 Akurasi atau tingkat pengenalan ๐‘‡๐‘ƒ + ๐‘‡๐‘

๐‘ƒ + ๐‘

2 Error rate atau tingkat kesalahan atau keliruan klasifikasi ๐น๐‘ƒ + ๐น๐‘

๐‘ƒ + ๐‘

3 Recall atau sensitivitas atau true positive rate ๐‘‡๐‘ƒ

๐‘‡๐‘ƒ + ๐น๐‘

4 Spesificity atau True Negative rate ๐‘‡๐‘

๐‘

5 Precission ๐‘‡๐‘ƒ

๐‘‡๐‘ƒ + ๐น๐‘ƒ

6 F atau F1 atau F-score atau rata-rata harmonic dari precisson

dan recall

2 ร— ๐‘๐‘Ÿ๐‘’๐‘๐‘–๐‘ ๐‘–๐‘œ๐‘› ร— ๐‘Ÿ๐‘’๐‘๐‘Ž๐‘™๐‘™

๐‘๐‘Ÿ๐‘’๐‘๐‘–๐‘ ๐‘–๐‘œ๐‘› + ๐‘Ÿ๐‘’๐‘๐‘Ž๐‘™๐‘™

7 Fp dimana ๐›ฝ adalah sebuah bilangan riil nonnegatif 1 + ๐›ฝ2 ร— ๐‘๐‘Ÿ๐‘’๐‘๐‘–๐‘ ๐‘–๐‘œ๐‘› ร— ๐‘Ÿ๐‘’๐‘๐‘Ž๐‘™๐‘™

๐›ฝ2 ร— ๐‘๐‘Ÿ๐‘’๐‘๐‘–๐‘ ๐‘–๐‘œ๐‘› + ๐‘Ÿ๐‘’๐‘๐‘Ž๐‘™๐‘™

๐›ฝ ukuran seberapa penting precission

3

Page 4: Ukuran Kinerja Clustering - spada.uns.ac.id

Ukuran Evaluasi Klasifikasi

Ya Tidak Jumlah

Ya TP FN P

Tidak FP TN N

Jumlah Pโ€™ Nโ€™ P+N

Kelas hasil prediksi

Kela

s aktu

al

โ–ช TP, True Positif -> jumlah tupel positif

yang dilabeli dengan benar oleh model

klasifikasi

โ–ช TN, True Negatif -> jumlah tupel

negative yang dilabeli dengan benar

oleh model klasifikasi.

โ–ช FP, False Positif -> jumlah tupel

negative yang salah dilabeli oleh model

klasifikasi

โ–ช FN, False Negatif -> jumlah tuple positif

yang salah dilabeli oleh model

klasifikasi.

Ket: tupel = าง๐‘ฅ โˆˆ ๐‘…๐‘›

4

Page 5: Ukuran Kinerja Clustering - spada.uns.ac.id

Pengukuran terhadap kinerja suatu sistem klasifikasi

merupakan hal yang penting.

Kinerja sistem klasifikasi menggambarkan seberapa baik

sistem dalam mengklasifikasikan data.

Confusion matrix merupakan salah satu metode yang

dapat digunakan untuk mengukur kinerja suatu metode

klasifikasi.

Pada dasarnya confusion matrix mengandung informasi

yang membandingkan hasil klasifikasi yang dilakukan

oleh sistem dengan hasil klasifikasi yang seharusnya

5

Page 6: Ukuran Kinerja Clustering - spada.uns.ac.id

Berdasarkan jumlah keluaran kelasnya, sistem klasifikasi

dapat dibagi menjadi 4 (empat) jenis yaitu klasifikasi

binary, multi-class, multi-label dan hierarchical. Pada

klasifikasi binary, data masukan dikelompokkan ke dalam

salah satu dari dua kelas.

Jenis klasifikasi ini merupakan bentuk klasifikasi yang

paling sederhana dan banyak digunakan.

Contoh penggunaannya antara lain dalam sistem yang

melakukan deteksi orang atau bukan, sistem deteksi

kendaraan atau bukan, dan sistem deteksi pergerakan

atau bukan

6

Page 7: Ukuran Kinerja Clustering - spada.uns.ac.id

Sementara itu, pada bentuk klasifikasi multi-class, data masukan diklasifikasikan menjadi beberapa kelas.

Sebagai contoh sistem yang dapat mengklasifikasikan jeniskendaraan seperti sepeda, sepeda motor, mobil, bus, truk, dan sebagainya.

Bentuk klasifikasi multi-label pada dasarnya sama denganmulti-class dimana data dikelompokkan menjadi beberapakelas, namun pada klasifikasi multi-label, data dapatdimasukkan dalam beberapa kelas sekaligus.

Bentuk klasifikasi yang terakhir adalah hierarchical. Data masukan dikelompokkan menjadi beberapa kelas, namunkelas tersebut dapat dikelompokkan kembali menjadikelas-kelas yang lebih sederhana secara hirarkis.

Contohnya dalam penelitian ini, arah pergerakandikelompokkan menjadi 12 arah pergerakan yang tentunyadapat disederhanakan menjadi 4 arah.

7

Page 8: Ukuran Kinerja Clustering - spada.uns.ac.id

Pada pengukuran kinerja menggunakan confusion

matrix, terdapat 4 (empat) istilah sebagai representasi

hasil proses klasifikasi.

Keempat istilah tersebut adalah True Positive (TP), True

Negative (TN), False Positive (FP) dan False Negative

(FN).

Nilai True Negative (TN) merupakan jumlah data negatif

yang terdeteksi dengan benar, sedangkan False Positive

(FP) merupakan data negatif namun terdeteksi sebagai

data positif.

Sementara itu, True Positive (TP) merupakan data positif

yang terdeteksi benar. False Negative (FN) merupakan

kebalikan dari True Positive, sehingga data posifit,

namun terdeteksi sebagai data negatif.

8

Page 9: Ukuran Kinerja Clustering - spada.uns.ac.id

Confusion matrik

9

Page 10: Ukuran Kinerja Clustering - spada.uns.ac.id

Berdasarkan nilai True Negative (TN), False Positive (FP), False Negative (FN), dan True Positive (TP) dapat diperolehnilai akurasi, presisi dan recall.

Nilai akurasi menggambarkan seberapa akurat sistem dapatmengklasifikasikan data secara benar. Dengan kata lain, nilai akurasi merupakan perbandingan antara data yang terklasifikasi benar dengan keseluruhan data.

Nilai akurasi dapat diperoleh dengan Persamaan 1. Nilai presisi menggambarkan jumlah data kategori positif yang diklasifikasikan secara benar dibagi dengan total data yang diklasifikasi positif.

Presisi dapat diperoleh dengan Persamaan 2. Sementaraitu, recall menunjukkan berapa persen data kategori positifyang terklasifikasikan dengan benar oleh sistem.

Nilai recall diperoleh dengan Persamaan 3.

10

Page 11: Ukuran Kinerja Clustering - spada.uns.ac.id

11

Page 12: Ukuran Kinerja Clustering - spada.uns.ac.id

Sementara itu, pada klasifikasi dengan jumlah keluaran

kelas yang lebih dari dua (multi-class), cara menghitung

akurasi, presisi dan recall dapat dilakukan dengan

menghitung rata-rata dari nilai akurasi, presisi dan recall

pada setiap kelas.

Persamaan 4, 5, dan 6 merupakan formula untuk

menghitung nilai akurasi, presisi dan recall dari sistem

klasifikasi multi-class .

12

Page 13: Ukuran Kinerja Clustering - spada.uns.ac.id

Contoh

TP = 970 TN= 40 FP = 960 FN = 30 P =1000 N =1000

๐‘Ž๐‘˜๐‘ข๐‘Ÿ๐‘Ž๐‘ ๐‘– =๐‘‡๐‘ƒ+๐‘‡๐‘

๐‘ƒ+๐‘=

970+40

1000+1000= 50,5%

๐‘’๐‘Ÿ๐‘Ÿ๐‘œ๐‘Ÿ = 1 โˆ’ ๐‘Ž๐‘˜๐‘ข๐‘Ÿ๐‘Ž๐‘ ๐‘– = 100% โˆ’ 50,5% = 49,5

Precission =๐‘‡๐‘ƒ

๐‘‡๐‘ƒ+๐น๐‘ƒ=

970

970+960= 50,26%

๐‘Ÿ๐‘’๐‘๐‘Ž๐‘™๐‘™ =๐‘‡๐‘ƒ

๐‘‡๐‘ƒ+๐น๐‘=

970

970+30= 97%

๐น โˆ’ ๐‘œ๐‘›๐‘’ =2 ร— ๐‘๐‘Ÿ๐‘’๐‘๐‘–๐‘ ๐‘–๐‘œ๐‘› ร— ๐‘Ÿ๐‘’๐‘๐‘Ž๐‘™๐‘™

๐‘๐‘Ÿ๐‘’๐‘๐‘–๐‘ ๐‘–๐‘œ๐‘›+๐‘Ÿ๐‘’๐‘๐‘Ž๐‘™๐‘™=

2ร—๐‘‡๐‘ƒ

2ร—๐‘‡๐‘ƒ+๐น๐‘ƒ+๐น๐‘=

2ร—970

2ร—970 +960+30= 66,21%

Kelas = โ€˜Yaโ€™ Kelas = โ€˜Tidakโ€™ Jumlah

Kelas = โ€˜yaโ€™ 970 30 1000

Kelas = โ€˜tidakโ€™ 960 40 1000

Jumlah 1930 70 2000

13

Page 14: Ukuran Kinerja Clustering - spada.uns.ac.id

14

Page 15: Ukuran Kinerja Clustering - spada.uns.ac.id

TPi adalah True Positive, yaitu jumlah data positif yang

terklasifikasi dengan benar oleh sistem untuk kelas ke-i.

TNi adalah True Negative, yaitu jumlah data negatif yang

terklasifikasi dengan benar oleh sistem untuk kelas ke-i.

FNi adalah False Negative, yaitu jumlah data negatif

namun terklasifikasi salah oleh sistem untuk kelas ke-i.

FPi adalah False Positive, yaitu jumlah data positif

namun terklasifikasi salah oleh sistem untuk kelas ke-i

l adalah jumlah kelas.

15

Page 16: Ukuran Kinerja Clustering - spada.uns.ac.id

Ukuran lain

Kecepatab prosesโ†’anda dapat mengukur berdasarkan

kompleksitas komputasi secara matematis atau menguji

classifier secara empiris berdasarkan eksperimen

menggunakan sejumlah data uji

Ketahanan terhadap dearau, pencilan atau daya dengan

attribute bernilai kosongโ†’anda dapat mengukur secara

empiris berdasarkan eksperimen terhadap sejumlah data

uji yang berupa sekumpulan data sintetis yang

merepresentasikan peningkatan derajat derau dan

missing values.

Skalabilitas terhadap ukuran dataโ†’anda dapat

mengukur secara matematis maupun empiris apakah

classifier anda dapat digunakan secara efisien untuk

sejumlah data yang berukuran semakin besar.

16

Page 17: Ukuran Kinerja Clustering - spada.uns.ac.id

Resubtitution

Keuntungan: Sederhana

Kelemahan: Paling lemah

Kapan digunakan: Jika dirasa data latih cukup

mewakili populasi.

Langkah-langkahnya:

1. Melatih model dengan menggunakan data latih

2. Mengukur tingkat kesalahan berdasarkan keluaran

dan nilai aktual dari seluruh objek data tersebut.

17

Page 18: Ukuran Kinerja Clustering - spada.uns.ac.id

Hold-out (2 sub himpunan)

Asumsi: data latih dan data uji dibangun dengan

distribusi yang sama untuk setiap kelas. Agar

proporsi setiap kelas sama.

Langkah-langkah:

1. Membagi data set menjadi 2, biasanya 2/3 data

latih dan 1/3 data uji(60/40, 70/30, 80/20 atau

dengan pertimbangan tertentu)

2. Membangun model menggunakan data latih

3. Menguji model menggunakan data uji

18

Page 19: Ukuran Kinerja Clustering - spada.uns.ac.id

Hold-out (3 sub himpunan)

Asumsi: data latih dan data uji dibangun dengan

distribusi yang sama untuk setiap kelas. Agar

proporsi setiap kelas sama.

Langkah-langkah:

1. Membagi data set menjadi 3, data latih, data

validasi, dan data uji.

2. Membangun model menggunakan data latih

3. Memvalidasi model menggunakan data validasi

4. Menguji model yang telah tervalidasi menggunakan

data uji.

19

Page 20: Ukuran Kinerja Clustering - spada.uns.ac.id

K-fold Cross Validation

Langkah-langkah:

1. Membagi dataset menjadi k sub himpunan (fold), sehingga setiap fold berisi 1/k, ๐ท = ๐‘‘1, ๐‘‘2, โ€ฆ , ๐‘‘๐‘˜

2. Menggunakan (k-1) fold untuk data latih Latih = ๐‘‘๐‘–, i = 1, 2, k-1

3. Menguji model menggunakan dj, ๐‘— โ‰ ๐‘–

4. Menghitung akurasi: jumlahkeseluruhan klasifikasi benar dalam k iterasi dibagi dengan jumlah tuple dalam himpunan data.

Sumber:

https://medium.com/@sebastiannorena/som

e-model-tuning-methods-bfef3e6544f0

20

Page 21: Ukuran Kinerja Clustering - spada.uns.ac.id

K-fold Cross Validation (2)

Langkah-langkah:

1. Membagi dataset menjadi k sub himpunan(fold), sehingga setiap fold berisi 1/k, ๐ท =๐‘‘1, ๐‘‘2, โ€ฆ , ๐‘‘๐‘˜

2. Menggunakan (k-2) fold untuk data latihLatih = ๐‘‘๐‘–, i = 1, 2, k-2

3. Memvalidasi model menggunakan dj, ๐‘— โ‰  ๐‘–(menaksir hyperparameter)

4. Menguji model hasil validasi menggunakandk, ๐‘˜ โ‰  ๐‘– โ‰  ๐‘—

5. Menghitung akurasi: jumlah keseluruhanklasifikasi benar dalam k iterasi dibagidengan jumlah tuple dalam himpunandata.

Sumber:

https://miro.medium.com/max/948/1*4G__S

V580CxFj78o9yUXuQ.png

21

Page 22: Ukuran Kinerja Clustering - spada.uns.ac.id

Leave-One-Out Cross Validation

Sama dengan K-fold hanya saja yang

digunakan per data bukan per fold, sehingga

setiap data pernah menjadi data latih dan data

uji.

22

Page 23: Ukuran Kinerja Clustering - spada.uns.ac.id

Random Subsampling

Modifikasi Teknik hold-out.

Menjalankan metode hold out beberapa kali,

misal sejumlah k iterasi

Mengevaluasi berdasarkan model klasifikasi

berdasarkan rata-rata daris etiap iterasi tersebut.

Random: pemilihan mana data latih dan data uji

secara acak.

23

Page 24: Ukuran Kinerja Clustering - spada.uns.ac.id

Bootstraping

Pemilihan data latih dilakukan dengan

penyamplingan secara acak dengan

distribusi seragam, sampel yang telah

terambil boleh dimasukkan kembali ke

sumber data

Sumber: https://vitalflux.com/wp-

content/uploads/2018/02/bootstraping-

validation-technique.png

24

Page 25: Ukuran Kinerja Clustering - spada.uns.ac.id

Model 25

Page 26: Ukuran Kinerja Clustering - spada.uns.ac.id

26

Page 27: Ukuran Kinerja Clustering - spada.uns.ac.id

Ukuran Evaluasi Model

Klastering

1. Penilaian tendensi klasterisasi

2. Penentuan jumlah klaster

3. Pengukuran kualitas klasterisasi

27

Page 28: Ukuran Kinerja Clustering - spada.uns.ac.id

Statistik Hopkins

Statistik spasial sederhana yang menguji

keacakan spasial dari suatu variabel

Hasil klasterisasi dikatakan cenderung memiliki

struktur yang teratur jika tidak terdistribusi secara

seragam

Jika suatu himpunan data D memiliki sample

variable acak o, maka metode ini mengukur

seberapa jauh o cenderung terdistribusi seragam.

28

Page 29: Ukuran Kinerja Clustering - spada.uns.ac.id

Statistik Hopkins Cara menghitung :

1. Lakukan sampling sebanyak n titik ๐‘๐‘– โ€ฆ๐‘๐‘› secara seragam dari D. Untuk setiap titik

๐‘๐‘– dicari tetangga terdekat ๐‘๐‘– 1 โ‰ค ๐‘– โ‰ค ๐‘› dalam D dan ๐‘ฅ๐‘– adalah jarak antara pi dan

tetangga terdekatnya. X didefinisikan ๐‘ฅ๐‘– = min ๐‘‘๐‘–๐‘ ๐‘ก ๐‘๐‘– , ๐‘ฃ

2. Lakukan sampling sebanyak n titik ๐‘ž๐‘– โ€ฆ๐‘ž๐‘› secara seragam dari D. Untuk setiap titik ๐‘ž๐‘–dicari tetangga terdekat dalam D โˆ’{๐‘ž๐‘–} dan ๐‘ฆ๐‘– adalah jarak antara ๐‘ž๐‘– dan tetangga

terdekatnya. y didefinisikan ๐‘ฆ๐‘– = min{ ๐‘‘๐‘–๐‘ ๐‘ก(๐‘ฆ๐‘– , ๐‘ฃ)}

3. Hitung statistic Hopkins dengan rumus ๐ป =ฯƒ๐‘–=1๐‘› ๐‘ฆ๐‘–

ฯƒ๐‘–=1๐‘› ๐‘ฅ๐‘–+ฯƒ๐‘–=1

๐‘› ๐‘ฆ๐‘–

Jika data D terdistribusi seragam, maka ฯƒ๐‘–=1๐‘› ๐‘ฆ๐‘– akan mendekati ฯƒ๐‘–=1

๐‘› ๐‘ฅ๐‘– sehingga

membuat nilai H disekitar 0,5.

Jika data D tidak seragam maka ฯƒ๐‘–=1๐‘› ๐‘ฆ๐‘– akan jauh lebih kecil dari ฯƒ๐‘–=1

๐‘› ๐‘ฅ๐‘– sehingga nilai

H mendekati 0

Jadi jika H > 0,5 maka D tidak memiliki kluster yang signifikan secara statistic.

Sedangkan jika H mendekati 0 berarti D memiliki klaster yang signifikan.

29

Page 30: Ukuran Kinerja Clustering - spada.uns.ac.id

Penentuan jumlah kluster

Apa yang mempengaruhi jumlah kluster?

Berapakah jumlah objek data?

Bentuk dan skala distribusinya

Resolusi ringkasan yang diharapkan user?

30

Page 31: Ukuran Kinerja Clustering - spada.uns.ac.id

Penentuan Jumlah Klaster

Cara ke โ€“ 1

Beberapa hal dapat mempengaruhi jumlah kluster

diantaranya jumlah data, bentuk dan skala distribusinya,

ringkasan yang diharapkan user.

Rumus estimasi๐‘›

2, n adalah jumlah data.

Ekspektasi jumlah data dalam satu kluster adalah๐‘›

๐‘›

2

= 2๐‘›

31

Page 32: Ukuran Kinerja Clustering - spada.uns.ac.id

Penentuan Jumlah Klaster

Cara ke โ€“ 2

METODE ELBOW

Meningkatkan umlah klaster akan menurunkan jumlah variansi

dalam kluster dari semua klaster yang ada.

1. Buat k klaster menggunakan metode clustering.

2. Hitung SSE (sum of square Error) =ฯƒ๐‘–=1๐‘˜ ฯƒ๐‘ฅโˆˆ๐‘๐‘– ๐‘ฅ โˆ’ ๐‘๐‘–

2

3. Lakukan untuk k yang lebih besar

4. Buat kurva terhadap k, titik balik pertama spt siku, itulah yang

menyatakan jumlah klaster

32

Page 33: Ukuran Kinerja Clustering - spada.uns.ac.id

Pengukuran Kualitas Klasterisasi

1. Metode Ekstrinsik

hanya jika ada acuan ideal (pakar)

Membandingkan klaster hasil metode dengan klaster ideal

untuk score Q แˆถ๐ถ, แˆถ๐ถ๐‘”

Nilai Q hanya efektif jika memenuhi homogenitas klaster,

kelengkapan klaster, rag bag, mempertahankan klaster kecil

BCubed Precision dan BCubed Recall mengevaluasi precision

dan recall untuk tiap objek dalam klasterisasi terhadap

himpinan data berdasarkan klaster ideal

Contoh : ๐ท = {๐‘œ1, โ€ฆ , ๐‘œ๐‘›} adalah himpunan objek dan แˆถ๐ถ adalah

klasterisasi di D. ๐ฟ(๐‘œ1), dimanan 1 โ‰ค ๐‘– โ‰ค ๐‘› kategori dalam

๐‘œ1dalam klasterisasi ideal dan ๐ถ(๐‘œ1) adalah klaster ID dari

objek ๐‘œ๐‘– dalam klaster แˆถ๐ถ.

33

Page 34: Ukuran Kinerja Clustering - spada.uns.ac.id

Metode Ekstrinsik (lanjutan)

Untuk objek ๐‘œ๐‘– dan ๐‘œ๐‘— ๐‘‘๐‘–๐‘š๐‘Ž๐‘›๐‘Ž 1 โ‰ค ๐‘–, ๐‘— โ‰ค ๐‘›, ๐‘– โ‰  ๐‘—. Sehingga tingkat

kebenaran atau correctness dari relasi antara ๐‘œ๐‘– dan ๐‘œ๐‘—

๐‘๐‘œ๐‘Ÿ๐‘Ÿ๐‘’๐‘๐‘ก๐‘›๐‘’๐‘ ๐‘  = แ‰Š1 ๐‘—๐‘–๐‘˜๐‘Ž ๐ฟ(๐‘œ๐‘–) = ๐ฟ(๐‘œ๐‘—),โ‡” ๐ถ(๐‘œ๐‘–) = ๐ถ(๐‘œ๐‘—),

0 ๐‘™๐‘Ž๐‘–๐‘›๐‘›๐‘ฆ๐‘Ž

BCubed precision didefinisikan sebagai :

BCube precisson =

ฯƒ๐‘–=1๐‘›

ฯƒ๐‘œ๐‘—;๐‘–โ‰ ๐‘—,๐ถ ๐‘‚๐‘– =๐ถ(๐‘‚๐‘—)

๐ถ๐‘œ๐‘Ÿ๐‘Ÿ๐‘’๐‘๐‘ก๐‘›๐‘’๐‘ ๐‘ (๐‘œ๐‘–,๐‘œ๐‘—)

๐‘œ๐‘— ๐‘– โ‰  ๐‘—, ๐ถ ๐‘œ๐‘– = ๐ถ(๐‘œ๐‘—)

๐‘›

BCubed recall didefinisikan sebagai :

BCube recall =

ฯƒ๐‘–=1๐‘›

ฯƒ๐‘œ๐‘—;๐‘–โ‰ ๐‘—,๐ฟ ๐‘‚๐‘– =๐ฟ(๐‘‚๐‘—)๐ถ๐‘œ๐‘Ÿ๐‘Ÿ๐‘’๐‘๐‘ก๐‘›๐‘’๐‘ ๐‘ (๐‘œ๐‘– , ๐‘œ๐‘—)

๐‘œ๐‘— ๐‘– โ‰  ๐‘—, ๐ฟ ๐‘œ๐‘– = ๐ฟ(๐‘œ๐‘—)

๐‘›

34

Page 35: Ukuran Kinerja Clustering - spada.uns.ac.id

Metode Intrinsikโ–ช Jika tidak memiliki klasterisasi ideal

โ–ช Menguji seberapa jauh klaster-klaster terpisah dan kepadatanklaster tersebut

โ–ช Salah satu metode : Silhouette coefficient

โ–ช Contoh: jika himpunan D berisi n objek dan dipartisi kedalam k klaster, ๐ถ1, โ€ฆ , ๐ถ๐‘˜. Untuk setiap ๐‘œ๐œ–๐ท hitung a(o) sebagai rata-rata jarak antara objek o dengan semua objek lain dalam klastertersebut dan b(o) sebagai rata-rata jarak minimum dari objek o kesemua klaster lain (yang bukan klasternya o). Jika ๐‘œ โˆˆ ๐ถ๐‘–(1 โ‰ค ๐‘– โ‰ค๐‘˜), maka

โ–ช ๐‘Ž ๐‘œ =ฯƒ๐‘œโ€ฒโˆˆ๐ถ๐‘–,๐‘œโ‰ ๐‘œโ€ฒ

๐‘‘๐‘–๐‘ ๐‘ก(๐‘œ,๐‘œโ€ฒ)

๐ถ๐‘– โˆ’1dan

โ–ช ๐‘ ๐‘œ = ๐‘š๐‘–๐‘›๐ถ๐‘—;1โ‰ค๐‘—โ‰ค๐‘˜,๐‘—โ‰ ๐‘–ฯƒ๐‘œโ€ฒโˆˆ๐ถ๐‘—

๐‘‘๐‘–๐‘ ๐‘ก(๐‘œ,๐‘œโ€ฒ)

๐‘๐‘—

35

Page 36: Ukuran Kinerja Clustering - spada.uns.ac.id

Silhouette Coefficient

Silhouette Coefficient merupakan metode yang

digunakan untuk melihat kualitas dan kekuatan dari

cluster.

Metode Silhouette Coefficient merupakan gabungan

dari dua metode yaitu metode kohesi yang

berfungsi untuk mengukur seberapa dekat relasi

antara objek dalam sebuah cluster, dan metode

separasi yang berfungsi untuk mengukur seberapa

jauh sebuah cluster terpisah dengan cluster lain.

36

Page 37: Ukuran Kinerja Clustering - spada.uns.ac.id

Perhitungan SC

Hitung rata-rata jarak dari suatu objek, misalkan i

dengan semua objek lain yang berada dalam satu

cluster dengan menggunakan rumus dibawah ini :

๐‘Ž๐‘– =1

๐ด โˆ’ 1

๐‘—โˆˆ๐ด,๐‘–โ‰ ๐‘—

๐‘‘(๐‘–, ๐‘—)

Keterangan :

|A| = banyaknya data dalam cluster A

i, j = indeks dari dokumen

d (i, j) = jarak antara dokumen ke i dengan dokumen ke-

j

37

Page 38: Ukuran Kinerja Clustering - spada.uns.ac.id

Hitung rata-rata jarak dari dokumen i tersebut

dengan semua dokumen di cluster lain

menggunakan rumus berikut :

๐‘‘ ๐‘–, ๐ถ =1

๐ด

๐‘—โˆˆ๐ถ

๐‘‘(๐‘–, ๐‘—)

Keterangan :

d(I,C) adalah jarak rata-rata objek I dengan pusat

cluster lain.

38

Page 39: Ukuran Kinerja Clustering - spada.uns.ac.id

Hitung nilai Silhouette Coefficient-nya dengan rumus berikut

:

๐‘† ๐‘– =๐‘ ๐‘– โˆ’ ๐‘Ž(๐‘–)

max(๐‘Ž ๐‘– , ๐‘ ๐‘– )

Keterangan

b(i)= rata-rata jarak data ke-i terhadap semua data yang tidak

dalam satu cluster dengan data ke-i

39

Page 40: Ukuran Kinerja Clustering - spada.uns.ac.id

40

No Rentang nilai Silhouette Coefficient Keterangan

1 0,7 < SC <= 1 Strong Structure

2 0.5 < SC <= 0.7 Mediem Structure

3 0.25 < SC <= 0.5 Weak Structure

4 SC <= 0.25 No Structure

Page 41: Ukuran Kinerja Clustering - spada.uns.ac.id

Davies Bouldin Index

Davies Bouldin Index (DBI) merupakan salah satu metode untuk

mengecek hasil Clustering. Pendekatan pengujian nilai DBI

berupa nilai separasi dan kohesi.

Kohesi berupa jumlah dari kemiripan data terhadap pusat cluster

dari cluster tersebut sedangkan separasi adalah jarak antara

pusat cluster dari cluster tersebut. Dalam metode ini cluster

yang optimal adalah cluster yang memiliki nilai DBI rendah atau

memiliki separasi yang tinggi dan nilai kohesi yang rendah .

Berikut adalah tahapan dalam evaluasi cluster dengan

menggunakan metode Davies Bouldin Index :

41

Page 42: Ukuran Kinerja Clustering - spada.uns.ac.id

Langkah-langkah

Sum of square within cluster (SSW) adalah

Persamaan untuk mengetahui matrik kohesi dalam

sebuah cluster ke-I

๐‘†๐‘†๐‘Š๐‘– =1

๐‘š๐‘–

๐‘—=๐‘–

๐‘š๐‘–

๐‘‘(๐‘ฅ๐‘— โˆ’ ๐‘๐‘–)

Keterangan :

mi = jumlah data dalam cluster ke-i

ci = centroid cluster ke-i

d (xj, ci) = jarak euclidean setiap data ke centroid

42

Page 43: Ukuran Kinerja Clustering - spada.uns.ac.id

Sum of square between cluster (SSB) adalah persamaan untuk

mengetahui nilai separasi antara cluster.

๐‘†๐‘†๐ต๐‘–, ๐‘— = ๐‘‘ ๐‘๐‘–, ๐‘๐‘—

Keterangan :

d (ci, cj) = jarak antar centroid

Setelah nilai separasi dan kohesi diperoleh, lalu dilakukan

pengukuran rasio (Rij) untuk mengetahui nilai perbandingan

antara cluster ke-i dan cluster ke-j

๐‘…๐‘–, ๐‘— =๐‘†๐‘†๐‘Š๐‘–+๐‘†๐‘†๐‘Š๐‘—

๐‘†๐‘†๐ต๐‘–,

43

Page 44: Ukuran Kinerja Clustering - spada.uns.ac.id

Persamaan untuk menghitung nilai Davies Bouldin Index (DBI).

๐ท๐ต๐ผ =1

๐พฯƒ๐‘–=1๐พ max ๐‘– โ‰  ๐‘—(๐‘…, ๐‘—)

Keterangan

k= jumlah cluster yang digunakan

44