ukuran kinerja clustering - spada.uns.ac.id
TRANSCRIPT
Ukuran Kinerja
ModelKULIAH : 11-11-2021
1
Ukuran Evaluasi
Evaluasi terhadap suatu classifier umumnya dilakukan
menggunakan sebuah data uji, yang tidak digunakan
dalam pelatihan classifier tersebut.
Ada sejumlah ukuran yang dapat digunakan untuk
menilai atau mengevaluasi model klasifikasi, diantaranya
:
Erraor rate
Recall
Sensitivity
Specificity
dll
2
Tabel ukuran evaluasi model
klasifikasiNO UKURAN RUMUS
1 Akurasi atau tingkat pengenalan ๐๐ + ๐๐
๐ + ๐
2 Error rate atau tingkat kesalahan atau keliruan klasifikasi ๐น๐ + ๐น๐
๐ + ๐
3 Recall atau sensitivitas atau true positive rate ๐๐
๐๐ + ๐น๐
4 Spesificity atau True Negative rate ๐๐
๐
5 Precission ๐๐
๐๐ + ๐น๐
6 F atau F1 atau F-score atau rata-rata harmonic dari precisson
dan recall
2 ร ๐๐๐๐๐๐ ๐๐๐ ร ๐๐๐๐๐๐
๐๐๐๐๐๐ ๐๐๐ + ๐๐๐๐๐๐
7 Fp dimana ๐ฝ adalah sebuah bilangan riil nonnegatif 1 + ๐ฝ2 ร ๐๐๐๐๐๐ ๐๐๐ ร ๐๐๐๐๐๐
๐ฝ2 ร ๐๐๐๐๐๐ ๐๐๐ + ๐๐๐๐๐๐
๐ฝ ukuran seberapa penting precission
3
Ukuran Evaluasi Klasifikasi
Ya Tidak Jumlah
Ya TP FN P
Tidak FP TN N
Jumlah Pโ Nโ P+N
Kelas hasil prediksi
Kela
s aktu
al
โช TP, True Positif -> jumlah tupel positif
yang dilabeli dengan benar oleh model
klasifikasi
โช TN, True Negatif -> jumlah tupel
negative yang dilabeli dengan benar
oleh model klasifikasi.
โช FP, False Positif -> jumlah tupel
negative yang salah dilabeli oleh model
klasifikasi
โช FN, False Negatif -> jumlah tuple positif
yang salah dilabeli oleh model
klasifikasi.
Ket: tupel = าง๐ฅ โ ๐ ๐
4
Pengukuran terhadap kinerja suatu sistem klasifikasi
merupakan hal yang penting.
Kinerja sistem klasifikasi menggambarkan seberapa baik
sistem dalam mengklasifikasikan data.
Confusion matrix merupakan salah satu metode yang
dapat digunakan untuk mengukur kinerja suatu metode
klasifikasi.
Pada dasarnya confusion matrix mengandung informasi
yang membandingkan hasil klasifikasi yang dilakukan
oleh sistem dengan hasil klasifikasi yang seharusnya
5
Berdasarkan jumlah keluaran kelasnya, sistem klasifikasi
dapat dibagi menjadi 4 (empat) jenis yaitu klasifikasi
binary, multi-class, multi-label dan hierarchical. Pada
klasifikasi binary, data masukan dikelompokkan ke dalam
salah satu dari dua kelas.
Jenis klasifikasi ini merupakan bentuk klasifikasi yang
paling sederhana dan banyak digunakan.
Contoh penggunaannya antara lain dalam sistem yang
melakukan deteksi orang atau bukan, sistem deteksi
kendaraan atau bukan, dan sistem deteksi pergerakan
atau bukan
6
Sementara itu, pada bentuk klasifikasi multi-class, data masukan diklasifikasikan menjadi beberapa kelas.
Sebagai contoh sistem yang dapat mengklasifikasikan jeniskendaraan seperti sepeda, sepeda motor, mobil, bus, truk, dan sebagainya.
Bentuk klasifikasi multi-label pada dasarnya sama denganmulti-class dimana data dikelompokkan menjadi beberapakelas, namun pada klasifikasi multi-label, data dapatdimasukkan dalam beberapa kelas sekaligus.
Bentuk klasifikasi yang terakhir adalah hierarchical. Data masukan dikelompokkan menjadi beberapa kelas, namunkelas tersebut dapat dikelompokkan kembali menjadikelas-kelas yang lebih sederhana secara hirarkis.
Contohnya dalam penelitian ini, arah pergerakandikelompokkan menjadi 12 arah pergerakan yang tentunyadapat disederhanakan menjadi 4 arah.
7
Pada pengukuran kinerja menggunakan confusion
matrix, terdapat 4 (empat) istilah sebagai representasi
hasil proses klasifikasi.
Keempat istilah tersebut adalah True Positive (TP), True
Negative (TN), False Positive (FP) dan False Negative
(FN).
Nilai True Negative (TN) merupakan jumlah data negatif
yang terdeteksi dengan benar, sedangkan False Positive
(FP) merupakan data negatif namun terdeteksi sebagai
data positif.
Sementara itu, True Positive (TP) merupakan data positif
yang terdeteksi benar. False Negative (FN) merupakan
kebalikan dari True Positive, sehingga data posifit,
namun terdeteksi sebagai data negatif.
8
Confusion matrik
9
Berdasarkan nilai True Negative (TN), False Positive (FP), False Negative (FN), dan True Positive (TP) dapat diperolehnilai akurasi, presisi dan recall.
Nilai akurasi menggambarkan seberapa akurat sistem dapatmengklasifikasikan data secara benar. Dengan kata lain, nilai akurasi merupakan perbandingan antara data yang terklasifikasi benar dengan keseluruhan data.
Nilai akurasi dapat diperoleh dengan Persamaan 1. Nilai presisi menggambarkan jumlah data kategori positif yang diklasifikasikan secara benar dibagi dengan total data yang diklasifikasi positif.
Presisi dapat diperoleh dengan Persamaan 2. Sementaraitu, recall menunjukkan berapa persen data kategori positifyang terklasifikasikan dengan benar oleh sistem.
Nilai recall diperoleh dengan Persamaan 3.
10
11
Sementara itu, pada klasifikasi dengan jumlah keluaran
kelas yang lebih dari dua (multi-class), cara menghitung
akurasi, presisi dan recall dapat dilakukan dengan
menghitung rata-rata dari nilai akurasi, presisi dan recall
pada setiap kelas.
Persamaan 4, 5, dan 6 merupakan formula untuk
menghitung nilai akurasi, presisi dan recall dari sistem
klasifikasi multi-class .
12
Contoh
TP = 970 TN= 40 FP = 960 FN = 30 P =1000 N =1000
๐๐๐ข๐๐๐ ๐ =๐๐+๐๐
๐+๐=
970+40
1000+1000= 50,5%
๐๐๐๐๐ = 1 โ ๐๐๐ข๐๐๐ ๐ = 100% โ 50,5% = 49,5
Precission =๐๐
๐๐+๐น๐=
970
970+960= 50,26%
๐๐๐๐๐๐ =๐๐
๐๐+๐น๐=
970
970+30= 97%
๐น โ ๐๐๐ =2 ร ๐๐๐๐๐๐ ๐๐๐ ร ๐๐๐๐๐๐
๐๐๐๐๐๐ ๐๐๐+๐๐๐๐๐๐=
2ร๐๐
2ร๐๐+๐น๐+๐น๐=
2ร970
2ร970 +960+30= 66,21%
Kelas = โYaโ Kelas = โTidakโ Jumlah
Kelas = โyaโ 970 30 1000
Kelas = โtidakโ 960 40 1000
Jumlah 1930 70 2000
13
14
TPi adalah True Positive, yaitu jumlah data positif yang
terklasifikasi dengan benar oleh sistem untuk kelas ke-i.
TNi adalah True Negative, yaitu jumlah data negatif yang
terklasifikasi dengan benar oleh sistem untuk kelas ke-i.
FNi adalah False Negative, yaitu jumlah data negatif
namun terklasifikasi salah oleh sistem untuk kelas ke-i.
FPi adalah False Positive, yaitu jumlah data positif
namun terklasifikasi salah oleh sistem untuk kelas ke-i
l adalah jumlah kelas.
15
Ukuran lain
Kecepatab prosesโanda dapat mengukur berdasarkan
kompleksitas komputasi secara matematis atau menguji
classifier secara empiris berdasarkan eksperimen
menggunakan sejumlah data uji
Ketahanan terhadap dearau, pencilan atau daya dengan
attribute bernilai kosongโanda dapat mengukur secara
empiris berdasarkan eksperimen terhadap sejumlah data
uji yang berupa sekumpulan data sintetis yang
merepresentasikan peningkatan derajat derau dan
missing values.
Skalabilitas terhadap ukuran dataโanda dapat
mengukur secara matematis maupun empiris apakah
classifier anda dapat digunakan secara efisien untuk
sejumlah data yang berukuran semakin besar.
16
Resubtitution
Keuntungan: Sederhana
Kelemahan: Paling lemah
Kapan digunakan: Jika dirasa data latih cukup
mewakili populasi.
Langkah-langkahnya:
1. Melatih model dengan menggunakan data latih
2. Mengukur tingkat kesalahan berdasarkan keluaran
dan nilai aktual dari seluruh objek data tersebut.
17
Hold-out (2 sub himpunan)
Asumsi: data latih dan data uji dibangun dengan
distribusi yang sama untuk setiap kelas. Agar
proporsi setiap kelas sama.
Langkah-langkah:
1. Membagi data set menjadi 2, biasanya 2/3 data
latih dan 1/3 data uji(60/40, 70/30, 80/20 atau
dengan pertimbangan tertentu)
2. Membangun model menggunakan data latih
3. Menguji model menggunakan data uji
18
Hold-out (3 sub himpunan)
Asumsi: data latih dan data uji dibangun dengan
distribusi yang sama untuk setiap kelas. Agar
proporsi setiap kelas sama.
Langkah-langkah:
1. Membagi data set menjadi 3, data latih, data
validasi, dan data uji.
2. Membangun model menggunakan data latih
3. Memvalidasi model menggunakan data validasi
4. Menguji model yang telah tervalidasi menggunakan
data uji.
19
K-fold Cross Validation
Langkah-langkah:
1. Membagi dataset menjadi k sub himpunan (fold), sehingga setiap fold berisi 1/k, ๐ท = ๐1, ๐2, โฆ , ๐๐
2. Menggunakan (k-1) fold untuk data latih Latih = ๐๐, i = 1, 2, k-1
3. Menguji model menggunakan dj, ๐ โ ๐
4. Menghitung akurasi: jumlahkeseluruhan klasifikasi benar dalam k iterasi dibagi dengan jumlah tuple dalam himpunan data.
Sumber:
https://medium.com/@sebastiannorena/som
e-model-tuning-methods-bfef3e6544f0
20
K-fold Cross Validation (2)
Langkah-langkah:
1. Membagi dataset menjadi k sub himpunan(fold), sehingga setiap fold berisi 1/k, ๐ท =๐1, ๐2, โฆ , ๐๐
2. Menggunakan (k-2) fold untuk data latihLatih = ๐๐, i = 1, 2, k-2
3. Memvalidasi model menggunakan dj, ๐ โ ๐(menaksir hyperparameter)
4. Menguji model hasil validasi menggunakandk, ๐ โ ๐ โ ๐
5. Menghitung akurasi: jumlah keseluruhanklasifikasi benar dalam k iterasi dibagidengan jumlah tuple dalam himpunandata.
Sumber:
https://miro.medium.com/max/948/1*4G__S
V580CxFj78o9yUXuQ.png
21
Leave-One-Out Cross Validation
Sama dengan K-fold hanya saja yang
digunakan per data bukan per fold, sehingga
setiap data pernah menjadi data latih dan data
uji.
22
Random Subsampling
Modifikasi Teknik hold-out.
Menjalankan metode hold out beberapa kali,
misal sejumlah k iterasi
Mengevaluasi berdasarkan model klasifikasi
berdasarkan rata-rata daris etiap iterasi tersebut.
Random: pemilihan mana data latih dan data uji
secara acak.
23
Bootstraping
Pemilihan data latih dilakukan dengan
penyamplingan secara acak dengan
distribusi seragam, sampel yang telah
terambil boleh dimasukkan kembali ke
sumber data
Sumber: https://vitalflux.com/wp-
content/uploads/2018/02/bootstraping-
validation-technique.png
24
Model 25
26
Ukuran Evaluasi Model
Klastering
1. Penilaian tendensi klasterisasi
2. Penentuan jumlah klaster
3. Pengukuran kualitas klasterisasi
27
Statistik Hopkins
Statistik spasial sederhana yang menguji
keacakan spasial dari suatu variabel
Hasil klasterisasi dikatakan cenderung memiliki
struktur yang teratur jika tidak terdistribusi secara
seragam
Jika suatu himpunan data D memiliki sample
variable acak o, maka metode ini mengukur
seberapa jauh o cenderung terdistribusi seragam.
28
Statistik Hopkins Cara menghitung :
1. Lakukan sampling sebanyak n titik ๐๐ โฆ๐๐ secara seragam dari D. Untuk setiap titik
๐๐ dicari tetangga terdekat ๐๐ 1 โค ๐ โค ๐ dalam D dan ๐ฅ๐ adalah jarak antara pi dan
tetangga terdekatnya. X didefinisikan ๐ฅ๐ = min ๐๐๐ ๐ก ๐๐ , ๐ฃ
2. Lakukan sampling sebanyak n titik ๐๐ โฆ๐๐ secara seragam dari D. Untuk setiap titik ๐๐dicari tetangga terdekat dalam D โ{๐๐} dan ๐ฆ๐ adalah jarak antara ๐๐ dan tetangga
terdekatnya. y didefinisikan ๐ฆ๐ = min{ ๐๐๐ ๐ก(๐ฆ๐ , ๐ฃ)}
3. Hitung statistic Hopkins dengan rumus ๐ป =ฯ๐=1๐ ๐ฆ๐
ฯ๐=1๐ ๐ฅ๐+ฯ๐=1
๐ ๐ฆ๐
Jika data D terdistribusi seragam, maka ฯ๐=1๐ ๐ฆ๐ akan mendekati ฯ๐=1
๐ ๐ฅ๐ sehingga
membuat nilai H disekitar 0,5.
Jika data D tidak seragam maka ฯ๐=1๐ ๐ฆ๐ akan jauh lebih kecil dari ฯ๐=1
๐ ๐ฅ๐ sehingga nilai
H mendekati 0
Jadi jika H > 0,5 maka D tidak memiliki kluster yang signifikan secara statistic.
Sedangkan jika H mendekati 0 berarti D memiliki klaster yang signifikan.
29
Penentuan jumlah kluster
Apa yang mempengaruhi jumlah kluster?
Berapakah jumlah objek data?
Bentuk dan skala distribusinya
Resolusi ringkasan yang diharapkan user?
30
Penentuan Jumlah Klaster
Cara ke โ 1
Beberapa hal dapat mempengaruhi jumlah kluster
diantaranya jumlah data, bentuk dan skala distribusinya,
ringkasan yang diharapkan user.
Rumus estimasi๐
2, n adalah jumlah data.
Ekspektasi jumlah data dalam satu kluster adalah๐
๐
2
= 2๐
31
Penentuan Jumlah Klaster
Cara ke โ 2
METODE ELBOW
Meningkatkan umlah klaster akan menurunkan jumlah variansi
dalam kluster dari semua klaster yang ada.
1. Buat k klaster menggunakan metode clustering.
2. Hitung SSE (sum of square Error) =ฯ๐=1๐ ฯ๐ฅโ๐๐ ๐ฅ โ ๐๐
2
3. Lakukan untuk k yang lebih besar
4. Buat kurva terhadap k, titik balik pertama spt siku, itulah yang
menyatakan jumlah klaster
32
Pengukuran Kualitas Klasterisasi
1. Metode Ekstrinsik
hanya jika ada acuan ideal (pakar)
Membandingkan klaster hasil metode dengan klaster ideal
untuk score Q แถ๐ถ, แถ๐ถ๐
Nilai Q hanya efektif jika memenuhi homogenitas klaster,
kelengkapan klaster, rag bag, mempertahankan klaster kecil
BCubed Precision dan BCubed Recall mengevaluasi precision
dan recall untuk tiap objek dalam klasterisasi terhadap
himpinan data berdasarkan klaster ideal
Contoh : ๐ท = {๐1, โฆ , ๐๐} adalah himpunan objek dan แถ๐ถ adalah
klasterisasi di D. ๐ฟ(๐1), dimanan 1 โค ๐ โค ๐ kategori dalam
๐1dalam klasterisasi ideal dan ๐ถ(๐1) adalah klaster ID dari
objek ๐๐ dalam klaster แถ๐ถ.
33
Metode Ekstrinsik (lanjutan)
Untuk objek ๐๐ dan ๐๐ ๐๐๐๐๐๐ 1 โค ๐, ๐ โค ๐, ๐ โ ๐. Sehingga tingkat
kebenaran atau correctness dari relasi antara ๐๐ dan ๐๐
๐๐๐๐๐๐๐ก๐๐๐ ๐ = แ1 ๐๐๐๐ ๐ฟ(๐๐) = ๐ฟ(๐๐),โ ๐ถ(๐๐) = ๐ถ(๐๐),
0 ๐๐๐๐๐๐ฆ๐
BCubed precision didefinisikan sebagai :
BCube precisson =
ฯ๐=1๐
ฯ๐๐;๐โ ๐,๐ถ ๐๐ =๐ถ(๐๐)
๐ถ๐๐๐๐๐๐ก๐๐๐ ๐ (๐๐,๐๐)
๐๐ ๐ โ ๐, ๐ถ ๐๐ = ๐ถ(๐๐)
๐
BCubed recall didefinisikan sebagai :
BCube recall =
ฯ๐=1๐
ฯ๐๐;๐โ ๐,๐ฟ ๐๐ =๐ฟ(๐๐)๐ถ๐๐๐๐๐๐ก๐๐๐ ๐ (๐๐ , ๐๐)
๐๐ ๐ โ ๐, ๐ฟ ๐๐ = ๐ฟ(๐๐)
๐
34
Metode Intrinsikโช Jika tidak memiliki klasterisasi ideal
โช Menguji seberapa jauh klaster-klaster terpisah dan kepadatanklaster tersebut
โช Salah satu metode : Silhouette coefficient
โช Contoh: jika himpunan D berisi n objek dan dipartisi kedalam k klaster, ๐ถ1, โฆ , ๐ถ๐. Untuk setiap ๐๐๐ท hitung a(o) sebagai rata-rata jarak antara objek o dengan semua objek lain dalam klastertersebut dan b(o) sebagai rata-rata jarak minimum dari objek o kesemua klaster lain (yang bukan klasternya o). Jika ๐ โ ๐ถ๐(1 โค ๐ โค๐), maka
โช ๐ ๐ =ฯ๐โฒโ๐ถ๐,๐โ ๐โฒ
๐๐๐ ๐ก(๐,๐โฒ)
๐ถ๐ โ1dan
โช ๐ ๐ = ๐๐๐๐ถ๐;1โค๐โค๐,๐โ ๐ฯ๐โฒโ๐ถ๐
๐๐๐ ๐ก(๐,๐โฒ)
๐๐
35
Silhouette Coefficient
Silhouette Coefficient merupakan metode yang
digunakan untuk melihat kualitas dan kekuatan dari
cluster.
Metode Silhouette Coefficient merupakan gabungan
dari dua metode yaitu metode kohesi yang
berfungsi untuk mengukur seberapa dekat relasi
antara objek dalam sebuah cluster, dan metode
separasi yang berfungsi untuk mengukur seberapa
jauh sebuah cluster terpisah dengan cluster lain.
36
Perhitungan SC
Hitung rata-rata jarak dari suatu objek, misalkan i
dengan semua objek lain yang berada dalam satu
cluster dengan menggunakan rumus dibawah ini :
๐๐ =1
๐ด โ 1
๐โ๐ด,๐โ ๐
๐(๐, ๐)
Keterangan :
|A| = banyaknya data dalam cluster A
i, j = indeks dari dokumen
d (i, j) = jarak antara dokumen ke i dengan dokumen ke-
j
37
Hitung rata-rata jarak dari dokumen i tersebut
dengan semua dokumen di cluster lain
menggunakan rumus berikut :
๐ ๐, ๐ถ =1
๐ด
๐โ๐ถ
๐(๐, ๐)
Keterangan :
d(I,C) adalah jarak rata-rata objek I dengan pusat
cluster lain.
38
Hitung nilai Silhouette Coefficient-nya dengan rumus berikut
:
๐ ๐ =๐ ๐ โ ๐(๐)
max(๐ ๐ , ๐ ๐ )
Keterangan
b(i)= rata-rata jarak data ke-i terhadap semua data yang tidak
dalam satu cluster dengan data ke-i
39
40
No Rentang nilai Silhouette Coefficient Keterangan
1 0,7 < SC <= 1 Strong Structure
2 0.5 < SC <= 0.7 Mediem Structure
3 0.25 < SC <= 0.5 Weak Structure
4 SC <= 0.25 No Structure
Davies Bouldin Index
Davies Bouldin Index (DBI) merupakan salah satu metode untuk
mengecek hasil Clustering. Pendekatan pengujian nilai DBI
berupa nilai separasi dan kohesi.
Kohesi berupa jumlah dari kemiripan data terhadap pusat cluster
dari cluster tersebut sedangkan separasi adalah jarak antara
pusat cluster dari cluster tersebut. Dalam metode ini cluster
yang optimal adalah cluster yang memiliki nilai DBI rendah atau
memiliki separasi yang tinggi dan nilai kohesi yang rendah .
Berikut adalah tahapan dalam evaluasi cluster dengan
menggunakan metode Davies Bouldin Index :
41
Langkah-langkah
Sum of square within cluster (SSW) adalah
Persamaan untuk mengetahui matrik kohesi dalam
sebuah cluster ke-I
๐๐๐๐ =1
๐๐
๐=๐
๐๐
๐(๐ฅ๐ โ ๐๐)
Keterangan :
mi = jumlah data dalam cluster ke-i
ci = centroid cluster ke-i
d (xj, ci) = jarak euclidean setiap data ke centroid
42
Sum of square between cluster (SSB) adalah persamaan untuk
mengetahui nilai separasi antara cluster.
๐๐๐ต๐, ๐ = ๐ ๐๐, ๐๐
Keterangan :
d (ci, cj) = jarak antar centroid
Setelah nilai separasi dan kohesi diperoleh, lalu dilakukan
pengukuran rasio (Rij) untuk mengetahui nilai perbandingan
antara cluster ke-i dan cluster ke-j
๐ ๐, ๐ =๐๐๐๐+๐๐๐๐
๐๐๐ต๐,
43
Persamaan untuk menghitung nilai Davies Bouldin Index (DBI).
๐ท๐ต๐ผ =1
๐พฯ๐=1๐พ max ๐ โ ๐(๐ , ๐)
Keterangan
k= jumlah cluster yang digunakan
44