analisa data mining untuk segmentasi daerah …
Post on 25-Nov-2021
1 Views
Preview:
TRANSCRIPT
ANALISA DATA MINING UNTUK SEGMENTASI DAERAH PRIORITAS
PENERIMA VAKSIN COVID-19 MENGGUNAKAN ALGORITMA K-
MEANS PADA PROVINSI JAWA BARAT
Riki Hermawan
Program StudiTeknik Informatika, Universitas Pelita BangsaJl. Inspeksi Kalimalang Tegal
Danas Arah DELTAMAS,Cikarang Pusat-Kab. Bekasi, Indonesia
hermawanriki1108@gmail.com
ABSTRAK
Coronavirus merupakan suatu kelompok virus yang dapat menyebabkan penyakit pada hewan atau
manusia. Model algoritma K-Means yang diterapkan menunjukkan sebuah pengetahuan dan perspektif
baru, dengan mengelompokkan kota atau kabupaten Provinsi Jawa Barat berdasarkan tiga klaster, yakni
klaster satu (C0) merupakan tingkat prioritas tinggi yang terdiri dari enam kota atau kabupaten, klaster
dua (C1) adalah prioritas utama yang terdiri dari sembilan belas kota atau kabupaten, dan klaster tiga
(C2) yakni prioritas rendah yang hanya terdiri dari dua kota atau kabupaten. Pengujian menggunakan
aplikasi RapidMiner Studio menghasilkan wawasan yang serupa yaitu masing-masing klaster memiliki
anggota kelompok yang terbagi menjadi tiga klaster, yaitu (C0) dengan anggota kelompok klaster
sebanyak enam data, dan (C1) dengan anggota klaster sebanyak Sembilan belas data serta (C2) sebanyak
dua data. Masing-masing klaster memiliki nilai optimal pada klaster pertama (C0) yakni 2.433.388 dan
2.002.647,33, klaster kedua (C1) adalah 607.842,42 dan 476.223,47, dan klaster ketiga (C2) adalah
6.269.200,5 dan 5.372.599, dengan nilai evaluasi Davies-Bouldin Index untuk model algoritma yang
dijalankan adalah sebesar 0,322.
I. Pendahuluan
Coronavirus merupakan suatu kelompok
virus yang dapat menyebabkan penyakit
pada hewan atau manusia. Jenis
coronavirus diketahui menyebabkan
infeksi saluran nafas pada manusia mulai
dari batuk pilek hingga yang lebih serius
seperti Middle East Respiratory Syndrome
(MERS) dan Severe Acute Respiratory
Syndrome (SARS) [1]. Penularan Covid-19
juga dapat terjadi jika orang menghirup
percikan batuk atau orang yang terjangkit
Covid-19. Penting bagi kita untuk menjaga
jarak lebih dari 1 meter dari orang yang
sakit. Penyebaran pandemi Covid-19
semakin pesat salah satu masyarakat Jawa
Barat yang terinfeksi pandemi Covid-19.
Vaksin Covid-19 merupakan bentuk
pencegahan yang berfungsi mendorong
pembentukan kekebalan tubuh spesifik
pada penyakit Covid-19 agar terhindar dari
Covid-19 atau kemungkinan sakit berat.
Data mining adalah salah satu bentuk
implementasi yang diterapkan untuk
mencari sebuah model dan pola yang
mampu melakukan prediksi pada suatu
data berdasarkan data sebelumnya di
periode waktu tertentu. Data mining
merupakan bentuk penggalian data yang
digunakan untuk menggali pengetahuan
dari jumlah data yang besar. Algoritma
yang digunakan dalam teknik data mining
yang memakai teori klasterisasi adalah K-
Means merupakan teknik klaster
pemodelan tanpa supervisi (unsupervised)
dan merupakan salah satu metode yang
melakukan pengelompokan data dengan
sistem partisi.
II. Landasan Teori
2.1 Virus Corona
Virus corona merupakan zoonosis,
sehingga terdapat kemungkinan virus
berasal dari hewan dan ditularkan ke
manusia. Pada Covid-19 belum diketahui
dengan pasti proses penularan dari hewan
ke manusia, tetapi data filogenetik
memungkinkan, Covid-19 juga merupakan
zoonosis [4]. Perkembangan data
selanjutnya menunjukkan penularan antar
manusia (human to human), yaitu
diprediksi melalui droplet dan kontak
dengan virus yang dikeluarkan dalam
droplet. Hal ini sesuai dengan kejadian
penularan kepada petugas kesehatan yang
merawat pasien Covid-19, disertai bukti
lain penularan di luar Cina dari seorang
yang datang dari Kota Shanghai, Cina ke
Jerman dan diiringi penemuan hasil positif
pada orang yang ditemui dalam kantor.
Pada laporan kasus ini bahkan dikatakan
penularan terjadi pada saat kasus indeks
belum mengalami gejala (asimtomatik)
atau masih dalam masa inkubasi. Laporan
lain mendukung penularan antar manusia
adalah laporan sembilan kasus penularan
langsung antar manusia di luar Cina dari
kasus index ke orang kontak erat yang
tidak memiliki riwayat perjalanan
manapun. dua, sebelas penularan ini
terjadi umumnya melalui droplet dan
kontak dengan virus kemudian virus dapat
masuk ke dalam mukosa yang terbuka.
Suatu analisis mencoba mengukur laju
penularan berdasarkan masa inkubasi,
gejala dan durasi antara gejala dengan
pasien yang diisolasi. Analisis tersebut
mendapatkan hasil penularan dari satu
pasien ke sekitar tiga orang di sekitarnya,
tetapi kemungkinan penularan di masa
inkubasi menyebabkan masa kontak
pasien ke orang sekitar lebih lama
sehingga risiko jumlah kontak tertular dari
satu pasien mungkin dapat lebih besar [5].
2.2 Data Mining
Data mining adalah sebuah proses
pencarian secara otomatis informasi yang
berguna dalam tempat penyimpanan data
berukuran besar. Data mining adalah
analisa terhadap data untuk menemukan
hubungan yang jelas serta
menyimpulkannya yang belum diketahui
sebelumnya dengan cara terkini dipahami
dan berguna bagi pemilik data tersebut [6].
Data Mining adalah proses yang
mempekerjakan satu atau lebih teknik
pembelajaran komputer (Machine
Learning) untuk menganalisis dan
mengekstraksi pengetahuan (Knowledge)
secara otomatis. Definisi lain diantaranya
yaitu pembelajaran berbasis induksi
(Induction-based learning) adalah proses
pembentukan definisi-definisi konsep
umum yang dilakukan dengan cara
mengobservasi contoh-contoh spesifik
dari konsep-konsep yang akan dipelajari
[7].
Data Mining dibagi menjadi beberapa
kelompok berdasarkan tugas yang dapat
dilakukan yaitu [7]:
1. Deskripsi (Description)
Terkadang peneliti dan analisis secara
sederhana ingin mencoba mencari cara
untuk menggambarkan pola dan
kecenderungan yang terdapat dalam data.
Sebagai contoh, petugas pengumpulan
surat suara mungin tidak dapat
menemukan keterangan atau fakta bahwa
siapa saja yang tidak cukup profesional,
maka akan sedikit didukung dalam
pemilihan presiden. Deskripsi dari pola
dan kecenderungan sering memberikan
kemungkinan untuk suatu pola atau
kecenderungan.
2. Estimasi (Estimation)
Estimasi hampir sama dengan
klasifikasi, kecuali variabel target estimasi
lebih ke arah numerik dari pada kearah
kategori. Model dibangun menggunakan
record lengkap yang menyediakan nilai
dari variabel target sebagai nilai prediksi.
Selanjutnya, pada peninjauan berikutnya
estimasi nilai dari variabel target dibuat
berdasarkan nilai variabel prediksi.
Sebagai contoh yaitu estimasi nilai indeks
prestasi kumulatif mahasiswa program
pasca sarjana dengan melihat nilai indeks
prestasi mahasiswa tersebut pada saat
mengikuti program sarjana.
3. Prediksi (Prediction)
Prediksi hampir sama dengan klasifikasi
dan estimasi, kecuali bahwa dalam
prediksi nilai dari hasil akan ada dimasa
mendatang. Contoh prediksi dalam bisnis
dan penelitian diantaranya seperti prediksi
harga beras dan tiga bulan yang akan
datang, prediksi tingkat pengangguran
lima tahun yang akan datang, dan prediksi
persentase kanaikan kecelakaan lalu lintas
tahun depan jika batas bawah kecepatan
dinaikan.
4. Klasifikasi (Classification)
Dalam klasifikasi terdapat target variabel
kategori. Sebagai contoh, penggolongan
pendapatan dapat dipisahkan dalam tiga
kategori, yaitu pendapatan tinggi,
pandapatan sedang, dan pendapatan
rendah.
5. Pengklusteran (Clustering)
Pengklusteran merupakan pengelompokan
record, pengamatan, atau memperhatikan
dan membentuk kelas objek-objek yang
memiliki kemiripan. Kluster adalah
kumpulan record yang memiliki
kemiripan antara yang satu dengan yang
lainnya dan memiliki ketidakmiripan
dengan record dalam kluster lain.
Pengklusteran berbeda dengan klasifikasi
yaitu tidak adanya variabel target dalam
pengklusteran. Pengklusteran tidak
mencoba untuk melakukan klasifikasi,
mengestimasi, atau memprediksi nilai dari
varabel target. Akan tetapi, algoritma
pengklusteran mencoba untuk melakukan
pembagian terhadap keseluruhan data
menjadi kelompok-kelompok yang
memiliki kemiripan (hommogen), yang
mana kemiripan record dalam satu
kelompok akan bernilai maksimal,
sedangkan kemiripan dengan record
dalam kelompok lain akan bernilai
minimal.
6. Asosiasi (Association)
Tugas asosiasi dalam data mining adalah
menemukan atribut yang muncul dalam
satu waktu. Dalam dunia bisnis lebih
umum disebut analisis keranjang belanja.
Contoh asosiasi dalam bisnis penelitian
adalah:
a. Meneliti jumah pelanggan dari
perusahaan telekomunikasi seluler
yang diharapkan untuk memberikan
respon positif terhadap penawaran
upgrade layanan yang diberikan.
b. Menemukan barang dalam
supermarket yang dibeli secara
bersamaan dan barang yang tidak
pernah dibeli secara bersamaan.
2.3 Tahap Tahap Data Mining
Data mining merupakan suatu bidang
ilmu pengetahuan yang digunakan untuk
mengeksplorasikan terkait dengan
sejumlah pengetahuan yang tersembunyi
dalam suatu database. Data mining
merupakan suatu proses yang didalamnya
melibatkan teknik matematik, statistik,
machine learning, dan kecerdasan buatan
untuk mengidentifikasi berbagai macam
informasi berupa knowladge yang
bersumber dari database dalam ukuran
yang sangat besar [8].
Data mining juga sering disebut dengan
istilah Knowladge Discovery in Database
(KDD) yang artinya menggali,
mengumpulkan, menemukan, menambang
database dalam jumlah yang besar.
Kenyataannya data mining dan KDD
merupakan dua konsep yang berbeda,
namun keduanya memiliki keterkaitan
satu dengan yang lain. Keterkaitan
tersebut dapat dibuktikan dalam tahapan
KDD yaitu adanya proses data mining [9].
Gambar 2. 1 Tahapan Knowladge
Discovery in Database. (D. Nofriansya,
2017 )
Berdasarkan gambar 2.1 dapat
dijelaskan tahapan-tahapan yang dimiliki
KDD sebagai berikut:
1. Data Selection
Memasuki tahapan KDD yang pertama
yaitu penyeleksian data dari sekumpulan
data operasional. Kemudian data yang
telah terseleksi akan ditempatkan ke dalam
berkas berbeda dari data awal yang akan
dibutuhkan pada proses data mining.
2. Pre-processing
Sebelum melalui proses data mining, perlu
dilakukan proses preprocessing atau
cleaning pada data yang sudah ditargetkan
dalam KDD. Proses cleaning itu sendiri
yaitu pemeriksaan data yang tidak
konsisten. Pembuangan data yang
terduplikasi, perbaikan data yang salah
seperti salah ketik. Hal yang dilakukan
agar dapat menciptakan hasil data atau
informasi yang cukup relevan dalam
tahapan KDD.
3. Transformation
Dalam kategorikal dan data numerik
adalah inputan yang dapat ditampung oleh
proses data mining. Data-data kemudian
akan ditransformasikan kedalam bentuk
yang sesuai dengan mekanisme yang
dibutuhkan dalam mempermudah proses
data mining. Hal ini ditunjukan untuk
menghasilkan sebuah pola informasi
sesuai yang direncanakan.
4. Data Mining
Data mining adalah proses mencari pola,
mengekstrak pengetahuan atau menggali
informasi menggunakan metode tertentu.
Teknik, metode dan algortima yang
dimiliki data mining sangat bervariasi dan
data yang digunakan juga harus memenuhi
standar. Pemakaian data berjumlah banyak
sangat dianjurkan dalam teknik data
mining agar tidak terjadi invalid data atau
kesalahan lainnya.
5. Interpretation (Evaluation)
Informasi atau pola yang dihasilkan dari
proses data mining harus digambarkan
dengan cara yang mudah difahami. Hal ini
menjadi tahapan terakhir dalam KDD yang
disebut interpretation atau evaluation.
Tahapan ini mencakup evaluasi pola atau
informasi yang dihasilkan apakah
bertentangan dengan hipotesis
sebelumnya (D. Nofriansya).
2.4 Algoritma K-Means
Algoritma K-Means merupakan
algoritma yang mudah dan efektif untuk
menemukan kluster dalam data. Adapun
tahapan dalam proses clustering dengan
K-Means antara lain [10].
1. Menentukan berapa banyak data yang
akan dipartisi.
2. Secara acak menetapkan k record
menjadi lokasi cluster center awal.
3. Menemukan pusat cluster terdekat.
Jadi, dalam arti tertentu, masing-
masing cluster center "memiliki"
subset dari catatan, sehingga mewakili
sebuah partisi dari kumpulan data. Oleh
karena itu kami memiliki cluster, C1,
C2,. . . , Ck.
4. Menemukan cluster centroid dan
memperbarui lokasi masing-masing
cluster ke dalam nilai centroid yang
baru pada masing-masing cluster.
5. Mengulang langka tiga sampai lima
sampai konvergensi atau terhenti.
Kriteria terdekat pada langkah ketiga,
biasanya jarang Euclidean, walaupun
kriteria lainnya dapat diterapkan. Cluster
centroid pada langkah empat ditemukan
sebagai berikut. Misalkan terdapat nilai n
titik data (a1, b1, c1), (a2, b2, c2) ,...,
(an,bn,cn), centroid dari masing-masing
titik ini adalah proses gravitasi titik dan
terletak di titik (∑a i /n, ∑b i /n, ∑c i /n ).
Algoritma K-Means akan berakhir
apabila centroid tidak lagi berubah.
Maksudnya, algoritma berakhir ketika
semua kluster C1, C2, C3 ….., Ck. Semua
catatan yang dimiliki oleh masing-masing
cluster centermain di cluster tersebut. Dan
juga algoritma K-Means akan berakhir
ketika beberapa kriteria konvergensi
dipenuhi, seperti tidak ada penyusutan
signifikan dalam jumlah kesalahan kuadrat
[10].
Vij =1
𝑁𝑖∑ Xkj𝑁𝑖𝑘=0 (1)
Keterangan:
Vij = Centroid rata-rata cluster ke-i untuk
variabel ke-i
Ni = jumlah cluster ke -i
i, k = indeks dari cluster
j = indeks dari variabel
Xkj = nilai data ke –k
variabel ke –j dalam cluster
𝐷 = √(𝑋𝑖 − 𝑆𝑖)2 + (𝑦𝑖 − 𝑡𝑖)2 (2)
Keterangan:
D = Euclidean Distance
i = banyaknya objek
(x,y) = koordinat objek
(s,t) = koordinat centroid
2.5 Davies-bouldin index
Davies-bouldin index merupakan
salah satu metode evaluasi internal yang
mengukur evaluasi cluster pada suatu
metode pengelompokan yang didasarkan
pada nilai kohesi dan separasi. Dalam
suatu pengelompokan, kohesi
didefinisikan sebagai jumlah dari
kedekatan data terhadap centroid. Pada
suatu metode pengelompokan yang
didasarkan pada nilai kohesi dan separasi.
Dalam suatu pengelompokan, kohesi
didefinisikan sebagai jumlah dari
kedekatan data terhadap centroid dari
cluster yang diikuti. Sedangkan separasi
didasarkan pada jarak antar centroid dari
cluster. (Sum of square within cluster)
SSW merupakan persamaan yang
digunakan untuk mengetahui matrik
kohesi dalam sebuah cluster kesatu.
2.6 RapidMiner
RapidMiner merupakan perangkat
lunak yang dibuat oleh Dr. Markus
Hofmann dari Institute of Technologi
Blanchardstown dan Ralf Klinkenberg
dari rapid-i.com dengan tampilan GUI
(Graphical User Interface) sehingga
memudahkan pengguna dalam
menggunakan perangkat lunak ini.
Perangkat lunak ini bersifat open source
dan dibuat dengan menggunakan program
Java di bawah lisensi GNU Public Licence
dan RapidMiner dapat dijalankan di sistem
operasi manapun. Dengan menggunakan
RapidMiner, tidak dibutuhkan
kemampuan koding khusus, karena semua
fasilitas sudah disediakan. RapidMiner
dikhususkan untuk penggunaan data
mining. Model yang disediakan juga
cukup banyak dan lengkap, seperti Model
Bayesian, Modelling, Tree Induction dan
Neural Network. Banyak metode yang
disediakan oleh RapidMiner mulai dari
klasifikasi, klustering, asosiasi dan lain
sebagainya [11]
RapidMiner sebelumnya bernama
YALE (Yet Another Learning
Environtment), dimana versi awalnya
dimulai dikembangkan pada tahun 2001
oleh Ralfklinkenberg, Inge Mierswa dan
Simon Fischer di Artificial Intelligence
Unit dari University of Dortmund.
RapidMiner di distribusikan dibawah
lisensi AGPL (GNU Affero General public
license) versi tiga. Hingga saat ini telah
ribuan aplikasi yang dikembangkan
menggunakan RapidMiner lebih dari
empat puluh Negara. RapidMiner sebagai
Software open source untuk data mining
tidak perlu diragukan lagi karena software
ini sudah terkemuka di dunia.
Sifat-sifat RapidMiner yaitu sebagai
berikut:
1. Ditulis dengan pemrograman Java
sehingga dapat dijalankan di berbagai
sistem operasi.
2. Proses penemuan pengetahuan
dimodelkan sebagai operatortrees.
3. Representasi XML, internal untuk
memastikan format standar
pertukaran data.
4. Bahasa scripting memungkinkan
untuk eksperimen skala besar dan
otomatisasi eksperimen.
5. Konsep multi-layer untuk menjamin
tampilan data yang efisien dan
menjamin penanganan data.
6. Memiliki GUI, command line mode,
dan Java API yang dapat dipanggil
dari program lain.
Beberapa fitur dari RapidMiner
yaitu:
a. Banyaknya algoritma data mining,
seperti decision tree, dan
selforganization map.
b. Bentuk grafis yang canggih, seperti
tumpang tindih diagram histogram,
tree chart dan 3Dscatter plots.
c. Banyaknya variasi plugin, seperti text
plugin untuk melakukan analisis teks.
d. Menyediakan prosedur data mining
dan machine learning termasuk: ETL
(extraction, transformation, loading),
data processing, visualisasi, dan
modelling.
III. Tahapan Penelitian
3.1 Pengumpulan Data
Pada tahap ini menjelaskan tentang
bagaimana dan dari mana sumber data
didapatkan, diantaranya adalah:
1. Sumber Data Primer
Dalam penelitian ini data yang digunakan
didapat melalui website informasi dan
koordinasi kasus Covid-19 milik
Pemerintah Provinsi Jawa Barat yaitu
melalui akses portal
pikobar.jabarprov.go.id.
Data tersebut kemudian yang nantinya
akan dijadikan dataset yang isinya
meliputi angka penyebaran kasus Covid-
19 di Provinsi Jawa Barat untuk tingkat
kota dan kabupaten selama rentang waktu
Agustus 2020 – Juni 2021 (Tgl. 4 Juni).
Untuk mendapatkan dataset yang akan
digunakan dalam penelitian ini akan
dilakukan proses pre-processing data
dengan cara penyederhanaan
menggunakan pivot data dan melakukan
beberapa tahapan yang ada dalam pra-
pemrosesan data.
3.2 Pengolahan Data
Pada tahap ini menjelaskan tentang
tahap awal data mining. Data yang telah
didapatkan akan diolah keformat yang
dibutuhkan, pengelompokan dan
penentuan atribut data. Dalam melakukan
pengolahan data awal, akan dilakukan
beberapa tahapan agar didapatkan data
yang bisa digunakan untuk tahap
selanjutnya. Beberapa tahapan tersebut
yaitu:
1. Pembersihan Data
Pada tahap pertama pra-pemrosesan data
ini penulis melakukan pembersihan data
untuk membuang data yang missing value,
duplikasi data dan memeriksa
inkonsistensi data dan memperbaiki
kesalahan pada data yang rusak. Proses
pembersihan data dilakukan secara manual
untuk memastikan bahwa data yang telah
dipilih layak untuk dilakukan proses
permodelan. Pada tahapan ini,
pembersihan data dilakukan dengan
menggunakan bantuan aplikasi pengolah
angka yakni Microsoft Excel.
Tabel 3. 1 Contoh Data Cleaning
nama_pr
ov
kode_k
ab nama_kab
Provinsi
Jawa
Barat
0000
BELUM
TERIDENTIFIK
ASI
Provinsi
Jawa
Barat
0000
BELUM
TERIDENTIFIK
ASI
Provinsi
Jawa
Barat
0000
BELUM
TERIDENTIFIK
ASI
Provinsi
Jawa
Barat
0000
BELUM
TERIDENTIFIK
ASI
Provinsi
Jawa
Barat
0000
BELUM
TERIDENTIFIK
ASI
Provinsi
Jawa
Barat
0000
BELUM
TERIDENTIFIK
ASI
Provinsi
Jawa
Barat
0000
BELUM
TERIDENTIFIK
ASI
Provinsi
Jawa
Barat
0000
BELUM
TERIDENTIFIK
ASI
Provinsi
Jawa
Barat
0000
BELUM
TERIDENTIFIK
ASI
2. Seleksi Data
Pada tahap seleksi data penulis melakukan
pemilihan variabel data yang akan
dianalisis, karena sering ditemukan bahwa
tidak semua data yang dibutuhkan dengan
mempertimbangkan tujuan penulisan,
sehingga diperoleh beberapa variabel yang
akan digunakan untuk menjadi masukan
variabel input. Pada tahapan ini penulis
melakukan proses pivot data dan juga
seleksi atribut.
1. Pivot Data
Data yang berjumlah 8624 record data
kemudian dipivot berdasarkan kota dan
kabupaten di Jawa Barat serta
mengakumulasikan angka kasus dari
masing-masing kabupaten dan kota
terhadap penyebaran kasus Covid-19.
Sebanyak dua puluh tujuh data berdasar
pada kota dan kabupaten di Jawa Barat ini
nantinya yang akan digunakan dalam
proses data mining menggunakan
algoritma K-Means.
2. Seleksi Atribut
Penggunaan atribut atau label pada proses
penerapan algoritma K-Means hanya
menggunakan empat atribut yaitu atribut
total kasus suspect (terkonfirmasi) dan
total kasus sembuh (terkonfirmasi) sebagai
atribut yang dijadikan indicator
pengelompokkan klaster, dan dua atribut
identitas yaitu kode kabupaten atau kota
dan nama kabupaten atau kota. Sedangkan
untuk atribut lain yang mengandung
angka-angka akumulasi penyebaran kasus
Covid-19 ditiadakan karena tidak
bersinggungan langsung dengan proses
selanjutnya.
Tabel 3. 2 Contoh Data Selection
3. Transformasi Data
Penulis melakukan tahapan transformasi
data yang merupakan proses mengubah
format data awal menjadi sebuah format
data standar untuk proses pembacaan data
dengan algoritma pada program maupun
tool yang digunakan, yakni ketika
menentukan unsur pertama data yang akan
diambil, dalam hal ini untuk proses
pembacaan data dengan algoritma K-
Means pada aplikasi RapidMiner Studio
yang digunakan dalam penelitian ini.
Tabel 3. 3 Transformasi Data pada
RapidMiner Studio
Berikut adalah hasil pengolahan data awal
setelah melawati tahapan diatas untuk
dijadikan dataset pada tahap selanjutnya,
ditunjukkan pada Tabel 3.4.
3.2 Pemodelan
Algoritma K-Means merupakan
algoritma yang mudah dan efektif untuk
menemukan kluster dalam data. Adapun
tahapan dalam proses clustering dengan K-
Means antara lain [10].
1. Menentukan berapa banyak data yang
akan dipartisi.
2. Secara acak menetapkan k record
menjadi lokasi cluster center awal.
3. Menemukan pusat cluster terdekat.
Jadi, dalam arti tertentu, masing-
masing cluster center "memiliki"
subset dari catatan, sehingga mewakili
sebuah partisi dari kumpulan data. Oleh
karena itu kami memiliki cluster, C1,
C2,. . . , Ck.
4. Menemukan centroid cluster dan
memperbarui lokasi masing-masing
cluster ke dalam nilai centroid yang
baru pada masing-masing cluster.
5. Mengulang langkah tiga sampai
lima sampai konvergensi atau terhenti.
Kriteria terdekat pada langkah ketiga,
biasanya jarang euclidean, walaupun
kriteria lainnya dapat diterapkan. Cluster
centroid pada langkah empat ditemukan
sebagai berikut. Misalkan terdapat nilai n
titik data (a1, b1, c1), (a2, b2, c2) ,...,
(an,bn,cn), centroid dari masing-masing
titik ini adalah proses gravitasi titik dan
terletak di titik (∑a i /n, ∑b i /n, ∑c i /n ).
Algoritma K-Means akan berakhir
apabila centroid tidak lagi berubah.
Maksudnya, algoritma berakhir ketika
semua cluster C1, C2, C3 ….., Ck. Semua
catatan yang dimiliki oleh masing-masing
cluster centermain di cluster tersebut. Dan
juga algoritma K-Means akan berakhir
ketika beberapa kriteria konvergensi
dipenuhi, seperti tidak ada penyusutan
signifikan dalam jumlah kesalahan kuadrat
[10].
Vij =1
𝑁𝑖∑ Xkj𝑁𝑖𝑘=0 (3)
Keterangan:
Vij = Centroid rata-rata cluster ke-i untuk
variabel ke-i
Ni = jumlah cluster ke -i
i, k = indeks dari cluster
j = indeks dari variabel
Xkj = nilai data ke –k variabel ke –j dalam
cluster
𝐷 = √(𝑋𝑖 − 𝑆𝑖)2 + (𝑦𝑖 − 𝑡𝑖)2
(4)
Keterangan:
D = Euclidean Distance
i = banyaknya objek
(x,y) = koordinat objek
(s,t) = koordinat centroid
3.3 Evaluasi Pengujian
Evaluasi dapat dilakukan dengan cara
mengamati dan menganalisa hasil dari
algoritma yang digunakan untuk
memastikan bahwa hasil pengujian benar-
benar sesuai dengan pembahasan.
Melakukan pengecekan terhadap setiap
nilai atribut dan model yang sudah
dibangun. Kemudian melakukan evaluasi
dengan cara mengamati dan menganalisa
hasil dari algoritma yang digunakan untuk
memastikan bahwa hasil pengujian
menghasilkan nilai cluster benar dan
sesuai hasil pembahasan, pengujian
dilakukan untuk mengukur keakuratan
data hasil dari tiap model yang diusulkan.
IV. Hasil Pengujian dan Pembahasan
Dengan menggunakan skenario yang
dimodelkan dalam mencari kelompok
klaster melalui metode klasterisasi,
pemanfaatan algoritma K-Means yang
digunakan menghasilkan suatu pn
mengelompokan klaster terhadap masing-
masing data. Dataset penyebaran kasus
Covid-19 Provinsi Jawa Barat yang
digunakan adalah sebanyak dua puluh
tujuh record data yang akan diuji pada
proses pembentukan kelompok klaster
dengan algoritma K-Means. Hasil cluster
model pada pengujian aplikasi
RapidMiner Studio terdapat enam data
kota atau kabupaten masuk kelompok
klaster pertama (C0), sembilan belas data
kota atau kabupaten masuk pada kelompok
klaster kedua (C1) dan dua data kota atau
kabupaten masuk pada kelompok klaster
ketiga (C2), yang dapat dilihat pada
gambar berikut.
Gambar 4. 1 Hasil Cluster Model pada
aplikasi RapidMiner Studio
Adapun gambaran umum
kelompok klaster dari masing-masing
klaster nol, satu dan dua dapat dilihat pada
pohon klasterisasi seperti berikut ini.
Gambar 4. 2 Cluster Tree yang terbentuk
pada aplikasi RapidMiner Studio
Gambar diatas menunjukkan bahwa
sebagian besar data yang digunakan
terkelompok pada klaster kedua, diikuti
kemudian oleh klaster pertama dan yang
terakhir adalah klaster ketiga.
Kemudian juga dari hasil diatas dapat
dilihat bahwa pembentukan anggota
klaster yang didapat melalui pengujian
dengan aplikasi RapidMiner Studio ini
memiliki hasil yang sejalan dengan contoh
perhitungan model K-Means yang
dilakukan secara manual. Anggota dari
masing-masing cluster juga memiliki
kemiripan jumlah dengan perhitungan
manual yang dilakukan. Hanya saja dalam
proses menggunakan tools RapidMiner
tidak ditentukan nilai cluster awal
sebagaimana yang dilakukan dalam proses
perhitungan manual.
Titik klaster optimal yang terbentuk dari
masing-masing atribut yang digunakan
yakni atribut kasus konfirmasi dan kasus
konfirmasi sembuh untuk klaster pertama
(C0) yakni 2.433.388 dan 2.002.647,33,
klaster kedua (C1) adalah 607.842,42 dan
476.223,47, dan klaster ketiga (C2) adalah
6.269.200,5 dan 5.372.599 seperti yang
dapat dilihat pada gambar dibawah ini.
Tabel 4. 1 Hasil Optimal Cluster pada
aplikasi RapidMiner Studio
Titik optimal klaster ini jika disandingkan
dengan hasil perhitungan model K-Means
yang dilakukan secara manual juga
memiliki angka yang sama yakni seperti
pada tabel berikut.
Tabel 4. 2 Nilai klaster optimal pada
perhitungan algoritma K-Means secara
manual
Pengujian performa terhadap model
dan algoritma dilakukan dengan maksud
mengetahui hasil perhitungan yang
dianalisa dan mengukur metode serta
algoritma yang digunakan apakah
berfungsi dengan baik atau tidak.
Gambar 4. 3 Hasil Davies-Bouldin Index
pada aplikasi RapidMiner Studio
Hasil nilai evaluasi dengan Davies
Bouldin Index atau DBI berdasar pada
aplikasi RapidMiner Studio yang didapat
dari pengujian yang didapat dari hasil uji
pada aplikasi RapidMiner Studio
meunjukkan angka 0,322 seperti pada
gambar 4.7.
V. Kesimpulan dan Saran
5.1 Kesimpulan
Berdasarkan hasil penelitian yang
dilakukan oleh penulis, kesimpulan yang
didapat yaitu sebagai berikut:
1. Pendekatan metode klasterisasi dapat
diterapkan dalam menganalisis
kebutuhan pendistribusian vaksin
berdasar tingkat prioritas dengan
memanfaatkan data sebaran kasus
Covid-19 di Provinsi Jawa Barat.
2. Model algoritma K-Means yang
diterapkan menunjukkan sebuah
pengetahuan dan perspektif baru,
dengan mengelompokkan kota atau
kabupaten Provinsi Jawa Barat
berdasarkan tiga klaster, yakni klaster
satu (C0) merupakan tingkat prioritas
tinggi yang terdiri dari enam kota atau
kabupaten, klaster dua (C1) adalah
prioritas utama yang terdiri dari
sembilan belas kota atau kabupaten,
dan klaster tiga (C2) yakni prioritas
rendah yang hanya terdiri dari dua kota
atau kabupaten.
3. Pengujian menggunakan aplikasi
RapidMiner Studio menghasilkan
wawasan yang serupa yaitu masing-
masing klaster memiliki anggota
kelompok yang terbagi menjadi tiga
klaster, yaitu C0 dengan anggota
kelompok klaster sebanyak enam data,
dan C1 dengan anggota klaster
sebanyak Sembilan belas data serta C2
sebanyak dua data. Masing-masing
klaster memiliki nilai optimal pada
klaster pertama (C0) yakni 2.433.388
dan 2.002.647,33, klaster kedua (C1)
adalah 607.842,42 dan 476.223,47, dan
klaster ketiga (C2) adalah 6.269.200,5
dan 5.372.599, dengan nilai evaluasi
Davies-Bouldin Index untuk model
algoritma yang dijalankan adalah
sebesar 0,322.
5.2 Saran
Beberapa saran dalam penelitian ini
untuk pengembangan lebih lanjut antara
lain yaitu:
1. Perluas dimensi data yang akan
digunakan dalam penelitian selanjutnya
agar lebih banyak lagi kelompok klaster
yang dapat dilihat dan dapat
memetakan kebutuhan prioritas
pendistribusian vaksin Covid-19 yang
lebih representatif.
2. Adanya sistem yang saling ter-integrasi
sehingga pemanfaatan data menjadi
lebih luas dan dapat digunakan sebagai
pengetahuan baru bagi setiap pihak
yang terlibat dalam penentuan
kebijakan dan pengambilan keputusan
baik dari lingkungan internal maupun
pihak eksternal baik yang bersifat lokal
maupun nasional.
3. Membantu perencanaan jumlah
vaksinasi di masing - masing daerah,
dan menentukan jadwal vaksinasi
prioritas utama, dengan stok vaksin
yang ada di tingkat nasional dan tingkat
daerah.
Daftar Pustaka
[1] P. Penyebaran et al., “Analisis
algoritma k-medoids clustering
dalam pengelompokan penyebaran
covid-19 di indonesia,” vol. 4, no. 1,
pp. 166–173, 2020.
[2] R. E. Reigal, J. L. Pastrana-
Brincones, S. L. González-Ruiz, A.
Hernández-Mendo, J. P. Morillo-
Baro, and V. Morales-Sánchez, “Use
of Data Mining to Determine Usage
Patterns of an Online Evaluation
Platform During the COVID-19
Pandemic,” Front. Psychol., vol. 11,
no. September, pp. 1–16, 2020, doi:
10.3389/fpsyg.2020.588843.
[3] A. P. Windarto, U. Indriani, M. R.
Raharjo, and L. S. Dewi, “Bagian 1:
Kombinasi Metode Klastering dan
Klasifikasi (Kasus Pandemi Covid-
19 di Indonesia),” J. Media Inform.
Budidarma, vol. 4, no. 3, p. 855,
2020, doi: 10.30865/mib.v4i3.2312.
[4] I. Romli, S. Prameswari R, and A. Z.
Kamalia, “Sentiment Analysis about
Large-Scale Social Restrictions in
Social Media Twitter Using
Algoritm K-Nearest Neighbor,” J.
Online Inform., vol. 6, no. 1, p. 96,
2021, doi: 10.15575/join.v6i1.670.
[5] P. D. O. Davies, “Multi-drug
resistant tuberculosis,” CPD Infect.,
vol. 3, no. 1, pp. 9–12, 2002.
[6] C. Medel-ramírez, H. Medel-lópez,
U. Veracruzana, I. De
Investigaciones, and S. Económicos,
“Data Article . Data mining for the
study of the Epidemic ( SARS- CoV-
2 ) COVID-19 : Algorithm for the
Authors Corresponding author A
bstract Keywords,” pp. 1–8.
[7] Suyanto, Data Mining. Yogyakarta:
Informatika, 2017.
[8] Retno Tri vulandari, Data Mining.
Yogyakarta: Gava Media, 2017.
[9] O. Villacampa, “(Weka - Thesis)
Feature Selection and Classification
Methods for Decision Making: A
Comparative Analysis,” ProQuest
Diss. Theses, no. 63, p. 188, 2015.
[10] G. widi N. Dicky Nofriansyah,
Algoritma Data Mining Dan
pengujian. Yogyakarta: Cv Budi
Utama, 2015.
[11] M. Miftakhul and S. Prihandoko,
“Penerapan Algoritma K-Means dan
Cure Dalam Menganalisa Pola
Perubahan Belanja Dari Retail ke E-
Commerce,” vol. 7, no. 2, pp. 44–49,
2017.
[12] S. Haryati, A. Sudarsono, and E.
(2015) Suryana, “Implementasi Data
Mining untuk Memprediksi Masa
Studi Mahasiswa Menggunakan
Algoritma C4.5,” J. Media
Infotama, vol. 11, no. 2, pp. 130–
138, 2015.
[13] 1M. Nanda Variestha Waworuntu,
2Muhammad Faisal Amin,
"Penerapan Metode K-Means
Pemetaan Calon Penerima
Jamkesda", Kumpulan jurnaL Ilmu
Komputer (KLIK) Volume 05,
No.02 September 2018.
top related