Download - Proposal Ka
UNIVERSITAS INDONESIA
PEMANFAATAN TEKNIK DATA MINING CLASSIFICATION
UNTUK POLA PENGISIAN JABATAN STRUKTURAL:
STUDI KASUS PEMERINTAH KOTA BOGOR
PROPOSAL
KARYA AKHIR
TOSAN WIAR RAMDHANI
1206194985
PROGRAM STUDI MAGISTER TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER
UNIVERSITAS INDONESIA
2014
i
Universitas Indonesia
ABSTRAK
Pemerintah Kota Bogor merupakan salah satu bagian dari Pemerintah
Provinsi Jawa Barat yang memiliki jumlah pegawai 9111 orang. Pengelolaan
kepegawaian dilakukan oleh Badan Kepegawaian Pendidikan dan Pelatihan Kota
Bogor (BKPP). BKPP membentuk tim Badan pertimbangan Jabatan dan
Kepangkatan (Baperjakat) dalam tugas pengangkatan, pemindahan dan
pemberhentian PNS dalam dan dari jabatan srtuktural eselon II ke bawah.
Masalah yang dihadapi saat ini adalah Baperjakat mengalamai kesulitan dalam
menyusun calon pejabat struktural yang selama ini dilakukan secara manual
meskipun sudah memiliki aplikasi SIMPEG sebagai aplikasi pengelolaan
kepegawaian.
Penelitian ini berusaha mengidentifikasi pola pengisian jabatan struktural
di lingkungan Pemerintah Kota Bogor dari data jabatan struktural tahun 2009
hingga 2013 dengan sumber basis data SIMPEG. Metode yang digunakan untuk
mengidentifikasi pola jabatan struktural adalah classification yang hasilnya akan
dimanfaatkan untuk memberikan usulan pengisian jabatan struktural secara
otomatis.
Hasil yang diharapakan dari penelitian ini adalah mampu mengidentifikasi
pola pengisian jabatan struktural di lingkungan Pemerintah kota Bogor
berdasarkan atribut-atribut kepegawaian yang bersumber dari basis data SIMPEG.
Pola yang dihasilkan akan menjadi dasar dalam menyusun kemapuan kecerdasan
buatan dalam SIMPEG, sehingga nantinya mampu menjadi sistem pendukung
keputusan dalam bentuk memberikan usulan pengisian jabatan struktural secara
otomatis.
ii
Universitas Indonesia
DAFTAR ISI
ABSTRAK ..................................................................................................................... i
DAFTAR ISI ................................................................................................................. ii
DAFTAR TABEL ..........................................................................................................iv
DAFTAR GAMBAR ...................................................................................................... v
BAB 1 ............................................................................................................................ 1
PENDAHULUAN .......................................................................................................... 1
1.1 Latar Belakang................................................................................................. 1
1.2 Perumusan Masalah ......................................................................................... 2
1.3 Tujuan Penelitian ............................................................................................. 5
1.4 Manfaat Penelitian ........................................................................................... 5
1.5 Ruang Lingkup Penelitian ................................................................................ 5
BAB 2 ............................................................................................................................ 6
LANDASAN TEORI ...................................................................................................... 6
2.1 Data mining ..................................................................................................... 6
2.1.1 Tahapan Dalam Knowledge Discovery ..................................................... 7
2.1.2 Teknik Dasar Dalam Data mining ............................................................ 7
2.2 Association Rule Mining .................................................................................. 8
2.3 Classification ................................................................................................... 9
2.4 Cluster Analysis ............................................................................................. 12
2.4.1 Struktur Data clustering ......................................................................... 14
2.4.2 Jenis Data Clustering ............................................................................. 15
2.4.3 Pendekatan Clustering ............................................................................ 15
2.5 Pengangkatan Pegawai Negeri Sipil Dalam Jabatan Struktural ....................... 16
2.6 Penelitian Terdahulu ...................................................................................... 17
2.6.1 Data Mining Classifcation Technique for Talent Management using SVM
(S.Yashoda, P.S.Prakash, 2012) ............................................................................ 17
2.6.2 The Decision Tree Classifcation And Its Application Research In
Personnel Management (Peng Ye, 2011) .............................................................. 20
2.6.3 Data mining Classification Techniques For Human Talent Forecasting
(Hamidah Jantan, Abdul Razak Hamdan,Zulaiha Ali Othman, 2011) ..................... 23
2.6.4 Penerapan Data mining Pada Pemberian Biaya Sponsorship Untuk
Menemukan Pola Yang Efektif (Achmad Junanto, 2010) ....................................... 24
2.6.5 Penerapan Data mining Di Badan Metereologi Dan Geofisika (BMG)
Untuk Memprediksi Cuaca Di Jakarta (Iqbal, 2007) ............................................... 25
iii
Universitas Indonesia
2.6.6 Implementasi Bussiness Intelligence Untuk Pengenalan Pola Bisnis Di
Daerah Jakarta Selatan (Arthur Salomo Hamonangan Gultom, 2009). ................... 26
2.6.7 Pembandingan Tingkat Akurasi Dua Model Data mining Yang
Dihasilkan Oleh Decision Tree Dan Naïve Bayes Studi Kasus: Suatu Perusahaan
Manufaktur Dan Penjualan Sepeda (Afif Farisi, 2007) ........................................... 27
2.6.8 Analisis Model Komputasi Berbasis Artificial Neural Network Untuk
Forecasting Perekonomian Indonesia (Bagus Priambodo,2009) ............................. 30
2.6.9 Predictive Modelling Dalam Data mining Perbandingan Macroeconomic
Forecasting Menggunakan Vector Auto Regression Dan General-To-Specific
Modelling (Siswantoro ,2008) ................................................................................ 32
2.6.10 Aplikasi Data Mining Di Bidang Earth Science Studi Kasus El Nino dan
La Nina (Ramdhani Mahardika ,2011) ................................................................... 35
2.7 Theoretical Framework.................................................................................. 43
BAB 3 .......................................................................................................................... 45
METODOLOGI PENELITIAN..................................................................................... 45
3.1 Tahapan Penelitaian ....................................................................................... 45
3.2 Metode Pengumpulan Data ............................................................................ 47
3.3 Metode Analisis Data ..................................................................................... 48
BAB 4 .......................................................................................................................... 51
JADWAL PENYUSUNAN KARYA AKHIR ............................................................... 51
DAFTAR PUSTAKA ................................................................................................... 54
Lampiran 1: Lampiran Transkrip Wawancara ................................................................ 56
iv
Universitas Indonesia
DAFTAR TABEL
Tabel 2.1 Jenjang pangkat golongan untuk setiap tingkat eselon................... 16 Tabel 2.2 Atribut dengan tipe data continous yang digunakan ...................... 18 Tabel 2.3 Atribut dan variabel yang digunakan ............................................. 23 Tabel 2.4 Akurasi dari model dengan seluruh atribut .................................... 24 Tabel 2.5 Tabel Presentase Kebenaran dari 3 Data mining Tools .................. 26 Tabel 2.6 Faktor faktor yang mempengaruhi pola bisnis di Jakara Selatan..... 27 Tabel 2.7 Atribut yang digunakan pada data pelanggan dan penjualan .......... 28 Tabel 2.8 Arsitektur ANN untuk peramalan multivariate dan univariate ....... 31 Tabel 2.9 Perbandingan model artificial neural network ............................... 32 Tabel 2.10 Hasil Ringkasan analisis predictive modeling ............................. 35 Tabel 2.11 Perbandingan teori dan penelitian sebelumnya ............................. 37 Tabel 3.1 Data yang tersedia ......................................................................... 47 Tabel 3.2 Tabel Perbandingan Data mining Tools ......................................... 49 Tabel 4.1 Jadwal Penyusunan Karya Akhir ................................................... 51
v
Universitas Indonesia
DAFTAR GAMBAR
Gambar 1.1 Diagram tulang ikan permasalahan mutasi jabatan struktural ..... 3 Gambar 2.1 Representasi model classification dengan beberapa metode ...... 10 Gambar 2.2 Metode data mining untuk pengelolaan sumber daya manusia ... 19 Gambar 2.3 Metode penelitian untuk data mining staf pengajar .................... 20 Gambar 2.4 Perbandingan akurasi decision tree dengan naïve bayes ............. 29 Gambar 2.5 Pergerakan data atribut yang akan digunakan ............................. 34 Gambar 2.6 Theoretical framework penelitian. .............................................. 44 Gambar 3.1 Kerangka Kerja Penelitian ......................................................... 35 Gambar 3.2 Hasil survey kdnuggets.com tahun 2007 .................................... 38
1
Universitas Indonesia
BAB 1
PENDAHULUAN
1.1 Latar Belakang
Pemerintah Kota Bogor merupakan salah satu bagian dari Pemerintah
Provinsi Jawa Barat yang memiliki jumlah pegawai 9111 orang. Pemerintah Kota
Bogor terdiri dari 11 Dinas, 6 Badan, 6 Kecamatan, 6 Kantor dan 62 Kelurahan.
Sesuai dengan tugas pokok dan fungsi masing-masing unit kerja, pengelolaan
kepegawaian dilakukan oleh Badan Kepegawaian Pendidikan dan Pelatihan Kota
Bogor (BKPP). Secara Struktur BKPP terdiri dari 1 Sekretariat dan 3 Bidang
yang diantaranya adalah: Bidang Formasi, Pengadaan dan Kesejahteraan Pegawai,
Bidang Pendidikan dan Pelatihan, serta Bidang Mutasi dan Pengembangan karir.
Bidang Mutasi dan Pengembangan karir terdiri dari dua sub bidang yaitu
Sub Bidang Mutasi Pegawai dan Sub Bidang Pengembangan Karir. Secara
Khusus Sub Bidang Pengembangan Karir memiliki tugas pokok dan fungsi
mengelola pengembangan karir pegawai, termasuk di dalamnya tugas belajar, izin
belajar, ujian dinas serta mutasi jabatan struktural.
Dalam hal mutasi jabatan struktural, Sub Bidang Pengembangan Karir
dibantu oleh Badan pertimbangan Jabatan dan Kepangkatan (Baperjakat). Dalam
Pasal 14, 15 dan 16 Peraturan Pemerintah Nomor 100 Tahun 2000 tentang
Pengangkatan PNS dalam Jabatan Struktural secara rinci dijelaskan tugas pokok
hingga susunan anggotanya Baperjakat. Agar pengangkatan, pemindahan dan
pemberhentian PNS dalam dan dari jabatan srtuktural eselon II ke bawah terjamin
kualitas dan objektifitasnya, dibentuklah Badan Pertimbangan Jabatan dan
Kepangkatan (Baperjakat). Baperjakat Instansi Daerah Kabupaten/Kota, yang
dibentuk dan ditetapkan oleh Pejabat Pembina Kepegawaian Daerah
Kabupaten/Kota (Bupati/Walikota).
Ketua Baperjakat Instansi Daerah Kabupaten/Kota adalah Sekretaris
Daerah Kabupaten/Kota dengan anggota para pejabat Eselon II dan Sekretaris
dijabat oleh pejabat Eselon III yang membidangi kepegawaian. Jumlah anggota
2
Universitas Indonesia
Baperjakat untuk menjamin objektifitas dan kepastian dalam pengambilan
keputusan ditetapkan dalam jumlah ganjil. Masa keanggotaan Baperjakat paling
lama 3 tahun dan dapat diangkat kembali untuk masa kenggotaan berikutnya.
Dalam hal Ketua Baperjakat Insansi Pusat dan Daerah kosong, maka Pejabat
Pembina Kepegawaian menunjuk salah seorang anggota yang senior untuk
menjadi ketua.
Baperjakat Instansi Daerah Kabupaten.Kota bertugas memberikan
pertimbangan kepada Pejabat Pembina Kepegawaian dalam:
1. Pengangkatan, pemindahan dan pemberhentian dalam dan dari jabatan
struktural Eselon II kebawah.
2. Pemberian kenaikan pangkat bagi yang menduduki jabatan struktural,
menunjukkan prestasi kerja yang luar biasa baiknya, atau menemukan
penemuan baru yang bermanfaat bagi Negara.
3. Perpanjangan batas usia pensiun bagi PNS yang menduduki jabatan
struktural eselon I dan eselon II.
4. Pengangkatan Sekretaris Kabupaten/Kota.
Dalam mendukung pengelolaan kepegawaian di lingkungan Pemerintah
Kota Bogor, BKPP mengelola Sistem Inormasi Manjemen Kepegawaian
(SIMPEG) yang menyimpan data-data kepegawaian Pemerintah Kota Bogor.
SIMPEG mulai dikembangkan pada tahun 2009. SIMPEG merupakan aplikasi
berbasis web yang dikembangkan menggunakan bahasa pemrograman PHP dan
datanya disimpan dengan menggunakan basis data MySQL. SIMPEG secara
internal digunakan oleh BKPP untuk mengelola data-data kepegawaian,
sedangkan secara eksternal dapat digunakan oleh seluruh Pegawai Negeri Sipil
Pemerinth Kota Bogor untuk mengelola data masing-masing pegawai.
1.2 Perumusan Masalah
Berdasarkan hasil wawancara dengan Sekretaris Baperjakat yang juga
menjabat sebagai Kepala Bidang Mutasi dan Pengembangan Karir, diketahui
terdapat permasalahan dalam penyusunan usulan draft mutasi jabatan struktural
3
Universitas Indonesia
yaitu: tim Baperjakat mengalamai kesulitan dalam menyusun calon pejabat
struktural yang selama ini dilakukan secara manual.
Sistem yang ada (SIMPEG) belum dapat memberikan usulan secara
otomatis apabila terjadi kekosongan jabatan struktural akibat pejabat pensiun
maupun rotasi jabatan. Dalam hal ini tim Baperjakat melakukan penelusuran data
melalui SIMPEG secara manual terhadap calon-calon yang diusulkan mengisi
jabatan struktural.
Masalah lain yang dihadapi adalah data yang terdapat pada aplikasi
SIMPEG sangat terbatas dimana data yang tersimpan pada basis data SIMPEG
baru dimulai dari tahun 2009, sehingga dari sisi kelengkapan data tentunya akan
mengurangi objektifitas penilaian Baperjakat terhadap calon pejabat struktural
yang diusulkan.
Di sisi lain Peraturan Pemerintah tidak secara spesifik mengatur
bagaimana teknis pengisian jabatan struktural yang baik dan benar. Adapun
beberapa peraturan yang mengatur pengisian jabatan struktural sifatnya umum
seperti pangkat minimum yang harus dipenuhi untuk mengisi suatu jabatan
struktural bukan hal hal yang lebih spesifik seperti tingkat pendidikan,
pengalaman bekerja pada suatu unit kerja, maupun pendidikan dan pelatihan yang
pernah ditempuh seorang pegawai.Secara umum permasalahan yang ada dapat
digambarkan dalam diagram tulang ikan sebagai berikut:
Gambar 1.1 Diagram tulang ikan permasalahan mutasi jabatan struktural
4
Universitas Indonesia
Dari Gambar 1.1 di atas dilihat beberapa faktor utama yang menyebabkan
kesulitan dalam penyusunan draft mutasi jabatan struktural.
1. Berdasarkan hasil wawancara dengan sekretaris Baperjakat sebagai nara
sumber (Lampiran 1, Jawaban 2), kalimat “Selain dari pada itu, akan
sangat membantu tim Baperjakat jika SIMPEG mampu mengusulkan
nama-nama calon pejabat struktural jika terjadi mutasi jabatan struktural”
menujukkan adanya permasalahan dalam sistem dimana SIMPEG tidak
dapat memberikan usulan calon pejabat struktural karena memang saat ini
SIMPEG tidak dilengkapi dengan kecerdasan buatan untuk sistem
pendukung keputusan. Untuk memiliki kemampuan tersebut, maka pola
pengisian jabatan struktural harus diketahui terlebih dahulu.
2. Pada pernyataan lainnya dalam wawancara dengan nara sumber
(Lampiran 1, Jawaban 1), kalimat “Tim Baperjakat merasa kesulitan
dalam menulusuri data calon pejabat struktural yang diusulkan” dan
kalimat “Dan kita tetap harus menulusuri data tersebut secara manual satu
per satu dengan menggunakan aplikasi SIMPEG” menunjukkan bahwa
salah satu akar permasalahan dalam hal data adalah penulusuran data calon
pejabat struktural masih dilakukan secara manual satu per satu.
3. Pada pernyataan lainnya dalam wawancara dengan nara sumber (Lampiran
1, Jawaban 3), kalimat “Peraturan Pemerintah No 13 tahun 2002 tidak
secara spesifik mengatur mana komponen kepegawaian yang menjadi
prioritas dalam mengisi suatu jabatan struktural” menunjukkan bahwa dari
sisi regulasi tim Baperjakat merasa kesulitan dalam mencari panduan yang
spesifik yang dapat dijadikan acuan untuk menentukan pengisian jabatan
struktural.
Berdasarkan akar permasalahan sistem yang ada maka dapat ditarik suatu
pertanyaan riset untuk penelitian ini yaitu:
“Bagaimana mengidentifikasi pola pengisian jabatan struktural dengan
mengekstraksi data-data kepegawaian yang ada pada SIMPEG sehingga mampu
memberikan usulan calon pejabat struktural?"
5
Universitas Indonesia
1.3 Tujuan Penelitian
Tujuan dari penelitian ini adalah untuk mempelajari pola pengisian jabatan
struktural yang ada (2009-2013) dari basis data SIMPEG dengan menggunakan
teknik data mining classification sehingga ditemukan suatu acuan yang dapat
digunakan SIMPEG untuk memberikan usulan calon pejabat struktural.
1.4 Manfaat Penelitian
Hasil dari penelitian ini diharapkan akan memudahkan Tim Baperjakat
dalam menyusun draft mutasi jabatan struktural. Dengan diketahuinya pola
pengisian jabatan struktural maka SIMPEG dapat memberikan usulan nama calon
pejabat struktural, sehingga tim Baperjakat tidak perlu melakukan penulusuran
data secara manual satu per satu. Hal ini juga tentunya dapat melengkapi dan
memperjelas PP No 13 Tahun 2002 terkait pengisian jabatan struktural di
lingkungan pemerintah.
Penelitian ini juga dapat dijadikan salah satu sumber rujukan bagi
penelitian lainnya khususnya dalam hal penyusunan draft mutasi jabatan
struktural di lingkungan pemerintah.
1.5 Ruang Lingkup Penelitian
Ruang lingkup penelitian ini adalah melakukan penambangan data (Data
mining) dari data-data kepegawaian di lingkungan Pemerintah Kota Bogor dari
basis data SIMPEG dari tahun 2009 hingga 2014.
Metode yang digunakan dalam penelitian ini untuk melakukan
penambangan data adalah teknik data mining classification untuk menemukan
pola pengisian jabatan struktural pada Pemerintah Kota Bogor.
Penelitian ini tidak akan membahas komponen lain di luar sistem seperti
keterbatasan data mutasi jabatan yang ada (2009-2014). Penelitian ini juga tidak
akan membahas solusi bagi permasalahan terkait regulasi mengingat hal tersebut
merupakan kewenangan Pemerintah Pusat.
6
Universitas Indonesia
BAB 2
LANDASAN TEORI
2.1 Data mining
Untuk mempelajari pola pengisian jabatan struktural dari basis data
SIMPEG dapat digunakan teknik data mining. Data mining adalah suatu proses
yan menggunakan teknik statistik, matematika, kecerdasan buatan dan machine-
learning untuk mengekstraksi dan mengindentifikasi informasi yang bermanfaat
dan pengetahuan yang terkait dari berbagai basis data besar (Turban , 2005).
Dalam buku yang berjudul Decision Support System And Intelligent Systems,
Turban, Aronson, dan Liang menjelaskan beberapa karakteristik utama dan
sasaran data mining diantaranya sebagai berikut:
Data sering dikubur pada sebuah basis data yang sangat besar, yang kadang-
kadang berisi data dari beberapa tahun. Dalam banyak kasus, data dihapus
dan dikonsolidasi di dalam sebuah data warehouse.
Lingkungan data mining biasanya adalah arsitektur client/server atau
arsitektir berbasis web.
Peranti-peranti baru yang canggih, meliputi visualisasi yang canggih
membantu memindahkan informasi atau mengubur informasi dalam berkas-
berkas perusahaan atau arsip catatan publik.
Pemilik data biasanya adalah end user, diberdayakan oleh data drill dan alat
query lainnya untuk mengajukan pertanyaan khusus dan mendapatkan
jawaban secara tepat dengan sedikit atau tanpa keterampilan pemrograman.
Pemaksaan sering melibatkan penemuan hasil yang tidak diharapkan dan
mengharuskan end user untuk berpikir kreatif.
Peranti data mining sudah digabung dengan spreadsheet dan peranti
pengembangan perangkat lunak lainnya, sehingga data yang sudah di-mining
dapat dinalaisis dan diproses dengan cepat dan mudah.
Karena ada sejumlah besar data dan usaha pencarian dalam skala besar, maka
pemrosesan parallel untuk data mining kadang-kadang perlu digunakan.
7
Universitas Indonesia
Menurut Han dan Kamber dalam bukunya yang berjudul Data mining
Conpets and Techniques, data mining didefinisikan sebagai ekstraksi dari
pengetahuan yang menarik (aturan, pola, kebiasaan, batasan) yang bersumber dari
basis data dalam skala besar. Berdasarkan dua definisi di atas dapat disimpulkan
bahwa data mining adalah suatu cara yang dapat digunakan untuk mengekstraksi
pengetahuan dengan beberapa teknik seperti statistik, matematika, kecerdasan
buatan dan machine-learning yang bersumber dari basis data yang berskala besar.
2.1.1 Tahapan Dalam Knowledge Discovery
Pada umumnya data mining sering disinonimkan dengan istilah
Knowledge Discovery from Data (KDD), meskipun demikian secara khusus data
mining hanyalah suatu langkah penting dalam urutan proses knowledge discovery.
Proses knowledge discovery terdiri atas beberapa iterasi berurut seperti yang dapat
dijelaskan sebagai berikut (Han dan Kamber, 2006):
1. Data Cleaning: bertujuan menghapus noise dan data yang tidak
konsisten.
2. Data Integration: tahap dimana beberapa sumber data dikombinasikan.
3. Data Selection: tahap pemilihan data yang relevan dari basis data yang
akan digunakan untuk proses analisis.
4. Data Transformation: Data di transformasi dan dikonsoldisai dalam
bentuk yang sesuai untuk kebutuhan data mining misalnya dengan cara
menyusun summary atau agregat.
5. Data mining: proses penting dimana metode intelijen diterapkan untuk
dapat mengekstrak pola data.
6. Pattern Evaluation: untuk mengidentifikasi pola yang
merepresentasikan basis pengetahuan yang ditemukan.
7. Knowledge Presentation: tahap dimana teknik-teknik visualisasi dan
representasi pengetahuan digunakan untuk menghasilkan pengetahuan
yang dibutuhkan oleh pengguna.
2.1.2 Teknik Dasar Dalam Data mining
Berdasarkan kegunaannya data mining memiliki beberapa teknik dasar
yang sering digunakan seperti association yang dapat digunakan untuk analisis
8
Universitas Indonesia
market-basket , classification and prediction yang dapat digunakan untuk quality
control , serta cluster analysis yang dapat digunakan untuk mendesain segmentasi
pasar (Han dan Kamber, 2006).
2.2 Association Rule Mining
Association Rule Mining adalah suatu usaha untuk menemukan pola
berulang (frequent pattern), keterkaitan (association), korelasi atau struktur
sebab-akibat dari beberapa kumpulan data atau objek pada transaksi dalam basis
data, basis data relasional, dan sumber repositori informasi lainnya (Han dan
Kamber, 2006). Tujuan utama dari Association Rule Mining adalah menemukan
suatu keteraturan dalam data misalanya seperti produk yang sering dibeli secara
bersamaan dalam sebuah transaksi belanja, produk lain yang akan dibeli jika kita
membeli sebuah komputer, tipe DNA yang sensitif terhadap suatu obat baru, dan
otomasi klasifikasi dokumen web (Han dan Kamber, 2006). Dalam hal mutasi
jabatan, teknik ini dapat digunakan untuk menemukan keterkaitan beberapa
property dalam basis data kepegawaian seperti golongan pegawai, masa kerja,
pengalaman dalam unit kerja, tingkat pendidikan yang sekiranya mempengaruhi
penilaian Baperjakat dalam mengisi suatu jabataban struktural.
Data transaksi belanja seringkali digunakan sebagai contoh untuk
menerangkan Association Rule Mining misalanya sebagai berikut:
Diperoleh bentuk umum A→B [support,confidence].
Pembelian(x,“pembalut”) → Pembelian(x,“minuman ringan”)[0.5%,60%]
Dari dua poin di atas dapat dijelaskan bahwa nilai support dari Association
Rule sebesar 0.5% berarti 0.5% dari seluruh transaksi bahwa pembalut dan
minuman ringan dibeli secara bersamaan. Nilai confident sebesar 60%
menunjukkan bahwa 60% dari seluruh pelanggan yang membeli pembalut, juga
membeli minuman ringan. Rule yang memenuhi nilai minimum support dan
confidence threshold disebut dengan strong (Han dan Kamber, 2006). Secara
umum nilai confidence dan support dapat ditentukan dengan persamaan berikut:
9
Universitas Indonesia
Dengan A dan B adalah sebuah itemset dari transaksi T dan sekumpulan
item I yang terdiri dari {I1,I2, …,Im}, dimana A I , B I , dan A∩B=φ. Notasi
P (A B) adalah nilai kemungkinan dari munculnya transaksi A dan B secara
bersamaan.
Beberapa istilah yang sering digunakan dalam Association Rule Mining
diantaranya adalah itemset, yaitu sekelompok item dalam sebuah transaksi dalam
basis data. Itemset yang berisi sejumlah k item disebut k-itemset, misalnya
{minuman ringan, pembalut} maka disebut 2-itemset. Jika sebuah itemset
memenuhi nilai minimum support yang ditentukan maka itemset tersebut
merupakan frequent itemset. Sekumpulan frequent k-itemsets biasanya dinotasikan
sebagai Lk (Han dan Kamber, 2006).
Secara umum Association Rule Mining memiliki dua tahapan proses yaitu:
1. Cari semua frequent itemsets: secara definisi setiap itemset setidaknya
akan muncul sebanayak yang didefinisikan oleh jumlah minimum
support atau biasa disingkat min_sup.
2. Merumuskan Association Rule dari frequent itemsets: secara definisi
aturan ini harus memenuhi minimum support dan minimum confidence.
Tahap kedua tentunya lebih mudah dibanding tahap pertama, seluruh
performa dari Association Rule Mining sangat ditentukan olejh tahap pertama
yaitu mencari semua frequent itemsets (Han dan Kamber, 2006).
2.3 Classification
Classification adalah proses menemukan model atau fungsi yang
menjelaskan konsep atau kelas data, dengan tujuan agar dapat memanfaatkan
10
Universitas Indonesia
model yang didapat untuk memprediksi kelas dari sebuah objek yang belum
diketahui sebelumnya (Han dan Kamber, 2006).
Serupa dengan asssociation rule, classification memiliki dua tahapan
utama yang terdiri dari:
1. Mengestimasi akurasi prediktif dari model yang dibuat.
2. Jika nilai akurasi yang didapatkan dapat diterima, model dapat
digunakan untuk memprediksi kelas dari objek yang belum diketahui
sebelumnya.
Terdapat beberapa metode yang dapat digunakan untuk membangun model
classification seperti fungsi IF-THEN sederhana, decision tree atau neural
network seperti yang digambarkan pada gambar berikut:
Gambar 2.1 Representasi model classification dengan beberapa metode.
Berdasarkan Gambar 2.1 dapat dilihat bahwa model classification yang
sama berdasarkan umur dan penghasilan dapat dibentuk dengan menggunakan
beberapa metode seperti fungsi IF-THEN (a), decision tree (b), dan neural
network (c) untuk menentukan prediksi, apakah suatu objek termasuk ke dalam
kelas A,B atau C (Han dan Kamber, 2006).
11
Universitas Indonesia
Fungsi IF-THEN dapat digunakan untuk menyusun rule-based classifier
dalam classification . Bentuk umum dari fungsi IF-THEN cukup sederhana yaitu
IF condition Then conclusion. Contoh sederhana penggunaan fungsi IF-THEN
misalnya sebagai berikut: Rule R1: IF age = youth AND student = yes THEN
buys_computer = yes. Bagian IF dari R1 di atas disebut juga sebagai rule
antecedent atau precondition. Bagian THEN-nya disebut juga rule consequent.
Dalam rule antecendet kondisi dapat berisi satu atau lebih attributet test (dalam
hal ini sebagai contoh: age = youth AND student = yes) yang secara logika
matematika terhubung dengan fungsi logika AND. Rule consequent dapat berisi
prediksi kelas (dalam hal ini kita memprediksi apakah pelanggan akan membeli
sebuah komputer). Jika suatu kondisi dalam rule antecendent bernilai TRUE
dalam suatu baris data transaksi, maka data transaksi tersbut memenuhi rule
antecendent dan Rule-nya berlaku untuk data tersebut (Han dan Kamber, 2006).
Decision tree adalah diagram pohon yang bentuknya mirip dengan dengan
diagram flow chart yang memiliki tiga bagian utama yaitu internal node berupa
uji dari sebuah atribut, branch yang merepresentasikan hasil uji (setiap baris dari
branch bernilai sama untuk atribut yang telah diuji), dan leaf node
merepresentasikan label dari kelas atau distribusi dari label kelas. Untuk
mengetahui kelas dari sampel yang tidak diketahui , nilai atribut dari sampel
tersebut diujikan terhadap decision tree yang disusun. Decision tree dapat dengan
mudah dikonversi menjadi classification rules (Han dan Kamber, 2006).
Neural network dapat dimanfaatkan untuk menyusun classification
dengan menggunakan algoritma pembelajaran back propagation. Sebuah neural
network adalah sekelompok input atau output yang saling berhubungan dimana
setiap hubungan memiliki bobot yang saling terkait. Pada fase pembelajaran,
neural network belajar dengan cara menyesuaikan bobot sehingga memiliki
kemampuan memprediksi kelas dari input baris data dengan benar. Proses
pembelajaran neural network juga sering disebut connectionist learning
dikarenakan adanya beberapa hubungan diantara beberapa unit data rules (Han
dan Kamber, 2006).
12
Universitas Indonesia
2.4 Cluster Analysis
Proses pengelompokkan sekumpulan objek dalam beberapa kelas yang
memiliki kemiripan disebut juga clustering. Sebuah cluster adalah kumpulan
beberapa objek data yang memiliki kesamaan satu sama lain dalam cluster yang
sama dan berbeda dengan objek lain dalam cluster yang lain (Han dan Kamber,
2006).
Dengan otomasi clustering kita dapat mengidentifikasi kepadatan dan
sebaran dari sebuah area yang terdiri atas beberapa objek, sehingga kita dapat
menemukan pola sebaran dan korelasi yang menarik diantara atribut data. Cluster
analysis sudah banyak digunakan dalam beragam aplikasi seperti riset pasar,
pengenalan pola, analisis data, dan pemrosesan citra digital.
Clustering sering juga disebut sebagai segmentasi data dalam berbagai
aplikasi karena clustering dapat membagi sejumlah besar data ke dalam beberapa
kelompok berdasarkan kesamaannya. Berikut ini adalah beberapa tantangan yang
dihadapi pada penggunaan clustering dalam data mining (Han dan Kamber,
2006):
Skalabilitas: banyak algoritma clustering yang berfungsi dengan baik pada
sekelompok objek dengan jumlah data ratusan atau bahkan kurang.
Bagaimanapun juga, basis data yang besar dapat berisi jutaan objek.
Melakukan clustering terhadap data dengan jumlah yang besar dapat
menimbulkan hasil yang bias. Dalam hal ini algoritma clustering berskala
sangat diperlukan.
Kemampuan mengelola beberapa tipe atribut yang berbeda: banyak
algoritma yang didesain untuk melakukan clustering pada data interval
(numerik). Dalam kondisi lainnya proses clustering dengan tipe data yang
berbeda akan sangat diperlukan seperti tipe data biner, kategori (nominal),
ordinal, atau gabungan dari beberapa tipe data yang ada.
Penemuan beberapa cluster yang tidak beraturan: Pada umumnya
algoritma clustering menyusun cluster berdasarkan pengukuran jarak
euclidean dan manhattan. Dengan menggunakan pengukuran tersebut
cluster cenderung berbentuk bulat dengan ukuran dan jarak yang relatif
13
Universitas Indonesia
sama. Kenyataannya sebuah cluster bisa memiliki banyak bentuk lain.
Pengembangan algoritma yang dapat mendeteksi bentuk lain dalam hal ini
sangat diperlukan.
Kebutuhan minimal pengetahuan dasar untuk mendefinisikan parameter
input: banyak algoritma clustering yang meminta pengguna memasukkan
input parameter tertentu dalam cluster analysis. Hasil dari cluster analysis
dapat menjadi sangat sensitive terhadap input parameter. Kenyataannya
parameter seringkali sulit didefinisikan, khususnya pada sekumpulan data
yang berisi objek-objek berdimensi tinggi. Hal ini tentunya bukan saja
menjadi kendala bagi pengguna tapi menyulitkan pengaturan kualitas dari
clustering.
Kemampuan untuk mengidentifikasi noisy data: sebagian besar basis data
pada dunia nyata mengandung outlier ,data yang tidak lengkap, tidak
diketahui, dan data yang error. Beberapa algoritma clustering sensitif
terhadap data-data tersebut, sehingga dapat menyebabkan kualitas cluster
yang buruk.
Incremental clustering dan sensitifnya clustering terhadap urutan dari
input data: beberapa algoritma clustering tidak dapat mengelompokkan
data yang baru saja dimasukkan ke dalam cluster yang sudah terbentuk
sebelumnya, sehingga harus menyusun kembali proses clustering dari
awal. Hal ini dapat menyebabkan hasil clustering yang berbeda dari cluster
yang terbentuk sebelumnya, tergantung dari urutan data input yang
dimasukkan. Pengembangan algoritma Incremental clustering yang tidak
sensitif terhadap urutan input data, sangat diperlukan.
High dimensionality: Sebuah basis data atau data warehouse dapat berisi
beberapa dimensi atau beberapa atribut data. Beberapa algoritma
clustering cukup baik dalam menangani data dengan jumlah dimensi yang
sedikit (2 atau 3). Adalah suatau tantangan tersendiri menemukan cluster
dari objek data yang memiliki dimensi banyak memingat data bisa sangat
beragam.
Constraint based clustering: penerapan dalam dunia nyata bisa saja
memerlukan proses clustering dengan menggunakan beragam batasan.
14
Universitas Indonesia
Adalah suatu tantangan tersendiri untuk menemukan sekelompok data
yang memiliki perilaku clustering yang baik yang memenuhi suatu aturan
yang ditentukan.
Kegunaan dan kemampuan interpretasi: pengguna tentunya berharap
bahwa hasil clustering dapat diinterpretasikan secara komprehensif dan
berguna tentunya. Oleh karena itu clustering harus dikaitkan dengan
interpretasi semantik dalam penerapannya. Sangat diperlukan untuk
mempelajari pengaruh dari tujuan aplikasi terhadap pemilihan fitur dan
metode yang tepat dari clustering.
2.4.1 Struktur Data clustering
Secara umum algoritma clustering biasanya beroperasi pada dua tipe data
yang sering digunakan berikut diantaranya:
Matriks data yang merepresentasikan n jumlah objek misalnya
manusia dengan beberapa variabel p seperti umur, tinggi, berat, jenis
kelamin dan lain-lain seperti yang dapat dilihat pada matriks berikut:
Matriks ketidaksamaan (dissimilarity) dengan notasi d(i,j) sebagai
pengukuran perbedaan (dissimilarity) antara objek i dengan j. Secara
umum d(i,j) adalah angka bernilai positif yang mendekati 0 ketika i
dan j menjadi sangat mirip dan nilainya menjadi besar ketika i dan j
menjadi sangat berbeda satu sama lain. Dalam hal ini berlaku
persamaan d(i,j) = d(j,i) dimana d(i,i) = 0 dengan bentuk matriks
sebagai berikut:
npx...
nfx...
n1x
...............ip
x...if
x...i1
x
...............1p
x...1f
x...11
x
0...)2,()1,(
:::
)2,3()
...ndnd
0dd(3,1
0d(2,1)
0
15
Universitas Indonesia
2.4.2 Jenis Data Clustering
Jenis data yang umumnya digunakan pada clustering diantaranya adalah
variabel skala interval, variabel biner, variabel nominal, ordinal, dan rasio, serta
gabungan dari beberapa tipe variabel.
variabel skala interval adalah pengukuran kontinu dari suatu skala linier
seperti berat, tinggi, garis lintang, garis bujur dan temperatur cuaca. Unit
pengukuran yang digunakan dapat mempengaruhi hasil analisis clustering
misalnya tinggi dari m ke cm, berat dari kg ke pon. Untuk menghindari
keterkaitan pada pilihan unit pengukuran maka datanya harus di standarkan.
Melakukan standar pengukuran dilakukan untuk mendapatkan bobot yang sama
pada setiap variabel, hal ini akan sangat membantu pada saat pengetahuan awal
mengenai data tidak diketahui di awal.
Pada dasarnya variabel biner hanya memiliki dua nilai yaitu 1 (ada) dan 0
(tidak ada). Secara umum, terdapat dua jenis variabel biner yaitu variabel biner
simetris yang digunakan jika dua buah pernyataan memiliki nilai yang setara dan
memiliki bobot yang sama dan variabel biner asimetris jika hasil dari pernyataan
dianggap tidak penting seperti nilai positif atau negatif dari suatu uji kesehatan.
Variabel nominal adalah variabel yang bisa memiliki lebih dari dua
pernyataan misalnya warna bisa merah,kuning dan sebagainya. Variabel ordinal
adalah variabel nominal berurut yang memiliki makna dalam urutannya. Jenis
variabel ini dapat diperlakukan sama dengan variabel skala interval. Variabel
skala adalah nilai pengukuran positif pada skala non linier. Biasanya berbentuk
pangkat eksponensial seperti AeBt atau Ae-Bt
dimana A dan B adalah konstanta
bernilai positif.
2.4.3 Pendekatan Clustering
Beberapa metode clustering yang sering digunakan diantaranya adalah:
Algoritma partisi: menyusun beragam partisi lalu mengevaluasi hasilnya
dengan menggunakan beberapa kriteria.
Algoritma hirarki: menciptakan dekomposisi hirarki dari sekelompok data
atau objek dengan menggunakan beberapa kriteria.
16
Universitas Indonesia
Density-based: pendekatan clustering berdasarkan konektifitas dan fungsi
density.
Grid-based: pendekatan clustering berdasarkan beberapa tingkat struktur
granularity.
Model-based: pendekatan clustering berdasarkan hasil hipotesis sebuah
model dari setiap cluster yang terbentuk dengan tujuan untuk mencari
model terbaik yang sesuai.
2.5 Pengangkatan Pegawai Negeri Sipil Dalam Jabatan Struktural
Peraturan Pemerintah yang mengatur pengisian jabatan struktural secara
umum tertuang dalam Peraturan Pemerintah Republik Indonesia Nomor 100
Tahun 2000 tentang pengangkatan Pegawai Negeri Sipil dalam jabatan struktural
yang kemudian diperbarui dengan Peraturan Pemerintah Republik Indonesia
Nomor 13 Tahun 2002.
Beberapa poin penting yang diperbarui dalam peraturan tersebut adalah
jenjang pangkat golongan terendah dan tertinggi untuk masing-masing tingkat
eselon seperti yang dapat dilihat pada tabel berikut:
Tabel 2.1 Jenjang pangkat golongan untuk setiap tingkat eselon
No Eselon Jenjang Pangkat, Golongan / Ruang
Terrendah Tertinggi
Pangkat Gol /
Ruang
Pangkat Gol /
Ruang
1 I a Pembina Utama IV/e Pembina Utama IV/e
2 I b Pembina Utama Madya IV/d Pembina Utama IV/e
3 II a Pembina Utama Muda IV/c Pembina Utama Madya IV/d
4 II b Pembina Tingkat I IV/b Pembina Utama Muda IV/c
5 III a Pembina IV/a Pembina Tingkat I IV/b
6 III b Penata Tingkat I III/d Pembina IV/a
7 IV a Penata III/c Penata Tingkat I III/d
8 IV b Penata Tingkat I III/b Penata III/c
9 V Penata Muda III/a Penata Tingkat I III/b
17
Universitas Indonesia
Berdasarkan Tabel 2.1 sebelumnya, Baperjakat dapat menggunakan tabel
tersebut sebagai acuan dasar untuk menentukkan kriteria yang diperlukan untuk
mengisi jabatan struktural. Dalam hal ini pangkat dan golongan adalah suatu
variabel yang nantinya akan digunakan dalam proses data mining untuk
mengetahui pola pengisian jabatan struktural pada Pemerintah Kota Bogor.
Beberapa variabel lain yang dapat digunakan untuk menemukan pola
pengisisian jabatan struktural sebetulnya tercantum pada Pasal 6 dalam Peraturan
Pemerintah Republik Indonesia Nomor 100 Tahun 2000 dimana secara eksplisit
menyebutkan bahwa faktor senioritas dalam kepangkatan, usia, pendidikan dan
pelatihan jabatan serta pengalaman yang dimiliki merupakan beberapa hal yang
bisa menjadi bahan pertimbangan Pembina Kepegawaian Daerah dalam mengisi
suatu jabatan struktural.
Sayangnya tidak ada pembobotan atau skala prioritas terhadap faktor-
faktor tersebut untuk menilai kelayakan seorang pegawai mengisi jabatan
struktural. Oleh karena itu pemanfaatan data mining dari penelitian ini berusaha
untuk mengetahui pembobotan atau skala prioritas mana yang lebih didahulukan
diantara beberapa faktor tersebut dengan menggunakan basis data SIMPEG
sebagai sumber datanya.
2.6 Penelitian Terdahulu
Beberapa penelitian terdahulu yang pernah dilakukan terkait dengan
penggunaan data mining dapat dijelaskan sebagi berikut:
2.6.1 Data Mining Classifcation Technique for Talent Management using
SVM (S.Yashoda, P.S.Prakash, 2012)
Salah satu tantangan pada pengelolaan sumber daya manusia adalah
mengelola bakat yang ada pada sumber daya manusia dalam organisasi. Masalah
dalam mengelola potensi bakat pada sumber daya manusia di dalam organisasi
dapat diselesaikan dengan menggunakan teknik data mining classification dari
beberapa teknik classification yang sering digunakan seperti: decision tree, neural
network, support vector machine, dan algoritma nearest neigbour.
18
Universitas Indonesia
Penelitian ini menggunakan pendekatan gabungan antara class attribute
contingency coefficient (CACC) dengan support vector machine. Data yang
digunakan dalam penelitian ini adalah UCI adult data set yang merupakan data
sensus pendapatan tahun 1994 yang dapat diunduh untuk keperluan penelitian di
bidang data mining pada alamat situs berikut
http://archive.ics.uci.edu/ml/machine-learning-databases/adult/. Dari 14 atribut
yang ada (umur, bidang pekerjaan, nilai final weight, lamanya pendidikan formal
yang pernah ditempuh, status nikah, pekerjaan, hubungan keluarga, suku, jenis
kelamin, keuntungan modal, kerugian modal, jumlah jam kerja mingguan dan
kewarganegaraan) hanya 6 atribut yang digunakan dengan tipe data continous
seperti yang ditnjukkan pada tabel berikut:
Tabel 2.2 Atribut dengan tipe data continous yang digunakan
Data dari Tabel 2.2 di atas adalah hasil dari proses diskretisasi dengan
menggunakan algoritma CACC untuk memilih atribu-atribut yang digunakanan.
Selanjutnya data ini yang akan dijadikan dasar untuk melakukan classification
dengan menggunakan algoritma SVM. Berikut ini adalah metode gabungan yang
digunakan dalam penelitian ini.
19
Universitas Indonesia
Gambar 2.2 Metode data mining untuk pengelolaan sumber daya manusia
75% data set digunakan sebegai train set dalam algoritma classification
SVM dan sisanya digunakan untuk memvalidasi model. Dari 4 kernel yanga ada
pada algoritma SVM (linier, polinomial, sigmoid, dan basis radial), kernel
berbasis radial yang dipilih dengan beberapa alasan seperti fungsi non linier yang
dimiliki basis radial dapat menghasilkan pemetaan data dengan dimensi data yang
lebih tinggi dibanding dengan basis linier, selain itu basis radial memiliki hyper
parameter yang lebih sedikit dibandingkan dengan kernel polynomial, terlebih lagi
basis radial mmemiliki tingkat kesulitan numerik yang lebih rendah.
Seperti yang dapat dilihat pada Gambar 2.2 di atas, selain menggunakan
algoritma CACC dan SVM, penelitian ini juga menggunakan algoritma Sequential
Mining Optimization (SMO), dengan tujuan menghasilkan model klasifikasi yang
lebih optimal. Data mining tool yang digunakan dalam penelitian ini adalah
Matlab versi 7.10.
Hasil dari penelitian ini berupa suatu metode gabungan baru yang dapat
digunakan untuk melakukan klasifikasi pada data sumber daya manusia.
Sayangnya proses classification pada penelitian belum selesai dilakukan dan
20
Universitas Indonesia
masih dalam proses pengerjaan. Model klasifikasi yang terbentuk diharapkan
dapat digunakan untuk memprediksi potensi bakat yang sesuai untuk suatu posisi
dalam organisasi.
2.6.2 The Decision Tree Classifcation And Its Application Research In
Personnel Management (Peng Ye, 2011)
Penelitian ini berusaha menerapkan algoritma decision tree classification
untuk melakukan prediksi terhadap pada suatu universitas dengan
mengidentifikasi bakat yang ada pada data pengajar pada sebuah universitas.
Beberapa atribut yang digunakan dalam teknik data mining classification
pada penelitian ini adalah tingkat pendidikan, jenis kelamin, nilai calon pegawai,
nilai dari institusi sekolah formal yang pernah diikuti, umur, pekerjaan suami atau
istri, dan gelar profesional. Secara spesifik algoritma decision tree yang
digunakan adalah algoritma C.45 yang ditulis ulang dengan menggunakan bahasa
pemrograman Visual Basic 6.0 dengan memanfaatkan Microsoft ODBC Driver
sebagai sarana koneksi data yang akan diolah. Berikut ini adalah langkah-langkah
yang digunakan dalam penelitian ini:
Gambar 2.3 Metode penelitian untuk data mining staf pengajar
Seperti yang dapat dilihat di pada Gambar 2.3 di atas, tahap awal yang
dilakukan pada penelitian ini adalah mengumpulkan data (data collection) dari
beberapa sekolah dan departemen yang berbeda. Misalnya informasi dasar
mengenai data pengajar didapat dari data bagian kepegawaian, sedangkan data
hasil penelitian ilmiah didapatkan dari kantor administrasi kependidikan.
Menggabungkan dan mengelola data dari beberapa sumber dan struktur yang
21
Universitas Indonesia
berbeda merupakan kerumitan tersendiri dalam penelitian ini. Data yang
digunakan pada penelitian ini adalah data staf pengajar pada beberapa universitas.
Tahap selanjutnya adalah pretreatment data yang dilakukan dengan
membersihkan data dari noise data dan data yang tidak berhubungan dengan
keperluan data mining. Dalam tahap ini ditemukan beberapa data yang kosong
pada atribut latar belakang pendidikan, selain itu juga ditemukan data sama yang
berulang serta melakukan transformasi pada tipe data yang digunakan. Pada tahap
ini juga ditemukan data yang berbeda tetapi memiliki makna yang sama seperti
kata “tidak ada”, “tidak memiliki reputasi”, “tidak bergelar”, “non-partisan”, atau
bahkan ditemukan pula yang hanya diisi dengan angka 0. Hal ini tentunya perlu
diseragamkan.
Pada tahap selanjutnya yaitu persiapan data (data preparation) dilakukan
pemetaan atribut dengan melakukan stratifikasi pada beberapa atribut sebagai
berikut:
Untuk atribut jenjang pendidikan diurutkan sebagai berikut: SMP (00),
SMA (11), sekolah politeknik (01), pendidikan lebih tinggi (02), bachelor
(03), double degree (33), master (04), doctor (05), postdoctoral (06).
Untuk atribut title professional atau teknis sebagai berikut: tanpa title (0),
pemula (1), menengah (2), madya (3), dan tingkat tinggi (4).
Untuk atribut jenis kelamini sebeagi berikut: wanita (0), pria (1).
Untuk nilai dari institusi sekolah formal yang pernah diikuti sebagai
berikut: 95-100 (A), 85-95 (B), 75-85 (C), 60-75(D), 60 (E).
Untuk atribut tipe institusi pendidikan sebagai berikut: Sekolah bergengsi
(A), Sekolah umum (B), Perguruan tinggi (C), sekolah diploma (D), SMA
(E), SMP (F), Sekolah luar negeri (G).
Tahap Selanjutnya adalah implementasi algortima classification decision
tree 4.5 dengan beberapa proses interaksi dasar sebagai berikut:
Decision tree dimulai dengan satu titik tunggal training samples.
Jika seluruh training samples memiliki klasifikasi yang sama, maka titik
tersebut menjadi cabang dari dan diberi tanda dengan klasifikasi tersebut.
22
Universitas Indonesia
Jika tidak, algortima decision tree menggunakan pengumpulan informasi
sebagai pengukuran, lalu memilih salah satu atribut yang terbaik untuk
melakukan klasifikasi pada training samples.
Menyusun percabangan untuk setiap nilai atribut yang akan dijadikan
dasar untuk melakukan klasifikasi pada training samples.
Penggunaan fungsi rekursi dari seluruh pembagian decision tree sample.
Lakukan terus fungsi rekursi hingga memenuhi kondisi akhir fungsi
rekursi.
Penghentian fungsi rekursi.
Pada saat seluruh cabang dari training samples telah terklasifikasi tandai
cabang tersebut dengan klasifikasi terkait.
Pada saat tidak ada lagi atribut yang dapat membagi training samples,
hentikan proses dan tandai cabang tersebut dengan klasifikasi terkait.
Pada saat percabangan tidak lagi memiliki training samples, hentikan
proses dan tandai cabang tersebut denngan mayoritas klasifikasi dari
training samples yang digunakan.
Setelah dilakukan klasifikasi pada data staf pengajar ditemukan beberapa
pola sebagai berikut:
Jika memiliki posisi B (division level), dengan umur (41-45), maka dapat
diklasifikasikan sebagai class N (is not lost).
Jika memiliki tingkat pendidikan 05 (Ph.d), dengan pekerjaan istri C (tidak
memuaskan), dengan umur B (31-40), maka dapat diklasifikasikan sebagai
class Y (the loss of).
Kesimpulan yang dapat ditarik dari pola data di atas adalah staf
pengajar dengan tingkat pendidikan doctoral yang berumur 30 hingga 45
cenderung merasa tidak puas atau pasangannya tidak bekerja di tempat
yang sama. Selain itu pengajar yang lulus pada umur 25 hingga 35 tahun
memiliki kecenderungan tidak efektif bekerja karena ingin melanjutkan
studi.
23
Universitas Indonesia
2.6.3 Data mining Classification Techniques For Human Talent Forecasting
(Hamidah Jantan, Abdul Razak Hamdan,Zulaiha Ali Othman, 2011)
Penelitian ini merupakan implementasi data mining untuk namajemen
bakat sumber daya manusia khususnya dengan menggunakan teknik
classification and prediction dengan mengidentifikasi pola yang berhubungan
dengan bakat sumber daya manusia.
Dikarenakan alasan kerahasiaan dan keamaanan data dari bagian
kepegawaian, penelitian ini menggunakan dua dataset yang dihasilkan dari dataset
rule generator, dataset1 menghasilkan 100 data dan dataset2 menghasilkan 1000
data berdasarkan faktor-faktor bakat dan performa kerja. Selain itu data outlier
pada dataset1 dijadikan dataset terpisah yaitu dataset3. Atribut data yang
digunakan pada penelitian ini dapat dijelaskan pada tabel berikut:
Tabel 2.3 Atribut dan variabel yang digunakan
Atribut Nama Variabel Keterangan
Latar Belakang (7) D1,D2,D3,D5,D6, D7,D8 Umur,jenis kelamin,
masa kerja, promosi
Evaluasi kinerja
sebelumnya (15)
DP1,DP2,DP3, DP4,DP5,DP6,
DP7,DP8,PP9, DP10, DP11,
DP12, DP13,DP14, DP15
Penilaian kinerja dalam
15 tahun
Pengetahuan dan
kemampuan (20)
PQA,PQC1,PQC2, PQC3,PQD1,
PQD2,PQD3,PQE1, PQE2,PQE,
PQE4,PQE5,PQF1, PQF2,PQG1,
PQG2,PQH1,PQH2,PQH3,PQH4
Kualifikasi professional
(pengajar, pengawas,
peneliti)
kemampuan
manajemen (6)
PQB,AC1,AC2,AC3,AC4,AC5 Kemampuan
admiistratif
Kualitias individu
(5)
T1,T2,SO,AA1,AA2 Pelatihan, penghargaan
24
Universitas Indonesia
Atribut yang digunakan pada Tabel 2.3 di atas merupakan kombinasi dari
53 atribut yang didefinisikan dalam variabel dan 5 faktor performa kerja sumber
daya manusia.
Dalam penelitian ini digunakan 5 jenis algoritma clustering (C 4.5,
random forest, multi layer perceptron, radial basis function network, dan K-star)
dengan menggunakan perangkat lunak WEKA dan ROSSETA toolkit sebagai
pengolah data.
Tabel 2.4 Akurasi dari model dengan seluruh atribut
Algoritma Classification Dataset 1 Dataset 2 Dataset 3
C 4.5 95,14 99,90 90,54
Random Forest 74,91 95,43 71,8
Multi Layer Perceptron 87,16 99,84 84,55
Radial Basis Function Network 91,45 99,98 87,09
K-Star 92,06 97,83 87,79
Berdasarkan Tabel 2.4 di atas dapat dilihat bahwa dalam algoritma C.45
memiliki nilai akurasi yang lebih baik dibandingkan dengan algoritma lainnya.
Dengan begitu teknik ini dapat digunakan untuk memprediksi data bakat sumber
daya manusia selanjutnya dengan konstruksi classification rules yang terbentuk.
2.6.4 Penerapan Data mining Pada Pemberian Biaya Sponsorship Untuk
Menemukan Pola Yang Efektif (Achmad Junanto, 2010)
Penelitian ini berusaha menemukan solusi penggunaan data mining dan
menentukan algoritma yang sesuai sebagai penunjang dalam pengambilan
keputusan tentang pemberian biaya sponsorship yang optimal bagi seorang
pegawai lapangan dalam hal ini adalah medical representative agar menghasilkan
nilai penjualan yang sesuai dengan target.
Dalam penelitian ini teknik data mining yang digunakan adalah
association rule dan classification . Algoritma FP-Growth digunakan dalam
teknik association rule dan algoritma decision tree digunakan dalam teknik
classification. Data mining tool yang digunakan dalam penelitian ini adalah
25
Universitas Indonesia
Rapidminer dengan sumber data dari aplikasi ERP (Enterprise Resource
Planning) yang sudah memiliki data warehouse.
Inti permasalahan yang akan diuji pada proses data mining menggunakan
model decision tree digunakan dari beberapa parameter seperti karakteristik
produk, kategori jenis penjualan, serta tipe dari field force sehingga mampi
menghasilkan pencapaian target yang baik diman dalam hal ini dikategorikan
sebagai EXCELLENT.
Dari hasil eksekusi dengan menggunakan model decision tree didapat
beberapa kesimpulan seperti untuk cabang Jabodetabek dan lini DXM SINERGI,
dengan tipe field force APOTIK, COMBO, dan HOSPITAL mengasilkan
pencapaian sales BAD bila sales kategorinya ASKES. Untuk penjulan pada
semua lini dengan kategori REGULAR, rata-rata hasil eksekusi menghasilkan
pencapaian penjualan lebih besar sama dengan 100%. Untuk tipe penjualan
REGULAR dengan produk focus flag SF (Super Focus) rata rata menghasilkan
penjualan yang EXCELLENT.
2.6.5 Penerapan Data mining Di Badan Metereologi Dan Geofisika (BMG)
Untuk Memprediksi Cuaca Di Jakarta (Iqbal, 2007)
Penelitian ini berusaha menggunakan teknik data mining untuk
memprediksi cuaca di wilayah Jakarta yang kemudian hasilnya dibandingkan
dengan forecaster yang biasa melakukan prakiran cuaca pada Badan Meteorologi
dan Geofisika (BMG).
Penelitian ini menggunakan tiga data mining tools yaitu WEKA (Waikato
Environment Knowledge and Analysis), CBA (Classification Based On
Associations), dan C4.5. Dengan menggunakan teknik data mining yang sama
yaitu classification untuk membuat prediksi cuaca di daerah Jakarta maka
dihasilkan perbandingan persentase kebenaran sebagai berikut:
26
Universitas Indonesia
Tabel 2.5 Tabel Presentase Kebenaran dari 3 Data mining Tools.
Bulan Weka C4.5 CBA Januari 2006 60 72 76 Februari 2006 62 65 62
Maret 2006 46 58 58 April 2006 35 63 50 Mei 2006 50 50 46 Juni 2006 38 50 38 Juli 2006 38 24 34
Agustus 2006 42 31 38 September 2006 55 62 66
Oktober 2006 43 47 50 November 2006 48 45 31 Desember 2006 66 76 72
Januari 2007 52 48 52 Februari 2007 75 83 83
Maret 2007 58 68 71
Dari Tabel 2.5 di atas dapat dilihat bahwa persentase C4.5 hampir selalu
berada di atas kedua data mining tools lainnya kecuali pada bulan Juli dan
Agustus 2006 serta Januari 2007. WEKA mempunyai persentase kebenaran yang
relatif stabil, artinya jika ada kenaikan tidak terlalu tinggi, begitu juga jika terjadi
penurunan.
2.6.6 Implementasi Bussiness Intelligence Untuk Pengenalan Pola Bisnis Di
Daerah Jakarta Selatan (Arthur Salomo Hamonangan Gultom, 2009).
. Penelitian ini mengkaji penerapan business intelligence untuk pengenalan
pola bisnis. Aplikasi business intelligence yang digunakan adalah Eclipse BIRT.
Data yang digunakan adalah data Geographic Information System (GIS) dan data
bisnis.
Teknik data mining yang digunakan pada penelitian ini adalah
classification dengan menggunakan metode Fuzzy C Means. Klasifikasi yang
diperoleh berupa jenis usaha seperti jasa konsultasi konstruksi, dan lainnya. Hasil
klasifikasi yang dikombinasikan dengan GIS penduduk diperoleh solusi pilihan-
pilihan bisnis yang diperingkat dengan persentase tingkat elektabilitas jenis bisnis
27
Universitas Indonesia
di daerah Jakarta Selatan. Dari hasil business intelligence yang dilakukan
dihasilkan tabel perbadingan sebagai berikut:
Tabel 2.6 Faktor faktor yang mempengaruhi pola bisnis di Jakara Selatan
Tebet Pancoran Setiabudi Cilandak Total
Tingkat Kepadatan Penduduk √ √ √ X 3
Komposisi Pria dan Wanita X √ X √ 2
Komposisi Usia Penduduk √ X X √ 2
Tingkat Pendidikan X √ √ √ 3
Modal Usaha Perusahaan √ √ √ X 3
Total 3 4 3 3
Berdasarkan Tabel 2.6 di atas dapat disimpulkan bahwa faktor yang
mempengaruhi pola bisnis di daerah Tebet adalah tingkat kepadatan penduduk,
komposisi usia penduduk dan modal perusahaan. Untuk daerah Poncaran hanya
faktor komposisi usia penduduk yang tidak mempengaruhi. Daerah Setiabudi
tidak dipengaruhi oleh faktor-faktor seperti komposisi pria dan wanita, serta
tingkat pendidikan. Untuk daerah Cilandak dipengaruhi oleh faktor-faktor seperti
komposisi pria dan wanita, penduduk, serta tingkat pendidikan.
2.6.7 Pembandingan Tingkat Akurasi Dua Model Data mining Yang
Dihasilkan Oleh Decision Tree Dan Naïve Bayes Studi Kasus: Suatu
Perusahaan Manufaktur Dan Penjualan Sepeda (Afif Farisi, 2007)
Penelitian ini bertujuan melakukan simulasi pembuatan data mining model
dengan mengambil dataset dari basis data dan data warehouse suatu perusahaan
manufaktur dan penjualan sepeda. Implementasi data mining dengan
membandingkan dua algoritma classification yang berbeda yaitu decision tree
dan naïve bayes.
Dataset yang digunakan dalam penelitian ini bersumber dari data
pelanggan dan transaksi penjualan sepeda dengan pemilihan atribut sebagai
berikut:
28
Universitas Indonesia
Tabel 2.7 Atribut yang digunakan pada data pelanggan dan penjualan
Atribut Tipe Data Keterangan
Ckey Angka Primary key
Mstatus Karakter Status perkawinan
Gender Karakter Jenis kelamin
Kidnum Karakter Jumlah anak
Education Karakter Pendidikan terakhir
Occupation Karakter Pekerjaan
Hstatus Karakter Kepemilikan rumah
CarNum Karakter Jumlah kendaraan bermotor
IPYear Karakter Rentang gaji
Region Karakter Domisili
Age Angka Umur
BFlag Karakter Membeli atau tidak membeli sepeda
Tabel 2.7 di atas menjelaskan atribut-atribut yang dimiliki pelanggan toko
sepeda yang akan digunakan untuk melakukan model classification untuk
mengetahui pola pelanggan yang berpotensi membeli atau tidak membeli sepeda.
Dari seluruh dataset yang ada 90% dataset digunakan sebagai train set, dan 10%
digunakan sebagai test set.
Data mining tool yang digunakan dalam penelitian ini adalah SQL Server
Analysis Service yang merupakan fitur dari Microsoft SQL Server 2005.
Dengan menggunakan algoritma decision tree didapatkan 116 pola yang
terbentuk dengan temuan beberapa fakta sebagai berikut:
99,99% pelanggan yang memiliki satu kendaraan bermotor , dengan
rentang gaji 0 sampai dengan Rp 50.000.000 per tahun, dan umur 29
hingga 32 tahun, pada regional solo, tidak akan membeli sepeda. Namun
29
Universitas Indonesia
kemungkinan munculnya seorang pelanggan dengan karakteristik tersebut
hanya 0,25%.
99,99% pelanggan yang memiliki dua kendaraan bermotor, dengan
rentang gaji Rp 100.000.000 sampai dengan Rp 150.000.000 per tahun,
dan umur 39 hingga 41 tahun, dengan jumlah anak dua, akan membeli
sepeda. Namun kemungkinan munculnya seorang pelanggan dengan
karakteristik tersebut hanya 0,11%.
Dengan menggunakan algoritma naïve bayes, didapatkan 35 grup yang
saling lepas, dengan fakta-fakta sebagai berikut:
Kemungkinan terbesar grup yang akan membeli sepeda adalah pelangan
yang tidak memiliki kendaraan bermotor, dengan persentase pembelian
sebesar 63,59%, Kemungkinan munculnya seorang pelanggan dengan
karakteristik tersebut adalah 22,94%.
Kemungkinan terkecil grup yang akan membeli sepeda adalah pelangan
umur di atas 59 tahun, dengan persentase pembelian sebesar 0,06%.
Kemungkinan munculnya seorang pelanggan dengan karakteristik
tersebut adalah 0,31%.
Implementasi dua algoritma yang digunakan untuk melakukan
classification data transaksi penjualan sepeda menghasilkan nilai akurasi yang
berbeda seperti pada gambar berikut:
Gambar 2.4 Perbandingan akurasi decision tree dengan naïve bayes
Seperti yang terlihat pada gambar 2.4 di atas, model decision tree
menghasilkan tingkat akurasi 68,85% sedangkan model naïve bayes hanya
menghasilkan tingkat akurasi 60,7%.
30
Universitas Indonesia
2.6.8 Analisis Model Komputasi Berbasis Artificial Neural Network Untuk
Forecasting Perekonomian Indonesia (Bagus Priambodo,2009)
Penelitian ini membahas tiga model ANN (Artificial Neural Network)
sebagai alat peramalan, yaitu: GMDH (Group Method of Data Handling),
feedforward backpropagation neural network, dan elmant recurrent neural
network.
Terdapat dua jenis peramalan yang akan dibandingkan diantara ketiga
model tersebut yaitu multivariate dimana komponen yang digunakan sebagai
input adalah variabel makro ekonomi Indonesia. Peramalan lainnya adalah
univariate dimana komponen yang digunakan sebagai input adalah nilai GDP
Indonesia dari tahun 1970.
Atribut yang digunakan dalam pembuatan model artificial neural network
diantaranya adalah: P_Rice yang merupakan nilai harga beras, P_Gasol yang
merupakan nilai harga bensin premium, GDP_Japan adalah nilai produk domestik
bruto dari negara Jepang, GDP_USA adalah nilai produk domestic bruto dari
negara Amerika Serikat, ER yang merupakan nilai pertukaran mata uang, GC
yang merupakan nilai konsumsi Pemerintah Indonesia, dan XO yang merupakan
nilai ekspor dan impor Indonesia.
Setelah atribut data ditentukan, data kemudian dinormalisasi dengan
rentang nilai 0 hingga 1 untuk keperluan peramalan multivariate dan univariate.
Peramalan data multivariate dilakukan sebanyak dua kali, dengan peramalan
pertama menggunakan 11 data dari tahun 1985 hingga 1996 untuk meramal GDP
di tahun 1997 hingga tahun 2000. Peramalan kedua menggunakan 19 data dari
tahun 1985 hingga 2004 untuk meramal GDP di tahun 2005 hingga tahun 2008.
Peramalan data univariate juga dilakukan sebanyak dua kali, dengan
peramalan pertama menggunakan 26 data dari tahun 1970 hingga tahun 1996 untu
meramal GDP di tahun 1997 hingga tahun 2000. Peramalan kedua menggunajkan
34 data dari tahun 1970 hingga tahun 2004 untuk meramal GDP di tahun 2005
hingga tahun 2008.
31
Universitas Indonesia
Pengembangan model ANN untuk GMDH dilakukan dengan menetapkan
3 buah layer yang terdiri dari layer pertama dengan7 neuron yang kemudian layer
kedua berjumlah 21 layer dengan menggunakan permutasi. Dari 21 neuron yang
dihasilkan dipilih 7 neuron terbaik. 7 neuron tersebut akan menghasilkan 21
neuron yang nantinya akan dipilih 1 neuron terbaik. Hasil yang didapatkan
selanjutnya akan di denormalisasi.
Pengembangan model ANN untuk Back Propagation dilakukan dengan
menetapkan 3 buah layer , yaitu layer input, hidden, dan output. Layer input berisi
7 neuron,dan layer outout berisi 1 neuron, sedangkan jumlah neuron pada hidden
layer adalah nilai momentum dan nilai learn rate yang diperoleh dari hasil ujicoba
peramalan dengan hasil peramalan terbaik. Hasil yang didapatkan selanjutnya
akan di denormalisasi. Jumlah neuron pada model elmant serupa dengan jumlah
neuron untuk back propagation.
Arsitektur ANN yang digunakan untuk peramalan multivariate dan
univariate dapat dilihat pada tabel berikut ini:
Tabel 2.8 Arsitektur ANN untuk peramalan multivariate dan univariate
Network Aktivasi Arsitektur Mmtum Learn rate Menit Data pelatihan
GMDH - (generate) - - 0,00155 1985-1996 BP Sigmoid 7-15-1 0,8 0,25 0,0085 1985-1996 Elman Sigmoid 7-18-1 0,8 0,25 0,61 1985-1996 GMDH Sigmoid (generate) - - 0,00181 1985-2004 BP Sigmoid 7-15-1 0,8 0,25 0,0085 1985-2004 Elman Sigmoid 7-6-1 0,8 0,25 0,5 1985-2004 GMDH - (generate) - - 0,002 1970-1996 BP Sigmoid 3-15-1 0,8 - 0,26 1970-1996 BP Sigmoid 4-15-1 0,8 - 0,33 1970-1996 BP Sigmoid 5-15-1 0,8 - 0,32 1970-1996 Elman Sigmoid 3-18-1 0,6 - 0,983 1970-2004 Elman Sigmoid 4-16-1 0,6 - 0,9 1970-2004 Elman Sigmoid 5-16-1 0,6 - 0,7 1970-2004
Ketiga model permalan yang digunakan diimplementasikan dengan bahasa
pemrograman ASP.NET dan C# untuk mengembangkan aplikasi sendiri. Sumber
data berasal dari basis data MySQL yang menyimpan data data perekonomian
32
Universitas Indonesia
Indonesia. Dari hasil peramalan series 4 tahun dengan data pelatihan dari tahun
1970 hingga 2004 dihasilkan tabel perbandingan sebagai berikut:
Tabel 2.9 Perbandingan model artificial neural network
GMDH Back Propagation Elmant
Koefisien korelasi 0,997665498 0,955279787 0,160989907
RMSE 129286,5056 135472,3686 193018,1014
MAPE 6,448495716 6,438111324 9,442940962
Berdasarkan Tabel 2.9 di atas dapat diketahui bahwa model GMDH nilai
koefisien korelasi yang paling tinggi dibandingkan dengan model lainnya. Selain
itu model GMDE memiliki nilai error RMSE dan MAPE yang paling rendah
dibandingkan dengan dua model lainya. Sehingga dapat disimpulkan bahwa
GMDH merupakan model ANN yang paling baik diantara model lainnya yang
diuji untuk peramalan series 4 tahun dengan data pelatihan 1970 hingga 2004.
2.6.9 Predictive Modelling Dalam Data mining Perbandingan
Macroeconomic Forecasting Menggunakan Vector Auto Regression
Dan General-To-Specific Modelling (Siswantoro ,2008)
Penelitian ini bertujuan menganalisis pemodelan prediksi yang sebaiknya
diimplementasikan dalam memprediksi makroekonomi. Pemodelan prediksi yang
digunakan adalah Vector Auto Regression (VAR) dan General-to-specific (GetS)
modeling.
Pemodelan ini lalu diterapkan pada model broda dengan empat atribut
yaitu: terms of trade, nilai tukar riil, indeks harga konsumen, dan produk domestik
bruto riil. 4 model tersebut diadaptasi sedemikian rupa sehingga menjadi sistem
persamaan sebgai berikut:
33
Universitas Indonesia
Dimana:
TOT : terms of trade
RER : nilai tukar riil (real exchange rate)
CPI : indeks harga konsumen (consumer price index)
RGDP : produk domestic bruto riil (real gross domestic product)
Ɛ : error rate
Tahap awal dari penelitian ini adalah melakukan cleaning dan pre-
processing data. Data yang digunakan pada penelitian ini adalah data kwartal
pertama tahun 1999 dengan kwartal ke-4 tahun 2007. Periode ini dipilih karena
tergolong stabil setelah terjadi krisis ekonomi 1997-1998. Data diperoleh dari
bulletin-buletin statistik terbitan Biro Pusat Statistik (BPS) dan Internacional
Finance Statisitc (IFS) terbitan International Monetary Fund (IMF).
Tahap selanjutnya adalalh melakukan transformasi data dengan
memastikan bahwa data penelitian berada dalam kondisi stasioner melalui uji
stasioneritas. Gambar berikut menggambarkan pergerakan data keempat atribut
yang akan digunakan:
34
Universitas Indonesia
Gambar 2.5 Pergerakan data atribut yang akan digunakan
Dari Gambar 2.5 di atas dapat dilihat bahwa adanya tren meningkat pada
CPI dan RGDP, sedangkan untuk atribut TOT dan RER pergerakan datanya
cukup fluktuatif.
Berdasarkan periode yang diestimasi, prediksi akan dipecah menjadi ex
post forecast dan ex ante forecast. Pemodelan terbaik ditentukan berdasarkan tiga
kriteria, yaitu: nilai adjusted R2 , nilai Akaike Information Criterion (AIC), dan
nilai Scwarz Information Criterion (SIC).
Teknik data mining yang dilakukan untuk melakukan prediksi pada
penelitian ini menggunakan metode berbasis ilmu statistika dan ekonometrika.
Berikut ini adalah hasil prediksi pada 3 kriteria dengan menggunakan 2 model:
35
Universitas Indonesia
Tabel 2.10 Ringkasan analisis predictive modeling.
Ex Post Forecast Ex Ante Forecast
VAR GetS VAR GetS
Adjusted R2 0,774765 0,795962 0,824471 0,869031
AIC 3,647252 3,517827 3,483982 2,839
SIC 4,463150 4,388817 4,270363 3,971405
Berdasarkan Tabel 2.6 di atas dapat disimpulkan bahwa Gets Modelling
lebih baik daripada VAR. Terlihat dari nilai adjuted R2 untuk semua bentuk
forecast yang lebih besar dan nilai AIC dan SIC yang lebih kecil.
2.6.10 Aplikasi Data Mining Di Bidang Earth Science Studi Kasus El Nino
dan La Nina (Ramdhani Mahardika ,2011)
Penelitain ini berusaha melakukan prediksi kejadian El Nino dan La Nina
dengan melakukan teknik data mining association dan classification. Data yang
digunakan sebagai dasar untuk melakukan data mining adalah data iklim.
Algoritma FP-Growth digunakan untuk teknik data mining association,
sedangkan teknik Support Vector Machine digunakan untuk teknik data mining
classification.
Data mining tools yang digunakan pada penelitian adalah Oracle Data
Miner (ODM) dan Rapidminer dimana ODM bersifat proprietary dan Rapidminer
bersifat open source. Data yang digunakan dalam penelitian ini bersal dari 71
ATLAS mooring yang berada di sepanjang samudra pasifik. Secara umum
beberapa atribut yang digunakan adalah data-data mengenai angin, temperatur
udara presipitasi, radiasi gelombang pendek, radiasi gelombang panjang, tekanan
muka laut dan suhu muka laut.
Algoritma support vector machine classification yang diimplementasikan
pada ODM menghasilkan nilai predictive confidence sebesar 42,7%. Nilai tersebut
masuk ke dalam kategori baik karena berada di atas nilai rata-rata. Sedangkan
36
Universitas Indonesia
algoritma FP-Growth yang diimplementasikan pada Rapidminer menunjukkan
keterkaitan antara LWR di atas 109.627500000000005, PRECIPITATION di
bawah 16,92 mm, dan SST di atas 23,4225 0C, serta temperature udara di atas
23.37 0C akan memiliki keadaan atmosfer normal.
Berdasarkan landasan teori, penelitian sebelumnya, dan metodologi yang
dijelaskan sebelumnya maka dapat disusun suatu perbandingan dalam bentuk
tabel sebagai berikut:
37
Universitas Indonesia
Perbandingan Teori Compare Contrast Criticize Synthesize Summarize Rujukan
Association Rule Mining
Suatu teknik
dalam data
mining yang
sering
digunakan untuk
proses
Knowledge
Discovery in
Data (KDD)
Digunakan untuk
memepelajari
pola keterkaitan
yang ada dengan
menggunakan
frequent itemset
yang muncul
Hanya
mempelajari
keterkaitan data
tanpa
mengelompokkan
data
Suatu tahapan dalam
menggali
pengetahuan dalam
data, baik dengan
cara memepelajari
pola keterkaitan
antar data,
membangun model
untuk memprediksi
klasifikasi data,
maupun
mengelompokkan
data berdasarkan
kesamaan atribut
pada data
Suatu usaha
untuk
mengekstraksi
dan
mengindentifikasi
informasi dari
sumber basis data
yang besar
dengan
mengidentifikasi
aturan, pola,
keteraturan, dan
kebiasaan yang
terbentuk
Jiawei Han, Michelin
Kamber, (2006). Data
mining Concepts and
Techniques. Morgan
Kaufmann Publishers.
Classification
Digunakan dalam
membangun
model untuk
prediksi kelas
suatu data atau
objek
Kelas terbentuk
akibat rule yang
ada, bukan
berdaasarkan
kesamaan atribut
pada data
Clustering Digunakan untuk
mengelompokkan
data berdasarkan
kesamaan atribut
data.
Pengelompokkan
data cenderung
berbentuk bulat
akibat pendekatan
Euclidean.
Tabel 2.11 Perbandingan teori dan penelitian sebelumnya
38
Universitas Indonesia
Perbandingan Penelitian Compare Contrast Criticize Synthesize Summarize Rujukan
Data Mining Classifcation
Technique for Talent
Management using SVM
Penggunaan
beberapa teknik
dalam data
mining yang
diterapkan pada
data sumber
daya manusia
untuk
menajemen
kepegawaian
yang lebih baik
Menggabungkan
algoritma CACC,
SVM dan SMO
untuk teknik data
mining
classification
Pennggunaan data
mining tool lain
seharusnya lebih
mudah
dibandingkan
menggunakan
Matlab
Gabungan algoritma
CACC, SVM dan
SMO untuk
menghasilkan
prediksi dengan
akurasi yang lebih
baik
Classification
digunakan untuk
menemukan
model prediksi
bakat
kepegawaian
dalam organisasi
S.Yashoda, P.S.Prakash ,
(2012). Data Mining
Classifcation Technique
for Talent Management
using SVM
The Decision Tree
Classifcation And Its
Application Research In
Personnel Management
Implementasi
algoritma
classification
C.45 pada data
kepegawaian
Membangun
model prediksi
tanpa melakukan
tes prediksi
Implementasi
algoritma C.45
dalam antar muka
Visual Basic untuk
memudahkan user
Implementasi
classification
C.45 untuk
prediksi calon
pegawai
Peng Ye. (2011). The
Decision Tree
Classifcation And Its
Application Research In
Personnel Management
Data mining
Classification Techniques
For Human Talent
Forecasting
Membandingkan
5 algoritma
classification
untuk
menentukan kelas
pegawai
Masih banyank
algoritma lain
yang dapat
digunakan
sebagai
pembanding
Algoritma C 4.5
cukup akurat dalam
melakukan
classification pada
data sumber daya
manusia.
Membandingkan
beberapa
algoritma
diperlukan untuk
mendapatkan
metode terbaik
Hamidah Jantan, Abdul
Razak Hamdan,Zulaiha
Ali Othman, (2011). Data
mining Classification
Techniques For Human
Talent Forecasting
39
Universitas Indonesia
Perbandingan Penelitian Compare Contrast Criticize Synthesize Summarize Rujukan
Penerapan Data mining
Pada Pemberian Biaya
Sponsorship Untuk
Menemukan Pola Yang
Efektif
Penerapan
teknik data
mining
classification
untuk
pengenalan pola
dan prediksi
Menggunakan
dua teknik data
mining yaitu
association dan
classification
Tidak ada alasan
khusus mengenai
penggunaan
algoritma FP-
Growth.
Gabungan
association dan
classification untuk
menemukan pola
pembiayaan
sponsorhip
Classification
dapat digunakan
untuk identifikasi
pola pembiayaan
sponsorship yang
efektif
Achmad Junanto. (2010).
Penerapan Data mining
Pada Pemberian Biaya
Sponsorship Untuk
Menemukan Pola Yang
Efektif
Penerapan Data mining Di
Badan Metereologi Dan
Geofisika (BMG) Untuk
Memprediksi Cuaca Di
Jakarta
Melakukan
prediksi cuaca
dari pola data
yang ditemukan
melalui teknik
classification
Keragaman hasil
prediksi dari 3
data mining tools
menghasilkan
kesimpulan yang
beragam
Penggunaan 3 data
mining tools untuk
menghasilkan
prediksi cuaca yang
lebih akurat
Classification
dapat digunakan
untuk
memprediksi
cuaca di daerah
Jakarta
Iqbal. (2007). Penerapan
Data mining Di Badan
Metereologi Dan
Geofisika (BMG) Untuk
Memprediksi Cuaca Di
Jakarta
Implementasi Bussiness
Intelligence Untuk
Pengenalan Pola Bisnis Di
Daerah Jakarta Selatan
Implementasi
classification
pada data lokasi
dan jenis usaha
Tidak dijelaskan
mengapa
menggunakan
Fuzzy K-Means
Hasil klasifikasi
dikombinasikan
dengan data lokasi
menghasilkan solusi
bisnis untuk tiap area
Classification
dapat digunakan
untuk identifikasi
pola bisnis
dengan data
lokasi bisnis
Arthur Salomo
Hamonangan Gultom.
(2009). Implementasi
Bussiness Intelligence
Untuk Pengenalan Pola
Bisnis Di Daerah Jakarta
40
Universitas Indonesia
Perbandingan Penelitian Compare Contrast Criticize Synthesize Summarize Rujukan
Pembandingan Tingkat
Akurasi Dua Model Data
mining Yang Dihasilkan
Oleh Decision Tree Dan
Naïve Bayes Studi Kasus:
Suatu Perusahaan
Manufaktur Dan
Penjualan Sepeda
Penerapan
teknik data
mining
classification
untuk
pengenalan pola
dan prediksi
Membandingkan
algoritma
decision tree
dengan naive
bayes untuk data
penjualan sepeda
Tingkat akurasi
yang dihasilkan
dari classification
tidak terlalu
tinggi
Penggunaan 2
algoritma
classification
bertujuan
menghasilkan
alternatif akurasi
yang lebih baik
Hasil
classification
dapat digunakan
untuk
mengidentifikasi
pola demografi
pelanggan yang
potensial untuk
membeli
Afif Farisi. (2007).
Pembandingan Tingkat
Akurasi Dua Model Data
mining Yang Dihasilkan
Oleh Decision Tree Dan
Naïve Bayes Studi Kasus:
Suatu Perusahaan
Manufaktur Dan Penjualan
Sepeda
Analisis Model
Komputasi Berbasis
Artificial Neural Network
Untuk Forecasting
Perekonomian Indonesia
Menggunakan
artificial neural
network untuk
melakukan
classification dan
memprediksi
perekonomian
Indonesia
Tidak
menggunakan
data mining tools
melainkan
menulis ulang
algooritma ke
dalam bahasa
pemrograman
ASP.NET
Penggunaan 3 model
artificial neural
network bertujuan
menghasilkan
alternatif akurasi
prediksi yang lebih
baik
artificial neural
network mampu
meramalkan
perekonomian
Indonesia secara
akurat
Bagus Priambodo. (2009).
Analisis Model Komputasi
Berbasis Artificial Neural
Network Untuk
Forecasting Perekonomian
Indonesia
41
Universitas Indonesia
Perbandingan Penelitian Compare Contrast Criticize Synthesize Summarize Rujukan
Predictive Modelling
Dalam Data mining
Perbandingan
Macroeconomic
Forecasting
Menggunakan Vector Auto
Regression Dan General-
To-Specific Modelling
Penerapan
teknik data
mining
classification
untuk
pengenalan pola
dan prediksi
Teknik data
mining yang
digunakan
berbasis statistika
dan ekonometrika
Tidak secara
spesifik
menjelaskan data
mining tools yang
digunakan
2 metode forecasting
yang digunakan
bertujuan
memberikan
alternatif hasil
ramalan yang lebih
baik
Predictive
modeling
merupakan bagain
dari data mining
yang digunakan
untuk melakukan
prediksi
Siswantoro. (2008).
Predictive Modelling
Dalam Data mining
Perbandingan
Macroeconomic
Forecasting Menggunakan
Vector Auto Regression
Dan General-To-Specific
Modelling
Aplikasi Data Mining Di
Bidang Earth Science
Studi Kasus El Nino dan
La Nina
Menggunakan
teknik data
mining deskriptif
dan prediktif
untuk
memprediksi
bencana alam El
Nino dan La Nina
Menggunakan
data mining tools
yang berbeda
untuk tiap teknik
data mining,
dimana
seharusnya cukup
menggunakan
satu tool saja.
ODM digunakan
untuk melakukan
classification dan
Rapidminer
digunakan untuk
melakukan
association
Nilai akurasi
prediksi yang
dihasilkan sebesar
42,7% sudah
dianggap baik
untuk prediksi
bencana alam El
nino dan La nina
Aplikasi Data Mining Di
Bidang Earth Science
Studi Kasus El Nino dan
La Nina
42
Universitas Indonesia
Berdasarkan Tabel 2.8 di atas maka dapat dilihat bahwa dari beberapa
teknik data mining yang dijelaskan oleh Jiawei Han dan Michelin Kamber dalam
buku yang berjudul Data mining Concepts and Techniques dapat disimpulkan
bahwa teknik association rule tidak tepat digunakan pada peneletian ini karena
teknik tersebut hanya digunakan untuk memepelajari pola keterkaitan yang ada
dengan menggunakan frequent itemset yang muncul, sehingga tidak dapat
dijadikan acuan untuk melakukan prediksi pengisian jabatan struktural pada
Pemerintah Kota Bogor.
Teknik clustering juga tidak tepat digunakan pada penelitian ini karena
teknik ini digunakan untuk mengelompokkan data berdasarkan kesamaan atribut
data dalam arti pengelompokkan data belum diketahui sebelumnya, sedangkan
pada kasus jabatan struktural tentunya hal ini sudah terbentuk berdasarkan tingkat
eselonering yang ada pada setiap jabatan struktural.
Oleh karena itu, teknik data mining yang tepat untuk digunakan pada
penelitian ini adalah classification, mengingat teknik classification dapat
mempelajari pola yang ada dari class yang sudah ditentukan sehingga dapat
dibangun suatu model prediksi berdasarkan pola yang terbentuk.
Penggunaan data pegawai dari tahun 2009 hingga tahun 2013 akan
digunakan sebagai train data set untuk mengenali pola data kepegawaian, pola
yang dihasilkan akan dijadikan dasar untuk melakukan prediksi pengisian jabatan
struktural pegawai ditahun 2014.
Penelitian berujudul Data Mining Classifcation Technique for Talent
Management using SVM menujukkan bagaiman kombinasi beberapa algoritma
classification sperti CACC, SVM dan SMO dapat menghasilkan model prediksi
dengan akurasi yang lebih baik dalam menggali bakat kepegawaian dalam suatu
organisasi.
Penelitian berujudul Data Mining Classification Techniques For Human
Talent Forecasting membuktikan bahwa alogirtma C 4.5 memiliki akurasi yang
lebih baik dibandingkan beberapa algoritma classification lainnya, untuk
43
Universitas Indonesia
melakukan pengelompokkan kelas pegawai yang kemudian akan digunakan untuk
meramal bakat dari sumber daya manusia yang ada.
Penelitian berjudul The Decision Tree Classifcation And Its Application
Research In Personnel Management mencoba membangun suatu aplikasi
berbasis desktop yang memiliki kemampuan memprediksi hasil perekrutan
pegawai baru dengan mennggunakan teknik data mining classification. Secara
spesifik algoritma yang digunakan untuk melakukan classification adalah
algoritma C.45
Dalam studi kasus pengisian jabatan struktural di lingkungan Pemerintah
Kota Bogor beberapa atribut data yang akan digunakan mengacu pada Peraturan
Pemerintah No 13 tahun 2002 yaitu: golongan pegawai, masa kerja pegawai,
tingkat pendidikan pegawai, pengalaman dalam unit kerja, serta pendidikan dan
pelatihan yang pernah diikuti oleh pegawai. Dengan atribut tersebut maka metode
data mining yang sesuai untuk menemukan pola pengisian jabatan struktural di
lingkungan Pemerintah Kota bogor adalah teknik classification.
2.7 Theoretical Framework
Untuk menyusun Theoretical Framework dalam penelitian ini tentunya
dimulai dari atribut-atribut yang akan digunakan untuk menyusun itemset dengan
sumber basis data SIMPEG. Beritu ini adalah Theoretical Framework dari
penelitian ini:
44
Universitas Indonesia
Gambar 2.5 Theoretical framework penelitian.
Seperti yang dapat dilihat pada Gambar 2.5 di atas, teknik data mining
classification dipengaruhi oleh atribut-atribut yang akan digunakan yaitu pangkat
dan golongan pegawai, pengalaman pegawai dalam unit kerja, masa kerja
pegawai, tingkat pendidikan pegawai, serta pendidikan dan pelatihan pegawai.
Pola prediktif classification yang terbentuk akan digunakan untuk
melakukan prediksi pengisian jabatan struktural dengan menggunakan train data
set kepegawaian sehingga menghasillkan prediksi pengisian jabatan struktural
yang nantinya akan berguna bagi Baperjakat dalam menyusun draft pengisian
jabatan struktural di lingkungan Pemerintah Kota Bogor .
45
Universitas Indonesia
BAB 3
METODOLOGI PENELITIAN
3.1 Tahapan Penelitaian
Kerangka kerja penelitian yang digunakan berdasar pada metodologi
penelitian studi kasus yang di dalamnya terdapat tahapan evaluasi dan analisa
data. Secara bertahap kerangka kerja penelitian ini dapat digambarkan sebagai
berikut:
Gambar 3.1 Kerangka Kerja Penelitian.
46
Universitas Indonesia
Berdasarkan langkah-langakah metode penelitian seperti pada gambar 3.1
di atas maka penelitian dimulai dengan pendefinisian masalah pengisian jabatan
struktural berdasarkan hasil wawancara dengan nara sumber yaitu Sekretaris
Baperjakat Pemerintah Kota Bogor, yang kemudian dapat ditarik suatu
pertanyaan penelitan yaitu: Bagaimana mengidentifikasi pola pengisian jabatan
struktural dengan mengekstraksi data-data kepegawaian yang ada pada SIMPEG
sehingga mampu memberikan usulan calon pejabat struktural
Untuk dapat menjawab pertanyaan penelitan tersebut tentunya diperlukan
langkah untuk menentukan teknik pengumpulan data dan analisis yang diperlukan
dengan cara melakukan studi literatur yang menghasilkan theoretical framework
untuk penelitan ini
Langkah selanjutnya adalah mengidentifikasi proses bisnis dan data yang
dibutuhkan untuk melakukan data mining dengan menggunakan atribut yang
menjadi penilaian dalam jabatan struktural yang tercantum dalam Peraturan
Pemerintah Republik Indonesia Nomor 13 Tahun 2002 tentang pengangkatan
Pegawai Negeri Sipil dalam jabatan struktural.
Setelah mendapatkan atribut yang diperlukan maka baru dapat dilakukan
pengumpulan data dari basis data SIMPEG yang selanjutnya akan masuk ke
dalam tahap pra-proses dalam data mining dengan menggunakan teknik-teknik
data cleaning, data integration, data selection, dan data transformation untuk
mendapatkan format data jabatan struktural yang sesuai untuk keperluan
association mining rule. Tahapan proses ini merupakan tahapan awal dalam
proses Knowledge Discovery Data (KDD).
Setelah format data jabatan struktural yang sesuai untku proses data
mining didapatkan, barulah proses pengolahan data dengan menggunakan
classification dilakukan untuk mendapatkan pola pengisian jabatan struktural
yang ada.
Pola pengisian jabatan struktural yang terbentuk akan dijadikan dasar
untuk memprediksi data calon pejabat struktural di tahun 2014. Hasil prediksi
47
Universitas Indonesia
akan dibandingkan dengan data pejabat struktural aktual untuk mengukur akurasi
dari prediksi yang dilakukan.
Setelah hasil prediksi dan nilai akurasinya diukur, maka dapat ditarik suatu
kesimpulan secara umum dengan menggunakan teknik penarikan kesimpulan
induktif dimana hal ini pada proses Knowledge Discovery Data (KDD) disebut
juga sebagai knowledge presentation.
3.2 Metode Pengumpulan Data
Pengumpulan data pada penelitian ini dilakukan dengan menggunakan
metode observasi langsung terhadap basis data kepegawaian dari Sistem Informasi
Manajemen Kepegawaian (SIMPEG) Pemerintah Kota Bogor.
Data yang digunakan mencakup :
Tabel 3.1 Data yang tersedia
Tujuan Data Format Data Rujukan Mendapatkan atribut pangkat golongan pegawai pada saat menjadi pejabat struktural
Data SK Mutasi Jabatan Struktural Pegawai
MySQL
2009-2013 (sumber : SIMPEG Kota Bogor)
Mendapatkan data jabatan struktural pegawai
Data SK Mutasi Jabatan Struktural Pegawai
MySQL
2009-2013 (sumber : SIMPEG Kota Bogor)
Mendapatkan atribut tingkat pendidikan pegawai
Data Riwayat Pendidikan Pegawai
MySQL
2009-2013 (sumber : SIMPEG Bogor)
Mendapatkan atribut pendidikan dan pelatihan pegawai
Data Pendidikan dan Pelatihan Pegawai
MySQL
2009-2013 (sumber : SIMPEG Bogor)
Berdasarkan Tabel 3.1 di atas dapat dijelaskan bahwa itemset yang akan
disusun hanya akan menggunakan data-data mutasi jabatan struktural dengan
menggunakan 5 atribut yang dibahas pada theoretical framework sebelumnya.
Dari 5 atribut yang akan digunakan, 3 di antaranya sudah tersimpan didalam basis
48
Universitas Indonesia
data SIMPEG yaitu: pangkat dan golongan pegawai pada saat diangkat menjadi
pejabat struktural, tingkat pendidikan pegawai, dan pendidikan dan pelatihan
pegawai. Untuk dua atribut berikutnya yaitu masa kerja pegawai dan pengalaman
pegawai dalam unit kerja akan didapatkan dengan menggunakan teknik-teknik
data integration, selection dan transformation yang merupakan tahap pra proses
dalam data mining.
3.3 Metode Analisis Data
Penelitian ini menggunakan pendekatan kuantitatif dalam tahap analisis
data, dengan menggunakan teknik classification untuk mendapatkan pola
pengisian jabatan struktural dari basis data SIMPEG dengan menggunakan
tahapan proses Knowledge Discovery Data (KDD).
Pola yang teridentifikasi akan dijadikan dasar pengetahuan bagi aplikasi
SIMPEG sehingga memiliki kecerdasan buatan untuk dapat memberikan usulan
pengisian jabatan struktural bagi Baperjakat dalam menyusun draft mutasi jabatan
struktural di lingkungan Pemerintah Kota Bogor.
Beberapa perangkat lunak berbasis open source yang dapat digunakan
untuk melakukan classification diantaranya adalah Weka, R, dan Rapidminer.
Berdasarkan hasil survey tahun 2007 yang dilakukan kdnuggets.com tiga
pearngkat lunak inilah yang situsnya paling sering dikunjungi oleh ahli data
mining (Pehlivanli,2011). Hasil survey lain di tahun 2008 menunjukkan Weka dan
Rapidminer yang paling sering diunduh dibandingkan dengan perangkat lunak
data mining lainnya (Pehlivanli,2011). Berikut ini adalah hasil survey tahun 2007
yang dilakukan oleh situs data mining kdnuggest.com:
Gambar 3.2 Hasil survey kdnuggets.com tahun 2007.
Seperti yang dapat dilihat pada Gambar 3.2 di atas, situs web Yale
(Rapidminer) adalah yang paling sering dikunjungi oleh ahli data mining,
selanjutnya diikuti oleh Weka dan R. Ketiga perangkat lunak ini tentunya
memiliki kelebihan dan kekurangan masing-masing yang dapat dilihat pada tabel
berikut:
49
Universitas Indonesia
Data mining Tools Compare Contrast Criticize Synthesize Summarize Rujukan
Rapidminer
Aplikasi data
mining gratis
yang sering
digunakan
Memiliki fitur
lebih dari 400
algoritma data
mining dan
mendukung 22
format basis data
Tidak cocok
untuk mengolah
data yang
sederhana
mengingat fitur
yang sangat
kompleks
Data mining tool
gratis dengan fitur
yang sangat banyak
Aplikasi data
mining untuk
beragam jenis
algoritam dan
format data
Ayca Cahmak Pehlivanli ,
(2011). The Comparison
Of Data mining Tools
Weka
Tampilan CLI
command yang
sederhana dan
muudah dipahami
Algoritma yang
tersedia terkesan
secukupnya
Data mining tool
gratis dengan menu
yang sederhana dan
mudah untuk
dipelajari
Aplikasi data
mining sederhana
untuk sejumlah
format data
R Dapat
mengembangkan
algoritma sendiri
dengan bahasa
pemrograman R
Menguasai bahasa
pemrograman R
merupakan
kesulitan
tersendiri
Data mining tool
dengan
menggunakan
bahasa pemrograman
sendiri
Aplikasi data
mining dengan
kebebasan
mengembangkan
algoritma sendiri
Tabel 3.2 Tabel Perbandingan Data Mining Tools
50
Universitas Indonesia
Berdasarkan Tabel 3.2 di atas maka untuk melakukan teknik
classification pada penelitian in cukup menggunakan perangkat lunak WEKA,
mengingat penggunaan R yang cukup rumit dengan bahasa pemrograman
tersendiri, dan Rapidminer yang memiliki fitur dan algoritma yang terlalu banyak
dan memakan resource yang lebih besar dibandingkan WEKA.
51
Universitas Indonesia
BAB 4
JADWAL PENYUSUNAN KARYA AKHIR
Jadwal penyusunan karya akhir ini disusun untuk memetakan langkah-
langkah metode penelitian ke dalam rentang waktu yang ditentukan dalam bentuk
Gant Chart seperti pada bagan berikut ini:
Tabel 4.1 Jadwal Penyusunan Karya Akhir
Bulan 2 3 4 5
Minggu 4 1 2 3 4 1 2 3 4 1
Ekstraksi data dari basis data
SIMPEG untuk keperluan data
mining classification
Transformasi data ke dalam bentuk
yang mudah diolah untuk
implementasi classification dengan
menggunakan WEKA
Mengolah data hasil transformasi
ke dalam WEKA dengan
menggunakan beberapa algoritma
classification untuk
mengidentifikasi pola pengisian
jabatan struktural di lingkungan
Pemerintah Kota Bogor
Melakukan prediksi dengan pola
yang terbentuk dan mengukur
akurasi dari setiap algoritma
classification yang digunakan
52
Universitas Indonesia
Bulan 2 3 4 5
Minggu 4 1 2 3 4 1 2 3 4 1
Analisis hasil prediksi dengan
membandingkan akurasi dari
beberapa algoritma classification
yang digunakan
Menyusun hasil analisis dan
menarik kesimpulan ke dalam
dokumen karya akhir
Berdasarkan Tabel 4.1 di atas dapat dilihat bahwa tahap awal yang
dilakukan adalah melakukan ekstraksi data dari basis data SIMPEG dengan
memilih beberapa tabel yang memiliki atribut yang dibutuhkan terkait penilaian
calon pejabat struktural seperti pangkat golongan pegawai pada tabel pegawai,
tingkat pendidikan pegawai pada tabel pendidikan, pendidikan dan pelatihan
pegawai pada tabel diklat, dan masa kerja pegawai dan masa kerja pada organisasi
pada tabel sk. Waktu yang diperlukan untuk melakukan ektraksi data tersebut
diperkirakan satu minggu dan akan dilaksanakan pada minggu ke-4 di bulan
Februari tahun 2014.
Langkah selanjutnya adalah melakukan transformasi data terhadap tabel –
tabel yng dikumpulkan pada tahap ekstraksi data. Dari beberapa kolom yang
saling terpisah pada beberapa tabel yang berbeda, atribut-atribut yang diperlukan
dikumpulkan menjadi satu tabel sebagai data transaksi yang nantinya akan diolah
oleh data mining tool WEKA. Pada tahap ini juga dilakukan validasi data dengan
cara membuang record yang tidak relevan misalnya ada atribut yang bernilai
NULL. Waktu yang diperlukan untuk melakukan transformasi data tersebut
diperkirakan dua minggu dan akan dilaksanakan pada minggu ke-1 dan ke-2 di
bulan Maret tahun 2014.
Setelah tahap transformasi data tahap selanjutnya adalah mengolah data
tersebut dengan menggunakan mining tool WEKA dengan menggunakan
53
Universitas Indonesia
beberapa algoritma classification seperti C.45 dan random forrest. Waktu yang
diperlukan untuk melakukan pengolahan data tersebut diperkirakan dua minggu
dan akan dilaksanakan pada minggu ke-3 dan ke-4 di bulan Maret tahun 2014.
Tahap selanjutnya adalah melakukan prediksi dari pola data yang
terbentuk pada tahap sebelumnya. Data yang digunakan sebagai test data untuk
melakukan prediksi adalah data pegawai di tahun 2014. Waktu yang diperlukan
untuk melakukan prediksi pengisian jabatan struktural diperkirakan dua minggu
dan akan dilaksanakan pada minggu ke-1 dan ke-2 di bulan April tahun 2014.
Setelah hasil prediksi didapatkan langkah selanjutnya adalah mengukur
nilai akurasi prediksi dengan membandingkan hasil prediksi dengan penigisian
jabatan struktural di tahun 2014. Beberapa nilai akurasi yang dihasilkan dari
algortima yang berbeda akan dibandingkan untuk menghasilkan nilai akurasi yang
terbaik. Waktu yang diperlukan untuk melakukan analisis hasil prediksi
diperkirakan dua minggu dan akan dilaksanakan pada minggu ke-3 dan ke-4 di
bulan April tahun 2014.
Setelah nilai akurasi prediksi didapat maka langkah selanjutnya adalah
menuangkan seluruh hasil pengolahan data dan prediksi ke dalam tulisan karya
akhir ini. Waktu yang diperlukan untuk menyusun laporan dan kesimpulan
diperkirakan satu minggu dan akan dilaksanakan pada minggu ke-1 di bulan Mei
tahun 2014.
54
Universitas Indonesia
DAFTAR PUSTAKA
Gultom, Arthur Salomo Hamonangan. (2009). Implementasi business intelligence
untuk pengenalan pola bisnis di Daerah Jakarta Selatan. Program Studi
Magister Teknologi Informasi. Fakultas Ilmu Komputer. Universitas
Indonesia.
Han , jiawei., Kamber, Micheline., Liang. Data mining Concepts And Techniques.
Morgan Kaufmann Publishers, 2006.
Iqbal. (2007). Penerapan Data mining Di Badan Meteorologi Dan Geofisika
(BMG) Untuk Memprediksi Cuaca Di Jakarta. Program Studi Magister
Teknologi Informasi. Fakultas Ilmu Komputer. Universitas Indonesia.
Jantan, Hamidah., Hamdan , Abdul Razak., Othman, Zulaiha Ali .(2011). Data
mining Classification Techniques for Human Talent Forecasting. Faculty
of Computer and Mathematical Sciences UiTM, Terengganu and Faculty
of Information Science and Technology UKM, Bangi, Selangor, Malaysia.
Junanto, Achmad. (2010). Penerapan Data mining Pada Pemberian Biaya
Sponsorship Untuk Menemukan Pola Yang Efektif. Program Studi
Magister Teknologi Informasi. Fakultas Ilmu Komputer. Universitas
Indonesia.
Mahardika, Ramdhani. (2011). Aplikasi Data Mining Di Bidang Earth Science
Studi Kasus El Nino dan La Nina. . Program Studi Magister Teknologi
Informasi. Fakultas Ilmu Komputer. Universitas Indonesia.
Pehlivanli, Ayca Cahmak. (2011). The Comparison Of Data mining Tools.
Department of Computer Engineering İstanbul Kültür University.
Peraturan Pemerintah Republik Indonesia Nomor 100 Tahun 2000 tentang
Pengangkatan PNS dalam Jabatan Struktural. Jakarta: Kementrian
Sekretariat Negara Republik Indonesia.
Peraturan Pemerintah Republik Indonesia Nomor 13 Tahun 2002 tentang
Perubahan atas Peraturan Pemerintah Republik Indonesia Nomor 100
Tahun 2000 tentang Pengangkatan PNS dalam Jabatan Struktural. Jakarta:
Kementrian Sekretariat Negara Republik Indonesia.
55
Universitas Indonesia
Priambodo, Bagus. (2009). Analisis Model Komputasi Berbasis ANN Untuk
Forecasting Perekonomian Indonesia. Program Studi Magister Teknologi
Informasi. Fakultas Ilmu Komputer. Universitas Indonesia.
Siswantoro. (2008). Predictive Modelling Dalam Data mining Perbandingan
Macroeconomic Forecasting Menggunakan Vector Auto Regression Dan
General-To-Specific Modelling.
Turban, Efraim., Aronson, Jay E., Liang , Ting-Peng. Decission Support Systens
and Intelligent Systems. Pearson Education, Inc, 2005.
Yashoda, E. Prakash, P.S. (2012). Data Mining Classifcation Technique for
Talent Management using SVM. Department of Computer science and
Engineering, Sona College of Technology, Salem, Tamilnadu.
Ye, Peng. (2011). The Decision Tree Classifcation And Its Application Research
In Personnel Management. Huanggang Normal University Huanggang,
China
56
Universitas Indonesia
Lampiran 1: Lampiran Transkrip Wawancara
Transkrip Wawancara Kepala Bidang Mutasi dan Pengembangan Karir Pegawai
selaku Sekretaris Badan pertimbangan Jabatan dan Kepangkatan (Baperjakat).
Nara Sumber : Ana Ismawati, S.I.P, M.Si.
Unit Kerja : Badan Kepegawaian Pendidikan dan Pelatihan
Jabatan : Kepala Bidang Mutasi dan Pengembangan Karir Pegawai
Tanggal : 19 Desember 2013
Tempat : Ruang Bidang Mutasi dan Pengembangan Karir Pegawai BKPP,
Gedung Sekretarian Daerah Kota Bogor Lantai 2, Pemerintah
Kota Bogor
TWR : Tosan Wiar Ramdhani
AI : Ana Ismawati ,S.I.P , M.Si
TWR : Bisa ibu ceritakan isu-su terkait dalam pengisian jabatan
struktural di lingkungan Pemerintah Kota Bogor?
AI : Wah cukup banyak diantaranya: belum tersusunya pola karir
untuk jabatan struktural dimana pada level kementrian hal ini
sudah tersusun dengan baik. Tim Baperjakat juga merasa kesulitan
dalam menulusuri data calon pejabat struktural yang diusulkan
mengingat data jabatan struktural pada basis data SIMPEG hanya
mencatat mulai tahun 2009, dan kita tetap harus menulusuri data
tersebut secara manual satu per satu dengan menggunakan aplikasi
SIMPEG.
TWR : Menurut ibu saat ini SIMPEG belum cukup membantu?
AI : Dari sisi data mungkin sudah tersedia meskipun tidak cukup
lengkap, karena kita tentunya ingin melihat riwayat jabatan
seseorang sebelum 2009. Oleh karena itu saya sempat menghimbau
untuk menyebarkan formulir kepada seluruh pejabat struktural
untuk mengisi data riwayat jabatan dengan lengkap agar dapat
dimasukkan ke dalam basis data SIMPEG. Selain dari pada itu
akan sangat membantu tim Baperjakat jika SIMPEG mampu
57
Universitas Indonesia
mengusulkan nama-nama calon pejabat struktural jika terjadi
mutasi jabatan struktural.
TWR : Itu bisa saja dibuat bu, hanya bagaimana dengan regulasi yang
ada, apakah sudah cukup jelas teknis pelaksanaanya?
AI : Itu satu kendala lain, Peraturaturan Pemerintah No 2 Tahun 2000
yang kemudian diperbarui dengan Peraturaturan Pemerintah No 13
Tahun 2002 tidak secara spesifik mengatur mana komponen
kepegawaian yang menjadi prioritas dalam mengisi suatu jabatan
struktural. Syarat minimalnya hanya pangkat golongan dan untuk
komponen lainnya seperti masa kerja pegawai, pendidikan dan
pelatihan pegawai serta pengalaman dalam unit kerja tidak jelas
pembobotannya. Jadi bagaimana pak, apakah bapak bisa membuat
SIMPEG memiliki kemampuan untuk memberikan usulan dafttar
jabatan secara otomatis?
TWR : Seperti yang saya jelaskan sebelumnya bu, hal itu bisa saja
dilakukan, tapi harus jelas terlebih dahulu regulasinya.
Dikarenakan tidak ada pembobotan spesifik terhadap komponen
penilaian pegawai yang ibu jelaskan tadi, maka perlu dipelajari
pola pengisian jabatan struktural sebelumnya dari basis data
SIMPEG. Jika ibu tidak keberatan maka masalah ini yang akan
saya angkat menjadi penelitian untuk karya akhir dalam masa tugas
belajar saya.
AI : Silakan pak , saya sangat mendukung selama itu nantinya akan
memudahkan tugas Baperjakat dan saya juga akan bicarakan
dengan anggota Baperjakat lainnya.
TWR : Baik bu, apakah saya nanti diperkenankan melakukan presentasi
di depan tim Baperjakat?
AI : Silahkan saja, tapi menurut saya karena Baperjakat jarang sekali
mengadakan pertemuan kecuali jika ada mutasi jabatan struktural,
saya sarankan bapak melakukan presentasi kepada 3 dari total 7
anggota Baperjakat yang ada di BKPP saja termasuk saya.
58
Universitas Indonesia
TWR : Baik bu, terima kasih banyak atas waktu dan kesempatan yang
diberikan.