perbandingan akurasi prediksi dan kecepatan proses...

PERBANDINGAN AKURASI PREDIKSI DAN KECEPATAN

PROSES ANTAR CLASSIFIER MACHINE LEARNING UNTUK

KLASIFIKASI SPEKTRUM GAMMA 60Co, 22Na, 241Am, 137Cs, 90Sr

Skripsi

Oleh :

BAYU RUKMANA JATI

NIM 11150970000032

PROGRAM STUDI FISIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH

JAKARTA

2019 M / 1441 H

i




Skripsi

Diajukan kepada Fakultas Sains dan Teknologi untuk Memenuhi Persyaratan

Memperoleh Gelar Sarjana Sains (S.Si)

Oleh :

BAYU RUKMANA JATI

NIM 11150970000032

PROGRAM STUDI FISIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH

JAKARTA

2019 M / 1441 H

ii

LEMBAR PERSETUJUAN PEMBIMBING




Skripsi

Diajukan kepada Fakultas Sains dan Teknologi untuk Memenuhi Persyaratan

Memperoleh Gelar Sarjana Sains (S.Si)

Oleh

Bayu Rukmana Jati

NIM : 11150970000032

Menyetujui

Mengetahui,

Ketua Program Studi Fisika UIN Syarif Hidayatullah Jakarta

Tati Zera, M.Si

NIP. 196906082005012002

Pembimbing I,

Pembimbing II,

Elvan Yuniarti, M.Si

NIP. 197912272008012015

Nizar Septian, M.Si

NUP. 9920113284

iii

LEMBAR PERGESAHAN

Skripsi yang berjudul “PERBANDINGAN AKURASI PREDIKSI DAN

KECEPATAN PROSES ANTAR CLASSIFIER MACHINE LEARNING

UNTUK KLASIFIKASI SPEKTRUM GAMMA 60Co, 22Na, 241Am, 137Cs, 90Sr”

ditulis oleh Bayu Rukmana Jati dengan NIM 11150970000032 telah diuji dan

dinyatakan lulus dalam sidang Munaqasah Fakultas Sains dan Teknologi Universitas

Islam Negeri Syarif Hidayatullah Jakarta pada tanggal 28 April 2020. Skripsi ini

telah diterima sebagai salah satu syarat memperoleh gelar sarjana Strata Satu (S1)

Program Studi Fisika.

Menyetujui,

Mengetahui,

Penguji I,

Penguji II,

Dr. Sitti Ahmiatri Saptari, M.Si.

NIP. 197704162005012008 Dr. Sutrisno, Dipl.Seis.

NIP. 195902021982031005

Pembimbing I,

Pembimbing II,

Elvan Yuniarti, M.Si

NIP. 197912272008012015 Nizar Septian, M.Si

NUP. 9920113284

Dekan Fakultas Sains dan Teknologi,

Ketua Program Studi Fisika,

Prof. Dr. Lily Surraya Eka Putri, M.Env. Studi

NIP. 196904042005012005 Tati Zera, M.Si

NIP. 196906082005012002

28 April

iv

LEMBAR PERNYATAAN

Dengan ini saya menyatakan bahwa:

1. Skripsi ini merupakan hasil karya asli saya sendiri yang diajukan untuk

memenuhi salah satu persyaratan memperoleh gelar Sarjana Sains (S.Si) di UIN

Syarif Hidayatullah Jakarta.

2. Semua sumber yang saya gunakan dalam penelitian ini telah dicantumkan sesuai

dengan ketentuan yang berlaku di UIN Syarif Hidayatullah Jakarta.

3. Jika di kemudian hari terbukti bahwa karya ini bukan hasil karya asli saya sendiri

atau merupakan hasil jiplakan dari karya orang lain, maka saya bersedia

menerima sanksi yang berlaku di UIN

Syarif Hidyatullah Jakarta.

Jakarta, 28 April 2020

Materai 6000

Bayu Rukmana Jati

v

ABSTRAK

Perkembangan ilmu pengetahuan yang mulai memasuki era Machine

Learning menuntut setiap bidang ilmu untuk dapat melakukan otomatisasi pekerjaan.

Penelitian ini menggunakan machine learning untuk melakukan klasifikasi radiasi

dari bahan radioaktif yang tidak diketahui sumber bahannya dengan beberapa jenis

classifier menggunakan data spektrum gamma yang direkam menggunakan sintilator

NaI(Tl). Classifier yang digunakan antara lain: Decision Tree, Random Forest,

AdaBoost, Naive Bayes, Gaussian Process, dan Support Vector. Setiap classifier akan

melakukan training dengan menggali informasi dari data spektrum yang sudah

diketahui, dan kemudian diuji dengan data spektrum baru yang belum diketahui untuk

mendapatkan hasil klasifikasi, akurasi prediksi, serta kecepatan prosesnya. Sebelum

klasifikasi dilakukan masing-masing classifier akan diatur parameter-parameter dan

kernel-nya sesuai dengan kondisi dan kebutuhan penelitian. Dari klasifikasi yang

telah dilakukan, classifier menghasilkan akurasi prediksi dengan rentang 20% hingga

100% untuk semua classifier, dan kecepatan proses mulai dari 0.054 detik hingga 717

detik. Oleh karena itu, classifier yang memiliki akurasi dan kecepatan terbaik adalah

classifier Support Vector Machine dengan kernel linear yang memiliki akurasi

sebesar 100% dan kecepatan proses selama 0.244 detik.

Kata Kunci: Akurasi, classifier, data, gamma, machine learning, optimum,

otomatisasi.

vi

ABSTRACT

Development of science which began to enter the era machine learning

demanding every field of science be able to do work automation. This study uses

machine learning to classify radiation from radioactive material with unknown source

material with several types of classifier using gamma spectrum data that recorded by

NaI(Tl) scintillator. Classifiers used include: Decision Tree, Random Forest,

AdaBoost, Naive Bayes, Gaussian Process, and Support Vector. Each classifier will

conduct training by digging information from known spectrum data, and then testing

it with new unknown spectrum data to get the results of classification, prediction

accuracy, and speed of the process. Before the classification is done, each classifier

will set its parameters and kernel according to the conditions and research needs.

From the classification that has been done, the classifier produces prediction accuracy

with a range of 20% to 100% for all classifiers, and the processing speed starts from

0.054 seconds to 717 seconds. Therefore, the classifier that has the best accuracy and

speed is the Support Vector Machine classifier with a linear kernel which has an

accuracy of 100% and a processing speed of 0.244 seconds.

Keywords: Accuracy, automation, classifier, data, gamma, machine learning,

optimum.

vii

KATA PENGANTAR

Segala puji dan syukur atas hadirat Allah SWT berkat rahmat dan karunia-

Nya. Sehingga penulis dapat menyelesaikan skripsi ini dengan baik. Shalawat dan

salam senantiasa tercurahkan kepada baginda Nabi besar Muhammad SAW, beserta

para keluarganya, para sahabat dan para pengikut-pengikutnya, inshaa Allah kita

semua termasuk di dalamnya hingga akhir zaman. Berkat perjuangan beliau yang

telah mengantarkan manusia dari zaman Jahiliah ke zaman yang penuh dengan ilmu

pengetahuan seperti saat ini.

Penulis menyadari bahwa penulisan skripsi yang berjudul

“PERBANDINGAN AKURASI PREDIKSI DAN KECEPATAN PROSES

ANTAR CLASSIFIER MACHINE LEARNING UNTUK KLASIFIKASI

SPEKTRUM GAMMA 60Co, 22Na, 241Am, 137Cs, 90Sr” tidak dapat terselesaikan

tanpa dukungan dari berbagai pihak, baik moril maupun materiil. Oleh karena itu,

penulis ingin menyampaikan ucapan terima kasih kepada semua pihak yang telah

membantu penulis dalam penyusunan skripsi ini, terutama kepada:

1. Kedua orang tua yang telah memberikan dukungan moril dan materiil

serta doa yang tiada henti- hentinya kepada penulis.

2. Segenap keluarga besar yang telah menyemangati dan mendukung dalam

penyelesaian skripsi ini.

3. Ibu Tati Zera, M.Si selaku Ketua Program Studi Fisika dan Pembimbing

Akademik yang telah memberikan arahan kepada penulis.

viii

4. Ibu Prof. Dr. Lily Surraya Eka Putri, M.Env.Stud. selaku Dekan Fakultas

Sains dan Teknologi UIN Syarif Hidayatulla Jakarta.

5. Ibu Elvan Yuniarti,M.Si selaku pembimbing I, serta sebagai dosen di

Instrumentasi yang telah sabar membimbing penulis, memberikan

banyak ilmunya kepada penulis dan memberikan banyak masukan

kepada penulis terkait penulisan skripsi ini.

6. Bapak Nizar Septian, M.Si selaku pembimbing II yang telah

membimbing penulis, memberikan saran yang membangun kepada

penulis dan memberikan motivasi kepada penulis dari awal masuk kuliah

hingga akhir dari penulisan skripsi ini.

7. Ibu Dr. Sitti Ahmiatri Saptari, M.Si. dan Bapak Dr. Sutrisno, Dipl.Seis.

selaku penguji. Terima kasih atas waktu, masukan dan arahannya kepada

penulis untuk menjadikan tulisan ini menjadi semakin baik.

8. Para dosen-dosen Program Studi Fisika yang telah memberikan ilmu-

ilmunya selama perkuliahan.

9. Sahabat seperjuangan: Syarif, Andri, Ilham, Faris, Fadhur dan Candra

yang selalu memberikan support, doa, dan menjadi teman diskusi.

10. Muhammad Sholih Fajri selaku sahabat sekaligus tutor bagi penulis

dalam mencari ide pada tulisan ini.

11. Teman-teman Fisika UIN angkatan 2015 yang senantiasa memberikan

semangat dan bantuannya kepada penulis.

Kesalahan diri sendiri yang paling besar bukanlah kegagalan, tetapi berhenti

ix

dan menyerah sebelum merasakan keberhasilan. Oleh karena itu, penulis menyadari

bahwa skripsi ini masih jauh dari kata sempurna. Dikarenakan keterbatasan

pengalaman dan pengetahuan yang dimiliki penulis. Oleh karena itu, penulis

mengharapkan segala bentuk saran serta masukan bahkan kritik yang membangun

dari berbagai pihak yang dapat disampaikan melalui alamat e-mail penulis

[email protected]. Semoga skripsi ini dapat bermanfaat bagi para

pembaca dan semua pihak khususnya yang memerlukan.

Jakarta, 18 Januari 2020

Penulis

x

DAFTAR ISI

LEMBAR PERSETUJUAN PEMBIMBING ............................................... ii

LEMBAR PERGESAHAN ........................................................................... iii

LEMBAR PERNYATAAN ........................................................................... iv

ABSTRAK ....................................................................................................... v

ABSTRACT .................................................................................................... vi

KATA PENGANTAR ................................................................................... vii

DAFTAR ISI .................................................................................................... x

DAFTAR GAMBAR .................................................................................... xiii

DAFTAR GRAFIK ....................................................................................... xv

DAFTAR TABEL......................................................................................... xvi

BAB I PENDAHULUAN ............................................................................... 1

1.1 Latar Belakang..................................................................................... 1

1.2 Perumusan Masalah ............................................................................. 3

1.3 Batasan Masalah .................................................................................. 3

1.4 Tujuan Penelitian ................................................................................. 4

1.5 Manfaat Penelitian ............................................................................... 4

1.6 Sistematika Penulisan .......................................................................... 5

BAB II DASAR TEORI ................................................................................. 7

xi

2.1 Peluruhan Radioaktif ........................................................................... 7

2.1.1. Peluruhan Alfa .............................................................................. 7

2.1.2. Peluruhan Beta.............................................................................. 9

2.1.3. Radiasi Gamma .......................................................................... 10

2.2. Spekstroskopi Gamma ....................................................................... 11

2.3. Machine Learning .............................................................................. 15

2.4. Klasifikasi .......................................................................................... 16

2.4.1. Decision Tree Classifier ............................................................. 17

2.4.2. Random Forest Classifier ........................................................... 23

2.4.3. AdaBoost Classifier .................................................................... 26

2.4.4. Naive Bayes Classification ......................................................... 31

2.4.5. Gaussian Process Classifier ........................................................ 34

2.4.6. Support Vector Machine............................................................. 37

2.5. Sci-Kit Learn ..................................................................................... 44

BAB III METODE PENELITIAN ............................................................. 46

3.1 Waktu dan Tempat Penelitian ........................................................... 46

3.2 Alat dan Bahan .................................................................................. 46

3.3 Tahapan Penelitian ............................................................................ 47

3.3.1 Persiapan Penelitian.................................................................... 48

3.3.3 Praproses Data ............................................................................ 51

3.3.4 Melakukan Klasifikasi ................................................................ 53

3.3.5 Penyajian Data dan Confusion Matrix ....................................... 58

BAB IV HASIL DAN PEMBAHASAN...................................................... 59

4.1 Hasil Performa Prediksi untuk Setiap Classifier. .............................. 59

4.1.1 Decision Tree Classifier ............................................................. 60

4.1.2 Random Forest Classifier ........................................................... 63

4.1.3 AdaBoost Classifier .................................................................... 65

xii

4.1.4 Naive Bayes Classifier ................................................................ 69

4.1.5 Gaussian Process Classifier ....................................................... 71

4.1.6 Support Vector Classifier ........................................................... 75

4.2 Perbandingan Antar Classifier .......................................................... 78

4.3 Menentukan Classifier dengan Performa Terbaik ............................. 80

BAB V KESIMPULAN DAN SARAN ....................................................... 82

5.1 Kesimpulan ........................................................................................ 82

5.2 Saran .................................................................................................. 83

DAFTAR PUSTAKA .................................................................................... 84

xiii

DAFTAR GAMBAR

Gambar 2. 1 Peluruhan alfa dari inti radioaktif............................................................. 7

Gambar 2. 2 Peristiwa penerowongan oleh partikel alfa .............................................. 8

Gambar 2. 3 Spektrum elektron dipancarkan dari peluruhan beta ................................ 9

Gambar 2. 4 Sinar gamma dipancarkan mengikuti peluruhan beta ............................ 11

Gambar 2. 5 Spektra Energi Co60. ............................................................................. 13

Gambar 2. 6 Spektra Energi Na22. ............................................................................. 13

Gambar 2. 7 Spektra energi Am241 ............................................................................ 14

Gambar 2. 8 Spektra energi Cs137. ............................................................................ 14

Gambar 2. 9 Spektra Energi Sr90.. ............................................................................. 15

Gambar 2. 10 Perbedaan klasifikasi biner, dengan klasifikasi banyak kelas .............. 17

Gambar 2. 11 Contoh diagram Decision Tree Classifier biner .................................. 18

Gambar 2. 12 Contoh Diagram Decision Tree Classifier multiclass .......................... 19

Gambar 2. 13 Menentukan Node Cabang dan Akar ................................................... 21

Gambar 2. 14 Diagram Algoritma Random Forest Classifier. ................................... 24

Gambar 2. 15 Contoh Penggabungan Beberapa Classifier Menjadi Satu .................. 27

Gambar 2. 16 SVM membentuk hyperplane yang memisahkan kedua class ............ 38

Gambar 2. 17 Pengaturan Posisi Hyperplane. ............................................................ 39

Gambar 2. 18 Menentukan margin pada SVM ........................................................... 40

xiv

Gambar 4. 1 Confusion matrix validasi DTC. ............................................................ 62

Gambar 4. 2 Confusion matrix data tes DTC .............................................................. 62

Gambar 4. 3 Confusion matrix RFC. .......................................................................... 65

Gambar 4. 4 Confusion Matrix ABC .......................................................................... 68

Gambar 4. 5 Confusion Matrix Naive Bayes. .............................................................. 70

Gambar 4. 6 Confusion Matrix Gaussian Process Classifier Kernel RBF. ................ 73

Gambar 4. 7 Confusion Matrix GPC Kernel White Noise. ......................................... 73

Gambar 4. 8 Confusion Matrix GPC Kernel Ratinal Quadratic. ............................... 74

Gambar 4. 9 Confusion Matrix SVC Kernel RBF. ...................................................... 76

Gambar 4. 10 Confusion Matrix SVC Kernel Linear .................................................. 77

Gambar 4. 11 Confusion Matrix SVC Kernel Polinomial ........................................... 77

xv

DAFTAR GRAFIK

Grafik 4. 1 Akurasi Data Validasi dan Tes DTC Terhadap Jumlah Cabang. ............. 60

Grafik 4. 2 Grafik akurasi hasil validasi dan tes RFC................................................. 64

Grafik 4. 3 Grafik prediksi adaboost classifier. .......................................................... 66

Grafik 4. 4 Grafik tes ABC dengan jumlah estimator yang berubah. ......................... 67

xvi

DAFTAR TABEL

Tabel 3. 1 Alat dan Bahan Penelitian .......................................................................... 47

Tabel 3. 2 Data 60Co (80 detik) Sebelum Transpose ................................................. 52

Tabel 3. 3 Data 60Co (80 detik) Sesudah Transpose .................................................. 52

Tabel 4. 1 Tabel Akurasi Gaussian Process Classifier Dengan Beberapa Kernel ...... 71

Tabel 4. 2 Tabel Akurasi Support Vektor Classifier Dengan Beberapa Kernel ......... 75

Tabel 4. 3 Tabel Perbandingan Classifier. .................................................................. 79

1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Beberapa dekade terakhir, perkembangan ilmu pengetahuan mulai memasuki

era mesin yang dapat berpikir sendiri atau lebih dikenal dengan artificial intelligence

(AI). Dalam perkembangannya, sebuah AI harus melalui tahap pelatihan terlebih

dahulu, dengan menggunakan algoritma-algoritma yang biasa disebut dengan

machine learning [1]. Dengan menggunakan machine learning, sebuah AI dapat

memprediksi apakah seseorang dapat dikatakan menderita sakit atau tidak [2],

membedakan jenis bunga, bahkan untuk mengenali wajah seseorang (face

recognizing) dari database yang sudah dipelajari sebelumnya, perilaku inilah yang

diberi nama ‘pengklasifikasian’ [3].

Algoritma machine learning yang menjadi fondasi untuk melakukan

klasifikasi disebut dengan classifier. Sebuah classifier dapat dibuat dengan

menggunakan ilmu statistika untuk melakukan pengolahan dan manipulasi data. Pada

penelitian ini, beberapa algoritma classifier digunakan di bidang fisika terapan, yaitu

untuk memprediksi sebuah jenis inti radioaktif melalui eksperimen gamma

spektroskopi. [4].

Pada kasus tersebut, semua jenis classifier dapat digunakan. Akan tetapi,

klasifikasi yang dihasilkan memiliki akurasi yang berbeda-beda. Selain itu, kecepatan

2

proses klasifikasi juga berbeda. Perbedaan-perbedaan itulah membuat classifier

dipertandingkan antara satu dengan lainnya dengan tujuan untuk menentukan

classifier manakah yang cocok digunakan pada kasus tersebut [5].

Pada tahun 2018, terdapat beberapa penelitian mengenai perbandingan metode

machine learning untuk otomatisasi deteksi spektroskopi gamma. Penelitian ini

dilakukan oleh Mark Kamuda, dkk. dengan melakukan perbandingan antara beberapa

pola neural network [6]. Selain itu, pada tahun 2015 juga pernah dilakukan penelitian

tentang otomatisasi deteksi isotop pada limbah uranium dengan menggunakan sebuah

classifier oleh Haruhi Hata, dkk. [7]

Sci-Kit Learn atau lebih dikenal dengan nama sklearn adalah sebuah modul

untuk melakukan analisis data, penggalian data, serta machine learning. Pertama kali

dimulai pada tahun 2007 sebagai proyek Google Summer of Code oleh David

Cournapeau yang dilanjutkan oleh Fabian Pedregosa pada tahun 2010 dan

membuatnya menjadi public release [6].

Dengan menggunakan modul sklearn untuk memperoleh berbagai macam

algoritma classifier dalam penelitian ini menjadikan penulis melakukan perbandingan

classifier menjadi praktis dan mudah sehingga penulis tidak perlu membuat algoritma

sendiri dari lembaran kosong. Dengan alasan tersebut, penulis tertarik untuk

melakukan penelitian mengenai classifier dengan judul penelitian

“PERBANDINGAN AKURASI PREDIKSI DAN KECEPATAN PROSES ANTAR

3

CLASSIFIER MACHINE LEARNING UNTUK KLASIFIKASI SPEKTRUM

GAMMA 60Co, 22Na, 241Am, 137Cs, 90Sr”

1.2 Perumusan Masalah

Berdasarkan latar belakang di atas penulis dapat merumuskan masalah dalam

penelitian tersebut antara lain sebagai berikut;

1. Bagaimana cara melakukan perbandingan classifier dalam spektroskopi

gamma?

2. Bagaimana membangun sebuah program untuk membuat perbandingan

classifier?

3. Bagaimana performa dari akurasi dan kecepatan proses untuk setiap

classifier?

4. Classifier apa yang paling optimum?

1.3 Batasan Masalah

Agar penelitian ini tetap sesuai dengan rumusan masalah di atas, maka

penelitian ini diberikan batasan-batasan masalah sebagai berikut:

1. Penelitian hanya menggunakan classifier pada pustaka sklearn saja.

Classifier yang digunakan berupa Decision Tree Classifier, Random

Forest, AdaBoost Classifier, Naive Bayes Classifier, Gaussian Process

Classifier dan Support Vector Machine.

2. Penelitian dilakukan menggunakan program Jupyter Notebook.

4

3. Penelitian hanya membahas mengenai akurasi prediksi dan kecepatan

proses dari classifier.

4. Bahan radiasi yang digunakan hanya berupa 60Co, 22Na, 241Am, 137Cs,

90Sr.

1.4 Tujuan Penelitian

Berdasarkan latar belakang dan rumusan masalah di atas, maka tujuan dari

penelitian ini adalah:

1. Mengetahui akurasi dan performa prediksi untuk masing-masing

classifier.

2. Menganalisis perbandingan performa akurasi prediksi dan kecepatan

proses untuk setiap classifier.

3. Menentukan classifier dengan performa terbaik dalam menentukan bahan

radiasi.

1.5 Manfaat Penelitian

Penelitian ini dapat bermanfaat untuk otomasi penggolongan radiasi dari

bahan radioaktif yang belum diketahui jenis sumber bahannya. Diharapkan dengan

penelitian ini dapat dilakukan penggolongan yang cepat dan tidak perlu menggunakan

tenaga lebih seperti cara manual untuk menganalisis jenis radiasi bahan radioaktif.

5

Selain itu, penelitian ini juga bermanfaat untuk penelitian khususnya di

bidang komputer dan sains yaitu sebagai penelitian yang berhubungan dengan

classifier pada machine learning untuk melakukan pengklasifikasian data.

1.6 Sistematika Penulisan

Memberikan gambaran ringkas pada skripsi ini, peneliti membuat tulisan ini

menjadi lima bab. Adapun sistematika penulisan yang digunakan sebagai berikut:

BAB I PENDAHULUAN, berisi latar belakang, pembatasan masalah,

perumusan masalah, tujuan penelitian, manfaat penelitian, sistematika penulisan.

BAB II DASAR TEORI, berisi bab-bab yang mengandung dasar teori yang

mengandung tentang peluruhan radioaktif, spektroskopi gamma, machine learning,

klasifikasi, dan jenis-jenis classifier. Dasar teori ini nantinya akan menjadi acuan saat

penelitian berjalan.

BAB III METODE PENELITIAN, menjelaskan mengenai waktu dan

tempat penelitian, alat dan bahan yang digunakan, tahapan penyusunan, perancangan

dan metode analisis.

BAB IV HASIL PENELITIAN, menyajikan hasil penelitian berupa hasil

rancangan program, hasil prediksi klasifikasi, hasil perbandingan akurasi, dan

pembahasan mengenai hasil perbandingan tersebut.

6

BAB V PENUTUP, berisi tentang kesimpulan penelitian yang telah dilakukan dan

saran-saran yang diberikan oleh peneliti untuk penelitian berikutnya.

7

BAB II

DASAR TEORI

2.1 Peluruhan Radioaktif

Inti radioaktif merupakan sebuah inti atom yang bersifat tidak stabil.

Ketidakstabilan ini disebabkan oleh ketidakseimbangan antara partikel-partikel

penyusun atom seperti elektron dan proton. Oleh karena itu inti radioaktif yang tidak

stabil akan selalu memancarkan radiasi (radioaktif) dan meluruh menjadi inti yang

lebih stabil seiring berjalannya waktu [7].

2.1.1. Peluruhan Alfa

Peluruhan alfa merupakan bentuk paling umum dari peluruhan inti radioaktif.

Inti radioaktif akan meluruh dengan mengeluarkan kumpulan partikel-partikel

penyusun yang tetap. Hasil peluruhan ini akan menghasilkan produk inti baru dengan

tingkat kestabilan yang lebih tinggi. Ini adalah bentuk paling umum karena energi

ikat nuklir gabungan sangat tinggi dan massa partikel alfa yang relatif kecil [7].

Ilustrasi untuk peluruhan alfa adalah seperti pada Gambar 2. 1:

Gambar 2. 1 Peluruhan alfa dari inti radioaktif

8

Partikel alfa yang dihasilkan dari peluruhan tersebut merupakan inti Helium [8].

Peluruhan alfa merupakan salah satu contoh dari efek tunneling (terowong)

kuantum. Misalkan pada inti induk terdapat sebuah partikel alfa (kombinasi 2

elektron dan 2 proton). Saat partikel alfa melewati jari-jari inti R, ia merasakan

tolakan Coulomb dari inti anak. Energi potensial dalam situasi itu dapat dinyatakan

seperti pada Gambar 2. 2. Tinggi potensial halang dalam inti anak adalah 30 hingga 40

MeV. Khasnya, partikel alfa memiliki energi 4 hingga 8 MeV. Jadi, tidaklah mungkin

bagi partikel alfa untuk melewati penghalang ini; satu-satunya cara partikel alfa dapat

muncul keluar adalah dengan “menerowong” penghalang [9].

Gambar 2. 2 Peristiwa penerowongan oleh partikel alfa [9]

9

2.1.2. Peluruhan Beta

Dalam peluruhan beta, neutron dalam inti berubah menjadi proton (atau

sebaliknya). Nomor inti dan nomor proton berubah, namun massa inti tidak. Partikel

yang dipancarkan disebut sebagai partikel beta pada penemuannya tahun 1898, yang

kemudian diidentifikasi sebagai elektron [9]. Contoh yang paling sederhana adalah

peluruhan neutron

𝑛 → 𝑝 + 𝛽− 2. 1

Sejumlah percobaan peluruhan beta pertama kalinya mengungkapkan dua

kesulitan. Pertama, contoh pada persamaan 2. 1 terlihat melanggar hukum kekekalan

momentum sudut karena akan menghasilkan proton yang memiliki spin 1/2 [7]. Yang

kedua, pengukuran energi yang dipancarkan−spektrum elektron merupakan energi

kontinu, dari nol hingga suatu nilai maksimum Kmax, seperti yang diperlihatkan pada

Gambar 2. 3 [9].

Gambar 2. 3 Spektrum elektron dipancarkan dari peluruhan beta [9]

Dari peluruhan neutron pada persamaan 2. 1, energi elektron yang dikalkulasi

kontinu dari 0 – Kmax MeV. Akan tetapi, dalam eksperimen energi tersebut selalu

10

kurang dari Kmax MeV. Kejadian tersebut tampak seperti adanya “kehilangan” energi

dari peluruhan beta [9]. Pada tahun 1930, permasalahan ini dipecahkan oleh ilmuwan

bernama Wolfgang Pauli. Ilmuwan asal Italia tersebut menduga bahwa ada “partikel

ketiga” yang dipancarkan selain 𝑝 dan 𝛽−, yang kemudian disebut sebagai neutrino

dan menjadi solusi dari pelanggaran yang ditemukan pada peluruhan neutron [7].

Sehingga dengan adanya neutrino, yang dinotasikan sebagai 𝑣 mengubah peluruhan

tersebut menjadi

𝑛 → 𝑝 + 𝛽− + �̅� 2. 2

2.1.3. Radiasi Gamma

Bersamaan dengan peluruhan alfa dan beta, keadaan inti terakhir mungkin

akan berada pada keadaan tereksitasi. Sama seperti atom lain pada umumnya, inti

tersebut akan menuju ke ground state setelah memancarkan satu foton lagi, yaitu

sinar gamma [9] seperti yang ditunjukkan pada Gambar 2. 4.

11

Gambar 2. 4 Sinar gamma dipancarkan mengikuti peluruhan beta [9].

Normalnya sinar gamma akan dipancarkan sesaat setelah inti berada pada

keadaan tereksitasi. Kita juga dapat membedakan spektroskopi gamma dengan

spektrum optik atom [7].

2.2. Spekstroskopi Gamma

Spektroskopi gamma adalah pembelajaran kuantitatif mengenai spektrum

energi dari sumber radiasi gamma, seperti industri nuklir, investigasi geotermal, dan

astrofisika. Karena tingginya energi foton yang dimiliki sinar gamma, maka energi

gamma dapat diselesaikan secara individual, dan spektrometer sinar gamma dapat

mengukur dan menampilkan energi-energi dari foton gamma yang terdeteksi [10].

Deteksi dan Akuisisi Data

Detektor spektroskopi gamma adalah benda pasif yang bisa berinteraksi

dengan radiasi gamma yang datang. Mekanisme yang digunakan antara lain adalah

12

efek fotolistrik, efek Compton, dan produksi kembar [10]. Pada proses tersebut,

energi gamma diserap dan diubah ke dalam bentuk sinyal tegangan dengan

mendeteksi perbedaan energi sebelum dan sesudah interaksi (pada pencacah sintilasi,

menggunakan fotomultiplier). Tegangan sinyal yang dihasilkan proporsional terhadap

energi sinar gamma yang dideteksi. Jenis material yang umum digunakan pada

spektroskopi gamma adalah pencacah sintilasi NaI (Natrium Iodida) [10].

Data radiasi yang telah diubah menjadi sinyal tegangan akan dianalisa

menggunakan multichannel analyzer (MCA). Alat tersebut mengambil tegangan

sementara dalam bentuk gaussian. Dari sini, data diubah ke dalam bentuk digital

menggunakan konverter analog ke digital (ADC). ADC juga mengurutkan pulsa

sinyal menjadi beberapa channel yang masing-masing channel-nya mewakili

tingkatan energi tertentu, dan nomor sinyal terdeteksi merepresentasikan intensitas

radiasi yang masuk pada tingkat energi tersebut. Dengan mengganti nilai channel dari

MCA, pengguna dapat memungkinkan untuk mengatur resolusi dan sensitivitas

scintilator [11]. Adapun hasil spektrum gamma yang gunakan dapat dilihat pada

Gambar 2. 5 sampai Gambar 2. 9 di bawah ini:

13

Gambar 2. 5 Spektra Energi Co60. Puncak gamma berada pada energi 1154.4 keV.

Gambar 2. 6 Spektra Energi Na22. Puncak gamma berada pada energi 455.5 keV.

14

Gambar 2. 7 Spektra energi Am241. Puncak gamma berada pada energi 59.5 keV

Gambar 2. 8 Spektra energi Cs137. Puncak gamma berada pada energi 595.3 keV.

15

Gambar 2. 9 Spektra Energi Sr90. Puncak gamma berada pada energi 94.4 keV.

2.3. Machine Learning

Machine Learning adalah pembangunan sebuah model matematika untuk

membantu memahami data. Kata ‘Learning’ dimasukkan apabila model tersebut

diberikan parameter yang dapat disesuaikan dengan data yang diamati; yang

dikatakan bahwa program dapat dianggap “belajar” dari data. Sesaat setelah model

cocok dengan data yang sudah diamati sebelumnya, mereka dapat digunakan untuk

memprediksi dan mengerti aspek-aspek dari data yang baru didapat [1,5].

Pada dasarnya, Machine Learning dapat dibagi menjadi dua kategori utama,

yaitu: supervised learning dan unsupervised learning [5]. Supervised learning

melibatkan bagaimana model dapat dihubungkan dengan fitur-fitur terukur dan

beberapa label yang terkait dengan data; setelah model ini ditentukan, model dapat

digunakan untuk menentukan label terhadap data yang baru dan belum pernah

16

terlihat. Model ini kemudian dapat dibagi kembali menjadi dua bagian yang baru,

yaitu: klasifikasi dan regresi.

Unsupervised learning melibatkan model untuk bergerak sendiri tanpa

referensi. Jika dengan supervised learning mesin dibantu dengan kemungkinan

variabel keluaran data sebenarnya, maka model ini memberikan mesin sebuah data

untuk diproses tanpa bantuan dari variabel keluaran data. Model ini mencakup tugas-

tugas seperti pengelompokan (clustering) dan pengurangan dimensi (dimensionality

reduction) [12].

2.4. Klasifikasi

Klasifikasi (classification) termasuk ke dalam kategori supervised learning

yang tujuan utamanya adalah untuk memprediksi sebuah class label, yang merupakan

pilihan dari daftar kemungkinan yang sudah ditentukan sebelumnya. Klasifikasi

terkadang dipisahkan menjadi binary classification, yang merupakan

pengklasifikasian khusus untuk melenyapkan antara tepat dua kelas yang berbeda.

Sementara klasifikasi lainnya, adalah multiclass clasification yang digunakan untuk

menentukan klasifikasi data yang memiliki lebih dari dua kelas [13].

Dalam menentukan klasifikasi biner, klasifikasi hanya menghasilkan 2 kelas

saja, seperti pada contoh “Apakah radiasi ini bersumber dari 60Co atau 22Na?”.

Perbedaan pada kedua jenis klasifikasi dapat dilihat pada Gambar 2. 10 di bawah ini:

17

Gambar 2. 10 Perbedaan klasifikasi biner (kiri), dengan klasifikasi banyak kelas (kanan). [15]

Model klasifikasi termasuk ke dalam model diskrit. Model diskrit yang berarti

hanya dapat memiliki kelas tertentu setelah data terklasifikasi. Sehingga, hasil

keluaran klasifikasi akan bersifat jelas dan tidak seperti model regresi yang bersifat

kontinu-yang salah satu variabelnya bergantung dengan variabel lainnya [15].

Untuk mencocokan kelas, algoritma akan membantu mesin untuk mengetahui

kelasnya masing-masing dengan menggunakan parameter-parameter tertentu yang

dimasukkan ke dalam model matematika untuk diketahui probabilitas tertinggi pada

suatu kelas untuk menentukan kelayakan suatu data terhadap kelas tersebut [3]. Di

bawah ini merupakan beberapa contoh algoritma classifier yang digunakan dalam

penelitian ini.

2.4.1. Decision Tree Classifier

Decision Tree Classifier (DTC) merupakan algoritma yang membentuk

sebuah pohon penentuan (decision tree). Prinsip utamanya adalah dengan

mempertanyakan setiap target variabel dengan ‘yes’ atau ‘no’ dan

mendistribusikannya menjadi sebuah pohon. Tujuannya adalah untuk menciptakan

18

model yang dapat memprediksi hasil/nilai dari variabel target dengan pembelajaran

sederhana yang disimpulkan dari fitur-fitur data [16].

Bentuk dari classifier ini menyerupai diagram alir pada diagram yang

menampilkan kondisi ya/tidak ataupun betul/salah. Contoh bentuk DTC dapat dilihat

pada Gambar 2. 12 dan Gambar 2. 12 di bawah ini:

Gambar 2. 11 Contoh diagram Decision Tree Classifier biner, melakukan klasifikasi isotop Am-241

dan Na-22.

19

Gambar 2. 12 Contoh Diagram Decision Tree Classifier multiclass, melakukan klasifikasi untuk 4 jenis

isotop.

Decision tree classifier memiliki sebuah bagian yang disebut node.

Node dipisahkan menjadi root node, yang merupakan node akar dan menempati

bagian paling atas diagram. Leaf node, yang merupakan node daun/akhir untuk

menentukan kelas data hasil prediksi. Untuk node yang bagian tengah, tidak ada

sebutan khusus atau biasa dianggap sebagai node ranting [14].

Menentukan node akar

Dalam membuat sebuah decision tree, diperlukan pekerjaan untuk

menentukan variabel manakah yang cocok untuk dijadikan node akar. Penentuan ini

dapat diketahui dengan menghitung nilai kekeruhan (impuritas) pada setiap variabel

dengan prediksi hasil pada praproses. Untuk menghitung nilai impuritas, dapat

menggunakan persamaan Gini impurity [14]

𝐼𝐺 = 1 − ∑𝑝𝑖2

𝐽

𝑖=1

2. 3

20

Dengan J merupakan jumlah kelas dan 𝑖 = {1, 2, … , 𝐽}. Sementara 𝑝𝑖 adalah

probabilitas untuk setiap nilai i.

Karena dalam setiap cabang decision tree memiliki dua kemungkinan/daun,

maka untuk mengetahui impuritas sebenarnya dari variabel tersebut dapat diketahui

dengan menghitung rata-ratanya. Jika jumlah kedua prediksi tidak sama, maka perlu

menggunakan rata-rata yang diberatkan.

�̅� =

∑ 𝑤𝑖𝑥𝑖𝑛𝑖=1

∑ 𝑤𝑖𝑛𝑖=1

2. 4

Dengan 𝑤𝑖adalah pemberat yang didapat dari perbandingan jumlah sampel

pada masing-masing daun dan 𝑥𝑖 merupakan nilai Gini pada setiap daun. Jika jumlah

sampel pada kedua daun adalah sama, maka cukup menggunakan perhitungan rata-

rata yang biasa saja.

�̅� =1

𝑛∑𝑥𝑖

𝑛

𝑖=1

2. 5

Node akar akan ditentukan kepada variabel yang memiliki nilai rata-

rata Gini terkecil. Karena nilai Gini berbanding terbalik dengan impuritas, maka

variabel dengan nilai Gini terendah berarti memiliki impuritas yang lebih baik [14].

21

Menentukan percabangan dan node daun/akhir

Untuk menentukan percabangan dan node daun dapat melakukan hal yang

sama seperti dalam menentukan node akar. Menggunakan variabel dengan nilai gini

terendah untuk dijadikan cabang selanjutnya. Akan tetapi, perbedaannya terdapat

pada jumlah data yang diproses. Jumlah data yang diproses tidak semua melainkan

hasil prediksi dari variabel sebelumnya [14].

Contoh:

Ketika variabel E 59,5 > 2000 memprediksi 110 sampel spektrum menyatakan

“Ya!” dan 125 sampel spektrum menyatakan “Tidak!” dengan menggunakan total

235 sampel, maka untuk menentukan ranting pada cabang variabel selanjutnya

hanya menggunakan 110 atau 125 sampel saja. Tidak perlu semua sampel.

Contoh bisa dilihat pada Gambar 2. 13 berikut:

Gambar 2. 13 Menentukan Node Cabang dan Akar

22

Pada kedua contoh tulisan dan Gambar 2. 13 di atas, dapat diketahui bahwa

semakin panjang ranting pohon, maka jumlah sampel spektrum yang diproses untuk

diprediksi akan menjadi lebih sedikit untuk setiap variabel energi. Ini dinamakan

penyempitan variasi sehingga hasil akhir menjadi lebih akurat akibat bantuan dari

prediksi variabel energi sebelumnya.

Sementara untuk menentukan apakah node perlu dicabangkan kembali atau

menjadi node daun dapat ditentukan dengan menggunakan Gini impurity seperti

sebelumnya dengan kondisi, jika nilai Gini menjadi lebih besar setelah dicabangkan,

maka lebih baik tidak perlu dicabangkan [14].

Keuntungan yang didapat dari menggunakan algoritma decision tree ada

beberapa, di antaranya:

Mudah dimengerti dan diinterpretasikan. Diagram dapat

divisualisasikan

Membutuhkan sedikit persiapan data.

Dapat menangani data kategori maupun numerik.

Dapat menangani banyak hasil keluaran.

Dapat berfungsi walaupun data dimanipulasi.

Dengan teknik tertentu, classifier ini dapat menganalisa data yang

hanya memiliki satu variabel data [1].

23

Walaupun demikian, terdapat pula kerugian dalam menggunakan classifier

ini, di antaranya:

Algoritma pembelajaran ini dapat menciptakan sebuah pohon over-

kompleks yang dapat membuat data tidak dapat disimpulkan dengan

baik, biasa disebut overfitting.

Decision tree dapat menjadi tidak stabil karena variasi data yang

rendah dapat menghasilkan bentuk pohon yang jauh berbeda.

Sangat sulit untuk memproses konsep logika yang berat, seperti

‘exclusive or’ (XOR).

Membutuhkan praproses data seperti penyeimbangan dataset untuk

menghilangkan pohon bias karena dominansi suatu klasifikasi [17].

2.4.2. Random Forest Classifier

Random Forest Classifier merupakan sebuah algoritma terkumpul (ansambel)

yang menggunakan beberapa model dari decision tree classifier untuk dikumpulkan

menjadi satu classifier yang lebat [18], seperti hutan yang dicontohkan oleh Gambar 2.

14 di berikut:

24

Gambar 2. 14 Diagram Algoritma Random Forest Classifier.

Bootstrapping and aggregating data (Bagging)

Dalam membuat pohon pada algoritma random forest dapat dibuat dengan

melakukan bootstrapping. Bootstrap atau pemilihan kembali dilakukan untuk

membuat data baru yang bersifat sementara dan membentuk pohon menjadi terlihat

‘acak’ pada setiap jenisnya. Pohon yang dimaksud adalah decision tree yang

melakukan prediksi pada masing-masing data sesuai pekerjaannya. Dalam proses

bootstrap, setiap sampel memiliki peluang yang sama untuk dapat dipilih pada proses

bootstrap [13]

𝑃𝑖 =

1

𝑁

2. 6

Dengan 𝑃𝑖 merupakan peluang sampel terpilih, dan 𝑁 adalah jumlah data.

Membuat decision tree pada masing-masing data bootstrap, jumlah variabel

yang menjadi akar dan cabang tidak ditentukan dengan impuritas, melainkan dengan

memilih acak variabel dari kelompok variabel yang juga dipilih acak baik jumlah dan

25

variabelnya. Untuk jumlah variabel, biasanya menggunakan √𝑦 dengan y adalah

jumlah variabel dan beberapa nilai di atas atau di bawahnya untuk dibandingkan

tingkat akurasinya [19].

Out-of-bag samples

Saat melakukan bootstrapping, ada kemungkinan beberapa sampel untuk

terpilih lebih dari sekali. Dengan kata lain, ini memungkinkan pula untuk beberapa

sampel tidak terpilih yang disebut ‘out-of-bag’ [20]. Pada umumnya, kemungkinan

untuk sampel tidak terpilih pada setiap data adalah sebagai berikut

𝐷 ≈

1

3𝑁

2. 7

Di mana D merupakan jumlah data ‘out-of-bag’ untuk setiap satu set data.

Data ini dapat diprediksi ulang menggunakan voting terbanyak dari setiap pohon

yang telah dibuat dan diperiksa kebenarannya [21].

Dengan menggunakan data ‘out-of-bag’, akurasi atau rasio error dari random

forest dapat dihitung dengan menggunakan rasio error prediksi sementara data ‘out-

of-bag’

𝑧 =1

𝑁∑𝑠𝑐(𝑇)𝑗

𝑁

𝑗=1

2. 8

26

Di mana z adalah rata-rata error ‘out-of-bag’ untuk 𝑠𝑐(𝑇)𝑗 adalah setiap

sampel yang salah klasifikasi dalam pohon yang memiliki sampel 𝑠𝑐(𝑇)𝑗 sebagai

sampel ‘out-of-bag’-nya [13]. Sehingga, akurasi yang dimiliki oleh sebuah algoritma

ini dapat dihitung dengan

𝐴𝑐𝑐 = 1 − 𝑧 2. 9

Iterasi ini dapat dilakukan berulang kali sesuai dengan parameter yang

memungkinkan untuk algoritma random forest memiliki akurasi terbaik.

2.4.3. AdaBoost Classifier

AdaBoost, atau Adaptive Boosting adalah sebuah algoritma metaheuristik

yang merupakan algoritma tingkat tinggi untuk menyelesaikan sebuah masalah

khusus. Algoritma ini dapat digunakan konjungsi dengan algoritma lainnya (terutama

yang lemah) untuk meningkatkan hasil keluaran yang didapat. Prinsip dasar dari

AdaBoost Classifier adalah untuk meningkatkan kualitas dari weak learner (seperti

decision tree) [13] dengan beberapa data yang dimodifikasi berulang kali seperti pada

Gambar 2. 15 di bawah ini:

27

Gambar 2. 15 Contoh Penggabungan Beberapa Classifier Menjadi Satu. [13]

Keluaran dari weak learner akan digabungkan menjadi satu untuk

mempresentasikan keluaran final dari satu classifier yang telah ditingkatkan (boosted)

seperti pada Gambar 2. 15 di atas [13]. Karena sifatnya yang adaptif, kesalahan yang

dilakukan oleh weak learner dalam menentukan klasifikasi sebelumnya dapat

diperbaiki dengan menggunakan contoh-contoh sebelumnya. AdaBoost sensitif

terhadap derau dan outliers membuatnya dalam beberapa kasus menjadi kurang peka

terhadap masalah overfitting seperti algoritma lainnya [22].

AdaBoost memiliki tiga ide utama, yaitu:

AdaBoost menggabungkan banyak weak learner untuk menentukan

klasifikasi, weak learner yang dimaksud biasanya disebut stumps.

Beberapa stumps memiliki kekuatan voting yang lebih besar

ketimbang lainnya.

28

Setiap stumps dibentuk dengan mempertimbangkan kesalahan yang

dibuat oleh stumps sebelumnya [13].

Untuk menggunakan algoritma AdaBoost, diperlukan sebuah hipotesis dari

weak learner dalam bentuk Gini [13]

𝑓𝐼𝐺 = 1 − ∑𝑝𝑖2

𝑁

𝑖=1

2. 10

Di mana setiap 𝑓𝐼𝐺 merupakan weak learner yang melakukan prediksi yang

menghasilkan impuritas Gini 𝐼𝐺 untuk kemudian dicari rasio kesalahannya. Hasil

keluaran yang memiliki impuritas Gini terkecil akan terlebih dahulu untuk dihitung

kekuatan votingnya [22]

𝛼𝑚 =

1

2ln (

1 − 𝜖𝑚

𝜖𝑚)

2. 11

Dengan 𝜖𝑚 merupakan rasio kesalahan. Rasio kesalahan dengan kekuatan

voting memiliki rentang nilai antara 0 hingga 1, namun berbanding terbalik. Jika rasio

kesalahan besar, maka kekuatan voting yang dimiliki tidak besar dan tidak akan

berpengaruh terhadap klasifikasi lainnya. Rasio kesalahan pada persamaan (2. 11)

dapat diketahui melalui persamaan berikut [13]

29

𝜖𝑚 = ∑𝑤𝑖

𝑗

𝑖=1

2. 12

Dengan 𝜖𝑚 adalah total berat weight pada setiap data 𝑖 = 1, 2,… , 𝑗 data yang

salah prediksi [13].

Dalam menentukan klasifikasi, AdaBoost memiliki pemberatan (weighting)

untuk melakukan perhitungan kesalahan yang dilakukan oleh weak learner. Pada

awalnya, nilai pemberat w berlaku untuk semua data dapat dihitung dengan formula

𝑤𝑖 = 1/𝑁 2. 13

Dengan N adalah Jumlah data yang akan diklasifikasi [22]. Catat bahwa jika

nilai pemberat dijumlah, maka totalnya akan menghasilkan nilai 1 [13].

Setelah kekuatan voting dari stump pada weak learner diketahui, nilai

pemberat untuk kesalahan yang dilakukan oleh stump dengan kekuatan voting

terbesar dapat diketahui dengan persamaan

𝑤𝑖,𝑡+1 = 𝑤𝑖 × 𝑒𝛼𝑚 2. 14

Sementara itu, untuk yang lainnya dalam satu kelas yang sama dapat

membalik nilai eksponen sehingga didapat

𝑤𝑖,𝑡+1 = 𝑤𝑖 × 𝑒−𝛼𝑚 2. 15

30

Untuk 𝛼𝑚 adalah kekuatan voting stump yang terbesar [13].

Dengan nilai pemberat yang baru, nilai pemberat pada persamaan dapat

dinormalisasi untuk menjadikan total pemberat menjadi bernilai 1 kembali dengan

melakukan pembagian nilai pemberat saat ini dengan total pemberat saat ini [13]

𝑤𝑖(𝑛𝑜𝑟𝑚) = 𝑤𝑖

∑ 𝑤𝑖𝑖 2. 16

Dilakukan pada setiap sampel klasifikasi untuk digunakan sebagai

pertimbangan untuk melakukan hipotesis selanjutnya [22].

Pada algoritma AdaBoost, terdapat metode untuk memodifikasi data sehingga

menjadi data yang baru dan minim kesalahan seperti bagging pada Random Forest.

Metode ini dapat digunakan dengan menjalankan nilai acak ke dalam data untuk

memperoleh sampel yang akan dimasukkan ke dalam data baru. Untuk setiap

pemberat data, data yang memiliki pemberat terbesar akan memiliki peluang untuk

digunakan oleh data baru. Peluang untuk data tersebut diperoleh adalah

𝑃𝑖 =𝑤𝑖

∑ 𝑤𝑖𝑖 2. 17

Dengan,

𝑃𝑖 = peluang sampel 𝑖 terpilih

𝑤𝑖 = berat dari sampel 𝑖.

31

Data hasil bagging tersebut akan digunakan sebagai data pengganti untuk

meningkatkan (boosting) hasil klasifikasi yang telah dilakukan oleh para stumps.

Karena data dengan berat terbesar memiliki kemungkinan terpilih oleh kejadian acak

lebih dari sekali, maka data yang sama tersebut akan diberlakukan sebagai satu blok

besar sampel saja. Sementara itu, proses dilakukan dari awal kembali dengan

menggunakan data hasil bagging.

Pengklasifikasian

AdaBoost melakukan klasifikasi data berdasarkan jumlah dari kekuatan

voting pada masing-masing prediksi klasifikasi sampel. Jumlah kekuatan voting yang

terbesar akan dipilih untuk melakukan klasifikasi pada sampel tersebut [13].

2.4.4. Naive Bayes Classification

Algoritma yang menggunakan aturan-aturan berdasarkan keadaan data yang

dipaparkan. Sehingga, tidak ada modifikasi khusus yang dilakukan algoritma

terhadap data [14]. Dalam algoritma ini terdapat aturan Bayes yang meliputi

probabilitas klasifikasi data yang telah diketahui untuk mengetahui probabilitas data

yang belum diketahui menggunakan

𝑃(𝑋|𝑌) =

𝑃(𝑋 ∩ 𝑌)

𝑃(𝑌)

2. 18

32

Untuk probabilitas 𝑃(𝑋|𝑌) = 𝑃(𝐵𝑢𝑘𝑡𝑖|𝐻𝑎𝑠𝑖𝑙) yang sudah diketahui (apriori)

dari data latihan [14], dan

𝑃(𝑌|𝑋) =

𝑃(𝑋 ∩ 𝑌)

𝑃(𝑋)

2. 19

Untuk probabilitas 𝑃(𝑌|𝑋) = 𝑃(𝐻𝑎𝑠𝑖𝑙|𝐵𝑢𝑘𝑡𝑖) yang belum diketahui

(posteriori) untuk memprediksi data tes [14]. Jika kedua formula (2. 18) dan (2. 19)

diturunkan, maka akan mendapatkan

𝑃(𝑋|𝑌) =

𝑃(𝑋 ∩ 𝑌)

𝑃(𝑌)

𝑃(𝑋 ∩ 𝑌) = 𝑃(𝑋|𝑌)𝑃(𝑌)

𝑃(𝑌|𝑋) =

𝑃(𝑋|𝑌)𝑃(𝑌)

𝑃(𝑋)

2. 20

Persamaan (2. 20) disebut sebagai ‘aturan Bayes’ [14].

Aturan Bayes tersebut dapat memberikan rumus untuk probabilitas Y yang

diberikan oleh variabel X. Akan tetapi, dalam kasus yang sebenarnya sering kali

terdapat berbagai macam variabel X. Karena itulah, aturan Bayes dapat diperluas

menjadi apa yang disebut sebagai Naive Bayes. Dikatakan ‘naive’ karena setiap

variabel X akan diasumsikan independen satu sama lain secara naif [14]

33

𝑃(𝑌|𝑋) =

𝑃(𝑋|𝑌)𝑃(𝑌)

𝑃(𝑋)

𝑃(𝑌 = 𝑘|𝑋) =

𝑃(𝑋|𝑌 = 𝑘)𝑃(𝑌 = 𝑘)

𝑃(𝑋)

2. 21

Di mana k merupakan kelas dari Y. Jika aturan Bayes memiliki beberapa

variabel X, maka

𝑃(𝑌 = 𝑘|𝑋1 …𝑋𝑛)

=𝑃(𝑋1|𝑌 = 𝑘) ∗ 𝑃(𝑋2|𝑌 = 𝑘)…∗ 𝑃(𝑋𝑛|𝑌 = 𝑘) ∗ 𝑃(𝑌 = 𝑘)

𝑃(𝑋1) ∗ 𝑃(𝑋2)… ∗ 𝑃(𝑋𝑛)

2. 22

Atau

𝑃(𝑌 = 𝑘|𝑋1 …𝑋𝑛) =

𝑃(𝑌 = 𝑘)∏ 𝑃(𝑋𝑖|𝑌 = 𝑘)𝑛𝑖=1

𝑃(𝑋1, 𝑋2, … , 𝑋𝑛)

2. 23

Persamaan inilah yang disebut sebagai Naive Bayes [14, 24].

Karena nilai 𝑃(𝑋1, 𝑋2, … , 𝑋𝑛) pada setiap kelas adalah sama, maka bagian

bawah persamaan dapat dihilangkan menjadi

𝑃(𝑌 = 𝑘|𝑋1 …𝑋𝑛) = ∝ 𝑃(𝑌 = 𝑘)∏ 𝑃(𝑋𝑖|𝑌 = 𝑘)

𝑛

𝑖=1

2. 24

Persamaan (2. 24) merupakan persamaan Naive Bayes yang disederhanakan.

Dengan asumsi bahwa hasil yang ditimbulkan dari setiap kejadian adalah berbeda,

34

atau yang biasa disebut conditional independence. Notasi 𝛼 pada persamaan (2. 24)

merupakan normalization factor dari Naive Bayes untuk menyamakan probabilitas

apriori dengan posteriorinya [14].

Normalisasi Gaussian dapat dimuat ke dalam persamaan Naive Bayes. Untuk

menggunakannya, hanya memerlukan rata-rata dari variabel X dan variasinya saja,

sehingga

𝑃(𝑋|𝑌 = 𝑘) =

1

√2𝜋𝜎𝑘2𝑒

−(𝑥−𝜇𝑘)2

2𝜎𝑐2

2. 25

Di mana 𝜇 dan 𝜎2 merupakan rata-rata dan variasi dari variabel X yang

dihitung probabilitasnya untuk terjadi di Y pada kelas ‘k’ [14].

2.4.5. Gaussian Process Classifier

Gaussian Process Classifier (GPC) memanfaatkan proses Gaussian untuk

melakukan klasifikasi data dan memberikan prediksi dari probabilitas setiap sampel.

GPC memberikan proses Gaussian sebelum fungsi laten f, yang mana kemudian akan

ditimpa dengan fungsi sigmoid 𝜎(𝑓(𝑥)) untuk memperoleh klasifikasi probabilistik

untuk kelas 𝑘 seperti pada persamaan 2. 26

𝑝(𝑌 = 𝑘|𝑓) = 𝜎(𝑓) 2. 26

Dimana 𝜎(𝑓) adalah fungsi logistik atau probit sigmoid [23]

35

Fungsi laten f merupakan sekedar fungsi gangguan yang nilainya tidak

teramati dan tidak relevan dengan sendirinya. Tujuannya hanyalah untuk

memungkinkan formulasi yang bagus saja, dan fungsi f tersebut akan terbuang saat

melakukan prediksi [23].

Pendekatan Laplace untuk banyak kelas

Untuk nilai fungsi laten setiap vektor kelas C didapat sebagai berikut:

𝒇 = (𝑓11, … , 𝑓𝑛

1, 𝑓12, … , 𝑓𝑛

2, 𝑓1𝐶 , … , 𝑓𝑛

𝐶 ) 2. 27

Demikian f memiliki panjang sejauh 𝐶𝑛. Saat menyelesaikan kasus dengan

banyak kelas, perlu menggunakan fungsi softmax [23]. Untuk menentukan nilai

softmax 𝑦𝑖 untuk setiap kelas C dalam variabel f dapat menggunakan persamaan

berikut

𝑃(𝑦𝑖

𝐶|𝒇𝑖) = 𝜋𝑖𝑐 =

𝑒𝑓𝑖𝑐

∑ 𝑓𝑖𝑐

𝑐′

2. 28

Di mana 𝜋𝑖𝑐merupakan denotasi dari output softmax. Kemudian 𝝅 akan

memiliki panjang vektor yang sama dengan f dengan entri 𝜋𝑖𝑐 [23].

Fungsi Kernel

36

Fungsi kernel atau fungsi kovarian dapat membantu menyelesaikan masalah

dalam pengklasifikasian data. Dalam algoritma gaussian process, terdapat beberapa

kernel penolong, di antaranya:

Konstan: 𝐾𝐶(𝑥, 𝑥′) = 𝐶

Linear: 𝐾𝐿(𝑥, 𝑥′) = 𝑥𝑇𝑥′

White Gaussian Noise: 𝐾𝐺𝑁(𝑥, 𝑥′) = 𝛿𝑥,𝑥′

Radial Based: 𝐾𝑅𝐵𝐹(𝑥, 𝑥′) = 𝑒(−

1

2𝑑(

𝑥

𝑙,𝑥′

𝑙)2

), 𝑙 > 0

Rational Quadratic: 𝐾𝑅𝑄(𝑥, 𝑥′) = (1 +𝑑(𝑥,𝑥′)

2

2𝛼𝑙2)−𝛼, 𝛼 > 0, 𝑙 > 0

Dimana 𝑙 merupakan konstanta lenght scale yang dapat diparameterkan pada

fungsi kovarian. Sementara 𝛼 merupakan konstanta scale mixture yang juga dapat

diparameterkan pada fungsi kovarian [23].

Dalam penggunaan gaussian process pada pengerjaan machine learning,

kernel-kernel tersebut akan dimasukkan ke dalam sebuah fungsi Marginal Likelihood

untuk memperoleh probabilitas [23].

Log Marginal Likelihood

Log marginal likelihood menunjukkan kualitas dari suatu data training untuk

menentukan prediksi bagi data yang belum terlihat sebelumnya [23]. Persamaan log

marginal likelihood diberikan oleh persamaan probabilitas

37

log 𝑝(𝑓(𝑥)|𝑥) = −

1

2𝑓(𝑥)𝑇𝐾(𝑥, 𝑥′)−1𝑓(𝑥′) −

1

2log det(𝐾(𝑥, 𝑥′))

−𝑛

2log 2𝜋

2. 29

Untuk n adalah jumlah data dan 𝑓(𝑥) adalah fungsi laten yang dikalikan

dengan fungsi kovarian K. Karena bentuk dari log marginal likelihood yang

berbentuk probabilitas perkalian (product), maka semakin tinggi nilainya semakin

baik kualitasnya [24].

2.4.6. Support Vector Machine

Support Vector Machine (SVM) dikembangkan oleh Boser, Guyon, Vapnik,

dan pertama kali dipresentasikan pada tahun 1992 di Annual Workshop on

Computational Learning Theory. SVM menggunakan teknik dari teori-teori

komputasi seperti margin hyperplane, kernel, dan teori pendukung lainnya untuk

menentukan klasifikasi suatu data [25]. Cara SVM untuk menentukan klasifikasi

dapat dilihat pada Gambar 2. 16 berikut:

38

Gambar 2. 16 SVM membentuk hyperplane yang memisahkan kedua class –1 dan +1 [14]

Secara formal, prinsip kerja SVM adalah membuat sebuah atau sekumpulan

hyperplane pada dimensi tinggi atau bahkan tak hingga untuk menentukan klasifikasi,

regresi, maupun tindakan lain seperti mendeteksi outliers. Secara intuitif, pemisahan

yang baik dicapai oleh hyperplane yang memiliki jarak terbesar ke titik-data pelatihan

terdekat dari setiap kelas (disebut functional margin), karena secara umum semakin

besar margin, semakin rendah kesalahan generalisasi dari classifier [14].

Linear SVM

Dalam SVM, kernel dasar yang dimiliki adalah linear. Kernel ini dapat

digunakan untuk kumpulan data yang dapat dipisahkan menggunakan aljabar linier

secara langsung. Jika data yang diamati memiliki nilai sebagai berikut:

(𝑥1⃑⃑ ⃑, 𝑦1),… , (𝑥𝑖⃑⃑ ⃑, 𝑦𝑖) 2. 30

39

Di mana 𝑦𝑖 bernilai 1 atau -1, yang masing-masing mengindikasikan kelas

dari 𝑥𝑖⃑⃑ ⃑. Setiap 𝑥𝑖⃑⃑ ⃑ adalah vektor riil berdimensi p. Dari sini setiap data tersebut dapat

dicari nilai margin maksimum yang memisahkan antara grup 𝑥𝑖⃑⃑ ⃑ yang memiliki nilai

𝑦𝑖 = 1 dan grup 𝑥𝑖⃑⃑ ⃑ yang memiliki nilai 𝑦𝑖 = −1 sehingga jarak antara kedua grup

dapat terpisah secara maksimum untuk dibentuk sebuah hyperplane [14] seperti yang

dapat dilihat pada Gambar 2. 17 berikut:

Gambar 2. 17 Pengaturan Posisi Hyperplane. [Sumber: https://en.wikipedia.org/wiki/Support-

vector_machine]

Setiap hyperplane dalam garis linier dapat dituliskan sebagai berikut:

�̅�𝑇. �̅� + 𝑏 = 0 2. 31

Dan untuk pola data yang memiliki kelas -1 (kelas negatif) dapat dirumuskan:

�̅�𝑇. �̅� + 𝑏 = −1 2. 32

40

Sementara untuk pola data kelas +1 (kelas positif):

�̅�𝑇. �̅� + 𝑏 = 1 2. 33

Untuk menemukan margin terbesarnya, dapat dilakukan dengan melihat jarak dari

dua titik terdekat pada setiap kelas (Gambar 2. 18)

Gambar 2. 18 Menentukan margin pada SVM [14]

Dengan melihat bahwa setiap poin adalah vektor, maka didapat:

𝑥2̅̅ ̅ − 𝑥1̅̅̅ = 𝑡�̅�

𝑥2̅̅ ̅ = 𝑥1̅̅̅ + 𝑡�̅� 2. 34

41

Kemudian, substitusi persamaan 2. 33 dengan persamaan 2. 35

�̅�𝑇. 𝑥2̅̅ ̅ + 𝑏 = 1

�̅�𝑇. (𝑥1̅̅̅ + 𝑡�̅�) + 𝑏 = 1

(�̅�𝑇. 𝑥1̅̅ ̅ + 𝑏) + 𝑡‖�̅�‖2 = 1 2. 35

Melihat persamaan 2. 32, maka persamaan 2. 35 menjadi

(�̅�𝑇. 𝑥1̅̅ ̅ + 𝑏) + 𝑡‖�̅�‖2 = 1

−1 + 𝑡‖�̅�‖2 = 1

𝑡 =

2

‖�̅�‖2

2. 36

Jarak antara 𝑥1 dan 𝑥2 adalah panjang dari segmen t; maka didapat

𝑑(𝑥1̅̅̅, 𝑥2̅̅ ̅) = 𝑡‖�̅�‖ =

2

‖�̅�‖

2. 37

Dengan mempertimbangkan seluruh titik poin dari dataset asli, kita dapat

menentukan persamaan constraint-nya

𝑦𝑖(�̅�𝑇 . 𝑥�̅� + 𝑏) ≥ 1, ∀(𝑥�̅�, 𝑦𝑖) 2. 38

42

Pada beberapa kasus, persamaan 2. 38 dapat menghasilkan model yang sangat

kuat, namun dalam sekian banyak dataset, ini juga bisa jadi batasan yang kuat. Untuk

menghindari kekakuan tersebut, kita dapat memberikan fungsi minimum untuk bisa

melatih SVM dengan formula optimasi yang sama

{min

1

2‖�̅�‖

𝑦𝑖(�̅�𝑇. 𝑥�̅� + 𝑏) ≥ 1

2. 39

Fungsi 2. 39 tersebut dapat disederhanakan kembali (dengan menghilangkan

akar pada fungsi minimumnya) dalam persamaan quadratic programming problem

berikut

{min

1

2�̅�𝑇�̅�

𝑦𝑖(�̅�𝑇. 𝑥�̅� + 𝑏) ≥ 1

2. 40

Implementasi Scikit-Learn

Dengan tujuan untuk membuat hyperplane lebih fleksibel, semua

implementasi Scikit-Learn didasari oleh simple variant yang mencakup apa yang

disebut slack variables (𝜁) di dalam fungsi minimum

min

1

2�̅�𝑇�̅� + 𝐶 ∑𝜁𝑖

𝑖

2. 41

Dengan begitu, persamaan constraint-nya menjadi

43

𝑦𝑖(�̅�𝑇. 𝑥�̅� + 𝑏) ≥ 1 − 𝜁𝑖 2. 42

Non-linear SVM

Jika SVM sudah dapat menentukan kelas data dengan menggunakan sistem

linier, maka untuk kasus nonlinear akan sedikit berbeda. Untuk menyelesaikan

masalah, Bernhard E. Boser, Isabelle M. Guyon dan Vladimir N. Vapnik

menyarankan sebuah cara untuk membuat nonlinear classifier dengan

mengaplikasikan sebuah kernel trick untuk hyperplane margin maksimum [25].

Hasil algoritma menggunakan kernel trick akan sama seperti pada SVM linier,

akan tetapi untuk setiap fungsi dot product akan diganti dengan fungsi nonlinear

kernel. Algoritma ini memungkinkan classifier untuk menyesuaikan hyperplane

margin maksimum pada ruang fitur yang ditransformasikan menuju dimensi yang

lebih tinggi [14].

Transformasi ruang fitur akan membuat klasifikasi data pada ruang data

dengan dimensi yang lebih tinggi atau bahkan tak hingga. Namun, karena

keterbatasan visual, peningkatan dimensi hanyalah dengan menyelesaikan persamaan

dan memasukkan nilai data untuk ditentukan kelasnya tanpa mengubah nilai data

tersebut ke dalam bentuk nyata di ruang dimensi yang tinggi tersebut. Beberapa

kernel yang dapat digunakan antara lain:

Polinomial: 𝑘(𝑥𝑖⃑⃑ ⃑, 𝑥𝑗⃑⃑ ⃑) = (𝑥𝑖⃑⃑ ⃑, 𝑥𝑗⃑⃑ ⃑)𝑑

44

Gaussian Radial Basis Fuction: 𝑘(𝑥𝑖⃑⃑ ⃑, 𝑥𝑗⃑⃑ ⃑) = exp (−𝛾‖𝑥𝑖⃑⃑ ⃑ − 𝑥𝑗⃑⃑ ⃑‖2) untuk

𝛾 > 0. Terkadang diparameterkan sebagai 𝛾 = 1

2𝜎2

Kernel berkaitan dengan transformasi 𝜑(𝑥𝑖⃑⃑ ⃑) dengan persamaan 𝑘(𝑥𝑖⃑⃑ ⃑, 𝑥𝑗⃑⃑ ⃑) =

𝜑(𝑥𝑖⃑⃑ ⃑) ⋅ 𝜑(𝑥𝑗⃑⃑ ⃑). Nilai w juga terdapat pada ruang transformasi, dengan �⃑⃑� =

∑ 𝛼𝑖𝑦𝑖𝜑(𝑥𝑖⃑⃑ ⃑) 𝑖 . Dot product dengan w untuk pengklasifikasian dapat dihitung lagi

menggunakan kernel trick, seperti �⃑⃑� ⋅ 𝜑(𝑥𝑖⃑⃑ ⃑) = ∑ 𝛼𝑖𝑦𝑖𝑘(𝑥𝑖⃑⃑ ⃑, 𝑥 ) 𝑖 [14].

2.5. Sci-Kit Learn

Sci-Kit Learn atau lebih dikenal dengan nama sklearn adalah sebuah modul

untuk melakukan analisis data, penggalian data, serta machine learning. Pertama kali

dimulai pada tahun 2007 sebagai proyek Google Summer of Code oleh David

Cournapeau yang dilanjutkan oleh Fabian Pedregosa pada tahun 2010 dan

membuatnya menjadi public release [6].

Modul sklearn menggunakan bahasa pemrograman python dalam

pengembangannya serta pengoperasiannya. Modul tersebut berisi banyak algoritma

untuk melakukan machine learning dan data mining untuk supervised dan

unsupervised learning skala menengah [6].

Menggunakan teknologi Numpy untuk struktur dan modifikasi data dalam

python sebagai pustaka utama yang berkekuatan tinggi dan memiliki kompatibilitas

tinggi terhadap pustaka bahasa python lainnya [6].

45

Desain Kode

Objek desain kode yang dimiliki oleh sklearn mengacu pada interface, bukan

pada inheritance. Untuk memfasilitasi objek dari luar menggunakan sklearn,

inheritance tidak dipaksakan; melainkan, melakukan perjanjian kode untuk

menyediakan interface yang konsisten [6]. Kode-kode yang disediakan seperti:

fit untuk memulai proses pelatihan algoritma pada classifier.

predict pada algoritma classifier untuk memprediksi hasil klasifikasi.

score untuk melihat hasil akurasi dari algoritma-algoritma classifier (hasil

dalam bentuk desimal).

46

BAB III

METODE PENELITIAN

Setelah mengetahui dasar-dasar teori yang dijabarkan pada BAB II, peneliti

dapat melakukan penelitian menggunakan metode-metode yang berkaitan. Selain itu,

penelitian juga dilaksanakan sesuai prosedur dan waktu yang telah ditentukan.

3.1 Waktu dan Tempat Penelitian

Penelitian perbandingan akurasi dan kecepatan proses classifier machine

learning untuk klasifikasi spektrum gamma 60Co, 22Na, 241Am, 137Cs, 90Sr. Penelitian

ini dilaksanakan pada bulan Oktober sampai Januari 2020. Penelitian tersebut

bertempat di Pusat Laboratorium Terpadu (PLT) Universitas Islam Negeri (UIN)

Jakarta.

3.2 Alat dan Bahan

Selama penelitian berlangsung dalam pembuatan dan pengujian perbandingan

akurasi dan cepat proses classifier machine learning untuk klasifikasi spektrum

gamma 60Co, 22Na, 241Am, 137Cs, 90Sr.. Membutuhkan alat penelitian di mana alat-alat

tersebut berfungsi sebagai media pendukung penelitian, sedangkan bahan penelitian

sebagai media pendukung alat dan penelitian tersebut. Beberapa alat dan bahan bisa

dilihat pada tabel berikut ini :

47

Tabel 3. 1 Alat dan Bahan Penelitian

Alat dan Bahan Keterangan

Alat :

1. Perangkat Detektor Spektroskopi Gamma NaI(Tl)

2. Komputer dengan Aplikasi Cassy Lab

3. Komputer dengan Aplikasi Jupyter Notebook

4. Modul Sci-Kit Learn\

5. Radioaktif 60Co, 22Na, 241Am, 137Cs, 90Sr

1 Buah

1 Buah

1 Buah

Versi 0.21.3

Masing-masing 1 buah.

(Spesifikasi Komputer untuk Klasifikasi)

CPU: Intel® Core™ i3-5005U 2.0 GHz

GPU: Nvidia® GeForce 930M

RAM: 8GB SODIMM 1600 MHz

Disk: TOSHIBA HDD 7200 RPM

3.3 Tahapan Penelitian

Penelitian ini meliputi beberapa tahapan. Secara garis besar tahapan tersebut

terbagi atas preprocessing data, pengklasifikasian, pengujian classifier, dan

perbandingan hasil klasifikasi. Adapun tahapan keseluruhan dapat dilihat dari Bagan 3.

1 berikut ini:

48

Bagan 3. 1 Bagan Tahapan Penelitian

3.3.1 Persiapan Penelitian

Pada tahapan ini proses yang dilakukan adalah mencari informasi tentang alat

dan bahan yang digunakan dari buku dan dokumentasi program. Serta mencari

penelitian yang sejenis dari beberapa jurnal. Tahapan ini bertujuan memilih bahan-

bahan referensi sebagai studi pustaka.

PENGUJIAN

CLASSIFIER UNTUK

KLASIFIKASI DATA

PREPROCESSING DATA

ANALISIS HASIL

PENGAMBILAN DATA

SPEKTROSKOPI GAMMA

KAJIAN PUSTAKA

KESIMPULAN

49

3.3.2 Pengambilan Data Spektroskopi Gamma

Pengambilan data spektroskopi untuk kelima inti radioaktif dilakukan di Pusat

Laboratorium Terpadu Universitas Islam Negeri Syarif Hidayatullah Jakarta dengan

menggunakan perangkat detektor sintilasi gamma NaI(Tl) dan aplikasi Cassy Lab.

Detektor Sintilasi yang digunakan adalah perangkat Leybold Didactic seperti pada

Gambar 3. 1 berikut:

Gambar 3. 1 Detektor Sintilasi Cassy Leybold Didactic

50

Kalibrasi

Untuk melakukan kalibrasi, data mula-mula diambil untuk kelima inti

radioaktif. Pengambilan data dilakukan dengan mengatur setelan perangkat pada

program aplikasi sebagai berikut:

Multichannel: On

Gain Box: -2

Negative Pulses: On

Voltage: 676 V (Diatur oleh Catu Daya)

Channel: 512 Channel (5.9 keV/Channel)

Time: 50 s (Data Training), 80 s (Data Tes)

Data spektrum gamma yang telah diambil sebelumnya dikalibrasi terlebih

dahulu sesuai dengan spektrum yang telah diketahui. Spektrum yang telah diketahui

yakni Am-241 dengan energi 59.5 keV dan Cs-137 dengan energi 662 keV. Kalibrasi

energi menggunakan mode gaussian yang disediakan oleh aplikasi Cassy Lab, lalu

memasukan entry puncak ke dalam kotak dialog kalibrasi energi. Kemudian, hasil

kalibrasi akan mengubah indeks channel menjadi energi.

Pengambilan data

Setelah data dikalibrasi, maka pengambilan data akan dilanjutkan untuk

masing-masing sampel inti. Untuk data training classifier, data spektrum yang

diambil berjumlah 200 untuk masing-masing inti radioaktifdengan waktu deteksi

51

selama 50 detik. Sementara untuk data uji coba classifier, data spektrum yang diambil

berjumlah 15 untuk masing-masing inti dengan waktu deteksi selama 80 detik. Nilai

energi pada masing-masing channel mengikuti hasil kalibrasi sebelumnya.

3.3.3 Praproses Data

Aplikasi Jupyter dan modul sklearn memungkinkan untuk melakukan proses

klasifikasi berikut pemrosesan datanya. Sebelum klasifikasi dilakukan, data spektrum

yang telah didapat dimuat ke dalam format Excel. Kemudian, data diolah terlebih

dahulu supaya klasifikasi dapat berjalan dengan normal. Pengolahan data yang

dilakukan adalah dengan mengubah posisi kelas menjadi berada pada ujung kanan

data (transpose). Ini dikarenakan sistem klasifikasi pada modul sklearn memiliki

model pembacaan seperti itu. Proses transpose yang dilakukan pada data 60Co (80

detik) dapat dilihat seperti Tabel 3. 2 Data 60Co (80 detik) Sebelum Transposedan Tabel 3. 3

Data 60Co (80 detik) Sesudah Transpose berikut:

52

Tabel 3. 2 Data 60Co (80 detik) Sebelum Transpose

Menjadi,

Tabel 3. 3 Data 60Co (80 detik) Sesudah Transpose

E 60Co 22Na 241Am 137Cs 90Sr

24,5 keV 40 20 210 564 109

30,4 keV 37 26 113 516 122

36,2 keV 44 11 185 557 138

... ... ... ... ... ...

2948 keV 0 0 0 0 0

2948 keV ... 36,2 keV 30,4 keV 24,5 keV E

0 ... 44 37 40 60Co

0 ... 11 26 20 22Na

0 ... 185 113 210 241Am

0 ... 557 516 564 137Cs

0 ... 138 122 109 90Sr

53

Setelah data ditranspose, selanjutnya data dipisah menjadi dua bagian, yakni

data latihan (training), dan data validasi. Pemisahan ini tidak berlaku untuk data tes

(80 detik) karena data tersebut memang ditujukan untuk melakukan tes prediksi dari

classifier. Populasi dataset antara data train dan data validasi adalah 9:1, yang berarti

dataset untuk validasi hanyalah 10% dari data spektrum total sementara 90% adalah

untuk data training. Data validasi tidak boleh terlalu besar supaya tidak terjadi

overfitting pada classifier [26].

Pengambilan dataset validasi tidak menggunakan metode khusus seperti k-

fold cross validation ataupun leave one out cross validation. Sehingga dataset

validasi adalah 10% data terakhir dari total data.

3.3.4 Melakukan Klasifikasi

Setelah data melewati praproses, dataset akan dilanjutkan untuk dimuat ke

dalam classifier (fitting). Pada proses ini, data akan dimuat kepada masing-masing

classifier dengan parameter tertentu. Parameter yang digunakan bergantung pada

classifier itu sendiri.

Dalam aplikasi Jupyter, untuk melakukan klasifikasi dapat menggunakan

fungsi ClassifierName(parameter). Nilai parameter bergantung pada batasan-batasan

dan nilai yang dapat diubah pada suatu classifier (seperti jumlah ranting pada DTC).

Sementara ClassifierName adalah nama terdaftar masing-masing classifier pada

aplikasi.

54

Kemudian, data sampel spektrum gamma dapat dimasukkan ke dalam

classifier dengan fungsi fit(X_train, y_train) untuk melakukan training data. Yang

mana X_train merupakan daftar tingkat energi spektrum gamma yang berlaku sebagai

variabel/fitur, dan y_train adalah jumlah intensitas spektrum pada tingkat energi

spektrum tersebut. Metode memasukkan data sampel spektrum sama untuk seluruh

jenis classifier.

Untuk melakukan validasi dan tes data, dapat menggunakan perintah

dtclassifier.predict(X_val) untuk validasi, dan dtclassifier.predict(X_test) untuk tes.

X_val dan X_test adalah daftar tingkat energi spektrum gamma pada data validasi dan

tes secara berurutan. Metode ini juga sama dilakukan pada setiap classifier.

Terakhir, untuk mendapatkan hasil akurasi data validasi dan tes dapat

menggunakan perintah score(X_val, y_pred_val) untuk validasi, dan

classification_report(X_test, y_pred_test) untuk tes. Nilai akurasi yang dihasilkan

adalah berbentuk desimal, memiliki rentang nilai antara 0 – 1. Sementara untuk

memperoleh waktu proses adalah dengan menggunakan perintah %%time yang akan

menghasilkan lama waktu proses pada suatu classifier.

Decision Tree Classifier

Untuk melakukan klasifikasi Decision Tree Classifier, penulis menggunakan

fungsi DecisionTreeClassifier(max_depth). Dengan max_depth adalah jumlah ranting

pada pohon untuk menentukan kelas isotop yang dituju pada akhir klasifikasi.

55

Jumlah ranting divariasikan menjadi 1 hingga 9 ranting (Total Pure). Berikut

contoh banyak ranting pada classifier DTC pada Gambar 3. 2 di bawah ini:

Gambar 3. 2 Banyak Ranting pada DTC Ditandai dengan Panah Merah

Random Forest Classifier

Untuk melakukan klasifikasi Random Forest, penulis menggunakan fungsi

RandomForestClassifier(max_depth, n_estimators). Dengan n_estimators merupakan

jumlah pohon dan max_depth adalah jumlah ranting pada masing-masing pohon.

Variasi parameter hanya dilakukan pada jumlah pohonnya (estimator) saja.

Estimator divariasikan menjadi sebanyak 1 hingga 9 estimator (Akurasi 100% pada

hasil tes) dengan inkrementasi sebesar 1. Sementara jumlah ranting adalah 9 untuk

semua pohon yang dibentuk. Jumlah pohon (estimator) dapat dilihat pada Gambar 3. 3

di bawah ini:

56

Gambar 3. 3 Jumlah Pohon (Estimator) pada Random Forest Classifier

AdaBoost Classifier

Untuk melakukan klasifikasi spektrum pada classifier AdaBoost, penulis

menggunakan fungsi AdaBoostClassifier(n_estimators, learning_rate). Karena

classifier ini merupakan peningkatan dari classifier sebelumnya (contoh: Decision

Tree), maka AdaBoost juga menggunakan jumlah estimator seperti pada Random

Forest. Jumlah estimator akan menentukan banyaknya pengulangan klasifikasi yang

dilakukan oleh algoritma, bukan banyak pohon.

Selain itu, ada pula parameter learning rate yang merupakan rangkapan

learning dari classifier ini. Learning rate adalah lawan dari jumlah estimator yang

memungkinkan classifier untuk melakukan fitting data secara langsung tanpa

mempedulikan banyaknya estimator. Jumlah estimator dan learning rate divariasikan

menjadi 1 hingga 10 dengan inkrementasi sebesar 1 untuk masing-masing parameter.

57

Data tes classifier hanya akan dimasukkan ke dalam proses dengan jumlah

estimator berbeda saja, tidak dengan learning rate yang berbeda. Dalam hal ini,

learning rate dibiarkan dengan nilai 1 secara default saat estimator divariasikan, dan

estimator dibiarkan 10 saat learning rate divariasikan.

Gaussian Process Classifier

Untuk melakukan klasifikasi pada Gaussian Process, penulis menggunakan

fungsi GaussianProcessClassifier(kernel). Parameter asal yang disorot adalah jenis

kernel yang digunakan, dan kernel yang digunakan adalah kernel RBF (Radial Basis

Function), White Noise Kernel, dan Rational Quadratic.

Naive Bayes Classifier

Tidak ada parameter yang krusial pada Naive Bayes Classifier dikarenakan

classifier tersebut tidak mendukung adanya perubahan kecil. Jika classifier ingin

diubah, maka perubahan harus dilakukan keseluruhan, atau dengan kata lain

mengganti classifier. Classifier Naive Bayes yang digunakan adalah Gaussian Naive

Bayes sesuai dengan fungsinya GaussianNB().

Support Vector Classifier

58

Untuk melakukan klasifikasi SVC, dapat menggunakan fungsi SVC(kernel,

degree). Pada Support Vector Classifier, parameter yang disesuaikan hanyalah

kernel-nya saja. Kernel disesuaikan untuk menggunakan kernel RBF, Linear, dan

Polinomial yang juga ditujukan untuk diselaraskan dengan Gaussian Process

Classifier yang juga menggunakan kernel RBF. Selain itu, parameter kernel

mengikuti nilai asal (default) dari modul. Nilai degree pada fungsi program adalah

jumlah ordo pada kernel polinomial. Ordo diberikan nilai 3 secara default.

3.3.5 Penyajian Data dan Confusion Matrix

Penyajian data dapat menggunakan nilai persentase akurasi. Untuk data

dengan parameter yang banyak penyesuaian, hasil akan disajikan juga dengan bentuk

grafik. Penyajian grafik akan sangat berguna untuk mengetahui performa ketepatan

classifier untuk tiap nilai parameter yang telah disesuaikan.

Untuk melihat hasil dengan lebih akurat, hasil klasifikasi juga disajikan dalam

bentuk confusion matrix. Akan tetapi, penyajian hasil hanya ditujukan kepada satu

parameter saja dengan hasil terakhir milik suatu classifier.

59

BAB IV

HASIL DAN PEMBAHASAN

Classifier memiliki sifat dan tindakan yang berbeda dalam melakukan

klasifikasi yang sangat mempengaruhi hasil dari klasifikasi. Dalam menentukan

klasifikasi spektrum gamma, classifier melakukan training dengan memasukan data

spektrum ke dalam model klasifikasi. Kemudian, classifier akan melakukan validasi

dengan memprediksi data menggunakan sebongkah data training untuk mengetahui

hasil awal dari keakuratan prediksinya, dan dilanjutkan dengan melakukan prediksi

sesungguhnya dengan data yang baru (tes) seperti pada subbab 4.1.

4.1 Hasil Performa Prediksi untuk Setiap Classifier.

Setelah melakukan percobaan dengan prosedur yang tertuang dalam tahapan

penelitian, peneliti mendapatkan hasil-hasil prediksi untuk setiap classifier yang

berupa grafik, data akurasi dan kecepatan proses, dan confusion matrix. Data grafik

hanya didapatkan untuk classifier yang menggunakan basis Decision Tree Classifier

karena hasil prediksi dapat berubah saat melakukan iterasi ulang, sementara yang

lainnya memiliki hasil konstan untuk setiap iterasi sehingga hanya mendapatkan hasil

berupa nilai akurasi prediksinya saja. Adapun hasil proses untuk setiap classifier

ditunjukkan pada subbab di bawah ini.

60

4.1.1 Decision Tree Classifier

Decision Tree Classifier akan membuat beberapa ranting untuk melakukan

prediksi dari sebuah fitur untuk menentukan kelasnya. Karakteristik penting pada

classifier ini adalah pada jumlah rantingnya. Pada Grafik 4. 1 di bawah ini terlihat nilai

akurasi dari setiap jumlah ranting yang berbeda pada Decision Tree Classifier.

Grafik 4. 1 Akurasi Data Validasi dan Tes DTC Terhadap Jumlah Cabang. Grafik Validasi Ditandai

dengan Warna Hijau Sementara Grafik Tes Ditandai dengan Warna Merah. Angka 3.6% dan 11.7%

merupakan deviasi terendah dan tertinggi. Sementara ‘Wall Time’ adalah waktu prosesnya.

Pada grafik tersebut, grafik validasi yang ditandai dengan warna hijau

menunjukkan bahwa semakin banyak ranting/cabang maka akan semakin tinggi

akurasinya. Melihat adanya stagnasi pada grafik mulai dari cabang yang berjumlah 4,

dapat diketahui bahwa saat itu DTC sudah berjalan dengan optimal atau dalam

kondisi terbaik. Ini menandakan bahwa saat semakin banyak jumlah cabang, maka

classifier akan melakukan lebih banyak perbandingan tingkat energi dibanding saat

jumlah cabangnya sedikit.

61

Sementara pada grafik tes yang ditandai dengan warna merah menyatakan

nilai deviasi semakin tinggi pada jumlah cabang 4 ke atas. Kejadian ini terjadi akibat

penentuan variabel energi spektrum yang dipilih secara acak untuk menjadi node akar

pada setiap iterasi. Energi spektrum yang terpilih tidak memiliki nilai Gini Impurity

yang rendah sehingga classifier tidak dapat melakukan prediksi secara optimal. Nilai

deviasi bervariasi mulai dari 3,6% hingga 11,7%.

Titik akurasi pada grafik tes DTC terakhir hanya mencapai 80% saja. Titik ini

merupakan titik terakhir yang dapat dibuat oleh DTC. Dengan kata lain, jumlah

cabang sudah maksimal. Waktu yang diperlukan bagi Decision Tree Classifier untuk

melakukan klasifikasi data adalah sebesar 6,8 detik. Jika hanya dilakukan 1 kali

iterasi, maka waktu yang diperlukan adalah selama 119 ms.

Confusion Matrix DTC

Dari data grafik validasi dan tes terakhir, didapat akurasi data yang

menunjukkan titik optimal dari DTC. Titik tersebut dianalisis ke dalam bentuk

confusion matrix untuk diketahui hasil klasifikasi secara mendetail seperti pada

Gambar 4. 1 berikut:

62

Gambar 4. 1 Confusion matrix validasi dtc. Bagian bawah menunjukkan hasil prediksi sementara

bagian kiri menunjukkan nilai kebenaran

Dari confusion matrix tersebut, data validasi menunjukkan akurasi prediksi

yang sempurna. Dari 5 kelas, tidak ada data yang salah dalam prediksi. Pada nilai

True Label 60Co, terdapat nilai 22 yang berarti ada 22 sampel spektrum pada kelas

60Co tersebut untuk diuji dalam validasi classifier. Sementara itu, untuk confusion

matrix data tes dapat dilihat pada Gambar 4. 2 berikut:

Gambar 4. 2 Confusion matrix data tes dtc

63

Pada confusion matrix data tes DTC, terdapat 13 kesalahan prediksi pada

sebuah kelas isotop. Isotop tersebut berada pada baris pertama yang menandakan

kebenaran sampel tersebut adalah milik 60Co. Akan tetapi dalam melakukan

prediksinya, DTC menentukan sampel tersebut adalah milik 22Na (kolom kedua)

yang membuatnya melakukan kesalahan prediksi pada sampel tersebut. Hal ini sesuai

dengan data grafik tes pada Grafik 4. 1 yang hanya mendapatkan akurasi sebesar 80%

saja.

4.1.2 Random Forest Classifier

Random Forest Classifier, sebagai essemble classifier atau classifier terpadu

memiliki fungsi untuk mengumpulkan classifier lain. Namun, sesuai namanya

classifier yang terkumpul pada Random Forest adalah Decision Tree Classifier.

Decision Tree Classifier terkumpul dalam satu kuasa untuk menjadi sebuah ‘Forest’.

Maka dari itu, banyaknya Decision Tree akan memiliki peran tersendiri dalam

melakukan prediksi pada Random Forest Classifier. Random Forest yang dibuat

dalam penelitian ini memiliki Decision Tree (pohon) sebanyak 1 hingga 9 pohon

dengan jumlah ranting sebanyak 9 untuk setiap pohonnya seperti pada Grafik 4. 2

berikut:

64

Grafik 4. 2 Grafik akurasi hasil validasi dan tes RFC. Hasil validasi berwarna hijau, sementara data tes

berwarna merah. Angka 1% dan 15% merupakan deviasi terendah dan tertinggi. Sementara ‘Wall

Time’ adalah waktu prosesnya.

Pada grafik di atas, kedua grafik memiliki akurasi yang cukup tinggi. Ini

dikarenakan karena RFC memiliki prinsip kerja yang hampir sama dengan DTC. Jika

dengan 1 decision tree dengan jumlah cabang 9 dapat menghasilkan akurasi sebesar

80%, maka dengan lebih banyak decision tree dengan jumlah cabang yang sama akan

dapat menghasilkan akurasi yang lebih tinggi seperti pada Grafik 4. 2 di atas. Deviasi

yang dihasilkan pada setiap iterasi berkisar 1% hingga 15%.

Sementara itu, waktu yang diperlukan oleh Random Forest Classifier untuk

menentukan klasifikasi dengan seluruh iterasi adalah selama 4,2 s. Jika hanya

dilakukan 1 kali iterasi, waktu yang diperlukan adalah selama 106 ms.

Confusion Matrix RFC

Adapun bentuk dari confusion matrix pada RFC dapat dilihat pada Gambar 4. 3

berikut:

65

Gambar 4. 3 Confusion matrix rfc. bagian kiri merupakan hasil prediksi validasi dan bagian kanan

merupakan hasil prediksi tes

Dari confusion matrix di atas, dapat dilihat hasil prediksi pada kedua tindakan

tidak memiliki kesalahan pada setiap sampel spektrum yang diuji. Hasil prediksi

validasi dan hasil tes yang dibentuk ke dalam confusion matrix adalah titik terakhir

pada grafik, di saat jumlah pohon berjumlah 9, dengan nilai akurasi sebesar 100%.

4.1.3 AdaBoost Classifier

Tidak jauh berbeda dengan Random Forest Classifier, AdaBoost Classifier

yang juga merupakan classifier terpadu yang memadukan beberapa classifier lemah

(stumps) untuk dipadukan menjadi satu classifier dengan kekuatan prediksi yang

lebih tinggi. Perbedaannya, AdaBoost merupakan classifier meta yang akan bekerja

sangat hebat saat memecahkan masalah tertentu atau dalam keadaan tertentu saja.

66

AdaBoost Classifier dalam penelitian ini menggunakan parameter classifier

terpadu DTC dengan jumlah ranting sebanyak 1 (stumps). Hasil prediksi validasi dan

tes dari classifier ini dapat dilihat pada grafik di bawah ini:

Grafik 4. 3 Grafik prediksi adaboost classifier. Warna hijau menunjukkan hasil validasi saat jumlah

estimator berubah, warna biru menunjukkan hasil validasi saat learning rate berubah

Dari Grafik 4. 3 di atas, warna hijau merupakan grafik hasil validasi

berdasarkan jumlah estimator yang diubah dengan learning rate sebesar 1. Sementara

warna merah merupakan grafik hasil validasi berdasarkan jumlah learning rate yang

diubah dengan jumlah estimator sebanyak 10.

Kedua grafik tersebut menunjukkan perbedaan signifikan yang berbanding

terbalik di antara keduanya. Ini disebabkan karena learning rate akan membuat

67

potensi dari hasil voting prediksi suatu stumps akan dikurangi seharga learning rate

tersebut. Maka dari itu, hasil prediksi akan menjadi tidak akurat dalam nilai learning

rate yang lebih tinggi. Sementara untuk grafik akurasi tes, dapat dilihat pada Grafik 4.

4 di bawah ini.

Grafik 4. 4 Grafik tes ABC dengan jumlah estimator yang berubah. Angka 1.2% dan 8.4% merupakan

deviasi terendah dan tertinggi. Sementara ‘Wall Time’ adalah waktu prosesnya.

Pada grafik hasil prediksi data tes yang berwarna merah, penulis tidak

membuat tindakan saat learning rate diubah. Ini dikarenakan karena tidak akuratnya

hasil klasifikasi yang dibuat dengan tingginya nilai learning rate, yang tidak

membuat classifier bekerja semestinya sesuai dengan peningkatan (“Boosting”) dari

classifier sebelumnya.

Nilai optimum yang diraih oleh ABC adalah pada saat jumlah estimator

sebanyak 10 ke atas, dengan nilai akurasi sebesar 100%. Sebelum mencapai posisi

tersebut, hasil tes memiliki nilai deviasi sekitar 1.2% hingga 8.4% seperti yang

68

terlihat pada jumlah estimator 6 sampai 9. Kejadian ini, tentu saja tidak terlepas dari

metode klasifikasi yang didasari oleh stumps milik decision tree. Walau demikian,

proses boosting dari ABC dapat dikatakan berhasil.

Waktu yang dibutuhkan AdaBoost untuk melakukan klasifikasi dengan

seluruh iterasi adalah selama 22 s. Sementara jika hanya dilakukan 1 kali iterasi,

maka waktu yang diperlukan adalah selama 1,65 s.

Confusion Matrix ABC

Adapun bentuk dari confusion matrix pada RFC dapat dilihat pada Gambar 4. 4

berikut:

Gambar 4. 4 Confusion Matrix ABC. Bagian Kiri Menunjukkan Hasil Validasi dan Bagian Kanan

Menunjukkan Hasil Tes

Confusion matrix milik AdaBoost Classifier memiliki hasil serupa dengan

confusion matrix RFC (Gambar 4. 1 dan Gambar 4. 2). Karena memiliki profil yang sama

69

di antara kedua classifier tersebut (berbasis DTC), maka hasil prediksi isotopnya

memiliki akurasi yang serupa.

4.1.4 Naive Bayes Classifier

Naive Bayes Classifier tidak memiliki parameter khusus yang dapat diubah

suaikan secara aplikatif. Jadi, untuk setiap prediksi suatu sampel spektrum, proses

training yang dilakukan oleh Naive Bayes hanya dilakukan dengan melihat

kesesuaian kondisi intensitas spektrum dengan tingkat energinya masing-masing,

sehingga tidak ada perbandingan dengan tingkat energi isotop yang lainnya. Pada

penelitian ini, dengan menggunakan Naive Bayes dengan tipe Gaussian, atau

Gaussian NB didapat nilai akurasi hasil prediksi data validasi sebesar 92%,

sementara untuk data tesnya memiliki nilai akurasi sebesar 22% saja.

Untuk hasil validasi, akurasi sebesar 92% tidak terlalu menjadi masalah dan

dapat ditolerir. Tapi untuk hasil tes, 22% berarti menunjukkan ketidakmampuan suatu

classifier tersebut untuk melakukan klasifikasi, khususnya dalam penelitian ini. Nilai

akurasi yang rendah tersebut disebabkan karena Naive Bayes Classifier tidak

melakukan perhitungan prediksi dengan melakukan perbandingan tingkat energi antar

isotop, melainkan menyederhanakannya dengan membandingkan nilai intensitas

dengan kondisi tingkat energi yang telah ditentukan sebelumnya secara independen.

Positifnya, Naive Bayes Classifier dapat melakukan pembaruan klasifikasi

secara daring dengan sampel baru yang dimasukkan ke dalam classifier secara

70

terpisah. Sangat berguna untuk memproses data yang tertinggal ataupun data baru

yang terlambat didapat. Waktu yang diperlukan oleh Naive Bayes dalam melakukan

prediksi dan klasifikasi data adalah selama 54 ms.

Confusion Matrix NBC

Hasil prediksi yang dilakukan oleh Naive Bayes Classifier dapat dilihat pada

Gambar 4. 5 berikut ini:

Gambar 4. 5 Confusion Matrix Naive Bayes. Bagian Validasi (Kiri) Terlihat Lebih Rapi Dibandingkan

Dengan Hasil Tes (Kanan).

Pada confusion matrix di atas, dapat diketahui bahwa bagian hasil validasi

memiliki akurasi yang lebih tinggi dibandingkan dengan bagian hasil tes (92% vs

22%). Seperti sebelumnya, ini disebabkan bahwa kondisi banyaknya intensitas pada

suatu tingkat energi yang dibuat oleh classifier ini akan disesuaikan dengan fitur-fitur

tingkatan energi spektrum dalam satu sampel secara independen saat training. Maka,

jika keadaan dianggap sesuai, maka sebuah sampel spektrum akan langsung divonis

sebagai anggota dari salah satu kelas isotop yang ada.

71

Pada confusion matrix hasil tes, prediksi terlihat hampir semua tertuju pada

isotop 60Co. Ini dapat diartikan bahwa banyak nilai pada sampel pada data sesuai

dengan kondisi dari 60Co. Dengan tidak melihat isotop lainnya, maka sampel

tersebut diyakini sebagai anggota kelas isotop, tidak peduli seperti apa nilai pada

sampel pendukung lain untuk membuat sampel tersebut bisa masuk ke dalam kelas

isotop lainnya.

4.1.5 Gaussian Process Classifier

Gaussian Process Classifier merupakan classifier yang menggunakan ‘kernel

trick’ untuk melakukan modifikasi bentuk classifier itu sendiri, oleh karena itu hasil

yang diberikan tidak berdasarkan parameter yang berbentuk perbandingan nilai,

namun berbentuk kernel seperti pada Tabel 4. 1 berikut ini:

Tabel 4. 1 Tabel Akurasi Gaussian Process Classifier Dengan Beberapa Kernel

Kernel Level (lenght

scale, noise

level)

Akurasi

Validasi

(%)

Akurasi

Tes (%)

Log

Marginal

Likelihood

Waktu

Proses

(detik)

RBF 1 100 100 -34. 07373 390

White Noise

Kernel

1 20 20 -623.83246 19,3

Rational

Quadratic

1 99 100 -32.66388 717

Dari hasil beberapa kernel di atas didapat nilai akurasi untuk hasil prediksi

data validasi, data tes, dan nilai log marginal likelihood-nya. Dari sini dapat dilihat

72

bahwa nilai log marginal likelihood akan menunjukkan seberapa bagus penentuan

prediksi dari data training untuk dilakukan pengetesan. Nilai log marginal likelihood

akan semakin tinggi jika kualitas dari kernel yang digunakan cukup baik.

Pada kernel White Noise, nilai log marginal likelihood didapat sebesar -

623.83246. Nilai ini sangat jauh dari nilai log marginal likelihood pada kernel

lainnya. Terbukti pada akurasinya dalam menentukan prediksi isotop untuk data

validasi dan data tes hanya mendapatkan 20% saja untuk keduanya.

Untuk RBF dan Rational Quadratic memiliki nilai log marginal likelihood

yang cukup bersaing pada -34.07373 untuk RBF dan -32.66388 untuk Rational

Quadratic. Dari penilaian log marginal likelihood tersebut, Rational Quadratic

memiliki nilai yang lebih tinggi dari RBF. Akan tetapi, nilai akurasi dari hasil

validasi Rational Quadratic hanya 99% saja dibanding RBF dengan 100% akurat.

Waktu yang diperlukan bagi masing-masing kernel berbeda. Dalam

prosesnya, White Noise Kernel memiliki waktu tercepat yaitu hanya selama 19,3 s,

sementara bagi kernel RBF dan Rational Quadratic adalah selama 390 s dan 717 s

berturut-turut.

Confusion Matrix GPC

Gaussian Process Classifier hanya menghasilkan satu hasil prediksi pada

masing-masing kernelnya, sehingga dari 3 kernel yang digunakan terdapat confusion

matrix yang berbeda-beda seperti pada gambar di bawah ini:

73

Gambar 4. 6 Confusion Matrix Gaussian Process Classifier dengan Kernel RBF. Bagian Kiri

Merupakan Validasi dan Bagian Kanan Merupakan Tes

Pada confusion matrix (Gambar 4. 6) GPC dengan kernel RBF, matriks tersebut

menunjukkan kesesuaian sempurna di antara hasil prediksi validasi dan prediksi tes.

Gambar 4. 7 Confusion Matrix GPC dengan Kernel White Noise. Bagian Kiri Merupakan Validasi,

dan Bagian Kanan Merupakan Tes.

Pada confusion matrix GPC dengan kernel White Noise seperti pada Gambar 4.

7 di atas, hasil prediksi dan kebenaran sangat tidak sesuai. Jika ditelaah lebih lanjut,

terlihat bahwa hasil prediksi yang benar terletak pada inti radioaktif 90Sr saja.

74

Hal yang membuat White Noise Kernel banyak melakukan kesalahan adalah

karena pada persamaan kernel 𝐾𝐺𝑁(𝑥, 𝑥′) = 𝛿𝑥,𝑥′ yang akan menghasilkan keluaran

biner, yakni isotop 60Co dan isotop 90Sr saja. Untuk itu, jika salah satu sampel

spektrum yang diuji tidak sesuai dengan keadaan pertama (isotop 60Co), maka

selanjutnya sampel tersebut akan ‘dibuang’ menjadi milik isotop 90Sr.

Ini menandakan bahwa White Noise Kernel tidak dapat digunakan untuk

melakukan klasifikasi multiclass, yang dalam penelitian ini terdapat 5 kelas isotop.

Gambar 4. 8 Confusion Matrix GPC dengan Kernel Ratinal Quadratic. Bagian Kiri yang Merupakan

Validasi Terdapat 1 Kesalahan Prediksi.

Pada confusion matrix GPC dengan kernel Rational Quadratic, seperti yang

terpapar pada Gambar 4. 8 memiliki satu kesalahan prediksi pada fitur data 90Sr

(sebenarnya). Akan tetapi, classifier melakukan kesalahan prediksi dan

menganggapnya milik isotop 22Na. Walaupun demikian, classifier tidak melakukan

kesalahan pada data tesnya dan memiliki nilai log marginal likelihood yang lebih

tinggi daripada dua kernel lainnya.

75

4.1.6 Support Vector Classifier

Support Vector Classifier yang bersumber dari Support Vector Machine

memiliki parameter yang hampir sama seperti Gaussian Process, terutama parameter

kernel. Sehingga data yang akan ditampilkan adalah berupa tabel untuk masing-

masing kernel seperti pada Tabel 4. 2 berikut ini:

Tabel 4. 2 Tabel Akurasi Support Vektor Classifier Dengan Beberapa Kernel

Kernel C

(Regularisasi)

Akurasi

Validasi (%)

Akurasi

Tes (%)

Waktu

Proses

(milidetik)

RBF 1 99 100 314

Linear 1 100 100 244

Polinomial 1 99 88 400

Dari Tabel 4. 2 di atas, ketiga kernel memiliki waktu proses yang sangat cepat,

yaitu selama 314 ms untuk RBF, 244 ms untuk Linear, dan 400 ms untuk Polinomial.

Akan tetapi, untuk nilai akurasi RBF memiliki kekurangan pada bagian akurasi

validasi yang menyebabkan nilai akurasi menjadi 99%. Sementara itu, pada akurasi

dengan kernel Polinomial memiliki kekurangan pada kedua bagian hasil. Hasil

akurasi validasi memiliki nilai 99% sedangkan untuk akurasi tes memiliki nilai 88%.

Hasil akurasi tertinggi dipegang oleh kernel Linear dengan akurasi sebesar 100%

untuk kedua bagian tanpa kesalahan prediksi.

Confusion Matrix SVC

76

Hasil klasifikasi dari Support Vector Classifier terbagi menjadi 3 kelompok

matriks untuk setiap kernel, di antaranya untuk kernel RBF:

Gambar 4. 9 Confusion Matrix SVC dengan Kernel RBF. Terlihat Ada 1 Kesalahan Prediksi Pada

Matriks Hasil Validasi Bagian Kiri.

Pada confusion matrix SVC yang menggunakan kernel RBF (Gambar 4. 9),

Hasil prediksi pada bagian validasi (kiri) memiliki 1 kesalahan di mana sampel

spektrum yang seharusnya berada pada isotop 90Sr, namun diprediksi berada pada

isotop 60Co. Sementara untuk confusion matrix dengan kernel Linear:

77

Gambar 4. 10 Confusion Matrix SVC dengan Kernel Linear. Bagian Kiri Menunjukkan Hasil Validasi

dan Kanan Menunjukkan Hasil Tes.

Dari confusion matrix tersebut (Gambar 4. 10), hasil prediksi tidak mengalami

kesalahan sedikit pun pada bagian hasil validasi maupun tes. Kernel ini menjadi yang

terbaik di antara kernel lainnya dalam SVC yang digunakan untuk melakukan

klasifikasi pada penelitian ini. Selain itu, untuk confusion matrix dengan kernel

Polinomial:

Gambar 4. 11 Confusion Matrix SVC dengan Kernel Polinomial. Pada Bagian Validasi (Kiri) Terdapat

1 Kesalahan Klasifikasi, Sementara Pada Bagian Tes (Kanan) Terdapat Cukup Banyak Kesalahan.

78

Dari confusion matrix di atas (Gambar 4. 11), diketahui kesalahan prediksi pada

bagian validasi terdapat pada isotop 241Am. Namun, classifier memprediksinya

bahwa inti tersebut merupakan isotop 22Na. Sementara pada bagian tes, letak

kesalahan yang dilakukan oleh classifier sama, yaitu pada isotop 241Am dan

memprediksinya berada pada isotop 22Na. Akan tetapi, jumlah kesalahan yang

dilakukan lebih besar daripada saat melakukan validasi. Ini dapat diartikan sebagai

kernel Polinomial memiliki nilai bias yang tinggi atau dengan kata lain, overfitting.

4.2 Perbandingan Antar Classifier

Setelah didapat hasil akurasi, kecepatan proses, dan posisi kesalahan

klasifikasi pada confusion matrix, data tersebut dapat dirangkum menjadi 1 buah tabel

untuk dilakukan perbandingan namun untuk confusion matrix dibiarkan pada hasil

sendiri pada sub-bab sebelumnya. Tabel perbandingan dapat dilihat pada Tabel 4. 3 di

bawah ini:

79

Tabel 4. 3 Tabel Perbandingan Classifier.

Classifier Kernel Akurasi

Validasi (%)

Akurasi Tes

(%)

Waktu

Training

(detik)

Decision Tree - 100 80 6,48

Random

Forest

- 100 100 4,2

AdaBoost - 100 100 22

Naive Bayes - 92 22 0,054

Gaussian

Process

Round Based

Function (RBF)

100 100 390

White Noise Kernel

(WK)

20 20 19,3

Rational Quadratic

(RQ)

99 100 717

Support

Vector

Round Based

Function (RBF)

99 100 0,314

Linear 100 100 0,244

Polinomial 99 88 0,400

Berdasarkan tabel perbandingan tersebut, pada umumnya beberapa classifier

memiliki akurasi yang tinggi dalam menentukan klasifikasi data. Di antaranya juga

terdapat yang mencapai 100% akurat dalam melakukan klasifikasi spektrumnya.

80

Seperti pada Random Forest, AdaBoost, Gaussian Process (RBF), dan Support

Vector (Linear).

Terdapat pula waktu proses yang dibutuhkan suatu classifier dalam

melakukan prediksi sekaligus menempatkan data training ke dalam classifier. Waktu

proses training rata-rata berkisar 60 ms hingga 4 s. Namun, ada juga yang dapat

mencapai ratusan detik seperti pada Gaussian Process yang dapat mencapai 390 s (6

m 30 s) dengan kernel RBF, dan 717 s (11 m 57 s) dengan kernel Rational Quadratic.

4.3 Menentukan Classifier dengan Performa Terbaik

Jika dilihat berdasarkan data akurasi antara akurasi validasi dengan akurasi tes

pada subbab 4.2, dapat diketahui bahwa jika suatu classifier memiliki akurasi yang

rendah, maka classifier tersebut memiliki nilai variasi (𝜎2) akurasi yang tinggi.

Tingginya variasi pada classifier menandakan bahwa classifier tersebut overfitting.

Dengan catatan, kejadian ini dikhususkan pada deteksi isotop seperti pada penelitian

ini saja. Seperti pada Naive Bayes dan Gaussian Process (White Noise). Classifier

tersebut tergolong overfitting karena memiliki akurasi yang rendah baik pada tes atau

validasi, maupun keduanya. Dikhususkan untuk GPC dengan White Noise Kernel,

kernel tersebut merupakan fungsi kovarian biner. Fungsi kovarian biner hanya

mampu melakukan klasifikasi antar dua jenis isotop saja, tidak bisa untuk klasifikasi

banyak isotop.

81

Dari keempat variabel tersebut, termasuk akurasi validasi, akurasi tes, dan

waktu proses, dapat dilihat jika antara ketiga classifier yang memiliki akurasi 100%

untuk semua jenis akurasi (validasi dan tes) maka classifier terbaik untuk melakukan

deteksi otomatis isotop adalah Support Vector dengan waktu proses tercepat (0,244

detik). Akan tetapi, Support Vector yang dimaksud harus memiliki parameter yang

sama seperti dalam penelitian ini. Sehingga menjadi, Support Vector Classifier

(Kernel = Linear) adalah classifier terbaik untuk melakukan deteksi otomatis isotop

radioaktif.

82

BAB V

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Berdasarkan hasil penelitian yang telah dilakukan dapat disimpulkan sebagai

berikut:

Hasil performa untuk setiap classifier sangat bervariasi. Untuk

classifier dengan basis Decision Tree, akurasi yang dihasilkan akan

berubah untuk setiap iterasi yang dilakukan, serta memiliki nilai

deviasi berkisar 1%-15%. Sementara classifier yang lain memiliki

hasil yang konstan dan tidak terpengaruh dengan jumlah iterasi yang

dilakukan.

Setiap classifier memiliki kemampuan berbeda untuk melakukan

klasifikasi spektrum gamma yang bersifat multiclass. Pada Naive

Bayes Classifier yang merupakan classifier biner, terlihat hasil

prediksi tes yang sangat rendah yaitu 22%.

Classifier dengan performa terbaik untuk melakukan deteksi otomatis

isotop adalah Support Vector Classifier dengan parameter kernel linear

menghasilkan akurasi sebesar 100% untuk validasi dan tes serta waktu

proses selama 0,244 detik.

83

5.2 Saran

Untuk penelitian selanjutnya yang terkait dengan deteksi otomatis isotop

radioaktif menggunakan classifier, disarankan:

Menggunakan variasi waktu yang lebih banyak dalam mengambil

data spektrum untuk mendapatkan hasil performa classifier yang lebih

fleksibel.

Melakukan pengambilan data disertai dengan background noise untuk

mengetahui kekuatan classifier untuk mendeteksi data spektrum asli

dan noise.

Mengganti classifier yang digunakan oleh AdaBoost untuk classifier

yang berbeda selain Decision Tree.

Melakukan modifikasi parameter classifier, karena dapat

mempengaruhi performa classifier secara keseluruhan.

Menggunakan perangkat dengan spesifikasi berbeda untuk mengetahui

perbedaan kecepatan proses yang dibutuhkan.

84

DAFTAR PUSTAKA

[1] G. James, D. Witten, T. Hastie dan R. Tibshirani, An Introduction to Stastitical

Learning, New York: Springer Science+Business Media, 2018.

[2] F. S. Alotaibi, “Implementation of Machine Learning Model to Predict Heart

Failure Disease,” International Journal of Advanced Computer Science and

Applications, vol. 6, no. 10, pp. 261-268, 2019.

[3] D. Bzdok, N. Altman dan M. Krzywinski, “Statistics versus Machine Learning,”

Nature Methods, vol. 4, no. 15, pp. 233-234, 2018.

[4] H. Hata, K. Yokoyama, Y. Ishimori, Y. Ohara, Y. Tanaka dan N. Sugitsue,

“Application of Support Vector Machine to Rapid Classification of Uranium

Waste Drums Using Low-resolution γ-ray Spectra,” Applied Radiation and

Isotopes, no. 105, pp. 143-146, 2015.

[5] M. Mehryar, R. Afshin dan T. Ameet, Foundations of Machine Learning,

Massachusetts: MIT Press, 2012.

[6] M. Kamuda, J. Zhao dan K. Huff, “A comparison of machine learning methods

for automated gamma-ray spectroscopy,” Nuclear Instruments and Methods in

Physics Research, vol. X, no. 954, 2018.

[7] H. Hata, K. Yokoyama, Y. Ishimori, Y. Ohara, Y. Tanaka dan N. Sugitsue,

“Application ofsupport vector machine to rapid classification of uranium waste

drums using low-resolution γ-rays pectra,” Applied Radiation and Isotopes, no.

104, pp. 143-146, 2015.

[8] F. Pedregosa, G. Varoquaux dan A. Gramford, “Scikit Learn: Machine Learning

in Python,” Journal of Machine Learning Research, no. 12, p. 2825−2830, 2011.

[9] S. T. Thornton dan A. Rex, Modern Physics for Scientists and Engineers (4th

Ed.), Boston: Cengage Learning, 2013.

[10] A. Beiser, “Chapter 12: Nuclear Transformations,” dalam Concepts of Modern

Physics, Boston, Macgraw-Hill, 2003, pp. 432-434.

[11] S. K. Krane, Modern Physics, New York: John Wiley & Sons, 1983.

85

[12] G. Alcocer, Gamma Spectroscopy: Theory, Experiments, and Statistics,

Saarbrücken: Lambert Academic Publishing, 2015.

[13] H. P. Lima, G. P. Guedes, A. F. Barbosa dan J. M. Seixas, “A Fast

Multichannel-Analyzer for Radiation Detection Applications,” IEEE

Transactions on Instrumentation and Measurement, vol. 2, no. 53, pp. 378-383,

2004.

[14] M. Bowles, Machine Learning in Python, Essential Techniques for Predictive

Analysis, Indianapolis: John Wiley & Sons, Inc., 2015.

[15] S. Raschka, Python Machine Learning, Birmingham: Packt Publishing Ltd.,

2015.

[16] A. Smola dan S. V. N. Vishwanathan, Introduction to Machine Learning,

Cambridge: Cambridge University Press, 2008.

[17] J. R. Quinlan, “Induction of Decision Trees,” Machine Learning, no. 1, pp. 80-

106, 1986.

[18] G. Bonarosco, Machine Learning Algorithms, Birmingham: Packt Publishing

Ltd., 2017.

[19] D. Mehtaa dan V. Raghavan, “Decision tree approximations of Boolean

functions,” Theoritical Computer Science, no. 270, pp. 609-623, 2002.

[20] S. Gollapudi, Practical Machine Learning, Birmingham: Packt Publishing Ltd.,

2016.

[21] L. Breiman, “Random Forest,” Machine Learning, vol. II, no. 45, pp. 5-32, 2001.

[22] L. Breiman, “Bagging Predictors,” Machine Learning, no. 24, pp. 123-140,

1996.

[23] L. Breiman, “Out of Bag Estimation,” University of California, California, 1996.

[24] R. E. Schapire, “Explaining AdaBoost,” Empirical Inference, vol. V, no. 1, pp.

37-52, 2013.

[25] C. E. Rassmussen dan C. K. I. Williams, Gaussian Process for Machine

Learning, Massachusetts: MIT Press, 2006.

86

[26] M. v. d. Wilk, M. Bauer, S. John dan J. Hensman, “Learning Invariances using

the Marginal Likelihood,” dalam Conference on Neural Information Processing

Systems, Montreal, Canada, 2018.

[27] B. E. Boser, I. M. Guyon dan V. N. Vapnik, “ A Training Algorithm for Optimal

Margin Classifiers,” dalam Proceedings of the fifth annual workshop on

Computational learning theory – COLT '92, New York, 1992.

[28] M. Kuhn dan K. Johnson, Applied Predictive Modeling, New York: Springer,

2013.

perbandingan akurasi prediksi dan kecepatan proses...

Documents