implementasi extreme learning machine dalam...
TRANSCRIPT
IMPLEMENTASI EXTREME LEARNING MACHINE DALAM
PREDIKSI INTERAKSI PROTEIN HIV-1 DENGAN MANUSIA
BERDASARKAN BARISAN ASAM AMINO
SKRIPSI
Wina Rahmawati
11150940000056
PROGRAM STUDI MATEMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UIN SYARIF HIDAYATULLAH JAKARTA
2020 M / 1441 H
i
IMPLEMENTASI EXTREME LEARNING MACHINE DALAM
PREDIKSI INTERAKSI PROTEIN HIV-1 DENGAN MANUSIA
BERDASARKAN BARISAN ASAM AMINO
Skripsi
Diajukan kepada
Universitas Islam Negeri Syarif Hidayatullah Jakarta
Fakultas Sains dan Teknologi
Untuk Memenuhi Salah Satu Persyaratan Dalam
Memperoleh Gelar Sarjana Matematika (S.Mat)
Oleh :
Wina Rahmawati
11150940000056
PROGRAM STUDI MATEMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UIN SYARIF HIDAYATULLAH JAKARTA
2020 M / 1441 H
ii
PERNYATAAN
iii
LEMBAR PENGESAHAN
iv
v
PERSEMBAHAN DAN MOTTO
PERSEMBAHAN
Kepada Rabb Yang Maha Esa
Yang telah memberikan berbagai macam nikmat dan karunia kepada
penulis hingga detik ini
Kepada Ayah dan Ibu Tercinta
Terima kasih ayah dan ibu untuk semua hal yang telah adinda terima.
Adinda paham bahwa kesuksesan adinda hingga detik ini tidak terlepas
dari segala usaha dan do’a ayah dan ibu. Maafkan adinda kalau selama
ini adinda belum dapat membuat bangga ayah dan ibu dengan kehadiran
adinda.
MOTTO
“Sungguh, orang-orang yang beriman dan mengerjakan
kebajikan, mereka itu adalah sebaik-baik makhluk.”
(Q.S. Al-Bayyinah[98] ayat 7)
vi
KATA PENGANTAR
Puji syukur penulis ucapkan kehadirat Allah Yang Maha Esa atas segala
rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan skripsi yang
berjudul “Implementasi Extreme Learning Machine dalam Prediksi Interaksi
Protein HIV-1 dengan Manusia berdasarkan Barisan Asam Amino”.
Skripsi ini merupakan persyaratan bagi penulis untuk bisa memperoleh gelar
sarjana. Dalam penulisan skripsi ini penulis memperoleh pembelajaran berharga
seperti kerja keras, pantang menyerah dalam mencapai tujuan, dan melatih
kesabaran.
Dalam penyusunan skripsi ini, penulis memperoleh banyak motivasi,
dukungan, inspirasi, bimbingan, do‟a, serta saran dan kritikan dari berbagai pihak
sehingga skripsi ini dapat terselesaikan dengan baik. Oleh karena itu, penulis
ingin menyampaikan rasa terima kasih penulis kepada :
1. Prof. Dr. Lily Surayya Eka Putri, M.Env.Stud, selaku Dekan Fakultas
Sains dan Teknologi Universitas Islam Negeri Syarif Hidayatullah
Jakarta.
2. Dr. Suma‟inna, M.Si, selaku Ketua Program Studi Matematika Fakultas
Sains dan Teknologi UIN Jakarta dan sebagai dosen pembimbing I yang
telah memberikan masukan kepada penulis dalam menyelesaikan skripsi
ini.
3. Irma Fauziah, M.Sc, selaku Sekretaris Program Studi Matematika
Fakultas Sains dan Teknologi UIN Jakarta dan dosen pembimbing
akademik.
vii
4. Mohamad Irvan Septiar Musti, M.Si, sebagai pembimbing II, terima kasih
atas pengarahan, pembelajaran, motivasi, dan senantiasa bersabar untuk
memberikan banyak sekali saran dan bantuan kepada penulis dalam
menyelesaikan skripsi ini.
5. Dr. Taufik Edy Sutanto, MScTech, sebagai penguji I yang telah
memberikan masukan kepada penulis dalam menyelesaikan skripsi ini
6. Muhammad Manaqib, M.Sc, sebagai penguji II yang telah memberikan
masukan kepada penulis dalam menyelesaikan skripsi ini.
7. Bapak Yusuf dan Bapak Deni, selaku pengawas laboratorium Matematika
yang telah mengizinkan peneliti menggunakan laboratorium komputer
matematika.
8. Seluruh Ibu dan Bapak Dosen Program Studi Matematika yang telah
memberikan ilmunya dan pengalaman yang bermanfaat.
9. “My Super Humans”, kedua orang tua peneliti, Winarto dan Sunaeni,
yang tidak pernah berhenti berdo‟a untuk kesuksesan penulis,
memberikan kasih sayang, semangat, serta dukungan sehingga penulis
dapat menyelesaikan skripsi ini dengan baik.
10. Adik tercinta Yuda Isnanto yang telah memberikan dukungan dan
semangat kepada penulis dalam menyelesaikan skripsi ini.
11. Seluruh teman-teman Matematika 2015, terutama Afra, Eka, Vernia,
Rara, Indri, Early, Nurul, Nengtya, Nadya yang telah menemani susah
senang peneliti dalam perkuliahan ini mulai semester awal, Ery yang
menjadi teman seperjuangan tigaraksa di jurusan ini dan senantiasa
memotivasi penulis dalam menyusun skripsi ini, Shinta yang telah
membantu peneliti dalam memahami bahasa python dan teman lab serta
perpustakaan, dan Rahil yang menjadi teman lab dan perpustakaan dalam
menyusun skripsi ini.
12. Ika Putri Puji Lestari yang telah membantu peneliti dalam memahami data
serta permasalahan interaksi protein dan global encoding.
viii
13. Kepada teman-teman seperjuangan Komda FST 2017 terutama Nada,
Firdha dan Yanti. Terima kasih atas semangat dan do‟a sehingga penulis
bisa menyelesaikan skripsi ini.
14. Seluruh pihak yang telah membantu penulis dalam menyelesaikan skripsi
ini yang tidak bisa penulis sebutkan satu-persatu tanpa mengurangi rasa
hormat.
Penulis menyadari bahwa dalam penyusunan skripsi ini masih terdapat
banyak kekurangan. Penulis mengharapkan kritik dan saran yang membangun dari
pembaca untuk perbaikan di masa yang akan datang. Terakhir, semoga skripsi ini
bermanfaat bagi penulis dan pembaca sekalian.
Ciputat, 10 Januari 2020
Penulis
ix
LEMBAR PERNYATAAN PERSETUJUAN
PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
ABSTRAK
Wina Rahmawati, Implementasi Extreme Learning Machine dalam Prediksi
Interaksi Protein HIV-1 dengan Manusia Berdasarkan Barisan Asam Amino, di
bawah bimbingan Dr. Suma’inna, M.Si dan M. Irvan Septiar Musti, M.Si.
Penelitian untuk mengembangkan metode komputasi dalam memprediksi
interaksi protein secara cepat dan efisien menjadi suatu tantangan tersendiri dalam
penelitian interaksi protein HIV (Human Immunodeficiency Virus) dengan
manusia. Penelitian ini menggunakan data barisan asam amino protein yang akan
di ekstraksi fiturnya menggunakan Global Encoding (GE). Data hasil GE ini
memiliki korelasi cukup tinggi antar variabel bebasnya, sehingga akan
dibandingkan pada data GE yang tidak direduksi dimensinya dengan Principle
Component Analysis (PCA) dan data tanpa PCA. Kemudian kedua data ini akan
dijadikan sebagai data masukan pada model ELM (Extreme Learning Machine)
yang menguji sepuluh fungsi aktivasi berbeda dengan sembilan belas neuron
hidden layer pada ELM. Selain itu, matriks Moore-Penrose generalized Inverse
dihitung menggunakan metode Singular Value Decomposition. Hasil dari
penelitian ini menunjukkan bahwa model terbaik pada data GE tanpa dilakukan
PCA terjadi pada saat dengan fungsi aktivasi multiquadric dan neuron
hidden layer sebanyak 1000 neuron, menghasilkan akurasi sebesar , recall
sebesar , spesifisitas sebesar , presisi sebesar , dan f1-score
sebesar . Kemudian data dengan PCA diperoleh nilai akurasi sebesar
, recall sebesar , spesifisitas sebesar , presisi sebesar ,
dan f1-score sebesar . Dapat disimpulkan bahwa PCA tidak meningkatkan
performa pada model ELM dalam prediksi interaksi protein HIV-1 dan manusia,
sehingga data GE tanpa PCA memiliki performa lebih tinggi daripada data GE
dengan PCA.
Kata Kunci : Global Encoding, Extreme Learning Machine, Matriks Moore-
Penrose Generalized Inverse, Singular Value Decomposition, Principal
Component Analysis
i
ABSTRACT
Wina Rahmawati Implementation of Extreme Learning Machine in Predicting
Protein Interaction of HIV-1 and Humans Based On Amino Acid Sequences, by
Dr. Suma’inna, M.Si dan M. Irvan Septiar Musti, M.Si.
Research to develop computational methods in predicting protein interactions
quickly and efficiently becomes a challenge in research into the interaction of
HIV proteins (Human Immunodeficiency Virus) with humans. This research uses
protein amino acid sequences that will be extracted using Global Encoding (GE)
features. This GE data has a fairly high correlation between independent variables,
so it will be compared to GE data that are not reduced in dimensions with
Principle Component Analysis (PCA) and data without PCA. Then these two data
will be used as input data on the ELM (Extreme Learning Machine) model which
hyperparameter is used ten different activation functions with nineteen hidden
neurons in ELM. In addition, the generalized Inverse Moore-Penrose matrix is
calculated using the Singular Value Decomposition method. The results of this
research that the best model of data without PCA occurs when L = 2 with
multiquadric and hidden neuron activation functions of 900 neurons, resulting in
an accuracy of 69,5%, recall of %, specificity %, precision %, and
precision f1 score of %. Then for the best model on data with PCA obtained
an accuracy value of 62.5%, recall of 70,1%, specificity of 54,6%, precision of
63.9%, and f1-score of 58.9%. It can be concluded that PCA did not improve the
performance of the ELM model in predicting the interaction of HIV-1 and human
proteins, and data GE without PCA has higher perform than GE with PCA.
Keywords : Global Encoding, Extreme Learning Machine, Moore-Penrose
Generalized Inverse, Singular Value Decomposition, Principal Component
Analysis
ii
DAFTAR ISI
PERNYATAAN................................................................................................................. ii
LEMBAR PENGESAHAN ............................................................................................. iii
KATA PENGANTAR ...................................................................................................... vi
LEMBAR PERNYATAAN PERSETUJUAN ............................................................... ix
ABSTRAK ...........................................................................................................................
ABSTRACT ........................................................................................................................ i
DAFTAR ISI...................................................................................................................... ii
DAFTAR TABEL ............................................................................................................ iv
DAFTAR GAMBAR ......................................................................................................... v
BAB I PENDAHULUAN .................................................................................................. 1
1.1 Latar Belakang ........................................................................................... 1
1.2 Rumusan Masalah ...................................................................................... 6
1.3 Batasan Masalah ......................................................................................... 6
1.4 Tujuan Penelitian ....................................................................................... 6
1.5 Manfaat Penelitian ..................................................................................... 7
BAB II LANDASAN TEORI ........................................................................................... 8
2.1 Interaksi Protein ......................................................................................... 8
2.2 Human Immunodeficiency Virus ............................................................... 8
2.3 Artificial Neural Network ............................................................................ 9
2.4 Fungsi Aktivasi ......................................................................................... 11
2.5 Feedforward Neural Network ................................................................... 12
2.6 Vektor ........................................................................................................ 13
2.7 Matriks ...................................................................................................... 13
2.8 Nilai Eigen dan Vektor Eigen .................................................................. 14
2.9 Singular Value Decomposition ................................................................. 14
2.10 Matriks Moore-Penrose Generalized Inverse ........................................ 19
2.11 Principle Component Analysis (PCA) .................................................... 19
2.12 Hold-Out .................................................................................................. 20
2.13 Grid Search Cross Validation ................................................................. 20
2.14 Evaluasi Performa Model ...................................................................... 21
BAB III METODOLOGI PENELITIAN ..................................................................... 21
iii
3.1 Data Penelitian .......................................................................................... 21
3.2 Global Encoding ........................................................................................ 22
3.3 Extreme Learning Machine ...................................................................... 27
3.4 Alur Penelitian .......................................................................................... 34
BAB IV HASIL DAN PEMBAHASAN ........................................................................ 37
4.1 Karakteristik Data Hasil Global Encoding ............................................ 37
4.2 Data Hasil PCA ......................................................................................... 46
4.3 Hasil Grid Search CV ............................................................................... 50
4.4 Hasil Evaluasi Model ................................................................................ 52
BAB V PENUTUP ........................................................................................................... 51
5.1 Kesimpulan ............................................................................................... 51
5.2 Saran .......................................................................................................... 52
REFERENSI .................................................................................................................... 51
LAMPIRAN..................................................................................................................... 51
iv
DAFTAR TABEL
Tabel 2.1 Fungsi Aktivasi .................................................................................... 11
Tabel 2.2 Confusion Matrix .................................................................................. 21 Tabel 3.1 Sifat Fisiokimia Protein .................................................................................... 22
Tabel 3.2 Data Ilustrasi Extreme Learning Machine........................................................ 30
Tabel 3.3 Bobot Awal dari Data Ilustrasi ......................................................................... 31
Tabel 3.4 Hasil Klasifikasi dari Data Ilustrasi ................................................................. 33
Tabel 4.1 Statistika Deskriptif Parameter .............................................................. 37 Tabel 4.2 Statistika Deskriptif Parameter .............................................................. 38
Tabel 4.3 Statistika Deskriptif Parameter .............................................................. 38
Tabel 4.4 Statistika Deskriptif Parameter .............................................................. 38
Tabel 4.5 Statistika Deskriptif Parameter .............................................................. 39
Tabel 4.6 Nilai Korelasi Hasil Global Encoding.............................................................. 42
Tabel 4.7 Nilai Explained Variance Ratio ....................................................................... 46
Tabel 4.8 Korelasi Antar Variabel PCA ........................................................................... 46
Tabel 4.9 Statistika Deskriptif PCA dari ............................................................... 47
Tabel 4.10 Statistika Deskriptif PCA dari ............................................................. 47
Tabel 4.11 Statistika Deskriptif PCA dari ............................................................. 48
Tabel 4.12 Statistika Deskriptif ............................................................................. 48
Tabel 4.13 Statistika Deskriptif ............................................................................. 49
Tabel 4.14 Nilai Korelasi Antar Variabel PC ................................................................... 49
Tabel 4. 15 Hasil Grid Search CV pada Data Train ........................................................ 50
Tabel 4. 16 Hasil Grid Search CV pada Data PCA ......................................................... 51
Tabel 4.17 Hasil Evaluasi Model Data Tanpa PCA ......................................................... 52
Tabel 4.18 Hasil Evaluasi Model pada Data Dengan PCA .............................................. 53
Tabel 4.19 Total Waktu Pengerjaan Data Tanpa PCA ..................................................... 53
Tabel 4.20 Total Waktu Pengerjaan Data dengan PCA ................................................... 38
v
DAFTAR GAMBAR
Gambar 1.1 Grafik Penderita HIV Menurut UNAIDS [18] .................................. 2
Gambar 1.2 Grafik Penderita HIV Menurut Kementrian Kesehatan RI [19] ........ 2
Gambar 2.1 Jaringan Syaraf Biologis Manusia [5] ............................................ 10 Gambar 3.1 Diagram Alur Global Encoding....................................................... 26
Gambar 3.2 Jaringan Arsitektur Extreme Learning Machine.............................. 30
Gambar 3.3 Diagram Alur Extreme Learning Machine ...................................... 34
Gambar 3.4 Diagram Alur Penelitian .................................................................. 36 Gambar 4.1 Scatter Plot ........................................................................................ 39
Gambar 4.2 Scatter Plot ........................................................................................ 40
Gambar 4.3 Scatter Plot ........................................................................................ 40
Gambar 4.4 Scatter Plot ........................................................................................ 41
Gambar 4.5 Scatter Plot ........................................................................................ 41
Gambar 4.6 Heatmap Korelasi ............................................................................. 43
Gambar 4.7 Heatmap Korelasi ............................................................................. 44
Gambar 4.8 Heatmap Korelasi ............................................................................. 44
Gambar 4.9 Heatmap Korelasi ............................................................................. 45
Gambar 4.10 Heatmap Korelasi ........................................................................... 45
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Allah Subhanahu wa Ta’ala telah menurunkan Al-Qur‟an hanya kepada
manusia sebagai pedoman hidup yang berisi kabar gembira dan peringatan-
peringatan. Hal tersebut agar manusia dapat memanfaatkan akal pikirannya
dengan baik. Allah memberikan perumpaan sebagaimana dalam Qur‟an Surat
(Q.S) Al-Hasyr ayat 21:
وتلك المث عا من خشية الله ذا القرآن على جبل لرأيته خاشعا متصد رب لو أنزلنا ه ها للنهاس لعلههم ال ن
﴾١٢﴿ يتفكهرون
Artinya : “Sekiranya Kami turunkan Al-Qur‟an ini kepada sebuah gunung,
pasti kamu akan melihatnya tunduk terpecah belah disebabkan takut kepada
Allah. Dan perumpamaan-perumpamaan itu Kami buat untuk manusia agar
mereka berpikir.”
Ayat tersebut memberikan perumpamaan andai Al-Qur‟an diturunkan pada
gunung-gunung, tentulah gunung-gunung itu akan tunduk kepada Allah
dikarenakan takut kepada-Nya. Sejatinya Allah menginginkan agar manusia
menggunakan akal dan pikirannya untuk berpikir. Begitu banyak ciptaan Allah di
bumi ini agar membuat manusia menjadikan akal, pikiran, dan perasaannya
dengan baik. Salah satu ciptaan Allah yang luar biasa adalah sebuah virus. Virus
adalah suatu benda mati yang dikenal sebagai penyebab berbagai penyakit. Virus
disebut benda mati karena virus tidak dapat melakukan metabolisme sendiri
sehingga virus bergantung pada inang yang ditempatinya [1]. Virus tidak
berkembang biak, melainkan ia melakukan replikasi dengan bantuan sel inang
yang ditumpanginya. Salah satu virus yang mematikan adalah virus Human
Immunodeficiency Virus (HIV) yang menyebabkan penyakit Acquired
Immunodeficiency Syndrome (AIDS) pada manusia. Virus tersebut dikatakan
2
mematikan karena virus tersebut langsung menginfeksi sel yang berperan penting
dalam sistem kekebalan tubuh manusia.
Gambar 1.1 merupakan grafik penderita HIV dari seluruh dunia pada tahun
2016 menurut Joint United Nations Programme on HIV and AIDS (UNAIDS),
jumlah penderita HIV dari tahun 2010 sampai tahun 2015 selalu mengalami
peningkatan. Berdasarkan Gambar 1.2 menurut Kementrian Kesehatan Republik
Indonesia pada tahun 2018, jumlah penderita HIV di Indonesia dari tahun 2007
sampai tahun 2018 selalu mengalami peningkatan. Menurut Minda Azhar,
seseorang yang terkena virus HIV umumnya terinfeksi oleh jenis virus HIV tipe 1
(HIV-1) dari pada jenis virus HIV Tipe 2 (HIV-2) [1].
Gambar 1.1 Grafik Penderita HIV Menurut UNAIDS [18]
Gambar 1.2 Grafik Penderita HIV Menurut Kementrian
Kesehatan RI [19]
3
Virus HIV-1 menginfeksi manusia dengan cara melakukan interaksi antar
protein virus dengan manusia sebagai inangnya [1]. Permukaan virus HIV-1 yang
mengandung protein glikoprotein (gp120) akan mengikat protein pada reseptor
CD4 (Cluster of Differentiation) sehingga virus menyatu dengan membran sel
CD4. Kemudian dengan bantuan enzim reverse transcriptase virus mensintesa
ssRNA menjadi DNA di dalam inti sel Limfosit-T yang nantinya sebagai cikal
bakal virus baru. Virus HIV menyerang sel yang berperan penting dalam sistem
kekebalan tubuh manusia yang memiliki reseptor CD4, dimana umumnya sel
yang merepresentasikan CD4 adalah sel Limfosi-T, sehingga terjadi perakitan
virus baru di dalamnya. Seteleh itu, virus baru terbentuk dan lepas dari sel
Limfosit-T. Kemudian terjadi pematangan virus yang kemudian siap untuk
menginfeksi sel Limfosit-T lainnya.
Metode pengembangan pengobatan penderita HIV terus dilakukan seperti
Reverse Transcriptase Inhibitor, Protease Inhibitor, Fusion Inhibitor, dan
Antiretroviral Therapy. Semua metode pengobatan tersebut memiliki prinsip yaitu
dengan cara menginhibisi enzime reverse transcriptase untuk mencegah sintesis
DNA HIV-1 dari genom RNA dan mekanisme pengakhiran rantai. Semua
pengobatan tersebut dilakukan untuk menghentikan interaksi protein virus HIV-1
ke dalam sel Limfosit-T sebelum virus HIV-1 itu berinteraksi dengan protein sel
Limfosit-T. Oleh karena itu, pada penelitian ini akan dilakukan penelitian
mengenai interaksi protein antara HIV-1 dan manusia.
Penelitian untuk memprediksi interaksi protein telah banyak dilakukan.
Berawal dari metode eksperimental seperti Yeast Two Hybrid (Y2H), Tandem
Affinity Purification (TAP), dan Mass Spectrometric Protein Complex
Identification (MS-PCI). Akan tetapi, metode ini mempunyai kekurangan yaitu
memakan waktu dan biaya cukup banyak [2]. Kemudian muncullah sebuah
metode komputasi untuk menangani masalah tersebut. Metode komputasi
umumnya dilakukan dengan beberapa pendekatan berdasarkan jenis data seperti
informasi genomik, domain protein, struktur protein, atau barisan asam amino
protein [2]. Di antara pendekatan tersebut, data barisan asam amino meningkat
4
secara eksponensial [1]. Oleh karena itu, pada penelitian ini digunakan data
barisan asam amino dari protein HIV-1 dan protein manusia untuk memprediksi
interaksi antar protein HIV-1 dan manusia.
Metode komputasi untuk memprediksi interaksi protein berdasarkan data
barisan asam amino terdapat dua tahapan utama, yaitu metode ekstraksi fitur dan
model klasifikasi [2]. Pada tahap pertama, dilakukan ekstraksi fitur yang bertujuan
mengubah data barisan asam amino menjadi vektor fitur untuk model klasifikasi.
Pemilihan metode ekstraksi fitur yang tepat sangat penting dilakukan karena dapat
dapat meningkatkan performa model. Salah satu ekstraksi fitur yang baik dalam
merepresentasikan barisan asam amino adalah global encoding [2]. Metode
tersebut telah mampu meningkatkan performa model weighted sparse
representation dengan menghasilkan akurasi tertinggi sebesar , presisi
sebesar , dan sensitivitas sebesar [2].
Tahap kedua ialah melakukan prediksi interaksi protein menggunakan model
pembelajaran mesin. Pembelajaran mesin adalah suatu bidang ilmu atau model
pembelajaran komputer berdasarkan pada data yang ada untuk memperoleh suatu
pengetahuan atau informasi dari data tersebut [3]. Terdapat berbagai model
pembelajaran mesin yang telah dikembangkan seperti metode Artificial Neural
Network (ANN) [4]. ANN menarik digunakan karena metode tersebut
didasarkan pada jaringan syaraf biologis manusia [5]. Telah banyak penelitian
yang mengembangkan ANN, salah satu model dari ANN adalah Extreme
Learning Machine (ELM) yang dikenalkan oleh Huang, Zhu, & Siew (2006).
Pada penelitian tersebut, ELM digunakan pada data penderita diabetes yang
dibandingkan dengan Support Vector Machine (SVM), dan Feedforward Neural
Network (FNN). Dalam penelitian tersebut metode SVM menghasilkan performa
sebesar dalam waktu detik, FNN dalam waktu
detik, dan ELM dalam waktu detik [6]. Terlihat bahwa metode
ELM memiliki performa tertinggi dan waktu yang lebih cepat dibandingkan dua
metode lainnya. Pada tahun 2012, You, Lei, Zhu, Xia, & Wang menggunakan
metode Principle Component Analysis Ensemble-ELM (PCA-EELM) untuk
5
memprediksi interaksi protein pada data Saccharromyces cerevisiae. PCA pada
penelitian tersebut digunakan sebagai ekstraksi fitur dan reduksi dimensi yang
menghasilkan prediksi akurasi sebesar , sensitivitas sebesar dan
presisi sebesar [3].
Penelitian terkait prediksi interaksi protein antara HIV dan manusia
berdasarkan barisan asam amino pernah diteliti oleh Saud, Byungkyu, Xiang,
Huang, dan Han pada tahun 2018 meneliti mengenai prediksi interaksi protein
antara virus HIV dan manusia. Pada penelitian ini, ekstraksi fitur yang digunakan
dengan menggunakan Repeat Pattern dan Komposisi Barisan Asam amino yang
dikombinasikan dengan SVM [7]. Kemudian pada tahun 2017, D. Lestari, M.IS.
Musti, dan A. Bustaman meneliti tentang prediksi interaksi protein HIV-1 dengan
manusia menggunakan global encoding yang dikombinasikan dengan rotation
forest ensemble classifier [8]. A. Bustaman, M.I.S. Musti, Susilo, Shirley, Patuan,
dan Tampubolon pada tahun 2019 performa rotation forest ensemble classifier
yang dikombinasikan dengan global encoding untuk memprediksi interaksi
protein HIV-1 dan manusia berdasarkan barisan asam amino [9].
Global Encoding memiliki kelemahan yaitu pada permasalahan kompleksitas
waktu yang tinggi baik pada ekstraksi fitur maupun pada pembangunan model [8]
[9]. Model extreme learning machine dikarenakan memiliki kompleksitas waktu
yang lebih cepat dan performa lebih tinggi daripada metode SVM dan
backpropagation kemungkinan mampu untuk menangani permasalahan yang ada
pada global encoding. Berdasarkan pemaparan tersebut, disimpulkan bahwa
model ELM merupakan salah satu model yang dapat dipakai untuk digunakan
dalam memprediksi interaksi protein berdasarkan data barisan asam amino. ELM
itu sendiri belum pernah dipakai untuk diterapkan pada permasalahan mengenai
prediksi interaksi protein HIV dan manusia berdasarkan barisan asam amino. Pada
penelitian ini, metode ELM akan diaplikasikan pada data barisan asam amino
protein HIV-1 dan protein manusia dimana ekstraksi fitur yang digunakan adalah
global encoding dengan * +.
6
1.2 Rumusan Masalah
Rumusan masalah yang akan dibahas dalam penelitian ini adalah :
1. Bagaimana karakteristik data yang dihasilkan dari metode esktraksi fitur
global encoding.
2. Bagaimana performa extreme learning machine pada data yang direduksi
dimensinya dan data yang tidak direduksi untuk memprediksi interaksi
protein HIV-1 dan manusia.
1.3 Batasan Masalah
Batasan masalah dari penelitian ini adalah :
1. Data yang digunakan adalah data barisan asam amino interaksi protein
HIV-1 dengan manusia.
2. Metode ekstraksi fitur yang digunakan adalah global encoding dengan
parameter * +.
3. Model prediksi yang digunakan adalah extreme learning machine yang
diperkenalkan oleh Huang, Zhu, & Siew [6].
4. Banyaknya neuron di hidden layer yang dipilih yaitu 10, 20, 30, 40, 50,
60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, dan 1000.
Serta fungsi aktivasi yang digunakan fungsi aktivasi sine, sigmoid, tangen
hiperbolik, multiquadric, triangular basis, invers triangular basis, hard
limit, soft limit, gaussian, dan invers multiquadric.
5. Penentuan Matriks Moore-Penrose generalize inverse menggunakan
Singular Value Decomposition.
1.4 Tujuan Penelitian
Adapun tujuan dalam penelitian ini adalah :
1. Melihat karakteristik data yang dihasilkan dari metode ekstraksi fitur
global encoding.
2. Mengimplementasikan model extreme learning machine pada data yang
direduksi dimensinya dan data yang tidak direduksi dalam memprediksi
interaksi protein HIV-1 dengan manusia.
7
1.5 Manfaat Penelitian
Peneliti mengharapkan implementasi dari model extreme learning machine
pada kasus ini dapat dijadikan sebagai referensi untuk mengembangkan model
extreme learning machine selanjutnya. Peneliti juga mengharapkan bahwa model
yang dihasilkan dapat memberikan informasi mengenai interaksi protein manusia
dengan HIV-1, sehingga bisa dikembangkan untuk penelitian HIV-1 selanjutnya.
8
BAB II
LANDASAN TEORI
2.1 Interaksi Protein
Protein dilihat dari adalah suatu urutan asam amino yang terbentuk oleh
ikatan peptida antara residu asam amino yang berada dalam suatu rantai protein
[1]. Ikatan peptida yang dimaksud merupakan suatu ikatan kovalen yang
terbentuk antara dua sampai beberapa buah dari asam amino yang ditandai dengan
hilangnya air ketika asam amino ini saling berikatan. Protein dalam
keberlangsungan hidupnya harus melakukan interaksi dengan protein lainnya agar
dapat menjalankan fungsi dengan sebaik mungkin [2]. Interaksi protein adalah
proses bertemunya dua atau lebih molekul protein yang kemudian terjadi reaksi
metabolisme untuk keberlangsungan hidupnya [1].
2.2 Human Immunodeficiency Virus
Human Immunodeficiency Virus (HIV) adalah salah satu virus yang
mematikan bagi manusia karena virus tersebut langsung menyerang sel manusia
yang berperan dalam menjaga sistem kekebalan tubuh. Virus ini merupakan virus
yang menyebabkan penyakit autoimun Acquired Immunodeficiency Syndrome
(AIDS). AIDS merupakan gejala `lanjutan yang lebih serius dari infeksi virus
tersebut. Virus ini dikategorikan Grup VI yang memiliki single-stranded RNA
dan menggunakan enzim riverse transcriptase sebagai bantuan untuk melakukan
replikasi. Virus ini memiliki dua macam jenis virus, yaitu virus HIV-1 dan HIV-2.
Menurut Minda Azhar, virus HIV-1 lebih umum menginfeksi manusia daripada
HIV-2 [1].
Dalam siklus hidupnya, mula-mula protein permukaan virus tersebut yang
mengandung glikoprotein160 (gp160) dan glikoprotein120 (gp120) berikatan
dengan reseptor Cluster of Differentiation (CD4) pada sel helper T lymphocytes
yang berperan sebagai sistem kekebalan tubuh manusia. Kemudian lapisan lipid
virus menyatu dengan membran sel dimana nantinya inti virus akan memasuki sel.
Dengan bantuan enzim reverse transcriptase, terjadi proses sintesa single
9
stranded Ribonucleic Acid (ssRNA) virus menjadi Deoxyribonucleic Acid (DNA)
di dalam sel. Kemudian dengan bantuan enzim polimerase DNA tersebut diubah
untuk menghasilkan RNA dan messenger-RNA (mRNA). RNA dan mRNA yang
terbentuk keluar dari inti sel dan ditranslasi di luar inti sel yang kemudian terjadi
perakitan virus baru. Virus baru yang terbentuk lepas dari sel dan terjadi
pematangan virus. Kemudian virus tersebut siap untuk menginfeksi sel helper T
lymphocytes lainnya.
Sedikitnya terdapat 9 genom yang bertanggung jawab dalam kelangsungan
hidup virus HIV-1 yaitu env, gag, pol, rev, tat, vif, vpr, vpu, dan nef [6]. Semua
genom tersebut berperan dalam proses interaksi antara protein virus dan protein
manusia. Interaksi antara protein HIV-1 dengan protein manusia memiliki 43
kategori tipe interaksi. Namun pada penelitian ini perbedaan tipe interaksi tidak
diperhatikan sehingga hanya dipilih dua kategori interaksi yaitu protein yang
saling berinteraksi dan yang tidak berinteraksi.
2.3 Artificial Neural Network
Artificial Neural Network (ANN) merupakan salah satu dari metode
pembelajaran mesin. Metode pembelajaran mesin adalah sebuah metode yang
digunakan untuk memperoleh informasi dengan cara membangun model
berdasarkan data [3]. ANN merupakan sebuah metode yang unik dan menarik
dikarenakan metode tersebut memiliki prinsip kerja seperti jaringan syaraf
biologis pada manusia [5]. Neuron dalam jaringan syaraf biologis diartikan
sebagai sebuah saklar yang menyimpan informasi berupa masukan dan keluaran
[5]. Neuron yang satu dengan neuron yang lain terhubung oleh koneksi khusus
yang disebut synapsis. Dendrites seperti cabang batang pohon berfungsi
menerima sinyal listrik yang diperoleh dari berbagai sumber. Kemudian sinyal
dari dendrites akan ditransfer ke nucleus atau inti sel. Di nucleus dan cell body
sinyal-sinyal yang masuk diakumulasikan dan dilakukan pembangkitan sinyal
keluar pada axon. Axon bertugas menyampaikan informasi ke dendrites jenis sel
syaraf lain.
10
Penerapan pada jaringan syaraf biologis ke ANN, terdiri dari tiga layer yaitu
input layer, hidden layer, dan output layer. Input layer berisikan data berbentuk
matriks yang ingin dilatih menggunakan model ANN. Hidden layer berisikan
hasil dari fungsi linear dan fungsi aktivasi. Ouput layer berisikan sebuah keluaran
dari proses pengaliran sinyal dari input layer menuju hidden layer hingga tiba
pada oiutput layer. Setiap layer berisikan neuron-neuron yang saling terhubung
dengan layer lainnya. Neuron yang satu dengan neuron yang lain terhubung
mengalirkan sinyal, yang mana setiap setiap penghubung memiliki bobot yang
bersesuaian. Setiap neuron menerima input berupa bobot, dan menghasilkan
output dari fungsi penjumlahan bobot dan fungsi aktivasi. Kemudian bobot
tersebut akan dialirkan menuju neuron di layer berikutnya. Proses mengalirkan
sinyal dari input layer sampai output layer disebut dengan feedforward neural
network.
Artifical neural Network (ANN) atau Jaringan Syaraf Tiruan pertama kali
diperkenalkan oleh Warren McCulloch dan Walter Pitts pada tahun 1943 [10].
Mereka memperkenalkan sebuah kombinasi beberapa proses sederhana yang
kemudian diformulasikan menjadi model matematis sel otak. Kemudian pada
tahun 1950, Rosenblatt menemukan perceptron. Perceptron adalah suatu jaringan
terdiri atas dua layer berhubungan yang memungkinkan pengklasifikasian pola
tertentu dengan penambahan bobot pada setiap aliran sinyal jaringan. Jaringan
pada perceptron memiliki sebuah input layer dan output layer. Fungsi aktivasi
yang digunakan pada perceptron ialah fungsi aktivasi biner atau bipolar [3]. Akan
Gambar 2.1 Jaringan Syaraf Biologis Manusia [5]
11
tetapi, konsep Perceptron memiliki kelemahan yaitu ketidak mampuannya dalam
menyelesaikan pola data tidak linear [11]. Hal tersebut membuat Minsky dan
Papert pada tahun 1969 memperkenalkan Multilayer Perceptron untuk menangani
masalah tersebut. Multilayer Perceptron adalah ANN yang setidaknya memiliki
tiga layer berhubungan yaitu satu input layer, satu hidden layer, dan sebuah
output layer. Dengan adanya hidden layer, fitur yang tersembunyi dapat
direpresentasikan melalui bobot keluaran dari hidden layer yang akan dijadikan
keputusan model setelah melalui output layer. Di hidden layer ini juga dapat
menggunakan sembarang fungsi kontinu dari bobot input layer sehingga dapat
memisahkan data dengan pola tidak linear [11].
2.4 Fungsi Aktivasi
Fungsi aktivasi adalah suatu fungsi yang digunakan untuk menghasilkan
keluaran dari suatu neuron berdasarkan masukan dan proses yang dilakukan [10].
Fungsi itu sendiri memiliki arti bahwa untuk setiap elemen di daerah asal
dipetakan ke tepat satu pada daerah hasil. Digunakannnya fungsi ini bertujuan
untuk membuat keputusan apakah neuron tersebut harus aktif atau tidak.
Misalkan adalah suatu variabel masukan pada fungsi aktivasi yang mana
anggota dari bilangan real. Dibawah ini beberapa fungsi aktivasi yang sering
digunakan [12] :
Tabel 2.1 Fungsi Aktivasi
Nomor Fungsi Aktivasi Persamaan Fungsi Aktivasi Daerah Hasil
1 Sine ( ) ( ) , -
2 Sigmoid ( )
( )
3 Tangent
Hiperbolik ( )
( )
4 Multiquadric ( ) √ ( ) , ( )
Gambar 2.1 Ilustrasi neuron secara biologi [1]
12
5 Inverse
Multiquadric ( )
√ ( ) ,
( )
6 Triangular Basis ( ) { | | | |
, )
7 Invers Triangular
Basis ( ) {
| | | |
, )
8 Hard Limit ( ) 2
atau
9 Soft Limit ( ) 2
atau
10 Gaussian ( ) ( -
2.5 Feedforward Neural Network
Feedforward Neural Network (FNN) diperkenalkan pertama kali oleh
Rosenblatt pada tahun 1962 [10]. Ia memperkenalkan FNN bersamaan dengan
perceptron yang hanya memiliki 2 layer, yaitu input layer dan output layer.
Namun, FNN pada saat ini berupa perceptron layer jamak (Multi-layer
perceptron) yang terdiri dari setidaknya tiga layer yaitu satu input layer, satu
hidden layer, dan satu output layer [11]. Saat ini, hidden layer bisa diperbanyak
menjadi lebih dari satu lapisan. Prinsip dari FNN yaitu sinyal pada input layer
dialirkan dengan arah maju menuju hidden layer sampai pada output layer.
Setiap layer di jaringan mempunyai fungsi khusus masing-masing. Input
layer berfungsi menerima sinyal atau data masukan berupa matriks. Hidden layer
berfungsi untuk mendeteksi fitur tersembunyi yang biasanya digunakan sebuah
fungsi untuk menonlinearkan model. Keluaran dari hidden layer digunakan oleh
output layer sebagai keluaran akhir.
13
2.6 Vektor
Vektor dapat diartikan sebagai satu atau lebih bilangan yang berpasangan dan
dapat dinyatakan pada suatu sistem koordinat [13]. Vektor memiliki beberapa
operasi perhitungan yang salah satunya adalah hasil kali dalam. Misalkan
( ) dan ( ) adalah dua vektor tak nol. Hasil kali
titik dan sebagai berikut :
(2.1)
2.7 Matriks
Matriks adalah sekumpulan informasi yang umumnya berupa data numerik
tersusun oleh baris dan kolom yang dibatasi oleh kurung sehingga membentuk
sebuah jajaran persegi panjang [13]. Matriks memiliki beberapa perhitungan yang
disebut operasi pada matriks. Contoh dari operasi matriks yaitu matriks tranpose
dan matriks invers. Misalkan adalah sebuah matriks yang memiliki orde .
Matriks tranpose dari dapat dinotasikan sebagai , didefiniskan sebagai
menukar antara baris matriks menjadi kolom dan kolom matriks A menjadi
baris matriks [13]. Untuk mencari sebuah invers dari suatu matriks dapat
dibedakan menjadi dua kondisi yaitu matriks singular dan non singular. Matriks
singular adalah suatu matriks yang tidak memiliki balikan atau determinan dari
matriks tersebut sama dengan nol [13]. Adapun matriks non singular ialah suatu
matriks yang memiliki balikan (inverse) atau nilai determinanya tidak sama
dengan nol [13].
a. Matriks Transpos
Menurut Howard Anthon dan Chris Rorres (2004), jika A adalah matriks
, maka tranpose dari A, dinyatakan sebagai , didefinisikan sebagai
matriks yang didapatkan dengan mempertukarkan baris-baris dan kolom-
kolom dari A; sehingga kolom pertama dari adalah baris pertama dari ,
kolom kedua dari adalah baris kedua dari A, dan seterusnya [13]. Adapun
sifat sifat tranpose matriks sebagai berikut :
1. ( ) (2.2)
14
2. ( ) (2.3)
3. ( ) (2.4)
b. Invers Matriks
Menurut Howard Anthon dan Chris Rorres (2004), jika A adalah matriks
bujursangkar, dan jika terdapat matriks B yang ukurannya sama sedemikian rupa
sehingga , maka A disebut dapat dibalik (invertible) dan B disebut
sebagai invers (inverse) dari A. Jika matriks B tidak dapat didefinisikan, maka A
dinyatakan sebagai matriks singular [13].
Sewaktu-waktu, dapat ditemui terdapat matriks yang bukan bujursangkar.
Kondisi ini apabila matriks A merupakan matriks non singular, sehingga dapat
dihitung dengan menggunakan matriks Moore-Penrose generalized Inverse [6].
2.8 Nilai Eigen dan Vektor Eigen
Misalkan A sebuah matriks , maka vektor eigen dari A merupakan
sebuah vektor tak nol jika Ax adalah sebuah kelipatan skalar dari, atau dapat kita
tulis:
(2.5)
Untuk skalar sembarang . Skalar disebut nilai eigen dari A, dan x disebut
vektor eigen dari A yang terkait dengan [13]. Nilai eigen dapat dicari
menggunakan persamaan karakteristik berikut :
( ) (2.6)
Dimana I merupakan suatu matriks identitas dari A. Kemudian untuk mencari
vektor eigen dari A dapat menggunakan persamaan berikut
( ) (2.7)
2.9 Singular Value Decomposition
Singular Value Decomposition (SVD) pertama kali diperkenalkan oleh
Beltrami dan Jordan pada tahun 1870 untuk mendekomposisi matriks persegi [6].
Saat ini, SVD dapat digunakan untuk mendekomposisi matriks yang bukan
15
persegi. Misalkan A sebuah matriks yang memiliki ordo , SVD matriks A
dinyatakan sebagai berikut :
(2.8)
Dimana U berordo sebuah matriks ortonormal yang dibentuk dari
vektor eigen dari . Matriks V berordo sebuah matriks ortonormal yang
dibentuk dari nilei eigen vektor dari . Kemudian ialah sebuah matriks
diagonal dari vektor yang merupakan akar kuadrat positif dari nilai eigen U.
itu sendiri disebut sebagai nilai singular dari matriks A.
Matriks A yang memiliki ordo dapat kita tentukan invers matriks
tersebut dengan menggunakan SVD. Perhatikan bahwa matriks U dan V
merupakan matriks ortogonal, yang artinya bahwa dan
, sehingga dan [13]. Perhatikan pula bahwa
( ), sehingga (
). Maka invers matriks
A dapat kita tulis sebagai berikut :
(2.9)
Berikut merupakan ilustrasi dalam mencari invers matriks menggunakan SVD.
Misalkan 0
1
0
1 0
1 0
1 (2.10)
Berdasarkan persamaan (2.6) nilai eigen dari matriks B adalah:
( ) (2.11)
.0
1 0
1 0
1/ (2.12)
.0
1 0
1/ (2.13)
0
1 (2.14)
16
(( )( )) , diperoleh nilai dan
Nilai singular A adalah √ √ , sehingga diperoleh :
[
] [√
√ ] (2.15)
Menentukan matriks U yang terlebih dahulu menentukan nilai eigen vektor
berdasarkan persamaan (2.7), sehingga diperoleh :
( )( ) (2.16)
0
1 0 1 (2.17)
Perhatikan bahwa , kemudian substitusikan nilai pada persamaan
(2.17), sehingga diperoleh :
0
1 0 1 (2.18)
dan , atau dapat ditulis . Karena tidak
terdapat keterangan mengenai , maka dapat dinyatakan sebagai suatu
parameter, misalkan . Oleh karena itu, diperoleh :
0 1 0
1 (2.19)
Kemudian untuk disubstitusikan persamaan (2.17) diperoleh :
0
1 0 1 (2.20)
dan , atau dapat ditulis . Karena tidak
terdapat keterangan mengenai , maka dapat dinyatakan sebagai suatu
parameter, misalkan . Oleh karena itu, diperoleh vektor eigen , sebagai
berikut :
0 1 0
1 (2.21)
Selanjutnya, dengan menormalisasikan dan :
17
‖ ‖
√( ) ( ) 0
1 dan
‖ ‖
√( ) ( ) 0
1,
dengan menggabungkan dan diperoleh :
0
1 (2.22)
Tahap selanjutnya menentukan matriks V. Sama seperti mencari matriks U,
perbedannya hanya matriks V merupakan matriks ortonormal dari
0
1 0
1 0
1. Melalui tahapan yang sama seperti mencari
matriks U diperoleh :
( ) (2.23)
.0
1 0
1 0
1/ (2.24)
.0
1 0
1/ (2.25)
0
1 (2.26)
(( )( ) ) (2.27)
(2.28)
( )( ) (2.29)
dan
Menentukan matriks V yang terlebih dahulu menentukan nilai eigen vektor
berdasarkan persamaan (2.7), sehingga diperoleh :
( )( ) (2.30)
0
1 0 1 (2.31)
Perhatikan bahwa , kemudian substitusikan nilai pada persamaan di
atas, sehingga diperoleh :
18
0
1 0 1 (2.32)
dan dengan mencari solusi dari persamaan
tersebut diperoleh , atau dapat ditulis . Karena tidak terdapat
keterangan mengenai , maka dapat dinyatakan sebagai suatu parameter,
misalkan . Oleh karena itu, diperoleh :
0 1 0
1 (2.33)
Kemudian untuk disubstitusikan persamaan di atas diperoleh :
0
1 0 1 (2.34)
dan , dengan mencari solusi dari persamaan
tersebut diperoleh , atau dapat ditulis . Karena tidak
terdapat keterangan mengenai , maka dapat dinyatakan sebagai suatu
parameter, misalkan . Oleh karena itu, diperoleh :
0 1 0
1 (2.35)
Selanjutnya, dengan menormalisasikan dan :
‖ ‖
√( ) ( )
√ [
√
√
] dan
‖ ‖
√( ) ( )
√ [
√
√
]
Dengan menggabungkan dan diperoleh sebuah matriks
[
√
√
√
√
] (2.36)
Apabila matriks U, dan V sudah dihitung secara keseluruhan. Langkah terakhir
ialah mencari matriks menggunakan persamaan (2.9). berdasarkan persamaan
(2.9) diperoleh :
19
[
√
√
√
√
] [
√
√
] 0
1 (2.37)
[
√
√
√
√
] [
] (2.38)
2.10 Matriks Moore-Penrose Generalized Inverse
Misalkan yang berisi output masing-masing neuron hidden layer.
Misalkan juga merupakan bobot antara hidden layer dan output layer, dan
vektor target dari output layer. Misalkan solusi dari sistem linear ,
dimana suatu matriks singular. Untuk menemukan solusi dari sistem linear
tersebut dapat menggunakan matriks Moore-Penrose generalized inverse [6].
Kita tidak bisa menentukan invers dari matriks tersebut dikarenakan matriks
yang dihasilkan bukan matriks persegi. Oleh karena itu, diperlukan invers semu
dari matriks yang disebut matriks Moore-Penrose generalized inverse.
Misalkan matriks H memiliki orde . Menurut Rao dan Mitra (1971),
matriks adalah matriks Moore-Penrose generalized inverse dari matriks H
apabila memenuhi empat syarat berikut :
( ) ( ) (2.39)
Matriks Moore-Penrose generalized inverse ini dapat kita tentukan melalui
beberapa metode seperti Ordinary Least Square (OLS) dan SVD [6]. Metode OLS
dapat digunakan ketika non singular, tetapi tidak selalu non singular,
sehingga metode OLS memiliki kinerja kurang baik di beberapa aplikasi. Adapun
metode SVD secara umum dapat digunakan untuk mencari matriks Moore-
Penrose generalized inverse di semua kasus [14].
2.11 Principal Component Analysis (PCA)
Principal Component Analysis (PCA) pertama kali diperkenalkan oleh Karl
Pearson pada tahun 1901. Prinsip dari metode ini yaitu dengan cara mereduksi
variabel-variabel bebas yang memiliki nilai korelasi yang tinggi dengan cara
20
mempertahankan nilai variansi maksimum dari data sebenarnya ke dalam peubah-
peubah bebas baru yang saling ortogonal dan tidak berkorelasi [3]. peubah-peubah
bebas baru ini disebut principle component yang dapat ditulis sebagai :
[
] [
] [
]
adalah principle component yang merupakan peubah bebas baru
hasil kombinasi linear dari peubah bebas asal , dan
merupakan matriks ciri dari vektor . Metode PCA itu sendiri dalam penentuan
vektor bergantung pada nilai eigen dan vektor eigen. Salah satu metode untuk
menangani permasalahan pada PCA yaitu menggunakan Singular Value
Decomposition.
2.12 Hold-Out
Metode holdout adalah suatu metode untuk membagi data sebanyak dua
bagian yang saling bebas yaitu data training dan data testing [4]. Umumnya, dua
pertiga dari seluruh data dialokasikan sebagai data training, dan sepertiga sisanya
dialokasikan sebagai data testing. Data training digunaan untuk proses dalam
pembentukan sebuah model. Adapaun data testing digunakan untuk melihat
keakuratan model. Pada penelitian ini, dataset yang disiapkan akan dibagi menjadi
data training, dan data testing.
2.13 Grid Search Cross Validation
Kinerja model pada pembelajaran mesin dipengaruhi oleh beberapa
hyperparameter yang diberikan [3]. Hyperparameter adalah parameter yang
ditentukan tanpa proses uji, atau dengan kata lain merupakan parameter yang
tidak ditentukan oleh mesin . Hyperparameter yang diperoleh haruslah merupakan
parameter terbaik yang nantinya akan dimasukkan pada model. Grid Search Cross
Validation (Grid Search CV) adalah salah satu proses untuk melakukan pemilihan
hyperparameter terbaik atau optimal untuk model yang diberikan [15]. Grid
21
Search CV ini melakukan kombinasi antara hyperparameter yang diberikan,
kemudian menghitung rata-rata nilai dari cross validation (CV) dalam
mengevaluasi performa Grid Search. Sebagai contoh, misalkan hyperparameter A
= , - dan B = , - maka Grid Search melakukan kombinasi dari A dan B yaitu
, - , - , - , -. Apabila Grid Search sudah melakukan kombinasi
hyperparameter pada model yang diberikan, kemudian akan memilih kombinasi
terbaik berdasarkan nilai dari rata-rata akurasi tertinggi dari setiap kombinasinya.
2.14 Evaluasi Performa Model
Evaluasi performa model adalah suatu proses untuk menilai seberapa baik
kinerja model yang diperoleh dan diterapkan untuk prediksi pada data baru [16].
Secara umum, dalam mengevaluasi performa model klasifikasi dilakukan dengan
bantuan confusion matrix. Confusion matrix adalah sebuah tabel yang berisikan
banyaknya data yang diprediksi dengan benar atau salah berdasarkan model yang
telah diperoleh. Tabel 2.2 merupakan confusion matrix yang berisikan seberapa
banyak data yang diprediksi dengan benar atau salah. TP (True Positive)
menyatakan jumlah data berinteraksi diprediksi dengan benar. FP (False Positive)
menyatakan jumlah observasi negatif (tidak berinteraksi) yang tidak diprediksi
dengan benar. FN (False Negative) menyatakan jumlah observasi positif (data
berinteraksi) yang tidak diprediksi dengan benar. TN (True Negative) menyatakan
banyaknya observasi negatif (jumlah data tidak berinteraksi) yang diprediksi
dengan benar.
Tabel 2.2 Confusion Matrix
Kelas Sebenarnya Kelas Prediksi
Tidak Berinteraksi Berinteraksi
Tidak Berinteraksi TN FP
Berinteraksi FN TP
22
Kriteria dalam evaluasi performa model klasifikasi yaitu akurasi,
sensitivitas, spesifisitas, presisi, dan F1-score. Berdasarkan tabel 2.1 kriteria
evaluasi performa model diformulasikan sebagai berikut [4]:
Akurasi
(2.40)
Sensitivitas
(2.41)
Spesifisitas
( )
Presisi
(2.43)
F1-Score ( )
( ) (2.44)
Akurasi menggambarkan ukuran sejauh mana prediksi model sesuai dengan
data sebenarnya. Sensitivitas atau Recall adalah proporsi positif yang
diidentifikasi dengan benar [4]. Proporsi positif yang dimaksud pada penelitian ini
yaitu pasangan interaksi antara protein HIV dan manusia. Spesifisitas
mengambarkan ukuran proporsi negatif yang diidentifikasi dengan benar [4].
Proporsi negatif pada penelitian ini yaitu pasangan protein HIV dan manusia yang
tidak saling berinteraksi. Presisi sebagai ukuran yang menunjukkan seberapa
dekat selisih dari hasil dengan nilai sesungguhnya pada saat dilakukan
pengulangan [4]. F-Measure atau F1-Score merupakan kombinasi antara recall
dan presisi.
21
BAB III
METODOLOGI PENELITIAN
3.1 Data Penelitian
Data yang digunakan dalam penelitian ini merupakan data sekunder bulan
Mei 2018 yang diperoleh dari GenBank National Center for Biotechnology
Information (NCBI) yang diakses pada situs https://www.ncbi.nlm.nih.gov/ [17].
Data tersebut berupa barisan asam amino protein HIV-1 dan data barisan asam
amino protein manusia. Terdapat 18.069 pasang data barisan asam amino protein
HIV-1 dengan beberapa tipe interaksi protein. Penelitian ini tidak memperhatikan
tipe interaksi protein yang ada pada data. Hal ini karena penelitian ini berfokus
pada masalah klasifikasi biner, yaitu mengklasifikasi protein HIV yang
berinteraksi dengan protein manusia ataupun yang tidak berinteraksi.
Dalam penelitian ini, data yang diperoleh dibagi menjadi tiga dataset
meliputi dataset berinteraksi, dataset tidak berinteraksi, dan dataset prediksi.
Dataset berinteraksi merupakan data barisan asam amino HIV-1 yang diperoleh
dari database. Dataset tidak berinteraksi diperoleh dengan menyeleksi data barisan
asam amino protein manusia yang tidak terdapat pada dataset berinteraksi.
Sebanyak data barisan asam amino protein manusia diperoleh masih
pada situs yang sama https://www.ncbi.nlm.nih.gov/ (Genome Guide Human).
Dataset berinteraksi dan tidak berinteraksi kemudian dilakukan seleksi untuk
mendapatkan golden dataset. Golden dataset diperoleh dengan cara menghapus
pasangan barisan asam amino yang mempunyai kemiripan , dan
menghapus barisan asam amino yang mempunyai panjang kurang dari residu.
Setelah memperoleh dataset berinteraksi dan tidak berinteraksi, lalu
mempersiapkan dataset prediksi. Dataset prediksi diperoleh dengan cara
menyeleksi secara acak pada dataset yang tidak terdapat pada dataset berinteraksi
dan tidak berinteraksi.
22
3.2 Global Encoding
Global encoding digunakan sebagai metode untuk mengekstraksi fitur barisan
asam amino menjadi vektor fitur berisikan barisan numerik yang dinormalisasi
untuk digunakan pada tahap selanjutnya [2]. Pemilihan ekstraksi fitur yang efektif
sangat penting untuk meningkatkan kinerja model menjadi semakin baik. Dalam
proses ekstraksi fitur ini, global encoding mendeskripsikan secara global urutan
barisan asam amino dengan memperhatikan sifat fisiokimia dari setiap protein
[2]. Sifat fisiokimia protein ditunjukkan Tabel 3.1
Tabel 3.1 Sifat Fisiokimia Protein
Klasifikasi Asam amino Simbol dan Residu
Asam amino alipatik C1 = {A, V, L, I, M, C}
Asam amino aromatik C2 = {F, W, Y, H}
Polar asam amino C3 = {S, T, N, Q}
Positif asam amino C4 = {K, R}
Negatif asam amino C5 = {D, E}
Bentuk spesial C6 = {G, P}
Metode ekstraksi fitur global encoding mula-mula mengelompokkan setiap
barisan asam amino berdasarkan 6 sifat fisiokimia residu asam amino pada Tabel
3.1. Kemudian dari hasil pengelompokkan tersebut akan dibagi 3 kelas berbeda ke
dalam 2 sub himpunan, sehingga diperoleh 10 kelompok barisan asam amino.
Dari 10 kelompok barisan asam amino tersebut ditransformasikan menjadi 10
barisan karakteristik. Tahap selanjutnya yaitu mempartisi 10 barisan karakteristik
yang diperoleh menjadi sub barisan karakteristik. Tahap akhir dari ekstraksi
fitur ini yaitu mengekstraksi fitur vektor dengan menghitung vektor dekomposisi
dan transisi. Langkah-langkah dalam menggunakan ekstraksi fitur global
encoding sebagai berikut.
23
Langkah 1. Transformasi Barisan Asam Amino Protein
Setiap barisan asam amino dikelompokkan sesuai dengan sifat fisiokimia pada
Tabel 3.1 beradasarkan enam kelas residu dari masing-masing protein. Kemudian
dari enam kelas yang diperoleh akan dibagi ke dalam dua sub himpunan yang
berisi tiga kelas berbeda, sehingga diperoleh sepuluh pengelompokan sebagai
berikut :
1. {C1, C2, C3} vs {C4, C5, C6}
2. {C1, C2, C4} vs {C3, C5, C6}
3. {C1, C2, C5} vs {C3, C4, C6}
4. {C1, C2, C4} vs {C3, C5, C6}
5. {C1, C3, C4} vs {C2, C5, C6}
6. {C1, C3, C5} vs {C2, C4, C6}
7. {C1, C3, C6} vs {C2, C4, C5}
8. {C1, C4, C5} vs {C2, C3, C6}
9. {C1, C4, C6} vs {C2, C3, C5}
10. {C1, C5, C6} vs {C2, C3, C4}
Langkah selanjutnya adalah mentransformasikan sepuluh kelompok barisan
yang sudah diperoleh sebelumnya menjadi sepuluh barisan karakteristik ( )
. Misalkan barisan asam amino, dan
residu asam amino ke . Sebagai ilustrasi akan ditentukan dua barisan
karakteristik dari sepuluh barisan karakteristik sebagai berikut :
( ) { * + * +
( )
( ) { * + * +
( )
Langkah 2. Mempartisi Barisan Karakteristik
24
Barisan karakteristik ( ) yang diperoleh akan dibagi menjadi sebanyak
subbarisan karakteristik, dengan anggota bilangan bulat positif. Partisi barisan
karakteristik ke dari dinotasikan Sub . Sub terdiri dari ⌊ ⌋
pertama dari .
Langkah 3. Mengekstraksi Vektor Fitur
Pada tahap ini, subbarisan karakteristik yang diperoleh sebelumnya
digambarkan sebagai vektor masukan berdasarkan deskriptor komposisi dan
deskriptor transisi. Deskriptor komposisi sebagai deskriptor pertama
mendeskripsikan banyaknya „0‟ dan „1‟ di setiap subbarisan karakteristik,
sedangkan deksriptor transisi sebagai deskriptor kedua mendeskripsikan
penjumlahan dari banyaknya perpindahan dari „0‟ menjadi „1‟ ataupun sebaliknya
[6].
Apabila 3 langkah metode global encoding telah dilakukan, maka terjadi
perubahan data dari bentuk tekstual menjadi numerik. Setiap barisan asam amino
diubah menjadi 10 barisan karakteristik, merupakan banyaknya partisi dari
barisan karakteristik, dan 3 merupakan hasil vektor fitr dari deskriptor komposisi
dan transisi sehingga masing-masing vektor fitur dari metode ekstraksi global
encoding sebanyak .
Untuk lebih jelasnya berikut diberikan iustrasi sederhana dalam melakukan
ekstraksi fitur menggunakan global encoding. Misalkan barisan asam amino
MPQTVSCNRCWCASRGLSKLFEDCT akan diekstraksi fitur menggunakan
metode global encoding.
a. Transformasi Barisan Asam Amino Protein
1. {C1, C2, C3} vs {C4, C5, C6} = 1011111101111100110110011
2. {C1, C2, C4} vs {C3, C5, C6} = 1000101011111010101110010
3. {C1, C2, C5} vs {C3, C4, C6} = 1000101001111000100111110
4. {C1, C2, C6} vs {C3, C4, C5} = 1100101001111001100110010
25
5. {C1, C3, C4} vs {C2, C5, C6} = 1011111111011110111100011
6. {C1, C3, C5} vs {C2, C4, C6} = 1011111101011100110101111
7. {C1, C3, C6} vs {C2, C4, C5} = 1111111101011101110100011
8. {C1, C4, C5} vs {C2, C3, C6} = 1000101011011010101101110
9. {C1, C4, C6} vs {C2, C3, C5} = 1100101011011011101100010
10. {C1, C5, C6} vs {C2, C3, C4} = 1100101001011001100101110
b. Mempartisi Subbarisan Karakteristik
Misalkan yang dipartisi adalah 2 barisan karakteristik pertama. Misalkan .
Sehingga diperoleh 5 subbarisan karakteristik dari setiap barisan karakteristik
pertama dan kedua.
Lima subbarisan karakteristik dari barisan karakteristik pertama :
Sub =
Sub =
Sub =
Sub =
Sub =
Lima subbarisan karakteristik dari barisan karakteristik kedua :
Sub =
Sub =
Sub =
Sub =
Sub =
c. Mengekstraksi Vektor Fitur
26
Pada tahap ini dihitung deskriptor komposisi dan deskriptor transisi. Misalkan
yang akan diekstraksi adalah subbarisan karakteristik diperoleh :
Deskriptor komposisi
dan
Deskriptor Transisi
Sehingga fitur vektor dari subbarisan adalah , -
Berikut diagram alur global encoding
Mulai
Data barisan asam
amino
Golden Dataset
Transformasi menjadi 10
barisan karakteristik
Sub barisan karakteristik
* +
Mengekstraksi Vektor
Fitur
Dataset Hasil Global
Encoding
Selesai
Membentuk 10 kelompok
yang terbagi menjadi 3
kelas berbeda berisi 2 sub
himpunan
Gambar 3.1 Diagram Alur Global Encoding
27
3.3 Extreme Learning Machine
Extreme Learning Machine (ELM) pertama kali diperkenalkan oleh Huang,
Zhu, dan Siew pada tahun 2006 sebagai algoritma untuk Single Hidden Layer
Feedforward Neural Network [6]. FNN dalam melakukan proses pembelajaran
menggunakan sebuah algoritma Backpropagatiopn (BP) untuk mencari solusi dari
menyelesaikan SLFN secara iterasi berdasarkan persamaan berikut :
( )
(3.3)
Dimana merupakan bobot baru dan bobot awal yang akan
dioptimalkan. ( )
merupakan turunan dari error terhadap variabel W.
Perhatikan bahwa sebuah learning rate. Beberapa kelemahan dari algoritma BP
diantaranya [6] :
1. Ketika learning rate awal terlalu kecil, konvergen algoritma pembelajaran
menjadi sangat lambat. Sebaliknya, apabila learning rate awal terlalu besar,
algoritma menjadi tidak stabil bahkan menjadi menyimpang (divergen).
2. Pada saat proses pembelajaran, error surface algoritma BP hanya mencapai
nilai minimum lokal. Sesuatu yang tidak diinginkan bahwa algoritma BP
hanya berhenti sampai minimum lokal bukan pada minimum global.
3. Membutuhkan kompleksitas waktu yang tinggi
Extreme Learning Machine diperkenalkan untuk menangani permasalahan
pada FNN tersebut. Menurut Huang, Zhu, dan Shiew pada tahun 2006, model ini
memiliki kelebihan yaitu menghasilkan performa yang lebih tinggi dan waktu
pembelajaran yang lebih cepat daripada SVM dan FNN seperti backpropagation.
Hal tersebut dikarenakan dalam proses pelatihan, bobot akhir ditentukan
berdasarkan matriks Moore-Penrose generalized inverse. Tak seperti metode
backpropagation, penentuan bobot dan bias yang optimal akan diuji secara
iteratif. Namun menurut Huang, Song, dan You pada tahun 2014, metode ini juga
memiliki kelemahan ketika menentukan banyaknya neuron di hidden layer yang
tidak sesuai mengakibatkan model mengalami overfitting [12].
28
Extreme Learning Machine merupakan salah satu model dari jaringan syaraf
tiruan feedforward yang memiliki satu hidden layer dan merupakan model dari
pembelajaran terawasi [12]. Itulah sebabnya ELM disebut juga single hidden
layer feedforward neural netwoks. Prinsip kerja ELM yaitu semua parameter pada
jaringan tidak seluruhnya diuji secara iteratif, melainkan mempelajari bobot antara
hidden layer dan output layer [6]. Dengan digunakannya fungsi aktivasi dan
matriks Moore-Penrose generalized inverse, ELM dapat menghasilkan parameter
bobot dari hidden layer ke output layer yang optimal.
Misalkan himpunan data dengan banyaknya observasi dan peubah
bebas. Misalkan , - vektor target. Parameter yang dicari pada
metode ini adalah bobot dan bias optimal yang mengalirkan sinyal dari setiap
neuron di semua layer. Tahap awal dari metode ini adalah menginisialisasikan
sembarang bobot pada input layer ke- menuju hidden layer ke- . Pada saat di
hidden layer terjadi perhitungan fungsi aktivasi yang digunakan untuk
menonlinearkan model. Kemudian bobot dari hidden layer menuju output layer
dihitung menggunakan matriks Moore-Penrose generalized inverse. Secara
sederhana, ELM dilakukan melalui tiga tahap sebagai berikut :
1. Inisialisai secara acak vektor bobot dan bias , dimana
2. Menghitung keluaran hidden layer berupa matriks .
Setiap neuron pada input layer menerima sinyal kemudian mengalirkan sinyal
tersebut pada setiap neuron di hidden layer sampai output layer. adalah
fungsi output untuk menyebarkan sinyal dari input layer ke hidden layer.
( )
merupakan hasil kali titik antara matriks dan vektor bobot .
= bobot bias dari input layer ke hidden layer
= data dari input layer
= bobot dari input layer ke menuju hidden layer ke
29
Kemudian diaktifkan dengan fungsi aktivasi sigmoid biner untuk
menentukan matriks yang berisi output masing masing neuron hidden
layer.
( )
( )
Adapun matriks dapat dihitung sebagai berikut :
[
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
](3.6)
3. Menghitung keluaran bobot .
Kemudian dihitung matriks Moore-Penrose generalized inverse dari .
Matriks yang memiliki ordo digunakan untuk menentukan nilai
yang merupakan bobot dari hidden layer ke output layer. Nilai dapat
ditentukan dengan mengalikan matriks dan vektor target . Dapat ditulis
sebagai berikut :
( )
Setelah itu, menyebarkan sinyal kembali ke output layer dengan fungsi output
.
( ) ( )
dengan :
= fungsi output untuk output layer
= bobot antara hidden layer ke dengan output layer
( ) = fungsi aktivasi
Kemudian diaktifkan dengan fungsi aktivasi sigmoid biner dari untuk
memperoleh nilai output .
30
Berikut merupakan jaringan dari extreme learning machine :
Gambar 3.2 Jaringan Arsitektur Extreme Learning Machine
Tahap-tahap ELM akan mudah dipahami pada ilustrasi data sederhana berikut :
Tabel 3.2 Data Ilustrasi Extreme Learning Machine
Variabel Prediktor
Variabel Target
0 1 1
1 0 0
1 1 1
1
31
Langkah 1 :
Membuat jaringan feedforward dengan unit input yaitu dan , terdapat 1
lapisan tersembunyi yang memiliki 2 neuron dan unit output.
Langkah 2 :
Inisialisasikan semua bobot dan bias dari input layer ke hidden layer dengan
bilangan acak kecil. Misalkan bilangan acak kecil yang diperoleh sebagai berikut :
Tabel 3.3 Bobot Awal dari Data Ilustrasi
Langkah 3 :
Menghitung Output unit hidden berdasarkan persamaan ( )
Untuk
(3.9)
= [
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
]
= [
] (3.10)
32
Untuk
(3.11)
= [
( ) ( )( ) ( ) ( ) ( )( ) ( ) ( ) ( )( ) ( )
]
= [
] (3.12)
Diperoleh matriks Z = [
] (3.13)
Langkah 4 : Diaktifkan menggunakan fungsi aktivasi. Pada ilustrasi ini digunakan
fungsi aktivasi sigmoid biner berdasarkan Tabel 2.1 nomor 2.
[
]
[
] (3.14)
Langkah 5 :Menentukan dekomposisi matriks menggunakan Singular
Value Decomposition berdasarkan persamaan (2.8) diperoleh
[
] (3.15)
[
] (3.16)
[
] (3.17)
33
Langkah 6 : Menghitung persamaan Moore-Penrose generalized inverse untuk
mencari bobot optimal menggunakan persamaan ( ).
= [
] (3.18)
Langkah 7 : Menghitung matriks (bobot antara hidden layer dan output layer)
berdasarkan persamaan ( ). Melalui langkah ini juga, vektor target
ditransformasi dimana label tidak berinteraksi 0 akan berubah menjadi -1,
sedangkan label berinteraksi tetap menjadi 1.
[
] [ ]
= 0
1 (3.19)
Langkah 8 : Menghitung nilai output berdasarkan persamaan ( )
[
] 0
1
[
] (3.20)
Langkah 9 : Mengklasifikasikan setiap kelas dengan mencari selisih terkecil
matriks dengan target
Tabel 3.4 Hasil Klasifikasi dari Data Ilustrasi
Selisih Kelas Awal Kelas
Akhir 1 -1
1,216358074 0,216358074 2,216358 1
-0,25453404 1,25453404 0,745466 -1
0,079788652 0,92021135 1,079789 1
34
Berikut diagram alur dari metode ELM
Gambar 3.3 Diagram Alur Extreme Learning Machine
3.4 Alur Penelitian
Alur penelitian dari penelitian sebagai berikut :
Langkah 1. Mempersiapkan data
1. Mengunduh dataset interaksi protein HIV dengan manusia beserta BAA
https://www.ncbi.nlm.nih.gov/genome/viruses/retroviruses/hiv-
1/interactions/browse/. Dataset interaksi protein HIV dari web tersebut
sebanyak 18.069 data. Dataset ini diseleksi dengan hanya mengambil
Mulai
Membagi Data
Training dan Testing
Inisialisasi bobot
dan bias awal
Proses feedforward
Menentukan bobot
akhir menggunakan
Matriks Moore-
Penrose generalized
Inverse
Menghitung
keluaran dari hidden
layer
Data Training
sebanyak 70%
Data Testing
sebanyak 30%
Memperoleh hasil
bobot optimal
Hasil Prediksi Data
Testing
Selesai
35
sebuah pasangan protein tanpa memperhatikan perbedaan tipe interaksi dan
menjadikannya sebagai dataset berinteraksi. Dataset berinteraksi diperoleh
sebanyak 6.046 pasang data.
2. Mengunduh dataset protein manusia beserta asam aminonya dari situs
https://www.ncbi.nlm.nih.gov/genome/guide/human/. Dataset ini diseleksi
dengan memilih protein manusia yang tidak terdapat pada dataset
berinteraksi secara acak dan menjadikannya sebagai dataset tidak
berinteraksi. Dataset tidak berinteraksi diperoleh sebanyak 6.046 pasang
data.
3. Memberikan kelas atau target pada setiap pasangan protein yang
berinteraksi diberi angka 1, sedangkan yang tidak berinteraksi diberi angka
0.
4. Memperoleh golden dataset dengan kriteria; menghapus pasangan barisan
asam amino yang mempunyai kemiripan , dan menghapus barisan
asam amino yang mempunyai panjang kurang dari residu. Dari golden
dataset diperoleh sebanyak 12093 pasang data.
5. Melakukan ekstraksi fitur golden dataset menggunakan global encoding
dengan
Langkah 2. Melakukan visualisasi data. Visualisasi data yang dipilih untuk
melihat karakteristik data hasil global encoding.
Langkah 3. Melakukan prediksi interaksi protein menggunakan model extreme
learning machine.
1. Menentukan banyaknya neuron pada hidden layer.
2. Inisialisasi bobot dan bias awal.
3. Melakukan proses feedforward dari input layer menuju hidden layer.
Kemudia menghitung keluaran dari hidden layer.
4. Menentukan bobot berdasarkan matix moore-penrose generalized inverse.
Kemudian menghitung keluaran dari output layer.
Langkah 4. Menghitung hasil performa model dan merepresentasikannya
dalam bentuk diagram garis.
36
Langkah 5. Memilih model terbaik dari metode extreme learning machine
dengan melihat performa terbaik berdasarkan confusion matrix
Langkah 6. Menarik kesimpulan
Berikut alur penelitan dari skripsi ini yang direpresentasikan berupa diagram.
Mulai
Golden Dataset
Ekstraksi fitur global
encoding
Selesai
Dataset hasil global
encoding
Membaca karakteristik
data hasil global
encoding
Membangun model
menggunakan Extreme
learning machine
Hasil prediksi
Evaluasi performa
model
Gambar 3.4 Diagram Alur Penelitian
37
BAB IV
HASIL DAN PEMBAHASAN
4.1 Karakteristik Data Hasil Global Encoding
Ekstraksi fitur Global Encoding (GE) pada penelitian ini, memilih parameter
* +. Oleh karena itu, data hasil ekstraksi fitur ini terbagi sebanyak
enam bagian. Karakteristik GE yang dipilih yaitu statistika deskriptif dari data
seperti rata-rata, standar deviasi, Q1, Q2, Q3, nilai minimum dan maksimum.
Sebaran data akan dilihat melalui scatter plot dari data yang ditransformasikan
menjadi dua fitur. Tidak hanya itu, korelasi antar variabel bebas juga akan dilihat
melalui heatmap korelasi. Seluruh hasil karakteristik data hasil GE akan dilihat
pada setiap parameter . Berikut statistika deskriptif dari masing-masing
parameter GE * + :
Tabel 4.1 Statistika Deskriptif Parameter
Statistika
Desktiptif X1 X2 X3 ... X120
Jumlah
Data 15976 15976 15976 ... 15976
Rata-
rata 0,646546 0,353454 65, 366049 ... 281, 30677
Standar
Deviasi 0,069729 0,069729 63, 923518 ... 277, 15809
Min 0,5 0,191489 12 ... 11
Q1 0,601942 0,280374 22 ... 122
Q2 0,651163 0,348837 46 ... 209
Q3 0,719626 0,398058 97 ... 342
Max 0,808511 0,5 334 ... 4454
38
Tabel 4.2 Statistika Deskriptif Parameter
Statistika
Deskriptif X1 X2 X3 ... X180
Jumlah
Data 15976 15976 15976 ... 15976
Rata-
rata 0,626789 0,373211 44,86167 ... 281,30677
Standar
Deviasi 0,100278 0,100278 41,963057 ... 277,15810
Min 0,470588 0,074074 4 ... 11
Q1 0,535714 0,291925 15 ... 122
Q2 0,63253 0,36747 30 ... 209
Q3 0,708075 0,464286 70 ... 342
Max 0,925926 0,529412 210 ... 4454
Tabel 4.3 Statistika Deskriptif Parameter
Statistika
Deskriptif X1 X2 X3 ... X240
Jumlah
Data 15976 15976 15976 ... 15976
Rata-
rata 0,601934 0,398066 35, 766524 ... 281
Standar
Deviasi 0,128824 0,128824 32, 068181 ... 277
Min 0,384615 0,1 3 ... 11
Q1 0,5 0,266667 12 ... 122
Q2 0,588235 0,411765 24 ... 209
Q3 0,733333 0,5 52 ... 342
Max 0,9 0,615385 158 ... 4454
Tabel 4.4 Statistika Deskriptif Parameter
Statistika
Deskriptif X1 X2 X3 ... X300
Jumlah
Data 15976 15976 15976 ... 15976
Rata-
rata 0,586922 0,413078 28, 092643 ... 281, 25803
39
Standar
Deviasi 0,138639 0,138639 25, 432316 ... 277, 08837
Min 0,411765 0,125 3 ... 11
Q1 0,473684 0,282609 10 ... 122
Q2 0,59 0,41 18 ... 209
Q3 0,717391 0,526316 41 ... 342
Max 0,875 0,588235 126 ... 4454
Tabel 4.5 Statistika Deskriptif Parameter
Statistika
Deskriptif X1 X2 X3 ... X360
Jumlah
Data 15976 15976 15976 ... 15976
Rata-
rata 0.582169 0.417831 23, 399223 ... 281
Standar
Deviasi 0.156417 0.156417 21, 079077 ... 277
Min 0.357143 0.153846 2 ... 11
Q1 0.437500 0.262500 9 ... 122
Q2 0.578313 0.421687 14 ... 209
Q3 0.737500 0.562500 34 ... 342
Max 0.846154 0.642857 102 ... 4454
Gambar 4.1 Scatter Plot
Gambar 4.1 merupakan scatter plot dari parameter GE . Parameter ini
mempunyai dimensi data , sehingga memiliki dimensi yang cukup
40
tinggi. Oleh karena itu, fitur pada parameter ini dilakukan transformasi
hanya menjadi dua fitur. Berdasarkan gambar 4.1 tersebut dapat dilihat bahwa
pada sebaran data parameter GE ini memiliki pola yang linear baik pada
data yang berinteraksi maupun tidak berinteraksi. Akan tetapi kedua data yang
berinteraksi dan tidak berinteraksi saling bertumpuk di beberapa titik. Tidak
hanya itu, dari gambar tersebut dapat dilihat bahwa terdapat beberapa data yang
letaknya jauh dari kumpulan data yang ada. Hal ini mengindikasikan bahwa pada
data ini beberapa data pencilan (outlier).
Gambar 4.3 Scatter Plot
Gambar 4.2 Scatter Plot
41
Karakteristik GE dan memiliki dimensi 15976 dan
. Sama halnya seperti , dimensi fitur ini akan direduksi
sehingga menjadi hanya dua fitur. Berdasarkan Gambar 4.1 dan Gambar 4.3
tersebut, dapat dilihat bahwa pola dari data dan tidak berbeda
signifikan dengan parameter GE , sehingga dapat disimpulkan bahwa data
ini memiliki pola linear yang saling bertumpuk dibeberapa titik dan data ini
memiliki pencilan.
Berdasarkan Gambar 4.4 dan 4.5, berturut-turut dapat dilihat bahwa
karakteristik GE , dan memiliki kesimpulan yang sama dengan
Gambar 4.4 Scatter Plot
Gambar 4.5 Scatter Plot
42
, dan . Berdasarkan hasil scatter plot dari seluruh parameter GE
* + dapat disimpulkan bahwa sebaran data hasil ekstraksi fitur ini
memiliki pola data yang linear dan data yang berinteraksi maupun tidak
berinteraksi terlihat saling bertumpuk di beberapa titik, serta mengindikasikan
adanya pencilan (outlier).
Tabel 4.6 Nilai Korelasi Hasil Global Encoding
Parameter Variabel Nilai
Korelasi Parameter Variabel
Nilai
Korelasi
X32 X31 -1
X80 X79 -1
X8 X7 -1 X106 X107 -1
X1 X2 -1 X115 X116 -1
X26 X25 -1 X52 X53 -1
X29 X28 -1 X122 X121 -1
... ...
X24 X21 0,999 X147 X150 0,999
X51 X54 0,999 X135 X132 0,999
X18 X15 0,999 X57 X60 0,999
X24 X60 0,999 X60 X150 0,999
X1 X15 1 X1 X1 1
X1 X2 -1
X98 X97 -1
X5 X4 -1 X158 X157 -1
X13 X14 -1 X91 X92 -1
X38 X37 -1 X5 X4 -1
X44 X43 -1 X32 X31 -1
... ...
X72 X33 0,999 X180 X177 0,999
X78 X81 0,999 X54 X51 0,999
43
X24 X27 0,999
X69 X66 0,999
X90 X36 0,999 X180 X72 0,999
X1 X1 1 X1 X1 1
L4
X64 X65 -1
X104 X103 -1
X62 X61 -1
X16 X17 -1
X56 X55 -1
...
X48 X45 0,999
X105 X108 0,999
X30 X33 0,999
X120 X48 0,999
X1 X1 1
Tabel 4.6 merupakan tabel nilai korelasi lima terendah dan tertinggi antar
variabel bebas dari setiap parameter GE dengan * +. Terlihat bahwa
data hasil ekstraksi fitur global encoding memiliki nilai korelasi yang tinggi yang
mendekati 1 dan -1. Hal ini menandakan bahwa hasil ekstraksi fitur GE memiliki
hubungan linear yang kuat pada setiap dua variabel bebas yang saling berkorelasi.
Selain itu, nilai korelasi dari setiap variabel bebas akan disajikan dalam bentuk
Heatmap. Berikut Heatmap korelasi dari setiap parameter global encoding .
Gambar 4.6 Heatmap Korelasi
44
Gambar 4.7 Heatmap Korelasi
Gambar 4.8 Heatmap Korelasi
45
Gambar 4.9 Heatmap Korelasi
Gambar 4.10 Heatmap Korelasi
Berdasarkan keenam gambar heatmap korelasi yaitu Gambar 4.6, 4.7, 4.8,
4.9, dan 4.10 dapat dilihat bahwa nilai korelasi negatif ditunjukkan dengan warna
biru muda hingga biru tua. Semakin nilai korelasi antar variabel bebasnya
memiliki nilai korelasi negatif yang mendekati , maka warna matriks yang
ditunjukkan semakin berwarna biru tua. Begitu pula untuk nilai korelasi positif,
semakin warna merah yang ditunjukkan merupakan warna merah muda, maka
nilai korelasi positif memiliki nilai yang mendekati 1. Hal ini dapat dilihat,
bahwasanya banyak terdapat dua variabel bebas yang menunjukkan nilai korelasi
yang mendekati 1 dan -1, sehingga variabel-variabel ini akan dilakukan reduksi
dimensi menggukanakan Principle Component Analysis (PCA).
46
4.2 Data Hasil PCA
Reduksi dimensi dengan menggunakan PCA ini akan direduksi dimensinya
menjadi dua, tiga, empat, dan seterusnya sampai dua puluh fitur. Kemudian hasil
setiap PCA akan dilihat nilai Explained Variance Ratio (EVR), yang selanjutnya
akan dilihat apakah PCA yang ditransformasi sudah mewakili data asli
sebenarnya.
Tabel 4.7 Nilai Explained Variance Ratio
PCA EVR PCA EVR PCA EVR
1 0,787 8 0,0004 14 0,00009
2 0,208 9 0,0003 15 0,00008
3 0,002 10 0,0004 16 0,00006
4 0,0009 11 0,0002 17 0,00005
5 0,0005 12 0,0001 18 0,00004
6 0,0001 13 0,00009 19 0,00005
7 0,0003
Tabel 4.7 merupakan tabel hasil reduksi dimensi pada data GE
menggunakan PCA. Berdasarkan tabel 4.7 dapat dilihat bahwa untuk PCA=2 saja
nilai kumulatif dari EVR yaitu , yang artinya sudah mewakili data
sebenarnya sebanyak . Oleh karena itu, transformasi untuk parameter GE
3, , , dan hanya direduksi dimensinya menjadi dua fitur saja
dengan menggunakan PCA. Berikut data hasil yang sudah direduksi dimensinya
menjadi dua fitur :
Tabel 4.8 Data Hasil PCA
PC1 PC2 PC1 PC2
2 -806,427067 -287,962139 5 -1076,064919 -381,668357
-722,778915 -282,204325
-959,127649 -373,633744
-126,777098 -417,602006
-162,174466 -560,103714
47
-147,973756 -419,091779
-195,666514 -562,45768
3 -902,065773 -323,166474 6 -1154,095408 -410,334119
-809,262885 -316,71919
-1028,895949 -401,667742
-139,661316 -470,077026
-172,173057 -601,381283
-164,829418 -471,877868
-211,596731 -604,164369
4 -992,454271 -355,716959
-886,869615 -348,415124
-833,832524 -344,752417
-702,154814 -335,68499
Data hasil PCA ini kemudian akan dilihat karakteristik datanya dengan
melihat statistika deskriptif, sebaran data, dan nilai korelasinya. Berikut statistika
deskriptif dari parameter GE yang sudah direduksi dimensinya menjadi dua fitur
menggunakan PCA.
Tabel 4.9 Statistika Deskriptif PCA dari
Statistika Deskriptif PC1 PC2
Jumlah Data 15976 15976
Rata-rata 3,94179E-14 4,66172E-13
Standar Deviasi 945,1605969 485,610642
Minimum -932,1732931 -482,6787497
Q1 -546,9332387 -350,1948178
Q2 -242,1269966 -185,2123774
Q3 218,6694434 258,4693001
Maksimum 14465,5035 2345,283488
Tabel 4.10 Statistika Deskriptif PCA dari
Statistika Deskriptif PC1 PC2
Jumlah Data 15976 15976
Rata-rata 6,71305E-13 1,90146E-13
48
Standar Deviasi 1054,561439 543,9227704
Minimum -1041,232061 -538,94702
Q1 -610,1884574 -391,8137696
Q2 -269,1556528 -210,7854075
Q3 244,1790609 294,2203503
Maksimum 16171,30418 2626,093667
Tabel 4.11 Statistika Deskriptif PCA dari
Statistika Deskriptif PC1 PC2
Jumlah Data 15976 15976
Rata-rata 1,70866E-13 -1,79312E-13
Standar Deviasi 1157,748517 596,8618221
Minimum -1142,233755 -590,4778738
Q1 -669,6565813 -430,3246446
Q2 -296,5307124 -227,3107546
Q3 267,8479693 319,1314832
Maksimum 17758,51542 2878,261777
Tabel 4.12 Statistika Deskriptif
Statistika Deskriptif PC1 PC2
Jumlah Data 15976 15976
Rata-rata -3,99386E-13 5,32733E-13
Standar Deviasi 1253,981305 646,6493596
Minimum -1236,955906 -639,1185413
Q1 -724,8136063 -465,7316017
Q2 -321,335096 -247,6431227
Q3 289,6365096 343,5471712
Maksimum 19257,50209 3113,899595
49
Tabel 4.13 Statistika Deskriptif
Statistika Deskriptif PC1 PC2
Jumlah Data 15976 15976
Rata-rata -2,17459E-13 8,10752E-13
Standar Deviasi 1344,226249 693,5823997
Minimum -1325,965609 -687,1711113
Q1 -776,8357482 -499,6602032
Q2 -344,4186292 -268,435085
Q3 310,7097174 374,3004401
Maksimum 20630,7332 3343,07353
Berikut nilai hasil korelasi dari setiap variabel bebas yang sudah diekstraksi
fiturnya menjadi dua fitur :
Tabel 4.14 Nilai Korelasi Antar Variabel PC
Parameter
GE Variabel
Variabel
PC1 PC2
PC1 1000000 1,60065E-10
PC2 1,60065E-10 1000000
L3 PC1 PC2
PC1 1000000 -3,4123E-11
PC2 -3,4123E-11 1000000
L4 PC1 PC2
PC1 1000000 -2,9263E-10
PC2 -2,9263E-10 1000000
L5 PC1 PC2
PC1 1,00E+06 -7,94E-11
PC2 -7,94E-11 1,00E+06
L6 PC1 PC2
PC1 1,00E+06 -1,92E-10
PC2 -1,92E-10 1,00E+06
50
Berdasarkan tabel 4.14 dapat dilihat bahwasanya nilai korelasi antar variabel
memiliki nilai yang mendekati 0. Hal ini dapat disimpulkan bahwa data hasil PCA
dari data hasil ekstraksi fitur GE sudah tidak memiliki nilai korelasi tinggi antar
dua variabel bebasnya.
4.3 Hasil Grid Search CV
Model yang digunakan pada penelitian ini adalah Extreme Learning Machine
(ELM). Dalam pembentukan model, dipilih beberapa fungsi aktivasi dan
banyaknya neuron dari hidden layer. Pada penelitian ini, fungsi aktivasi yang
dipilih yaitu fungsi aktivasi sigmoid, tangen hiperbolik (tanh), multiquadric,
triangular basis (tribas), inverse triangular basis (inverse tribas), hard limit
(hardlim), soft limit (softlim), gaussian, dan inverse multiquadric. Kemudian
untuk banyaknya neuron hidden layer yang dipilih yaitu 10, 20, 30, 40, 50, 60, 70,
80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, dan 1000.
Dataset masukan pada model ini merupakan dataset hasil global encoding.
Kemudian dataset tersebut dibagi menjadi data training dan data testing. Data
training dan data testing diperoleh dengan menggunakan metode Hold-Out yang
terbagi menjadi dua bagian, yaitu sebanyak 70% data training dan 30% data
testing.
Hyperparameter model ELM terbaik akan dipilih untuk digunakan pada data
testing. Hyperparameter terbaik dipilih berdasarkan akurasi terbesar dengan
menggunakan algoritma Grid Search CV. Algoritma Grid Search CV digunakan
pada saat pemilihan fungsi aktivasi dan hidden neuron terbaik pada saat proses
training berdasarkan nilai akurasi terbesar dengan menggunakan 10-fold Cross
Validation. Berikut merupakan tabel hasil nilai rata-rata akurasi terbaik yang
diperoleh pada algoritma Grid Search CV pada data tanpa menggunakan PCA
Tabel 4. 15 Hasil Grid Search CV pada Data Tanpa PCA
GE Parameter Terbaik
L Dimensi Neuron Fungsi Aktivasi Rata-rata Akurasi
2 900 Multiquadric 0,695
51
3 600 Multiquadric 0,695
4 1000 Multiquadric 0,696
5 900 Multiquadric 0,695
6 1000 Multiquadric 0,691
Berdasarkan tabel 4.7 terlihat bahwa berdasarkan data train, fungsi aktivasi
terbaik adalah fungsi aktivasi multiquadric, sedangkan neuron hidden terbaik
sebanyak 600, 900, dan 1000 neuron. Adapun nilai akurasi data train di semua
parameter tidak berbeda secara signifikan. Nilai akurasi data train hanya
berkisar kurang lebih 0,69.
Berikut hasil Grid Search CV pada data yang sudah direduksi dimensinya
menggunakan PCA.
Tabel 4. 16 Hasil Grid Search CV pada Data PCA
GE Parameter Terbaik
L Dimensi Neuron Fungsi Aktivasi Rata-rata
Akurasi
2 200 Multiquadric 0,617
3 200 Multiquadric 0,618
4 200 Multiquadric 0,618
5 200 Multiquadric 0,617
6 200 Multiquadric 0,614
Tabel 4.16 merupakan tabel hasil hasil Grid Search CV pada data yang
sudah direduksi dimensi menjadi dua fitur menggunakan PCA. Dengan perlakuan
yang sama dengan data yang tidak dilakukan reduksi menggunakan PCA
kemudian dilakukan pada data yang menggunakan PCA, bahwa fungsi aktivasi
terbaik masih tetap fungsi multiquadric. Akan tetapi, banyaknya neuron pada
hidden layer terbaik pada saat sebanyak 200 neuron.
52
4.4 Hasil Evaluasi Model
Tabel 4.17 Hasil Evaluasi Model Data Tanpa PCA
GE Akurasi Recall Spesifisitas Presisi F1 Score L Dimensi
2 0,695 0,743 0,647 0,684 0,712
3 0,684 0,719 0,646 0,677 0,697
4 0,689 0,724 0,652 0,682 0,702
5 0,694 0,739 0,649 0,685 0,711
6 0,690 0,722 0,657 0,684 0,703
Tabel 4.17 merupakan hasil evaluasi model data testing. Dari tabel di atas,
terlihat bahwa pada saat , nilai akurasi model 69,5%, recall 74,3%,
spesifisitas 64,7%, presisi 68,4%, dan f1 score sebesar 71,2%. Pada saat ,
nilai akurasi model sebesar 68,4%, recall 71,9%, spesifisitas 64,4%, presisi
67,7%, dan f1 score sebesar 69,7%. Kemudian pada saat parameter global
encoding , nilai akurasi model sebesar 68,9%, recall sebesar 72,4%,
spesifisitas 65,2%, presisi 68,2%, dan f1 score sebesar 70,2%. Pada saat
parameter global encoding , nilai akurasi model sebesar 69,4%, recall
73,9%, spesifisitas 64,9%, presisi 68,5%, sedangkan f1 score sebesar 71,1%.
Adapun pada saat parameter global encoding , nilai akurasi model sebesar
69,0%, recall sebesar 72,2%, spesifisitas 65,7%, presisi sebesar 68,4%, dan f1
score sebesar 70,3%.
Berdasarkan tabel di atas, terlihat bahwa nilai akurasi model tertinggi sebesar
69,5% pada saat , atau dengan kata lain, terjadi ketika dimensi datanya
. Adapun nilai akurasi terkecil sebesar 68,4% diperoleh pada saat
, atau dengan kata lain, terjadi ketika dimensi datanya .
Setelah mengevaluasi model pada data awal yang belum direduksi dmensinya
oleh PCA, selanjutnya dibandingkan dengan hasil evaluasi model pada data yang
sudah direduksi dimensinya oleh PCA sebagai berikut :
53
Tabel 4.18 Hasil Evaluasi Model pada Data Dengan PCA
GE Akurasi Recall Spesifisitas Presisi F1 Score L Dimensi
2 0,624 0,699 0,548 0,615 0,655
3 0,615 0,697 0,533 0,606 0,648
4 0,626 0,701 0,546 0,614 0,655
5 0,623 0,694 0,552 0,615 0,652
6 0,620 0,697 0,543 0,611 0,651
Perbedaan parameter yang berbeda juga mengakibatkan berbedanya waktu
pengerjaan dalam membangun model. Dapat dilihat pada tabel berikut:
Tabel 4.19 Total Waktu Pengerjaan Data Tanpa PCA
GE Total Waktu Pengerjaan
(Detik) Standar Deviasi Akurasi
L Dimensi
2 12,67459 0,01539693
3 15,48337 0,014772033
4 14,82264 0,016939463
5 14,00443 0,014171977
6 14,99727 0,01395548
38
Tabel 4.20 Total Waktu Pengerjaan Data dengan PCA
GE Total Waktu Pengerjaan
(Detik)
Standar Deviasi Akurasi
L Dimensi
2 1,223727 0,012473903
3 0,678983 0,012067289
4 1,591441 0,011730479
5 1,877676 0,010669571
6 0,705712 0,00837228
Berdasarkan kedua tabel dapat disimpulkan bahwa parameter global encoding
yang berbeda tidak mepengaruhi secara signifikan dalam peningkatan kinerja
model. Hal tersebut dapat dilihat bahwa untuk semua parameter yang berbeda
nilai akurasi model hanya berkisar 68%. Hal ini menandakan, bahwa dengan
parameter global encoding yang lebih kecil atau dimensi yang kecil, metode
global encoding sudah mampu merepresentasikan barisan asam amino dengan
cukup baik. Peningkatan parameter perlu diperhatikan, dikarenakan semakin
besar parameter mengakibatkan lamanya waktu pengerjaan dalam membangun
sebuah model seperti terlihat pada tabel 4.19 dan 4.20.
Berdasarkan tabel 4.19 dan 4.20, bahwasanya waktu pengerjaan model data
tanpa PCA lebih lama daripada waktu pengerjaan model pada data dengan PCA.
Kemudian dapat disimpulkan bahwa parameter terbaik dari data tanpa dilakukan
reduksi menggunakan PCA pada saat parameter global encoding dengan
nilai akurasi sebesar , recall sebesar , spesifisitas sebesar ,
presisi sebesar , dan f1-score sebesar . Kemudian untuk hasil
evaluasi model terbaik pada data yang dilakukan reduksi menggunakan PCA
terjadi pada saat dengan nilai akurasi sebesar , recall sebesar ,
spesifisitas sebesar , presisi sebesar , dan f1-score sebesar .
Berdasarkan hasil evaluasi model pada data dengan PCA tidak mengalami
peningkatan performa model dengan data tanpa dilakukan PCA. Model ELM itu
39
sendiri memiliki performa lebih tinggi dan kompleksitas waktu lebih cepat
daripada Support Vector Machine (SVM) dab Backpropagation yang diterapkan
pada data hasil ekstraksi fitur global encoding .
Model Akurasi Total Waktu Pengerjaan
(Detik)
ELM 69,5% 12,67459
SVM 61,2% 56,933
BP 65,2% 13,985
51
BAB V
PENUTUP
5.1 Kesimpulan
Karakteristik data hasil global encoding dapat disimpulkan bahwa data ini
memiliki pola data yang linear, akan tetapi kedua data baik pada protein yang
saling berinteraksi maupun protein yang tidak berinteraksi terlihat saling
menumpuk, sehingga data yang dihasilkan tidak bisa dipisahkan secara linear.
Kemudian karakteristik selanjutnya, data ini memiliki pencilan (outlier), serta
memiliki korelasi yang cukup kuat antar dua variabel bebas yang saling
berkorelasi.
Metode ekstraksi fitur global encoding dengan parameter * + dan
model Extreme Learning Machine (ELM) menghasilkan model terbaik pada saat
dengan nilai akurasi sebesar , recall sebesar , spesifisitas
sebesar , presisi sebesar , dan f1-score sebesar . Nilai akurasi
dari model terbaik ini sebesar . Hal tersebut menandakan bahwa model
tersebut dapat memprediksi interaksi antar protein HIV dengan manusia secara
benar di atas 69,5%. Kriteria hasil evaluasi model lainnya yaitu recall di atas
74,3% menunjukkan bahwa model memiliki kemampuan dalam mengenali
observasi positif dengan nilai ketepatan di atas 74,3%. Kemudian untuk nilai
spesifisitas menghasilkan di atas 64,7%, ini menandakan bahwa model memiliki
kemampuan mengenali observasi negatif dengan nilai ketepatan di atas 64,7%.
Dari semua parameter , nilai presisi menghasilkan di atas 68,4% dan nilai f1
score menghasilkan di atas 71,2%.
Data hasil global encoding ini memiliki nilai korelasi yang cukup kuat,
sehingga dilakukan reduksi dimensi menggunakan PCA. Metode ekstraksi fitur
global encoding dengan parameter * + yang sudah direduksi menjadi
dua fitur dan model Extreme Learning Machine (ELM) menghasilkan model
terbaik pada saat dengan nilai akurasi sebesar , recall sebesar
, spesifisitas sebesar , presisi sebesar , dan f1-score sebesar
. Nilai akurasi dari model terbaik ini sebesar 62,6%. Hal tersebut
52
menandakan bahwa model tersebut dapat memprediksi interaksi antar protein HIV
dengan manusia secara benar di atas 62,6%. Kriteria hasil evaluasi model lainnya
yaitu recall sebesar 70,1% menunjukkan bahwa model memiliki kemampuan
dalam mengenali observasi positif dengan nilai ketepatan di atas 70,1%.
Kemudian untuk nilai spesifisitas menghasilkan di atas 54,6%, ini menandakan
bahwa model memiliki kemampuan mengenali observasi negatif dengan nilai
ketepatan di atas 54,6%. Dari semua parameter , nilai presisi menghasilkan di
atas 61,4% dan nilai f1 score menghasilkan di atas 65,5%. Hasil evaluasi model
dari data PCA dan data yang tidak menggunakan PCA, tidak berbeda signifikan.
Performa model ELM pada data tanpa PCA masih sedikit lebih tinggi daripada
performa model ELM pada data dengan PCA. Oleh karena itu, dapat disimpulkan
bahwa PCA yang dilakukan pada data hasil ekstraksi fitur global encoding untuk
prediksi interaksi HIV-1 dengan manusia tidak bisa meningkatkan performa
model Extreme Learning Machine.
5.2 Saran
Berdasarkan penelitian ini, masih terdapat beberapa hal yang perlu
dikembangkan dari penelitian ini. Saran yang diberikan arena hasil karakteristik
data global encoding memiliki pola yang linear, dan saling menumpuk pada kedua
kelas yang berinteraksi dan tidak berinteraksi, sehingga data tidak bisa dipisahkan
secara linear. Oleh karena itu, peneliti menyarankan untuk menggunakan
pembaruan dari model extreme learning machine dengan menerapkan adanya
fungsi kernel.
51
REFERENSI
[1] Minda Azhar, Biomolekul Sel: Karbohidrat, Protein , dan Enzim. Padang:
UNP Press, 2016.
[2] Z.H. You, X. Chen, K.Chan, X. Luo Y.Huang, "Sequence-based Prediction
of Protein-protein Interactions Using Weighted Sparse Representation Model
Combined With Global Encoding," BMC Bioinformatics, pp. 1-11, 2016.
[3] Cristopher M. Bishop, Pattern Recognition and Machine Learning.:
Springer, 2006.
[4] M. Kamber, J. Pei J. Han, Data Mining Concepts and Techniques , 3rd ed.:
Morgan Kaufmann, 2011.
[5] David Kriesel, A Brief Introduction to Neural Networks. Germany, 2005.
[6] S. Song, K. You G.B. Huang, "Extreme Leaning Machines: Theory and
Applications," Neurocomputing, pp. 489-501, 2006.
[7] Byungkyu Park, Xiang Zhou De-Shuang Huang and Kyungsook Han Saud
Alguwaizani, "Predicting Interactions Between Virus and Host Proteins
Using Repeat Pattern and Composition of Amino Acids," Hindawi, 2018.
[8] M.I.S. Musti, A. Bustaman D. Lestari, "Sequenced-Based Prediction of
Protein-protein Interactions Using Ensemble Based Classifier Combined with
Global Encoding in Human Immunodeficiency Virus," in Proceedings of the
3rd International Syposium on Current Progress in Mathematics and Science
(ISCPMS), 2017.
[9] Mohamad I.S. Musti, Susilo Hartono, Shirley Aprilia, Patuan P.
Tampubolon, Dian Lestari Alhadi Bustaman, "Perfomance of Rotation Forest
Ensemble Classifier and Feature Extraction In Predicting Protein Interactions
Using Amino Acid Sequences," BMC Genomics, 2019.
[10] D. Suhartono W. Budiharto, Artificial Intelligence Konsep dan
Penerapannya. Yogyakarta: ANDI, 2014.
[11] Eko Prasetyo, Data Mining Konsep dan Aplikasi Menggunakan MATLAB.
Yogyakarta: ANDI , 2012.
[12] S.Song, K.You G. Huang, "Trends in Extreme Learning Machines: A
Review," Elsevier, pp. 32-48, 2014.
[13] Chris Rorres Howard Anton, Aljabar Linear Elementer Versi Aplikasi. 2004:
Erlangga.
52
[14] Xizhao W., Guiqiang Z., Xu Z. Shuxia L., "Effective Algorithms Of The
Moore-Penrose Inverse Matrices for Extreme Learning Machine," IOS Press,
pp. 743-760.
[15] A. P. Bennett, G. Wills S. Iwan, "Support Vector Machine Parameter
Optimization Using Grid Search and Genetic Algorithm to Improve
Classification Perfomance," TELKOMNIKA, December 2016.
[16] G.I. Webb G. Sammut, Encyclopedia Of Machine Learning And Data Mining
, 2nd ed.: Springer, 2017.
[17] Brigitte E., Kenneth S., Donna R., Kim D., and Roger G. William F.,
"Humman Immunodeficiency Virus Type 1, Human Protein Interaction
Database at NCBI," Nucleid Acid Research, vol. 37, 2008.
[18] Joint United Nations Programme on HIV and AIDS (UNAIDS). (2020,
Januari) Joint United Nations Programme on HIV and AIDS (UNAIDS).
[Online]. http://www.unaids.org
[19] Departemen Kesehatan RI. (2020, Januari) Departemen Kesehatan RI.
[Online]. http://www.depkes.go.id
51
LAMPIRAN
52
Lampiran I. Code Extreme Learning Machine pada data global encoding
#import modul
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from time import time
from sklearn.decomposition import PCA
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_predict, cross_val_score,
train_test_split
from sklearn.metrics import confusion_matrix, classification_report
from sklearn_extensions.extreme_learning_machines.elm import ELMClassifier
import warnings; warnings.simplefilter('ignore')
#load dataset
dataset = pd.read_excel("4.3.2. GE L2 FINAL.xlsx")
dataset.shape
dataset.head()
a = dataset.describe()
a.to_excel('describe_L2.xlsx')
#memisahkan fitur dan label
label = dataset['Y']
fitur = dataset.drop('Y', axis=1)
X = fitur.values
y = label.values
53
#Melihat nilai korelasi menggunakan heatmap
sns.set(style="white")
corr = fitur.corr()
mask = np.zeros_like(corr, dtype=bool)
mask[np.triu_indices_from(mask)] = True
f, ax = plt.subplots(figsize=(11,9))
cmap = sns.diverging_palette(220,10,as_cmap=False)
sns.heatmap(corr,mask=mask,cmap=cmap,square=True, ax=ax)
ax.set_title('Multi-Collinearity of Features')
plt.show()
#Melihat Sebaran Data
Xax=X_pca[:,0]
Yax=X_pca[:,1]
cdict={0:'red',1:'green'}
labl={0:'Tidak Berinteraksi',1:'Berinteraksi'}
marker={0:'*',1:'o'}
alpha={0:.3, 1:.5}
fig,ax=plt.subplots(figsize=(7,5))
fig.patch.set_facecolor('white')
for l in np.unique(label):
ix=np.where(label==l)
ax.scatter(Xax[ix],Yax[ix],c=cdict[l],s=40,
label=labl[l],marker=marker[l],alpha=alpha[l])
# for loop ends
plt.xlabel("First Principal Component",fontsize=14)
54
plt.ylabel("Second Principal Component",fontsize=14)
plt.legend()
plt.show()
#Memisahkan Data Training 70% dan Testing 30%
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,
random_state=0)
#Mendefinisikan fungsi untuk bangun model
def grid_search_wrapper(param_grid, scoring, X_train, X_test, y_train, y_test,
refit_score='accuracy_score'):
elmc = ELMClassifier(rbf_width=0.0, alpha=1.0, random_state=0)
search = GridSearchCV(elmc, param_grid, cv = 10, scoring=scorers,
refit=refit_score, \
n_jobs=-1, return_train_score=True)
search.fit(X_train, y_train)
hasil_gridsearch = {
'rangkuman':pd.DataFrame(search.cv_results_),
'best_estimator': search.best_estimator_,
'best_score_': search.best_score_,
'best_parameters': search.best_params_}
y_pred = search.predict(X_test)
# confusion matrix on the test data.
conf_mat = pd.DataFrame(confusion_matrix(y_test, y_pred),
columns=['pred_neg', 'pred_pos'], index=['neg', 'pos'])
target_names = ['Berinteraksi', 'Tidak Berinteraksi']
55
class_report_test = classification_report(y_test, y_pred,
target_names=target_names, output_dict=True)
class_report_test = pd.DataFrame(class_report_test).transpose()
hasil_test = {
'confusion_matrix': conf_mat,
'class_report_test':class_report_test}
return {'hasil_gridsearch': hasil_gridsearch , 'hasil_test': hasil_test}
#Train Model
param_grid = {'n_hidden' : [10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400,
500, 600, 700, 800, 900, 1000],
'activation_func' : ['sine', 'tanh', 'tribas', 'inv_tribas', 'sigmoid', 'hardlim',
'softlim', 'gaussian', 'multiquadric', 'inv_multiquadric']
}
scorers = {
'precision_score': make_scorer(precision_score),
'recall_score': make_scorer(recall_score),
'spesificity_score': make_scorer(specificity_score),
'accuracy_score': make_scorer(accuracy_score),
'f1_score': make_scorer(f1_score)
}
grid_search_elmc = grid_search_wrapper(param_grid = param_grid, scoring =
scorers, X_train = X_train,
X_test = X_test,
y_train = y_train,
56
y_test = y_test,
refit_score='accuracy_score')
#save hasil grid search di excel file
rangkuman_gridscv =
grid_search_elmc['hasil_gridsearch']['rangkuman'].to_excel('rangkuman_gridscvL
3r.xlsx')
best_estimator_gridscv = grid_search_elmc['hasil_gridsearch']['best_estimator']
best_score_gridscv = grid_search_elmc['hasil_gridsearch']['best_score_'] #rata-
rata nilai akurasi dari 10 fold
best_parameters_gridscv =
grid_search_elmc['hasil_gridsearch']['best_parameters']
print({'best_estimator_gridscv':best_estimator_gridscv,
'best_score_gridscv': best_score_gridscv,
'best_parameters_gridscv': best_parameters_gridscv})
report_hasil_testing =
grid_search_elmc['hasil_test']['class_report_test'].to_excel('report_hasil_testingL3
r.xlsx')
#save model
import pickle
f = open('model_L3r.pckl', 'wb')
pickle.dump(grid_search_elmc,f)
f.close()